Skip to content

Latest commit

 

History

History
26 lines (20 loc) · 1.55 KB

format.md

File metadata and controls

26 lines (20 loc) · 1.55 KB

フォーマット

スキーマはasdc.schema.dialogUtterancesクラス

  • 誤字の修正
    • 元の発話内容に誤字がある場合は、修正を行った.
    • 修正前と修正後の投稿内容は、同じjsonファイル内でそれぞれカラムtexttext_fixedに記載した.
    • text_fixedは、誤植の修正がある場合にのみ、追加されている.誤植の修正がなかったものについては、text_fixedは存在しない.
  • 正規化
    • 元データの発話内のタブ(U+0009)は全てスペース(U+0020)に置換している
    • NFKC正規化している.
  • purposeの割り振り
    • 機械学習用にpurposetrain : dev : test = 0.8 : 0.2 : 0.2となるように割り振っている
    • trainは125対話,devは41対話,testは44対話
  • name
    • operator_1は観光業界での接客経験のあるオペレータ役 (対話ID=001126)
    • operator_2は観光業界での接客経験のないオペレータ役 (対話ID=127210)
    • customer_1からcustomer_35はカスタマー役

文境界付与済みテキスト: data/main/dialog/text/*.tsv

  • 1列目が発話者,2列目が発話内容
  • 発話内容は,改行を (U+2581) ,文境界を (U+2502)で示している