Skip to content

Latest commit

 

History

History
118 lines (101 loc) · 4.26 KB

README.md

File metadata and controls

118 lines (101 loc) · 4.26 KB

乡音汉语方言数据集

数据

乡音方言数据集语音数据来源于乡音 APP(XiangYin.Mobi)用户上传的语音,在现阶段经整理以CC BY-NC-SA协议发布(不可用于商用,衍生品也须使用同协议,转载请保留全部信息和 GitHub 页面链接)。如有商用需求,请联系 [email protected]

v1 数据包含了 2015-2024年9月用户上传的读句子的语音(未包含看图说话),经过 VAD 处理以减少静音时间,共计约81个小时,7719个用户。包含了投票数,未包含用户相互验证数据,以 ogg 格式发布。采样率取决于用户设备,通常为 16kHz 或 44.1kHz。

请填表以获取数据:链接。如有问题或建议,请提 Issue 或发邮件讨论。

引用链接:

@misc{xiangyin24,
  author       = {Xing Chen},
  title        = {The XiangYin Chinese Dialect Dataset},
  howpublished = {\url{https://github.com/cxcxcxcx/xiangyin_dataset}},
  year         = 2024
}

数据验证:

$ sha256sum xiangyin_dataset_v1_20240928.tar
749ff4f8d3f2f6d2b34031c213a457f1d3429530ea7d0659d7c6e7aa7af4a12b  xiangyin_dataset_v1_20240928.tar

数据格式

Metadata.CSV

列名 数据类型 描述
id 整数 语音样本的唯一标识符
sound_length 浮点数 语音样本的时长(秒)
votes 整数 语音样本获得的投票数
full_url 字符串 语音样本在乡音网页版 (https://web.xiangyin.mobi) 上的完整 URL
date 日期 语音样本上传月份
same_text 字符串 用户输入:描述该语音样本是否与文字匹配
uploader_id 整数 上传者的用户 ID
uploader.gender 字符串 用户输入:上传者的性别
uploader.birth_year 浮点数 用户输入:上传者的出生年代(精度10年)
dialect.province 字符串 用户输入:语音样本的省份
dialect.city 字符串 用户输入:语音样本的城市
dialect.name 字符串 省市结合的短名称
dialect.location_json.lat 浮点数 用户输入:语音样本采集地的纬度(精度0.1度)
dialect.location_json.lng 浮点数 用户输入:语音样本采集地的经度(精度0.1度)
dialect.is_living 布尔值 用户输入:上传人上传时是否在该地居住
dialect.is_hometown 布尔值 用户输入:上传人是否在该地长大
sentence.source.type 字符串 语句来源的类型(如:日常用语、诗词)
sentence.source.name 字符串 语句来源的具体名称(如:《陋室铭》)
sentence.text 字符串 语音样本对应的文本内容
sentence.id 浮点数 语句的 ID

数据概览

按省级行政区划分的语音数

省级行政区 语音数 用户数
广东省 3001 746
江苏省 1948 542
湖南省 1823 530
河南省 1676 543
浙江省 1612 441
湖北省 1488 377
四川省 1450 523
福建省 1398 359
山东省 1372 468
江西省 1324 351
安徽省 1130 350
河北省 939 278
陕西省 933 296
山西省 727 231
重庆市 660 218
广西壮族自治区 640 213
贵州省 519 141
辽宁省 497 174
云南省 463 134
上海市 439 116
北京市 408 124
甘肃省 360 129
黑龙江省 347 138
吉林省 280 93
台湾 272 21
内蒙古自治区 230 73
天津市 224 72
台湾省 177 30
香港 153 45
海南省 145 52
新疆维吾尔自治区 132 47
宁夏回族自治区 71 31
青海省 50 23
西藏自治区 10 7

性别

性别 语音数 用户数
16608 4416
8034 2579

出生年代

出生年代 语音数 用户数
1990.0 12426 3372
2000.0 8675 2554
1980.0 3672 943
1970.0 719 230
2010.0 668 210
1910.0 225 91
1960.0 195 76
1940.0 114 60
1950.0 114 61
1930.0 111 42
2020.0 92 27
1920.0 72 35