乡音方言数据集语音数据来源于乡音 APP(XiangYin.Mobi)用户上传的语音,在现阶段经整理以CC BY-NC-SA协议发布(不可用于商用,衍生品也须使用同协议,转载请保留全部信息和 GitHub 页面链接)。如有商用需求,请联系 [email protected] 。
v1 数据包含了 2015-2024年9月用户上传的读句子的语音(未包含看图说话),经过 VAD 处理以减少静音时间,共计约81个小时,7719个用户。包含了投票数,未包含用户相互验证数据,以 ogg 格式发布。采样率取决于用户设备,通常为 16kHz 或 44.1kHz。
请填表以获取数据:链接。如有问题或建议,请提 Issue 或发邮件讨论。
引用链接:
@misc{xiangyin24,
author = {Xing Chen},
title = {The XiangYin Chinese Dialect Dataset},
howpublished = {\url{https://github.com/cxcxcxcx/xiangyin_dataset}},
year = 2024
}
数据验证:
$ sha256sum xiangyin_dataset_v1_20240928.tar
749ff4f8d3f2f6d2b34031c213a457f1d3429530ea7d0659d7c6e7aa7af4a12b xiangyin_dataset_v1_20240928.tar
列名 | 数据类型 | 描述 |
---|---|---|
id | 整数 | 语音样本的唯一标识符 |
sound_length | 浮点数 | 语音样本的时长(秒) |
votes | 整数 | 语音样本获得的投票数 |
full_url | 字符串 | 语音样本在乡音网页版 (https://web.xiangyin.mobi) 上的完整 URL |
date | 日期 | 语音样本上传月份 |
same_text | 字符串 | 用户输入:描述该语音样本是否与文字匹配 |
uploader_id | 整数 | 上传者的用户 ID |
uploader.gender | 字符串 | 用户输入:上传者的性别 |
uploader.birth_year | 浮点数 | 用户输入:上传者的出生年代(精度10年) |
dialect.province | 字符串 | 用户输入:语音样本的省份 |
dialect.city | 字符串 | 用户输入:语音样本的城市 |
dialect.name | 字符串 | 省市结合的短名称 |
dialect.location_json.lat | 浮点数 | 用户输入:语音样本采集地的纬度(精度0.1度) |
dialect.location_json.lng | 浮点数 | 用户输入:语音样本采集地的经度(精度0.1度) |
dialect.is_living | 布尔值 | 用户输入:上传人上传时是否在该地居住 |
dialect.is_hometown | 布尔值 | 用户输入:上传人是否在该地长大 |
sentence.source.type | 字符串 | 语句来源的类型(如:日常用语、诗词) |
sentence.source.name | 字符串 | 语句来源的具体名称(如:《陋室铭》) |
sentence.text | 字符串 | 语音样本对应的文本内容 |
sentence.id | 浮点数 | 语句的 ID |
按省级行政区划分的语音数
省级行政区 | 语音数 | 用户数 |
---|---|---|
广东省 | 3001 | 746 |
江苏省 | 1948 | 542 |
湖南省 | 1823 | 530 |
河南省 | 1676 | 543 |
浙江省 | 1612 | 441 |
湖北省 | 1488 | 377 |
四川省 | 1450 | 523 |
福建省 | 1398 | 359 |
山东省 | 1372 | 468 |
江西省 | 1324 | 351 |
安徽省 | 1130 | 350 |
河北省 | 939 | 278 |
陕西省 | 933 | 296 |
山西省 | 727 | 231 |
重庆市 | 660 | 218 |
广西壮族自治区 | 640 | 213 |
贵州省 | 519 | 141 |
辽宁省 | 497 | 174 |
云南省 | 463 | 134 |
上海市 | 439 | 116 |
北京市 | 408 | 124 |
甘肃省 | 360 | 129 |
黑龙江省 | 347 | 138 |
吉林省 | 280 | 93 |
台湾 | 272 | 21 |
内蒙古自治区 | 230 | 73 |
天津市 | 224 | 72 |
台湾省 | 177 | 30 |
香港 | 153 | 45 |
海南省 | 145 | 52 |
新疆维吾尔自治区 | 132 | 47 |
宁夏回族自治区 | 71 | 31 |
青海省 | 50 | 23 |
西藏自治区 | 10 | 7 |
性别 | 语音数 | 用户数 |
---|---|---|
男 | 16608 | 4416 |
女 | 8034 | 2579 |
出生年代 | 语音数 | 用户数 |
---|---|---|
1990.0 | 12426 | 3372 |
2000.0 | 8675 | 2554 |
1980.0 | 3672 | 943 |
1970.0 | 719 | 230 |
2010.0 | 668 | 210 |
1910.0 | 225 | 91 |
1960.0 | 195 | 76 |
1940.0 | 114 | 60 |
1950.0 | 114 | 61 |
1930.0 | 111 | 42 |
2020.0 | 92 | 27 |
1920.0 | 72 | 35 |