🎉 PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS #2492
Replies: 14 comments 37 replies
-
我们目前的中英文混合是用 4 个开源数据进行混合可以实现音色和语言解耦,如果只用 CSMSC 和 LJSpeech 确实音色无法解耦,我们也实验过在 CSMSC + LJSpeech + 1000 条的同一个说话人中英文混合语料训练,也能达到解耦,得到的结论是:
|
Beta Was this translation helpful? Give feedback.
-
有开源方言可直接调用的接口吗? |
Beta Was this translation helpful? Give feedback.
-
@yazone 大佬你好,卡通音色和方言大概用了多少数量的数据啊?另外方言这块例如粤语的声母韵母体系以及MFA使用的是普通话的吗? |
Beta Was this translation helpful? Give feedback.
-
微调后的样例: 3_2.mp4星瞳:(850句) xtdcs.mp4唐国强:(45句) 4.mp4 |
Beta Was this translation helpful? Give feedback.
-
您好,请问有具体的方法(做法)介绍嘛?在音素建模上中英文是怎么处理的呢? |
Beta Was this translation helpful? Give feedback.
-
想问一下大家的卡通人物、明星和不同方言的数据都是从哪里获取的呢? |
Beta Was this translation helpful? Give feedback.
-
想问一下,这个方案,看到的栗子都中英混合的,串音确实没有了。但是有试过纯英文,或者纯中文的吗,会串音吗?例如纯英文的,还是用LJSpeech那把声音。 |
Beta Was this translation helpful? Give feedback.
-
弱弱的问一句,上面的蜡笔小新的音色,有能使用的finetune后的model么 |
Beta Was this translation helpful? Give feedback.
-
@yt605155624 请问加入多speaker的情感语料(离散情感:开心、伤心、中性、厌恶)可以实现,多语言多speaker的情感解耦吗 |
Beta Was this translation helpful? Give feedback.
-
请问下,单发音人方式的中英混合TTS是用的哪个模型呢?也是需要用相关的语料fine-tune吗 |
Beta Was this translation helpful? Give feedback.
-
基于PaddleSpeech/examples/other/tts_finetune /tts3/的readme,在中英混合模型上,如果从BZNSYP中选出来3k条语音微调am模型,loss可以下降到0.7左右,且用微调模型合成语音,声音比较清晰,同样用aishell3的数据集的某个人的声音的多条数据微调,推理模型合成的声音也很清晰,没有沙沙的声音; |
Beta Was this translation helpful? Give feedback.
-
请问下方言是怎么做到的? |
Beta Was this translation helpful? Give feedback.
-
大佬们,请问怎么改源码,可以支持中英文混合模型tts streaming? |
Beta Was this translation helpful? Give feedback.
-
大佬,你训练的方言TTS考虑开源吗? |
Beta Was this translation helpful? Give feedback.
-
实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人语料混合方式、finetune方式。
示例句子:
(一)单发音人方式(有数据才行!)
使用同一发音人中文、英文语料,这种方式效果最佳,听听效果:
中英文女:
default.mp4
中英文男:
default.mp4
(二)多发音人语料混合方式(音色串了!)
有开源数据中文baker、英文ljspeech数据,将数据混合成单发音人训练出一个模型,能听出一句话中文是baker、英文是ljspecch两种音色,我想音色差别不大的时候可以选用这种方式,听听效果:
ZH-EN-001_Baker_AND_LJSpeech.mp4
(三)finetune方式(音色一致了!)
在第一种中英文预训练模型上进行finetune,实现特色语音、动漫语音、方言,效果如下:
特色普通话
Baker说中英文:
bake.mp4
抖音鸡汤女说中英文:
default.mp4
动漫
蜡笔小新说中英文:
default.mp4
海绵宝宝说中英文:
default.mp4
方言
东北话:
-.mp4
广西话:
-.mp4
河南话:
-.mp4
四川话:
-.mp4
天津话:
-.mp4
粤语:
default.mp4
后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证,这样就不需要单发音人的中英文预训练模型了,只需要开源数据就OK了。
×××××××××××PaddleTTS实现起来还是很方便的,感谢各位大佬...××××××××××
Beta Was this translation helpful? Give feedback.
All reactions