生成的音频与文本对不上 #829

fanlu · 2025-01-03T10:29:12Z

Describe the bug
使用inference_cross_lingual（没有prompt text）时，生成的音频有概率与文本对不上

To Reproduce

from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=True, load_onnx=False, load_trt=False)
prompt_wav = "/mnt/cfs1/asr/database/AM/aishell2/IOS/wav/C0649/IC0649W0359.wav"
prompt_speech_16k = load_wav(prompt_wav, 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual("嗯。", prompt_speech_16k, stream=False)):
    torchaudio.save('error_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

prompt 音频为aishell2中的数据/mnt/cfs1/asr/database/AM/aishell2/IOS/wav/C0649/IC0649W0359.wav

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

生成的音频与文本对不上 #829

生成的音频与文本对不上 #829

fanlu commented Jan 3, 2025

生成的音频与文本对不上 #829

生成的音频与文本对不上 #829

Comments

fanlu commented Jan 3, 2025