微调数据建议的音频长度 #1070

hoveychen · 2024-05-09T04:09:23Z

不知道有没有人测试过，比如一句30s的音频，是做成1句30s，还是3句10s效果更好？也就是语音切分有没有什么讲究？

hyhuc0079 · 2024-05-15T07:42:11Z

我是尽量长短都提供一定数量的样本。

anitman · 2024-05-18T02:56:53Z

不知道有没有人测试过，比如一句30s的音频，是做成1句30s，还是3句10s效果更好？也就是语音切分有没有什么讲究？

在3s-10s之间选择，尽量每段音频的语速和情绪是一致的，例如一段悲伤的语音就不要包含转换成欢快情绪的片段了，最好不要有一句话说了一半就被截断的情况。超出10s没有意义，很多样本会直接被弃，根本不会生成频谱模型文件，也就不会被纳入到训练过程中。

techNomad136 · 2024-05-21T03:10:11Z

不知道有没有人测试过，比如一句30s的音频，是做成1句30s，还是3句10s效果更好？也就是语音切分有没有什么讲究？

在3s-10s之间选择，尽量每段音频的语速和情绪是一致的，例如一段悲伤的语音就不要包含转换成欢快情绪的片段了，最好不要有一句话说了一半就被截断的情况。超出10s没有意义，很多样本会直接被弃，根本不会生成频谱模型文件，也就不会被纳入到训练过程中。

如果是这样的话，训练出来的模型语速跟情感是不是都是单一的，如果想要多情感？只能分开训练不同模型？

XXXXRT666 · 2024-05-23T00:49:02Z

不知道有没有人测试过，比如一句30s的音频，是做成1句30s，还是3句10s效果更好？也就是语音切分有没有什么讲究？

在3s-10s之间选择，尽量每段音频的语速和情绪是一致的，例如一段悲伤的语音就不要包含转换成欢快情绪的片段了，最好不要有一句话说了一半就被截断的情况。超出10s没有意义，很多样本会直接被弃，根本不会生成频谱模型文件，也就不会被纳入到训练过程中。

你说的这个是参考，训练最长可以用接近一分钟的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

微调数据建议的音频长度 #1070

微调数据建议的音频长度 #1070

hoveychen commented May 9, 2024

hyhuc0079 commented May 15, 2024

anitman commented May 18, 2024

techNomad136 commented May 21, 2024

XXXXRT666 commented May 23, 2024

微调数据建议的音频长度 #1070

微调数据建议的音频长度 #1070

Comments

hoveychen commented May 9, 2024

hyhuc0079 commented May 15, 2024

anitman commented May 18, 2024

techNomad136 commented May 21, 2024

XXXXRT666 commented May 23, 2024