Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

微调数据建议的音频长度 #1070

Open
hoveychen opened this issue May 9, 2024 · 4 comments
Open

微调数据建议的音频长度 #1070

hoveychen opened this issue May 9, 2024 · 4 comments

Comments

@hoveychen
Copy link

不知道有没有人测试过,比如一句30s的音频,是做成1句30s,还是3句10s效果更好?也就是语音切分有没有什么讲究?

@hyhuc0079
Copy link

我是尽量长短都提供一定数量的样本。

@anitman
Copy link

anitman commented May 18, 2024

不知道有没有人测试过,比如一句30s的音频,是做成1句30s,还是3句10s效果更好?也就是语音切分有没有什么讲究?

在3s-10s之间选择,尽量每段音频的语速和情绪是一致的,例如一段悲伤的语音就不要包含转换成欢快情绪的片段了,最好不要有一句话说了一半就被截断的情况。超出10s没有意义,很多样本会直接被弃,根本不会生成频谱模型文件,也就不会被纳入到训练过程中。

@techNomad136
Copy link

不知道有没有人测试过,比如一句30s的音频,是做成1句30s,还是3句10s效果更好?也就是语音切分有没有什么讲究?

在3s-10s之间选择,尽量每段音频的语速和情绪是一致的,例如一段悲伤的语音就不要包含转换成欢快情绪的片段了,最好不要有一句话说了一半就被截断的情况。超出10s没有意义,很多样本会直接被弃,根本不会生成频谱模型文件,也就不会被纳入到训练过程中。

如果是这样的话,训练出来的模型语速跟情感是不是都是单一的,如果想要多情感?只能分开训练不同模型?

@XXXXRT666
Copy link
Contributor

不知道有没有人测试过,比如一句30s的音频,是做成1句30s,还是3句10s效果更好?也就是语音切分有没有什么讲究?

在3s-10s之间选择,尽量每段音频的语速和情绪是一致的,例如一段悲伤的语音就不要包含转换成欢快情绪的片段了,最好不要有一句话说了一半就被截断的情况。超出10s没有意义,很多样本会直接被弃,根本不会生成频谱模型文件,也就不会被纳入到训练过程中。

你说的这个是参考,训练最长可以用接近一分钟的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants