-
Notifications
You must be signed in to change notification settings - Fork 299
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
按照作者提供的模型预测结果问题 #17
Comments
使用你提供的模型预测的;代码改成cpu执行的这样的结果 |
我自己训练了一个模型,训练样本基本可以预测准确,但是找一个测试样本测试一下,一点都不准,这过拟合太严重了,但是训练的时候使用了dropout啊,抓狂中 |
训练了多久啊 |
作者的思路是把每个汉字当成一类,也没考虑多音字和同音字吧 |
我训练了大概10天,采用的CPU训练 |
@JohnLee168 过拟合非常严重 预测结果很差 为啥呢? |
我也是的,用的thchs30的test数据训练的,然后拿了train里面的数据测试,效果很差,不知道要怎么改 |
@shanengcn 数据量少了 thchs30的说话人分布不好 加大数据量效果会好一些 |
我也是这种情况,初步推测作者的模型语料的词比较少,可能你的测试语音里出现的字,作者模型里面根本就没有,所以还得自己训练 |
@pergrand
checkpoint文件内容:
能公开下你的预测代码吗? |
这个可能是设置的问题。我的ckpt: None,这个是怎么是怎么设置的? |
读入语音文件: /opt/wav/test/D13/D13_992.wav
开始识别语音数据......
语音原始文本: 山东省 烟台 奥尔 呼 斯 药业 有限公司 近日 研制 成功 外用 降血压 新药 利 压 平 霜
识别出来的文本: 局内但内但阿内碗内碗但内碗但碗内碗局碗章来琼章罔汁碗章局罔碗汁碗章内汁局汁陈迷内碗扬但陈肥碗肥碗来内碗电罔汁来肥来据来罔碗汁章汁碗汁扭汁罔汁碗来碗来汁语汁语碗语碗罔电局琼电琼电章琼来碗汁碗内碗内电无碗章碗汁碗内碗内汁碗来内来陈汁陈内电阿语碗汁碗来碗来罔来罔来陈来陈罔电碗电碗电章碗来碗局碗局引罔来汁来碗来局支章汁碗汁电来碗殖电汁琼很章祖汁来内来罔电罔来罔来锦来肥电碗著碗章碗汁碗汁单来碗来电汁语汁陈碗陈来很碗肥汁碗罔电罔电来电汁西支音
读入语音文件: /opt/wav/test/D13/D13_823.wav
开始识别语音数据......
语音原始文本: 五月 的 一天 下大雨 阳 台上 漏 进 许多 雨水 可 又 没有 排 水洞 只好 一盆盆 往 外 端
识别出来的文本: 电内电内碗罔碗汁碗章来章碗局碗汁局汁碗来碗章碗章碗章碗章碗琼来碗章碗扬碗电碗电罔引碗局碗局来很来碗来碗电扬电扬碗罔碗肥碗内碗章碗局碗局碗章汁碗章碗罔琼汁来汁锦汁碗来局汁碗汁碗汁语碗很碗汁碗汁碗汁碗汁来汁碗汁语扬碗罔碗支碗汁碗汁碗局碗肥碗局碗汁碗来碗来碗罔碗扬碗肥引碗汁碗章碗罔碗罔来罔来支电碗来碗来单内碗汁肥很汁肥汁章碗汁碗汁碗汁碗局碗罔碗局汁局罔局很局汁局引支章碗罔琼罔汁来
The text was updated successfully, but these errors were encountered: