New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我希望在将某个业务领域的知识补充进入模型,这些知识主要是书籍,文档等非结构化的文本,我可以通过微调实现么?具体要怎么实现呢? #642
Comments
参考,看到了就顺带回答,根据个人理解不一定对。
|
方法二确实是效果最佳的方案,但是我拿不到所有的训练数据,拿到了也没那么多算力来训练。 |
并不是要所有的训练数据。你问 @JustinLin610 愿意放出来 0.1% 么..
个人觉得结合 langchain 没啥用, gpt4 目前也无法根据材料,问一个“好问题” 。 |
嗯,指望提供训练数据是不现实,已经开源了训练代码和14b的模型,也不能指望把家底都掏出来。 |
|
gpt4有专门做抽取转sft的接口么,其他模型有类似的不? |
外挂知识库的我在试,用的langchain-chatchat |
应该没有,这个不同领域prompt设计、sft数据设计、应用场景等等区别蛮大,我们是有在几个领域以及wiki数据上使用gpt4配合文本生成sft数据,这个流程可以work,但是耗时耗钱 |
好吧,外挂向量库的方式,我初步尝试,感觉就像是在做模糊搜索,没有很好的跟模型集成在一起 |
|
我看了一下https://github.com/chatchat-space/Langchain-Chatchat 的代码,也外挂知识库跟你们的做法类似,额外选了一个transformer模型用于建立向量库和向量检索,检索到的结果作为提示词的参数输入,效果有,但谈不上理想。模型的回答首先取决于搜索的结果,如果搜索的结果不理想,就GG了。 感谢你的耐心解答,感谢!!! |
方案1有人尝试过吗? |
你好,效果如何? |
您好,请问您训练效果怎么样了,可以简单分享下吗? |
如果是纯文本专业领域的书籍的话,方便的话可以合作一下。我这边跑通了1.8b大小的模型的从0开始的预训练和指令微调过程,想找专业领域书籍测试能否很好的学习专业领域的知识,您这边提供数据,我提供算力和实验,参数可以商量着来。只是为了学习和尝试大模型的训练,数据不敏感的话可以交流一下。 |
你不如找点开源数据集、医疗的、法律的挺多 |
医疗中文的 给发个链接? |
您好,我是陆泽,邮寄已收到,谢谢
|
您好,请问你们的领域文档数据是如何自己制作成sft数据格式(prompt output那种)的呢?除了人工方法有自动生成的方法吗 |
This issue has been automatically marked as inactive due to lack of recent activity. Should you believe it remains unresolved and warrants attention, kindly leave a comment on this thread. |
我希望在某一行业领域对模型进行知识补充和强化,但是我看到咱们官方给的微调主要是基于结构化的提示词来进行的,而我的知识主要以数据和文档这类非结构化的文本数据为主,我需要怎么做才能实现这样的微调呢
The text was updated successfully, but these errors were encountered: