-
Notifications
You must be signed in to change notification settings - Fork 254
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
使用turbomind部署CodeQwen1.5模型,推理效果变差 #1580
Comments
有没有可能不用 TP 试试? |
单卡同样会出现重复的问题,推理结果跟方式2的输出一样 |
采样参数和官方对齐下呢?
|
可以看到代码逻辑混乱,基本是不可用的。 |
很抱歉,目前暂无人力跟进和处理这个问题,我们先记录下。等冲刺完下一个版本,我们再来处理。 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
本地环境:
cuda: 11.8
python: 3.11
transformers: 4.39.3
lmdeploy: 0.4.0
torch: 2.2.1
问题描述:
我使用以下命令启动部署了CodeQwen1.5-7b模型的服务,在测试的过程中发现。模型推理生成的回复相较于从本地直接使用huggingface transformers加载推理的结果,效果肉眼可见的变差,推理生成的回复中频繁出现循环重复的情况。
启动命令:
lmdeploy serve api_server ./CodeQwen1.5-7B/ --server-name 0.0.0.0 --server-port 8001 --session-len 4096 --max-batch-size 10 --tp 2
对比实例如下:
输入:
方式1:使用huggingface transformers 本地加载推理
结果:
方式2:使用lmdeploy serve api_server命令部署服务,并用APIClient调用做推理,推理参数如下:
结果:
我另使用codellam-7b模型在同样的环境下,同样的命令,同样的调用方式做了对比,不会像CodeQwen1.5-7b模型一样出现循环重复的情况,我使用多个例子做了测试,结果多有类似上面的情况。
以上即是问题描述,盼回复,谢谢~
The text was updated successfully, but these errors were encountered: