ceval评估chatglm3和qwen1.5模型时，和官方给出的数据相差较大 #2818

hnxtcyj123 · 2024-03-13T02:11:57Z

hnxtcyj123
Mar 13, 2024

我用ceval评估chatglm3和qwen1.5，但是比官方给出的分数要低不少

例如在评估chatglm3时，我的评估脚本：

python src/evaluate.py \
    --model_name_or_path ZhipuAI/chatglm3-6b-base \
    --template vanilla \
    --task ceval \
    --split validation \
    --lang zh \
    --n_shot 0 \
    --batch_size 2

此时分数ceval的分数为65.75，而官方给出的分数为69，在把--n_shot设置为5时分数反而更低了（62.93），请问这是什么原因？是我的脚本设置有问题吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ceval评估chatglm3和qwen1.5模型时，和官方给出的数据相差较大 #2818

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 0 comments

Select a reply

ceval评估chatglm3和qwen1.5模型时，和官方给出的数据相差较大 #2818

hnxtcyj123 Mar 13, 2024

Replies: 0 comments

hnxtcyj123
Mar 13, 2024