关于chatglm2与chatglm数据格式的问题 #104

Kayce001 · 2023-09-23T09:55:21Z

input_ids = [tokenizer.get_command("[gMASK]"),
tokenizer.get_command("sop")] + tokenizer.convert_tokens_to_ids(tokens)请问这行是什么意思，为什么和chatglm版本差别挺大的，为什么可以以现在这种格式写呢？

zengzhongjie · 2023-11-28T10:13:34Z

我也有这个疑问，按这个格式，我们试用效果很差

liucongg · 2024-01-07T10:01:20Z

因为chatglm2和chatglm官方在训练的时候，用的数据格式就不同。PS：两个模型的结构模型也大不相同。一个是prefix-lm一个是causal-lm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于chatglm2与chatglm数据格式的问题 #104

关于chatglm2与chatglm数据格式的问题 #104

Kayce001 commented Sep 23, 2023

zengzhongjie commented Nov 28, 2023

liucongg commented Jan 7, 2024

关于chatglm2与chatglm数据格式的问题 #104

关于chatglm2与chatglm数据格式的问题 #104

Comments

Kayce001 commented Sep 23, 2023

zengzhongjie commented Nov 28, 2023

liucongg commented Jan 7, 2024