llama3词表扩充问题 #43

Atomheart-Father · 2024-05-16T01:56:51Z

模型训练与精调

Llama-3-Chinese-8B-Instruct（指令模型）

Linux

lama3的tokenizer没有使用sentence piece，而是使用tiktoken建立的，请问我如果基于sentencepiece训练中文tokenizer，要怎么和llama3 的已有词表进行合并？或者有什么其他的扩充llama3词表的方式吗？

# 请在此处粘贴依赖情况（请粘贴在本代码块里）

# 请在此处粘贴运行日志（请粘贴在本代码块里）

The text was updated successfully, but these errors were encountered:

Clown4730 · 2024-05-30T02:39:16Z

可以使用tiktoken训练一个新的词表，然后两个合并。

Provide feedback