You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Usage: python add_tokens.py [original model] [output model] [token list]
[original model]是原始分词器模型的路径,为方便起见,将其包括在内。etc/tokenizer.model
[output model]是修改后的分词器模型的文件路径,不应与[original model]
[token list]是具有以下格式的文本文件的名称:
N normal token
C
U user defined token
UB YW5vdGhlciB1c2VyIHRva2Vu
行以令牌类型开头,然后后跟一个空格,然后是标记值(直到换行符)或后跟一个空格,以指示令牌值是 base64 编码的。看。Btest_list.txt
https://github.com/Ronsor/llama-tools
llama工具
用于玩LLaMA LLM及其分词器的随机工具。
add_tokens.py
用于将标记从文本文件添加到分词器的简单脚本。您可能仍然需要微调模型,以便它了解这些新令牌。需要安装,但不需要(尽管您可能仍然需要它)。protobufsentencepiece
Usage: python add_tokens.py [original model] [output model] [token list]
[original model]是原始分词器模型的路径,为方便起见,将其包括在内。etc/tokenizer.model
[output model]是修改后的分词器模型的文件路径,不应与[original model]
[token list]是具有以下格式的文本文件的名称:
N normal token
C
U user defined token
UB YW5vdGhlciB1c2VyIHRva2Vu
行以令牌类型开头,然后后跟一个空格,然后是标记值(直到换行符)或后跟一个空格,以指示令牌值是 base64 编码的。看。Btest_list.txt
有关令牌类型的信息,请参阅和 https://github.com/google/sentencepiece。sputil/sentencepiece_model.proto
tokenizer_info.py
用于打印分词器的训练配置的简单脚本。
merge_tokenizer.py
用于将分词器模型 B 合并到分词器模型 A 的脚本。这对于微调可能很有用。
The text was updated successfully, but these errors were encountered: