Skip to content

Latest commit

 

History

History
66 lines (40 loc) · 2.28 KB

README.rst

File metadata and controls

66 lines (40 loc) · 2.28 KB

中文分词器集合

Documentation Status

一些中文分词器的简单封装和集合

Features

  • TODO

使用

from tokenizers_collection.config import tokenizer_registry
for name, tokenizer in tokenizer_registry:
    print("Tokenizer: {}".format(name))
    tokenizer('input_file.txt', 'output_file.txt')

安装

pip install tokenizers_collection

更新许可文件与下载模型

因为其中有些模型需要更新许可文件(比如:pynlpir)或者需要下载模型文件(比如:pyltp),因此安装后需要执行特定的命令完成操作,这里已经将所有的操作封装成了一个函数,只需要执行类似如下的指令即可

python -m tokenizers_collection.helper

注意:

Credits

This package was created with Cookiecutter and the audreyr/cookiecutter-pypackage project template.