常见问题

这些Wiki已经年久失修，跟不上代码发展，具体问题还是通过issue沟通解决吧。

用户词典(user.dict.utf8)和原生词典(jieba.dict.utf8) 里面含有的词重复会怎样？

jieba.dict.utf8 词典里面的词都带有词频，因为 MPSegment 的分次算法是最大概率分词算法，需要使用词频换算成概率。用户词典没有词频，在载入的时候，程序会给用户词典里所有的词赋予原生词典里的最大词频。在程序中没有判断是否该词已经载入过（先载入jieba.dict.utf8，再载入 user.dict.utf8），所以后者的权重会覆盖前者。可能会造成和预期不符合的切词结果。所以请保持词典之间词语没有重复。

对于特殊字符的特殊规则

分词不只是算法，特殊规则在分词中其实非常重要，细心的人可以试试各种输入法，其实输入法也是做了大量的人工规则。

暂时有如下规则：

对于连续的数字（包括浮点数）会被单独切分出来。
对于连续的字母，也会被单独切分出来。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

常见问题

Clone this wiki locally