Skip to content
Yanyi Wu edited this page Jan 22, 2016 · 3 revisions

这些Wiki已经年久失修,跟不上代码发展,具体问题还是通过issue沟通解决吧。

  1. 用户词典(user.dict.utf8)和原生词典(jieba.dict.utf8) 里面含有的词重复会怎样?

jieba.dict.utf8 词典里面的词都带有词频, 因为 MPSegment 的分次算法是最大概率分词算法, 需要使用词频换算成概率。 用户词典没有词频,在载入的时候,程序会给用户词典里所有的词赋予原生词典里的最大词频。 在程序中没有判断是否该词已经载入过(先载入jieba.dict.utf8,再载入 user.dict.utf8), 所以后者的权重会覆盖前者。 可能会造成和预期不符合的切词结果。 所以请保持词典之间词语没有重复。

  1. 对于特殊字符的特殊规则

分词不只是算法,特殊规则在分词中其实非常重要,细心的人可以试试各种输入法,其实输入法也是做了大量的人工规则。

暂时有如下规则:

  • 对于连续的数字(包括浮点数)会被单独切分出来。
  • 对于连续的字母,也会被单独切分出来。
Clone this wiki locally