-
Notifications
You must be signed in to change notification settings - Fork 700
常见问题
Yanyi Wu edited this page Jan 22, 2016
·
3 revisions
这些Wiki已经年久失修,跟不上代码发展,具体问题还是通过issue沟通解决吧。
- 用户词典(
user.dict.utf8
)和原生词典(jieba.dict.utf8
) 里面含有的词重复会怎样?
jieba.dict.utf8
词典里面的词都带有词频,
因为 MPSegment 的分次算法是最大概率分词算法,
需要使用词频换算成概率。
用户词典没有词频,在载入的时候,程序会给用户词典里所有的词赋予原生词典里的最大词频。
在程序中没有判断是否该词已经载入过(先载入jieba.dict.utf8
,再载入 user.dict.utf8
),
所以后者的权重会覆盖前者。
可能会造成和预期不符合的切词结果。
所以请保持词典之间词语没有重复。
- 对于特殊字符的特殊规则
分词不只是算法,特殊规则在分词中其实非常重要,细心的人可以试试各种输入法,其实输入法也是做了大量的人工规则。
暂时有如下规则:
- 对于连续的数字(包括浮点数)会被单独切分出来。
- 对于连续的字母,也会被单独切分出来。