建议新增参数,指定文本分段长度 #22
Statisticss
started this conversation in
Feature requests
Replies: 1 comment 3 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
多谢大佬分享,很好的开源项目!
问题:使用下来发现,现有文档提取器会将一段文字分割成过多段落,基本上每段只有一句话,上下文之间无法形成关联,导致用户输入query进行匹配时总是匹配不到合适的结果
建议:文档提取器新增参数,用户可以自己根据上传文档的内容特性去指定想要分割文本的平均长度,比如100个字符。当然如果能根据上下文语意去自动分割合适长度的段落就更好了 :)
Beta Was this translation helpful? Give feedback.
All reactions