想做点什么,想了一晚上,把我最喜欢的小说《亵渎》弄一下吧,就叫它"亵渎补奸计划"。
1.使用python模块jieba做分词
2.词频统计
3.得到小说中出现概率最高的几个词
4.搭配另一个模块WorldCloud,作词云标签
5.载入一张图片,把它做成二维数组,载入词云
6.以××照片为词云背景
把第一章跑了一下:
WordCount 统计词频,打印到文本中 WordCloudSquere 输出词云 WordCloudPlot 以图片位模板输出
但是仅仅这样存在一些问题,很多没有用的词占了很大部分: 所以词性做一下筛选,使用jieba.posseg,第一次去掉很多词性,发现还是有很多不科学的东东,然后保留名词动词,会,说。。。很多也应该去掉,最后干脆只保留名词,效果还不错。