之前抓取了猫眼电影的一些电影的数据,其中包括评论,那么可以用这些评论进行分词统计词的数据量,看出电影的一些关键字

所以这其中会需要使用到分词模块,再配合上云词库生成一张云词图,使用最近上线的巨齿鲨的评论来制作一张云词图

去除掉不需要的一些词性[‘a’,’ad’,’b’,’c’,’d’,’f’,’df’,’m’,’mq’,’p’,’r’,’rr’,’s’,’t’,’u’,’v’,’z’]

列表格式中的元素分别拆分拆分成两个列表name,value = zip(*cut)

那么就变成了name来存储词语  value存储计数

#coding:gbk
import sys
reload(sys)
sys.setdefaultencoding('gbk')
from pyecharts import WordCloud
from collections import Counter
import jieba.posseg as psg

with open('巨齿鲨_coment.txt','r')as f:
    data = f.read()
cut = psg.cut(data)
comment = []
check = ['a','ad','b','c','d','f','df','m','mq','p','r','rr','s','t','u','v','z']
for x in cut:
      if x.flag not in check:
          if len(x.word)>2:
            comment.append(x.word)
cut = Counter(comment).most_common(30)

name,value = zip(*cut)
wordcloud = WordCloud(width=800, height=420)
wordcloud.add("", name, value, word_size_range=[20, 150])
wordcloud.render()