Python 使用tf-idf算法计算文档关键字权重,并生成词云
创始人
2025-05-28 06:44:41
0

Python 使用tf-idf算法计算文档关键字权重,并生成词云

作者:虚坏叔叔
博客:https://xuhss.com

早餐店不会开到晚上,想吃的人早就来了!😄

在这里插入图片描述

1. 根据tf-idf计算一个文档的关键词或者短语:

代码如下:

  1. 注意需要安装pip install sklean
from re import split
from jieba.posseg import dt
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import Counter
from time import time
import jieba#pip install skleanFLAGS = set('a an b f i j l n nr nrfg nrt ns nt nz s t v vi vn z eng'.split())def cut(text):for sentence in split('[^a-zA-Z0-9\u4e00-\u9fa5]+', text.strip()):for w in dt.cut(sentence):if len(w.word) > 2 and w.flag in FLAGS:yield w.wordclass TFIDF:def __init__(self, idf):self.idf = idf@classmethoddef train(cls, texts):model = TfidfVectorizer(tokenizer=cut)model.fit(texts)idf = {w: model.idf_[i] for w, i in model.vocabulary_.items()}return cls(idf)def get_idf(self, word):return self.idf.get(word, max(self.idf.values()))def extract(self, text, top_n=10):counter = Counter()for w in cut(text):counter[w] += self.get_idf(w)#return [i[0:2] for i in counter.most_common(top_n)]return [i[0] for i in counter.most_common(top_n)]if __name__ == '__main__':t0 = time()with open('./nlp-homework.txt', encoding='utf-8')as f:_texts = f.read().strip().split('\n')# print(_texts)tfidf = TFIDF.train(_texts)# print(_texts)for _text in _texts:seq_list=jieba.cut(_text,cut_all=True)  #全模式# seq_list=jieba.cut(_text,cut_all=False)  #精确模式# seq_list=jieba.cut_for_search(_text,)    #搜索引擎模式# print(list(seq_list))print(tfidf.extract(_text))with open('./resultciyun.txt','a+', encoding='utf-8') as g:for i in tfidf.extract(_text):g.write(str(i) + " ")print(time() - t0)

2. 生成词云:

代码如下:

  • 注意需要安装pip install wordcloud
  • 以及为了保证中文字体正常显示,需要下载SimSun.ttf字体,并且将这个字体包也放在和程序相同的目录下;
from wordcloud import WordCloudfilename = "resultciyun.txt"
with open(filename) as f:resultciyun = f.read()wordcloud = WordCloud(font_path="simsun.ttf").generate(resultciyun)
# %pylab inline
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

3 最后词云的图片

在这里插入图片描述

总结

最后的最后
由本人水平所限,难免有错误以及不足之处, 屏幕前的靓仔靓女们 如有发现,恳请指出!

最后,谢谢你看到这里,谢谢你认真对待我的努力,希望这篇博客对你有所帮助!

你轻轻地点了个赞,那将在我的心里世界增添一颗明亮而耀眼的星!

💬 往期优质文章分享

  • C++ QT结合FFmpeg实战开发视频播放器-01环境的安装和项目部署
  • 解决QT问题:运行qmake:Project ERROR: Cannot run compiler ‘cl‘. Output:
  • 解决安装QT后MSVC2015 64bit配置无编译器和调试器问题
  • Qt中的套件提示no complier set in kit和no debugger,出现黄色感叹号问题解决(MSVC2017)
  • Python+selenium 自动化 - 实现自动导入、上传外部文件(不弹出windows窗口)

🚀 优质教程分享 🚀

  • 🎄如果感觉文章看完了不过瘾,可以来我的其他 专栏 看一下哦~
  • 🎄比如以下几个专栏:Python实战微信订餐小程序、Python量化交易实战、C++ QT实战类项目 和 算法学习专栏
  • 🎄可以学习更多的关于C++/Python的相关内容哦!直接点击下面颜色字体就可以跳转啦!
学习路线指引(点击解锁)知识定位人群定位
🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
💛Python量化交易实战 💛入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统
❤️ C++ QT结合FFmpeg实战开发视频播放器❤️难度偏高分享学习QT成品的视频播放器源码,需要有扎实的C++知识!
💚 游戏爱好者九万人社区💚互助/吹水九万人游戏爱好者社区,聊天互助,白嫖奖品
💙 Python零基础到入门 💙Python初学者针对没有经过系统学习的小伙伴,核心目的就是让我们能够快速学习Python的知识以达到入门

🚀 资料白嫖,温馨提示 🚀

关注下面卡片即刻获取更多编程知识,包括各种语言学习资料,上千套PPT模板和各种游戏源码素材等等资料。更多内容可自行查看哦!

请添加图片描述

相关内容

热门资讯

“道远知骥”的意思 “道远知骥”的意思 成语拼音: [dào yuǎn zhī jì] ...
优化外贸网站,SEO提升,轻松... 优化外贸网站,SEO提升,是外贸从业者们需要关注的一个重要话题。 SEO...
“良莠不齐”的意思 “良莠不齐”的意思 成语拼音: [liáng yǒu bù qí] ...
“争长竞短”的意思 “争长竞短”的意思 成语拼音: [zhēng cháng jìng duǎn] ...
“杀一警百”的意思 “杀一警百”的意思 成语拼音: [shā yī jǐng bǎi] ...
js中...的用法 参考文章:https://blog.csdn.net/alwyn0721/articl...
SAP MM学习笔记13-SA... SAP中有三种数据, 1,系统数据 2,配置数据ÿ...
刺骨悬梁成语解释 刺骨悬梁成语解释  【成语原文】:刺骨悬梁  【标准发音】:cì gǔ xuán liáng  【繁...
“一派胡言”的意思 “一派胡言”的意思 成语拼音: [yī pài hú yán] ...
动物的三字成语 关于动物的三字成语  成语是中国传统文化的一大特色,有固定的结构形式和固定的说法,表示一定的意义,在...
“黑不溜秋”的意思 “黑不溜秋”的意思 成语拼音: [hēi bù liū qiū] ...
Anaconda tensor... 一. 安装tensorflow 由于Anaconda已经提前安装,其安装教程可以参考网...
计算机科学导论笔记(十二) 目录 十四、数据库 14.1 引言 14.1.1 定义 14.1.2 数据库的优点 14.1.3 ...
“一子出家,九祖升天”的意思 “一子出家,九祖升天”的意思 成语拼音: [yī zǐ chū jiā,jiǔ zǔ s...
“涓滴不遗”的意思 “涓滴不遗”的意思 成语拼音: [juān dī bù yí] ...
“审曲面势”的意思 “审曲面势”的意思 成语拼音: [shěn qǔ miàn shì] ...
“四面出击”的意思 “四面出击”的意思 成语拼音: [sì miàn chū jī] ...
【基础算法】单链表的OJ练习(... 文章目录🍇前言🍎复制带随机指针的链表🍑写在最后 &#...
聊聊「订单」业务的设计与实现 订单,业务的核心模块; 一、背景简介 订单业务一直都是系统研发中的核心...
跳石头 蓝桥杯 364 题目描述一年一度的"跳石头"比赛又要开始了!这项比赛将在一条笔直的河道中进行ÿ...