阅读笔记：TF - IDF 原理_资讯

阅读笔记：TF - IDF 原理

创始人

2024-05-28 19:44:55

0次

今天查阅 TF-IDF 资料，发现百度百科里面提供了一个例子，解释的很清楚，记下来备用。

原文链接：https://baike.baidu.com/item/tf-idf/8816134?fr=aladdin

例子：在某个一共有一千词的网页中 “原子能”、“的” 和 “应用” 分别出现了 2 次、35 次和 5 次，那么它们的词频就分别是 0.002、0.035 和 0.005。我们将这三个数相加，其和 0.042 就是相应网页和查询“原子能的应用” 相关性的一个简单的度量。

概括地讲，如果一个查询包含关键词 w1,w2,...,wNw_1,w_2,...,w_Nw1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1,TF2,...,TFNTF_1, TF_2, ..., TF_NTF1,TF2,...,TFN。（TF: term frequency)。那么，这个查询和该网页的相关性就是：

TF1+TF2+...+TFNTF_1 + TF_2 + ... + TF_N TF1+TF2+...+TFN

读者可能已经发现了又一个漏洞。在上面的例子中，词 “的”占了总词频的 80% 以上，而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”（Stopwords)，也就是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后，上述网页的相似度就变成了0.007，其中“原子能”贡献了 0.002，“应用”贡献了 0.005。细心的读者可能还会发现另一个小的漏洞。在汉语中，“应用”是个很通用的词，而“原子能”是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重，这个权重的设定必须满足下面两个条件：

一个词预测主题能力越强，权重就越大，反之，权重就越小。我们在网页中看到“原子能”这个词，或多或少地能了解网页的主题。我们看到“应用”一次，对主题基本上还是一无所知。因此，“原子能“的权重就应该比应用大。
应删除词的权重应该是零。

我们很容易发现，如果一个关键词只在很少的网页中出现，我们通过它就容易锁定搜索目标，它的权重也就应该大。反之如果一个词在大量网页中出现，我们看到它仍然不是很清楚要找什么内容，因此它应该小。概括地讲，假定一个关键词 www 在 DwD_wDw 个网页中出现过，那么 DwD_wDw 越大，www 的权重越小，反之亦然。在信息检索中，使用最多的权重是“逆文本频率指数” （Inverse document frequency 缩写为IDF），它的公式为 log（D/Dw）log（D/D_w）log（D/Dw）其中 DDD 是全部网页数。比如，我们假定中文网页数是 D=10D=10D=10亿，应删除词“的”在所有的网页中都出现，即 Dw=10D_w=10Dw=10亿，那么它的 IDF=log(10亿/10亿）=log(1)=0IDF=log(10亿/10亿）= log (1) = 0IDF=log(10亿/10亿）=log(1)=0。假如专用词“原子能”在两百万个网页中出现，即 Dw=200D_w=200Dw=200万，则它的权重 IDF=log(500)=2.7IDF=log(500) =2.7%IDF=log(500)=2.7。又假定通用词“应用”，出现在五亿个网页中，它的权重 IDF=log(2)IDF = log(2)IDF=log(2) 则只有 0.3。也就是说，在网页中找到一个“原子能”的匹配相当于找到九个“应用”的匹配。利用 IDF，上述相关性计算的公式就由词频的简单求和变成了加权求和，即

TF1∗IDF1+TF2∗IDF2+...+TFN∗IDFNTF_1*IDF_1 +　TF_2*IDF_2 +... + TF_N*IDF_N TF1∗IDF1+　TF2∗IDF2+...+TFN∗IDFN

在上面的例子中，该网页和“原子能的应用”的相关性为 0.0069，其中“原子能”贡献了 0.0054，而“应用”只贡献了0.0015。这个比例和我们的直觉比较一致了。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：【2021.12.25】xv6系统入门学习

下一篇：HMM-维特比算法

阅读笔记：TF - IDF 原理

相关内容

热门资讯