龙哥网

龙哥网

tf-idf算法讲解与实战运用(tf idf算法实战案例)
2021-12-25

  SEO工具底层算法核心TF-IDF,主要策略是增加相关词的覆盖率,以及高效优化布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取较高分值,下面予希来给大家讲讲TF-IDF算法。

  什么是TF-IDF算法

  百度百科这样说:

  https://baike.baidu.com/item/tf-idf

  “TF-IDF算法可以说是一种统计算法,用一个关键词评估在一篇文章或一份文件中的重要程度,关键词的重要性随着关键词出现频率的增加而增加,同时也会随着在语料库中出现的频率成反比下降,TF-IDF算法被各大搜索引擎平台所引用,也是作为评估关键词相关程度的的度量或评级依据。

  大家是不是看了上面的似懂非懂呢?其实没有一定SEO基础知识的朋友是看不懂的,下面为了大家理解,举例给大家说明。

  例如有网民在搜索引擎上搜索““水果”这个名词,搜索引擎给排名前五的网站有5个,以下5条内容你觉得哪条会排在第一名呢?

  – 内容1: 水果有水果,水果,水果,水果,水果

  – 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

  – 内容3: 蔬菜都很好吃,我最爱吃茄子了

  – 内容4: 苹果,梨子都是很好吃的水果

  – 内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

  其实大家一看就知道了答案,第2条和第5条是非常有希望排在第一名或者第二名的,如果按照TF-IDF算法基本也是这个结果,那么TF-IDF算法是如何计算的呢?我们接着往下看。

  TF-IDF算法的计算步骤

  1、计算逆文档频率

  先来统计各个关键词语被包含的文章数,例如“水果”这个词就被1、2、4、5文章所引用,第4条为“水果”的逆文档频率。

  通过分词后,各个关键词语的逆文档频率是:

  水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2.桃子=1、猕猴桃=1、蔬菜=1.茄子=1

  PS: IDF= log(语料库中的文件总数 / 包含词语的文件数目),为了便于理解,这里做了精简。

  一篇优质的文章把逆文档频率最高的前面的关键词都包含了,说明这篇文章更有利于用户意图,搜索引擎也喜欢这样的文章,我们再看看以上的例子,”水果”和“苹果“是这个例子中最重要的2个词语,如果这篇文章中包含有“水果、苹果”,那么这篇内容质量度就会不错的。

  所以我们把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

  – 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

  – 内容4: 苹果,梨子都是很好吃的水果

  – 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃;

  2、计算词频(TF)

  把第1条和第3条内容删掉,余下2、4、5这几条内容,那么这几条内容要如何排序呢?一个关键词在内容中出现的频率越高,说明这个关键词对这篇文章就越重要,再次回到以上这个例子,“水果”是这篇文章的核心关键词,由于第5条内容中“水果”出现频率有两次,第2、4条内容中出现的次数只有1次,所以第5条内容就排在了第一名,排序结果如下:

  – 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)

  – 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)

  – 内容4: 苹果,梨子都是很好吃的水果(第三名)

  -内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)

  -内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )

  以上就是给大家精简后的TF-IDF算法,TF-IDF算法运行起来比这个要复杂的多,以上只是让大家明白TF-IDF算法其本运行原理。

  TF-IDF对SEO非常重要!非常重要!非常重要!

  重要的事情说三遍!

  由此我们可以看出TF-IDF算法不但衡量着关键词对页面的重要性,更能衡量文章的广度相关性,对于各大搜索引擎来说,TF-IDF算法帮助搜索引擎屏幕了一大批依靠关键词密度作弊来获得排名的SEO小白,TF-IDF算法还提升了搜索质量,对于搜索引擎来说真是好处多多。

  百度百科描述到:“除了TF-IDF以外,搜索引擎平台还会引用基于链接分析的评级方法,确定文件在搜索引擎排序结果中出现的先后顺序,通俗地讲就是你的网站关键词排名同由这个公式而决定的,文章得分=TF-IDF算法得分+链接得分,目前各大搜索引擎都在引用TF-IDF算法!

  看到这里大家心中也许会有一个疑问,百度真的引用了TF-IDF算法吗?下面接着往下看。

  首先,百度在用TFIDF算法

  实证,大家可以在网上查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》,百度搜索算法更新升级非常快,但TF-IDF算法作为搜索引擎的核心算法之一始终是没有变的。

  其次,GOOGLE也用TFIDF算法

  全球搜索引擎google也在官方文档中承认引用了TF-IDF算法:原文链接:

  https://www.searchenginejournal.com/google-tf-idf/304361/

  最后,TFI-DF得分占极高比重

  搜索引擎使用TF-IDF作为对网页内容评判质量的标准,那么这个占比有多大呢?如今搜索引擎是按照这个方法进行计算页面得分的:score(页面得分) = TF-IDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

  2G左右谷歌搜索资料中,相关技术大咖做了相关预测,预测TF-IDF分值百度占比约为40%左右,谷歌TF-IDF分值占比约50%左右,通过做黑帽SEO的朋友介绍,TF-IDF分值的权重值百度约占有20%,谷歌目前还不清楚。

  用户体验得分可以通过刷快排提高,百度占40%左右,Google无相关公示文档。

  所以说在国内做SEO:排名得分=40%内容质量(TFIDF)+40%用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度就可想而知了。

  摩天楼使用了TF-IDF Plus

  大兵之前拿了几个站做了下试验,都使用了TF-IDF算法的基本公式,很多关键词都没有都上首页,后来经过大咖的指点,网站使用了TF-IDF算法的升级版本BM25算法,主要是调整了文档长度、关键词权重等参数。

  TF-IDF算法的升级版本BM25算法公式中的k参数排序得分基本也与谷歌搜索排序一致,而国内的百度搜索引擎由于人工干扰因素太多而无法验证,不过通过相关实例验证,K参数的取值也八九不离十。

  如何使用TF-IDF算法提高得分

  1、写内容

  确定好核心关键词,再确定几个长尾关键词,再把网站标题确定好,然后再按照网站标题写好描述内容,白帽SEO站长进行内容原创,黑帽SEO同学采集内容做拼凑…

  2、通过摩天楼SEO内容助手评分

  利用摩天楼SEO内容助手从5个维度对你网站标题做评测,跟踪不同相关的关键词,帮你测试在同行业中你的网站得分,这些都对提升你网站排名是非常有作用的。

  3、重新优化内容

  摩天楼SEO内容助手工具通过分析你网站后,会提示你要减少哪些关键词和要增加哪些关键词,然后你按照这些提示去做就行了,步骤过程虽然会有点枯燥无味,对已经成功了多个案例了。

  4、再次通过摩天楼SEO内容助手评分

  SEO优化就是一个反复验证的过程,如果你的网站将TOP50左右的相关关键词都覆盖了,那么你的网站内容基本上就可以算得上是全网TOP2了,然后再调整下词频,调整到TOP10.就可以称得上是全网第一了。

0

  摩天楼真的对SEO有提升吗?

  1、开发过程验证

  在发表这篇文章的时候,TF-IDF算法测试已经超过一年了,然后再研究了百度、好搜、神马的相关搜索算法专利,特别是百度,也正是通过百度搜索算法专利那里得知了TF-IDF算法。

  后来通过百万级数据的验证,准备了100个自然搜索词,验证相关性算法预测排名与实际排名重合度(反面交叉验证),数据基本符合预期。

  2、成功案列验证

  后来验证了摩天楼SEO内容助手工具确实对网站优化有效,而且相关案例也得到了验证,通过搜索引擎结果交叉验证也证明了摩天楼SEO工具不仅有效而且还很准。

  3、国外TFIDF工具很流行

  目前国内SEO相关培训的课程中都没有涉术TF-IDF算法的深度解析,国外的技术大牛们则已经通过了多次实验的验证,我们都知道国内的搜索引擎一直在跟国外搜索引擎着google在学,如果TF-IDF算法应用在了谷歌上,那么百度应该也使用了TF-IDF算法。

1

  国外SEO大神强推TF*IDF

2

  摩天楼SEO内容助手工具目前来说还并不是一款完美的工具,但相对目前来说算是一款还不错的SEO工具。

  最后,予希建议同行们一定要沉下心来做内容,不要浮躁,踏实的走好每一步路,一步一个脚印,不要好高骛远,想着一步登天。

  

免责声明
本站部分资源来源于互联网 如有侵权 请联系站长删除
龙哥网是优质的互联网科技创业资源_行业项目分享_网络知识引流变现方法的平台为广大网友提供学习互联网相关知识_内容变现的方法。