亚洲aⅴ欧洲国产aⅤ_一级性爱一级a爱片毛片_av最新免费不卡在线观看_五月天综合在线_欧美男同猛男gay免费_欧美嘿咻插逼午夜性爱视频_996久久国产精品线观看导航_亚洲自拍 中文字幕_私密直播全婐app免费_国产人与嘼AV网站



營(yíng)銷(xiāo)型網(wǎng)站 華企云搜,成就客戶(hù),成就伙伴,做良好口碑互聯(lián)網(wǎng)服務(wù)商



百度的TF-IDF算法定義是什么?

發(fā)布日期:2021-03-03 作者: 點(diǎn)擊:

相信很多SEO站長(zhǎng)應(yīng)該都聽(tīng)過(guò)百度搜索引擎TF-IDF算法,但是很多剛?cè)胄械恼鹃L(zhǎng)不太清楚,接著昨天說(shuō)的百度驚雷算法3.0,所以接下來(lái)我來(lái)跟大家說(shuō)百度的TF-IDF算法到底是怎么一回事。

TF-IDF算法是增加相關(guān)詞的覆蓋率,以及高優(yōu)布局關(guān)鍵詞密度,從而在百度谷歌等搜索引擎內(nèi)容質(zhì)量這一項(xiàng)上的排名加分,獲取高分值。

百度TF-IDF算法

一、TF-IDF算法的定義  

“TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶(hù)查詢(xún)之間相關(guān)程度的度量或評(píng)級(jí)。

假如說(shuō)我們?cè)诎俣壬纤阉鳌八边@個(gè)詞,百度爬蟲(chóng)抓取的網(wǎng)站內(nèi)容有下面5個(gè),你覺(jué)得哪個(gè)內(nèi)容排名1?  

內(nèi)容1:水果有水果,水果,水果,水果,水果  

內(nèi)容2:水果有蘋(píng)果,桃子,西瓜,菠蘿,梨子  

內(nèi)容3:蔬菜都很好吃,我愛(ài)吃茄子了  

內(nèi)容4:蘋(píng)果,梨子都是很好吃的水果  

內(nèi)容5:好吃的水果有西瓜,蘋(píng)果,葡萄,其他水果還有菠蘿,獼猴桃  

相信很多人心里面有了答案,大家憑直覺(jué),內(nèi)容2跟內(nèi)容5應(yīng)該排名靠前,內(nèi)容5很可能是排名1,內(nèi)容2是排名2。其實(shí)按照TF-IDF算法也能得出這個(gè)結(jié)論,那么TF-IDF是怎么做的,請(qǐng)大家跟上我的步伐。  


二、TF-IDF算法的計(jì)算步驟

(1)計(jì)算逆文檔頻率

我們先統(tǒng)計(jì)各個(gè)詞語(yǔ)被包含的文章數(shù)。比如“水果”被4篇文章(內(nèi)容1、2、4、5)引用,4就是“水果”的逆文檔頻率。分詞后,各個(gè)單詞的逆文檔頻率如下:

水果=4、蘋(píng)果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1計(jì)算逆文檔頻率

PS:IDF=log(語(yǔ)料庫(kù)中的文件總數(shù)/包含詞語(yǔ)t的文件數(shù)目),為了便于理解,這里做了精簡(jiǎn)。

按照我們的直覺(jué),如果一篇文章把逆文檔頻率高的前面的詞都包含了,說(shuō)明這篇文章內(nèi)容更貼合用戶(hù)意圖,更受到搜索引擎喜歡。回到例子,"水果、蘋(píng)果"是本例中重要性高的2個(gè)詞,如果內(nèi)容中包含“水果、蘋(píng)果”,那么這篇內(nèi)容質(zhì)量就越好。

所以把包含“水果、蘋(píng)果”的內(nèi)容拿出來(lái),就是比較靠譜的內(nèi)容了:

內(nèi)容2:水果有蘋(píng)果,桃子,西瓜,菠蘿,梨子 

內(nèi)容4:蘋(píng)果,梨子都是很好吃的水果

內(nèi)容5:好吃的水果有西瓜,蘋(píng)果,葡萄,其他水果還有菠蘿,獼猴桃 


(2)計(jì)算詞頻(TF)  

我們把內(nèi)容1、內(nèi)容3砍掉了,剩下的內(nèi)容2、內(nèi)容4、內(nèi)容5怎么排序。我們想一下,一個(gè)詞語(yǔ)在內(nèi)容中出現(xiàn)的次數(shù)越高,也說(shuō)明這個(gè)詞語(yǔ)對(duì)這篇文章更重要?;氐奖纠八笔俏覀兊暮诵脑~,那么因?yàn)閮?nèi)容5中出現(xiàn)“水果”兩次,內(nèi)容2、內(nèi)容4次數(shù)是1,那么內(nèi)容5勝出。排序結(jié)果如下::

內(nèi)容5:好吃的水果有西瓜,蘋(píng)果,葡萄,其他水果還有菠蘿,獼猴桃(1)

內(nèi)容2:水果有蘋(píng)果,桃子,西瓜,菠蘿,梨子(2)

內(nèi)容4:蘋(píng)果,梨子都是很好吃的水果(3)

內(nèi)容1:水果有水果,水果,水果,水果,水果(相關(guān)度不夠,被剔除)  

內(nèi)容3:蔬菜都很好吃,我愛(ài)吃茄子了(相關(guān)度不夠,被剔除)  

以上是砍了又砍的TF-IDF算法簡(jiǎn)化解讀版,真實(shí)的TFIDF算法比這個(gè)要正規(guī)復(fù)雜很多,這里只是讓大家get到,目的就達(dá)到了。  

百度TF-IDF算法

我們可以看到,TFIDF算法,不僅可以衡量關(guān)鍵詞對(duì)頁(yè)面的重要性,更能衡量文章的廣度相關(guān)性。對(duì)于百度、360、google來(lái)說(shuō),TFIDF算法的出現(xiàn)屏蔽了一大批用關(guān)鍵詞密度來(lái)獲取排名的SEO小白,同時(shí)提升了搜索質(zhì)量啊,真是一箭雙雕。江門(mén)市華企立方科技有限公司為江門(mén)客戶(hù)提供專(zhuān)業(yè)的建站業(yè)務(wù),網(wǎng)站設(shè)計(jì),外貿(mào)平臺(tái),微信推廣,及SEO網(wǎng)絡(luò)推廣的網(wǎng)絡(luò)公司,如有需求敬請(qǐng)聯(lián)系我們。


(本網(wǎng)站部分素材來(lái)自網(wǎng)絡(luò),如果本網(wǎng)站展示信息侵犯媒體或個(gè)人的知識(shí)產(chǎn)權(quán)或其他合法權(quán)益,請(qǐng)及時(shí)通知我們,我們立即予以刪除。)

相關(guān)標(biāo)簽:百度算法,TF-IDF算法,百度TF-IDF算法

最近瀏覽: