相信很多SEO站長(zhǎng)應(yīng)該都聽(tīng)過(guò)百度搜索引擎TF-IDF算法,但是很多剛?cè)胄械恼鹃L(zhǎng)不太清楚,接著昨天說(shuō)的百度驚雷算法3.0,所以接下來(lái)我來(lái)跟大家說(shuō)百度的TF-IDF算法到底是怎么一回事。
TF-IDF算法是增加相關(guān)詞的覆蓋率,以及高優(yōu)布局關(guān)鍵詞密度,從而在百度谷歌等搜索引擎內(nèi)容質(zhì)量這一項(xiàng)上的排名加分,獲取高分值。
一、TF-IDF算法的定義
“TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶(hù)查詢(xún)之間相關(guān)程度的度量或評(píng)級(jí)。
假如說(shuō)我們?cè)诎俣壬纤阉鳌八边@個(gè)詞,百度爬蟲(chóng)抓取的網(wǎng)站內(nèi)容有下面5個(gè),你覺(jué)得哪個(gè)內(nèi)容排名1?
內(nèi)容1:水果有水果,水果,水果,水果,水果
內(nèi)容2:水果有蘋(píng)果,桃子,西瓜,菠蘿,梨子
內(nèi)容3:蔬菜都很好吃,我愛(ài)吃茄子了
內(nèi)容4:蘋(píng)果,梨子都是很好吃的水果
內(nèi)容5:好吃的水果有西瓜,蘋(píng)果,葡萄,其他水果還有菠蘿,獼猴桃
相信很多人心里面有了答案,大家憑直覺(jué),內(nèi)容2跟內(nèi)容5應(yīng)該排名靠前,內(nèi)容5很可能是排名1,內(nèi)容2是排名2。其實(shí)按照TF-IDF算法也能得出這個(gè)結(jié)論,那么TF-IDF是怎么做的,請(qǐng)大家跟上我的步伐。
二、TF-IDF算法的計(jì)算步驟
(1)計(jì)算逆文檔頻率
我們先統(tǒng)計(jì)各個(gè)詞語(yǔ)被包含的文章數(shù)。比如“水果”被4篇文章(內(nèi)容1、2、4、5)引用,4就是“水果”的逆文檔頻率。分詞后,各個(gè)單詞的逆文檔頻率如下:
水果=4、蘋(píng)果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1計(jì)算逆文檔頻率
PS:IDF=log(語(yǔ)料庫(kù)中的文件總數(shù)/包含詞語(yǔ)t的文件數(shù)目),為了便于理解,這里做了精簡(jiǎn)。
按照我們的直覺(jué),如果一篇文章把逆文檔頻率高的前面的詞都包含了,說(shuō)明這篇文章內(nèi)容更貼合用戶(hù)意圖,更受到搜索引擎喜歡。回到例子,"水果、蘋(píng)果"是本例中重要性高的2個(gè)詞,如果內(nèi)容中包含“水果、蘋(píng)果”,那么這篇內(nèi)容質(zhì)量就越好。
所以把包含“水果、蘋(píng)果”的內(nèi)容拿出來(lái),就是比較靠譜的內(nèi)容了:
內(nèi)容2:水果有蘋(píng)果,桃子,西瓜,菠蘿,梨子
內(nèi)容4:蘋(píng)果,梨子都是很好吃的水果
內(nèi)容5:好吃的水果有西瓜,蘋(píng)果,葡萄,其他水果還有菠蘿,獼猴桃
(2)計(jì)算詞頻(TF)
我們把內(nèi)容1、內(nèi)容3砍掉了,剩下的內(nèi)容2、內(nèi)容4、內(nèi)容5怎么排序。我們想一下,一個(gè)詞語(yǔ)在內(nèi)容中出現(xiàn)的次數(shù)越高,也說(shuō)明這個(gè)詞語(yǔ)對(duì)這篇文章更重要?;氐奖纠八笔俏覀兊暮诵脑~,那么因?yàn)閮?nèi)容5中出現(xiàn)“水果”兩次,內(nèi)容2、內(nèi)容4次數(shù)是1,那么內(nèi)容5勝出。排序結(jié)果如下::
內(nèi)容5:好吃的水果有西瓜,蘋(píng)果,葡萄,其他水果還有菠蘿,獼猴桃(1)
內(nèi)容2:水果有蘋(píng)果,桃子,西瓜,菠蘿,梨子(2)
內(nèi)容4:蘋(píng)果,梨子都是很好吃的水果(3)
內(nèi)容1:水果有水果,水果,水果,水果,水果(相關(guān)度不夠,被剔除)
內(nèi)容3:蔬菜都很好吃,我愛(ài)吃茄子了(相關(guān)度不夠,被剔除)
以上是砍了又砍的TF-IDF算法簡(jiǎn)化解讀版,真實(shí)的TFIDF算法比這個(gè)要正規(guī)復(fù)雜很多,這里只是讓大家get到,目的就達(dá)到了。
我們可以看到,TFIDF算法,不僅可以衡量關(guān)鍵詞對(duì)頁(yè)面的重要性,更能衡量文章的廣度相關(guān)性。對(duì)于百度、360、google來(lái)說(shuō),TFIDF算法的出現(xiàn)屏蔽了一大批用關(guān)鍵詞密度來(lái)獲取排名的SEO小白,同時(shí)提升了搜索質(zhì)量啊,真是一箭雙雕。江門(mén)市華企立方科技有限公司為江門(mén)客戶(hù)提供專(zhuān)業(yè)的建站業(yè)務(wù),網(wǎng)站設(shè)計(jì),外貿(mào)平臺(tái),微信推廣,及SEO網(wǎng)絡(luò)推廣的網(wǎng)絡(luò)公司,如有需求敬請(qǐng)聯(lián)系我們。
(本網(wǎng)站部分素材來(lái)自網(wǎng)絡(luò),如果本網(wǎng)站展示信息侵犯媒體或個(gè)人的知識(shí)產(chǎn)權(quán)或其他合法權(quán)益,請(qǐng)及時(shí)通知我們,我們立即予以刪除。)