国产 直播 无码_中文字幕久精品免费_久久亚洲国产视频91视频_在线观看无码av网址

免費注冊 登錄

超過1000,000域名在迅速網(wǎng)絡(luò)注冊

<    >

搜索引擎爬蟲的三大更新策略是什么?



搜索引擎爬蟲的更新,基本應(yīng)用在像快照的更新,搜索引擎對已抓取頁面的再抓取行為等。至于為什么要進(jìn)行再抓取基本是因為互聯(lián)網(wǎng)上萬萬億的頁面量。很多頁面還是有一直變化的。這個變化的前置因子,導(dǎo)致了爬蟲要不斷的更新自己的數(shù)據(jù),從而一定要對已經(jīng)抓取的網(wǎng)頁進(jìn)行再抓取。那
搜索引擎爬蟲
的三大更新策略都是什么呢?



所謂歷史更新策略,就是針對已經(jīng)抓取的網(wǎng)頁有一個再抓取的時間限制。例如爬蟲抓取我SEO博客的首頁,從而搜索引擎通過一直以來的抓取得出我的博客首頁平均每3天更新一次,那么爬蟲的抓取策略就會調(diào)整為每3天訪問一次我的博客首頁。

這樣的更新抓取策略告訴我們,網(wǎng)頁變化頻繁就會引來蜘蛛的頻繁抓取。所以在這里如果你的網(wǎng)頁全部是靜態(tài)的。也就意味著不生成一遍對應(yīng)頁面是不會發(fā)生變化的。相對而言針對這種策略邏輯你就不是很站好。所以網(wǎng)址設(shè)置為偽靜態(tài)的,在網(wǎng)站打開速度能夠很好控制的前提下,把網(wǎng)頁本身設(shè)置為動態(tài)頁面是很不錯的選擇。

搜索引擎爬蟲的用戶體驗更新策略

所謂用戶體驗的網(wǎng)頁更新策略,是搜索引擎認(rèn)為網(wǎng)頁參與具有一定搜索量詞的排名,且在前3頁的,是經(jīng)常會被用戶訪問到的頁面。那么針對這類頁面要更優(yōu)先的進(jìn)行抓取更新。

而3頁之后的網(wǎng)頁對于用戶而言,訪問的人占到了極少數(shù),晚一些時間更新也未嘗不可。因此采取的一種網(wǎng)頁抓取更新策略。

這種策略讓我們知道,一些核心關(guān)鍵詞排名靠前的網(wǎng)頁,被爬蟲抓取的頻次是更多的。那么值得思考的一個問題是網(wǎng)站也會有一些詳情頁,聚合頁甚至文章頁參與比錯的詞的排名。這是不是意味著這次頁面抓取量也不錯呢?針對這個問題,趙彥剛之前通過對訪問日志的分析確定了這個答案,在80%的情況下,確實是這樣的。但這種頁面的頻率遠(yuǎn)低于首頁、頻道頁等距離首頁更近,路徑更短的頁面抓取量。

不過,我們還是可以好好優(yōu)化我們的詳情頁/文章頁,在這類頁面以展示最新內(nèi)容,為最新內(nèi)容的收錄增加爬蟲抓取的入口。

搜索引擎爬蟲抓取網(wǎng)頁的抽樣聚類策略

談到這個策略,我們先從字面意思來看“抽樣,聚類”。抽樣是指從網(wǎng)站中抽取一些樣本出來進(jìn)行觀察,而聚類是根據(jù)這些樣本的觀察得出一定的結(jié)論后應(yīng)用于這個類型上。

我們的網(wǎng)站都是有不同類型組成的,例如列表頁、產(chǎn)品詳情頁、文章頁、頻道頁、聚合頁等,這些都是不同的類型。搜索引擎從這中間抽選出一些樣本,進(jìn)行觀察后得出一個更新周期后,應(yīng)用于整個類型的方式就是抽樣聚類的網(wǎng)頁抓取更新策略。

我們舉個例子,搜索引擎從列表頁抽樣找到A列表頁,通過分析觀察發(fā)現(xiàn)A列表頁每2天可以抓取一次。然后和A列表頁同類型的還有B、C、D列表頁,因為他們的模版一樣、導(dǎo)航都有、首頁下模塊也特指這四個列表頁。那么他們是一類的,所以B、C、D列表頁和A列表頁一樣,都是2天一抓取。

好了今天的分享就到這里,希望對你有所幫助。

迅速域名注冊    2020-03-09 23:54:51



上一篇 (網(wǎng)站權(quán)重真正的秘密你了解多少?)   下一篇 (gvt.xin超20萬完成交易 jiushijiunong.com以5萬元成交)


產(chǎn)品優(yōu)勢

迅速域名注冊始終以滿足顧客為己任

特點功能

為更多企業(yè)提供強(qiáng)有力的技術(shù)支持,助力業(yè)務(wù)飛速拓展

域名資訊

我們誠心邀您分享我們的成長經(jīng)歷

域名常見問題

讓您進(jìn)一步深入了解域名常見問題

合作伙伴

15年不間斷服務(wù),更值得信賴