對(duì)于百度和谷歌來(lái)說(shuō),搜索引擎的工作原理幾乎是一樣的。因?yàn)楣雀柙谥袊?guó)被禁,國(guó)內(nèi)搜索一般都是百度。搜索引擎的工作原理非常簡(jiǎn)單。它只有四個(gè)部分,如下所示:什么是搜索引擎蜘蛛和爬蟲(chóng)?
搜索引擎蜘蛛實(shí)際上是百度用來(lái)瀏覽用戶(hù)在互聯(lián)網(wǎng)上發(fā)布的信息,然后將信息抓取到搜索引擎服務(wù)器上,然后建立索引庫(kù)。我們可以把搜索引擎蜘蛛當(dāng)作一個(gè)用戶(hù),然后這個(gè)用戶(hù)會(huì)訪(fǎng)問(wèn)我們的網(wǎng)站,并認(rèn)為我們更好的內(nèi)容將保存在自己的電腦上。
查找鏈接-下載此頁(yè)-添加到臨時(shí)庫(kù)-提取頁(yè)中的鏈接-再次下載頁(yè)-循環(huán)
首先,搜索引擎蜘蛛需要找到鏈接。首先,百度蜘蛛是自己發(fā)現(xiàn)的。其次,他們通過(guò)百度網(wǎng)站管理員提交他們的網(wǎng)站。搜索引擎找到鏈接后,將下載該頁(yè)并將其存儲(chǔ)在臨時(shí)庫(kù)中。同時(shí),蜘蛛將提取頁(yè)面的所有鏈接,然后循環(huán)。
答案是肯定的!如果蜘蛛隨機(jī)抓取網(wǎng)頁(yè),那么互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量每天都會(huì)增加數(shù)不清,蜘蛛無(wú)法抓取所有網(wǎng)頁(yè)。
策略一:深度優(yōu)先
簡(jiǎn)言之,搜索引擎蜘蛛在一個(gè)頁(yè)面上找到一個(gè)鏈接,然后向下爬,然后在下一個(gè)頁(yè)面上找到另一個(gè)鏈接,繼續(xù)向下爬并獲取所有鏈接
策略二:寬度
Width first是搜索引擎蜘蛛首先抓取此頁(yè)的鏈接,然后抓取下一頁(yè)的所有鏈接。其實(shí),人們常說(shuō)結(jié)構(gòu)扁平,網(wǎng)頁(yè)層次不能太高,否則會(huì)影響收藏。
策略三:權(quán)重
如果“寬度優(yōu)先”比“深度優(yōu)先”好,那就不是的。搜索引擎蜘蛛通常同時(shí)使用兩種爬行策略,即深度優(yōu)先+寬度優(yōu)先。當(dāng)使用這兩種策略爬行時(shí),我們應(yīng)該參考鏈接的權(quán)重。如果鏈接是好的,我們應(yīng)該首先使用深度。如果鏈接的權(quán)重很低,則首先是寬度。
策略四:重訪(fǎng)抓取
例如,昨天的搜索引擎蜘蛛來(lái)抓取我們的網(wǎng)頁(yè),今天我們向這個(gè)網(wǎng)頁(yè)添加新內(nèi)容,所以今天的搜索引擎蜘蛛來(lái)抓取新內(nèi)容,這叫做重新訪(fǎng)問(wèn)?;卦L(fǎng)也分為兩部分:
1。完全重訪(fǎng):指蜘蛛抓取的后一個(gè)環(huán)節(jié),然后在本月的某一天全部重訪(fǎng)抓取。
2。單次訪(fǎng)問(wèn):一般來(lái)說(shuō),它是一個(gè)快速和穩(wěn)定的頁(yè)面更新為某一頁(yè)。如果我們不每月更新一次頁(yè)面,那么搜索引擎蜘蛛會(huì)連續(xù)幾天來(lái)到這里。他們不會(huì)再回來(lái)了。他們會(huì)每隔一段時(shí)間回來(lái),比如一個(gè)月后。