一、搜索引擎抓取原則
互聯(lián)網(wǎng)是一個(gè)開(kāi)放和免費(fèi)的平臺(tái)。每天都有無(wú)數(shù)的用戶在網(wǎng)上發(fā)布無(wú)數(shù)的內(nèi)容。搜索引擎需要做的是沿著網(wǎng)頁(yè)中的鏈接獲取有用的信息。百度蜘蛛將通過(guò)深度和廣度把握我們的網(wǎng)站。深度爬行意味著蜘蛛跟隨一個(gè)鏈接并繼續(xù)爬行到它的從屬鏈接,直到?jīng)]有鏈接可跟隨為止。寬度爬行意味著蜘蛛在爬行同優(yōu)等別的所有鏈接之后,開(kāi)始在下優(yōu)等爬行鏈接。百度蜘蛛目前具有強(qiáng)大的文本抓取功能,不利于具有圖片和JS效果的代碼抓取。因此,如果我們的網(wǎng)站上有圖片,應(yīng)該添加ALT標(biāo)簽,以迎合搜索引擎的抓取習(xí)慣。
二、搜索引擎的過(guò)濾原理
每天,搜索引擎都會(huì)抓取和抓取大量的頁(yè)面。如果將已爬網(wǎng)的頁(yè)面存儲(chǔ)在數(shù)據(jù)庫(kù)中,則不可避免地會(huì)導(dǎo)致數(shù)據(jù)混亂和質(zhì)量下降。因此,在蜘蛛將已爬網(wǎng)的頁(yè)面放入索引庫(kù)之前,它們需要進(jìn)行篩選工作。spider將過(guò)濾出內(nèi)容質(zhì)量低、用戶體驗(yàn)差的網(wǎng)頁(yè),并將高質(zhì)量的網(wǎng)頁(yè)保存在索引庫(kù)中。那么,我們?nèi)绾谓档捅凰阉饕嬷┲脒^(guò)濾掉的風(fēng)險(xiǎn)呢?重要的是網(wǎng)頁(yè)的內(nèi)容滿足了用戶的需求,是用戶喜歡和認(rèn)同的網(wǎng)頁(yè)。說(shuō)白了,事實(shí)上,搜索引擎蜘蛛只是網(wǎng)站的普通訪問(wèn)者,用戶友好就是搜索引擎友好。
三、搜索引擎收錄原則
過(guò)濾后,搜索引擎將按內(nèi)容質(zhì)量將剩余頁(yè)面存儲(chǔ)在索引庫(kù)中。當(dāng)高質(zhì)量的頁(yè)面被放入一個(gè)重要的索引庫(kù)時(shí),它們將被優(yōu)先顯示和推薦。相反,低質(zhì)量的頁(yè)面只能存儲(chǔ)在公共庫(kù)中。雖然包含了這些內(nèi)容,但在用戶面前顯示的可能性極低。所以我們通常關(guān)注的不應(yīng)該是蜘蛛抓取了多少頁(yè)面,而是包含了多少質(zhì)量。
搜索引擎會(huì)在內(nèi)容中提取目標(biāo)關(guān)鍵字。根據(jù)關(guān)鍵字,在索引數(shù)據(jù)庫(kù)中創(chuàng)建相應(yīng)的文件,并將內(nèi)容存儲(chǔ)在此數(shù)據(jù)庫(kù)中,以便下次查詢排序。
四、搜索引擎顯示排序原則
搜索引擎的排序原則也是搜索引擎的一步,即根據(jù)用戶搜索關(guān)鍵詞的匹配程度和質(zhì)量,優(yōu)先顯示匹配的網(wǎng)頁(yè)。
所以平時(shí)做網(wǎng)頁(yè)內(nèi)容時(shí)一定要注意質(zhì)量。其存在的意義和基礎(chǔ)是網(wǎng)頁(yè)可以解決用戶的需求。