所謂的搜索引擎是一個(gè)為用戶提供搜索服務(wù)的系統(tǒng)平臺(tái),因?yàn)樗阉饕嬗幸粋€(gè)特定的爬蟲(百度蜘蛛)來使用這個(gè)爬蟲在互聯(lián)網(wǎng)上收集信息。經(jīng)過處理和整理,這些網(wǎng)站文件將為它排名。對(duì)于網(wǎng)民在搜索引擎中搜索的關(guān)鍵詞,搜索引擎會(huì)根據(jù)排名顯示流量大、匹配度高的網(wǎng)站。我們熟悉哪些搜索引擎?例如:百度、谷歌、360、搜狐等,中國大陸常用、常用的搜索引擎是百度。
所以我們知道什么是搜索引擎,那么什么是SEO?SEO可以理解為SEO,所以沒有太多的廢話,讓我們直接談?wù)勥@個(gè)搜索引擎的工作原理吧!
搜索引擎工作原理:搜索引擎的工作過程可以分為五個(gè)步驟。
步:抓取
搜索引擎有一種自動(dòng)爬行網(wǎng)站頁面程序(spider),沿著網(wǎng)站的鏈接爬行找到相應(yīng)的頁面。我們的網(wǎng)站不能有死鏈接。一定要讓蜘蛛在網(wǎng)站內(nèi)暢通無阻地抓取頁面。
那么蜘蛛的抓取策略是什么呢?蜘蛛抓取策略可分為兩種優(yōu)化策略:
一、深度優(yōu)先是搜索引擎蜘蛛在一個(gè)頁面上找到一個(gè)鏈接并向下爬行,然后在下一個(gè)頁面上找到另一個(gè)鏈接,再次爬行并捕獲所有鏈接。
二、寬度優(yōu)先是搜索引擎蜘蛛先抓取整個(gè)頁面的所有鏈接一次,然后抓取下一頁的所有鏈接。蜘蛛也不喜歡層次太多的網(wǎng)站。所以我們不能有太多級(jí)別的網(wǎng)站。這將導(dǎo)致網(wǎng)站收集的困難。因?yàn)樗璧K了搜索引擎蜘蛛寬度優(yōu)先的策略。
那么,我們?nèi)绾尾拍芪┲肱牢覀兊木W(wǎng)頁,收集我們的文章網(wǎng)站?
一、具有高權(quán)重、高質(zhì)量和老資格的網(wǎng)站和頁面通常被認(rèn)為是好的。蜘蛛會(huì)優(yōu)先抓取,而且抓取的深度會(huì)更高,所以這種網(wǎng)站比較好收錄。
二、快速更新頁面。網(wǎng)頁更新快的網(wǎng)站,蜘蛛也能經(jīng)常訪問。新的鏈接出現(xiàn)在頁面上,蜘蛛會(huì)快速跟蹤并抓取它們。
三、導(dǎo)入鏈接。高質(zhì)量的導(dǎo)入鏈接將使頁面上的導(dǎo)出鏈接爬網(wǎng)。報(bào)名人數(shù)也會(huì)增加。
四、單擊主頁越近,頁面權(quán)重越高,被蜘蛛抓取的機(jī)會(huì)就越大。
第二步:儲(chǔ)存
抓取與鏈接對(duì)應(yīng)的頁面會(huì)將這些頁面的內(nèi)容存儲(chǔ)在搜索引擎的原始數(shù)據(jù)庫中。抓取是關(guān)于文本內(nèi)容的。因此,在優(yōu)化過程中,建議不要盲目地在網(wǎng)站中添加過多圖片或flash文件,這不利于搜索引擎蜘蛛的捕獲。捕獲原始數(shù)據(jù)庫的內(nèi)容并不意味著搜索引擎將采用它,而是需要進(jìn)一步處理。
第三步:預(yù)處理(也稱為過濾)
一、提取文本:搜索引擎主要基于文本內(nèi)容。HTML和JS程序不能參與排名。
二、分詞:蜘蛛會(huì)在步將漢字分割重組,形成新詞。
三、反重新處理:刪除一些重復(fù)的內(nèi)容和已存在的搜索引擎數(shù)據(jù)。
四、停止詞:搜索引擎在索引前刪除這些詞。減少不必要的計(jì)算。