雖然搜索引擎在不斷升級算法,但畢竟還是一個程序,所以在布局網(wǎng)站結(jié)構(gòu)時,應(yīng)該盡量讓搜索引擎蜘蛛理解。每個搜索引擎蜘蛛都有自己的名字。當它抓取網(wǎng)頁時,它會向網(wǎng)站顯示自己的身份。當搜索引擎蜘蛛抓取網(wǎng)頁時,它會發(fā)送一個請求。在請求中,一個字段是用戶代理,用于標識搜索引擎蜘蛛。所以,今天就讓我們一起來深入了解蜘蛛抓取原理吧。
例如,Google搜索引擎spider的徽標是Google bot、Baidu搜索引擎spider和Yahoo搜索引擎spider inktomislurp。如果網(wǎng)站上有訪問日志,網(wǎng)站管理員可以知道哪些搜索引擎蜘蛛來了,它們什么時候來了,它們讀了多少數(shù)據(jù)。如果網(wǎng)站管理員發(fā)現(xiàn)蜘蛛有問題,他或她會使用自己的徽標與他或她聯(lián)系。
不允許:
當搜索引擎蜘蛛下載網(wǎng)頁時,它將識別網(wǎng)頁的HTML代碼。在代碼部分,它將有一個元標志。這些標志可以告訴搜索引擎蜘蛛的網(wǎng)頁是否需要被爬網(wǎng),也可以告訴搜索引擎蜘蛛網(wǎng)頁中的鏈接是否需要被追蹤。例如,這意味著不需要對此網(wǎng)頁進行爬網(wǎng),但需要對網(wǎng)頁中的鏈接進行跟蹤。
現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面地掌握自己網(wǎng)站的網(wǎng)頁,因為這樣可以讓更多的訪問者通過搜索引擎找到這個網(wǎng)站。為了更全面地抓取本網(wǎng)站的網(wǎng)頁,網(wǎng)站管理員可以建立網(wǎng)站地圖,即網(wǎng)站地圖。許多搜索引擎蜘蛛將站點地圖和HTM文件作為網(wǎng)頁訪問條目。網(wǎng)站管理員可以將網(wǎng)頁的所有鏈接放在這個文件中的網(wǎng)頁內(nèi)容中,這樣搜索引擎蜘蛛就可以輕松地抓取整個網(wǎng)站,避免丟失一些網(wǎng)頁,并減輕服務(wù)器的負擔(Google專門用XML對網(wǎng)站地圖進行嚴格的管理)。
搜索引擎建立網(wǎng)頁索引,處理對象是文本文件。對于搜索指南蜘蛛,捕獲的網(wǎng)頁包括各種格式,包括HTML、圖片、文檔、PDF、多媒體、動態(tài)網(wǎng)頁和其他格式。抓取這些文件后,我們需要從這些文件中提取文本信息。準確提取這些文檔的信息,一方面對搜索引擎的準確性起著重要的作用,另一方面對搜索引擎蜘蛛對其他鏈接的正確跟蹤也有一定的影響。
對于由專業(yè)廠商提供的軟件生成的Doc、PDF等文檔,廠商會提供相應(yīng)的文本抽取接口。搜索引擎只需要調(diào)用這些插件的接口,就可以方便地提取文檔中的文本信息和文件中的其他相關(guān)信息。
HTML和其他文檔是不同的。HTML有自己的語法。不同的命令標識符用于標識不同的字體、顏色、位置等。提取文本信息時,需要過濾掉這些標識符。過濾標識符并不困難,因為只要根據(jù)不同的標識符獲得相應(yīng)的信息,這些標識符就有一定的規(guī)則。但在識別這些信息時,需要同時記錄許多布局信息。
除了標題和正文外,還會有很多廣告鏈接以及公共頻道鏈接。這些鏈接與文本無關(guān)。在提取web內(nèi)容時,我們需要過濾這些無用的鏈接。比如,一個網(wǎng)站有一個“產(chǎn)品介紹”頻道,因為導(dǎo)航欄會出現(xiàn)在網(wǎng)站的每一頁,這無疑會帶來很多垃圾信息。過濾這些無效鏈接需要大量統(tǒng)計頁面結(jié)構(gòu)規(guī)則,提取一些共性特征,統(tǒng)一過濾;對于一些重要的、特殊的網(wǎng)站結(jié)果,也需要個別處理。這就要求搜索引擎蜘蛛的設(shè)計具有一定的可擴展性。