這周,在和朋友聊天時,我的朋友問了一個關(guān)于網(wǎng)站的問題。為什么百度收錄了很多網(wǎng)站,而谷歌一直是0?后來,我對它的網(wǎng)站做了簡要的分析,找出了問題所在。
關(guān)于百度和谷歌的收錄,其實的根本原因是搜索引擎之間的差異。但許多新朋友并不十分關(guān)心這個問題。他們會認(rèn)為百度應(yīng)該被很好的收錄,其他的搜索引擎也應(yīng)該被一個接一個的收錄在網(wǎng)站上,然后就會出現(xiàn)和我朋友一樣的問題。以下是對百度和谷歌概念的簡要描述:
百度是中國的商業(yè)全文搜索引擎,也是**上的中文搜索引擎。百度搜索引擎主要由四部分組成:蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫程序和搜索程序。百度的強(qiáng)項在于其獨到的中文搜索能力。目前,百度搜索引擎擁有全球的中文信息數(shù)據(jù)庫。早在2013年,它的總頁數(shù)就已經(jīng)達(dá)到6000多萬頁,并且以每天幾頁的速度快速增長。百度搜索分為六個部分,包括網(wǎng)頁、新聞、MP3、圖片、flash和信息快報。
作為**上的搜索引擎,創(chuàng)新是其獨到而的優(yōu)勢。與百度相比,谷歌具有搜索速度極快、支持多達(dá)132種語言、在線翻譯功能、導(dǎo)航功能、搜索結(jié)果準(zhǔn)確性高、獨到的圖像搜索功能和強(qiáng)大的新聞組搜索功能等固有的特點和優(yōu)勢。
谷歌和百度對網(wǎng)頁有不同的標(biāo)準(zhǔn)。我用一個詞來形容,谷歌更愿意把大站點的頁面包括在內(nèi),而百度則愿意把新站點的頁面包括在內(nèi)。所以我做了一個實驗:首先我申請了一個新域名,在上面放了一個網(wǎng)站,然后我沒有鏈接到任何其他網(wǎng)站,而是直接提交到百度和谷歌搜索引擎的提交頁面。一個月后,百度收錄了24900頁,谷歌收錄了0頁,這證實了我之前的猜測。
這是什么意思?百度比谷歌強(qiáng)嗎?不是。因為百度和谷歌的標(biāo)準(zhǔn)完全不同。
兩種收集方法哪一種更好?我個人認(rèn)為谷歌的記錄方式更科學(xué)。因為互聯(lián)網(wǎng)上的網(wǎng)頁是天文數(shù)字,所以應(yīng)該有選擇地包括在內(nèi)。好的網(wǎng)站應(yīng)該多收錄,新的站點應(yīng)該少收錄,逐漸有名后應(yīng)該多收錄,這樣也提高了效率,用戶可以搜索到更好的頁面而不是更多的頁面。如果新的站點沒有經(jīng)過分析就被快速收錄,那么在技術(shù)上就很難打擊惡意網(wǎng)站(SEO)。谷歌會給新站一定的“檢查期”,分析新站是否是垃圾站。
百度只能依靠人工方式手動刪除垃圾站。對于被收錄網(wǎng)站的具體操作,谷歌的爬蟲對站長來說似乎更為“體貼”——谷歌的爬蟲只占用服務(wù)器很少的資源,通常用頭部來檢查網(wǎng)頁是否更新,如果更新后再抓取整個網(wǎng)頁,這種方法消耗的流量更少。另一方面,百度不遵守機(jī)器人的規(guī)則,即使是在整個站。而且,它的爬蟲數(shù)量非常龐大,對于頁面較多的網(wǎng)站來說,通常會消耗驚人的流量,而且往往會造成不良后果。
綜上所述,谷歌之所以被列為0,是因為只有網(wǎng)站有一定級別的網(wǎng)頁,谷歌會很快將其包括在內(nèi),但如果沒有網(wǎng)頁級別的網(wǎng)站,谷歌會堅決不將其包括在內(nèi)。雖然該網(wǎng)站只更新網(wǎng)站中的內(nèi)容和文章,但谷歌被列為0的原因也得到了很好的解釋。從目前國內(nèi)搜索引擎的現(xiàn)狀來看,只為百度等中文搜索引擎擴(kuò)大和獲取流量似乎是合理的,但從長遠(yuǎn)來看,谷歌不能忽視企業(yè)的發(fā)展或搜索引擎的變化。