我們應(yīng)該從哪些要素分析網(wǎng)站數(shù)據(jù)中的日志?下面優(yōu)幫云百度搜索引擎關(guān)鍵詞優(yōu)化公司將向您解釋基本信息、目錄捕獲、時段捕獲、IP捕獲和狀態(tài)代碼分發(fā)。
一、基本情況
從哪里可以得到日志的基本信息?三個基本信息,抓取總量,停留時間(H)和訪問次數(shù),可以從光年日志分析工具計算。然后,通過這三個基本信息,我們可以計算出每次要取的平均頁數(shù)和要取的單頁的停留時間。然后利用MSSQL提取蜘蛛的_捕獲量,并根據(jù)上述數(shù)據(jù)計算爬蟲的重復(fù)捕獲率。
單頁捕獲停留時間=停留時間*3600/總捕獲
爬蟲重復(fù)抓取率=-_抓取量/總抓取量
對于以上數(shù)據(jù),我們需要統(tǒng)計一段時間的數(shù)據(jù),看看整體趨勢如何,這樣才能發(fā)現(xiàn)問題,調(diào)整網(wǎng)站的整體策略。以上月某網(wǎng)站的基本日志信息為例。
這個基本表是上個月日志的基本信息。我們需要看到它的整體趨勢調(diào)整和在哪里加強。
從這一總體趨勢可以看出,爬行動物總捕獲量總體呈下降趨勢,需要我們做出相應(yīng)的調(diào)整。
總的來說,網(wǎng)站的重復(fù)爬行率比較高,這就需要一些細節(jié),更多的爬行訪問和使用一些機器人和不跟隨技術(shù)。
爬蟲單頁停留時間長,國平老師曾經(jīng)寫過,頁面加載速度是如何影響SEO流量的文章,你應(yīng)該去讀一下。提高網(wǎng)頁的加載速度,減少爬蟲的單頁停留時間,有助于爬蟲的總爬網(wǎng)量,進而增加網(wǎng)站的收錄量,從而提高網(wǎng)站的整體流量。從16號到20號服務(wù)器有一些問題。調(diào)整后,速度明顯加快,單頁停留時間相應(yīng)減少。
相應(yīng)的調(diào)整如下:
從本月的分類來看,爬行動物的爬行量下降,重復(fù)爬行率上升。綜合分析需要從站內(nèi)外各環(huán)節(jié)進行調(diào)整。站點中的鏈接應(yīng)盡可能使用錨文本。如果做不到,可以在其他頁面上推薦超鏈接,這樣蜘蛛就可以盡可能深入地抓住它們。網(wǎng)站外鏈接需要以多種方式發(fā)布。目前,平臺太少。如果深圳新聞網(wǎng)、上國網(wǎng)等網(wǎng)站出現(xiàn)輕微錯誤,我們的網(wǎng)站將受到嚴重影響。站外平臺要寬,發(fā)布鏈接要多樣化,不能直接發(fā)到主頁的欄目和文章頁面要加強。目前,場外平臺太少。近10W外部鏈路集中在幾個平臺上。
第二,目錄捕獲
MSSQL用于提取目錄爬網(wǎng)程序爬網(wǎng)并分析每日目錄爬網(wǎng)。它可以清楚地看到每個目錄的抓取情況。此外,還可以比較以往的優(yōu)化策略,優(yōu)化是否合理,關(guān)鍵欄優(yōu)化是否達到預(yù)期效果。如圖所示,
綠色:主柱黃色:抓得不好粉色:抓得不好深藍色:禁止柱
可以看出,總體趨勢變化不大,只是兩欄的抓拍變化很大。
根據(jù)上述兩個數(shù)字,相應(yīng)的調(diào)整如下:
從CAS的輸出圖來看,總體捕獲較少。在主列中,抓取次數(shù)較少:XXX,XXX,XXX??傮w上,要增加整個網(wǎng)站的進口口岸,配合外鏈,加強站內(nèi)的內(nèi)部鏈接建設(shè)。對于薄弱柱,應(yīng)加強處理。同時,深藍色的欄目被寫進機器人中進行屏蔽,網(wǎng)站也被導(dǎo)入這些欄目中進行不跟蹤,避免權(quán)重只進不出。
第三,時間段捕捉
通過Excel中的數(shù)組函數(shù),提取日常抓取時間段中的爬蟲抓取,重點分析日常抓取,找出對應(yīng)的抓取密集時間段,并相應(yīng)更新內(nèi)容。同時,可以看出抓取異常。
圖中有些粉紅色的表格是不正常的時間點??梢钥闯?,服務(wù)器不是特別穩(wěn)定。而且,如果想了解特殊情況,可以從下圖中一目了然,一天中哪個時間點有問題,同樣是總捕獲量呈下降趨勢。
通過抓取時間,我們做了相應(yīng)的調(diào)整:
通過圖中表格的顏色,可以看出服務(wù)器不是特別穩(wěn)定。我們需要加強服務(wù)器的穩(wěn)定性。此外,在17、18、19天內(nèi),該網(wǎng)站不斷遭到人的攻擊和鏈接,但爬行正常,說明這些都對網(wǎng)站造成了一定的影響!
第四,IP段捕獲
通過MSSQL在日志中提取爬蟲的IP地址,并通過Excel進行統(tǒng)計。我們還需要查看整個IP地址。如果IP網(wǎng)段沒有明顯變化,網(wǎng)站的提升權(quán)限就沒有大問題。因為當(dāng)網(wǎng)站升級或降級時,爬網(wǎng)程序的IP段將被替換。
第五,狀態(tài)碼統(tǒng)計
在此之前,您需要知道HTTP狀態(tài)代碼返回值代表什么。
從圖中可以看出,有許多304狀態(tài)碼。如果一個網(wǎng)站被搜索引擎抓取的次數(shù)和頻率更多,那么就更有利于排名,但是如果你的網(wǎng)站出現(xiàn)過多的304條,那么就會降低搜索引擎抓取的頻率和頻率,從而使你的網(wǎng)站排名低于別人。調(diào)整:服務(wù)器可以清除緩存。
還有一張圖片,百度爬蟲數(shù)據(jù)圖,數(shù)據(jù)密集,以上所有數(shù)據(jù)都是從這里調(diào)用的。
以上是百度搜索引擎關(guān)鍵詞優(yōu)化公司優(yōu)幫云關(guān)于網(wǎng)站數(shù)據(jù)日志分析。希望對您有所幫助!