被老板抱进办公室揉我胸|娇妻互换被高潮了三次|女人被添全过程A片添|巜被褥里的人妻HD中字|娇妻4P被八个男人伺候电影|被迫躺在调教椅上扩张在线视频

如何抓住蜘蛛

文章來源:優(yōu)幫云SEO 2020-04-11

對(duì)于搜索引擎來說,幾乎不可能捕捉到互聯(lián)網(wǎng)上的所有網(wǎng)頁。那么蜘蛛是如何抓住它的呢?今天我們將繼續(xù)討論昨天的話題:搜索引擎是如何工作的?過來看看!

從目前公布的數(shù)據(jù)來看,容量的搜索引擎只捕獲了網(wǎng)頁總數(shù)的40%左右。其中一個(gè)原因是抓取技術(shù)的瓶頸,它不能遍歷所有的網(wǎng)頁,很多網(wǎng)頁無法從其他網(wǎng)頁的鏈接中找到;另一個(gè)原因是存儲(chǔ)技術(shù)和處理技術(shù)的問題。如果每頁的平均大小為20K(包括圖片),則100億個(gè)網(wǎng)頁的容量為100-2000g字節(jié)。即使可以過度存儲(chǔ),也存在下載問題(按一臺(tái)機(jī)器每秒下載20K計(jì)算,需要240臺(tái)機(jī)器連續(xù)下載一年才能下載完所有網(wǎng)頁)。

同時(shí),由于數(shù)據(jù)量過大,搜索效率也會(huì)受到影響。因此,很多搜索引擎蜘蛛只會(huì)抓取哪些重要的網(wǎng)頁,而在抓取的過程中,評(píng)價(jià)網(wǎng)頁重要性的主要依據(jù)是網(wǎng)頁的鏈接深度。

在抓取網(wǎng)頁時(shí),搜索引擎蜘蛛通常有兩種策略:廣度優(yōu)先和深度優(yōu)先。廣度優(yōu)先意味著搜索引擎蜘蛛將首先抓取起始頁中鏈接的所有頁面,然后選擇其中一個(gè)鏈接頁面,并繼續(xù)使用此頁中鏈接的所有頁面。這是常用的方法,因?yàn)檫@種方法可以讓搜索引擎并行處理,提高其抓取速度。深度優(yōu)先意味著搜索引擎蜘蛛將從起始頁開始,逐個(gè)跟蹤鏈接,然后在處理完這一行后轉(zhuǎn)到下一個(gè)起始頁繼續(xù)跟蹤鏈接。這種方法的一個(gè)優(yōu)點(diǎn)是更容易設(shè)計(jì)搜索引擎蜘蛛。

由于不可能捕獲所有網(wǎng)頁,一些搜索引擎蜘蛛設(shè)置了一些不重要網(wǎng)站的訪問層數(shù),如下圖所示。A是起始頁,屬于第0、B、C、D、e和f層,屬于第1、G和H層,屬于第2、I層。如果搜索引擎spider設(shè)置的訪問層數(shù)為2,則不會(huì)訪問我的網(wǎng)頁。這還允許在搜索引擎中搜索某些網(wǎng)站上的某些網(wǎng)頁,而不能搜索其他網(wǎng)站上的網(wǎng)頁。對(duì)于網(wǎng)站設(shè)計(jì)者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎捕獲更多的頁面。

搜索引擎蜘蛛在訪問網(wǎng)頁時(shí)經(jīng)常遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題。有些網(wǎng)頁需要成員的權(quán)限才能訪問。當(dāng)然,網(wǎng)站所有者可以讓搜索引擎只注意不通過協(xié)議捕獲,但是對(duì)于一些銷售報(bào)表的網(wǎng)站,他們希望搜索引擎能夠搜索到他們的報(bào)表,但是他們不能讓搜索者完全免費(fèi)查看,所以他們需要為搜索引擎的蜘蛛。搜索引擎蜘蛛可以在給定的權(quán)限內(nèi)爬行這些頁面,以便提供搜索。當(dāng)搜索者點(diǎn)擊查看網(wǎng)頁時(shí),還需要提供相應(yīng)的權(quán)限驗(yàn)證。

本文標(biāo)簽:seo技術(shù)教程
汉阴县| 普格县| 西昌市| 泾川县| 东明县| 南陵县| 多伦县| 阿坝| 察隅县| 瑞丽市| 漳州市| 台东市| 绥阳县| 黑龙江省| 乐东| 固阳县| 吴川市| 衡阳市| 龙泉市| 东莞市| 吉木萨尔县| 紫阳县| 抚松县| 斗六市| 酉阳| 灵璧县| 屏南县| 临猗县| 镇原县| 乌兰县| 通辽市| 贵南县| 宁夏| 景泰县| 洪雅县| 南城县| 开化县| 宣武区| 镶黄旗| 简阳市| 赣榆县|