如何在IIS裏設置並查詢搜索(suǒ)引擎蜘蛛
昨天(tiān)發(fā)生了一件很鬱悶的事(shì)情。downcc一個網站的快照停(tíng)止在9號了,去服務(wù)器上查看該網站日誌記錄!竟然沒發現蜘蛛(zhū)記錄,以(yǐ)為網(wǎng)站要掛了!仔細一看,原來IIS該站點(diǎn)日(rì)誌(zhì)屬性中沒設置(zhì)記(jì)錄爬蟲(chóng)這(zhè)些(xiē)!百度下竟然在網上沒有這方麵(miàn)的文章,為了讓以後更多的兄弟不浪(làng)費(fèi)寶貴的時間,木木就(jiù)把這個全套設置全部(bù)寫出來。
一、IIS中網站(zhàn)的日誌的設置。
打開IIS。選擇(zé)所要(yào)設置的網站屬性。彈出如下窗口:
“啟(qǐ)用日誌記錄”,勾(gōu)選,選擇“W3C擴展日誌(zhì)文件(jiàn)格式”。
再次點擊這裏的“屬性(xìng)”按鈕(niǔ),常規選項裏麵,選擇新日誌計(jì)劃(huá)為“每(měi)天”,當然也可以選擇其他,選(xuǎn)擇好保存日誌文件(jiàn)的目錄(lù)。
按照一般情況(kuàng),設置到這裏就可以記(jì)錄日(rì)誌了(le),但是(shì)有些主機無論如何都找不到搜索引擎爬蟲的痕跡(jì),類(lèi)似於Baiduspider+怎麽都看不到。這個時候(hòu)我(wǒ)們就(jiù)需要啟(qǐ)用(yòng)剩(shèng)下的三個(gè)選項了(le)!
選擇高級選項。勾(gōu)選底下(xià)的用戶代(dài)理(cs(User-Agent))等下麵三個選項,這樣我們就(jiù)可(kě)以看到百(bǎi)度蜘蛛了!
二、如何分析網站IIS日誌中的蜘蛛
首先來認識(shí)下國內(nèi)主(zhǔ)流(liú)搜索引擎的蜘蛛(zhū)的名稱:
1. Google爬蟲名稱(chēng)
1) Googlebot:從Google的網站索(suǒ)引和新聞索引中抓取(qǔ)網頁
2) Googlebot-mobiles針對Google的(de)移動索引(yǐn)抓(zhuā)取網頁
3) Googlebot-Image:針對Google的(de)圖片索(suǒ)引抓取網頁
4) Mediapartners-Google:抓取網頁(yè)確定(dìng) AdSense 的內容。隻有在你的網站上展示 AdSense 廣告的(de)情況下(xià),Google才會使用此漫遊器來(lái)抓取您的網站。
5) Adsbot-Google:抓(zhuā)取網頁來衡量 AdWords 目標網頁的(de)質(zhì)量(liàng)。隻有(yǒu)在你使(shǐ)用 Google AdWords 為你的網站做廣(guǎng)告的情況(kuàng)下,Google才會使用此漫遊(yóu)器。
2. 百度(dù)(Baidu)爬蟲名稱(chēng):Baiduspider
3. 雅虎(Yahoo)爬蟲(chóng)名稱(chēng):Yahoo Slurp
4. 有道(Yodao)蜘蛛名稱(chēng):YodaoBot
5. 搜狗(sogou)蜘(zhī)蛛名稱:sogou spider
因為咱(zán)們國內比較(jiào)關注百(bǎi)度所以我們來分下百(bǎi)度的(de)蜘蛛,從(cóng)剛剛記錄(lù)的(de)日誌搜索“Baiduspider+“選取一段
00:00:06 GET /Class/Class.asp ID=38 61.135.168.142 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 214
上麵這(zhè)個日誌說明是在0點的時候 訪(fǎng)問了(le) Class/Class.asp ID=38頁麵。蜘蛛IP地址為61.135.168.142。其中的200 表示搜索引擎(qíng)蜘蛛爬行後返回HTTP的狀態(tài)代碼(mǎ),代表成功爬行並抓取。
下麵列(liè)出常(cháng)見數字代碼:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常(cháng);已接受用於處理(lǐ),但處理尚未完成。
203 正常;部分信息(xī) — 返回的(de)信(xìn)息隻是一部分。
204 正常;無響應(yīng) — 已接收請求,但不存在要回送的(de)信息。
3xx 重定向
301 已移動(dòng) — 請求的(de)數據(jù)具有新的位置且更改是永久的。
302 已找到 — 請求的數(shù)據臨時具有(yǒu)不同 URI。
303 請參(cān)閱其(qí)它 — 可在另(lìng)一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改(gǎi)文檔。
305 使用代理 — 必須通(tōng)過位置字段中提供的代理來訪問請求的(de)資源。
306 未使用 — 不再(zài)使(shǐ)用(yòng);保留此代碼以便將來(lái)使用。
4xx 客(kè)戶機中出現的錯(cuò)誤
400 錯誤請求 — 請求中有(yǒu)語法問題,或不能滿足請求(qiú)。
401 未授權 — 未授權客戶機訪問數(shù)據。
402 需要(yào)付款(kuǎn) — 表示計費(fèi)係統已有(yǒu)效。
403 禁止 — 即(jí)使有授權也不需要(yào)訪問。
404 找(zhǎo)不到 — 服務器找(zhǎo)不到給定的資(zī)源;文檔不(bú)存在。
407 代理認證請求(qiú) — 客戶機首先(xiān)必須使用代理認證(zhèng)自身。
410 請求(qiú)的網頁不存在(永久);
415 介質類型不受支(zhī)持(chí) — 服(fú)務器拒絕服務請求,因(yīn)為不支持請求實體的格式。
5xx 服(fú)務器中出現(xiàn)的錯(cuò)誤
500 內部錯(cuò)誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具(jù)。
502 錯誤網關 — 服務器接收到來(lái)自上(shàng)遊服務(wù)器(qì)的(de)無效響(xiǎng)應。
503 無法獲得服(fú)務 — 由於臨(lín)時(shí)過載或(huò)維護(hù),服務器無法(fǎ)處理(lǐ)請(qǐng)求。
了(le)解蜘蛛的爬(pá)行痕跡(jì),有助於(yú)我們分(fèn)析(xī)自己的網(wǎng)站。木木才疏(shū)學淺,就(jiù)簡單(dān)的總結下(xià)!
關鍵詞(cí):IIS,搜(sōu)索引擎
閱(yuè)讀本文後您有什麽感(gǎn)想? 已有 人給出評價!
- 1
- 1
- 1
- 1
- 1
- 1