綠色(sè)資源網:您身邊最放心的安全下載站! 最新(xīn)軟件(jiàn)|熱(rè)門排(pái)行|軟件分類|軟(ruǎn)件專(zhuān)題|廠商大全

綠(lǜ)色資源網

技術教程
您的位置:首頁服務器類Web服務(wù)器 → 如何在IIS裏設置並查詢(xún)搜索引擎蜘蛛

如何在IIS裏設置並查詢搜索(suǒ)引擎蜘蛛

我要評論 2009/04/13 00:01:17 來源:綠(lǜ)色資源網 編輯(jí):華子 [大(dà) ] 評論:0 點擊:812次

  昨天(tiān)發(fā)生了一件很鬱悶的事(shì)情。downcc一個網站的快照停(tíng)止在9號了,去服務(wù)器上查看該網站日誌記錄!竟然沒發現蜘蛛(zhū)記錄,以(yǐ)為網(wǎng)站要掛了!仔細一看,原來IIS該站點(diǎn)日(rì)誌(zhì)屬性中沒設置(zhì)記(jì)錄爬蟲(chóng)這(zhè)些(xiē)!百度下竟然在網上沒有這方麵(miàn)的文章,為了讓以後更多的兄弟不浪(làng)費(fèi)寶貴的時間,木木就(jiù)把這個全套設置全部(bù)寫出來。

  一、IIS中網站(zhàn)的日誌的設置。

  打開IIS。選擇(zé)所要(yào)設置的網站屬性。彈出如下窗口:

  “啟(qǐ)用日誌記錄”,勾(gōu)選,選擇“W3C擴展日誌(zhì)文件(jiàn)格式”。

  再次點擊這裏的“屬性(xìng)”按鈕(niǔ),常規選項裏麵,選擇新日誌計(jì)劃(huá)為“每(měi)天”,當然也可以選擇其他,選(xuǎn)擇好保存日誌文件(jiàn)的目錄(lù)。

  按照一般情況(kuàng),設置到這裏就可以記(jì)錄日(rì)誌了(le),但是(shì)有些主機無論如何都找不到搜索引擎爬蟲的痕跡(jì),類(lèi)似於Baiduspider+怎麽都看不到。這個時候(hòu)我(wǒ)們就(jiù)需要啟(qǐ)用(yòng)剩(shèng)下的三個(gè)選項了(le)!

  選擇高級選項。勾(gōu)選底下(xià)的用戶代(dài)理(cs(User-Agent))等下麵三個選項,這樣我們就(jiù)可(kě)以看到百(bǎi)度蜘蛛了!

  二、如何分析網站IIS日誌中的蜘蛛

  首先來認識(shí)下國內(nèi)主(zhǔ)流(liú)搜索引擎的蜘蛛(zhū)的名稱:

  1. Google爬蟲名稱(chēng)

  1) Googlebot:從Google的網站索(suǒ)引和新聞索引中抓取(qǔ)網頁

  2) Googlebot-mobiles針對Google的(de)移動索引(yǐn)抓(zhuā)取網頁

  3) Googlebot-Image:針對Google的(de)圖片索(suǒ)引抓取網頁

  4) Mediapartners-Google:抓取網頁(yè)確定(dìng) AdSense 的內容。隻有在你的網站上展示 AdSense 廣告的(de)情況下(xià),Google才會使用此漫遊器來(lái)抓取您的網站。

  5) Adsbot-Google:抓(zhuā)取網頁來衡量 AdWords 目標網頁的(de)質(zhì)量(liàng)。隻有(yǒu)在你使(shǐ)用 Google AdWords 為你的網站做廣(guǎng)告的情況(kuàng)下,Google才會使用此漫遊(yóu)器。

  2. 百度(dù)(Baidu)爬蟲名稱(chēng):Baiduspider

  3. 雅虎(Yahoo)爬蟲(chóng)名稱(chēng):Yahoo Slurp

  4. 有道(Yodao)蜘蛛名稱(chēng):YodaoBot

  5. 搜狗(sogou)蜘(zhī)蛛名稱:sogou spider

  因為咱(zán)們國內比較(jiào)關注百(bǎi)度所以我們來分下百(bǎi)度的(de)蜘蛛,從(cóng)剛剛記錄(lù)的(de)日誌搜索“Baiduspider+“選取一段

  00:00:06 GET /Class/Class.asp ID=38 61.135.168.142 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 214

  上麵這(zhè)個日誌說明是在0點的時候 訪(fǎng)問了(le) Class/Class.asp ID=38頁麵。蜘蛛IP地址為61.135.168.142。其中的200 表示搜索引擎(qíng)蜘蛛爬行後返回HTTP的狀態(tài)代碼(mǎ),代表成功爬行並抓取。

  下麵列(liè)出常(cháng)見數字代碼:

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常(cháng);已接受用於處理(lǐ),但處理尚未完成。

  203 正常;部分信息(xī) — 返回的(de)信(xìn)息隻是一部分。

  204 正常;無響應(yīng) — 已接收請求,但不存在要回送的(de)信息。

  3xx 重定向

  301 已移動(dòng) — 請求的(de)數據(jù)具有新的位置且更改是永久的。

  302 已找到 — 請求的數(shù)據臨時具有(yǒu)不同 URI。

  303 請參(cān)閱其(qí)它 — 可在另(lìng)一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。

  304 未修改 — 未按預期修改(gǎi)文檔。

  305 使用代理 — 必須通(tōng)過位置字段中提供的代理來訪問請求的(de)資源。

  306 未使用 — 不再(zài)使(shǐ)用(yòng);保留此代碼以便將來(lái)使用。

  4xx 客(kè)戶機中出現的錯(cuò)誤

  400 錯誤請求 — 請求中有(yǒu)語法問題,或不能滿足請求(qiú)。

  401 未授權 — 未授權客戶機訪問數(shù)據。

  402 需要(yào)付款(kuǎn) — 表示計費(fèi)係統已有(yǒu)效。

  403 禁止 — 即(jí)使有授權也不需要(yào)訪問。

  404 找(zhǎo)不到 — 服務器找(zhǎo)不到給定的資(zī)源;文檔不(bú)存在。

  407 代理認證請求(qiú) — 客戶機首先(xiān)必須使用代理認證(zhèng)自身。

  410 請求(qiú)的網頁不存在(永久);

  415 介質類型不受支(zhī)持(chí) — 服(fú)務器拒絕服務請求,因(yīn)為不支持請求實體的格式。

  5xx 服(fú)務器中出現(xiàn)的錯(cuò)誤

  500 內部錯(cuò)誤 — 因為意外情況,服務器不能完成請求。

  501 未執行 — 服務器不支持請求的工具(jù)。

  502 錯誤網關 — 服務器接收到來(lái)自上(shàng)遊服務(wù)器(qì)的(de)無效響(xiǎng)應。

  503 無法獲得服(fú)務 — 由於臨(lín)時(shí)過載或(huò)維護(hù),服務器無法(fǎ)處理(lǐ)請(qǐng)求。

  了(le)解蜘蛛的爬(pá)行痕跡(jì),有助於(yú)我們分(fèn)析(xī)自己的網(wǎng)站。木木才疏(shū)學淺,就(jiù)簡單(dān)的總結下(xià)!

關鍵詞(cí):IIS,搜(sōu)索引擎

閱(yuè)讀本文後您有什麽感(gǎn)想? 已有 人給出評價!

  • 1 歡迎喜歡
  • 1 白癡
  • 1 拜(bài)托
  • 1 哇
  • 1 加油
  • 1 鄙視