详解Windows服务器蜘蛛日志
2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0
分析下 200 0 0组成部分 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)
sc-status(协议状态): 200 连接成功
sc-substatus(协议子状态) :0 成功
sc-win32-status(Win32状态码):0 代表抓取成功并带回数据库 ; 64 指定的网络名不再可用
1: 在这个访问记录里面121.187.5.143是你服务器的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 为蜘蛛访问你的页面 80是端口 GET是打开方式 W3SVC1是记录的文件夹,这里说明,bd蜘蛛已经访问了你的category-8-b0-min1100-max2200.html 这个页面,那么最重要的是最后面的这个参数200 0 0。
2、200 0 0 成功访问该页面,0代表抓取成功并带回数据库。这个时候你就放心了,这个页面已经被bd收录,但是还没有释放出来,bd更新时就可能释放出来。
3:200 0 64 网络上流传着这么三种解释第一:64为K站的前兆。第二64的出现只是64位操作系统。第三:网络不可达,由于某种原因无法完全打开页面,或者网络不稳定这些原因,导致蜘蛛无法带回页面或者说不抓取该页面,所以200 0 64的解释也应该为:访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。
4:304 0 0这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。
5:404 0 0这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了,崩溃~~~~,塞是这样的话基本上你要倒霉了,塞你有太多的404,那么蜘蛛就会不断是抓取,不断的带走,这样会造成无数的重复页面,最终导致K站或者降权,正确的返回骂是404 0 64 这就代表蜘蛛没有抓取你这个页面。
6:500错误500错误是服务器内部错误,是由程序的错误造成的,我不懂程序,但是500错误是会给你减分的,这点基本的逻辑都可以想的到,塞发现500错误,马上查看是哪个页面的,然后去修正以下错误吧!
7:302塞在日志中发现302的返回码也是需要注意的,302为临时重定向,塞你是长期的将这个页面重定向到另一个页面,麻烦你使用301永久重定向,塞是302的话bd蜘蛛下次来还会访问这个页面,这样又会造成复制大量页面的问题,结果肯定是K,所以,抽空检查以下。
百度蜘蛛爬行检测代码诠释
作为一名站长,要有长期观看自己IIS日志的习惯,研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码,也算是海军对爬行代码的一次笔记.
代表的具体含义:
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
根据查看IIS日志,得到百度蜘蛛反馈的情况来找回自己网站存在的问题,并加以改正,这样蜘蛛才会恋上你的温床的.
举例:正文:iis默认的日志文件在C:\WINDOWS\system32\LogFiles中,下面是Seoer惜缘的服务器日志,通过查看,就可以了解搜索引擎蜘蛛爬行经过,如:
2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64
1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,
2、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39
3、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页
4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间
5、W3SVC962713505代表网站日志所在的文件夹
6、 http://www.baidu.com/search/spider.htm baiduspider常见问题解答网页
7、代码中的200就代表搜索引擎蜘蛛爬行后返回HTTP状态代码,代码中可以了解蜘蛛爬行后的反映,
IIS日志百度蜘蛛注释200 0 64到底是啥?
IIS日志百度蜘蛛注释200 0 64到底是啥?
很多做SEO的朋友都会说是,进入审核.或者百度沙盒或者百度即将被K的预兆,当然.SEO海军也是这么认为的.今天在一个群里.和朋友探讨到这个问题.
很多朋友和做SEO的都是海军这么认为的.另外互联网也有其他的一些关于200 0 64 注释的看法如下
打开一个IIS的日志,我们在最上边大约第三行能够看到一个表头,像这样:
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
这是日志每行中每个字段的名称,我们看到的"200 0 64"是最后3个,那就是
sc-status sc-substatus sc-win32-status 这三个了,来看看这三个是什么东西:
sc-status:
HTTP协议的状态.HTTP协议的状态代码为200,这个可能大家不熟悉,但是,HTTP404找不到文件,HTTP500内部服务器错误,这两个状态代码大家应该很熟悉了吧? 不错,这个200,其实就是这个的一种,HTTP200就是文件被正常的访问了,只有这个数字是200以外的数字,才说明访问出现了错误(比如上面说的404文件找不到等).
sc-substatus:
HTTP子协议的状态.一般来说网站都是不使用子协议的,所以这个代码为0就是很正常的,我们完全可以不用管它.
sc-win32-status:
Win32状态.这个就是被很多人解释成说是是否被百度正常抓取的代码.除了这个解释之外,这个代码还有N多种解释,有的说是"不可用,打不开",有的说是"客户端传送到服务端的字节大小",真可谓天花乱坠.其实我们稍微懂点脑子,从字面意思就能够看懂.这只是表示客户端是否为32位系统的代码.如果被32位的系统访问,那么这里记录的就是0,如果被64位系统访问,那么这里记录的就是64……
总结上面的,再综合解释一下"200 0 64"和"200 0 0":
200 0 64:
文件被64位系统的访客或者蜘蛛正常访问或抓取.
200 0 0:
文件被32位系统的访客或者蜘蛛正常访问或抓取.