网站日志分析Word格式文档下载.docx
《网站日志分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《网站日志分析Word格式文档下载.docx(7页珍藏版)》请在冰点文库上搜索。
datetimec-ipcs-usernames-sitenames-puternames-ips-portcs-methodcs-uri-stemcs-uri-querysc-statussc-win32-statussc-bytescs-bytestime-takencs-versioncs-hostcs(User-Agent)cs(Cookie)cs(Referer)//日志格式
2.以下日志是我在本地上测试的,扩展属性全部选中。
2010-07-3001:
06:
43192.168.0.102-W3SVC1MGL192.168.0.10280GET/css/rss.xslt-30401403580HTTP/1.1192.168.0.102Mozilla/4.0+(patible;
+MSIE+7.0;
+Windows+NT+5.1;
+Trident/4.0;
+InfoPath.2;
+360SE)
ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM–
下面对日志格式进行详细解答。
1.Fields:
date2010-07-30\\爬行日期time01:
43\\时间s-sitenameW3SVC1\\服务器名称s-puternameMGL\\网站名称s-ip192.168.0.102\\网站IPcs-methodGET\\获取方法cs-uri-stem/css/rss.xslt\\文件的URLcs-uri-query-\\后面的参数s-port80\\服务器端口cs-username-\\用户名c-ip192.168.0.102\访问者(蜘蛛)ipcs-versionHTTP/1.1\\协议版本cs(User-Agent)Mozilla/4.0+
(patible;
+360SE)\\用户代理,即用户所用的浏览器(这个最重要)
2.cs(Cookie)ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM\\发送或接收的Cookie内容(如果有)cs(Referer)-\\选择该选项可以记录用户访问的前一个站点。
此站点提供与当前站点的链接。
3.cs-host192.168.0.102\\主机头的内容。
我本地访问的是IP,这个应该是网站域名。
sc-status304\\协议状态(200是正常的404是找不到文件,304未改变。
更多请查看IIS返回日志详解)sc-substatus0\\协议子状态sc-win32-status0\\win32状态sc-bytes140\\发送的字节数cs-bytes358\\接受的字节数time-taken0\\所用时间200004600316140返回200正常,4600发送的字节数,316接受的字节数140所用时间。
这个时间应该是毫秒级别的。
网站日志中返回代码的含义
一:
1xx(临时响应)表示临时响应并需要请求者继续执行操作的状态代码。
100(继续)请求者应当继续提出请求。
服务器返回此代码表示已收到请求的第一部
分,正在等待其余部分。
101(切换协议)请求者已要求服务器切换协议,服务器已确认并准备切换。
二:
2xx(成功)表示成功处理了请求的状态代码。
200(成功)服务器已成功处理了请求。
通常,这表示服务器提供了请求的网页。
201(已创建)请求成功并且服务器创建了新的资源。
202(已接受)服务器已接受请求,但尚未处理。
203(非授权信息)服务器已成功处理了请求,但返回的信息可能来自另一来源。
204(无内容)服务器成功处理了请求,但没有返回任何内容。
205(重置内容)服务器成功处理了请求,但没有返回任何内容。
206(部分内容)服务器成功处理了部分GET请求。
三:
3xx(重定向)表示要完成请求,需要进一步操作。
通常,这些状态代码用来重定
向。
300(多种选择)针对请求,服务器可执行多种操作。
服务器可根据请求者(user
agent)选择一项操作,或提供操作列表供请求者选择。
301(永久移动)请求的网页已永久移动到新位置。
服务器返回此响应(对GET或
HEAD请求的响应)时,会自动将请求者转到新位置。
302(临时移动)服务器目前从不同位置的网页响应请求,但请求者应继续使用原有
位置来进行以后的请求。
303(查看其他位置)请求者应当对不同的位置使用单独的GET请求来检索响应时,
服务器返回此代码。
304(未修改)自从上次请求后,请求的网页未修改过。
服务器返回此响应时,不会
返回网页内容。
305(使用代理)请求者只能使用代理访问请求的网页。
如果服务器返回此响应,还
表示请求者应使用代理。
307(临时重定向)服务器目前从不同位置的网页响应请求,但请求者应继续使用原
有位置来进行以后的请求。
四:
4xx(请求错误)这些状态代码表示请求可能出错,妨碍了服务器的处理。
400(错误请求)服务器不理解请求的语法。
401(未授权)请求要求身份验证。
对于需要登录的网页,服务器可能返回此响应。
403(禁止)服务器拒绝请求。
404(未找到)服务器找不到请求的网页。
405(方法禁用)禁用请求中指定的方法。
406(不接受)无法使用请求的内容特性响应请求的网页。
407(需要代理授权)此状态代码与401(未授权)类似,但指定请求者应当授权使
用代理。
408(请求超时)服务器等候请求时发生超时。
409(冲突)服务器在完成请求时发生冲突。
服务器必须在响应中包含有关冲突的信
息。
410(已删除)如果请求的资源已永久删除,服务器就会返回此响应。
411(需要有效长度)服务器不接受不含有效内容长度标头字段的请求。
412(未满足前提条件)服务器未满足请求者在请求中设置的其中一个前提条件。
413(请求实体过大)服务器无法处理请求,因为请求实体过大,超出服务器的处理
能力。
414(请求的URI过长)请求的URI(通常为网址)过长,服务器无法处理。
415(不支持的媒体类型)请求的格式不受请求页面的支持。
416(请求范围不符合要求)如果页面无法提供请求的范围,则服务器会返回此状态
代码。
417(未满足期望值)服务器未满足"
期望"
请求标头字段的要求。
五:
5xx(服务器错误)这些状态代码表示服务器在尝试处理请求时发生内部错误。
这些
错误可能是服务器本身的错误,而不是请求出错。
500(服务器内部错误)服务器遇到错误,无法完成请求。
501(尚未实施)服务器不具备完成请求的功能。
例如,服务器无法识别请求方法时
可能会返回此代码。
502(错误网关)服务器作为网关或代理,从上游服务器收到无效响应。
503(服务不可用)服务器目前无法使用(由于超载或停机维护)。
通常,这只是暂
时状态。
504(网关超时)服务器作为网关或代理,但是没有及时从上游服务器收到请求。
505(HTTP版本不受支持)服务器不支持请求中所用的HTTP协议版本。
网站日志中,我们以常见的XX蜘蛛IP为例:
121.14.89.*这个ip段作为度过新站考察期。
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
220.181.7.*、123.125.66.*代表XX蜘蛛IP造访,准备抓取你东西。
220.181.68.*每天这个IP段只增不减很有可能进沙盒或K站。
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
210.72.225.*这个ip段不间断巡逻各站。
123.125.71.95抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因
不是原创或采集文章。
123.125.71.97抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因
123.125.71.106抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,
因不是原创或采集文章。
123.125.71.117抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,
125.90.88.*广东茂名市电信也属于XX蜘蛛IP主要造成成分,是新上线站较多,还
有使用过站长工具,或SEO综合检测造成的。
220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。
权重IP段,
爬过的文章或首页基本24小时放出来。
220.181.108.77专用抓首页IP权重段,一般返回代码是30400代表未更新。
220.181.108.80专用抓取首页IP权重段,一般返回代码是30400代表未更新。
220.181.108.83专用抓取首页IP权重段,一般返回代码是30400代表未更新。
220.181.108.86专用抓取首页IP权重段,一般返回代码是30400代表未更新。
220.181.108.89专用抓取首页IP权重段,一般返回代码是30400代表未更新。
220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP段,爬过的文
章或首页基本24小时放出来。
220.181.108.92同上98%抓取首页,可能还会抓取其他(不是指内页)
220.181.108.94专用抓取首页IP权重段,一般返回代码是30400代表未更新。
220.181.108.95这个是XX抓取首页的专用IP,如是220.181.108段的话,基本来说你
的网站会天天隔夜快照
220.181.108.97专用抓取首页IP权重段,一般返回代码是30400代表未更新。
注===以上IP尾数还有很多,但段位一样的123.125.71.*段IP代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。
220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页。
六:
所谓尽信书不如无书,以上只能当作参考,不能完全照搬;
如果还看到一些不知名的类似XXIP蜘蛛的话,可能是一些(站长工具)的模拟蜘蛛IP。