网站日志分析Word格式文档下载.docx

上传人:b****3 文档编号:6436740 上传时间:2023-05-06 格式:DOCX 页数:7 大小:18.24KB
下载 相关 举报
网站日志分析Word格式文档下载.docx_第1页
第1页 / 共7页
网站日志分析Word格式文档下载.docx_第2页
第2页 / 共7页
网站日志分析Word格式文档下载.docx_第3页
第3页 / 共7页
网站日志分析Word格式文档下载.docx_第4页
第4页 / 共7页
网站日志分析Word格式文档下载.docx_第5页
第5页 / 共7页
网站日志分析Word格式文档下载.docx_第6页
第6页 / 共7页
网站日志分析Word格式文档下载.docx_第7页
第7页 / 共7页
亲,该文档总共7页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

网站日志分析Word格式文档下载.docx

《网站日志分析Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《网站日志分析Word格式文档下载.docx(7页珍藏版)》请在冰点文库上搜索。

网站日志分析Word格式文档下载.docx

datetimec-ipcs-usernames-sitenames-puternames-ips-portcs-methodcs-uri-stemcs-uri-querysc-statussc-win32-statussc-bytescs-bytestime-takencs-versioncs-hostcs(User-Agent)cs(Cookie)cs(Referer)//日志格式

2.以下日志是我在本地上测试的,扩展属性全部选中。

2010-07-3001:

06:

43192.168.0.102-W3SVC1MGL192.168.0.10280GET/css/rss.xslt-30401403580HTTP/1.1192.168.0.102Mozilla/4.0+(patible;

+MSIE+7.0;

+Windows+NT+5.1;

+Trident/4.0;

+InfoPath.2;

+360SE)

ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM–

下面对日志格式进行详细解答。

1.Fields:

date2010-07-30\\爬行日期time01:

43\\时间s-sitenameW3SVC1\\服务器名称s-puternameMGL\\网站名称s-ip192.168.0.102\\网站IPcs-methodGET\\获取方法cs-uri-stem/css/rss.xslt\\文件的URLcs-uri-query-\\后面的参数s-port80\\服务器端口cs-username-\\用户名c-ip192.168.0.102\访问者(蜘蛛)ipcs-versionHTTP/1.1\\协议版本cs(User-Agent)Mozilla/4.0+

(patible;

+360SE)\\用户代理,即用户所用的浏览器(这个最重要)

2.cs(Cookie)ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM\\发送或接收的Cookie内容(如果有)cs(Referer)-\\选择该选项可以记录用户访问的前一个站点。

此站点提供与当前站点的链接。

3.cs-host192.168.0.102\\主机头的内容。

我本地访问的是IP,这个应该是网站域名。

sc-status304\\协议状态(200是正常的404是找不到文件,304未改变。

更多请查看IIS返回日志详解)sc-substatus0\\协议子状态sc-win32-status0\\win32状态sc-bytes140\\发送的字节数cs-bytes358\\接受的字节数time-taken0\\所用时间200004600316140返回200正常,4600发送的字节数,316接受的字节数140所用时间。

这个时间应该是毫秒级别的。

网站日志中返回代码的含义

一:

1xx(临时响应)表示临时响应并需要请求者继续执行操作的状态代码。

100(继续)请求者应当继续提出请求。

服务器返回此代码表示已收到请求的第一部

分,正在等待其余部分。

101(切换协议)请求者已要求服务器切换协议,服务器已确认并准备切换。

二:

2xx(成功)表示成功处理了请求的状态代码。

200(成功)服务器已成功处理了请求。

通常,这表示服务器提供了请求的网页。

201(已创建)请求成功并且服务器创建了新的资源。

202(已接受)服务器已接受请求,但尚未处理。

203(非授权信息)服务器已成功处理了请求,但返回的信息可能来自另一来源。

204(无内容)服务器成功处理了请求,但没有返回任何内容。

205(重置内容)服务器成功处理了请求,但没有返回任何内容。

206(部分内容)服务器成功处理了部分GET请求。

三:

3xx(重定向)表示要完成请求,需要进一步操作。

通常,这些状态代码用来重定

向。

300(多种选择)针对请求,服务器可执行多种操作。

服务器可根据请求者(user

agent)选择一项操作,或提供操作列表供请求者选择。

301(永久移动)请求的网页已永久移动到新位置。

服务器返回此响应(对GET或

HEAD请求的响应)时,会自动将请求者转到新位置。

302(临时移动)服务器目前从不同位置的网页响应请求,但请求者应继续使用原有

位置来进行以后的请求。

303(查看其他位置)请求者应当对不同的位置使用单独的GET请求来检索响应时,

服务器返回此代码。

304(未修改)自从上次请求后,请求的网页未修改过。

服务器返回此响应时,不会

返回网页内容。

305(使用代理)请求者只能使用代理访问请求的网页。

如果服务器返回此响应,还

表示请求者应使用代理。

307(临时重定向)服务器目前从不同位置的网页响应请求,但请求者应继续使用原

有位置来进行以后的请求。

四:

4xx(请求错误)这些状态代码表示请求可能出错,妨碍了服务器的处理。

400(错误请求)服务器不理解请求的语法。

401(未授权)请求要求身份验证。

对于需要登录的网页,服务器可能返回此响应。

403(禁止)服务器拒绝请求。

404(未找到)服务器找不到请求的网页。

405(方法禁用)禁用请求中指定的方法。

406(不接受)无法使用请求的内容特性响应请求的网页。

407(需要代理授权)此状态代码与401(未授权)类似,但指定请求者应当授权使

用代理。

408(请求超时)服务器等候请求时发生超时。

409(冲突)服务器在完成请求时发生冲突。

服务器必须在响应中包含有关冲突的信

息。

410(已删除)如果请求的资源已永久删除,服务器就会返回此响应。

411(需要有效长度)服务器不接受不含有效内容长度标头字段的请求。

412(未满足前提条件)服务器未满足请求者在请求中设置的其中一个前提条件。

413(请求实体过大)服务器无法处理请求,因为请求实体过大,超出服务器的处理

能力。

414(请求的URI过长)请求的URI(通常为网址)过长,服务器无法处理。

415(不支持的媒体类型)请求的格式不受请求页面的支持。

416(请求范围不符合要求)如果页面无法提供请求的范围,则服务器会返回此状态

代码。

417(未满足期望值)服务器未满足"

期望"

请求标头字段的要求。

五:

5xx(服务器错误)这些状态代码表示服务器在尝试处理请求时发生内部错误。

这些

错误可能是服务器本身的错误,而不是请求出错。

500(服务器内部错误)服务器遇到错误,无法完成请求。

501(尚未实施)服务器不具备完成请求的功能。

例如,服务器无法识别请求方法时

可能会返回此代码。

502(错误网关)服务器作为网关或代理,从上游服务器收到无效响应。

503(服务不可用)服务器目前无法使用(由于超载或停机维护)。

通常,这只是暂

时状态。

504(网关超时)服务器作为网关或代理,但是没有及时从上游服务器收到请求。

505(HTTP版本不受支持)服务器不支持请求中所用的HTTP协议版本。

网站日志中,我们以常见的XX蜘蛛IP为例:

121.14.89.*这个ip段作为度过新站考察期。

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.7.*、123.125.66.*代表XX蜘蛛IP造访,准备抓取你东西。

220.181.68.*每天这个IP段只增不减很有可能进沙盒或K站。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

123.125.71.95抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因

不是原创或采集文章。

123.125.71.97抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因

123.125.71.106抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,

因不是原创或采集文章。

123.125.71.117抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,

125.90.88.*广东茂名市电信也属于XX蜘蛛IP主要造成成分,是新上线站较多,还

有使用过站长工具,或SEO综合检测造成的。

220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。

权重IP段,

爬过的文章或首页基本24小时放出来。

220.181.108.77专用抓首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.80专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.83专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.86专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.89专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP段,爬过的文

章或首页基本24小时放出来。

220.181.108.92同上98%抓取首页,可能还会抓取其他(不是指内页)

220.181.108.94专用抓取首页IP权重段,一般返回代码是30400代表未更新。

220.181.108.95这个是XX抓取首页的专用IP,如是220.181.108段的话,基本来说你

的网站会天天隔夜快照

220.181.108.97专用抓取首页IP权重段,一般返回代码是30400代表未更新。

注===以上IP尾数还有很多,但段位一样的123.125.71.*段IP代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。

220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页。

六:

所谓尽信书不如无书,以上只能当作参考,不能完全照搬;

如果还看到一些不知名的类似XXIP蜘蛛的话,可能是一些(站长工具)的模拟蜘蛛IP。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2