作为一名SEO爱好者分析网站蜘蛛日志是必不可少的通过网站日志中的数据记录百度seo优化通过网站日志中的数据记录站长们就可以很好的诊断我们的网站是否处在健康状态。比如博主的网站最近就受到不少挂黑链的攻击无论是网站权重还是流量都带来很大损失所以网站蜘蛛日志分析势在必行通过网站调整正确引导搜索引擎蜘蛛的抓取。
通过百科我们也可以了解到所谓的网站日志指的就是记录web服务器接收处理请求以及运行时错误等各种原始信息的以log结尾的文件。这里站长们要注意的是文件以log为后缀只需将其下载下来使用工具分析即可。
网站日志怎么获取
网站日志分析工具
网站日志分析工具是有很多的比如在线的网站日志工具拉格好()另外博主常用的是光年网站日志分析工具。这些工具大同小异文件和工具都有了下面我们就深入探究下如何分析这些网站数据。
常见网站蜘蛛有哪些
BaiDu Spider:即是代表百度搜索引擎蜘蛛从上图可以看到尹华峰SEO博客的搜索引擎爬虫来自百度占比52%
Sogou Spide:代表搜狗搜索引擎蜘蛛访问次数虽少但是抓取总量却很大这让博主发现了其中的猫腻原因就是本站某个栏目被人攻击挂了大量给搜狗搜索引擎蜘蛛抓取的黑链。
谷歌蜘蛛:表示Google搜索引擎蜘蛛做谷歌SEO的站长需要多加注意。
Alexa Spider:代表网站全球排名搜索引擎蜘蛛该爬虫主要分析网站的访问流量并统计网站全球排名当前本站在全球排名610481位。
除此之外其实还是有其他搜索引擎爬虫的如Yahoo蜘蛛、360Spider等以上只是本站的搜索引擎蜘蛛概要分析因为刚换服务器的原因目前蜘蛛抓爬的数据体量是比较小的仅供参考。通过日志工具主动与搜索引擎蜘蛛沟通我们还可以进一步分析网站抓取情况和状态码分析。
网站蜘蛛日志分析解读
目录抓取:可以分析网站目录的抓取量了解搜索引擎蜘蛛的爱好。通过上图可以看到Sogou Spide主要抓取了我的/kjzx/目录同其他目录对比抓取量比较大出现异常。于是我进入网站根目录进行查看发现了挂黑链的脚本文件这也印证了博主前面的判断。
页面抓取:页面抓取量是比较稳定的没有哪个页面抓取量大而出现异常这里博主就不再截图但博主发现抓取量最大的页面就是robots.txt文件所以站长们设置好robots规则也是很重要的。
状态码返回分析解读
200代表搜索引擎蜘蛛访问成功;
404代表页面无法访问;
301代表页面跳转;
304代表客户端已经执行了GET但文件未变化;
500状态码表示服务器遇到错误无法完成请求;
403状态码表示服务器拒绝请求。
以上是本站遇到的一些蜘蛛状态码(更多状态码请参考:网站日志常见HTTP状态码分析)站长尤其是查看非200值的状态码分析这些异常的URL路径很容易就找到网站症结之所在。
网站日志的作用