作为一个SEO从业人员,学会蜘蛛日志分析是一项必备技能,我们可以通过中的数据记录,了解各个搜索引擎蜘蛛经常爬行哪些页面,有些目录可以屏蔽不被爬行,分析网站是否处在健康的状态。所以利用好蜘蛛日志分析工具也不可忽视,调整好网站正确引导搜索引擎蜘蛛的抓取。
一、网站日志怎么获取
网站日志是记录服务器请求与运行错误等信息以log后缀结尾的文件,不同的云服务器和云虚机存放的log文件位置会有不同,但一般获取的方法是比较简单,现在很多站长在服务器上安装宝塔面板,那么网站日志文件会存放在wwwlogs文件夹中,只需找到对应网站的log文件然后ftp下载。
二、网站日志分析工具
现在有很多比较好用的,比如在线日志分析工具拉格好,我自己常用的光年网站日志分析工具。这些工具其实大同小异,学会如何分析这些网站数据比较重要。
三、如何分析网站日志
123.125.71.84– – [20/May/2019:12:30:32 +0800] “GET /content/108.html HTTP/1.1” 200 7942 “-” “Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http ://www.baidu.com/search/spider.html)
以上是日志文件里的一段代码,现在跟大家一起来分析这段代码意思:
123.125.71.84:蜘蛛IP
[20/May/2019:12:30:32 +0800]:蜘蛛访问时间
GET /content/108.html HTTP/1.1:表示蜘蛛抓取的网页地址(GET表示服务器动作)
200:表示正常访问
7942:表示7942字节
后面的代码表示移动端系统,我们主要了解蜘蛛来抓取哪些页面与多久时间就要以,Baiduspider这个是百度蜘蛛的全名。
四、状态码返回分析解读
1、200:代表服务器返回页面成功;
2、404:代表页面无法访问;
3、301:代表页面301转向(重定向);
4、304:代表客户端已经执行了GET,但文件未变化;
5、500:状态码表示服务器遇到错误,无法完成请求;
6、403:状态码表示服务器拒绝请求。
通过网站蜘蛛日志分析,我们可以很好的诊断网站是否出现问题,比如大量蜘蛛访问造成打开速度缓慢,了解蜘蛛抓取频次、是否被关进沙盒、是否有异常抓取等。另外通过抓取量还可以进一步了解各个引擎蜘蛛的喜好,起到一定的辅助作用。