无需求,不脚本,下面聊聊SEO中服务器日志分析的重点!从运行环境Linux/(Windows系统可安装cygwin),到SEO应用落地,预估学习成本两小时。
看文字不过瘾,那就视频吧
Shell命令快速入门:
cat:打开文件 grep:内容查找 egrep:支持正则 awk:文本分割 sort:数据排序 uniq:数据去重 head:头部行数 NR:记录行数 wc -l:统计行数
SHELL学习方法:
第一步跟着操作,看看每一步作用的作用是什么,以“|”为分隔符,我们把“|”称之为管道。
cat 你的的服务器日志路径.log
第二步,重复第一步,看输出结果,就可以清楚知道当前命令是干什么的
cat 你的的服务器日志路径.log | grep 'Baiduspider/2.0'
SEO数据统计维度
- 按页面类型监控
- 非200抓取量
- Top 10抓取量
- 发现新页面类型
【需求一:百度爬虫抓取最多的10个页面】
cat test.log | grep 'Baiduspider/2.0' | awk '{print $7}' | sort | uniq -c | sort -nr | head -10
【需求二:百度爬虫非200状态码抓取占比】
cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){n+=1}}END{print n/NR}'
【需求三:打印非200状态码的url】
cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){print $7,$9}}' | sort | uniq -c | sort -nr
【需求四:统计所有状态码数】
cat test.log | grep 'Baiduspider/2.0' | awk '{print $9}' |sort | uniq -c
【需求五:按页面类型统计】
cat test.log | grep 'Baiduspider/2.0' | grep '/catalog/[0-9]' | wc -l
【需求六:统计top 10目录抓取数】
awk '{print $7}' test.log | egrep "[^/\w+/$]" | awk -F"/" '{print $2}' | sort | uniq -c | sort -nr | head -10
日志分析对应SEO策略:
- 百度蜘蛛top 10的页面类型抓取数量、调整站内链接,优化爬虫路径,合理分配站内资源等
- 非200状态码占比情况,及页面情况,提取404页面,找出网站问题及时解决等
- 统计各频道流量(同一类型的页面)数据,流量分析对,及时止损,seo效果跟踪反馈等
涨知识了,作者太有才了,赞赞