【视频】Shell服务器日志分析

无需求,不脚本,下面聊聊SEO中服务器日志分析的重点!从运行环境Linux/(Windows系统可安装cygwin),到SEO应用落地,预估学习成本两小时。

看文字不过瘾,那就视频吧

Shell命令快速入门


cat:打开文件

grep:内容查找

egrep:支持正则

awk:文本分割

sort:数据排序

uniq:数据去重

head:头部行数

NR:记录行数

wc -l:统计行数

SHELL学习方法

第一步跟着操作,看看每一步作用的作用是什么,以“|”为分隔符,我们把“|”称之为管道。

cat 你的的服务器日志路径.log

第二步,重复第一步,看输出结果,就可以清楚知道当前命令是干什么的

cat 你的的服务器日志路径.log | grep 'Baiduspider/2.0' 

SEO数据统计维度

  • 按页面类型监控
  • 非200抓取量
  • Top 10抓取量
  • 发现新页面类型

【需求一:百度爬虫抓取最多的10个页面】

cat test.log | grep 'Baiduspider/2.0' | awk '{print $7}' | sort | uniq -c | sort -nr | head -10

【需求二:百度爬虫非200状态码抓取占比】

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){n+=1}}END{print n/NR}'

【需求三:打印非200状态码的url】

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){print $7,$9}}' | sort | uniq -c | sort -nr

【需求四:统计所有状态码数】

cat test.log | grep 'Baiduspider/2.0' | awk '{print $9}' |sort | uniq -c

【需求五:按页面类型统计】

cat test.log | grep 'Baiduspider/2.0' | grep '/catalog/[0-9]' | wc -l

【需求六:统计top 10目录抓取数】

awk '{print $7}' test.log | egrep "[^/\w+/$]" | awk -F"/" '{print $2}' | sort | uniq -c | sort -nr | head -10

日志分析对应SEO策略:

  • 百度蜘蛛top 10的页面类型抓取数量、调整站内链接,优化爬虫路径,合理分配站内资源等
  • 非200状态码占比情况,及页面情况,提取404页面,找出网站问题及时解决等
  • 统计各频道流量(同一类型的页面)数据,流量分析对,及时止损,seo效果跟踪反馈等

1 thought on “【视频】Shell服务器日志分析”

Leave a Comment