【视频】Shell服务器日志分析

无需求，不脚本，下面聊聊SEO中服务器日志分析的重点！从运行环境Linux/（Windows系统可安装cygwin），到SEO应用落地，预估学习成本两小时。

看文字不过瘾，那就视频吧

Shell命令快速入门：


cat：打开文件

grep：内容查找

egrep：支持正则

awk：文本分割

sort：数据排序

uniq：数据去重

head：头部行数

NR：记录行数

wc&nbsp;-l：统计行数

SHELL学习方法：

第一步跟着操作，看看每一步作用的作用是什么，以“|”为分隔符，我们把“|”称之为管道。

cat 你的的服务器日志路径.log

第二步，重复第一步，看输出结果，就可以清楚知道当前命令是干什么的

cat 你的的服务器日志路径.log | grep 'Baiduspider/2.0'

SEO数据统计维度

【需求一：百度爬虫抓取最多的10个页面】

cat test.log | grep 'Baiduspider/2.0' | awk '{print $7}' | sort | uniq -c | sort -nr | head -10

【需求二：百度爬虫非200状态码抓取占比】

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){n+=1}}END{print n/NR}'

【需求三：打印非200状态码的url】

cat test.log | grep 'Baiduspider/2.0' | awk '{if($9!="200"){print $7,$9}}' | sort | uniq -c | sort -nr

【需求四：统计所有状态码数】

cat test.log | grep 'Baiduspider/2.0' | awk '{print $9}' |sort | uniq -c

【需求五：按页面类型统计】

cat test.log | grep 'Baiduspider/2.0' | grep '/catalog/[0-9]' | wc -l

【需求六：统计top 10目录抓取数】

awk '{print $7}' test.log | egrep "[^/\w+/$]" | awk -F"/" '{print $2}' | sort | uniq -c | sort -nr | head -10

日志分析对应SEO策略: