标签归档:数据采集

数据采集

Python+Scrapy批量导出对手外链数据

scrapy这个框架使用起来有点累,语法相对其它的一些爬虫模块来说要复杂一点,但scrapy自身相当牛逼,上一篇http://bigwayseo.com/412就说到,不再累赘。这次的脚本呢是批量获取指定域名爱站的外链数据,使用到有scapy框架(最主要),另外正则表达式,xpath也都用上,主要是都用一下,不然脑袋不好使,容易忘,此代码仅供交流学习之用,同时也只是记录一下自己学习scrapy的笔记,学习不易,尤其这方面代码少,看官方,那英文,苦逼青年啊,下面直接上代码: 继续阅读

Python批量获取爱站外链数据

基于python强大简洁的语法结构,python在seoer中应该是最多的脚本语言了,做seo的来写程序不是必要的话,我觉得将来应该变成必要了,起码我们seoer能写一些脚本来处理seo上的需求,尤其当数据量有一定量的时候,而且seo应该也需要以强大科学的数据作为指导,那么首先就是要数据采集、挖掘,其次数据分析,并且最好可以做到数据可视化。python就是首选语言! 继续阅读

Python使用XPath快速获取文章标题

XPath是什么?XPath是xml路径语言,看不懂没关系,可直接百度百科科普一下;而在SEO上的应用就是数据采集等等吧,xpath跟正则表达式有点像,通过自己的语言来提取想要的内容而已,至于两者之间的对比,篼雨个人认为各有秋千,这个不是废话吗?呵呵,那下面还是进去正题看看如何使用XPath首先介绍怎么获取XPath。 继续阅读

Python获取指定域名爱站排名数据

篼雨的博客主要更新一些Python非常Easy的小脚本,让初学者先了解一下思路,比如这次涉及到的小脚本翻页的问题,其实用for遍历一下就OK,虽然爱站只提供了50页,但对一些小站长来说也已经足够了,如果像途牛,赶集这种级别的网站,那就只能看很小一部分的排名数据了,看排名数据有什么用呢?很多,比如看看主题有木有漂移,预估查看着陆页(当然有很多更好的工具),哪些关键词没覆盖到,具体排名位置等等,篼雨思维比较有限,还有自己想吧,还是上代码: 继续阅读

Python查爱站百度权重及排名词数

玩Python新手朋友可以先从一些简单的脚本的开始,培养自己的成就感,不要想一口吃成一个胖子,而且python的确相对简单,但也只是相对简单,单第三库就有几千个了吧!其实这段代码是看到SEO三人行的朋友发出来先的,但是好像不能用了,有兴趣可到SEO三人行论坛找找,这边的代码自己也做了一些改动,要是你自己能做下改动那也很简单的,比如做成批量,多线程之类,下面是本人篼雨的代码:比较简陋见谅! 继续阅读