seo寄生虫(蜘蛛池程序)

【前言】虽然一直知道寄生虫怎么做的,但是一直不知其中的奥妙,先几天下载了一套程序,把php源码看了一下,顿时恍然大悟,原来就是这么简单的一个东西~

什么是蜘蛛池程序?
简单来说,就是你输入任意二级域名,任意目录(内页链接 ) 都是可以访问的,且无404~
然后出来的内容完全随机 ( 连标题都随机,这是相当不好的,后面在说 )
然后内页无限链轮,就让搜索引擎不断的抓…
程序也很简单,因为不需要多少代码,只要把域名绑定了就可以了,如果是django的话,其实url只需要这样写就可以了

url(r'^.+?/$', NeiyeView.as_view(), name='neiye'),

这样输入任意的链接都是可以访问的

什么是寄生虫程序?
其实你理解为就是放一个文件到webshell上,
然后这个程序的内容每次访问的时候,随机请求一下我们的蜘蛛池中的一个页面~然后再返回给搜索引擎就可以~其实原理上和蜘蛛池是一样的,只不过多了一个爬虫文件在shell端 ( 这里指的是动态生成的)

目前市面的上的蜘蛛池的缺点是什么?
1.就像刚才说的,内容完全随机~~标题每次都不一样~
所以导致,排名及其不稳定~而且我感觉也特别容易被k~这个我感觉不太好~

2.内容太粗糙,都是简单的拼凑~但是搜索引擎还是会收录~

3.链轮模型不够细致~简单来说就是完全随机~

如果我做的话我会怎么做~

自己不才,写了一个玩具的django版的蜘蛛池~ 没想到技术实现起来这么容易~~

后台大概是这样的 ( django默认的)
django后台

然后模板标签就是这样了:
模板标签

当然输入随机链接和二级域名都是可以访问的
泛解析

增加了一个自动查询百度收录的功能,(每天晚上12点开始跑)

这个主要区别于其他的蜘蛛池,就是标题是和关键词,以及描述是不变的,一个页面会自动生成一个主关键词,这样在模板中也利于布局~
除此之外,所有的一切都是动态的~

这个程序的升级空间

  • 增加一个关键词查询的功能,即把百度有收录的链接的每天跑一次 ( 没有必要全部跑,假如有100万关键词,百度收录其实只有1万,那就只跑1万的就可以了,因为其他99万没收录,肯定没排名 )
  • 定期清理链接,优化内存,比如一个页面3个月了还没收录,就删除掉把~免得浪费时间~~
  • 内存~最核心的~需要加入es(搜索引擎)的聚合~根据主关键词来聚合这样出来的内容才不会感觉像一坨屎~
  • 暂时就这些吧,当然内容肯定远远不止这些,如果蜘蛛池只要市面上是有用的话,我想我也都可以做出来~因为懂一些web开发,你会感觉市面上的真的太粗糙了~当然以后可以继续添加功能,暂时这样吧~
    这玩意花了我整整3天的时间!,其实程序不难,主要是这个思路比较蛋疼~

    用的模板引擎就是django默认的,也不用去搞jinja2了,我感觉django默认的自定义过滤器功能真的很好用~

    文章出处:张特www.zhangte.org

    发表评论

    电子邮件地址不会被公开。