Jinja2 是一个现代的,设计者友好的,仿照 Django 模板的 Python 模板语言。 它速度快,被广泛使用,并且提供了可选的沙箱模板执行环境保证安全:
GoGo闯
GOGO闯相关文章集合
Python开源搜索组件whoosh笔记
Whoosh 是一个纯 Python 编写的搜索框架,类似于Lucene。比较简单,可以快速构建站内搜索。也可以在此基础上构建搜索引擎,但需要自己扩展 爬虫Spider 和 中文分词组件。 whoosh文档请移步https://whoosh.readthedocs.io/en/latest/
SEO如何处理采集内容(4)
两个问题
在准备采集前找词的时候,有个蛋疼的问题:
无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?
为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……
SEO如何处理采集内容(3)
【GOGO闯:】有基友留言说“没图你说个屁”,本渣渣想哪里没留图了,一看上篇结尾还真没把图片加上。因为文章我用markdown排版,图片引用七牛的图床,在微信编辑器转成富文本的时候正常显示,一发布的时候就漏掉了,微信公众号的图片不能引用外部链接!
采集内容上线逻辑
有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下
采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程
SEO如何处理采集内容(2)
【GOGO闯】:上回时间太赶,对采集内容处理写的很浅,在实际操作过程中仍有很多奇淫巧技,需要创意与技术的结合。此文全程装逼。
回顾
上回说道处理采集内容的两个先后步骤:
对原始内容的处理
对处理后内容进行组织
第一块,对原始内容的处理,上篇主要针对html源码信息的处理,但没说对文本信息该如何处理。
下面分享下本渣渣曾经使用的一些,对采集内容文本的处理方式…
SEO如何处理采集内容
【GOGO闯:】这么久才开通留言功能,好丢人,这篇是本渣渣图新鲜试试留言功能用的,没有干货
采集内容对SEO是否有效?
有人说采集内容对搜索引擎友好性不高,不容易获得排名,这个是肯定且必然的。
对大多站点,上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是,现在搜索引擎能获取到的原创内容量已经不如之前多了,毕竟内容生产平台已经转移了,早就不集中在网站上了。另外几个搜索引擎之间还相互抓,何况小站点呢。
所以采集内容依旧是有效的,只不过对采集内容后加工的成本越来越高了。
【GoGo闯】http代理ip从哪找啊?
由于开python培训有讲过爬虫的缘故,这个问题已经被ask无数次了,一般问的基友也都是爬虫防ban用的,那么在此,我把我个人尝试过的代理渠道都写一下。总体来讲,质量好的都不便宜,便宜的质量都比较渣,一分钱一分货
seo标准化流程
国平曾经曰过:SEOer最易犯的毛病是把过程当结果、把手段当目标、把方向当计划,入行至今已见识过不少SEOer“拍脑门”、“拿来主义”、“生搬硬套”、“排名为王”式的SEO行为。不可否认,现在大多SEO只知道要这么做,却不知道出于何种原因要这么做,而且事实上这么做还是错的。任何行业都可以依据科学合理的逻辑进行标准化的流程,好的流程能够将工作往正确的大方向进行引导,对于严重缺乏标准化的SEO,更是如此。
任何SEO项目都由:问题分析–目标制定–策略选取—方案制定–执行回馈–后期监控,这6个环节组成,因为大部分SEO都处于“执行”阶段,也就是什么都没想就直接开始干,而忽略前3个环节,方向不对执行再好也是反作用,所以主要讲下前3个环节(SEO项目分析)
假设现在BOSS看目前的流量不顺眼,一拍桌子,提出从5月到年底自然搜索流量翻1倍的要求,SEO该怎么做?