GoGo闯 | 杨百辉博客 - Part 2

Python

jinjia2内置过滤器笔记

2017年5月25日2017年5月23日 Leave a comment by Bigway

Jinja2 是一个现代的，设计者友好的，仿照 Django 模板的 Python 模板语言。它速度快，被广泛使用，并且提供了可选的沙箱模板执行环境保证安全:

Read morejinjia2内置过滤器笔记

Python

Python开源搜索组件whoosh笔记

2017年5月4日2017年5月4日 1 Comment by Bigway

Whoosh 是一个纯 Python 编写的搜索框架，类似于Lucene。比较简单，可以快速构建站内搜索。也可以在此基础上构建搜索引擎，但需要自己扩展爬虫Spider 和中文分词组件。 whoosh文档请移步https://whoosh.readthedocs.io/en/latest/

Read morePython开源搜索组件whoosh笔记

Python

【GoGo闯】程序开发常用轮子

2017年2月7日2017年2月7日 Leave a comment by Bigway

这是一篇转载文章

Read more【GoGo闯】程序开发常用轮子

SEO

SEO如何处理采集内容（4）

2016年10月13日2016年10月13日 Leave a comment by Bigway

两个问题

在准备采集前找词的时候，有个蛋疼的问题：

无论任何一种找词渠道，固定搜索词（如阿拉巴巴招聘）和个性搜索词（如阿里巴巴工程师级别怎么划分）总是杂糅到一块的，对于同一词根下的扩展词，如何将这两类词分开？

固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量，毕竟同一个词缀出现次数高，流量也会相对高。但个性化搜索词流量和竞争度怎么判断？

为什么非要把两类词找出来呢？因为这两类词的采集源往往是不同的……

Read moreSEO如何处理采集内容（4）

SEO

SEO如何处理采集内容（3）

2016年10月12日2016年10月12日 Leave a comment by Bigway

【GOGO闯：】有基友留言说“没图你说个屁”，本渣渣想哪里没留图了，一看上篇结尾还真没把图片加上。因为文章我用markdown排版，图片引用七牛的图床，在微信编辑器转成富文本的时候正常显示，一发布的时候就漏掉了，微信公众号的图片不能引用外部链接！

采集内容上线逻辑

有基友问采集的内容怎么分类，抓取的词怎么分类。其实很简单，做个小网站就都明白了，本渣渣在此科普下

采集内容清洗后是要入库的，入库就得有逻辑，所以在采集一开始就得想到这点，并设计采集到上线的流程

Read moreSEO如何处理采集内容（3）

SEO

SEO如何处理采集内容（2）

2016年10月12日2016年10月11日 Leave a comment by Bigway

【GOGO闯】：上回时间太赶，对采集内容处理写的很浅，在实际操作过程中仍有很多奇淫巧技，需要创意与技术的结合。此文全程装逼。

回顾

上回说道处理采集内容的两个先后步骤：

对原始内容的处理
对处理后内容进行组织
第一块，对原始内容的处理，上篇主要针对html源码信息的处理，但没说对文本信息该如何处理。

下面分享下本渣渣曾经使用的一些，对采集内容文本的处理方式…

Read moreSEO如何处理采集内容（2）

SEO

SEO如何处理采集内容

2016年10月12日2016年10月9日 Leave a comment by Bigway

【GOGO闯:】这么久才开通留言功能，好丢人，这篇是本渣渣图新鲜试试留言功能用的，没有干货

采集内容对SEO是否有效？

有人说采集内容对搜索引擎友好性不高，不容易获得排名，这个是肯定且必然的。

对大多站点，上采集内容必定不如UGC、精心编辑过的内容来的效果好。但是，现在搜索引擎能获取到的原创内容量已经不如之前多了，毕竟内容生产平台已经转移了，早就不集中在网站上了。另外几个搜索引擎之间还相互抓，何况小站点呢。

所以采集内容依旧是有效的，只不过对采集内容后加工的成本越来越高了。

Read moreSEO如何处理采集内容

Python

【GoGo闯】http代理ip从哪找啊？

2016年11月21日2016年9月20日 Leave a comment by Bigway

由于开python培训有讲过爬虫的缘故，这个问题已经被ask无数次了，一般问的基友也都是爬虫防ban用的，那么在此，我把我个人尝试过的代理渠道都写一下。总体来讲，质量好的都不便宜，便宜的质量都比较渣，一分钱一分货

Read more【GoGo闯】http代理ip从哪找啊？

SEO

seo标准化流程

2016年10月12日2016年9月14日 Leave a comment by Bigway

国平曾经曰过：SEOer最易犯的毛病是把过程当结果、把手段当目标、把方向当计划，入行至今已见识过不少SEOer“拍脑门”、“拿来主义”、“生搬硬套”、“排名为王”式的SEO行为。不可否认，现在大多SEO只知道要这么做，却不知道出于何种原因要这么做，而且事实上这么做还是错的。任何行业都可以依据科学合理的逻辑进行标准化的流程，好的流程能够将工作往正确的大方向进行引导，对于严重缺乏标准化的SEO，更是如此。

任何SEO项目都由：问题分析–目标制定–策略选取—方案制定–执行回馈–后期监控，这6个环节组成，因为大部分SEO都处于“执行”阶段，也就是什么都没想就直接开始干，而忽略前3个环节，方向不对执行再好也是反作用，所以主要讲下前3个环节（SEO项目分析）

假设现在BOSS看目前的流量不顺眼，一拍桌子，提出从5月到年底自然搜索流量翻1倍的要求，SEO该怎么做？

Read moreseo标准化流程

Python

百度API扩展关键词提取代码

2019年6月19日2016年8月27日 3 Comments by Bigway

使用百度API V4接口，V3接口已经不能用了。但V4接口不太稳定，经常出现跑着跑着返回数据为空的情况，但重新执行又可以出结果，不知道为啥。

Read more百度API扩展关键词提取代码