Python使用XPath快速获取文章标题

XPath是什么？XPath是xml路径语言，看不懂没关系，可直接百度百科科普一下；而在SEO上的应用就是数据采集等等吧，xpath跟正则表达式有点像，通过自己的语言来提取想要的内容而已，至于两者之间的对比，篼雨个人认为各有秋千，这个不是废话吗？呵呵，那下面还是进去正题看看如何使用XPath首先介绍怎么获取XPath。
打开谷歌浏览器，右击审查元素进入到下面的界面，对html右击就有一个copy XPath了，如下图所示：

当然手动也是OK的，这里会在图片里简单提一下xpath的学习笔记，那下面还是直接上图，另结合例子使用XPath快速获取文章标题：

#encoding=utf-8
import requests
from lxml import etree
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

url='https://bigwayseo.com/'
a=requests.get(url).content
html=etree.HTML(a)       #转换成xpath识别的对象
b=html.xpath('//*/header/h3/a/text()') #这个路径可以打开浏览器审查元素，然后对着html右键有一个copy xpath
#//*[@id="post-502"]/header/h3/a
for i in b:
    print i

#xpath学习笔记
# //定位根节点
# /往下层找
# /text()提取文本内容
# /@xxxxx企图属性内容

# xpath特殊用法
# 1以相同的字符开头starts-with(@属性名称，属性字符相同部分)
# 2标签套标签string(.)

转载请保留原文链接，篼雨Python小脚本分享！

相关文章:

Leave a Comment 取消回复