XPath是什么?XPath是xml路径语言,看不懂没关系,可直接百度百科科普一下;而在SEO上的应用就是数据采集等等吧,xpath跟正则表达式有点像,通过自己的语言来提取想要的内容而已,至于两者之间的对比,篼雨个人认为各有秋千,这个不是废话吗?呵呵,那下面还是进去正题看看如何使用XPath首先介绍怎么获取XPath。
打开谷歌浏览器,右击审查元素进入到下面的界面,对html右击就有一个copy XPath了,如下图所示:
当然手动也是OK的,这里会在图片里简单提一下xpath的学习笔记,那下面还是直接上图,另结合例子使用XPath快速获取文章标题:
#encoding=utf-8 import requests from lxml import etree import sys reload(sys) sys.setdefaultencoding( "utf-8" ) url='https://bigwayseo.com/' a=requests.get(url).content html=etree.HTML(a) #转换成xpath识别的对象 b=html.xpath('//*/header/h3/a/text()') #这个路径可以打开浏览器审查元素,然后对着html右键有一个copy xpath #//*[@id="post-502"]/header/h3/a for i in b: print i #xpath学习笔记 # //定位根节点 # /往下层找 # /text()提取文本内容 # /@xxxxx企图属性内容 # xpath特殊用法 # 1以相同的字符开头starts-with(@属性名称,属性字符相同部分) # 2标签套标签string(.)
转载请保留原文链接,篼雨Python小脚本分享!