Python爬虫网页内容提取工具xpath-创新互联-快上网网站建设公司

Python爬虫网页内容提取工具xpath-创新互联

上一节，我们详述了lxml.html的各种操作，接下来我们熟练掌握一下XPath，就可以熟练的提取网页内容了。

创新互联公司专注于龙湖企业网站建设,自适应网站建设,商城建设。龙湖网站建设公司,为龙湖等地区提供建站服务。全流程定制网站建设，专业设计，全程项目跟踪，创新互联公司专业和态度为您提供的服务

XPath 是什么？

XPath的全称是 XML Path Language，即XML 路径语言，是一种在XML（HTML）文档中查找信息的语言。它有4点特性：

XPath 使用路径表达式在 XML 文档中进行导航
XPath 包含一个标准函数库
XPath 是 XSLT 中的主要元素
XPath 是一个 W3C 标准

Python 爬虫网页内容提取工具xpath

我们从网页中提取数据，主要应用前两点。

XPath 路径表达式

使用XPath我们可以很容易定位到网页中的节点，也就是找到我们关心的数据。这些路径跟电脑目录、网址的路径很相似，通过 / 来表示路径的深度。

XPath 标注函数库

头内建了100多个函数，当然我们提取数据用到的有限，也就不用记住全部100多个函数了。

Xpath 的节点（Node）

XPath中的核心就是节点（Node），定义了7种不同类型的节点：元素（Element）、属性（Attribute）、文本（Text）、命名空间（Namespace）、处理指令（processing-instruction）、注释（Comment）和文档节点（Document nodes）
这些节点组成一棵节点树，树的根节点被称为文档节点。
其中注释就是html里面的注释：``
而命名空间、处理指令和网页数据提取基本没关系，这里就不再详述。

下面我们以一个简单的html文档为例，来解释不同的节点及其关系。

      ABC
              home
         python

这段html中的节点有：

文档节点：
元素节点：
python

属性节点： id="menu"

XPath 节点的关系

节点间的关系完全照搬人类传宗接代的辈分关系，但只是直系关系，没有叔叔、大伯之类的旁系关系。
还是以上面的html文档为例来说明节点关系：

父（Parent）

每个元素节点（Element）及其属性都有一个父节点。
比如，body的父是html，而body是div、ul 的父亲。

子（Children）

每个元素节点可以有零个、一个或多个子。
比如，body有两个子：div，ul，而ul也有两个子：两个li。

同辈（Sibling）

同辈有相同的父辈节点。
比如，div和ul是同辈。

先辈（Ancestor）

某节点的父辈及其以上辈分的节点。
比如，li的父辈有：ul、div、body、html

后代（Descendant）

某节点的子及其子孙节点。
比如，body的后代有：div、ul、li。

XPath节点的选取

选取节点，也就是通过路径表达来实现。这是我们在网页提取数据时的关键，要熟练掌握。

下表是比较有用的路径表达式：

表达式	说明
nodename	选取当前节点的名为nodename的所有子节点。
/	从根节点选取，在路径中间时表示一级路径
//	从当前节点开始选择文档中的节点，可以是多级路径
.	从当前节点开始选取
..	从父节点开始选取
@	按属性选取

接下来通过具体的示例来加深对路径表达的理解：

路径表达式	解释
/html/body/ul/li	从根节点开始依照路径选取li元素。返回多个。
//ul/li[1]	还是选取li元素，但是路径多级跳跃到ul/li。[1]表示只取第一个li。
//li[last()]	还是选取li，但路径更跳跃。[last()]表示取最后一个li元素。
//li[@class]	选取根节点的名为li且有class属性的所有后代。
//li[@class=”item”]	选择根节点的名为li且class属性为item的所有后代。
//body/*/li	选取body的名为li的孙子节点。 `*` 是通配符，表示任何节点。
//li[@*]	选取所有带属性的li元素。
//body/div `	` //body/ul	选取body的所有div和ul元素。
body/div	相对路径，选取当前节点的body元素的子元素div。绝对路径以 / 开始。

XPath函数

Xpath的函数很多，涉及到错误、数值、字符串、时间等等，然而我们从网页中提取数据的时候只会用到很少的一部分。其中最重要的就是字符串相关的函数，比如contains()函数。

contains(a, b)

如果字符串a包含字符串b，则返回true，否则返回false。
比如： contains(‘猿人学Python’, ‘Python’)，返回true
那么它用在什么时候呢？我们知道，一个html标签的class是可以有多个属性值的，比如：

...

这段html中div有三个class值，第一个表面它是一条发布的消息，后面两个是对格式做了更多的设置。如果我们想提取网页中所有发布的消息，只需要匹配到


post-item

即可，这时候就可以用上contains了：

doc.xpath('//div[contains(@class, "post-item")]')

跟contains()类似的字符串匹配的函数还有：

starts-with(string1, string2) 判断string1是否以string2开头

ends-with(string1, string2) 判断string1是否以string2结尾

matches(string, pattern) 通过正则表达式匹配

然而，在lxml的xpath中使用ends-with(), matches() 会报错

In [232]: doc.xpath('//ul[ends-with(@id, "u")]') --------------------------------------------------------------------------- XPathEvalError Traceback (most recent call last) in () ----> 1 doc.xpath('//ul[ends-with(@id, "u")]') src/lxml/etree.pyx in lxml.etree._Element.xpath() src/lxml/xpath.pxi in lxml.etree.XPathElementEvaluator.__call__() src/lxml/xpath.pxi in lxml.etree._XPathEvaluatorBase._handle_result() XPathEvalError: Unregistered function

lxml 竟然不支持ends-with(), matches()函数
到lxml官方网站去看看，原来它说了只支持 XPath 1.0：

lxml supports XPath 1.0, XSLT 1.0 and the EXSLT extensions through libxml2 and libxslt in a standards compliant way.

接着又在Wikipedia上找到Xpath 2.0 和 1.0 的差异对比，果然ends-with(), matches() 只属于2.0。下图中，粗体部分是1.0包含的，其它是2.0也有的：

XPath 2.0 和 1.0 的差异

好了，Xpath在网页内容提取中要用到的部分已经讲完了

http://cdkjz.cn/article/dhspec.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫网页内容提取工具xpath-创新互联

XPath 是什么？

XPath 路径表达式

XPath 标注函数库

Xpath 的节点（Node）

XPath 节点的关系

父（Parent）

子（Children）

同辈（Sibling）

先辈（Ancestor）

后代（Descendant）

XPath节点的选取

XPath函数

contains(a, b)

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫网页内容提取工具xpath-创新互联

XPath 是什么？

XPath 路径表达式

XPath 标注函数库

Xpath 的节点（Node）

XPath 节点的关系

父（Parent）

子（Children）

同辈（Sibling）

先辈（Ancestor）

后代（Descendant）

XPath节点的选取

XPath函数

contains(a, b)

相关资讯

电脑的移动的快捷键 电脑的移动的快捷键是什么

武汉ios开发公司有哪些 武汉ios开发公司有哪些公司

css清除父类样式 css怎么清除样式

ios的开发者 ios的开发者是谁

css样式横线加文字 css横线居中

电脑产品如何运作快捷键 电脑工作常用快捷键

jquery横向折叠 javascript折叠菜单

android空包签名的简单介绍

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

电脑的移动的快捷键电脑的移动的快捷键是什么

武汉ios开发公司有哪些武汉ios开发公司有哪些公司

电脑产品如何运作快捷键电脑工作常用快捷键

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接