网站建设 >

查看其它板块

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍，没来得及上车的小伙伴可以戳这些文章：

成都创新互联主营南京网站建设的网络公司,主营网站建设方案,成都app软件开发公司,南京h5小程序设计搭建,南京网站营销推广欢迎南京等地区企业咨询

手把手教你如何新建scrapy爬虫框架的第一个项目（上）

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

关于Scrapy爬虫项目运行和调试的小技巧（上篇）

关于Scrapy爬虫项目运行和调试的小技巧（下篇）

今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目标信息。在Scrapy中，其提供了两种数据提取的方式，一种是Xpath选择器，一种是CSS选择器，这一讲我们先聚焦Xpath选择器，仍然是以伯乐在线网为示例网站。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

1、打开网站，然后随机选择任意一篇文章进行查看，如下图所示。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

我们需要提取的信息主要有标题、日期、主题、评论数、正文等等。

2、接下来我们就可以开始写代码了，基础代码如下图所示，需要注意的是start_urls参数值改为了具体的URL，其他的代码未发生改变。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

3、回到原始网页，按下键盘的快捷键F12或者在网页上点击鼠标右键，然后选择“检查(N)”弹出网页的调试界面，如下图所示。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

4、点击下图中红色框框的小图标，可以实现网页数据和源码之间的交互，可以很方便的帮助我们定位标签。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

5、如下图所示，当我们选择上图中的小图标之后，再选择网页上的标题，尔后网页源码会自动跳转到我们定位的部分，可以看到标题在

标签下。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

6、尔后我们就可以根据上图中的网页层次结构写出标题的Xpath表达式，这里先提供一种比较笨的方法，从头到尾进行罗列的写，“/html/body/div[1]/div[3]/div[1]/div[1]/h2”，有没有发现灰常的辛苦，像这种大标题信息还比较好提取一些，若是碰到犄角旮旯的信息，就比较难写表达式了，而且这种方式容易出错，效率还低。不过小伙伴们不用灰心，浏览器给我们提供了一个便捷的方式，让我们可以直接复制Xpath表达式。在标题处或者目标信息处右键，然后选择“Copy”，再选择“Copy Xpath”即可进行复制该标签的Xpath表达式，具体过程如下图所示。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

可以看到复制的Xpath表达式为“//*[@id="post-113659"]/div[1]/h2”，其中id="post-113659"是属于这篇文章的一个标识，如下图所示。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

通过该标识我们就可以很快的定位到标签，其与我们用笨方法手动写出来的Xpath表达式有时候并不是一致的。下面将两个Xpath表达式所匹配的内容分别进行输出。

7、将Xpath表达式写入Scrapy爬虫主体文件中，尔后Debug我们之前定义的main.py文件，将会得到下图的输出。可以看到selector1和selector2中的数据即是网页上的内容，而且内容是一致的。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

之后点击停止Debug模式，便可以退出Debug模式。

8、从上图中我们可以看到选择器将标签

也都取出来了，而我们想要取的内容仅仅是标签内部的数据，此时只需要使用在Xpath表达式后边加入text()函数，便可以将其中的数据进行取出。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

通过这篇文章，我们可以了解到尽管我们自己写出的Xpath表达式和浏览器给我们返回的Xpath表达式在写法上并不一致，但是程序运行之后，其返回的数据内容是一致的。换句话说，关于某个目标数据的Xpath表达式并不是唯一的，只要符合Xpath表达式语法，即便是写的很短，也是没问题的，你开心就好。此外在Scrapy爬虫框架中，text()函数常常与Xpath表达式运用在一块，用于提取节点中的数据内容。

文章名称：在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
网页链接：http://cdkjz.cn/article/pepijo.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

恒温恒湿空调机组成都400电话申请鼎尚理发店不锈钢防护栏新津网站运维成都定制网站建设成都小程序开发自贡电信机房蜜朵婚庆东电技服

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图