网站建设 >

查看其它板块

Python爬虫开发之xpath使用

在进行爬虫开发中，需要的页面信息进行解析处理，获取到需要的关键数据。可以利用xpath进行对页面的xml文件进行解析处理，获取到需要的关键数据。
XPath使用:
XPath 可用来在 XML 文档中对元素和属性进行遍历.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是补全缺失的html标签
html_data = result.xpath('/html/body/div/ul/li/a/text()') 获取某个标签的数据，返回的是对象，可以通过遍历得到具体的数据
html_data = html.xpath('/html/body/div/ul/li/a/@href') 获取某个标签的属性获取属性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 获取a表现属性为link2.html的内容
html_data = html.xpath('//li/a/text()') 使用相对路径获取a标签的内容
html_data = html.xpath('//li/a//@href') 使用相对路径获取a标签的属性值

成都创新互联一直通过网站建设和网站营销帮助企业获得更多客户资源。以"深度挖掘，量身打造，注重实效"的一站式服务，以成都网站设计、网站制作、移动互联产品、成都全网营销服务为核心业务。十多年网站制作的经验，使用新网站建设技术，全新开发出的标准网站，不但价格便宜而且实用、灵活，特别适合中小公司网站制作。网站管理系统简单易用，维护方便，您可以完全操作网站资料，是中小公司快速网站建设的选择。

当前文章：Python爬虫开发之xpath使用
文章URL：http://cdkjz.cn/article/iiecog.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

晟和广告成都主机租用网站优化排名成都网站设计成都发电机租用网站改版维护网络营销推广成都网络营销成都雨棚定制响应式报价

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫开发之xpath使用

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫开发之xpath使用

相关资讯

日本平面设计风格的特点是什么-创新互联

troveupgrade源码阅读-创新互联

深入浅出etcd系列Part1–etcd架构和代码框架-创新互联

米尔MEasyHMI应用参考设计方案（STM32MP1-创新互联

精读：理论与实践融合学者与干将统一-创新互联

Mybatis中怎么实现延迟加载-创新互联

第五章作业【数据库原理】-创新互联

如何解决php下载文件出现乱码的问题-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接