从品牌网站建设到网络营销策划,从策略到执行的一站式服务
在进行爬虫开发中,需要的页面信息进行解析处理,获取到需要的关键数据。可以利用xpath进行对页面的xml文件进行解析处理,获取到需要的关键数据。
XPath使用:
XPath 可用来在 XML 文档中对元素和属性进行遍历.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是补全缺失的html标签
html_data = result.xpath('/html/body/div/ul/li/a/text()') 获取某个标签的数据,返回的是对象,可以通过遍历得到具体的数据
html_data = html.xpath('/html/body/div/ul/li/a/@href') 获取某个标签的属性 获取属性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 获取a表现属性为link2.html的内容
html_data = html.xpath('//li/a/text()') 使用相对路径获取a标签的内容
html_data = html.xpath('//li/a//@href') 使用相对路径获取a标签的属性值
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图