从品牌网站建设到网络营销策划,从策略到执行的一站式服务
所幸要取得网页内容不是很复杂,就直接用urllib2来获取内容。
成都创新互联公司为企业级客户提高一站式互联网+设计服务,主要包括成都网站设计、成都网站制作、重庆App定制开发、小程序设计、宣传片制作、LOGO设计等,帮助客户快速提升营销能力和企业形象,创新互联各部门都有经验丰富的经验,可以确保每一个作品的质量和创作周期,同时每年都有很多新员工加入,为我们带来大量新的创意。但是取出的内容要如何处理,如何才能找到所需要的内容。从网上搜索发现可以用HtmlParser或者BeautifulSoup来获取,经过尝试之后果断放弃HtmlParser。
BeautifulSoup:
python中的Beautiful是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。
下载地址:http://www.crummy.com/software/BeautifulSoup/
下载完成之后,提取文件中的bs4文件夹。拷贝到所需的文件夹路径下。
具体使用文档:http://www.crummy.com/software/BeautifulSoup/bs4/doc/
现在来说说我的使用方法:
假定需要解析url的代码如下:
import urllib2
from bs4 import BeautifulSoup
def catch_url( url ):
content= urllib2.urlopen( url )
soup= BeautifulSoup( content )
return soup
然后,使用BeautifulSoup来解析一下京东的主页:
def parse360buyContent( content ):
beauParse = BeautifulSoup( content )
soup= beauParse.findAll('div',{'id':'life'})
data= []
for con in soup:
text= con.a['href']
data.append({'text':text})
return data
可以看到,解析出的结果是一个list,通过for来取出每一个条目。如果需要取出此条目中的,只要将a做为属性来取出,而href则需要按字典
类型来取出。
由于用到的地方就这一点,所以未作深入研究,只是做为后续一个可查询的纪录。
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图