网站建设 >

查看其它板块

BeautifulSoup初识-创新互联

本来想用scrapy框架来抓取某个网站的内容，结果发现太庞大，要很多时间来研究。另外，抓取网页的代码部署在SAE上，所以不明白该如何将scrapy框架嵌入到SAE。 BeautifulSoup初识

所幸要取得网页内容不是很复杂，就直接用urllib2来获取内容。

成都创新互联公司为企业级客户提高一站式互联网+设计服务，主要包括成都网站设计、成都网站制作、重庆App定制开发、小程序设计、宣传片制作、LOGO设计等，帮助客户快速提升营销能力和企业形象，创新互联各部门都有经验丰富的经验，可以确保每一个作品的质量和创作周期，同时每年都有很多新员工加入，为我们带来大量新的创意。

但是取出的内容要如何处理，如何才能找到所需要的内容。从网上搜索发现可以用HtmlParser或者BeautifulSoup来获取，经过尝试之后果断放弃HtmlParser。

BeautifulSoup：

python中的Beautiful是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。

下载地址：http://www.crummy.com/software/BeautifulSoup/

下载完成之后，提取文件中的bs4文件夹。拷贝到所需的文件夹路径下。

具体使用文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc/

现在来说说我的使用方法：

假定需要解析url的代码如下：

import urllib2
from bs4 import BeautifulSoup


def catch_url( url ):
  content= urllib2.urlopen( url )
  soup= BeautifulSoup( content )
return soup

然后，使用BeautifulSoup来解析一下京东的主页：

def parse360buyContent( content ):
  beauParse ＝ BeautifulSoup( content )

  soup= beauParse.findAll('div',{'id':'life'})
  data= []
  
for con in soup:
    text= con.a['href']
    data.append({'text':text})
  
  
return data

可以看到，解析出的结果是一个list，通过for来取出每一个条目。如果需要取出此条目中的，只要将a做为属性来取出，而href则需要按字典

类型来取出。

由于用到的地方就这一点，所以未作深入研究，只是做为后续一个可查询的纪录。

文章题目：BeautifulSoup初识-创新互联
分享路径：http://cdkjz.cn/article/djgdsc.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

做手机网站四川成都展柜定制厂家大吉雪茄 jxjierui.cn 网站设计成都网站建设简阳网站建设小程序开发公司橡塑板成都网站推广

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

BeautifulSoup初识-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

BeautifulSoup初识-创新互联

相关资讯

抖音代运营流程都有哪些呢

杭州九堡代运营直播

网络营销干好这六件事离成功就不远了！

澳门抖音代运营怎么做

滦南抖音代运营分润方法

佳木斯抖音餐饮代运营,佳木斯美食推荐,佳木斯特色美食

博物馆短视频推广计划,博物馆运行和推广方案

抖音账号询盘获客系统是真的吗？

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接