Python中的BeautifulSoup模块的用法-快上网网站建设公司

Python中的BeautifulSoup模块的用法

这篇文章主要介绍“Python中的Beautiful Soup模块的用法”，在日常操作中，相信很多人在Python中的Beautiful Soup模块的用法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python中的Beautiful Soup模块的用法”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

成都创新互联是一家集网站建设,临漳企业网站建设,临漳品牌网站建设,网站定制,临漳网站建设报价,网络营销,网络优化,临漳网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

1.Beautiful Soup模块的介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性，还可以方便的实现全站点的内容爬取和解析；
Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器；
lxml 是python的一个解析库，支持HTML和XML的解析，html5lib解析器能够以浏览器的方式解析，且生成HTML5文档；

pip install beautifulsoup4
pip install html5lib
pip install lxml

2. Beautiful Soup模块解析HTML文档

假如现在有一段不完整的HTML代码，我们现在要使用Beautiful Soup模块来解析这段HTML代码

data = '''                                         
The Dormouse's story                                             
The Dormouse's story   
Once upon a time there were three 
        
...                           
'''

首先需要导入BeautifulSoup模块，再实例化BeautifulSoup对象

from bs4 import BeautifulSoup           
soup = BeautifulSoup(data,'lxml')

然后通过BeautifulSoup提供的方法就可以拿到HTML的元素、属性、链接、文本等，BeautifulSoup模块可以将不完整的HTML文档，格式化为完整的HTML文档，比如我们打印print(soup.prettify())看一下输出什么？


 
  
   The Dormouse's story
  
 
 
  
   
    The Dormouse's story
   
  
  
   Once upon a time there were three
   
    
     ...

获取标签，如title标签，a标签等

print('title = {}'.format(soup.title))             
# 输出：title = The Dormouse's story
print('a={}'.format(soup.a))

获取标签的名称，如title标签，body标签等

print('title_name = {}'.format(soup.title.name))
# 输出：title_name = title
print('body_name = {}'.format(soup.body.name))
# 输出：body_name = body

获取标签的内容，如title标签

print('title_string = {}'.format(soup.title.string))
#  输出：title_string = The Dormouse's story

如果想要获取某个标签的父标签的名称，可以使用parent，如title标签，可以得到父标签head标签，且会自定补齐不完整的标签；

print('title_pareat_name = {}'.format(soup.title.parent))
# 输出：title_pareat_name = The Dormouse's story

获取第一个p标签

print('p = {}'.format(soup.p))
# 输出：p = The Dormouse's story

获取第一个p标签的class的值，获取第一个a标签的class值

print('p_class = {}'.format(soup.p["class"]))
# 输出：p_class = ['title']
print('a_class = {}'.format(soup.a["class"]))
# 输出：a_class = ['sister']

获取所有的标签

#  获取所有的a标签
print('a = {}'.format(soup.find_all('a')))
#  获取所有的p标签  
print('p = {}'.format(soup.find_all('p')))

获取id为link3的标签

print('a_link = {}'.format(soup.find(id='title')))
# 输出：a_link = The Dormouse's story

3.BeautifulSoup中的对象

BeautifulSoup对象分为四类，分别是Tag(获取标签), NavigableString(获取标签内容) , BeautifulSoup(根标签), Comment(标签内的所有的文本) ；

语法：

soup.标签名：获取HTML中的标签；
soup.标签名.name：获取HTML中标签的名称；
soup.标签名.attrs：获取标签的所有属性；
soup.标签名.string：获取HTML中标签的文本内容；
soup.标签名.parent：获取HTML中标签的父标签；
prettify()方法：可以将Beautiful Soup的文档树格式化后以Unicode编码输出，每个XML/HTML标签都独占一行；

4.遍历文档

contents：获取所有子节点，返回一个列表，可以通过下标取值；

soup = BeautifulSoup(html,"lxml")
# 返回一个列表
print(soup.p.contents)
# 拿到第一个子节点
print(soup.p.contents[0])

children：返回子节点的生成器对象；

for tag in soup.p.children:
    print(tag)

soup.strings：获取所有节点的内容，包括空格；

soup = BeautifulSoup(html,"lxml")
for content in soup.strings:
    print(repr(content))

soup.stripped_strings：获取所有节点的内容，不包括空格；

soup = BeautifulSoup(html,"lxml")
for tag in soup.stripped_strings:
    print(repr(tag))

5.查找标签

find_all()：查找所有指定标签名称的子节点（可同时查找多个标签），并判断是否符合过滤器的条件，返回一个列表；

soup = BeautifulSoup(html,"lxml")
print(soup.find_all('a'))
print(soup.find_all(['a','p']))
print(soup.find_all(re.compile('^a')))

find()：和find_all()差不多，但是find_all() 方法的返回结果是值包含一个元素的列表，而 find() 方法直接返回结果；

soup = BeautifulSoup(html,"lxml")
print(soup.find('a'))

到此，关于“Python中的Beautiful Soup模块的用法”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

分享题目：Python中的BeautifulSoup模块的用法
网站地址：http://cdkjz.cn/article/pecpij.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python中的BeautifulSoup模块的用法

1.Beautiful Soup模块的介绍

2. Beautiful Soup模块解析HTML文档

3.BeautifulSoup中的对象

4.遍历文档

5.查找标签

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python中的BeautifulSoup模块的用法

1.Beautiful Soup模块的介绍

2. Beautiful Soup模块解析HTML文档

3.BeautifulSoup中的对象

4.遍历文档

5.查找标签

相关资讯

远程唤醒路由器 通过路由器远程唤醒主机

颜色代码转换java 颜色代码转换器手机版

php怎么显示数据 php查看数据类型

java保存功能代码 java怎样保存写的程序

进入linux桌面的命令 linux进入命令界面

java规整代码快捷键 java整理代码格式快捷键

阿里云服务器屏保解锁不了 阿里云怎么设置服务器密码

sap操作系统下载地址的简单介绍

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

远程唤醒路由器通过路由器远程唤醒主机

阿里云服务器屏保解锁不了阿里云怎么设置服务器密码

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接