网站建设 >

查看其它板块

使用python爬虫怎么爬取百度音乐-创新互联

今天就跟大家聊聊有关使用python爬虫怎么爬取百度音乐，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联建站为您提适合企业的网站设计让您的网站在搜索引擎具有高度排名，让您的网站具备超强的网络竞争力！结合企业自身，进行网站设计及把握，最后结合企业文化和具体宗旨等，才能创作出一份性化解决方案。从网站策划到成都网站设计、做网站，我们的网页设计师为您提供的解决方案。

如图，笔者此次爬取的是百度音乐的页面，所爬取的类容是上面榜单下的所有内容（歌曲名，歌手，排名）。如果按照上次的爬虫的方法便要写上三个select方法，分别抓取歌曲名，歌手，排名，但笔者观察得知这三项数据皆放在一个li标签内，如图：

使用python爬虫怎么爬取百度音乐

这样我们是不是直接抓取ul标签，再分析其中的数据便可得到全部数据了？答案是，当然可以。

但Beaufulsoup不能直接提供这样的方法，但Python无所不能，python里面自带的re模块是我见过最迷人的模块之一。它能在字符串中找到我们让我们roi的区域，上述的li标签中包含了我们需要的歌曲名，歌手，排名数据，我们只需要在li标签中通过re.findall()方法，便可找到我们需要的数据。这样就能够大大提升我们爬虫的效率。

我们先来直接分析代码：

def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'(.*?)

.*?title="(.*?)".*?title="(.*?)".*?', re.S) pattern2 = re.compile(r'(.*?)

.*?title="(.*?)".*?target="_blank">(.*?)', re.S) wants = [] for item in data: # print(item) final = re.findall(pattern1, str(item)) if len(final) == 1: # print(final[0]) wants.append(final[0]) else: other = re.findall(pattern2, str(item)) # print(other[0]) wants.append(other[0]) return wants

上面的代码是我分析网页数据的全部代码，这里不得不说python语言的魅力，数十行代码便能完成java100行的任务，C/C++1000行的任务。上述函数中，笔者首先通过Beautifulsoup得到该网页的源代码，再通过select()方法得到所有li标签中的数据。

到这里，这个爬虫便要进入到最重要的环节了，相信很多不懂re模块的童靴们有点慌张，在这里笔者真的是强烈推荐对python有兴趣的童靴们一定要学习这个非常重要的一环。首先，我们知道re的方法大多只针对string型数据，因此我们调用str()方法将每个list中的数据（即item）转换为string型。然后便是定义re的pattern了，这是个稍显复杂的东西，其中主要用到re.compile()函数得到要在string中配对的pattern，这里笔者便不累述了，感兴趣的童靴可以去网上查阅一下资料。

上述代码中，笔者写了两个pattern，因为百度音乐的网页里，li标签有两个结构，当用一个pattern在li中找不到数据时，便使用另一个pattern。关于re.findadd()方法，它会返回一个list，里面装着tuple，但其实我们知道我们找到的数据就是list[0]，再将每个数据添加到另一个List中，让函数返回。

相信很多看到这里的小伙伴已经云里雾里，无奈笔者对re板块也知道的不多，对python感兴趣的同学可以查阅相关资料再来看一下代码，相信能够如鱼得水。

完整的代码如下：

import requests 
from bs4 import BeautifulSoup 
import re 
 
 
def get_one_page(url): 
 wb_data = requests.get(url) 
 wb_data.encoding = wb_data.apparent_encoding 
 if wb_data.status_code == 200: 
  return wb_data.text 
 else: 
  return None 
 
 
def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'(.*?)

.*?title="(.*?)".*?title="(.*?)".*?', re.S) pattern2 = re.compile(r'(.*?).*?title="(.*?)".*?target="_blank">(.*?)', re.S) wants = [] for item in data: # print(item) final = re.findall(pattern1, str(item)) if len(final) == 1: # print(final[0]) wants.append(final[0]) else: other = re.findall(pattern2, str(item)) # print(other[0]) wants.append(other[0]) return wants if __name__ == '__main__': url = 'http://music.baidu.com/' html = get_one_page(url) data = parse_one_page(html) for item in data: dict = { '序列': item[0], '歌名': item[1], '歌手': item[2] } print(dict)

最后我们看到的输出结果如下：

使用python爬虫怎么爬取百度音乐

python可以做什么

Python是一种编程语言，内置了许多有效的工具，Python几乎无所不能，该语言通俗易懂、容易入门、功能强大，在许多领域中都有广泛的应用，例如最热门的大数据分析，人工智能，Web开发等。

看完上述内容，你们对使用python爬虫怎么爬取百度音乐有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联成都网站设计公司行业资讯频道，感谢大家的支持。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

当前题目：使用python爬虫怎么爬取百度音乐-创新互联
文章分享：http://cdkjz.cn/article/djhdgi.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

芦山网站建设尊格展览 IOS开发成都免费自助建站边坡防护网成都宣传画册设计 3D立体画成都网络营销四川成都展柜定制厂家网站设计

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

使用python爬虫怎么爬取百度音乐-创新互联

python可以做什么

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

使用python爬虫怎么爬取百度音乐-创新互联

python可以做什么

相关资讯

Java怎么实现负载均衡算法-创新互联

系统学习之C复习（4）数组2-创新互联

怎么在python中使用paramiko模块-创新互联

网站开发中新站前期优化有哪些问题需要解决-创新互联

文件服务器访问被拒绝（0x80070035）-创新互联

C之函数与宏（四十）-创新互联

phpmyadmin如何批量导入excel数据到mysql-创新互联

C++中按位写入读取数值-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接