Python爬虫基础库有哪些-快上网网站建设公司

Python爬虫基础库有哪些

这篇文章主要介绍“Python爬虫基础库有哪些”，在日常操作中，相信很多人在Python爬虫基础库有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫基础库有哪些”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

创新互联专注于鄱阳企业网站建设,响应式网站建设,商城系统网站开发。鄱阳网站建设公司,为鄱阳等地区提供建站服务。全流程按需网站策划，专业设计，全程项目跟踪，创新互联专业和态度为您提供的服务

爬虫有三大基础库Requests、BeautifulSoup和Lxml，这三大库对于初学者使用频率最高，现在大家一起来看看这基础三大库的使用。

1、Requests库

Requests库的作用就是请求网站获取网页数据。

Code：res=requests.get(url)

返回200说明请求成功
返回404、400说明请求失败

Code：res=request.get(url,headers=headers)

添加请求头信息伪装为浏览器，可以更好的请求数据信息

Code：res.text

详细的网页信息文本

2、BeautifulSoup库

BeautifulSoup库用来将Requests提取的网页进行解析，得到结构化的数据

Soup=BeautifulSoup(res.text,’html.parser’)

详细数据提取：

infos=soup.select(‘路径’)

路径提取方法：在固定数据位置右键-copy-copy selector

Python爬虫基础库有哪些

3、Lxml库

Lxml为XML解析库，可以修正HTML代码，形成结构化的HTML结构

Python爬虫基础库有哪些

Code：

From lxml import etree

Html=etree.HTML(text)

Infos=Html.xpath(‘路径’)

路径提取方法：在固定数据位置右键-Copy-Copy Xpath

实践案例：

1、爬取酷狗榜单TOP500音乐信息

Python爬虫基础库有哪些

2、网页无翻页，如何寻找URL，发现第一页URL为：

https://www.kugou.com/yy/rank/home/1-8888.html?from=rank

尝试把1换成2，可以得到新的网页，依次类推，得到迭代的网页URL

Python爬虫基础库有哪些

3、爬取信息为歌曲名字、歌手等

Python爬虫基础库有哪些

4、详细代码如下：

import requestsfrom bs4 import BeautifulSoupimport time
headers={"User-Agent": "xxxx"}
def get_info(url):    print(url)    #通过请求头和链接，得到网页页面整体信息    web_data=requests.get(url,headers=headers)    #print(web_data.text)    #对返回的结果进行解析    soup=BeautifulSoup(web_data.text,'lxml')    #找到具体的相同的数据的内容位置和内容    ranks = soup.select('span.pc_temp_num')    titles = soup.select('div.pc_temp_songlist > ul > li > a')    times = soup.select('span.pc_temp_tips_r > span')    #提取具体的文字内容    for rank, title, time in zip(ranks, titles, times):        data = {            'rank': rank.get_text().strip(),            'singer': title.get_text().split('-')[0],            'song': title.get_text().split('-')[1],            'time': time.get_text().strip()        }        print(data)
if __name__=='__main__':    urls = ['https://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(i) for i in range(1, 2)]    for url in urls:        get_info(url)    time.sleep(1)

到此，关于“Python爬虫基础库有哪些”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

网页标题：Python爬虫基础库有哪些
当前路径：http://cdkjz.cn/article/jpoipe.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫基础库有哪些

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫基础库有哪些

相关资讯

关于flutter按钮级鉴权的信息

jquery替换html内容,jq替换元素

css样式套样式,css样式菜鸟教程

sqlserver本地,sqlserver本地服务器

css样式link,css样式列表属性

php数据库json,Php数据库操作

日期差函数怎么求c语言,日期差函数的使用方法

javascript揭秘,“javascript”

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接