Python中怎么利用正则抓取数据-快上网网站建设公司

Python中怎么利用正则抓取数据

Python中怎么利用正则抓取数据，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

宝应网站建设公司成都创新互联公司,宝应网站设计制作，有大型网站制作公司丰富经验。已为宝应千余家提供企业网站建设服务。企业网站搭建\外贸营销网站建设要多少钱，请找那个售后服务好的宝应做网站的公司定做！

1、正则表达式基础

（1）一般字符

Python中怎么利用正则抓取数据

（2）预定义字符集

Python中怎么利用正则抓取数据

（3）数量词

Python中怎么利用正则抓取数据

（4）边界匹配

Python中怎么利用正则抓取数据

备注：最常用的一种匹配方式（.*?）代表匹配任意字符

2、re模块使用方法

re模块使得Python拥有全部的正则表达式功能。

常用函数1：search()函数匹配并提取第一个符合规律的内容，返回一个正则表达对象

常用函数2：findall()函数匹配所有符合规律的内容，并以列表的形式返回结果

备注：一般在爬取数据时候还是以findall使用居多

re模块修饰符

Python中怎么利用正则抓取数据

3、案例实践

案例名称：爬取《斗破苍穹》全文小说

网络链接：http://www.doupoxs.com/doupocangqiong/

Python中怎么利用正则抓取数据

爬取思路：

（1）打开网页，了解网页URL信息，通过打开第一章和第二章发现链接如下

http://www.doupoxs.com/doupocangqiong/1.html

http://www.doupoxs.com/doupocangqiong/2.html

http://www.doupoxs.com/doupocangqiong/3.html

明显链接通过数字递加来对每一章节进行分页。

（2）爬取全文信息，查找对应的位置如下

Python中怎么利用正则抓取数据

（3）数据存储到TXT文本中

4、详细代码如下：

import requestsimport reimport time
headers={"User-Agent":请求头}
f=open('doupo.txt','a+')
def get_info(url):   res=requests.get(url,headers=headers)   if res.status_code==200:       contents = re.findall('(.*?)',res.content.decode('utf-8'),re.S)       for content in contents:           f.write(content+'\n')           print(content)   else:       pass
if __name__=='__main__':   urls=['http://www.doupoxs.com/doupocangqiong/{}.html'.format(i) for i in range(2,10)]   for url in urls:       get_info(url)       time.sleep(1)   f.close()

运行结果如下：

Python中怎么利用正则抓取数据

关于Python中怎么利用正则抓取数据问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注创新互联行业资讯频道了解更多相关知识。

本文题目：Python中怎么利用正则抓取数据
转载来源：http://cdkjz.cn/article/gcsscj.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python中怎么利用正则抓取数据

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python中怎么利用正则抓取数据

相关资讯

golang中beego的示例分析

leetCode8.StringtoInteger(atoi)字符串

深入理解spring的AOP机制原理

使用C语言怎么实现一个窗口抖动功能

如何制作一个通用的多系统安装U盘二(前期知识）

注册Tomcat到WindowService服务

linux下chage命令的用法

php怎么设置过期时间

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接