正则表达式如何在python中爬取问答-创新互联-快上网网站建设公司

正则表达式如何在python中爬取问答-创新互联

了解正则表达式如何在python中爬取问答？这个问题可能是我们日常学习或工作经常见到的。希望通过这个问题能让你收获颇深。下面是小编给大家带来的参考内容，让我们一起来看看吧！

创新互联是专业的同仁网站建设公司，同仁接单;提供成都网站设计、做网站,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行同仁网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

爬虫思路

1、确定爬取的url路径，headers参数

2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据

3、解析数据 -- re模块：提供全部的正则表达式功能

4、保存数据 -- 保存json格式的数据

完整步骤：

确定爬取的url路径，headers参数

正则表达式如何在python中爬取问答

base_url = 'https://www.guokr.com/ask/highlight/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

发送请求 -- requests 模拟浏览器发送请求，获取响应数据

response = requests.get(base_url, headers=headers)
data = response.text

解析数据 -- re模块：提供全部的正则表达式功能

href="https://www.guokr.com/question/669761/">印度人把男人的生殖器叫林伽，把女人的生殖器叫瑜尼，林伽和瑜尼的交合，便是瑜伽。这是真还是假的

编译正则表达式预编译的代码对象比直接使用字符串要快，因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象

pattern = re.compile('(.*?)', re.S)
pattern_list = pattern.findall(data)  # -->list

# json [{[]}]{}
# 构建json数据格式
data_list = []
 
for i in pattern_list:
    data_dict = {}
    data_dict['title'] = i[1]
    data_dict['href'] = i[0]
 
data_list.append(data_dict)

保存json格式的文件

with open("guoke01.json", 'w', encoding='utf-8') as f:
f.write(json_data_list)

构建一个循环爬取

for page in range(1, 101):
print("====正在爬取第{}业数据====\n".format(page))

优化代码，把page传递进去

base_url = 'https://www.guokr.com/ask/highlight/?page={}'.format(str(page))

把列表添加到for循环上面去

data_list = []

最后运行代码。

感谢各位的阅读！看完上述内容，你们对正则表达式如何在python中爬取问答大概了解了吗？希望文章内容对大家有所帮助。如果想了解更多相关文章内容，欢迎关注创新互联行业资讯频道。

文章标题：正则表达式如何在python中爬取问答-创新互联
文章出自：http://cdkjz.cn/article/cdpdjd.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

正则表达式如何在python中爬取问答-创新互联

(.*?)

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

正则表达式如何在python中爬取问答-创新互联

(.*?)

相关资讯

现代软件工程第五章【团队和流程】练习与讨论-创新互联

开源|为什么要使用ns4_gear_idgenID生成器？-创新互联

图文详解PHP环境搭建教程分享-创新互联

gopsutil库怎么在Go语言中使用-创新互联

ORACLE对表空间ICITY无权限-创新互联

php中类继承和接口继承的区别-创新互联

虚拟主机选什么系统-创新互联

Swift语言特性及基本数据类型-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接