Python中怎么实现一个网页采集器-快上网网站建设公司

Python中怎么实现一个网页采集器

本篇文章为大家展示了Python中怎么实现一个网页采集器，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

创新互联建站于2013年创立，先为虎林等服务建站，虎林等地企业，进行企业商务咨询服务。为虎林企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

requests模块

python中封装好的一个基于网络请求的模块。用来模拟浏览器发请求。安装：pip install requests

requests模块的编码流程

指定url
发起请求
获取相应数据
持久化储存

# 爬取搜狗首页的页面源码数据

import requests

# 1. 指定url
url = "https://www.sogou.com"
# 2.发送请求 get
response = requests.get(url=url)  # get返回值是Response对象
# 获取响应数据，响应数据在Response对象里
page_text = response.text   # text返回字符串形式的响应数据
# 4.持久化储存
with open("sogou.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

项目：实现一个简易的网页采集器

要求：程序基于搜狗录入任意的关键字然后获取关键字对应的相关的整个页面。

# 1.指定url，需要让url携带的参数动态化

url = "https://www.sogou.com/web"
# 实现参数动态化，不推荐参数的拼接，参数如果太多就相当麻烦。
# requests模块实现了更为简便的方法
ky = input("enter a key")
params = {
    'query':ky
}
# 将需要的请求参数对应的字典作用到get方法的params参数中，params参数接受一个字典
response = requests.get(url=url,params=params)
page_text = response.text

with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述代码执行后：

出现了乱码
数据量级不对

# 解决乱码

url = "https://www.sogou.com/web"

ky = input("enter a key")
params = {
    'query':ky
}
response = requests.get(url=url,params=params)
# print(response.encoding) 会打印原来response的编码格式
response.encoding = 'utf-8'  # 修改响应数据的编码格式
page_text = response.text
with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述代码执行后：

收到了错误页面（搜狗的反爬机制）

UA检测

绝大多数网站都有UA检查反爬机制
门户网站通过检测请求载体的身份标识判定该请求是否为爬虫发出的请求

反反爬策略：UA伪装请求头增加User-Agent

打开浏览器请求搜狗页面，右键点击检查进入Network，点击Headers找到浏览器的User-Agent
注意：任意浏览器的身份标识都可以。

# 反反爬策略：请求头增加User-Agent
url = "https://www.sogou.com/web"

ky = input("enter a key")
params = {
    'query':ky
}
# 请求头中增加User-Agent ,注意请求头的数据格式是键值对，且都是字符串。
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
}
response = requests.get(url=url,params=params,headers=headers)
response.encoding = 'utf-8'  
page_text = response.text
with open(f"{ky}.html","w",encoding='utf-8') as fp:
    fp.write(page_text)

上述内容就是Python中怎么实现一个网页采集器，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注创新互联行业资讯频道。

网页名称：Python中怎么实现一个网页采集器
分享路径：http://cdkjz.cn/article/ppeiph.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python中怎么实现一个网页采集器

requests模块

requests模块的编码流程

项目：实现一个简易的网页采集器

UA检测

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python中怎么实现一个网页采集器

requests模块

requests模块的编码流程

项目：实现一个简易的网页采集器

UA检测

相关资讯

mac怎么按mysql,mac怎么按alt键

php制定变量数据类型,php制定变量数据类型编码

c语言函数怎么转大小写,c语言大小写

vb.net程序版本,VB net

linux命令文件合并,文件合并 linux

php7数据库使用教程,php7链接数据库

javacsv代码,csv解析 java

go语言写动态链接库,go 生成 动态库

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

go语言写动态链接库,go 生成动态库

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接