爬虫过程中加上这些策略让你采集效率更高-快上网网站建设公司

爬虫过程中加上这些策略让你采集效率更高

我们都知道在采集数据过程中，尤其是爬取大量数据的时候，很多网站都有反爬虫措施，封 ip是很严重的，，让你在采集的时候很心烦。本文就如何解决这个问题总结出一些应对措施，这些措施可以单独使用，也可以同时使用，效果更好。

创新互联专业为企业提供西藏网站建设、西藏做网站、西藏网站设计、西藏网站制作等企业网站建设、网页设计与制作、西藏企业网站模板建站服务，10年西藏做网站经验，不只是建网站，更提供有价值的思路和整体网络服务。

一、伪造 User-Agent

在请求头中把 User-Agent 设置成浏览器中的 User-Agent ，来伪造浏览器访问。比如：

headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

resp = requests.get(url,headers = headers)

在每次重复爬取之间设置一个随机时间间隔

# 比如：

time.sleep(random.randint(0,3)) # 暂停 0~3 秒的整数秒，时间区间： [0,3]

# 或：

time.sleep(random.random()) # 暂停 0~1 秒，时间区间： [0,1)

而且最主要的是 ua 要越多越好，不要固定的使用那几个，要经常更换最新真实的 ua 。

二、伪造 cookies

若从浏览器中可以正常访问一个页面，则可以将浏览器中的 cookies 复制过来使用，比如：

cookies = dict(uuid='b18f0e70-8705-470d-bc4b-09a8da617e15',UM_distinctid='15d188be71d50-013c49b12ec14a-3f73035d-100200-15d188be71ffd')

resp = requests.get(url,cookies = cookies)

# 把浏览器的 cookies 字符串转成字典

def cookies2dict(cookies):

items = cookies.split(';')

d = {}

for item in items:

kv = item.split('=',1)

k = kv[0]

v = kv[1]

d[k] = v

return d

注：用浏览器 cookies 发起请求后，如果请求频率过于频繁仍会被封 IP ，这时可以在浏览器上进行相应的手工验证（比如点击验证图片等），然后就可以继续正常使用该 cookies 发起请求。

三、使用代理

可以换着用多个代理 IP 来进行访问，防止同一个 IP 发起过多请求而被封 IP ，比如：

# 要访问的目标页面

targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面

# targetUrl = "https://httpbin.org/ip"

# 代理服务器

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理隧道验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http:// %(user)s : %(pass)s @ %(host)s : %(port)s " % {

"host" : proxyHost,

"port" : proxyPort,

"user" : proxyUser,

"pass" : proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies = {

"http" : proxyMeta,

"https" : proxyMeta,

} （这里是用的亿牛云的动态转发代理进行示例）

不管我们采集什么网站的数据，光有代理是不行的，要配合多种反爬策略一起才能更高效的获取大量的数据。

分享名称：爬虫过程中加上这些策略让你采集效率更高
标题链接：http://cdkjz.cn/article/pehshi.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

爬虫过程中加上这些策略让你采集效率更高

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

爬虫过程中加上这些策略让你采集效率更高

相关资讯

快递人工调度java代码 快递调度具体做些什么

web服务器如何安全防护 web服务器的安全

vb点虐 参考手册 vbnet ini

怎么练mysql 怎么练出高冷的声音

java代码实现B树 java如何实现树结构

路由器dhcp怎么开启 路由器网关回车

c语言调用结构体函数 结构体调用函数之后值会变吗

路由器怎么嫁接 路由器怎么嫁接wifi

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

快递人工调度java代码快递调度具体做些什么

vb点虐参考手册 vbnet ini

路由器dhcp怎么开启路由器网关回车

c语言调用结构体函数结构体调用函数之后值会变吗

路由器怎么嫁接路由器怎么嫁接wifi

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接