网站建设 >

查看其它板块

Python爬虫常用小技巧之设置代理IP-创新互联

设置代理IP的原因

我们提供的服务有：网站制作、网站建设、微信公众号开发、网站优化、网站认证、滁州ssl等。为数千家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的滁州网站制作公司

我们在使用Python爬虫爬取一个网站时，通常会频繁访问该网站。假如一个网站它会检测某一段时间某个IP的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，这样便不会出现因为频繁访问而导致禁止访问的现象。

我们在学习Python爬虫的时候，也经常会遇见所要爬取的网站采取了反爬取技术导致爬取失败。高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力，所以同一个IP反复爬取同一个网页，就很可能被封，所以下面这篇文章讲述一个爬虫技巧，设置代理IP

这里介绍一下免费获取代理IP的方法，这个方法的优点就是免费，但是缺点就是爬取后存在很多不能用的

IP地址取自国内髙匿代理IP网站，西刺代理，我们爬取首页IP地址就足够一般使用，或者你也可以爬取第一页，第二页…的

配置环境

安装requests库
安装bs4库
安装lxml库

具体代码

话不多说直接上代码吧

from bs4 import BeautifulSoup
import requests
import random

def get_ip_list(url, headers):
 web_data = requests.get(url, headers=headers)
 soup = BeautifulSoup(web_data.text, 'lxml')
 ips = soup.find_all('tr')
 ip_list = []
 for i in range(1, len(ips)):
  ip_info = ips[i]
  tds = ip_info.find_all('td')
  ip_list.append(tds[1].text + ':' + tds[2].text)
 return ip_list

def get_random_ip(ip_list):
 proxy_list = []
 for ip in ip_list:
  proxy_list.append('http://' + ip)
 proxy_ip = random.choice(proxy_list)
 proxies = {'http': proxy_ip}
 return proxies

if __name__ == '__main__':
 url = 'http://www.xicidaili.com/nn/'
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17'
 }
 ip_list = get_ip_list(url, headers=headers)
 proxies = get_random_ip(ip_list)
 print(proxies)

本文标题：Python爬虫常用小技巧之设置代理IP-创新互联
转载来于：http://cdkjz.cn/article/diecoj.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都微信二次开发眉山托管服务器成都商城app开发品牌官网设计成都网站建设公司成都包装盒设计重庆托管服务器雅安移动机房成都搅拌罐车无边发光字厂家

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫常用小技巧之设置代理IP-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫常用小技巧之设置代理IP-创新互联

相关资讯

如何保证服务器安全性 如何保证服务器安全性问题

wordpress云标签 wordpress标签生成器

除了zblog还有什么 除了博客还有哪里可以写文章

帝国cms当前会员文章 帝国cms相关文章调用

mysql图标怎么显示 mysql 图标

zblog自动采集文章 zblog采集教程

包含sap系统操作文员的词条

阿里云服务器如何关掉端口 阿里云服务器如何关掉端口设置

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

如何保证服务器安全性如何保证服务器安全性问题

除了zblog还有什么除了博客还有哪里可以写文章

帝国cms当前会员文章帝国cms相关文章调用

阿里云服务器如何关掉端口阿里云服务器如何关掉端口设置

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接