python爬虫之如何抓取高匿ip代理-创新互联-快上网网站建设公司

python爬虫之如何抓取高匿ip代理-创新互联

小编给大家分享一下python爬虫之如何抓取高匿ip代理，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

成都网站设计、成都网站制作、外贸网站建设介绍好的网站是理念、设计和技术的结合。创新互联拥有的网站设计理念、多方位的设计风格、经验丰富的设计团队。提供PC端+手机端网站建设，用营销思维进行网站设计、采用先进技术开源代码、注重用户体验与SEO基础，将技术与创意整合到网站之中，以契合客户的方式做到创意性的视觉化效果。

很多网站都有反爬虫机制，只用一个ip去频繁访问网站的话，很容易引起网站管理员的注意，如果管理员将这个ip加入黑名单，那么这个爬虫就废掉了。所以，想要做大型的爬虫的话，基本上是必须要面对ip的问题。

那么问题来了，我们去哪里搞代理ip呢？？第一种方法就是买买买！！没有什么事情是用钱解决不了的，如果有，那就加倍。

当然，网上也有一堆免费的ip代理，但是，免费的质量参差不齐，所以就需要进行筛选。以西刺代理为例：用爬虫爬取国内的高匿代理IP，并进行验证。（只爬取前五页，后面的失效太多，没有必要去验证了。）

class XiciSpider(scrapy.Spider):
    name = 'xici'
    allowed_domains = ['xicidaili.com']
    start_urls = []
    for i in range(1, 6):
        start_urls.append('http://www.xicidaili.com/nn/' + str(i))
 
    def parse(self, response):
        ip = response.xpath('//tr[@class]/td[2]/text()').extract()
        port = response.xpath('//tr[@class]/td[3]/text()').extract()
        agreement_type = response.xpath('//tr[@class]/td[6]/text()').extract()
        proxies = zip(ip, port, agreement_type)
        # print(proxies)
 
        # 验证代理是否可用
        for ip, port, agreement_type in proxies:
            proxy = {'http': agreement_type.lower() + '://' + ip + ':' + port,
                     'https': agreement_type.lower() + '://' + ip + ':' + port}
            try:
                # 设置代理链接  如果状态码为200 则表示该代理可以使用
                print(proxy)
                resp = requests.get('http://icanhazip.com', proxies=proxy, timeout=2)
                print(resp.status_code)
                if resp.status_code == 200:
                    print(resp.text)
                    # print('success %s' % ip)
                    item = DailiItem()
                    item['proxy'] = proxy
                    yield item
            except:
                print('fail %s' % ip)

Pipeline：

class DailiPipeline(object):
 
    def __init__(self):
        self.file = open('proxy.txt', 'w')
 
    def process_item(self, item, spider):
        self.file.write(str(item['proxy']) + '\n')
        return item
 
    def close_spider(self, spider):
        self.file.close()

以上是“python爬虫之如何抓取高匿ip代理”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注创新互联行业资讯频道！

新闻名称：python爬虫之如何抓取高匿ip代理-创新互联
网站链接：http://cdkjz.cn/article/gcohp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫之如何抓取高匿ip代理-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫之如何抓取高匿ip代理-创新互联

相关资讯

可以隐藏域名注册信息吗？如何隐藏域名隐私？

购买的域名带服务器吗服务器购买后怎么绑定域名

pw域名怎么样？pw域名优势有哪些？

中山seo教程：seo建站六步走

域名解析什么是A记录什么情况才能用到A记录

什么是域名?域名和网站存在哪些关系呢?

域名的商业价值是什么？域名存在着怎样的商业价值？

邵阳seo小编教你优化建站-上线即有流量

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接