scrapy在python分布式爬虫的使用范围-创新互联-快上网网站建设公司

scrapy在python分布式爬虫的使用范围-创新互联

小编给大家分享一下scrapy在python分布式爬虫的使用范围，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

长丰网站建设公司成都创新互联公司,长丰网站设计制作，有大型网站制作公司丰富经验。已为长丰数千家提供企业网站建设服务。企业网站搭建\外贸网站建设要多少钱，请找那个售后服务好的长丰做网站的公司定做！

1.scrapy框架是否可以自己实现分布式？

不可以。原因有二。

其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）

其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）

2.基于scrapy-redis组件的分布式爬虫

scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

实现方式：

基于该组件的RedisSpider类
基于该组件的RedisCrawlSpider类

3.分布式实现流程：上述两种不同方式的分布式实现流程是统一的

3.1 下载scrapy-redis组件：

pip install scrapy-redis

3.2 redis配置文件的配置：

注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

将yes该为no：protected-mode no，表示可以让其他ip操作redis

3.3 修改爬虫文件中的相关代码：

将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬虫文件是基于 Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider。

注释或者删除start_urls列表，切加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称

3.4 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

scrapy在python分布式爬虫的使用范围

看完本篇文章我们知道，因为两点的限制，scrapy框架是不能在python分布式爬虫独立运用的，但是我们可以配合其他的一些函数来运行，这点小伙伴们可要记住啦~

以上是“scrapy在python分布式爬虫的使用范围”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注创新互联行业资讯频道！

当前名称：scrapy在python分布式爬虫的使用范围-创新互联
网站URL：http://cdkjz.cn/article/dsecoo.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

scrapy在python分布式爬虫的使用范围-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

scrapy在python分布式爬虫的使用范围-创新互联

相关资讯

WordPress仿千图 千图网模板可以商用吗

javaspark代码 spark java编程

瓦片技术桌面gis 瓦片应用

c-gis充气柜技术 充气柜配置

vb.netcint的简单介绍

go语言倒计时 go语言时间格式转换

vb.net播放列表音乐 vbs播放音乐

linux执行文件的命令 linux中执行文件的命令

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

WordPress仿千图千图网模板可以商用吗

c-gis充气柜技术充气柜配置

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接