如何使用python爬取百万github用户数据-快上网网站建设公司

如何使用python爬取百万github用户数据

这篇文章将为大家详细讲解有关如何使用python爬取百万github用户数据，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

创新互联-专业网站定制、快速模板网站建设、高性价比铁门关网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式铁门关网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖铁门关地区。费用合理售后完善，10余年实体公司更值得信赖。

流程图：

如何使用python爬取百万github用户数据

根据这个流程实现的代码

递归实现

运行命令

看到这么简单的流程，内心的第一想法就是先简单的写一个递归实现呗，要是性能差再慢慢优化，所以第一版代码很快就完成了（在目录recursion下）。数据存储使用mongo，重复请求判断使用的redis，写mongo数据采用celery的异步调用，需要rabbitmq服务正常启动，在settings.py正确配置后，使用下面的步骤启动：

进入github_spider目录
执行命令celery -A github_spider.worker worker loglevel=info启动异步任务
执行命令python github_spider/recursion/main.py启动爬虫

运行结果

因为每个请求延时很高，爬虫运行效率很慢，访问了几千个请求之后拿到了部分数据，这是按照查看数降序排列的python项目：

如何使用python爬取百万github用户数据

这是按粉丝数降序排列的用户列表

如何使用python爬取百万github用户数据

运行缺陷

作为一个有追求的程序员，当然不能因为一点小成就满足，总结一下递归实现的几个缺陷：

因为是深度优先，当整个用户图很大的时候，单机递归可能造成内存溢出从而使程序崩溃，只能在单机短时间运行。
单个请求延时过长，数据下载速度太慢。
针对一段时间内访问失败的链接没有重试机制，存在数据丢失的可能。

异步优化

针对这种I/O耗时的问题，解决方法也就那几种，要么多并发，要么走异步访问，要么双管齐下。针对上面的问题2，我最开始的解决方式是异步请求API。因为最开始写代码的时候考虑到了这点，代码对调用方法已经做过优化，很快就改好了，实现方式使用了grequests。这个库和requests是同一个作者，代码也非常的简单，就是讲request请求用gevent做了一个简单的封装，可以非阻塞的请求数据。

但是当我运行之后，发现程序很快运行结束，一查发现公网IP被github封掉了，当时心中千万只草泥马奔腾而过，没办法只能祭出爬虫的终极杀器--代理。又专门写了一个辅助脚本从网上爬取免费的HTTPS代理存放在redis中，路径proxy/extract.py，每次请求的时候都带上代理，运行错误重试自动更换代理并把错误代理清楚。本来网上免费的HTTPS代理就很少，而且很多还不能用，由于大量的报错重试，访问速度不仅没有原来快，而且比原来慢一大截，此路不通只能走多并发实现了。

队列实现

实现原理

采取广度优先的遍历的方式，可以把要访问的网址存放在队列中，再套用生产者消费者的模式就可以很容易的实现多并发，从而解决上面的问题2。如果某段时间内一直失败，只需要将数据再仍会队列就可以彻底解决问题3。不仅如此，这种方式还可以支持中断后继续运行，程序流程图如下：

如何使用python爬取百万github用户数据

运行程序

为了实现多级部署（虽然我就只有一台机器），消息队列使用了rabbitmq，需要创建名为github，类型是direct的exchange，然后创建四个名称分别为user, repo, follower, following的队列，详细的绑定关系见下图：

如何使用python爬取百万github用户数据

详细的启动步骤如下：

进入github_spider目录
执行命令celery -A github_spider.worker worker loglevel=info启动异步任务
执行命令python github_spider/proxy/extract.py更新代理
执行命令python github_spider/queue/main.py启动脚本

队列状态图：

如何使用python爬取百万github用户数据

关于“如何使用python爬取百万github用户数据”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

文章标题：如何使用python爬取百万github用户数据
网页地址：http://cdkjz.cn/article/giocph.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何使用python爬取百万github用户数据

递归实现

运行命令

运行结果

运行缺陷

异步优化

队列实现

实现原理

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何使用python爬取百万github用户数据

递归实现

运行命令

运行结果

运行缺陷

异步优化

队列实现

实现原理

相关资讯

vimgo语言语法高亮 vim 语法高亮

包含比SAP系统还好的的词条

关于sap系统清单的信息

linux停止进程命令 linux停止系统进程命令

mc百人服务器腾讯云 腾讯云服务器我的世界

java代码实现db更新 java update

阿里云服务器搭建nginx服务器 阿里云服务器安装nginx

Go语言本地数据库 go数据库怎么用

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

mc百人服务器腾讯云腾讯云服务器我的世界

阿里云服务器搭建nginx服务器阿里云服务器安装nginx

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接