用python爬虫收集知乎大V头像的示例-创新互联-快上网网站建设公司

用python爬虫收集知乎大V头像的示例-创新互联

这篇文章将为大家详细讲解有关用python爬虫收集知乎大V头像的示例，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

为金溪等地区用户提供了全套网页设计制作服务，及金溪网站建设行业解决方案。主营业务为成都做网站、成都网站建设、成都外贸网站建设、金溪网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

一：请求头（headers）

每个网站的请求头都会不一样，但爬取得网站，都有例子，大家在不初期，跟着选就行

Authorization：HTTP授权的授权证书

User-Agent：代表你用哪种浏览器

X-UDID：一串验证码

二：真实的urls

异步加载中，真实的url并非https://www.zhihu.com/people/feifeimao/followers，真正的url需要我们通过抓包获取，流程如图：

用python爬虫收集知乎大V头像的示例

所以我们得出真实url：

https://www.zhihu.com/api/v4/members/feifeimao/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=20&limit=20

通过加载更多，我们发现url中start随之同步变化，变化的间隔为20，即offset=20（第一页），start=40（第二页），以此类推，所以我们得出.format(i*20)，大家可以对比第三篇的翻页。

三：img_url

我们抓取的img的url需要有序的排列，即采用append函数，依次把他们放入img_url。

四：json

之前我们用得.text是需要网页返回文本的信息，而这里返回的是json文件，所以用.json

json结构很清晰，大家一层一层选取就好了

取出字典中的值，需要在方括号中指明值对应的键

用python爬虫收集知乎大V头像的示例

以下为全部代码:

# -*- coding: utf-8 -*-
import requests
import json
from urllib.request import urlretrieve
 
headers = {'authorization':'Bearer Mi4xQXN3S0F3QUFBQUFBUUVJSjdTempDaGNBQUFCaEFsVk5BQzRmV3dDVVJzeU9NOWxNU0pZT1BNdFJ5bTlrSzk3MU1B|1513218048|1e03f7e7f26825482a72e4a629ef80292847548e',
           'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
           'x-udid':'AEBCCe0s4wqPToZZF6LV3roAjT8uEikZF1k=',
           }   #请求头
urls = ['https://www.zhihu.com/api/v4/members/feifeimao/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_' \
      'followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20) for i in range (0,5)]
img_urls = []   #用来存所有的img_url
for url in urls:
    datas = requests.get(url,headers = headers).json()['data']   #获取json文件下的data
    for it in datas:
        img_url = it['avatar_url']   #获取头像url
        img_urls.append(img_url)      #把获取的url依次放入img_urls
 
    i = 0   #计数
    for it in img_urls:
        urlretrieve(it,'D://%s.jpg' % i)   #通过url,依次下载头像，并保存于D盘
        i = i+1   #i依次累加

关于用python爬虫收集知乎大V头像的示例就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

网页标题：用python爬虫收集知乎大V头像的示例-创新互联
文章转载：http://cdkjz.cn/article/pghgd.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

用python爬虫收集知乎大V头像的示例-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

用python爬虫收集知乎大V头像的示例-创新互联

相关资讯

域名如何指向虚拟主机

PHPcURL是什么

C++11中的智能指针怎么用

手把手教你搭建Selenuim自动化环境

php怎么实现token登录认证

unityshader如何实现玻璃折射效果

mysql解压版运行

vmwareworkstation14密钥

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接