Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！-快上网网站建设公司

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

闲暇写一个外包网站的爬虫，万一你从这个外包网站弄点外快呢

创新互联公司长期为数千家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为泗阳企业提供专业的成都网站设计、做网站，泗阳网站改版等技术服务。拥有10余年丰富建站经验和众多成功案例,为您定制开发。

数据分析

官方网址为 https://www.clouderwork.com/

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

进入全部项目列表页面，很容易分辨出来项目的分页方式

得到异步请求

Request URL:https://www.clouderwork.com/api/v2/jobs/search?ts=1546395904852&keyword=&budget_range=&work_status=&pagesize=20&pagenum=3&sort=1&scope=
Request Method:GET
Status Code:200 OK

参数如下

    ts:1546395904852  # 时间戳
    keyword:   # 搜索关键字，查找全部，使用空即可
    budget_range:   # 暂时无用
    work_status:
    pagesize:20   # 每页数据量
    pagenum:3   # 页码
    sort:1   # 排序规则
    scope:
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

下面就是拼接请求了，一下确定request相关参数

Accept:application/json, text/javascript, */*; q=0.01
Accept-Encoding:gzip, deflate, br
Accept-Language:zh-CN,zh;q=0.9
Connection:keep-alive
Cookie:
Host:www.clouderwork.com
Referer:https://www.clouderwork.com/jobs?keyword=
User-Agent:Mozilla/5.0 你自己的UA QQBrowser/10.3.3006.400
X-Requested-With:XMLHttpRequest

采用爬虫scrapy
这个网站没有反爬措施，所以直接上就可以了

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import time
import json

class CloudeworkSpider(scrapy.Spider):
    name = 'cloudework'
    allowed_domains = ['www.clouderwork.com']
    start_url = 'https://www.clouderwork.com/api/v2/jobs/search?ts={times}&keyword=&budget_range=&work_status=&pagesize={pagesize}&pagenum={pagenum}&sort=1&scope='

    def start_requests(self):
        for page in range(1,353):
            yield Request(self.start_url.format(times=time.time(),pagesize=20,pagenum=page))

    def parse(self, response):
        json_data = json.loads(response.text)
        for item in  json_data["jobs"]:
            yield item

存储数据到MongoDB中，合计爬取到7000+数据

数据分析

从mongdo读取数据

import pymongo
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# 连接数据库
client = pymongo.MongoClient("localhost",27017)
cloud = client["cloud"]
collection = cloud["cloudework"]

# 加载数据
data = DataFrame(list(collection.find()))

结果显示为 [7032 rows x 35 columns]

查看数据基本情况

使用直接data.shape可以查看一下数据的基本情况

查看一下工期的分布

periods = data.groupby(["period"]).size()

x = periods.index 
y = periods.values 
plt.figure()
plt.scatter(x,y, color="#03a9f4", alpha = 0.5) # 绘制图表
plt.xlim((0, 360))
plt.ylim((0, 2000))
plt.xlabel("工期")
plt.ylabel("项目数")
plt.show()

可以看到数据散点集中在0〜50天

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

过滤一下40天以内的数据

periods = data.groupby(["period"]).size().reset_index(name="count")

df = periods[periods["period"]<=40]

x = df["period"]
y = df["count"]

plt.figure()
plt.scatter(x,y,label='项目数折线',color="#ff44cc")
plt.title("工期对应项目数")
plt.xlim((0, 360))
plt.ylim((0, 500))
plt.show()

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

发现竟然有1天工期的任务，可以瞅瞅都是什么任务

periods = data.groupby(["period"]).size()
data[data["period"]==1][["name","period"]]

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

果然比较简单唉~~不过也没有多少钱，有个急活1000¥

查看阅览量排行Top10

views = data["views_count"]
top10 = views.sort_values(ascending=False)[:10]

top10 = data[data.views_count.isin(top10.values)][["name","views_count","period","summary"]]
top10
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

查阅一下开发模式

看一下什么类型的项目比较多???数据上反应，网络网站和APP最多了，所以这方面的技能的大神么，可以冲一波了

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

本文标题：Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！
网页URL：http://cdkjz.cn/article/pdcjec.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

数据分析

数据分析

从mongdo读取数据

查看数据基本情况

查看一下工期的分布

查看阅览量排行Top10

查阅一下开发模式

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫入门【23】：scrapy爬取云沃客项目外包网数据！

数据分析

数据分析

从mongdo读取数据

查看数据基本情况

查看一下工期的分布

查看阅览量排行Top10

查阅一下开发模式

相关资讯

ios开发月薪多少 ios开发工程师工资

jquery传值 jquery传参数的方法 调用

html5餐 html5餐饮企业网站

linux查询命令执行 linux 查询命令用法

mysqlguan 网怎么下载 mysql如何在guan 网下载

怎么设置mysql参数 mysql 设置

mysql怎么报错回滚 mysql数据库如何回滚

ios小组件开发交互 iphone小组件搭配

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

jquery传值 jquery传参数的方法调用

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接