python多协程爬虫示例-快上网网站建设公司

python多协程爬虫示例

写python协程时使用gevent模块和queue模块可以大大提高爬虫速度。在同时爬取多个网站时，原来用for循环一个网站一个网站按循序顺序爬，就像先烧饭后烧菜，两个步骤异步进行。使用多协程可以让爬虫自己选择爬取顺序，就像边烧饭边烧菜，两个步骤同步进行，速度自然快了。
不多说了，来看下代码吧：

越城网站制作公司哪家好，找创新互联！从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设公司等网站项目制作，到程序开发，运营维护。创新互联从2013年开始到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联。

from gevent import monkey
monkey.patch_all()
#打上多协程布丁，下面的程序就可以执行多协程了

import requests,gevent,csv
from gevent.queue import Queue
from bs4 import BeautifulSoup

#把所有URL都放到一个列表里：
url_list=[]
i=1
for i in range(10):
    i=i+1
    url='http://www.mtime.com/top/tv/top100/index-'+str(i)+'.html'
    url_list.append(url)
#第一个url和别的不一样，需要单独加入
url_0='http://www.mtime.com/top/tv/top100/'
url_list.append(url_0)

headers={
    'User-Agent': 
}

csv_file=open('时光网电影列表.csv','a+',newline='',encoding='utf-8')
writer=csv.writer(csv_file)
file_head=['电影名称','导演','主演','简介']
writer.writerow(file_head)

def list(movies):
    for movie in movies:
        title=movie.find('h3',class_="px14 pb6").find('a').text
        acts=movie.find_all('p')
        try:
            dic=acts[0].text
        except IndexError:
            dic='none'

        try:
            actor=acts[1].text
        except IndexError:
            actor='none'

        try:
            bief=movie.find('p',class_="mt3").text
        except AttributeError:
            bief='none'
        writer.writerow([title,dic,actor,bief])

#所有url都放到‘不用等’房间里：
work=Queue()
for url in url_list:
    work.put_nowait(url)

#爬虫对象：
def crawler():
    while not work.empty():
        url=work.get_nowait()
        res=requests.get(url,headers=headers)
        soup=BeautifulSoup(res.text,'html.parser')
        movies=soup.find_all('div',class_="mov_con")
        list(movies)
        print(url,work.qsize(),res.status_code)        

#建立多协程任务，任务不用建太多，2个就够，太多的话对方服务器承受不了
tasks_list=[]
for x in range(2):
    task=gevent.spawn(crawler)
    tasks_list.append(task)

gevent.joinall(tasks_list)
csv_file.close()

名称栏目：python多协程爬虫示例
转载来源：http://cdkjz.cn/article/ipciis.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python多协程爬虫示例

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python多协程爬虫示例

相关资讯

顾念抖音代运营

西安抖音直播代运营公司

安徽抖音账号号代运营公司如何添加(视频营销新思维抖音账号代运营)

运营商推出短视频

平邑抖音代运营哪家好做

邳州抖音代运营师招聘

短视频运营入门注意事项

抖音代运营的宗旨

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接