python爬虫中scrapy怎么给图书分类-创新互联-快上网网站建设公司

python爬虫中scrapy怎么给图书分类-创新互联

这篇文章主要介绍python爬虫中scrapy怎么给图书分类，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

作为一家“创意+整合+营销”的成都网站建设机构，我们在业内良好的客户口碑。创新互联提供从前期的网站品牌分析策划、网站设计、成都网站建设、网站设计、创意表现、网页制作、系统开发以及后续网站营销运营等一系列服务，帮助企业打造创新的互联网品牌经营模式与有效的网络营销方法,创造更大的价值。

spider抓取程序：

在贴上代码之前，先对抓取的页面和链接做一个分析：

python爬虫中scrapy怎么给图书分类

http://category.dangdang.com/pg4-cp01.25.17.00.00.00.html

这个是当当网图书的链接，经过分析发现：大种类的id号对应 cp01.25 中的25，小种类对应id号中的第三个 17，pg4代表大种类 —>小种类下图书的第17页信息。

为了在抓取图书信息的同时找到这本图书属于哪一大种类下的小种类的归类信息，我们需要分三步走，第一步：大种类划分，在首页找到图书各大种类名称和对应的id号；第二步，根据大种类id号生成的链接，找到每个大种类下的二级子种类名称，及对应的id号；第三步，在大种类 —>小种类的归类下抓取每本图书信息。

分步骤介绍下：

1、我们继承RedisSpider作为父类，start_urls作为初始链接，用于请求首页图书数据

# -*- coding: utf-8 -*-
import scrapy
import requests
from scrapy import Selector
from lxml import etree
from ..items import DangdangItem
from scrapy_redis.spiders import RedisSpider
 
class DangdangSpider(RedisSpider):
    name = 'dangdangspider'
    redis_key = 'dangdangspider:urls'
    allowed_domains = ["dangdang.com"]
    start_urls = 'http://category.dangdang.com/cp01.00.00.00.00.00.html'
 
    def start_requests(self):
        user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
                      Safari/537.36 SE 2.X MetaSr 1.0'
        headers = {'User-Agent': user_agent}
        yield scrapy.Request(url=self.start_urls, headers=headers, method='GET', callback=self.parse)

2、在首页中抓取大种类的名称和id号，其中yield回调函数中传入的meta值为本次匹配出的大种类的名称和id号

def parse(self, response):
        user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
                      Safari/537.36 SE 2.X MetaSr 1.0'
        headers = {'User-Agent': user_agent}
        lists = response.body.decode('gbk')
        selector =  etree.HTML(lists)
        goodslist = selector.xpath('//*[@id="leftCate"]/ul/li')
        for goods in goodslist:
            try:
                category_big = goods.xpath('a/text()').pop().replace('   ','')  # 大种类
                category_big_id = goods.xpath('a/@href').pop().split('.')[1]    # id
                category_big_url = "http://category.dangdang.com/pg1-cp01.{}.00.00.00.00.html".\
                                  format(str(category_big_id))
                # print("{}:{}".format(category_big_url,category_big))
                yield scrapy.Request(url=category_big_url, headers=headers,callback=self.detail_parse,
                                     meta={"ID1":category_big_id,"ID2":category_big})
            except Exception:
                Pass

3、根据传入的大种类的id号抓取每个大种类下的小种类图书标签，yield回调函数中传入的meta值为大种类id号和小种类id号

   def detail_parse(self, response):
        '''
        ID1:大种类ID   ID2:大种类名称   ID3:小种类ID  ID4:小种类名称
        '''
        url = 'http://category.dangdang.com/pg1-cp01.{}.00.00.00.00.html'.format(response.meta["ID1"])
        category_small = requests.get(url)
        contents = etree.HTML(category_small.content.decode('gbk'))
        goodslist = contents.xpath('//*[@class="sort_box"]/ul/li[1]/div/span')
        for goods in goodslist:
            try:
                category_small_name = goods.xpath('a/text()').pop().replace(" ","").split('(')[0]
                category_small_id = goods.xpath('a/@href').pop().split('.')[2]
                category_small_url = "http://category.dangdang.com/pg1-cp01.{}.{}.00.00.00.html".\
                                  format(str(response.meta["ID1"]),str(category_small_id))
                yield scrapy.Request(url=category_small_url, callback=self.third_parse, meta={"ID1":response.meta["ID1"],\
                       "ID2":response.meta["ID2"],"ID3":category_small_id,"ID4":category_small_name})
 
                # print("============================ {}".format(response.meta["ID2"]))  # 大种类名称
                # print(goods.xpath('a/text()').pop().replace(" ","").split('(')[0])   # 小种类名称
                # print(goods.xpath('a/@href').pop().split('.')[2])   # 小种类ID
            except Exception:
                Pass

4、抓取各大种类——>小种类下的图书信息

    def third_parse(self,response):
        for i in range(1,101):
            url = 'http://category.dangdang.com/pg{}-cp01.{}.{}.00.00.00.html'.format(str(i),response.meta["ID1"],\
                                                                                      response.meta["ID3"])
            try:
                contents = requests.get(url)
                contents = etree.HTML(contents.content.decode('gbk'))
                goodslist = contents.xpath('//*[@class="list_aa listimg"]/li')
                for goods in goodslist:
                    item = DangdangItem()
                    try:
                        item['comments'] = goods.xpath('div/p[2]/a/text()').pop()
                        item['title'] = goods.xpath('div/p[1]/a/text()').pop()
                        item['time'] = goods.xpath('div/div/p[2]/text()').pop().replace("/", "")
                        item['price'] = goods.xpath('div/p[6]/span[1]/text()').pop()
                        item['discount'] = goods.xpath('div/p[6]/span[3]/text()').pop()
                        item['category1'] = response.meta["ID4"]       # 种类(小)
                        item['category2'] = response.meta["ID2"]       # 种类(大)
                    except Exception:
                        pass
                    yield item
            except Exception:
                pass

分类之后的图书种类想要查阅是不是变得容易了呢？毕竟要从一大堆数据中，找出我们想要的那类型图书是件费时费力的事情，小伙伴也给图书做个分类吧~

以上是“python爬虫中scrapy怎么给图书分类”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

新闻标题：python爬虫中scrapy怎么给图书分类-创新互联
标题链接：http://cdkjz.cn/article/djcood.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫中scrapy怎么给图书分类-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫中scrapy怎么给图书分类-创新互联

相关资讯

sqlserver物理分,sql物理结构

包含老windows系统应用的词条

c语言中清除缓存的函数,c语言中清除缓存的函数是什么

nosql数据库排行,nosql数据库排名

包含windows系统回收的词条

关于macos系统重装要多久的信息

windows系统是硬件的简单介绍

关于windows系统大师的信息

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接