Scrapy框架怎么在python中使用-创新互联-快上网网站建设公司

Scrapy框架怎么在python中使用-创新互联

这篇文章将为大家详细讲解有关Scrapy框架怎么在python中使用，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

目前创新互联建站已为上千多家的企业提供了网站建设、域名、虚拟主机、网站托管、服务器托管、企业网站设计、江门网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

Python 爬虫包含两个重要的部分：正则表达式和Scrapy框架的运用，正则表达式对于所有语言都是通用的，网络上可以找到各种资源。

如下是手绘Scrapy框架原理图，帮助理解

Scrapy框架怎么在python中使用

如下是一段运用Scrapy创建的spider：使用了内置的crawl模板，以利用Scrapy库的CrawlSpider。相对于简单的爬取爬虫来说，Scrapy的CrawlSpider拥有一些网络爬取时可用的特殊属性和方法：

$ scrapy genspider country_or_district example.python-scrapying.com--template=crawl

运行genspider命令后，下面的代码将会在example/spiders/country_or_district.py中自动生成。

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from example.items import CountryOrDistrictItem


class CountryOrDistrictSpider(CrawlSpider):
  name = 'country_or_district'
  allowed_domains = ['example.python-scraping.com']
  start_urls = ['http://example.python-scraping.com/']

  rules = (
    Rule(LinkExtractor(allow=r'/index/', deny=r'/user/'),
       follow=True),
    Rule(LinkExtractor(allow=r'/view/', deny=r'/user/'),
       callback='parse_item'),
  )

  def parse_item(self, response):
    item = CountryOrDistrictItem()
    name_css = 'tr#places_country_or_district__row td.w2p_fw::text'
    item['name'] = response.css(name_css).extract()
    pop_xpath = '//tr[@id="places_population__row"]/td[@class="w2p_fw"]/text()'
    item['population'] = response.xpath(pop_xpath).extract()
    return item

爬虫类包括的属性：

name: 识别爬虫的字符串。
allowed_domains: 可以爬取的域名列表。如果没有设置该属性，则表示可以爬取任何域名。
start_urls: 爬虫起始URL列表。
rules: 该属性为一个通过正则表达式定义的Rule对象元组，用于告知爬虫需要跟踪哪些链接以及哪些链接包含抓取的有用内容。

关于Scrapy框架怎么在python中使用就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

分享名称：Scrapy框架怎么在python中使用-创新互联
链接地址：http://cdkjz.cn/article/ddssjd.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Scrapy框架怎么在python中使用-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Scrapy框架怎么在python中使用-创新互联

相关资讯

晋城有哪些企业，晋城有哪几个好的企业

建立自己的网站需要多少钱，建立个人网站大概需要多少钱

怎么查看网站的友情链接,手机首页怎么做友情链接

成为设计师要注意什么,装修房子找设计师要注意什么

网络平台需要什么条件,建立网络平台需要什么

wap站点是什么,WAP站点

织梦cms后台登录验证码出错

如何查询icp备案信息查询,全国备案信息查询网站查询入口

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接