从品牌网站建设到网络营销策划,从策略到执行的一站式服务
这篇文章给大家分享的是有关python爬虫怎么用scrapy获取影片的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。
创新互联是一家专注于做网站、成都网站设计与策划设计,沭阳网站建设哪家好?创新互联做网站,专注于网站建设10多年,网设计领域的专业建站公司;建站业务涵盖:沭阳等地区。沭阳做网站价格咨询:189808205751. 创建项目
运行命令:
scrapy startproject myfrist(your_project_name)
文件说明: 名称 | 作用 --|-- scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py | 设置数据存储模板,用于结构化数据,如:Django的Model pipelines | 数据处理行为,如:一般结构化的数据持久化 settings.py | 配置文件,如:递归的层数、并发数,延迟下载等 spiders | 爬虫目录,如:创建文件,编写爬虫规则
注意:一般创建爬虫文件时,以网站域名命名
2 编写 spdier
在spiders目录中新建 daidu_spider.py 文件
2.1 注意
爬虫文件需要定义一个类,并继承scrapy.spiders.Spider
必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的
2.2 编写内容
在这里可以告诉 scrapy 。要如何查找确切数据,这里必须要定义一些属性
name: 它定义了蜘蛛的名称
allowed_domains: 它包含了蜘蛛抓取的基本URL;
start-urls: 蜘蛛开始爬行的URL列表;
parse(): 这是提取并解析刮下数据的方法;
下面的代码演示了蜘蛛代码的样子:
import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com/top250/' ] def parse(self, response): movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract() movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract() yield { 'movie_name':movie_name, 'movie_core':movie_core }
感谢各位的阅读!关于python爬虫怎么用scrapy获取影片就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到吧!
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图