爬虫框架feapder的安装和使用-快上网网站建设公司

爬虫框架feapder的安装和使用

这篇文章主要讲解了“爬虫框架feapder的安装和使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“爬虫框架feapder的安装和使用”吧！

在成都网站建设、网站制作中从网站色彩、结构布局、栏目设置、关键词群组等细微处着手，突出企业的产品/服务/品牌，帮助企业锁定精准用户，提高在线咨询和转化，使成都网站营销成为有效果、有回报的无锡营销推广。成都创新互联专业成都网站建设10年了，客户满意度97.8%，欢迎成都创新互联客户联系。

1. 前言

众所周知，Python 最流行的爬虫框架是 Scrapy，它主要用于爬取网站结构性数据

今天推荐一款更加简单、轻量级，且功能强大的爬虫框架：feapder

项目地址：

https://github.com/Boris-code/feapder

2. 介绍及安装

和 Scrapy 类似，feapder 支持轻量级爬虫、分布式爬虫、批次爬虫、爬虫报警机制等功能

内置的 3 种爬虫如下：

AirSpider

轻量级爬虫，适合简单场景、数据量少的爬虫

Spider

分布式爬虫，基于 redis，适用于海量数据，并且支持断点续爬、自动数据入库等功能

BatchSpider

分布式批次爬虫，主要用于需要周期性采集的爬虫

在实战之前，我们在虚拟环境下安装对应的依赖库

# 安装依赖库  pip3 install feapder

3. 实战一下

我们以最简单的 AirSpider 来爬取一些简单的数据

目标网站：aHR0cHM6Ly90b3BodWIudG9kYXkvIA==

详细实现步骤如下（ 5 步）

3-1 创建爬虫项目

首先，我们使用「 feapder create -p 」命令创建一个爬虫项目

# 创建一个爬虫项目  feapder create -p tophub_demo

3-2 创建爬虫 AirSpider

命令行进入到 spiders 文件夹目录下，使用「 feapder create -s 」命令创建一个爬虫

cd spiders  # 创建一个轻量级爬虫  feapder create -s tophub_spider 1

其中

1 为默认，表示创建一个轻量级爬虫 AirSpider
2 代表创建一个分布式爬虫 Spider
3 代表创建一个分布式批次爬虫 BatchSpider

3-3 配置数据库、创建数据表、创建映射 Item

以 MySQL 为例，首先我们在数据库中创建一张数据表

# 创建一张数据表  create table topic  (      id         int auto_increment          primary key,      title      varchar(100)  null comment '文章标题',      auth       varchar(20)   null comment '作者',      like_count     int default 0 null comment '喜欢数',      collection int default 0 null comment '收藏数',      comment    int default 0 null comment '评论数'  );

然后，打开项目根目录下的 settings.py 文件，配置数据库连接信息

# settings.py  MYSQL_IP = "localhost"  MYSQL_PORT = 3306  MYSQL_DB = "xag"  MYSQL_USER_NAME = "root"  MYSQL_USER_PASS = "root"

最后，创建映射 Item（可选）

进入到 items 文件夹，使用「 feapder create -i 」命令创建一个文件映射到数据库

PS：由于 AirSpider 不支持数据自动入库，所以这步不是必须

3-4 编写爬虫及数据解析

第一步，首先使「 MysqlDB 」初始化数据库

from feapder.db.mysqldb import MysqlDB  class TophubSpider(feapder.AirSpider):      def __init__(self, *args, **kwargs):          super().__init__(*args, **kwargs)          self.db = MysqlDB()

第二步，在 start_requests 方法中，指定爬取主链接地址，使用关键字「download_midware 」配置随机 UA

import feapder  from fake_useragent import UserAgent  def start_requests(self):      yield feapder.Request("https://tophub.today/", download_midware=self.download_midware)  def download_midware(self, request):      # 随机UA      # 依赖：pip3 install fake_useragent      ua = UserAgent().random      request.headers = {'User-Agent': ua}      return request

第三步，爬取首页标题、链接地址

使用 feapder 内置方法 xpath 去解析数据即可

def parse(self, request, response):      # print(response.text)      card_elements = response.xpath('//div[@class="cc-cd"]')      # 过滤出对应的卡片元素【什么值得买】      buy_good_element = [card_element for card_element in card_elements if                          card_element.xpath('.//div[@class="cc-cd-is"]//span/text()').extract_first() == '什么值得买'][0]      # 获取内部文章标题及地址      a_elements = buy_good_element.xpath('.//div[@class="cc-cd-cb nano"]//a')      for a_element in a_elements:          # 标题和链接          title = a_element.xpath('.//span[@class="t"]/text()').extract_first()          href = a_element.xpath('.//@href').extract_first()          # 再次下发新任务，并带上文章标题          yield feapder.Request(href, download_midware=self.download_midware, callback=self.parser_detail_page,                                titletitle=title)

第四步，爬取详情页面数据

上一步下发新的任务，通过关键字「 callback 」指定回调函数，最后在 parser_detail_page 中对详情页面进行数据解析

def parser_detail_page(self, request, response):      """      解析文章详情数据      :param request:      :param response:      :return:      """      title = request.title      url = request.url      # 解析文章详情页面，获取点赞、收藏、评论数目及作者名称      author = response.xpath('//a[@class="author-title"]/text()').extract_first().strip()      print("作者：", author, '文章标题:', title, "地址：", url)      desc_elements = response.xpath('//span[@class="xilie"]/span')      print("desc数目:", len(desc_elements))      # 点赞      like_count = int(re.findall('\d+', desc_elements[1].xpath('./text()').extract_first())[0])      # 收藏     collection_count = int(re.findall('\d+', desc_elements[2].xpath('./text()').extract_first())[0])      # 评论      comment_count = int(re.findall('\d+', desc_elements[3].xpath('./text()').extract_first())[0])      print("点赞：", like_count, "收藏:", collection_count, "评论:", comment_count)

3-5 数据入库

使用上面实例化的数据库对象执行 SQL，将数据插入到数据库中即可

# 插入数据库  sql = "INSERT INTO topic(title,auth,like_count,collection,comment) values('%s','%s','%s','%d','%d')" % (  title, author, like_count, collection_count, comment_count)  # 执行  self.db.execute(sql)

4. 最后

本篇文章通过一个简单的实例，聊到了 feapder 中最简单的爬虫 AirSpider

感谢各位的阅读，以上就是“爬虫框架feapder的安装和使用”的内容了，经过本文的学习后，相信大家对爬虫框架feapder的安装和使用这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是创新互联，小编将为大家推送更多相关知识点的文章，欢迎关注！

新闻名称：爬虫框架feapder的安装和使用
浏览地址：http://cdkjz.cn/article/jpdpgo.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

爬虫框架feapder的安装和使用

1. 前言

2. 介绍及安装

3. 实战一下

4. 最后

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

爬虫框架feapder的安装和使用

1. 前言

2. 介绍及安装

3. 实战一下

4. 最后

相关资讯

腾讯高性能云服务器价格 腾讯云服务器选购

阿里云服务器怎么升级php 阿里云服务器怎么升级配置

怎么找腾讯云服务器 如何查看腾讯云服务器的ip地址

csgo电脑不能在安全服务器 csgo电脑不能在安全服务器登录

阿里云服务器苹果cms 阿里云 iohang

快速排序java代码讲解 java实现快速排序算法代码实例

802.11ac的路由器 80211ax路由器

帝国cms后门 帝国cms到底好不好

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

腾讯高性能云服务器价格腾讯云服务器选购

怎么找腾讯云服务器如何查看腾讯云服务器的ip地址

帝国cms后门帝国cms到底好不好

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接