scrapy实战中怎样爬取表情包-快上网网站建设公司

scrapy实战中怎样爬取表情包

本篇文章为大家展示了scrapy实战中怎样爬取表情包，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

公司主营业务：成都网站设计、成都网站制作、移动网站开发等业务。帮助企业客户真正实现互联网宣传，提高企业的竞争能力。创新互联建站是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化，感谢他们对我们的高要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联建站推出开原免费做网站回馈大家。

一、爬取表情包思路（http://www.doutula.com）

1、打开网站，点击最新套图

2、之后我们可以看到没有套图，我们需要提取每个套图的连接

3、获取连接之后，进入页面提取图片就好了

4、我们可以发现该网站还穿插有广告，我们需要过滤点广告

二、实战

关于新建项目我们就不再多说了。不知道的可以看看以前文章。。。

1、首先我们提取第一页的url

scrapy实战中怎样爬取表情包

通过上图我们可以发现我们想要的url全在class名为col-sm-9的div下，

红色框的部分为广告。不是a标签，所以我们就不用过滤了。我们直接选取col-sm-9下的直接子节点即可

写下如下代码：

scrapy实战中怎样爬取表情包

值得注意的是在settings.py中需要添加头信息和将robots.txt协议修改为False

scrapy实战中怎样爬取表情包

我们打上断点调试一下：

scrapy实战中怎样爬取表情包

我们发现我们想要的信息已经提取出来了。

注意：在Request中的mate参数，是用来传递参数的，传递给下一个方法使用。使用方法和字典相似。

2、完善item

我们只需要三个字段，什么系列，图片url，图片名称。

scrapy实战中怎样爬取表情包

3、提取item中我们需要的字段

scrapy实战中怎样爬取表情包

4、下一页

scrapy实战中怎样爬取表情包

5、保存

因为对scrapy保存图片没有研究，所以就自己写保存图片的方法。

在pipelines.py种添加如下代码：

scrapy实战中怎样爬取表情包并且在settings.py中添加：

scrapy实战中怎样爬取表情包

6、运行

直接报错，因为有反扒机制，所以我们在settings.py添加头信息

运行一段时候后又报错了，看来需要随机更换表头信息。

这里我们使用第三方库很方便，pip3 install fake_useragent

安装成功后我们在middlewares.py中导入：from fake_useragent import UserAgent

添加如下代码：

scrapy实战中怎样爬取表情包

在settings.py文件中添加

scrapy实战中怎样爬取表情包

即可

运行main文件：

scrapy实战中怎样爬取表情包

即可。

小结：

效果图：

scrapy实战中怎样爬取表情包

问题：

在运行过程中遇到了四个问题：

1、没有获取大到图片连接：

可能这个网站有两个版本获取的css方式不一样。

解决方法：可以使用xpath中的|（或）来解决

2、没有获取到图片名称

解决方法：同上

3、图片名称相同

解决方法：可以使用md5加密后添加，你也可以使用你自己的方法

4、在图片名中含有？/\等非法字符

解决方法：可以通过正则过滤，如果md5加密，那么一下解决两个问题。

虽然有些图片没有获取到，但是还是爬取了很多。

上述内容就是scrapy实战中怎样爬取表情包，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注创新互联行业资讯频道。

本文标题：scrapy实战中怎样爬取表情包
本文URL：http://cdkjz.cn/article/gpisgs.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

scrapy实战中怎样爬取表情包

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

scrapy实战中怎样爬取表情包

相关资讯

HTML中新属性audio和video怎么用-创新互联

文献书籍管理软件BookendsforMac怎么用-创新互联

cad清理图层命令的使用方法-创新互联

apachetomcat指的是什么意思-创新互联

使用struts2实现一个文件上传功能并显示进度条-创新互联

c++字符串分割，包含空格和一些特殊汉字-创新互联

MySQL数据库基础知识-创新互联

Python中切片怎么用-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接