从品牌网站建设到网络营销策划,从策略到执行的一站式服务
这篇文章主要介绍了新手爬虫采集时容易碰到的问题有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
我们提供的服务有:成都网站建设、成都网站设计、微信公众号开发、网站优化、网站认证、靖西ssl等。为数千家企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的靖西网站制作公司
1、编码问题。
网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:content = content.decode('gbk', 'ignore') #将gbk编码转为unicode编码。
content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码
中间出现了unicode编码,我们需要转为中间编码unicode,才能向gbk或者utf-8转换。
2、增量爬取。
增量爬行是爬虫不重复下载下载的内容。为了实现增量爬行,我们需要使用一个新的概念——网址池。网址池用于统一管理所有网址。我们通过网址池记录我们的python爬虫访问过哪些内容,以避免重复。网址池的用途也可以实现断点续爬等。断点续爬是让之前没有爬过的网址继续爬虫。
3、爬虫被禁止。
爬虫会给服务器带来很大的负载,所以很多服务器会限制爬虫,甚至禁用爬虫。众所周知,要构建合理的http访问头,比如user-agent域的值。但是,还有很多其他避免被禁止的问题,比如放慢爬虫的访问速度,让爬虫的访问路径与用户的访问路径一致,采用动态ip地址等等。
感谢你能够认真阅读完这篇文章,希望小编分享的“新手爬虫采集时容易碰到的问题有哪些”这篇文章对大家有帮助,同时也希望大家多多支持创新互联,关注创新互联行业资讯频道,更多相关知识等着你来学习!
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图