python网络爬虫的示例分析-创新互联-快上网网站建设公司

python网络爬虫的示例分析-创新互联

这篇文章主要为大家展示了“python网络爬虫的示例分析”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“python网络爬虫的示例分析”这篇文章吧。

成都创新互联网站建设由有经验的网站设计师、开发人员和项目经理组成的专业建站团队，负责网站视觉设计、用户体验优化、交互设计和前端开发等方面的工作，以确保网站外观精美、成都网站建设、成都网站设计易于使用并且具有良好的响应性。

（一）三种网页抓取方法

1、正则表达式：

模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。

2、Beautiful Soup

模块使用Python编写，速度慢。

安装：

pip install beautifulsoup4

3、 Lxml

模块使用C语言编写，即快速又健壮，通常应该是最好的选择。

（二） Lxml安装

pip install lxml

如果使用lxml的css选择器，还要安装下面的模块

pip install cssselect

（三）使用lxml示例

import urllib.request as re
import lxml.html
#下载网页并返回HTML
def download(url,user_agent='Socrates',num=2):
  print('下载:'+url)
  #设置用户代理
  headers = {'user_agent':user_agent}
  request = re.Request(url,headers=headers)
  try:
    #下载网页
    html = re.urlopen(request).read()
  except re.URLError as e:
    print('下载失败'+e.reason)
    html=None
    if num>0:
      #遇到5XX错误时，递归调用自身重试下载，最多重复2次
      if hasattr(e,'code') and 500<=e.code<600:
        return download(url,num-1)
  return html
html = download('https://tieba.baidu.com/p/5475267611')
#将HTML解析为统一的格式
tree = lxml.html.fromstring(html)
# img = tree.cssselect('img.BDE_Image')
#通过lxml的xpath获取src属性的值，返回一个列表
img = tree.xpath('//img[@class="BDE_Image"]/@src')
x= 0
#迭代列表img,将图片保存在当前目录下
for i in img:
  re.urlretrieve(i,'%s.jpg'%x)
  x += 1

以上是“python网络爬虫的示例分析”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注创新互联成都网站设计公司行业资讯频道！

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

名称栏目：python网络爬虫的示例分析-创新互联
本文网址：http://cdkjz.cn/article/iogsi.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python网络爬虫的示例分析-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python网络爬虫的示例分析-创新互联

相关资讯

php数据库行 php实现数据库查询

linux加密解密命令 linux代码加密工具

linux命令寻找目录 linux中查找目录命令

mmc命令linux mmc命令查询

数据库php环境 php的数据库配置在哪

php守护进程导入数据 守护进程代码

腾讯云服务器云解析修改 腾讯云解析域名

java代码效率优化 java怎么优化代码减少内存

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

php守护进程导入数据守护进程代码

腾讯云服务器云解析修改腾讯云解析域名

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接