从品牌网站建设到网络营销策划,从策略到执行的一站式服务
对于爬虫,很多伙伴首选的可能就是Python了吧,我们在学习Python爬虫的时候得有侧重点,这篇文章教大家如何快速掌握 Python爬虫的核心!有不清楚的地方,可以留言!
创新互联专注为客户提供全方位的互联网综合服务,包含不限于成都网站设计、成都网站建设、饶平网络推广、微信小程序、饶平网络营销、饶平企业策划、饶平品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联为所有大学生创业者提供饶平建站搭建服务,24小时服务热线:18982081108,官方网址:www.cdcxhl.com
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。下载图片的步骤如下:
(1)获取网页html文本内容;
(2)分析html中图片的html标签特征,用正则解析出所有的图片url链接列表;
(3)根据图片的url链接列表将图片下载到本地文件夹中。
#!/usr/bin/python # coding:utf-8 # 实现一个简单的爬虫,爬取百度贴吧图片 import urllib import re # 根据url获取网页html内容 def getHtmlContent(url): page = urllib.urlopen(url) return page.read() # 从html中解析出所有jpg图片的url # 百度贴吧html中jpg图片的url格式为: def getJPGs(html): # 解析jpg图片url的正则 jpgReg = re.compile(r'运行上面脚本,过几秒种之后完成下载,可以在当前目录下看到图片已经下载好了:
3. requests + re实现
下面用requests库实现下载,把getHtmlContent和downloadJPG函数都用requests重新实现。
#!/usr/bin/python # coding:utf-8 # 实现一个简单的爬虫,爬取百度贴吧图片 import requests import re # 根据url获取网页html内容 def getHtmlContent(url): page = requests.get(url): return page.text # 从html中解析出所有jpg图片的url # 百度贴吧html中jpg图片的url格式为: def getJPGs(html): # 解析jpg图片url的正则 jpgReg = re.compile(r'输出:和前面一样。
希望这次简单的python爬虫小案例能帮到初入 Python爬虫的你!
关注并回复Python爬虫,可领取全套Python爬虫视频教程,或者私信我也可以哦!
分享文章:Python爬虫:如何快速掌握Python爬虫核心技术,批量爬取网络图片
网站URL:http://cdkjz.cn/article/gpoddj.html
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图