网站建设 >

查看其它板块

爬虫简单总结！-创新互联

执行Python程序

执行入门编程代码“Hello，World！”，用Python输出“Hello，World！”

创新互联公司服务项目包括肥东网站建设、肥东网站制作、肥东网页制作以及肥东网络营销策划等。多年来，我们专注于互联网行业，利用自身积累的技术优势、行业经验、深度合作伙伴关系等，向广大中小型企业、政府机构等提供互联网行业的解决方案，肥东网站推广取得了明显的社会效益与经济效益。目前，我们服务的客户以成都为中心已经辐射到肥东省份的部分城市，未来相信会继续扩大服务区域并继续获得客户的支持与信任！

#！/usr/bin/env/python
prent （"Hello,World！"）

    #!/usr/bin/python             是告诉操作系统执行这个脚本的时候，调用 /usr/bin 下的 python 解释器。这种用法是为了防止操作系统用户没有将 python 装在默认的 /usr/bin 路径里。当系统看到这一行的时候，首先会到 env 设置里查找 python 的安装路径，再调用对应路径下的解释器程序完成操作。

常用的第三方库

requests：是一个常用的用于http请求的模块，它使用python语言编写，
可以方便的对网页进行爬取，是学习python爬虫的较好的http
请求模块。

BeautifulSoup：是编写 python 爬虫常用库之一，主要用来解析 html
标签

import josn: 是一种轻量级的数据交换格式，易于人阅读和编写。

xwlt: 这是一个开发人员用来生成与微软Excel版本95到2003兼容的电子表格
文件的库。

mongo: 非关系型数据库
链接数据库：
./mongod *&
./mongo
pymongo

import os: OS: 模块简单的来说它是一个Python的系统编程的操作模块，
可以处理文件和目录这些我们日常手动需要做的操作。

import sys: sys模块包含了与Python解释器和它的环境有关的函数。

from pc1 import*: 导入模块，每次使用模块中的函数，直接使用函数就
可以了。注:因为已经知道该函数是那个模块中的了。

爬虫！

    1. 访问网站，拿到html网页 
    2. 提取html中我们 想要的内容 
    3. 把我们 爬到的内容 存到 数据库

下面要从网页上爬下照片到我们的数据库中！

#!/usr/bin/env python
#encoding=utf-8

用来说明你的Python源程序文件用使用的编码。缺省情况下你的程序需要使用ascii码来写，但如果在其中写中文的话，python解释器一般会报错，但如果加上你所用的文件编码，python就会自动处理不再报错。

import requests
from bs4 import BeautifulSoup
import os
url = 'http://www.stallman.org/photos/rms-working/pages/{}.html'

导入我们需要的模块及网站！

def spider(url):
list_n = range(1,149)
base_url = 'http://www.stallman.org/photos/rms-working/'

标签为页面上的所有链接规定默认地址或默认目标。

通常情况下，浏览器会从当前文档的 URL 中提取相应的元素来填写相对 URL 中的空白。

使用标签可以改变这一点。浏览器随后将不再使用当前文档的 URL，而使用指定的基本 URL 来解析所有的相对 URL。这其中包括、、、

标签中的 URL。

for i in list_n:
          print i  
          url_req = url.format(str(i))
          print url

建立一个循环，将我们要访问的网站页数作为变量（i），带入到我们的网站中

    res = requests.get(url_req,timeout=5)
    html = res.content
    soup = BeautifulSoup(html, 'html.parser')
    img = soup.find('img')
    src =  img.get('src')

访问网站， timeout=5 ，5S后没有反应是终止；
将网站内容带入到html中；
将html中的内容用bs4中的BeautifulSoupbianyi编译成超链接文本，方便我们查找需要的内容。（也可以不进行编译，不过接下来我们只能用正则表达式的方式查找。及其麻烦）并且带入到soup中；
在我们刚才得到的soup中查找图片链接（imp）；
将找到的图片写入src中。

   url_image = base_url + src.split('../')[1]
   os.system('wget %s' % url_image)

将我们得到的src和之前输入的网址连接，就得到我们要爬的内容了（../ ：返回上级，也就是url中../rms-working/一级）；
然后我们就可以用os命令下载了！

奈斯！！！！！！！！

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

当前文章：爬虫简单总结！-创新互联
当前链接：http://cdkjz.cn/article/ceejjc.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

清舞人间 wjzwz.com seo关键词优化温江服务器托管成都营销型网站建设成都网站建设成都棕数机房网络口碑营销成都体系认证网站解决方案

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

爬虫简单总结！-创新互联

执行Python程序

常用的第三方库

爬虫！

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

爬虫简单总结！-创新互联

执行Python程序

常用的第三方库

爬虫！

相关资讯

linux命令文件加锁的简单介绍

ios11.1开发者版本 ios开发者版本怎么变成正式版

ps命令linux PS命令与征服秘籍

android计步器原理 手机软件计步器原理

搜索提示html5 搜索提示怎么关闭

android++7.0 Android70升级包

html5监控直播代码 移动端h5网站直播源码

清空电脑文件的快捷键是哪个键的简单介绍

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

android计步器原理手机软件计步器原理

html5监控直播代码移动端h5网站直播源码

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接