Python———爬虫学习总结-创新互联-快上网网站建设公司

Python———爬虫学习总结-创新互联

首先这次学习的是利用写Python脚本对网页信息的获取，并且把他保存到我们的数据库里最后形成一个Excel表格

创新互联凭借在网站建设、网站推广领域领先的技术能力和多年的行业经验，为客户提供超值的营销型网站建设服务，我们始终认为：好的营销型网站就是好的业务员。我们已成功为企业单位、个人等客户提供了成都做网站、成都网站制作、成都外贸网站建设服务，以良好的商业信誉，完善的服务及深厚的技术力量处于同行领先地位。

下载第三方模块和源码安装MongoDB

刚开始我们需要做一些准备：
先安装第三方模块

Python———爬虫学习总结

https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz

Python———爬虫学习总结

思路如下：

1.访问网站，拿到html网页

headers获取：
Python———爬虫学习总结

脚本1：

运行前打开mongod :

             ./mongod &

Python———爬虫学习总结

2.提取html里面我们想要的内容

脚本2：
Python———爬虫学习总结

Python———爬虫学习总结

Long Jump 和 View Graph 是根据他们可以定位到我们想获取的信息的标签上

这个脚本写完不需要运行，他的url是由第三个脚本导入的

3.把我们爬到的内容存到数据库中

脚本3：

Python———爬虫学习总结

运行前都要检查MongoD是否运行，运行后可进入数据库去看我们存入的信息
在MongoDB的bin下

./mongo

use iaaf

db.athletes.find()

4.转成Excel表格

脚本4：

Python———爬虫学习总结

5.requests，pymongo，bs4的用法总结

requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到。可以说，Requests 完全满足如今网络的需求

1.作用：发送请求获取响应为什么使用requesst？
1)requests底层实现的是urllib2)requests在python2和python3中通用，方法完全一样
3）requests简单易用（python特性）
4）requests能够帮助我们解压响应内容（自动解压完善请求头，自动获取cookie）

发送简单的get请求、获取响应response = requests.get(url)

pymongo是python操作 mongodb的工具包

bs4概念：

bs4库是解析、遍历、维护、"标签树"的功能库
通俗一点说就是：bs4库把HTML源代码重新进行了格式化，
从而方便我们对其中的节点、标签、属性等进行操作
2.BS4的4中对象
①Tag对象：是html中的一个标签，用BeautifulSoup就能解析出来Tag的具体内容，具体
的格式为‘soup.name‘,其中name是html下的标签。
②BeautifulSoup对象：整个html文本对象，可当作Tag对象
③NavigableString对象：标签内的文本对象
④Comment对象：是一个特殊的NavigableString对象，如果html标签内存在注释，那么它可以过滤掉注释符号保留注释文本
最常用的还是BeautifulSoup对象和Tag对象

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

文章题目：Python———爬虫学习总结-创新互联
URL链接：http://cdkjz.cn/article/ihhgg.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python———爬虫学习总结-创新互联

下载第三方模块和源码安装MongoDB

1.访问网站，拿到html网页

2.提取html里面我们想要的内容

3.把我们爬到的内容存到数据库中

4.转成Excel表格

5.requests，pymongo，bs4的用法总结

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python———爬虫学习总结-创新互联

下载第三方模块和源码安装MongoDB

1.访问网站，拿到html网页

2.提取html里面我们想要的内容

3.把我们爬到的内容存到数据库中

4.转成Excel表格

5.requests，pymongo，bs4的用法总结

相关资讯

c语言里所有函数 c语言各种函数用法举例

帝国cms政府 帝国cms使用手册

包含sap系统文件架构的词条

腾讯云服务器登录内网 腾讯云服务器登录内网怎么登录

zblog下拉分类 zblog使用教程

c语言编程编写一个函数 c语言常用函数

帝国cms备份王怎么使用 帝国备份王还原数据库

go语言string类型 go语言字符串

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

帝国cms政府帝国cms使用手册

腾讯云服务器登录内网腾讯云服务器登录内网怎么登录

帝国cms备份王怎么使用帝国备份王还原数据库

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接