Python———爬虫学习总结-快上网网站建设公司

Python———爬虫学习总结

首先这次学习的是利用写Python脚本对网页信息的获取，并且把他保存到我们的数据库里最后形成一个Excel表格

10年积累的成都网站制作、成都网站建设、外贸营销网站建设经验，可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你，你也不认识我。但先网站策划后付款的网站建设流程，更有连山免费网站建设让你可以放心的选择与我们合作。

下载第三方模块和源码安装MongoDB

刚开始我们需要做一些准备：
先安装第三方模块

Python———爬虫学习总结

https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz

Python———爬虫学习总结

思路如下：

1.访问网站，拿到html网页

headers获取：
Python———爬虫学习总结

脚本1：

运行前打开mongod :

             ./mongod &

Python———爬虫学习总结

2.提取html里面我们想要的内容

脚本2：
Python———爬虫学习总结

Python———爬虫学习总结

Long Jump 和 View Graph 是根据他们可以定位到我们想获取的信息的标签上

这个脚本写完不需要运行，他的url是由第三个脚本导入的

3.把我们爬到的内容存到数据库中

脚本3：

Python———爬虫学习总结

运行前都要检查MongoD是否运行，运行后可进入数据库去看我们存入的信息
在MongoDB的bin下

./mongo

use iaaf

db.athletes.find()

4.转成Excel表格

脚本4：

Python———爬虫学习总结

5.requests，pymongo，bs4的用法总结

requests是一个很实用的Python HTTP客户端库，编写爬虫和测试服务器响应数据时经常会用到。可以说，Requests 完全满足如今网络的需求

1.作用：发送请求获取响应为什么使用requesst？
1)requests底层实现的是urllib2)requests在python2和python3中通用，方法完全一样
3）requests简单易用（python特性）
4）requests能够帮助我们解压响应内容（自动解压完善请求头，自动获取cookie）

发送简单的get请求、获取响应response = requests.get(url)

pymongo是python操作 mongodb的工具包

bs4概念：

bs4库是解析、遍历、维护、"标签树"的功能库
通俗一点说就是：bs4库把HTML源代码重新进行了格式化，
从而方便我们对其中的节点、标签、属性等进行操作
2.BS4的4中对象
①Tag对象：是html中的一个标签，用BeautifulSoup就能解析出来Tag的具体内容，具体
的格式为‘soup.name‘,其中name是html下的标签。
②BeautifulSoup对象：整个html文本对象，可当作Tag对象
③NavigableString对象：标签内的文本对象
④Comment对象：是一个特殊的NavigableString对象，如果html标签内存在注释，那么它可以过滤掉注释符号保留注释文本
最常用的还是BeautifulSoup对象和Tag对象

分享文章：Python———爬虫学习总结
当前网址：http://cdkjz.cn/article/ihihpi.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python———爬虫学习总结

下载第三方模块和源码安装MongoDB

1.访问网站，拿到html网页

2.提取html里面我们想要的内容

3.把我们爬到的内容存到数据库中

4.转成Excel表格

5.requests，pymongo，bs4的用法总结

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python———爬虫学习总结

下载第三方模块和源码安装MongoDB

1.访问网站，拿到html网页

2.提取html里面我们想要的内容

3.把我们爬到的内容存到数据库中

4.转成Excel表格

5.requests，pymongo，bs4的用法总结

相关资讯

Css样式选择器重命名 css样式名称

阴影android 阴影是什么意思

css输入框提示样式 css输入框样式圆角

html5标签在哪里 html5source标签

mysql中的或者怎么用 mysqlwhen

如何去除某个css样式 如何去除某个css样式的属性

mysql简历怎么写 mysql简书

微信企业改定位怎么弄 微信企业位置怎么修改

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

如何去除某个css样式如何去除某个css样式的属性

微信企业改定位怎么弄微信企业位置怎么修改

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接