Python爬虫中获取百科段子的案例-创新互联-快上网网站建设公司

Python爬虫中获取百科段子的案例-创新互联

这篇文章将为大家详细讲解有关Python爬虫中获取百科段子的案例，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

创新互联专注为客户提供全方位的互联网综合服务，包含不限于成都网站制作、网站设计、伽师网络推广、重庆小程序开发公司、伽师网络营销、伽师企业策划、伽师品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们大的嘉奖；创新互联为所有大学生创业者提供伽师建站搭建服务，24小时服务热线：18980820575，官方网址：www.cdcxhl.com

糗事百科在前一段时间进行了改版，导致之前的代码没法用了，会导致无法输出和 CPU 占用过高的情况，是因为正则表达式没有匹配到的缘故。现在，博主已经对程序进行了重新修改，代码亲测可用。

首先我们确定好页面的URL。初步构建如下的代码来打印页面代码内容试试看，先构造最基本的页面抓取方式，看看会不会成功。

# -*- coding:utf-8 -*-
import urllib
import urllib2
 
 
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

运行程序，哦不，它竟然报错了，真是时运不济，命途多舛啊

line 373, in _read_status
 raise BadStatusLine(line)
httplib.BadStatusLine: ''

好吧，应该是 headers 验证的问题，我们加上一个 headers 验证试试看吧，将代码修改如下

# -*- coding:utf-8 -*-
import urllib
import urllib2
 
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

嘿嘿，这次运行终于正常了，打印出了第一页的 HTML 代码，大家可以运行下代码试试看。在这里运行结果太长就不贴了。

关于Python爬虫中获取百科段子的案例就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

当前题目：Python爬虫中获取百科段子的案例-创新互联
标题链接：http://cdkjz.cn/article/deidcs.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python爬虫中获取百科段子的案例-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python爬虫中获取百科段子的案例-创新互联

相关资讯

python里all函数,python中all函数和any函数

nosql最佳储存数据,nosql数据库使用更加方便

go语言开发可执行程序,go语言能开发什么程序

oracle二进制怎么存,oracle数据库二进制文件

支持NoSQL的搜索引擎,nosql查询

python常用内建函数,python常用内建函数和第三方函数

哪里有macos系统的简单介绍

nosql好友关系,nosql是关系型还是非关系型

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接