网站建设 >

查看其它板块

python爬虫爬取幽默笑话网站-创新互联

爬取网站为：http://xiaohua.zol.com.cn/youmo/

创新互联公司2013年开创至今，是专业互联网技术服务公司，拥有项目成都网站制作、网站设计网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元梧州做网站,已为上家服务,为梧州各地企业和个人服务,联系电话:18980820575

查看网页机构，爬取笑话内容时存在如下问题：

1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多，多任务进行，这里采用线程池的方式，可以有效地控制系统中并发线程的数量。避免当系统中包含有大量的并发线程时，导致系统性能下降，甚至导致 Python 解释器崩溃，引入线程池，花费时间更少，更效率。

创建线程池threadpool.ThreadPool()
创建需要线程池处理的任务即threadpool.makeRequests()，makeRequests存放的是要开启多线程的函数，以及函数相关参数和回调函数，其中回调函数可以不写（默认是无）。
将创建的多个任务put到线程池中,threadpool.putRequest()
等到所有任务处理完毕theadpool.pool()

2、查看链接笑话页内容，div元素内部文本分布比较混乱。有的分布在

链接内有的属于div的文本，可采用正则表达式的方式解决。

注意2种获取元素节点的方式：

1）lxml获取节点字符串

res=requests.get(url,headers=headers)
html = res.text
 
lxml 获取节点写法
element=etree.HTML(html)
divEle=element.xpath("//div[@class='article-text']")[0]  # 获取div节点
div= etree.tostring(divEle, encoding = 'utf-8' ).decode('utf-8') # 转换为div字符串

网页题目：python爬虫爬取幽默笑话网站-创新互联
本文来源：http://cdkjz.cn/article/heiid.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都响应式网站建设 tyruijie.cn 手机APP开发双流网站建设成都全网营销网站推广 led背发光字成都免费做网站公司成都服务器租用微信小程序开发

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python爬虫爬取幽默笑话网站-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python爬虫爬取幽默笑话网站-创新互联

相关资讯

ConcurrentHashMap如何在java项目中使用-创新互联

【呆子谈产品】：做产品的首要前提是要贴近人心-创新互联

Revit二次开发的解决方式-创新互联

第一讲、类和对象-------（2）-创新互联

tf.ConfigProto()如何在Tensorflow中使用-创新互联

怎么在vue中利用keep-alive实现数据缓存不刷新-创新互联

如何解决Ajax缓存问题-创新互联

死锁的概念以及发生死锁的缘由-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接