从品牌网站建设到网络营销策划,从策略到执行的一站式服务
爬取网站为:http://xiaohua.zol.com.cn/youmo/
查看网页机构,爬取笑话内容时存在如下问题:
1、每页需要进入“查看更多”链接下面网页进行进一步爬取内容每页查看更多链接内容比较多,多任务进行,这里采用线程池的方式,可以有效地控制系统中并发线程的数量。避免当系统中包含有大量的并发线程时,导致系统性能下降,甚至导致 Python 解释器崩溃,引入线程池,花费时间更少,更效率。
2、查看链接笑话页内容,div元素内部文本分布比较混乱。有的分布在
链接内有的属于div的文本,可采用正则表达式的方式解决。
注意2种获取元素节点的方式:
1)lxml获取节点字符串
res=requests.get(url,headers=headers) html = res.text lxml 获取节点写法 element=etree.HTML(html) divEle=element.xpath("//div[@class='article-text']")[0] # 获取div节点 div= etree.tostring(divEle, encoding = 'utf-8' ).decode('utf-8') # 转换为div字符串
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图