python使爬取小说观看的方法-快上网网站建设公司

python使爬取小说观看的方法

不懂python使爬取小说观看的方法？其实想解决这个问题也不难，下面让小编带着大家一起学习怎么去解决，希望大家阅读完这篇文章后大所收获。

创新互联公司坚持“要么做到，要么别承诺”的工作理念，服务领域包括：成都网站建设、成都做网站、企业官网、英文网站、手机端网站、网站推广等服务，满足客户于互联网时代的灵山网站设计、移动媒体设计的需求，帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴！

python使爬取的小说更利于观看的方法：

1、使用追加模式将文章写入txt文本

关于文件的写入， ‘w’ 的方式是覆盖写，没有就创建，那么我们写小说就不需要用这个，使用
‘a’ 追加写的模式，然后添加适当的分隔符，只有文本中添加目录，整个txt在手机中才会显示出目录的存在，我的实例如下：最好加点文字提示，代表这章节下载成功到总txt中 !

path = 'D://爬取小说//'
        os.chdir(path)  # 进入这个文件夹
        with open('酒神.txt', 'a+', encoding='utf-8') as fw:
            fw.write(''.join(items['title']) + '\n\n\n' + '- ' * 40)
            fw.write(''.join(items['text']))
        print(f'{items["title"]} 下载完成！')

2、使用xpath读取网页的文章内容

爬取小说这样的文字量很多的情况下，文字的处理显得极为重要了，爬取小说不推荐使用正则re，也不推荐使用soup，原因你获取不了网页自带的换行符和缩进符，比如 \xboo 之类的，如果你获取不了文本自带的这些，那么你就得自己添加，可以使用re的sub进行适当的替换换行，这就很麻烦，这里一定推荐使用xpath的text() 去匹配，方便快捷，爬小说的小助手！

text = html.xpath('//div[@id="content"]/text()')

3、添加sleep函数，降低爬取速度

为什么会出现这样的情况，高频发的请求网址，如果不是使用框架，那么就需要设置延迟时间了。比如sleep() 或者 request 加入参数 timeout ，不然很容易被网址通过请求次数进而识别出来这是一个爬虫程序，也就是非人类操作，那么他就可以不让你请求，从而你就爬虫失败！

r = requests.get(url, headers=self.headers) 
time.sleep(0.7)

完整代码如下：

# -*- coding :  utf-8 -*-
# @Time      :  2020/6/2  16:13
# @author    :  沙漏在下雨
# @Software  :  PyCharm
# @CSDN      :  https://me.csdn.net/qq_45906219
import requests
from lxml import etree
import os
import time
class Spider:
    def __init__(self):
        self.start_url = 'http://www.biquge.info/11_11079/'
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                                      'AppleWebKit/537.36 (KHTML, like Gecko)'
                                      ' Chrome/81.0.4044.129 Safari/537.36',
                        'Host': 'www.biquge.info',
                        'Referer': 'http://www.biquge.info/11_11079/5216668.html',
                        'Cookie': 'clickbids=11079; Hm_lvt_6dfe3c8f195b43b8e667a2a2e5936122=1591085546;'
                                  ' Hm_lvt_c979821d0eeb958aa7201d31a6991f34=1591085539,1591085553,1591085815; '
                                  'Hm_lpvt_6dfe3c8f195b43b8e667a2a2e5936122=1591087376; '
                                  'Hm_lpvt_c979821d0eeb958aa7201d31a6991f34=1591087377'}
    def get_page(self):
        """
        获得每一章节的网址
        yield 回去
        """
        r = requests.get(self.start_url, headers=self.headers)
        if r.status_code == 200:
            r.encoding = r.apparent_encoding
            html = etree.HTML(r.text)
            page_url = html.xpath('//div[@id="list"]/dl/dd/a/@href')
            for url in page_url[222:]:
                url = f'http://www.biquge.info/11_11079/{url}'
                yield url
    def save_text(self, items):
        """
        根据章节下载'
        """
        path = 'D://爬取小说//'
        os.chdir(path)  # 进入这个文件夹
        with open('酒神.txt', 'a+', encoding='utf-8') as fw:
            fw.write(''.join(items['title']) + '\n\n\n' + '- ' * 40)
            fw.write(''.join(items['text']))
        print(f'{items["title"]} 下载完成！')
    def parse_page_error(self, r):
        # 为处理异常：
        r.encoding = r.apparent_encoding
        html = etree.HTML(r.text)
        title = html.xpath('//div[@class="bookname"]/h2/text()')
        text = html.xpath('//div[@id="content"]/text()')
        items = {}
        items['title'] = title
        items['text'] = text
        self.save_text(items)
    def parse_page(self):
        """
        分析每一章节  然后下载, 次数过快 容易炸ip 三次保底请求 ！
        """
        for url in self.get_page():
            r = requests.get(url, headers=self.headers)
            time.sleep(0.7)
            if r.status_code == 200:
                self.parse_page_error(r)
            else:
                print(f'该 {url}未下载成功！ 再次请求')
                rr = requests.get(url, headers=self.headers)
                if rr.status_code == 200:
                    self.parse_page_error(rr)
                else:
                    print("第三次请求！")
                    rrr = requests.get(url, headers=self.headers)
                    self.parse_page_error(rrr)
        print('全部下载完成！')
jiushen = Spider()
jiushen.parse_page()

感谢你能够认真阅读完这篇文章，希望小编分享python使爬取小说观看的方法内容对大家有帮助，同时也希望大家多多支持创新互联，关注创新互联行业资讯频道，遇到问题就找创新互联，详细的解决方法等着你来学习!

本文名称：python使爬取小说观看的方法
转载注明：http://cdkjz.cn/article/pdecpo.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python使爬取小说观看的方法

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python使爬取小说观看的方法

相关资讯

您在阿里云的云服务器ecs实例的使用中 阿里云服务器出现了内部错误

阿里云tcp连接服务器 阿里云服务器tcp连接数

电脑没网怎么设置路由器 电脑没网怎么设置路由器设置

21日阿里云服务器故障 阿里云 故障

腾讯云服务器数据 腾讯云服务器数据保存多久

php实现每日清空数据 php清空数据库

php读取数据库列明 php读取mysql数据

帝国cms哪里改密码 帝国cms忘记密码

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

您在阿里云的云服务器ecs实例的使用中阿里云服务器出现了内部错误

阿里云tcp连接服务器阿里云服务器tcp连接数

电脑没网怎么设置路由器电脑没网怎么设置路由器设置

21日阿里云服务器故障阿里云故障

腾讯云服务器数据腾讯云服务器数据保存多久

帝国cms哪里改密码帝国cms忘记密码

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接