如何用BeautifulSoup4爬取小说资源-创新互联-快上网网站建设公司

如何用BeautifulSoup4爬取小说资源-创新互联

今天就跟大家聊聊有关如何用BeautifulSoup4爬取小说资源，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

镇海网站制作公司哪家好，找创新互联公司！从网页设计、网站建设、微信开发、APP开发、自适应网站建设等网站项目制作，到程序开发，运营维护。创新互联公司自2013年创立以来到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联公司。

随便找了一个小说网站,没有爬取文章内容,主要是理解一下BeautifulSoup4的使用方法,如果搞懂本文了,爬取文章都不是问题.

代码最后生成一个字典如下：

{'玄幻':[['书名1','作者1','书链接1'],
         ['书名2','作者2','书链接2']
       ],
 '恐怖':[['书名1','作者1','书链接1'],
         ['书名2','作者2','书链接2']
       ]
}

代码正文:

请安装requests和bs4(BeautifulSoup)

from bs4 import BeautifulSoup
import requests,sys
sys.setrecursionlimit(10000)  # 防止超出递归深度报错

Url_Index = 'http://m.pfwx.com'

r = requests.get(Url_Index)
r.encoding = 'utf-8'
content = r.text
soup = BeautifulSoup(content,features='html.parser')

target = soup.find('div',class_='nav') # 只获取第一个包含class='nav'属性的div标签
tar = target.find_all('a')  # 过滤出a标签

# 获取index的栏目
Index_Menu = {}
for so in tar:
    TEXT = so.get_text()
    HREF = Url_Index + so['href']       # 获取href属性的值
    Index_Menu[TEXT] = HREF

# 获取分类
Class_Page = Index_Menu['分类']
r = requests.get(url=Class_Page)
r.encoding = 'utf-8'
content = r.text
soup = BeautifulSoup(content,features='html.parser')
tag = soup.body.find_all('li',class_='prev')
Menu = {}
for so in tag:
    TEXT = so.get_text() # 获取文本
    HREF = so.a.attrs['href'] # 获取a标签中的href属性
    # 生成各个分类的Url
    Category_Url = Url_Index + HREF
    Menu[TEXT] = Category_Url

# 获取每种分类的书信息
for ClassName in Menu:
    Book_List = []
    def make(url):
        '''获取所有的书信息,并且交给函数IF判断是否还有下一页,如果有则继续获取书的信息'''
        r = requests.get(url=url)
        content = r.text
        soup = BeautifulSoup(content, features='html.parser')
        target = soup.find_all('a', class_='blue')
        for so in target:
            BookName = so.get_text()                        # 书名
            IMHOW_NAME = so.next_sibling.split('/')[1]  # 作者名
            HREF = Url_Index + so['href']               # 书的链接
            Book_List.append([BookName,IMHOW_NAME,HREF])

        Next_Page = soup.find('div', class_='page')
        IF(NextPage=Next_Page)

    def IF(NextPage):
        '''判断是否还有下一页,如果有则继续循环'''
        for Page in NextPage.find_all('a'):
            if Page.get_text() == '下页':
                '''判断如果还有下页,则继续获取书的信息'''
                Url = Url_Index + Page['href']
                make(url=Url)

    url=Menu[ClassName] # 获取当前分类的URL
    make(url) # 获取当前分类的所有书信息
    Menu[ClassName] = Book_List # 最后生成的信息都在这个字典里面;格式{'玄幻':[['书名1','作者1','书链接1'],['书名2','作者2','书链接2']]}

看完上述内容，你们对如何用BeautifulSoup4爬取小说资源有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

分享名称：如何用BeautifulSoup4爬取小说资源-创新互联
当前路径：http://cdkjz.cn/article/desepp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何用BeautifulSoup4爬取小说资源-创新互联

随便找了一个小说网站,没有爬取文章内容,主要是理解一下BeautifulSoup4的使用方法,如果搞懂本文了,爬取文章都不是问题.

代码最后生成一个字典如下：

代码正文:

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何用BeautifulSoup4爬取小说资源-创新互联

随便找了一个小说网站,没有爬取文章内容,主要是理解一下BeautifulSoup4的使用方法,如果搞懂本文了,爬取文章都不是问题.

代码最后生成一个字典如下：

代码正文:

相关资讯

HTML实现随意拖动内容位置

服务器对seo重要么？为什么seo们都对服务器挑剔

数字化冲击下IT部门脱颖而出为全新办公模式做好准备

云服务器还是独立服务器那个合适企业用户使用？

云虚拟主机怎么用，有哪些需要注意的？

“数”说北斗丨从起步到全球组网，北斗建设的“三步走”

【云计算】2020年云计算的十大新兴趋势

工业互联网：为制造业插上智慧双翼

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接