网站建设 >

查看其它板块

一个完整的爬虫入门程序-创新互联

直接先说准备工作：
(1)清楚爬虫工作的流程：

创新互联长期为近1000家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为莎车企业提供专业的成都网站建设、成都网站制作，莎车网站改版等技术服务。拥有10年丰富建站经验和众多成功案例,为您定制开发。

向页面发出请求---------获取请求文件---------处理请求文件--------抽取自己想要的内容

(2)要用到的函数与库
主要是requests库：负责去向页面发出请求
beautiSoup4库：对抓取的页面文档进行解析
re库：匹配所需字段

可能存在的问题：
(1)编码的问题：注意页面中，以及读写的编码
(2)循环读取页面时注意页面访问地址的变化情况

完整代码：

import requests
from urllib3 import request
import re

class Spider:
    def __init__(self):
        # 初始化起始页位置
        self.page = 1
        #爬取开关，如果为True继续爬取
        self.switch = True

    def loadPage(self):
        """
            作用：下载页面
        """
        print("正在下载数据....")
                #这个页面的下载规则
        url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"
        headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
        response = requests.get(url, headers = headers)
                #处理编码
        response.encoding=response.apparent_encoding

        #获取每页的HTML源码字符串
        html = response.text

        #创建正则表达式规则对象，匹配每页里的段子内容，re.S 表示匹配全部字符串内容
        pattern = re.compile('(.*?)

', re.S)

        #将正则匹配对象应用到html源码字符串里，返回这个页面里的所有段子的列表
        content_list = pattern.findall(html)

        #调用dealPage() 处理段子里的杂七杂八
        self.dealPage(content_list)

    def dealPage(self, content_list):
        """
            处理每页的段子
            content_list : 每页的段子列表集合
        """
        for item in content_list:
            # 将集合里的每个段子按个处理，替换掉无用数据
            item = item.replace("","").replace("
", "").replace("
", "")

            #处理完后调用writePage() 将每个段子写入文件内
            self.writePage(item)

    def writePage(self, item):
        """
            把每条段子逐个写入文件里
            item: 处理后的每条段子
        """
        #写入文件内
        print("正在写入数据....")
                #编码的处理
       with open(r"duanzi1.txt", "a",encoding="utf-8") as f:
            f.write(item)

    def startWork(self):
        """
            控制爬虫运行
        """
        #循环执行，直到 self.switch == False
       while self.switch:
            # 用户确定爬取的次数
            self.loadPage()
            command =input("如果继续爬取，请按回车（退出输入quit)")
            if command == "quit":
                # 如果停止爬取，则输入 quit
                self.switch = False
            #每次循环，page页码自增
            self.page += 1
        print("谢谢使用！")

if __name__ == "__main__":
    duanziSpider = Spider()
    duanziSpider.startWork()

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

新闻标题：一个完整的爬虫入门程序-创新互联
分享路径：http://cdkjz.cn/article/dcooii.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都app制作成都柴油发电机组盐亭网站制作公司宜宾做网站成都标识标牌设计制作托管服务器成都网站制作高防机房鸿艺文化传播柔性防护网

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

一个完整的爬虫入门程序-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

一个完整的爬虫入门程序-创新互联

相关资讯

分析短视频运营思路

宜昌短视频拍摄运营公司

江门抖音直播代运营公司

视频号公众号一起运营的美妆博主,美妆博主都在哪些平台发视频

短视频运营怎么提升业绩

如何进行短视频用户运营

抖音代运营南昌

杭州抖音滋补品代运营商

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接