使用Puppeteer爬取微信文章的实现-创新互联-快上网网站建设公司

使用Puppeteer爬取微信文章的实现-创新互联

一朋友在群里问有没有什么办法能够一次性把这个链接里的文章保存下来。点开可以看到，其实就是一个文章合集。所以需求就是，把这个文档中的链接里的文章挨个保存下来。保存形式可以有很多种，可以是图片，也可以是网页。这里因为使用 puppeteer 库的原因，故选择保存格式格式为PDF。

公司主营业务：成都做网站、网站设计、移动网站开发等业务。帮助企业客户真正实现互联网宣传，提高企业的竞争能力。创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化，感谢他们对我们的高要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联推出德安免费做网站回馈大家。

需求解构

完成整个动作，主要分为这两个部分。获取文档内所有文章的链接；把每个链接里的内容保存为PDF文件。

对于获取链接，有两条路，一是使用request模块请求该网址获取文档；二是把网页保存到本地使用fs模块获取文档内容。拿到文档也就是整个HTML文档后，一开始没想到什么好法子来拿到全部文章链接。如果直接在网页那就好办，直接DOM的 quertSelectorAll API配合CSS选择器就可以非常方便地拿到所有 a 链接中的 href 属性。但这里是Node，是DOM外之地。又想到的是直接使用正则匹配，后来还是放弃了这个做法。在google搜了下才发现竟然忘了 cheerio 这个好东西。 cheerio 是一个专门为服务端设计的快速灵活而简洁得jQuery实现。

对于保存网页内容，我所知道的常规操作是保存为PDF文件，恰巧之前刚知道的 puppeteer 满足这样的需求。 puppeteer 是一个由 chrome devtools 团队维护的提供了控制chrome浏览器高级API的一个Node库。除去爬取网页内容保存为PDF文件外，它还可以作为服务端渲染的一个方案以及实现自动化测试的一个方案。

需求实现

获取链接

先上这部分代码

const getHref = function () {
 let file = fs.readFileSync('./index.html').toString()
 const $ = cheerio.load(file)
 let hrefs = $('#sam').find('a')
 for (e in hrefs) {
  if (hrefs[e].attribs && hrefs[e].attribs['href']) {
   hrefArr.push({
    index: e,
    href: hrefs[e].attribs['href']
   })
  }
 }
 fs.writeFileSync('hrefJson.json', JSON.stringify(hrefArr))
}

网站名称：使用Puppeteer爬取微信文章的实现-创新互联
链接URL：http://cdkjz.cn/article/diihsp.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

使用Puppeteer爬取微信文章的实现-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

使用Puppeteer爬取微信文章的实现-创新互联

相关资讯

ios开发免费下载,免费ios软件下载

C语言怎么引入三角函数,c语言中如何使用三角函数

关于windows绿地系统的信息

macos系统微信的简单介绍

mysql换行怎么样,mysql怎么让字符串换行

乘积函数python,乘积函数求微分法则

android现状,Android现状分析

nosql相关缓存,NoSql 数据存储

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接