网站建设 >

查看其它板块

Python如何利用PyPDF2快速拆分PDF文档

这篇文章主要讲解了“Python如何利用PyPDF2快速拆分PDF文档”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python如何利用PyPDF2快速拆分PDF文档”吧！

为定结等地区用户提供了全套网页设计制作服务，及定结网站建设行业解决方案。主营业务为成都网站设计、成都网站制作、外贸网站建设、定结网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

这个模块严格区分大小写，y是小写，其余大写

pip3 install PyPDF2

安装完成之后呢，在本地硬盘创建一个专门存放本项目的文件夹，我这里在的存放路径是 F:PythonPyPDF2，在F盘有个Python文件夹，在其中又创建了一个以这个模块命名的文件夹，来单独存放和与别的项目区分。

创建文件，准备PDF文档

Python如何利用PyPDF2快速拆分PDF文档

Django官网下载了他的帮助文档，这个文档足够大，1900多页，对于练手绝对够了，有需要的去官网下载，然后再创建一个PDFCF.py 的项目文件。

万事俱备，准备开拆

程序开始两行，写上下边这两句，第一句的意思是指定这个文件的运行程序，第二句是对这个文件的说明，这个的作用现在还看不出来，但如果你知道怎么批量化快速执行程序，你就知道了它的作用，这里不做赘述。

#! python
# PDFCF.py - pdf文件拆分程序

文档的拆分思路

不固定拆分成多少份，但固定每一份由多少页组成，然后来动态的计算拆分的份数，拆分思路有了，那么下来就是列出计算公式。

拆分的份数= 文档总页数 / 拆份每个pdf组成的页数

举个例子：

假如我们要拆分一个总页数为35页的pdf文档，按照每10页组成一个新文档，那么能拆分成多少份的计算公式如下：
3.5 = 35 / 10

这时候大家注意了，除不尽有余数0.5，说明什么？用这个例子来说就是拆分成3份还余下5页，那么遇到这种情况不管余数是几都得向前进1，才能完成整个拆分，这个文档拆分的结果就是，前3个文档每个由10页组成，第四个文档则由最后5页组成，能整除则结果直接就是拆分的份数。

python拆分计算公式：

if 35 % 10:        # 判断是否有余数
    35 // 10 + 1   # 取余数整数部分加1
else:
    0              # 能整除则直接返回0
  
# 将这个循环写到一行
4 = 35 // 10 + 1 if 35 % 10 else 0

具体怎么拆？

还是以这个35页的文档拆分为例：
循环遍历每一页数据 for num in range(35)，得到每一页的数据，之后再指定拆分页数范围进行拆分：

第一个文档从0--10，不包含10
第二个文档从10--20 ，不包含20
第三个文档从 20 -30，不包含30
第四个文档从30--35，不包含35

我们发现规律，每次遍历第一个数字的规律是一个文档的页数，乘以自己属于第几个便可以得到。第二个数我们发现没规律了，其实仔细观察也有规律，假如我们对拆分个数排序，这个例子就是1--4，第二个数字就是当前属于第几个拆分数乘以每个文档组成的页数（页数是固定的10）。
可是我们第一次遍历的时候从0开始，就让num变得不通用，那么我们改造一下从1开始遍历，range(1,35),从一开始遍历，基于range不包含本身最后一个的特性，这样遍历出来就少了一页文档，那么我们给他加1，变成

for num in range(1, 35+1)
第一个文档从10*(1-1)--10*1，不包含10
第二个文档从10*(2-1)--10*2 ，不包含20
第三个文档从 10*(3-1) -10*3, 不包含30
第四个文档从10(4-1)--35

具体遍历代码如下：

for num in range(1,35+1):
    pass
    for i in range(10 * (num-1), 10 * num if num != 4 else 35):
        pass

注意：当遍历到 num = 4（最后一个文档排序数时），直接返回总页数35就可以了，到这里遍历就结束了。这里为什么是总页数35 而不是35+1呢？是因为此次遍历我们是从0开始遍历的，页码从0开始，所以不需要加1了。

完整拆分程序：

import PyPDF2

# 打开一个可读的pdf对象
pdfReader = PyPDF2.PdfFileReader("django.pdf")
# 获取pdf总页数
pdfnums = pdfReader.numPages
# 每个拆分文档由多少页组成
innumber = 100
# 计算拆分份数
outnums = pdfnums // innumber + 1 if pdfnums % innumber else 0

for num in range(1,pdfnums):
    # 创建空白的pdf
    pdfWriter = PyPDF2.PdfFileWriter()
    # 提取指定页面范围
    for pageNum in range(innumber * (num - 1), innumber * num if num != outnums else pdfnums):
        # 获取到每一页的内容
        pageObj = pdfReader.getPage(pageNum)
        # 将每一页的内容添加到第一次循环创建的空白文档对象中
        pdfWriter.addPage(pageObj)
    # 保存并写入本地文件，并对每个文档重命名
    with open("PDFREAD %s" % num + ".pdf", "wb") as pdfOutputFile:
        pdfWriter.write(pdfOutputFile)

注意：上边这种拆分思路我个人感觉比较绕，如果你对Python列表的切边以及步长概念理解透彻的话，我觉得不需要这么复杂，只需要把总页码生成一个大列表，再把这个列表利用切片的方法拆分成多个小列表，之后每个拆分的pdf页码范围就是每个小列表第一个数--最后一个数+1，我把我用列表方法实现的代码也贴出来供大家参考。

列表拆分法实现拆分PDF

#! python
# PDFCF.py - pdf文件拆分程序

import PyPDF2
# import LISTCF

# 打开一个可读的pdf对象
pdfReader = PyPDF2.PdfFileReader("django.pdf")
# 获取pdf总页数
pdfnums = pdfReader.numPages
  

# 将总页码循环到一个列表中
pagenum_list = list(range(pdfnums))

n = 100

# 将总页码按照指定的个数分为多个小列表
page_list = [pagenum_list[i:i + n] for i in range(0, len(pagenum_list), n)]

for i in range(len(page_list)):
  # 创建一个空白的pdf
  pdfWriter = PyPDF2.PdfFileWriter()
  # 提取指定页面
  for pageNum in range(page_list[i][1], page_list[i][-1]+1):
    pageObj = pdfReader.getPage(pageNum)
    pdfWriter.addPage(pageObj)

  with open("PDFREAD %s" % i + ".pdf", "wb") as pdfOutputFile:
    pdfWriter.write(pdfOutputFile)

怎么用？

在项目文件夹内部按住Shift键，点击鼠标右键，选择在此处打开命令窗口，输入PDFCF.py，回车即可，根据自己的需求去更改 n 的值。

Python如何利用PyPDF2快速拆分PDF文档

感谢各位的阅读，以上就是“Python如何利用PyPDF2快速拆分PDF文档”的内容了，经过本文的学习后，相信大家对Python如何利用PyPDF2快速拆分PDF文档这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是创新互联，小编将为大家推送更多相关知识点的文章，欢迎关注！

分享标题：Python如何利用PyPDF2快速拆分PDF文档
网站网址：http://cdkjz.cn/article/iidgec.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都柴油发电机组维修网站维护报价微信小程序广安迈傲建站定制网站云南护栏打桩机成都营销网站建设光彩外墙景观大英网站建设成都网站推广

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python如何利用PyPDF2快速拆分PDF文档

创建文件，准备PDF文档

万事俱备，准备开拆

文档的拆分思路

python拆分计算公式：

具体怎么拆？

完整拆分程序：

列表拆分法实现拆分PDF

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python如何利用PyPDF2快速拆分PDF文档

创建文件，准备PDF文档

万事俱备，准备开拆

文档的拆分思路

python拆分计算公式：

具体怎么拆？

完整拆分程序：

列表拆分法实现拆分PDF

相关资讯

mysql怎么看年份 mysql怎么查时间

mysql怎么查日期 mysql查询日期格式

html5表白素材 html5表白动态网页

白鹫html5 白鹫先生

厦门html5培训 厦门前端培训机构

jquery图片缩率 jquery设置图片大小

js原生修改css样式 js如何修改css

怎么升级mysql 怎么升级鸿蒙系统

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

厦门html5培训厦门前端培训机构

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接