怎么解决pyPdf和pyPdf2在合并pdf时出现的错误-创新互联-快上网网站建设公司

怎么解决pyPdf和pyPdf2在合并pdf时出现的错误-创新互联

本篇内容介绍了“怎么解决pyPdf和pyPdf2在合并pdf时出现的错误”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

成都创新互联是专业的科尔沁网站建设公司，科尔沁接单;提供网站制作、网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行科尔沁网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

当一个pdf文件有多page的时候，它将出来见你！

方法是取直接修改那个文件generic.py

(1) pyPdf

路径大约在这里：

/usr/lib/python2.7/site-packages/pyPdf/generic.py

if data.has_key(key):
  # multiple definitions of key not permitted
  raise utils.PdfReadError, "multiple definitions in dictionary"
data[key] = value

大约在532--536行

将它修改为：

if not data.get(key):
 
 data[key] = value

（2）pyPdf2

路径大约在：

/usr/lib/python2.7/site-packages/PyPDF2/generic.py

if not data.get(key):
  data[key] = value
elif pdf.strict:
  # multiple definitions of key not permitted
  raise utils.PdfReadError("Multiple definitions in dictionary at byte %s for key %s" \
           % (utils.hexStr(stream.tell()), key))

修改为：

if not data.get(key):
  data[key] = value

补充知识：在Python里如何切分中文文本句子（分句）、英文文本分句（切分句子）

在处理文本时，会遇到需要将文本以句子为单位进行切分（分句）的场景，而文本又可以分为中文文本和英文文本，处理的方法会略有不同。本文会介绍 Python 是如何处理分句的。

分句的关键是找到合适的结束符号，比如：中文里的。，英文里的 . 等，而且，在这一点上中英也是有很大区分的。

这里介绍一种纯用 Python 实现的分句函数。

def cut_sentences(content):
	# 结束符号，包含中文和英文的
	end_flag = ['?', '!', '.', '？', '！', '。', '…']
	
	content_len = len(content)
	sentences = []
	tmp_char = ''
	for idx, char in enumerate(content):
		# 拼接字符
		tmp_char += char

		# 判断是否已经到了最后一位
		if (idx + 1) == content_len:
			sentences.append(tmp_char)
			break
			
		# 判断此字符是否为结束符号
		if char in end_flag:
			# 再判断下一个字符是否为结束符号，如果不是结束符号，则切分句子
			next_idx = idx + 1
			if not content[next_idx] in end_flag:
				sentences.append(tmp_char)
				tmp_char = ''
				
	return sentences

content = '在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同。

本文会介绍 Python 是如何处理 分句 的。

这个函数可以通过修改 end_flag （结束符号），来自定义特定的句子切分方式，比如加入；等符号。

当然，也可以用正则表达式来完成分句，使用 re.split 的方法。

import re

def cut_sentences(content):
	sentences = re.split(r'(\.|\!|\?|。|！|？|\.{6})', content)
	return sentences

content = content = '在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同。本文会介绍 Python 是如何处理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在处理文本时，会遇到需要将文本以 句子 为单位进行切分（分句）的场景，而文本又可以分为 中文文本 和 英文文本 ，处理的方法会略有不同

。

本文会介绍 Python 是如何处理 分句 的

。

这里还可以安利大家一个非常不错的处理中文标点符号的第三库： zhon，可以通过 pip install zhon 安装，功能也算非常丰富。

我们使用 zhon 来实现中文分句。

import re
import zhon

rst = re.findall(zhon.hanzi.sentence, '我买了一辆车。妈妈做的菜，很好吃！')
print(rst)

['我买了一辆车。', '妈妈做的菜，很好吃！']

大家可以阅读 zhon 的官方文档，了解更多的使用案例。

“怎么解决pyPdf和pyPdf2在合并pdf时出现的错误”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联成都网站设计公司网站，小编将为大家输出更多高质量的实用文章！

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

网站题目：怎么解决pyPdf和pyPdf2在合并pdf时出现的错误-创新互联
文章路径：http://cdkjz.cn/article/ccochi.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

怎么解决pyPdf和pyPdf2在合并pdf时出现的错误-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

怎么解决pyPdf和pyPdf2在合并pdf时出现的错误-创新互联

相关资讯

鸿蒙可以写java代码吗 鸿蒙支持java吗

最小公约数函数名称c语言 最小公约数计算c语言

哪些软件可以用智能聊天 哪些软件可以用触控笔

当下软件园帝国cms源码 当下软件园下载

go语言不通包调用 go语言遇到的坑

vb.net+进程+卡 vb多进程

怎么搜索的外网域名 如何搜索外网网站

php修改数据表数据库 如何通过php修改数据库中的数据

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

鸿蒙可以写java代码吗鸿蒙支持java吗

最小公约数函数名称c语言最小公约数计算c语言

哪些软件可以用智能聊天哪些软件可以用触控笔

当下软件园帝国cms源码当下软件园下载

怎么搜索的外网域名如何搜索外网网站

php修改数据表数据库如何通过php修改数据库中的数据

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接