网站建设 >

查看其它板块

如何在python中提取PDF文本

本篇文章给大家分享的是有关如何在python中提取PDF文本，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

成都创新互联客户idc服务中心，提供服务器托管、成都服务器、成都主机托管、成都双线服务器等业务的一站式服务。通过各地的服务中心，我们向成都用户提供优质廉价的产品以及开放、透明、稳定、高性价比的服务，资深网络工程师在机房提供7*24小时标准级技术保障。

首先，我们读入一些模块，以进行文件操作。

import glob
import os

演示目录下，有两个文件夹，分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

pdf_path = "pdf/"

我们希望获得所有 pdf 文件的路径。用glob，一条命令就能完成这个功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看我们获得的 pdf 文件路径是否正确。

pdfs

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']

经验证。准确无误。

下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content

用这个函数，我们尝试从 pdf 文件列表中的第一篇里，抽取内容，并且把文本保存在 content 变量里。

content = extract_pdf_content(pdfs[0])

显然，内容抽取并不完美，页眉页脚等信息都混了进来。不过，对于我们的许多文本分析用途来说，这无关紧要。

以上就是如何在python中提取PDF文本，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。

网页名称：如何在python中提取PDF文本
网页链接：http://cdkjz.cn/article/jgecis.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

软文平台达州电信机房品牌网站定制成都网站设计成都网站优化移动手机网站制作眉山做网站佑馨产后护理联通机柜租用软文发布平台

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何在python中提取PDF文本

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何在python中提取PDF文本

相关资讯

如何在C语言中把int*转化为char*-创新互联

vscode有头文件不能编译怎么办-创新互联

swoole可不可以代替apache-创新互联

解决mysql两个主从不同步的办法-创新互联

PhoneGap中不支持viewport如何解决-创新互联

python中函数与方法有什么不同的地方-创新互联

用PHP编写Hadoop的MapReduce程序-创新互联

防止网站被入侵攻击的五个办法-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

如何在C语言中把int转化为char-创新互联

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接