从品牌网站建设到网络营销策划,从策略到执行的一站式服务
本篇文章给大家分享的是有关如何在python中提取PDF文本,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
做网站、成都网站制作的关注点不是能为您做些什么网站,而是怎么做网站,有没有做好网站,给创新互联一个展示的机会来证明自己,这并不会花费您太多时间,或许会给您带来新的灵感和惊喜。面向用户友好,注重用户体验,一切以用户为中心。首先,我们读入一些模块,以进行文件操作。
import glob import os
演示目录下,有两个文件夹,分别是pdf和newpdf。
我们指定 pdf 文件所在路径为其中的pdf文件夹。
pdf_path = "pdf/"
我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。
pdfs = glob.glob("{}/*.pdf".format(pdf_path))
看看我们获得的 pdf 文件路径是否正确。
pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf', 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf', 'pdf/面向人机协同的移动互联网政务门户探析.pdf']
经验证。准确无误。
下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。
from pdf_extractor import extract_pdf_content
用这个函数,我们尝试从 pdf 文件列表中的第一篇里,抽取内容,并且把文本保存在 content 变量里。
content = extract_pdf_content(pdfs[0])
显然,内容抽取并不完美,页眉页脚等信息都混了进来。不过,对于我们的许多文本分析用途来说,这无关紧要。
以上就是如何在python中提取PDF文本,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图