网站建设 >

查看其它板块

怎么在Python中利用OCR对PDF图片进行识别-创新互联

本篇文章给大家分享的是有关怎么在Python中利用OCR对PDF图片进行识别，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

成都创新互联公司制作网站网页找三站合一网站制作公司,专注于网页设计,网站制作、成都做网站,网站设计,企业网站搭建,网站开发,建网站业务,680元做网站,已为上1000+服务,成都创新互联公司网站建设将一如既往的为我们的客户提供最优质的网站建设、网络营销推广服务!

使用场景

使用图片识别可以快速提取图片中的信息，方便高效。

Python并不能直接对PDF进行识别，所以如果是识别PDF的话，需要先将PDF转化为图片，然后再进行识别。

必备工具

Python

可以安装3.7及以上版本

tesseract-ocr

下载地址： https://github.com/UB-Mannheim/tesseract/wiki 使用新版本即可

需要用到的库

pip install pillow
pip install opencv-python
pip install fitz
pip install PyMuPDF
pip install pytesseract

代码示例

from PIL import Image
import os
import pytesseract 
import cv2 as cv
import fitz

def pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle):
  # 打开PDF文件
  pdf = fitz.open(pdfPath)
  # 逐页读取PDF
  for pg in range(0, pdf.pageCount):
    page = pdf[pg]
    # 设置缩放和旋转系数
    trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle)
    pm = page.getPixmap(matrix=trans, alpha=False)
    # 开始写图像
    pm.writePNG(imgPath+str(pg)+".png")
    #pm.writePNG(imgPath)
  pdf.close()
pdf_path ='D:/123.pdf'
img_path ='D:/123.png'
pdf_image(pdf_path,img_path,5,5,0)
# 依赖opencv
img=cv.imread(img_path)
text=pytesseract.image_to_string(Image.fromarray(img),lang='chi_tra')
# 不依赖opencv写法
# text=pytesseract.image_to_string(Image.open(img_path))
print(text)

以上就是怎么在Python中利用OCR对PDF图片进行识别，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。

本文题目：怎么在Python中利用OCR对PDF图片进行识别-创新互联
分享路径：http://cdkjz.cn/article/gdgic.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都移动服务器托管广汉柴油发电机四川服务器托管服务器租用蜀锦在线石膏隔墙 3D立体画 syruijie.cn led发光广告字重庆水土三线托管

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

怎么在Python中利用OCR对PDF图片进行识别-创新互联

使用场景

必备工具

代码示例

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

怎么在Python中利用OCR对PDF图片进行识别-创新互联

使用场景

必备工具

代码示例

相关资讯

利用Vulnhub复现漏洞-Couchdb垂直权限绕过-创新互联

浅谈python导入模块和解决文件句柄找不到问题-创新互联

Python开发的魔法方法有哪些-创新互联

如何利用Vue实现移动端图片轮播组件-创新互联

go语言中读取文本乱码怎么解决-创新互联

Linux下安装kettle7.1-创新互联

安装oracle-创新互联

优质的香港服务器该如何挑选-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接