资讯

精准传达 • 有效沟通

从品牌网站建设到网络营销策划,从策略到执行的一站式服务

如何在Linux上使用gImageReader从图像和PDF中提取文本

本篇文章为大家展示了如何在Linux上使用gImageReader从图像和PDF中提取文本,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

从网站建设到定制行业解决方案,为提供成都网站建设、网站设计服务体系,各种行业企业客户提供网站建设解决方案,助力业务快速发展。创新互联公司将不断加快创新步伐,提供优质的建站服务。

如何在Linux上使用gImageReader从图像和PDF中提取文本

gImageReader 是一个 GUI 工具,用于在 Linux 中利用 Tesseract OCR 引擎从图像和 PDF 文件中提取文本。

gImageReader 是 Tesseract 开源 OCR 引擎的一个前端。Tesseract 最初是由 HP 公司开发的,然后在 2006 年开源。

基本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。

然而,Tesseract 本身是一个没有任何 GUI 的命令行工具。因此,gImageReader 就来解决这点,它可以让任何用户使用它从图像和文件中提取文本。

让我重点介绍一些有关它的内容,同时说下我在测试期间的使用经验。

gImageReader:一个跨平台的 Tesseract OCR 前端

为了简化事情,gImageReader 在从 PDF 文件或包含任何类型文本的图像中提取文本时非常方便。

无论你是需要它来进行拼写检查还是翻译,它都应该对特定的用户群体有用。

以列表总结下功能,这里是你可以用它做的事情:

  • 从磁盘、扫描设备、剪贴板和截图中添加 PDF 文档和图像

  • 能够旋转图像

  • 常用的图像控制,用于调整亮度、对比度和分辨率。

  • 直接通过应用扫描图像

  • 能够一次性处理多个图像或文件

  • 手动或自动识别区域定义

  • 识别纯文本或 hOCR 文档

  • 编辑器显示识别的文本

  • 可对对提取的文本进行拼写检查

  • 从 hOCR 文件转换/导出为 PDF 文件

  • 将提取的文本导出为 .txt 文件

  • 跨平台(Windows)

在 Linux 上安装 gImageReader

注意:你需要安装 Tesseract 语言包,才能从软件管理器中的图像/文件中进行检测。

如何在Linux上使用gImageReader从图像和PDF中提取文本

你可以在一些 Linux 发行版如 Fedora 和 Debian 的默认仓库中找到 gImageReader。

对于 Ubuntu,你需要添加一个 PPA,然后安装它。要做到这点,下面是你需要在终端中输入的内容:

sudo add-apt-repository ppa:sandromani/gimagereadersudo apt updatesudo apt install gimagereader

你也可以从 openSUSE 的构建服务中找到它,Arch Linux 用户可在 AUR 中找到。

所有的仓库和包的链接都可以在他们的 GitHub 页面中找到。

gImageReader 使用经验

当你需要从图像中提取文本时,gImageReader 是一个相当有用的工具。当你尝试从 PDF 文件中提取文本时,它的效果非常好。

对于从智能手机拍摄的图片中提取,检测很接近,但有点不准确。也许当你进行扫描时,从文件中识别字符可能会更好。

所以,你需要亲自尝试一下,看看它是否对你而言工作良好。我在 Linux Mint 20.1(基于 Ubuntu 20.04)上试过。

我只遇到了一个从设置中管理语言的问题,我没有得到一个快速的解决方案。如果你遇到此问题,那么可能需要对其进行故障排除,并进一步了解如何解决该问题。

如何在Linux上使用gImageReader从图像和PDF中提取文本

上述内容就是如何在Linux上使用gImageReader从图像和PDF中提取文本,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注创新互联行业资讯频道。


网站题目:如何在Linux上使用gImageReader从图像和PDF中提取文本
文章分享:http://cdkjz.cn/article/pgpjgs.html
多年建站经验

多一份参考,总有益处

联系快上网,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

大客户专线   成都:13518219792   座机:028-86922220