可以提取图像文本的5大Python库-电子发烧友网

主要是了解并掌握文本定位和识别的OCR工具哦~

光学字符识别是一个古老但依然具有挑战性的问题，涉及从非结构化数据中（包括图像和PDF文档）检测和识别文本。它在银行、电子商务和社交媒体内容管理等领域具有广泛的应用。

但与数据科学中的每个主题一样，尝试学习如何解决OCR任务时存在大量的资源。这就是为什么我写下这篇教程，它可以帮助您入门。

在本文中，我将展示一些Python库，可以让您轻松从图像中提取文本，无需太多麻烦。这些库的说明后面附有一个实际示例。所使用的数据集均来自Kaggle。

目录：

pytesseract

EasyOCR

Keras-OCR

TrOCR

docTR

1.pytesseract

它是最流行的Python库之一，用于光学字符识别。它使用Google的Tesseract-OCR引擎从图像中提取文本。支持多种语言。

如果想知道是否支持您的语言。您只需要几行代码将图像转换为文本：

# installation
!sudo apt install tesseract-ocr
!pip install pytesseract


import pytesseract
from pytesseract import Output
from PIL import Image
import cv2


img_path1 = '00b5b88720f35a22.jpg'
text = pytesseract.image_to_string(img_path1,lang='eng')
print(text)

输出：

我们还可以尝试获取图像中每个检测到的项目的边界框坐标。

# boxes around character
print(pytesseract.image_to_boxes(img_path1))

结果：

~ 532 48 880 50 0
...
A 158 220 171 232 0
F 160 220 187 232 0
I 178 220 192 232 0
L 193 220 203 232 0
M 204 220 220 232 0
B 228 220 239 232 0
Y 240 220 252 232 0
R 259 220 273 232 0
O 274 219 289 233 0
N 291 220 305 232 0
H 314 220 328 232 0
O 329 219 345 233 0
W 346 220 365 232 0
A 364 220 379 232 0
R 380 220 394 232 0
D 395 220 410 232 0
...

正如您所注意到的，它估算了每个字符的边界框，而不是每个单词！如果我们想提取每个单词的框，而不是字符，那么应该使用image_to_data的另一种方法，而不是image_to_boxes：

# boxes around words
print(pytesseract.image_to_data(img_path1))

这是返回的结果，并不是很完美。例如，它将“AFILM”解释为一个单词。此外，它没有检测和识别输入图像中的所有单词。

2. EasyOCR

轮到另一个开源Python库：EasyOCR。与pytesseract类似，它支持80多种语言。您可以通过网络演示快速而轻松地尝试它，无需编写任何代码。它使用CRAFT算法来检测文本并使用CRNN作为识别模型。此外，这些模型是使用Pytorch实现的。

如果在Google Colab上工作，建议您设置GPU，这有助于加快此框架的速度。以下是详细代码：

# installation
!pip install easyocr


import easyocr


reader = easyocr.Reader(['en'])
extract_info = reader.readtext(img_path1)


for el in extract_info:
   print(el)

与pytesseract相比，结果要好得多。对于每个检测到的文本，我们还有边界框和置信度级别。

3. Keras-OCR

Keras-OCR是另一个专门用于光学字符识别的开源库。与EasyOCR一样，它使用CRAFT检测模型和CRNN识别模型来解决任务。与EasyOCR的不同之处在于，它使用Keras而不是Pytorch实现。Keras-OCR的唯一不足之处是它不支持非英语语言。

# installation
!pip install keras-ocr -q


import keras_ocr


pipeline = keras_ocr.pipeline.Pipeline()
extract_info = pipeline.recognize([img_path1])
print(extract_info[0][0])

这是提取的第一个单词的输出：

('from',
 array([[761.,  16.],
        [813.,  16.],
        [813.,  30.],
        [761.,  30.]], dtype=float32))

为了可视化所有结果，我们将输出转换为Pandas数据框：

diz_cols = {'word':[],'box':[]}
for el in extract_info[0]:
    diz_cols['word'].append(el[0])
    diz_cols['box'].append(el[1])
kerasocr_res = pd.DataFrame.from_dict(diz_cols)
kerasocr_res

神奇的是，我们可以看到我们有更清晰和更精确的结果。

4. TrOCR

TrOCR是一种基于transformers的生成式图像模型，用于从图像中检测文本。它由编码器和解码器组成：TrOCR使用预训练的图像变换器作为编码器和预训练的文本变换器作为解码器。有关更多详细信息，请查看论文。Hugging Face平台上还有这个库的良好文档。首先，我们加载预训练模型：

# installation
!pip install transformers


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image


model_version = "microsoft/trocr-base-printed"
processor = TrOCRProcessor.from_pretrained(model_version)
model = VisionEncoderDecoderModel.from_pretrained(model_version)

在传递图像之前，我们需要调整其大小并进行规范化。一旦图像已经转换，我们可以使用.generate()方法提取文本。

image = Image.open(img_path1).convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
extract_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print('output: ',extract_text)
# output: 2.50

这与先前的库不同，它返回一个无意义的数字。为什么？TrOCR仅包含识别模型，而没有检测模型。要解决OCR任务，首先需要检测图像中的对象，然后提取输入中的文本。由于它只关注最后一步，它的性能不佳。要使其正常工作，最好使用边界框裁剪图像的特定部分，如下所示：

crp_image = image.crop((750, 3.4, 970, 33.94))
display(crp_image)

然后，我们尝试再次应用模型：

pixel_values = processor(crp_image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
extract_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(extract_text)

此操作可以重复应用于图像中包含的每个单词/短语。

5. docTR

最后，我们涵盖了用于从文档中检测和识别文本的最后一个Python包：docTR。它可以将文档解释为PDF或图像，然后将其传递给两阶段方法。在docTR中，文本检测模型（DBNet或LinkNet）后跟文本识别的CRNN模型。由于使用了这两个深度学习框架，这个库要求安装Pytorch和Tensorflow。

! pip install python-doctr
# for TensorFlow
! pip install "python-doctr[tf]"
# for PyTorch
! pip install "python-doctr[torch]"

然后，我们导入使用docTR的相关库并加载模型，它是一个两步方法。实际上，我们需要指定文本检测和文本识别的DBNet和CRNN的模型，文本检测和文本识别的后端模型：

from doctr.io import DocumentFile
from doctr.models import ocr_predictor
model = ocr_predictor(det_arch = 'db_resnet50',
                      reco_arch = 'crnn_vgg16_bn',
                      pretrained = True
                     )

我们最终读取文件，使用预训练模型，并将输出导出为嵌套字典：

# read file
img = DocumentFile.from_images(img_path1)


# use pre-trained model
result = model(img)


# export the result as a nested dict
extract_info = result.export()

这是非常长的输出：

{'pages': [{'page_idx': 0, 'dimensions': (678, 1024), 'orientation': {'value': None, 'confidence': None},...

为更好地可视化，最好使用双重循环，仅获取我们感兴趣的信息：

for obj1 in extract_info['pages'][0]["blocks"]:
    for obj2 in obj1["lines"]:
        for obj3 in obj2["words"]:
            print("{}: {}".format(obj3["geometry"],obj3["value"]))

docTR是从图像或PDF中提取有价值信息的另一个好选择。

结论

五个工具各有优点和缺点。当选择这些软件包之一时，首先考虑您正在分析的数据的语言。如果考虑到非英语语言，EasyOCR可能是最适合的选择，因为它具有更广泛的语言覆盖和更好的性能。免责声明：该数据集根据知识共享署名4.0国际许可（CC by 4.0）许可。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

代码

代码

+关注

关注
30

文章
4857

浏览量
69518
python

python

+关注

关注
56

文章
4813

浏览量
85295
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24986
OCR

OCR

+关注

关注
0

文章
147

浏览量
16498

原文标题：可以提取图像文本的 5 大 Python 库

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

常用的Python图像处理库介绍

本文主要介绍了一些简单易懂最常用的 Python 图像处理库。

发表于 08-19 10:54 •2189次阅读

【建议收藏】Python库大全

(需要html5lib)。sanitize -为混乱的数据世界带来清明。文本处理用于解析和操作简单文本的库。杨通用difflib - (Pytho

发表于 09-06 15:58

如何在Python中将语音转换为文本

　　语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本?如何使用SpeechRecognition 库在

发表于 07-29 18:12

如何从HTML或XML文件中提取数据的Python爬虫库Beautiful Soup概述

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

发表于 07-29 09:56 •2.6w次阅读

如何使用Python编写能够从原始文本提取信息的程序

自然语言处理（Natural Language Processing，NLP）是人工智能的子领域之一，其重点是使计算机能够理解和处理人类语言。在本文中，我们将知晓NLP是如何工作的，并学习如何使用Python编写能够从原始文本提取

发表于 08-13 10:02 •1.1w次阅读

Python图像处理库Pillow入门教程和代码资料免费下载

Pillow 是Python 里的图像处理库（PIL：Python Image Library），提供了了广泛的文件格式支持，强大的图像处理

发表于 01-11 16:20 •30次下载

Python教程之如何使用使用PIL库做图像处理的资料说明

图像处理是一门应用非常广的技术，而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴。PIL （Python Imaging Library）是

发表于 01-18 17:01 •15次下载

如何使用TensorFlow Lite从Android设备图像提取文本

您展示如何使用 TensorFlow Lite 从 Android 设备上的图像中提取文本。我们将引导您完成最近开源的光学字符识别（OCR） Android 参考应用的关键步骤，您可参考该处获取完整代码。在下方动画中，

发表于 11-02 15:34 •3562次阅读

如何使用OpenCV和Python从图像中提取感兴趣区域

今天我们将一起探究如何使用OpenCV和Python从图像中提取感兴趣区域（ROI）。在之间的文章中，我们完成了图像边缘提取，例

发表于 02-07 14:42 •1961次阅读

分享5个用于图像处理的Python库

特征。在今天的文章中，我们将介绍5个最好的Python库，它们可能会帮助你执行图像处理，如裁剪、缩放等。

发表于 02-08 16:23 •1491次阅读

关于python中非常实用的一个图像处理库 1

PIL：Python Imaging Library，是Python环境下最受欢迎的图像处理库，木有之一。然而，在Python2.7之后不再

发表于 02-08 17:18 •1422次阅读

关于python中非常实用的一个图像处理库 2

PIL：Python Imaging Library，是Python环境下最受欢迎的图像处理库，木有之一。然而，在Python2.7之后不再

发表于 02-08 17:18 •1199次阅读

如何安装常用Python库

Python作为一种流行的编程语言，拥有丰富的第三方库资源，这些库可以帮助开发者轻松实现各种功能，从数据分析到Web开发，从机器学习到图像处

发表于 04-14 12:11 •1271次阅读

Newspaper：用于提取和整理文章的python库

Newspaper 是一个很棒的python库，用于提取和整理文章。它有以下的优点：多线程文章下载框架识别新闻网址从html提取文本

发表于 10-30 14:24 •867次阅读

Newspaper：能下载38种语言新闻文章的 Python 模块

Newspaper 是一个很棒的python库，用于提取和整理文章。它有以下的优点：多线程文章下载框架识别新闻网址从html提取文本

发表于 10-31 11:09 •528次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

可以提取图像文本的5大Python库

评论

常用的Python图像处理库介绍

【建议收藏】Python库大全

如何在Python中将语音转换为文本

如何从HTML或XML文件中提取数据的Python爬虫库Beautiful Soup概述

如何使用Python编写能够从原始文本提取信息的程序

Python图像处理库Pillow入门教程和代码资料免费下载

Python教程之如何使用使用PIL库做图像处理的资料说明

如何使用TensorFlow Lite从Android设备图像提取文本

如何使用OpenCV和Python从图像中提取感兴趣区域

分享5个用于图像处理的Python库

关于python中非常实用的一个图像处理库 1

关于python中非常实用的一个图像处理库 2

如何安装常用Python库

Newspaper：用于提取和整理文章的python库

Newspaper：能下载38种语言新闻文章的 Python 模块