0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源OCR 过程介绍

人工智能与大数据技术 来源:人工智能与大数据技术 作者:人工智能与大数据 2020-10-30 10:54 次阅读

不久前,百度技术团队在不久前,百度技术团队在 GitHub 上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都少不了 OCR 的身影。

在平时工作的时候,我也经常会使用一些 OCR 软件来扫描图片并提取文字,而要替代人工完成一系列的文本分析,图像识别操作,则必将使用到 AI 技术。

百度在 GitHub 上开源的 PaddleOCR 模型,大小仅有 8.6M,是目前圈内为数不多,能支持中英文图像、横竖排排版识别的 AI 深度学习模型之一。

先看下 PaddleOCR 自今年年中开源以来,短短几个月在 GitHub 上的表现:

7 月,8.6M 超轻量模型发布,GitHub Trending 全球日榜榜单第一!

8 月,开源 CVPR2020 顶会 SOTA 算法,再上 GitHub 趋势榜单!

9 月,GitHub Star 数量已超过 4.6K, 近期又带来哪些重磅更新?

果然,看 9 月最新更新,PaddleOCR 再次诚意满满为大家带来真干货,直接看官方介绍:

01. 官方介绍

数量上,这次 PaddleOCR 一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中 3.5M 超轻量文字识别模型,堪称目前业界开源的最轻量 OCR 模型了。质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。 先看几个常见的通用场景识别效果:

3.5M 的模型能达到这个识别精度,绝对是良心之作了!传送门 Github:https://github.com/PaddlePaddle/PaddleOCR论文下载链接:https://arxiv.org/abs/2009.09941

02. 快速体验

PaddleOCR 的 3.5M 超轻量 OCR 模型1).PC 端快速尝试:(打开网页,选一张图片,即可实时看到结果) https://www.paddlepaddle.org.cn/hub/scene/ocr

2). 手机端 App 安装体验PaddleOCR 在百度大脑 EasyEdge 上开放了文字识别 APP demo。 示例效果如下(可以在 github 首页找到下载二维码)

多个开源 repo 测试对比

简单对比一下目前主流 OCR 方向开源 repo 的核心能力:

3). 从性能指标来看:

针对 OCR 实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的 300 张图像,每张图平均有 17 个文本框,PaddleOCR 的 F1-Score 超过 0.5,这个性能已经很不错了。

4). 从功能完备来看:

预训练模型大小:easyOCR 目前暂无超轻量模型,chineseocr_lite 最新的模型是 4.7M 左右,而 PaddleOCR 提供的 3.5M 无疑是目前业界已知最轻量的。

PIP 安装:目前仅 PaddleOCR 和 easyOCR 支持。

自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型 Finetuning,目前只有 PaddleOCR 支持。

部署方面:easyOCR 模型较大不适合端侧部署,Chineseocr_lite 和 PaddleOCR 都具备端侧部署能力。

开发者可以根据自己的实际需求,选择适合自己的开源方案。 对于 PaddleOCR3.5MB 的超轻量模型,是如何做到的,repo 中也给出了解释。

3.5M 超轻量模型应用了一套超轻量 OCR 系统 PP-OCR,主要由 DB 文本检测、检测框矫正和 CRNN 文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化 8 个方面,采用 19 个有效策略,对各个模块的模型进行效果调优和瘦身。 其中,飞桨模型压缩库 PaddleSlim 为 PaddleOCR 超轻量化模型的实现提供了核心的技术支撑。从超轻量模型 8.1M 的压缩到 3.5M,模型大小降低了 56.79%,其中检测模型速度提升 21%,而且整体模型精度还有提升。

除了 3.5M 超轻量 OCR 模型,PaddleOCR 提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。

责任编辑:PSY

原文标题:Github标星4.6K+!这个OCR开源项目,火了!

文章出处:【微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3368

    浏览量

    42567
  • OCR
    OCR
    +关注

    关注

    0

    文章

    145

    浏览量

    16388
  • GitHub
    +关注

    关注

    3

    文章

    472

    浏览量

    16482

原文标题:Github标星4.6K+!这个OCR开源项目,火了!

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开源基础设施能力建设分论坛成功举办

    在当今科技飞速发展的时代,开源已成为推动全球创新与进步的核心动力。无论是开发实践还是数字化转型,开源以其特有的开放性、共享性和协同性,助力各行业技术革新。在构建开源生态的过程中,
    的头像 发表于 12-27 13:56 169次阅读

    如何在播放视频过程中插入音频

    ZDP14x0是一款基于开源GUI引擎的图像显示专用驱动芯片,可以通过串口或者SPI与其他芯片通信,且能播放视频。本文将介绍如何在播放视频过程中插入音频。
    的头像 发表于 12-26 11:13 160次阅读
    如何在播放视频<b class='flag-5'>过程</b>中插入音频

    使用ADS1211U的过程中,采样值输出一直为0XFFFFFF,为什么?

    最近在使用ADS1211U的过程中遇到些问题,一个问题是采样值输出一直为0XFFFFFF,有时候跟换一块芯片就会好,有时候是一直是0;还有就是在CPU程序仿真的过程中会与非仿真状态下产生数据
    发表于 12-25 06:22

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执行特定的任务。以下,是对开源AI模型库的详细介绍,由AI部落小编整理。
    的头像 发表于 12-14 10:33 201次阅读

    ElfBoard开源项目|车牌识别项目技术文档

    车牌识别项目基于百度智能云平台,旨在利用其强大的OCR服务实现车牌号码的自动识别。选择百度智能云的原因是其高效的API接口和稳定的服务质量,能够帮助开发者快速实现车牌识别应用。这个开源项目使用摄像头
    的头像 发表于 12-06 10:30 282次阅读
    ElfBoard<b class='flag-5'>开源</b>项目|车牌识别项目技术文档

    介绍6款开源免费的网络监控工具

    网络监控是保障网络系统和数据安全的重要手段,能够帮助运维人员及时发现并应对各种问题,及时发现并解决,从而确保网络的顺畅运行。 文本将简单介绍6款开源免费的网络监控工具,并准备了对应的资料文档,建议运
    的头像 发表于 11-25 15:53 635次阅读
    <b class='flag-5'>介绍</b>6款<b class='flag-5'>开源</b>免费的网络监控工具

    开源ISP(Infinite-ISP)介绍

    公开,都是给一堆函数自己调用调试。因为厂商将 ISP 算法视为保持市场竞争力的独特秘诀。虽然之前介绍了很多开源ISP项目(优秀的 Verilog/FPGA开源项目介绍(二十六)- IS
    的头像 发表于 11-18 10:21 497次阅读
    <b class='flag-5'>开源</b>ISP(Infinite-ISP)<b class='flag-5'>介绍</b>

    明治案例 | 【OCR识别+条码读取】一步到位,印刷品质的智能守护者

    在某大型印刷企业的生产线上,印刷机需要完成大量的条码印刷任务。为了确保条码的准确性和可读性,需要在设备上安装传感器进行条码印刷的读码和OCR识别检测。1、传感器需要准确识别条码中的信息,并将其与预设
    的头像 发表于 10-22 08:02 311次阅读
    明治案例 | 【<b class='flag-5'>OCR</b>识别+条码读取】一步到位,印刷品质的智能守护者

    光学识别的过程包含哪些

    光学识别(Optical Character Recognition,OCR)是一种将图像中的文字转换为机器可读文本的技术。这个过程涉及多个步骤,包括图像预处理、文本检测、字符分割、字符识别和后处理
    的头像 发表于 09-10 15:36 430次阅读

    介绍一款Java开发的开源MES系统

    介绍一款Java开发的开源MES系统,万界星空科技开源的MES系统。该系统基于Java开发,具有广泛的适用性和高度的可定制性,能够满足不同行业、不同规模企业的智能制造需求。
    的头像 发表于 09-05 17:39 683次阅读
    ​<b class='flag-5'>介绍</b>一款Java开发的<b class='flag-5'>开源</b>MES系统

    明治案例 | PE编织袋【大视野】【OCR识别】

    OCR识别技术OCR识别技术在工业生产中扮演着至关重要的角色。它利用先进的图像处理技术,自动、高效地识别并转换图像中的文字信息为可编辑的文本数据。这一技术的应用确保了生产数据的准确性和实时性,为生
    的头像 发表于 08-13 08:25 470次阅读
    明治案例 | PE编织袋【大视野】【<b class='flag-5'>OCR</b>识别】

    智能手机充电头OCR精准识别

    文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号。光学字符识别(OCR)相信大家都不陌生。而工业场景的图像文字识别更加复杂,OCR出现在很多不同的场合,对某些特殊的表面、产品整体上
    的头像 发表于 06-11 08:24 474次阅读
    智能手机充电头<b class='flag-5'>OCR</b>精准识别

    Zebra Aurora深度学习OCR算法荣获CAIMRS颁发的自动化创新奖

    在第二十二届中国自动化及数字化年度评选活动中,Zebra Aurora深度学习OCR算法获得了由中国自动化及数字化产业年会(简称CAIMRS)颁发的自动化创新奖。
    的头像 发表于 03-20 16:35 491次阅读

    如何判断触摸屏用有机硅OCR/LOCA性能的优劣

    判断OCR/LOCA性能的优劣
    的头像 发表于 02-29 10:48 610次阅读

    关于FPGA的开源项目介绍

    Hello,大家好,之前给大家分享了大约一百多个关于FPGA的开源项目,涉及PCIe、网络、RISC-V、视频编码等等,这次给大家带来的是不枯燥的娱乐项目,主要偏向老的游戏内核使用FPGA进行硬解,涉及的内核数不胜数,主要目标是高的可实现性及复现性。
    的头像 发表于 01-10 10:54 1485次阅读
    关于FPGA的<b class='flag-5'>开源</b>项目<b class='flag-5'>介绍</b>