什么是光学字符识别（OCR）

光学字符识别（OCR）有时称为“文本识别”。它是从扫描的文档、图像和 PDF 中提取数据到机器编码的文本中。原始材料可以使用OCR软件进行访问和编辑，该软件将图像上的字母隔离，将它们变成单词，然后将单词变成句子。

OCR 被广泛用作从打印纸质数据记录中输入数据的一种形式–是护照文件、发票、银行对帐单、计算机收据、名片、邮件、静态数据的打印输出，还是任何合适的文档–这是一种数字化打印件的常用方法文本，以便可以对其进行电子编辑、搜索、更紧凑地存储，在线显示以及在机器过程中使用，例如认知计算、机器翻译、（提取的）文本到语音、关键数据和文本挖掘。OCR是模式识别，人工智能和计算机视觉领域的研究领域。

文字识别

核心OCR算法有两种基本类型，它们可以产生候选字符的排序列表。

矩阵匹配包括将图像与存储的字形逐像素进行比较；它也被称为“图案匹配”、“ 图案识别 ”或“ 图像相关性 ”。这取决于将输入字形与图像的其余部分正确隔离，并且取决于存储的字形具有相似的字体和相同的比例。此技术最适合打字文本，当遇到新字体时效果不佳。这是早期基于物理光电管的OCR实施的技术，而不是直接实施的技术。

特征提取将字形分解为“特征”，例如直线、闭环、直线方向和直线相交。提取功能降低了表示的维数，并使识别过程在计算上高效。将这些特征与字符的抽象矢量状表示形式进行比较，这可能会简化为一个或多个字形原型。计算机视觉中特征检测的一般技术适用于这种类型的OCR，这在“智能” 手写识别以及实际上大多数现代OCR软件中很常见。最近邻分类器，例如k最近邻算法用于比较图像特征与存储的字形特征并选择最接近的匹配。

诸如Cuneiform和Tesseract之类的软件使用两遍方法进行字符识别。第二遍称为“自适应识别”，它使用在xxx遍上以高可信度识别的字母形状来更好地识别第二遍上的其余字母。这对于字体变形（例如模糊或褪色）的异常字体或低质量扫描很有用。

诸如OCRopus或Tesseract之类的现代OCR软件使用经过训练的神经网络来识别整个文本行，而不是专注于单个字符。

OCR结果可以以标准化的ALTO格式存储，这是美国国会图书馆维护的专用XML模式。其他常见格式包括hOCR和PAGE XML。

#头条创作挑战赛#

展开阅读全文

页面更新：2024-06-03

标签：字符近邻字形直线光学图像特征文本字体数据软件

1 2 3 4 5

什么是光学字符识别（OCR）

文字识别

企微助手DDD模式探索

不吹不黑，华为nova10Pro使用了4个月，说一下使用感受

京东百亿补贴：小米小爱音箱 Play 增强版 69 元

跟车修车平板

这样做，可以禁止百度网盘自动升级更新，建议收藏备用

时尚与智能破壁，华为DFH和玺佳开启智能腕表新美学时代

大部分用户的换机周期是两三年左右，是取决于内存还是配置？

上海徐汇太平洋外星人推荐您ANC 主动降噪了解一下

新疆秘境寻踪丨沙漠也有“皮肤”，你信吗

大数据时代，中国瓷砖十大品牌有几个你认识？

新华全媒+｜蹲点“科学岛”看科技工作者奋战攻关一线

8K字详解Java安全之动态加载字节码

2023军考，士兵提干考纲变化大，有哪些变化？预示着什么？

立案调查，严肃处理

上海艾录：拟向实控人定增募资不超2亿元

大数据时代，中国瓷砖十大品牌有几个你认识？

电商平台首次没有披露“双11”销售数据，但从历史数据可

刘江永 - 关于当今世界时代特征与主题的哲学思考

Java语言提供了8种基本数据类型，你知道吗？

深刻理解和准确把握中国式现代化的显著特征

这些数据告诉你，一年来世界与中国互联网发展态势

数据中国｜中国各级各类自然保护地约占陆域国土面积18%

詹姆斯生涯三队数据全记录，得分王极大概率是老詹生涯最

重磅，回国隔离放宽，国际机票搜索量暴涨3倍，机票价格直线

文字转语音朗读软件推荐（支持文字转粤语，河南话，四川话）

什么是光学字符识别 （OCR）

文字识别

什么是光学字符识别（OCR）