什么是光学字符识别 (OCR)




光学字符识别 (OCR) 有时称为“文本识别”。它是从扫描的文档、图像和 PDF 中提取数据到机器编码的文本中。原始材料可以使用OCR软件进行访问和编辑,该软件将图像上的字母隔离,将它们变成单词,然后将单词变成句子。

OCR 被广泛用作从打印纸质数据记录中输入数据的一种形式–是护照文件、发票、银行对帐单、计算机收据、名片、邮件、静态数据的打印输出,还是任何合适的文档–这是一种数字化打印件的常用方法文本,以便可以对其进行电子编辑、搜索、更紧凑地存储,在线显示以及在机器过程中使用,例如认知计算、机器翻译、(提取的)文本到语音、关键数据和文本挖掘。OCR是模式识别,人工智能和计算机视觉领域的研究领域。


文字识别

核心OCR算法有两种基本类型,它们可以产生候选字符的排序列表。

矩阵匹配包括将图像与存储的字形逐像素进行比较;它也被称为“图案匹配”、“ 图案识别 ”或“ 图像相关性 ”。这取决于将输入字形与图像的其余部分正确隔离,并且取决于存储的字形具有相似的字体和相同的比例。此技术最适合打字文本,当遇到新字体时效果不佳。这是早期基于物理光电管的OCR实施的技术,而不是直接实施的技术。

特征提取将字形分解为“特征”,例如直线、闭环、直线方向和直线相交。提取功能降低了表示的维数,并使识别过程在计算上高效。将这些特征与字符的抽象矢量状表示形式进行比较,这可能会简化为一个或多个字形原型。计算机视觉中特征检测的一般技术适用于这种类型的OCR,这在“智能” 手写识别以及实际上大多数现代OCR软件中很常见。最近邻分类器,例如k最近邻算法用于比较图像特征与存储的字形特征并选择最接近的匹配。

诸如Cuneiform和Tesseract之类的软件使用两遍方法进行字符识别。第二遍称为“自适应识别”,它使用在xxx遍上以高可信度识别的字母形状来更好地识别第二遍上的其余字母。这对于字体变形(例如模糊或褪色)的异常字体或低质量扫描很有用。

诸如OCRopus或Tesseract之类的现代OCR软件使用经过训练的神经网络来识别整个文本行,而不是专注于单个字符。

OCR结果可以以标准化的ALTO格式存储,这是美国国会图书馆维护的专用XML模式。其他常见格式包括hOCR和PAGE XML。


#头条创作挑战赛#

展开阅读全文

页面更新:2024-06-03

标签:字符   近邻   字形   直线   光学   图像   特征   文本   字体   数据   软件

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top