在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析的文本类型数据。
过往功能
第15波-接入AI人工智能NLP自然语言处https://www.jianshu.com/p/56a0616125fa
技术行业背景
在图像OCR技术中,一直让人诟病的是准确度问题,但最近的人工智能技术兴起,貌似已经对OCR的识别水平有了很大的提升,各家的云计算平台都推出各种人工智能API接口,图像识别也成为云平台的标配。
在Excel的环境下,使用图像OCR文本识别技术,可以让数据顺利地进到Excel环境中,Excel环境不同于其他封闭式的系统环境,可以对生成的文本进行无穷尽地数据清理、数据整合过程。
在Excel催化剂开发运营一年多过程中,已经积累了大量的数据ETL能力,现推出图像OCR文本识别功能,正合其时,在OCR识别过后,数据进到Excel中,利用现有的Excel原生功能和Excel催化剂二次开发的大量的自定义函数、数据转换功能,让原本不规范存储的OCR识别出来的数据,可以很好地进行转换加工,成为下一步可以利用的结构化的数据。
OCR接口使用方
虽然百度在业界里的名声不太好,但它的人工智能AI方面,比较了好几家,最终无论从免费额度、接口完整性、接口易用性、开发文档完备性等多方面考量,最终还是决定再次使用百度的接口,完成图像的OCR文本识别功能。
百度AI接口免费调用次数
同样欢迎其他商业用途的定制开发,可适配不同的云平台的OCR接口,开发出和当前采用百度接口功能和体验一致的Excel环境下使用的文本识别功能
百度OCR接口申请
有点奇怪的是,百度的AI应用申请,分为不同的应用类别,分别来显示应用清单,但在不同的应用类别下申请的APPKEY,又可以一个应用覆盖多个类别。
所以鉴于上次的人工智能篇已经申请了【自然语言处理】,为了减少过多应用混乱,可以同样地在某一类别下的应用中,同时勾选多个类别,最终实现一个应用,访问多个类别的功能。
在查看应用清单时,需要回到申请的类别页面里查找,例如笔者需要回到自然语言里查看文本识别的应用权限。
百度接口APPKEY申请
自然语言类别下同样可以申请文本识别
对于申请KEY有任何疑问,可自行搜索相关教程来学习,也可参考第15波里文章中提到的部分申请APPKEY的文章介绍。
功能实现
本篇的功能作为上一次人工智能功能的补充,入口也放到人工智能相关的菜单下。
功能入口
在识别内容上,百度的OCR接口,作了许多的细分,例如常见的身份证、行驶证、驾驶证、车牌、银行卡等许多日常使用手机APP经常用到的功能,都已覆盖。
识别类型覆盖各大常见场景
在特定类型的识别上,相对通用类型来说,识别的准确度会更高,返还的数据结构也更加偏向结构化处理过。如下方的身份证识别效果
身份证识别到的整齐的6个数据字段
百度的OCR识别一个很靠谱的功能是,可以自定义自己的识别模板,例如公司内部的某单据、表单的打印版样式,可以上传到百度AI后台,人工简单定义下模板里要提取的内容和对应的位置,最终识别出来的效果非常棒,所以按此逻辑,百度的OCR几乎可以识别一切的图像中的文本信息。
可在此网页上云定制自己的模板,具体方法请自行阅读相关介绍文档及视频
百度自定义模版OCR http://ai.baidu.com/iocr#/templatelist
在Excel催化剂识别类型最后一栏就是对应于模板类别来识别,需要额外填写模板ID,从网页上复制对应的模板ID过来。
模板ID需要用到
具体使用步骤
步骤一:选定要识别的图像文件路径单元格区域
因一次只能识别一类的图像,需要先用筛选功能,将其他非相关文件路径给隐藏或者删除。
可使用之前开发的自定义函数获得某文件夹下的所有文件路径清单,同时也可使用插入图片的功能,在工作表上可视化不同文件路径对应的图片是否合符条件,将不符合的隐藏或删除。
步骤二:点击【图像文本识别】按钮调出配置窗体
根据选择的不同类型,补充其他额外的参数配置,例如身份证识别,需额外配置是否为正面,正面和反面识别用的是同一个类型。
不同识别类型下,需要配置的参数不同
若还未申请AppKey或AppKey还未勾选文本识别功能,需自行操作好前期步骤,再此处AppKey设置中填写入两个关键参数
AppKey设置
步骤三:点击【开始识别】按钮,调用百度接口开始识别
请留意识别过程中返回的状态信息,若有任何异常,可按【中止】按钮停止操作。
开始识别及状态
步骤四:点击【导出数据】按钮,将数据导出至Excel工作表
因异步处理原因,不能一口气完成识别及导出功能,需手动点击【导出数据】,将数据导出到工作表中。
文本识别可能返回多行记录,已经在导出数据中作了一对多的关联操作,关联的字段为文本路径,一般来说,是唯一的。
导出数据后效果
在导出数据中,保留了关键的一列【行序号】,用于记录一组数据(某图像文件)返回的数据的顺序,此字段对后续进行数据处理、转换尤为重要。可参考后续的视频教程,会对其进行展开讲解。
结语
在当今数据时代中,身份堆积了许许多多的各种各样的数据,特别是像图像这样的非结构化数据,若没有一定的工具辅助,很难对其进行加工利用。
当然如果依赖某个特定的数据产品,完成所有事情,很不现实,而恰恰我们手中不起眼的Excel,对我们处理各种临时性非系统化的工作内容时非常地适合。
此篇给大家见识了Excel接入人工智能之后,所能发挥到的作用是超乎想像的。当然经过简单的OCR识别出来的数据,离我们真正要用还有一段小距离,而这段距离恰恰是在Excel的灵活性和可扩展性方面给予我们足够的能力去补足它,而无需坐等漫长地专业技术人员开发相应的功能,时间等不及,费用花不起。
更深入的OCR后的数据处理、转换等介绍,后续将会在视频教程中给大家作演示说明,相信在Excel催化剂的作用下,犹如化学反应中添加了催化剂一般,只需现有的普通技能的掌握,即可发挥威力巨大的数据处理、数据分析高级应用。
页面更新:2024-04-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号