English | 英文

金融行业

技术浅析



近年来,随着移动设备的快速更新迭代,以及移动互联网的快速生长,从以往的扫描文件的字符识别,到现在应用到自然场景中图片文字的识别,如识别身份证、银行卡、门牌、票据及种种网络图片中的文字。
以深度学习兴起的时间为支解点,直至近五年之前,业界Z为广泛使用的仍然是古板的识别技术框架,而随着深度学习的崛起,基于这一技术的识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字支解等),并已在工业界获得广泛应用。

古板技术框架

首先文本定位,接着进行倾斜文本矫正,之后支解出单字后,并对单字识别,Z后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错?砂创矸椒ɑ治鼋锥危涸ご斫锥巍⑹侗鸾锥魏秃蟠斫锥。其中要害在于预处理阶段,预处理阶段的质量直接决定了Z终的识别效果,因此这里详细介绍下预处理阶段。

定位图片中的文字区域,而文字检测主要基于连通域剖析的要领,主要思想是利用文字颜色、亮度、边沿信息进行聚类的方法来快速疏散文字区域与非文字区域,较为流行的两个算法划分是:Z大极值稳定区域(MSER)算法及笔画宽度变换(SWT)算法,而在自然场景中因受到光照强度、图片拍摄质量和类文字配景的滋扰,使得检测结果中包括很是多的非文字区域,而目前从候选区域区分出真正文字区域主要两种要领,用规则判断或轻量级的神经网络模型进行区分;

行列支解提取出单字,这一步利用文字在行列间保存间隙的特征,通过二值化并在投影后找出行列支解点,当在文字与配景的区分度较好时,效果很好,而拍摄的图片中光照、摄像质量的影响,并且文字配景无法区分时,常造成过失支解的情况。

身份证识别技术流程与上述框架稍微有所差别。对该问题,已知先验信息:a.证件长宽牢固;b.字体及巨细一致;c.文内幕关于证件位置牢固;d.保存牢固文字。因此,处理该问题的思路为:先定位目标物体(证件),矫正后提取文字进行识别,Z后进行语义纠错,如下图:

 

支解出单字后接着用分类器进行识别,并在这步基于统计上的先验信息界说了一个简单的优化函数,可看做1-gram语言模型。先验信息为:2400(总共660273)汉字的使用频率之和为99%以上。界说的优化函数为:

下图给出了示例:

 

文本行检测,其又可分为水平行文字检测算法与倾斜文字行检测算法。这里主要介绍下Tian提出算法CTPN,其算法框架如下图。主要思路是将文本行识别看做一个序列识别问题,差别于一般的目标检测问题,引入RNN来利用上下文的信息。

获得更多产品支持与培训

加入WELINKIRT

是否有任何疑问?

世界各地的WELINKIRT代表可以随时为您提供支持,满足您的视觉和工业读码需求。

联系jxf祥瑞坊
sitemap网站地图