技术浅析
近年来,随着移动设备的快速更新迭代,以及移动互联网的快速生长,从以往的扫描文件的字符识别,到现在应用到自然场景中图片文字的识别,如识别身份证、银行卡、门牌、票据及种种网络图片中的文字。
古板技术框架
首先文本定位,接着进行倾斜文本矫正,之后支解出单字后,并对单字识别,Z后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错?砂创矸椒ɑ治鼋锥危涸ご斫锥巍⑹侗鸾锥魏秃蟠斫锥。其中要害在于预处理阶段,预处理阶段的质量直接决定了Z终的识别效果,因此这里详细介绍下预处理阶段。
定位图片中的文字区域,而文字检测主要基于连通域剖析的要领,主要思想是利用文字颜色、亮度、边沿信息进行聚类的方法来快速疏散文字区域与非文字区域,较为流行的两个算法划分是:Z大极值稳定区域(MSER)算法及笔画宽度变换(SWT)算法,而在自然场景中因受到光照强度、图片拍摄质量和类文字配景的滋扰,使得检测结果中包括很是多的非文字区域,而目前从候选区域区分出真正文字区域主要两种要领,用规则判断或轻量级的神经网络模型进行区分;
行列支解提取出单字,这一步利用文字在行列间保存间隙的特征,通过二值化并在投影后找出行列支解点,当在文字与配景的区分度较好时,效果很好,而拍摄的图片中光照、摄像质量的影响,并且文字配景无法区分时,常造成过失支解的情况。
身份证识别技术流程与上述框架稍微有所差别。对该问题,已知先验信息:a.证件长宽牢固;b.字体及巨细一致;c.文内幕关于证件位置牢固;d.保存牢固文字。因此,处理该问题的思路为:先定位目标物体(证件),矫正后提取文字进行识别,Z后进行语义纠错,如下图:

支解出单字后接着用分类器进行识别,并在这步基于统计上的先验信息界说了一个简单的优化函数,可看做1-gram语言模型。先验信息为:2400(总共660273)汉字的使用频率之和为99%以上。界说的优化函数为:
下图给出了示例:
古板OCR冗长的处理流程以及大宗人工规则的保存,使得每步的过失不绝累积,而使得Z终识别结果无法满足实际需求。接下来讨论基于深度学习的OCR。

文本行检测,其又可分为水平行文字检测算法与倾斜文字行检测算法。这里主要介绍下Tian提出算法CTPN,其算法框架如下图。主要思路是将文本行识别看做一个序列识别问题,差别于一般的目标检测问题,引入RNN来利用上下文的信息。