English | 英文

金融行业

jxf吉祥坊精准推荐 | OCR技术之检测篇

jxf吉祥坊精准推荐,借助于广告图片中的文本识别以及物体识别等技术手段,可以越发U效的加深对广告创意、用户偏好等方面的理解OCR(Optical Character Recognition, 光学字符识别)是指对输入图像进行剖析识别处理,获取图像中文字信息的历程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社?ǎ⑵本菔侗鸬。而场景文字识别(Scene Text Recognition,STR) 不需要针对特殊场景进行定制,可以识别任意场景图片中的文字(如图1所示)。相较于古板OCR,场景图片中的文本检测与识别面临着庞大配景滋扰、文字的模糊与退化、不可预测的光照、字体的多样性、笔直文本、倾斜文本等众多挑战。
图1 场景图片示例

 

  • 比照片中保存文字的区域进行定位(Text Detection),即找到单词或文本行(Word/Line-level)的界限框(Bounding Box)  ;
  • 对定位后的文字进行识别(Text Recognition)。

数平精准推荐团队在OCR领域深耕细作多年,自研的基于深度学习要领的文本检测与识别技术多次在ICDAR竞赛数据集上刷新世界纪录, 是在2017年举办的第14届ICDAR官方竞赛中,斩获了“COCO-TEXT”、“医学文献图像”等挑战任务中的4项 ,获得了业内广泛好评,同时也再次证明了团队在OCR领域的技术研发能力。本文将主要介绍数平精准推荐团队的文本检测技术。

1、文本检测技术

(1)基于连通域的要领

 

(2)基于滑动窗口的要领

 

(3)基于深度学习的要领

2、数平精准推荐文本检测技术

在文本检测领域,基于深度卷积神经网络的算法已成为主流要领,如基于回归的YOLO[18]、SSD[19]和基于RegionProposal两阶段的Faster RCNN[20]、R-FCN[21]等。在基于深度卷积网络的物体检测框架中,每一层卷积相当于一层滤波器,多层滤波器的串联可以使ZU效的特征被通报到Z后,再凭据文字目标与物体目标的差别,针对性地革新检测任务的实现机制,能够获得良好的文本检测效果[9-12]。

结合场景图片中文字排列具有不规则、多偏向(水平、倾斜、笔直等)、尺寸巨细纷歧等特性,数平精准推荐团队受到RRPN[11] Rotation Proposals的启发,基于Faster-RCNN物体检测模型,研发了一种用于任意偏向文本的端到端文本检测要领,技术架构图如图4所示。

图4 基于Rotation-RPN的场景文本检测模型架构图

 

  • 场景图像中并非全文字都是水平的,保存着大宗其他排列漫衍的场景文本,如倾斜文本、笔直文本。我们在物体检测技术架构的基础上,将角度信息融入到检测框架中,目的在于回归任意偏向的文本框。实验证明,Rotation-RPN具备检测自然场景下任意偏向文本的能力,尤其能够检测出具有语义信息的倾斜文本和笔直文本  ;
  • 标准问题一直都是深度物体检测要领的焦点问题之一,针对检测模型对文字巨细较敏感的问题,我们设定了差别尺寸的Proposal,融合差别标准卷积特征并进行多标准的池化历程,用于检测差别标准的文本  ;
  • 为了实现对任意偏向的文本进行自动处理,我们设计了旋转感兴趣区域(RRoI)池化层,RRoI池化层能够将任意偏向、任意宽高比或尺寸的候选旋框投影到牢固巨细的特征图,解决了古板RoI池化层只能处理轴对齐候选框的问题  ;
  • 古板的非 值抑制(NMS,Non Maximum Suppression)算法只能处理轴对齐的候选框,为了解决任意旋转偏向重叠文本候选框的NMS问题,我们设计了面向旋转候选框的非 值抑制(Inclined-NMS,Inclined Non Maximum Suppression)算法,Inclined-NMS算法考虑了倾斜候选框的特性进行择优选取。

(2)基于联结文本建议网络的文本检测要领

 

古板Bottom-up的检测要领没有考虑上下文,鲁棒性较差,庞大繁琐,使得文本检测性能无法突破瓶颈。我们通过Top-down的方法,即先检测文本区域,再找出文本行,获得了相比古板检测要领更好的结果。

(3)基于全卷积网络的文本检测要领

图6 基于FCN的文本检测流程图

 

我们设计了基于FCN的文本检测要领,文本检测网络(如图7所示)爆发两种输出:Score Map和文本界限框的回归结果(回归目标为矩形时是5自由度的坐标和角度、回归任意四边形时是8自由度的坐标)。其中,分数图的像素值在[0,1],代表了在同样的位置预测的几何尺寸的置信度,分数凌驾预界说阈值的几何形状被认为是U效的结果预测,Z后通过非 值抵制爆发Z终文本检测结果。

jxf吉祥坊精准推荐团队自研的OCR技术目前已经广泛效劳于公司内部的多个业务。在种种场景中,例如广告素材、游戏图片、敏感广告等,都有良好的效果,部分文本检测效果如图8所示。

 

 

(3)游戏图片
(4)银行卡图片(部分内白为  ;ひ私)

目前数平精准推荐团队研发的OCR相关技术在公司内部众多产品中获得使用,例如:尤其在广告推荐的场景中,通过OCR技术对广告的素材创意进一步的识别和理解,大幅提升了用户点击率预估的效果。

<p style="box-sizing: border-box; margin: 15px 0px; font-size: 16px; padding: 0px; list-style: inherit; font-family: " pingfang="" sc",="" "helvetica="" neue",="" arial,="" "hiragino="" sans="" gb",="" "microsoft="" yahei="" ui",="" yahei",="" simsun,="" sans-serif;="" min-height:="" 0px;="" color:="" rgb(51,="" 51,="" 51);="" white-space:="" pre-wrap;"="">jxf吉祥坊精准推荐团队一直致力于实时精准推荐、海量大数据剖析及挖掘等领域的技术研发与落地。在OCR方面,我们已经有了多年积累下的各项技术积累,愿意与任何有OCR技术相关需求的业务同行进行交流相助,连续打造业界一流的数据、算法和系统。

获得更多产品支持与培训

加入WELINKIRT

是否有任何疑问?

世界各地的WELINKIRT代表可以随时为您提供支持,满足您的视觉和工业读码需求。

联系jxf祥瑞坊
sitemap网站地图