WO2019101066A1

WO2019101066A1 - 一种基于图像的文本录入方法

Info

Publication number: WO2019101066A1
Application number: PCT/CN2018/116414
Authority: WO
Inventors: 徐海燕; 冯博; 袁皓; 孙谷飞
Original assignee: 众安信息技术服务有限公司
Priority date: 2017-11-21
Filing date: 2018-11-20
Publication date: 2019-05-31
Also published as: CN107958249B; CN107958249A; US20190197309A1

Abstract

本发明提供了一种基于图像的文本录入方法。该方法包括：获取对应于图像中的至少一个区域的识别参数，其中，识别参数包括从该至少一个区域中识别出的文本内容和与该至少一个区域相关联的位置信息；响应于在录入页面中选中录入位置而执行以下操作：获取多个标签页面共享的参数值，并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域，其中，多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息；以及基于与所选中的录入位置相对应的位置信息和识别参数，确定将被录入的文本内容。

Description

一种基于图像的文本录入方法

本申请要求2017年11月21日提交的申请号为No.201711166037.1的中国申请的优先权，通过引用将其全部内容并入本文。

技术领域

本发明涉及文本录入技术，具体涉及一种基于图像的文本录入方法。

发明背景

对票据、表格、文档等的录入，是当前实现对纸质信息数字化管理的重要环节，OCR识别技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术，作为针对纸质文件转化为可使用的计算机输入技术的主要方式之一，可应用于银行票据、档案卷宗、大量文字资料的录入和处理等领域，目前处理速度可达到每分钟60～80张票据，存折识别率已经达到了85％以上，存单、凭条识别率达到90％以上，85％以上的识别率就能减少80％以上的数据录入员，可减轻操作员的工作量，减少重复劳动。但由于并不能实现100％的精准识别，所以仍需要录入人员针对部分内容，对照文本进行手动操作录入，并且还需要针对已识别部分进行人工复核。

因此，亟需一种基于图像的文本录入方法，使得录入人员可以实现快速录入。

发明内容

针对上述问题，本发明提出了一种基于图像的文本录入方法。

本发明一方面提供了一种基于图像的文本录入方法，包括：获取对应于所述图像中的至少一个区域的识别参数，其中，所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息；在录入页面中选中录入位置并获取与所选中的录入位置相对应的位置信息；以及基于所述与所选中的录入位置相对应的位置信息和所述识别参数，确定将被录入的文本内容。在一种实施方式中，所述获取识别参数的步骤包括：所述获取对应于所述图像中的至少一个区域的识别参数的步骤包括：对所述图像进行区域自动划分，并且对自动划分出的区域中的文本内容进行识别。

在一种实施方式中，所述获取与所选中的录入位置相对应的位置信息包括：获取多个标签页面共享的参数值；以及显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域；其中，所述多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息。

在一种实施方式中，所述对自动划分出的区域中的文本内容进行识别的步骤包括：采用OCR方式对所述自动划分出的区域中的文本内容进行识别。

在一种实施方式中，所述对自动划分出的区域中的文本内容进行识别的步骤包括：对识别出的文本内容进行打分，以进行识别准确度标识。

在一种实施方式中，所述显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域的步骤包括：对所述与所选中的录入位置相对应的区域进行缩放。

本发明另一方面提供了一种基于图像的文本录入装置，包括：获取识别参数单元，被配置为获取对应于所述图像中的至少一个区域的识别参数，其中，所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息；录入与显示联动单元，被配置为在录入页面中选中录入位置并获取与所选中的录入位置相对应的位置信息；以及录入文本确定单元，被配置为基于所述与所选中的录入位置相对应的位置信息和所述识别参数，确定将被录入的文本内容。

在一种实施方式中，所述获取识别参数单元还包括图像划分和识别单元，所述图像划分和识别单元被配置为对所述图像进行区域自动划分，并且对自动划分出的区域中的文本内容进行识别。

在一种实施方式中，所述录入与显示联动单元进一步被配置为：获取多个标签页面共享的参数值；以及显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域；其中，所述多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息。

在一种实施方式中，所述图像划分和识别单元还被配置为采用OCR方式对所述自动划分出的区域中的文本内容进行识别。

在一种实施方式中，所述图像划分和识别单元还被配置为对识别出的文本内容进行打分，以进行识别准确度标识。

在一种实施方式中，所述录入与显示联动单元还包括图像缩放单元，所述图像缩放单元被配置为对所述与所选中的录入位置相对应的区域进行缩放。

本发明另一方面提供了一种计算机可读存储介质，其上存储有处理器可执行指令，所述处理器执行所述可执行指令时，执行上述基于图像的文本录入方法中任一项所述的方法。

本发明的有益技术效果：

本发明提供的基于图像的文本录入方法使得可以高效地进行表格、票据、文档等的快速录入的交互操作，并且由于当录入人员在选中的输入框中进行录入时，上传的图像将被自动切换到相对应的位置并且图像的内容被放大，使得录入人员不需要依靠纯手动方式拖动图像来实现录入，大大节约了对照图像进行录入的时间，提高录入效率；同时针对通过OCR方式识别出的文本内容进行识别准确度标识，使得用户在进行复核时，可以直接根据识别准确度的情况进行快速查看，可有效的缩短复核时间，极大提高了录入效率。

附图简要说明

图1是根据本发明的实施例的基于图像的文本录入方法的流程图；

图2是根据本发明的实施例的实现票据文本录入的方法流程图；

图3是根据本发明的实施例的在显示页面中显示的票据图像的一个示例；

图4是根据本发明的实施例的录入页面的一个示意图；

图5是根据本发明的实施例的基于图像的文本录入装置的示意图。

实施本发明的方式

在以下优选的实施例的具体描述中，将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例性实施例并不旨在穷尽根据本发明的所有实施例。可以理解，在不偏离本发明的范围的前提下，可以利用其他实施例，也可以进行结构性或者逻辑性的修改。因此，以下的具体描述并非限制性的，且本发明的范围由所附的权利要求所限定。

以下结合附图对本发明进行详细描述。

图1根据本发明实施例的基于图像的文本录入方法的流程图。

本发明提供了基于图像的文本录入方法，该方法包括如下步骤：

步骤S101：获取对应于图像中的至少一个区域的识别参数，其中，识别参数包括从至少一个区域中识别出的文本内容和与至少一个区域相关联的位置信息；

步骤S102：响应于在录入页面中选中录入位置而执行以下操作：获取多个标签页面共享的参数值，并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域，其中，多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息；

步骤S103：基于与所选中的录入位置相对应的位置信息和识别参数，确定将被录入的文本内容。

应理解的是，本方法所针对的图像包括票据、表格、文档等多种纸质文件，不局限于某一种特定的纸质文件。下面以票据为例，进一步详细阐述本发明所提供基于图像的文本录入方法。

图2是根据本发明的实施例的实现票据文本录入的方法流程图。

下面结合图2、3、4对票据文本录入的实现过程进行详细描述。

步骤S201：将票据图像上传到录入系统。

在该步骤中，用户将需要用到所需的票据文件通过扫描仪等任意适当的方式上传到系统，如果上传有误，则系统将根据出错类型提示用户重新上传图像。

步骤S202：判断系统中是否存在图像自动划分模型，如果存在，则进行步骤S203，否则进行步骤S204。

步骤S203：通过图像自动划分模型对票据图像进行自动划分，获得自动划分出的区域的位置信息。

本实施例中的图像自动划分模型为基于机器学习算法的模型，通过判断图像中的关键字位置来对图像进行区域自动划分。应理解，还可以基于任意适当的模型以及通过任何适当的方式对图像进行区域自动划分。

步骤S204：进入纯手动录入模式。

步骤S205：通过OCR方式对自动划分出的区域中的文本内容进行自动识别。

应当理解，也可以采用任意适当的其它方式对自动划分后的区域中的文本内容进行自动识别。

步骤S206：对识别出的文本内容打分以进行识别准确度标识，其中，分值高的为系统默认识别准确度高的识别项，分数低的为系统默认识别准确度低的识别项，例如，在本实施例中，分值在85分以上的识别项被认为是识别准确度高的识别项，并在录入位置(本实施例中为输入框)下拉框选项边上添加小矩形框(如图4所示)，否则被认为是识别准确度低的识别项，并在录入位置(本实施例中为输入框)下拉框选项边上添加小三角形(如图4所示)。在其它实施例中，对于识别出的分值不同的文本内容，在对应的下拉框选项中采用标注不同颜色的方式来区分识别准确度。

同时应理解，进行识别准确度标识是为了便于录入人员快速查看，对于准确度高的识别项可以快速确认完成录入，而可以将注意重点放在识别准确度低的识别项，及时纠正识别不准确的问题，从而缩短复核时间。打分制只是对识别准确度进行标识的其中一种方式，并且分值高低的设定不是唯一的，本领域技术人员可以采用其它适当方式对识别准确度进行标识。

步骤S207：当录入人员在录入页面中选中输入框进行文本录入时，系统响应于所选中的输入框，显示页面自动定位到与所选中的输入框的关键字相对应的区域。具体地，如图4所示，当录入人员在录入页面中将鼠标放置在“XX市第一人民医院”401处时，图3中301区域的“XX市第一人民医院”的内容将居中显示在显示页面上，并且该内容可以自动放大到适合大小，如有需要，还可以使用缩放工具进行手动调整；同样地，当录入人员在录入页面中将鼠标放置到图4所示的“总金额”402处时，图3中302区域中“总金额”及其对应数值“1000￥”的内容将在居中显示在显示页面上，并且该内容还可以自动放大到合适大小，如有需要，还可以使用缩放工具进行手动调整，同样地，当鼠标放置在显示页面的其它任意的输入框时，可以实现上述同样的功能。

本实施例的实施过程中，采用了浏览器跨标签页通信技术(cross-tab communication)。具体地，采用浏览器window监听本地存储功能localstorage的变化，其中，localstorage中的值可以在不同标签页间共享，并且根据storage事件特性来实现录入页面与显示页面的联动，具体实现方式如下：

首先，以坐标点point(x,y,w,h)表示在步骤S203中从票据图像中自动划分出的区域的位置信息，如图3所示，其中，x表示自动划分出的区域在图像中的横向坐标点，y表示自动划分出的区域在图像中的纵向坐标点，w表示自动划分出的区域在x轴方向上的宽度，h表示自动划分出的区域在y轴方向上的高度。

然后，进行初始化过程，添加自动划分出的区域的位置信息坐标点point和步骤S205中针对自动划分出的区域所识别出的文本内容，保存在localstorage中；

随后，监听鼠标滑动事件，用户将鼠标从当前输入框位置滑动到的需要进行输入的输入框位置时，得到需要进行输入的输入框所对应的关键字，进一步用该关键字对应的新的位置信息坐标点Point和该坐标点对应的文本内容更新locolstorage中对应的值。

然后，在显示页面处监听localstorage的变化，根据监听到的storage事件得到更新后的locolstorage中对应的值在显示页面中将图像平移到相应区域并且放大该区域：

应当理解，跨浏览器标签页通信方式还可以采用BroadcastChannel、Cookie、Websocket等其他方案来实现。但localstorage与BroadcastChannel相比兼容性更好、生命周期更长；与cookie相比，由于cookie的改变没有事件通知，所以只能采取轮询脏检查来实现业务逻辑，只能在同域下使用，并且污染cookie以后还会额外增加AJAX的请求头内容，还有存储空间小的限制在4K；而WebSocket适用于小型项目，需要后端服务器维护连接，以及后续的消息推送行为，占用更多的服务器资源，因此，在本实施例中，采用localstorage来实现跨浏览器标签页通信。

步骤S208：如果在如图4所示的录入页面处鼠标所放置的输入框中有识别出的文本内容，则执行步骤S209；否则执行步骤S210；

步骤S209：判断识别文本内容是否准确，如果准确，则执行步骤S212；否则执行步骤S211；

步骤S210：在输入框中，根据显示页面显示的内容手动输入文本内容，然后执行步骤S212；

步骤S211：在输入框中手动修正识别出的文本内容；

步骤S212：点击确认，完成录入；

另外，图5示出了根据本发明实施例的基于图像的文本录入装置的示意图。本发明还提供了如图5所示的一种基于图像的文本录入装置，该装置包括获取识别参数单元501、录入与显示联动单元502和录入文本确定单元503。具体地，获取识别参数单元501被配置为获取对应于图像中的一个或多个区域的识别参数，其中，识别参数包括从一个或多个区域中识别出的文本内容和与一个或多个区域相关联的位置信息。录入与显示联动单元502被配置为响应于在录入页面中选中录入位置而执行以下操作：获取多个标签页面共享的参数值，并且显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域，其中，多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息。录入文本确定单元503被配置为基于与所选中的录入位置相对应的位置信息和识别参数，确定将被录入的文本内容。

此外，在一种实施方式中，获取识别参数单元501还包括图像划分和识别单元501a。图像划分和识别单元501a被配置为对图像进行区域自动划分，并且对自动划分出的区域中的文本内容进行识别。在一种实施方式中，图像划分和识别单元501a还被配置为用OCR方式对所述自动划分出的区域中的文本内容进行识别。在另一种实施方式中，图像划分和识别单元501a还被配置为对识别出的文本内容进行打分，以对识别准确度进行标识。

另外，一种实施方式中，录入与显示联动单元502还包括图像缩放单元502a，图像缩放单元502a被配置为对与所选中的录入位置相对应的区域进行缩放。

图1、2中的文本录入方法的流程还代表机器可读指令，该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中，该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的，图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外，虽然图1所示的流程图描述了该文本录入方法，但可对该文本录入方法中的步骤进行修改、删除或合并。

如上所述，可利用编码指令(如计算机可读指令)来实现图1的示例过程，该编程指令存储于有形计算机可读介质上，如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/ 或任何其他存储介质，在该存储介质上信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。如在此所用的，该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地，可利用编码指令(如计算机可读指令)实现图1的示例过程，该编码指令存储于非暂时性计算机可读介质，如硬盘，闪存，只读存储器，光盘，数字通用光盘，高速缓存器，随机访问存储器和/或任何其他存储介质，在该存储介质信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。

虽然参照特定的示例来描述了本发明，其中这些特定的示例仅仅旨在是示例性的，而不是对本发明进行限制，但对于本领域普通技术人员来说显而易见的是，在不脱离本发明的精神和保护范围的基础上，可以对所公开的实施例进行改变、增加或者删除。

Claims

一种基于图像的文本录入方法，其特征在于，包括：

获取对应于所述图像中的至少一个区域的识别参数，其中，所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息；

在录入页面中选中录入位置并获取与所选中的录入位置相对应的位置信息；以及，

基于所述与所选中的录入位置相对应的位置信息和所述识别参数，确定将被录入的文本内容。
根据权利要求1所述的基于图像的文本录入方法，其特征在于，所述获取对应于所述图像中的至少一个区域的识别参数的步骤包括：对所述图像进行区域自动划分，并且对自动划分出的区域中的文本内容进行识别。
根据权利要求2所述的文本录入方法，其特征在于，所述获取与所选中的录入位置相对应的位置信息包括：

获取多个标签页面共享的参数值；以及

显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域；

其中，所述多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息。
根据权利要求2所述的基于图像的文本录入方法，其特征在于，所述对自动划分出的区域中的文本内容进行识别的步骤包括：采用OCR方式对所述自动划分出的区域中的文本内容进行识别。
根据权利要求2所述的基于图像的文本录入方法，其特征在于，所述对自动划分出的区域中的文本内容进行识别的步骤包括：对识别出的文本内容进行打分，以进行识别准确度标识。
根据权利要求3所述的基于图像的文本录入方法，其特征在于，所述显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域的步骤包括：对所述与所选中的录入位置相对应的区域进行缩放。
一种基于图像的文本录入装置，其特征在于，包括：

获取识别参数单元，被配置为获取对应于所述图像中的至少一个区域的识别参数，其中，所述识别参数包括从所述至少一个区域中识别出的文本内容和与所述至少一个区域相关联的位置信息；

录入与显示联动单元，被配置为在录入页面中选中录入位置并获取与所选中的录入位置相对应的位置信息；以及

录入文本确定单元，被配置为基于所述与所选中的录入位置相对应的位置信息和所述识别参数，确定将被录入的文本内容。
根据权利要求7所述的基于图像的文本录入装置，其特征在于，所述录入与显示联动单元进一步被配置为：

获取多个标签页面共享的参数值；以及

显示页面根据所获取的多个标签页面共享的参数值自动定位到与所选中的录入位置相对应的区域；

其中，所述多个标签页面共享的参数值包括与所选中的录入位置相对应的位置信息。
根据权利要求7所述的基于图像的文本录入装置，其特征在于，所述获取识别参数单元还包括图像划分和识别单元，所述图像划分和识别单元被配置为对所述图像进行区域自动划分，并且对自动划分出的区域中的文本内容进行识别。
根据权利要求9所述的基于图像的文本录入装置，其特征在于，所述图像划分和识别单元还被配置为采用OCR方式对所述自动划分出的区域中的文本内容进行识别。
根据权利要求9所述的基于图像的文本录入装置，其特征在于，所述图像划分和识别单元还被配置为对识别出的文本内容进行打分，以对识别准确度进行标识。
根据权利要求7所述的基于图像的文本录入装置，其特征在于，所述录入与显示联动单元还包括图像缩放单元，所述图像缩放单元被配置为对所述与所选中的录入位置相对应的区域进行缩放。
一种计算机可读存储介质，其上存储有处理器可执行指令，所述处理器执行所述可执行指令时，执行根据权利要求1-6中任一项所述的方法。