WO2019233212A1

WO2019233212A1 - 文本识别方法、装置、移动终端以及存储介质

Info

Publication number: WO2019233212A1
Application number: PCT/CN2019/084377
Authority: WO
Inventors: 揭骏仁; 林建华
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-06-07
Filing date: 2019-04-25
Publication date: 2019-12-12
Also published as: CN109002759A

Abstract

本申请实施例公开了一种文本识别方法、装置、移动终端以及存储介质，涉及移动终端技术领域。所述方法包括：检测作用于用户界面的触控操作，当该触控操作满足预设条件时，对与该触控操作的位置对应的用户界面上的界面元素进行识别，当未识别成功时，截取与该触控操作的位置对应的控件图像并对该控件图像进行识别，在用户界面的部分区域上叠加显示至少一个卡片，该至少一个卡片用于显示由该控件图像识别出的信息。本申请实施例提供的文本识别方法、装置、移动终端以及存储介质，通过图像识别技术，提升取词识别的快捷性和准确性，以提升用户体验。

Description

文本识别方法、装置、移动终端以及存储介质

相关申请的交叉引用

本申请要求于2018年6月7日提交的申请号为201810586716.2的中国申请的优先权，其在此出于所有目的通过引用将其全部内容并入本文。

技术领域

本申请涉及移动终端技术领域，更具体地，涉及一种文本识别方法、装置、移动终端以及存储介质。

背景技术

随着科学技术的发展，移动终端已经成为人们日常生活中最常用的电子产品之一。并且，用户经常会通过移动终端获取信息进行大量的阅读，以满足自己的阅读需求。

发明内容

鉴于上述问题，本申请提出了一种文本识别方法、装置、移动终端以及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种文本识别方法，所述方法包括：检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别；当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别；在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述控件图像识别出的信息。

第二方面，本申请实施例提供了一种文本识别装置，所述装置包括：界面元素识别模块，用于检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对所述触控操作的位置对应的所述用户界面上的界面元素进行识别；图像截取模块，用于当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别；卡片显示模块，用于在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述控件图像识别出的信息。

第三方面，本申请实施例提供了一种移动终端，包括触摸屏、存储器以及处理器，所述触摸屏与所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请一个实施例提供的文本识别方法的流程示意图；

图2示出了本申请实施例提供的移动终端的用户界面的一种示意图；

图3示出了本申请又一个实施例提供的文本识别方法的流程示意图；

图4示出了本申请的图3所示的实施例提供的文本识别方法的步骤S240流程示意图；

图5示出了本申请实施例提供的移动终端的用户界面的另一种示意图；

图6示出了本申请的图3所示的实施例提供的文本识别方法的步骤S270流程示意图；

图7示出了本申请再一个实施例提供的文本识别方法的流程示意图；

图8示出了本申请一个实施例提供的文本识别装置的模块框图；

图9示出了本申请又一个实施例提供的文本识别装置的模块框图；

图10示出了本申请实施例提供的一种移动终端的结构示意图；

图11示出了用于执行根据本申请实施例的文本识别方法的移动终端的框图；

图12示出了本申请实施例的用于保存或者携带实现根据本申请实施例的文本识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

目前，用户在通过移动终端上网聊天、阅读文字、查看图片或者观看视频时，经常会对其中的一些内容产生兴趣并进行搜索获取更加详细的信息，此时，用户首先需要复制感兴趣的内容或牢记感兴趣的内容，然后打开浏览器，并将复制的内容粘贴到浏览器的搜索框中或将牢记的内容输入到浏览器的搜索框中进行搜索以获得详细信息，导致操作过程十分的繁琐，耗时较长且容易产生错误。发明人经过长期的研究发现，可以利用系统自带的辅助模式，根据用户的触控操作进行文本内容的获取并识别，但是这种方式往往会因为用户的触控操作的影响而造成文本内容的获取失败或错误。针对上述技术问题，发明人提出了本申请实施例提供的文本识别方法、装置、移动终端以及存储介质，通过图像识别技术，提升取词识别的快捷性和准确性，以提升用户体验。其中，具体的文本识别方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的文本识别方法的流程示意图。所述文本识别方法用于通过图像识别技术，提升取词识别的快捷性和准确性，以提升用户体验。在具体的实施例中，所述文本识别方法应用于如图8所示的文本识别装置200以及配置有所述文本识别装置200的移动终端(图10)。下面将以移动终端为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的移动终端可以为智能手机、平板电脑、穿戴式电子设备等，在此不做具体的限定。下面将针对图1所示的流程进行详细的阐述，所述文本识别方法具体可以包括以下步骤：

步骤S110：检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别。

在本实施例中，对作用于用户界面的触控操作进行检测，作为一种方式，该触控操作可以包括单指点击、多指点击、单指长按、多指长按、重压、多次点击、滑动操作、复制操作、按压面积等，其中，所述单指点击是指单指在用户界面上进行点击的操作；多指点击是指多指在用户界面上同时进行点击的操作；单指长按是指单指在用户界面上按压超过预设时长；多指长按是指多指同时在用户界面上按压超过预设时长；重压是指在用户界面上按压力度超过预设力度；多次点击是指在预设时间内点击次数超过预设次数；滑动操作是指单指在用户界面上进行滑动的操作；复制操作是指在用户界面将文本信息复制到粘贴板的操作；按压面积是指在用户界面上的单指按压面积超过预设面积。

进一步地，移动终端预先设置并存储有预设条件，其中，该预设条件用于作为触控操作的判断依据，即在检测获取所述触控操作后，将该触控操作与预设条件进行比较，以判断该触控操作是否满足预设条件，作为一种方式，当该触控操作满足预设条件时，获取该触控操作的位置，例如，获取该触控操作的位置对应的坐标信息，然后对位于该触控操作的位置对应的用户界面上的界面元素进行识别。具体地，所述界面元素包括但不仅限于文本、图片、音频以及视频，同时，所述移动终端可以基于该触控操作的位置确定至少一个界面元素并识别，例如，可以对该触控操作的位置处的界面元素进行识别、可以对与该触控操作的位置处的界面元素位于同一段落的所有界面元素均进行识别等，在此不做具体的限定。

步骤S120：当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。

其中，当触控操作的位置对应的界面元素未识别成功，即对该触控操作的位置对应的界面元素进行识别的结果为空时，自动对触控操作的位置对应的文本进行图像截取获取控件图像，并对该控件图像进行识别。具体地，系统自动获取触控操作的位置对应的文本所在的控件，并对该控件进行截取，然后通过后台调用图像转文字识别OCR(Optical Character Recognition，光学字符识别)模块进行识别。其中，图像转文字识别为利用图像转文字识别技术，可以采取离线，即将图像转文字的识别库移植到移动终端的方式。具体地，根据移动终端内的图像转文字识别库对图片信息进行图像转文字识别操作；也可以通过在线的方式，即将图像传送至远程图像转文字服务器进行识别。将图片信息上传至图像转文字服务器，图像转文字服务器根据内部的图像转文字识别库图片信息进行图像转文字识别操作，并将识别结果发送至移动终端。进一步地，图像转文字除了识别返回图像中的文字信息以外，还可以附带每个文字的x坐标、y坐标、宽度以及高度等，在此不再赘述。

作为一种方式，在系统进行图像转文字识别的过程中，所述移动终端的用户界面可以显示提示信息，其中，该提示信息用于提示用户当前正在进行图像转文字识别操作。

步骤S130：在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述控件图像识别出的信息。

请参阅图2，图2示出了本申请实施例提供的移动终端的用户界面的一种示意图。该用户界面的部分区域可以位于该用户界面的下半部的部分区域、可以位于该用户界面的上半部的部分区域、可以位于该用户界面的左半部的部分区域、也可以位于该用户界面的右半部的部分区域等，可选的，在本实施例中，所述部分区域位于用户界面的下半部靠近底部的区域，其大小不做具体的限定。具体地，对截取的控件图像进行图像转文字识别，获取该控件图像中的至少一个关键词，并对所述至少一个关键词进行搜索，以获取与所述控件图像的内容对应的搜索结果信息，该搜索结果信息以卡片的形式进行显示，其中，所述卡片作为承载所述搜索结果信息的载体，每个卡片至少可以显示一个搜索结果信息，至少一个卡片中的每个卡片显示的搜索结果信息的数量可以相同，也可以不同，且每个卡片显示的搜索结果信息可以来自同一应用程序，或来自不同的应用程序。进一步地，所述至少一个卡片还可以显示分词信息，即可以显示基于该控件图像进行识别后，获取的至少一个关键词，用户可以基于该分词信息进行选词编辑，例如，对分词信息中的关键词进行搜索、翻译、分享等。

进一步地，所述至少一个卡片以叠加的形式显示在所述用户界面的部分区域上，可以理解的，此时，所述卡片可以层叠显示在所述用户界面的部分区域的上方，所述卡片也可以覆盖所述用户界面的部分区域且与所述用户界面在不同层级显示。另外，在本实施例中，当所述至少一个卡片叠加显示在所述用户界面的部分区域时，位于所述部分区域的原始内容仍部分可见，不完全被遮挡，以供用户点击操作。

本申请一个实施例提供的文本识别方法，检测作用于用户界面的触控操作，当该触控操作满足预设条件时，对与该触控操作的位置对应的用户界面上的界面元素进行识别，当未识别成功时，截取与该触控操作的位置对应的控件图像并对该控件图像进行识别，在用户界面的部分区域上叠加显示至少一个卡片，该至少一个卡片用于显示由该控件图像识别出的信息，通过图像识别技术，提升取词识别的快捷性和准确性，以提升用户体验。

请参阅图3，图3示出了本申请又一个实施例提供的文本识别方法的流程示意图。下面将针对图3所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S210：检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别。

步骤S220：当未识别成功时，获取所述用户界面对应的应用程序。

其中，一个应用程序包括有多个用户界面，在获取用户界面后，基于该用户界面可以获取其所对应的应用程序。作为一种方式，通过所述用户界面，可以获取该应用程序的类型、获取该应用程序的名称或获取该应用程序的用途等。

步骤S230：判断所述应用程序是否为重点应用程序，若否，执行步骤S270，若是，执行步骤S240。

进一步地，移动终端预先设置并存储有重点应用程序，该重点应用程序用于作为应用程序的判断依据，其中，重点应用程序可以为系统原生应用程序，也可以为用户下载安装的第三方应用程序，并且，该重点应用程序可以由移动终端系统预先自行配置，也可以由用户手动配置等。具体地，当重点应用程序由移动终端系统自行配置时，该系统可以根据应用程序的使用频率进行配置，例如，将使用频率高于某个频率阈值的应用程序作为重点应用程序，将使用频率不高于某个频率阈值的应用程序作为非重点应用程序；或者当重点应用程序由移动终端系统自行配置时，可以根据应用程序的类型进行配置，例如，将文本显示类或即时通讯类的应用程序作为非重点应用程序，如微信、QQ、微博、新闻类、浏览器类，将视频显示类的应用程序作为重点应用程序等。当重点应用程序由用户手动配置时，可以根据用户的喜好或需求选择一个或多个应用程序作为重点应用程序。

步骤S240：当所述应用程序是所述重点应用程序时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。

其中，在判断所述应用程序是重点应用程序时，对触控操作的位置对应的文本进行图像截取获取控件图像，并对该控件图像进行识别。

请参阅图4，图4示出了本申请的图3所示的实施例提供的文本识别方法的步骤S240的流程示意图。下面将针对图4所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S241：当所述应用程序是所述重点应用程序时，获取与所述触控操作的位置对应的控件类型。

作为一种方式，在判断所述应用程序是重点应用程序时，对当前触控操作的位置对应的控件的控件类型进行检测并获取。可以理解的，该控件类型至少可以包括文本类型、图片类型、视频类型等。

步骤S242：判断所述控件类型是否满足预设类型。

进一步地，所述移动终端预先设置并存储有预设类型，该预设类型用于作为控件类型的判断依据，作为一种方式，该预设类型可以为text view，因此，在检测获取所述控件类型后，将控件类型与text view进行比较，以判断该控件类型是否满足text view。

步骤S243：当所述控件类型满足预设类型时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。

其中，当判断该控件类型满足预设类型时，则截取与触控操作的位置对应的控件图像并进行自动OCR对控件图像进行识别。

步骤S250：判断所述控件图像是否能够识别出有效信息，其中，所述有效信息的置信概率高于预设值；若是，执行步骤S260，若否，执行步骤S270。

进一步地，对所述控件图像是否能够识别出有效信息进行判断，其中，该有效信息的置信概率高于预设值，具体地，对将控件图像进行识别后获取的信息进行检测，作为一种方式，首先检测该信息是否包含文本信息，当该信息不包含文本信息时，表征该信息为空，识别失败；当该信息包含文本信息时，继续获取该文本信息的置信概率并进行判断，作为一种方式，移动终端预先存储有置信概率的算法和预设值，通过该算法可以计算该信息的置信概率，再将该置信概率与预设值进行比较，以判断该置信概率是否高于该预设值，其中，当该置信概率高于预设值时，表征该控件图像能够识别出有效信息。

作为一种方式，若对控件图像进行解析识别时出现乱码文本，则需要对解析出来的结果进行初步筛选，对乱码和字符进行过滤，过滤后如果没有有效信息，则在用户界面显示选择控件，如果有有效信息，则在用户界面的部分区域上叠加显示至少一个卡片。

步骤S260：在所述用户界面的部分区域上叠加显示至少一个卡片。

进一步地，若该控件图像能够识别出该有效信息，则展示结果，即在用户界面的部分区域上叠加显示至少一个卡片。作为一种方式，在所述卡片下方显示选择控件与所述卡片位于同一界面，以在用户对该有效信息不满意时，提供用户进行手动框选的入口。

步骤S270：在所述用户界面显示选择控件，其中，所述选择控件用于触发手动框选或取消识别。

请参阅图5，图5示出了本申请实施例提供的移动终端的用户界面的另一种示意图。进一步地，若该应用程序不是重点应用程序或者该控件图像不能够识别出该有效信息，则在用户界面显示所述选择控件，其中，该选择控件用于触发手动框选或取消识别。

请参阅图6，图6示出了本申请的图3所示的实施例提供的文本识别方法的步骤S270的流程示意图。下面将针对图6所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S271：获取对所述控件图像进行识别的时长。

步骤S272：判断所述时长是否超过预设时长。

作为一种方式，在系统对控件图像进行识别时，对其识别的时长进行获取，并将该时长与预设时长进行比较，其中，该预设时长在移动终端中预先设置并存储用于作为该时长的判断依据，例如，该预设时长可以为8s、10s等。在本实施例中，当该时长超过预设时长时，表征控件图像识别过长，识别失败，则在用户界面显示选择控件，由用户选择是否继续进行手动框选。

步骤S273：当所述时长超过所述预设时长时，在所述用户界面显示所述选择控件。

作为一种方式，若用户选择手动框选，在手动框选对应的区域后，在框选控件的下方显示二维码识别控件、商品识别控件以及文本识别控件，根据用户触发的二维码识别控件可对截取图像进行二维码识别；根据用户触发的商品识别控件可以对截取图像的进行商品识别；根据用户触发的文本识别控件对截取图像进行文本识别。进一步地，在识别过程中，在用户界面显示一个圆圈进度提示，并在识别结束后弹出响应的卡片。

本申请又一个实施例提供的文本识别方法，检测作用于用户界面的触控操作，当该触控操作满足预设条件时，对与该触控操作的位置对应的用户界面上的界面元素进行识别，当未识别成功时，获取用户界面对应的应用程序，判断该应用程序是否为重点应用程序，当该应用程序不是重点应用程序时，在用户界面显示选择控件，该选择控件用于触发手动款选或取消识别，当应用程序是重点应用程序时，截取与触控操作的位置对应的控件图像并对该控件图像进行识别，判断该控件图像是否能够识别出有效信息，其中，该有效信息的置信概率高于预设值，当该控件图像能够识别出有效信息时，在用户界面的部分区域上叠加显示至少一个卡片，当控件图像不能识别出有效信息时，在用户界面显示选择控件，从而通过自动框选识别和手动框选识别的方式，提升取词识别的快捷性和准确性，以提升用户体验。

请参阅图7，图7示出了本申请再一个实施例提供的文本识别方法的流程示意图。下面将针对图7所示的流程进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S310：检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别。

步骤S320：当未识别成功时，获取所述触控操作对应的触控中心位置。

在本实施例中，当未识别成功时，获取该触控操作对应的触控中心位置，作为一种方式，获取该触控操作的触控区域，基于该触控区域进行计算，获取该触控区域的中心位置，其中，该中心位置为触控操作对应的触控中心位置。

步骤S330：判断所述触控中心位置是否在所述用户界面的有效控件上，其中，所述有效控件至少包括一个界面元素。

进一步地，用户界面包括有多个控件，作为一种方式，可以通过判断该多个控件是否包括有界面元素对控件进行划分，其中，当控件包括至少一个界面元素时，则可以将该控件视作有效控件；当该控件没有包括界面元素时，则可以将该控件视作空白控件或无效控件。在本实施例中，对各个有效控件的坐标位置进行检测，并通过该触控中心位置的坐标位置和有效控件的坐标位置判断该触控中心位置是否在该有效控件上。

步骤S340：当所述触控中心位置在所述有效控件上时，截取有效控件图像并对所述有效控件图像进行识别。

作为一种方式，当该触控中心位置在有效控件上，则截取该有效控件图像并对该有效控件图像进行图像转文字识别。其中，可以对该有效控件上的文本进行截取识别。

步骤S350：当所述触控中心位置不在所述有效控件上时，截取用户界面图像并对所述用户界面图像进行识别。

作为另一种方式，当该触控中心位置不再有效控件上时，则截取用户界面图像并对该用户界面图像进行图像转文字识别。其中，可以对该用户界面的全屏进行截取识别。

步骤S360：在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述有效控件图像或所述用户界面图像识别出的信息。

本申请再一个实施例提供的文本识别方法，检测作用于用户界面的触控操作，当该触控操作满足预设条件时，对于该触控操作的位置对应的用户界面上的界面元素进行识别，当未识别成功时，获取触控操作对应的触控中心位置，判断该触控中心位置是否在用户界面的有效控件上，其中，该有效控件至少包括一个界面元素，当该触控中心位置在有效控件上时，截取有效控件图像并对有效控件图像进行识别，当触控中心位置不在有效控件上时，截取用户界面图像并对用户界面图像进行识别，从而根据触控中心位置进行图像截取识别，提升取词识别的快捷性，以提升用户体验。

请参阅图8，图8示出了本申请一格实施例提供的文本识别装置200的模块框图。下面将针对图8所示的框图进行阐述，所述文本识别装置200包括：界面元素识别模块210、图像截取模块220以及卡片显示模块230，其中：

界面元素识别模块210，用于检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对所述触控操作的位置对应的所述用户界面上的界面元素进行识别。

图像截取模块220，用于当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。请参阅图9，图9示出了本申请又一个实施例提供的文本识别装置200的模块框图，进一步地，所述图像截取模块220包括：应用程序获取子模块221、应用程序判断子模块222、控件图像识别子模块223、选择控件显示子模块224、触控中心位置获取子模块225、触控中心位置判断子模块226、有效控件图像识别子模块227以及用户界面图像识别子模块228，其中：

应用程序获取子模块221，用于当未识别成功时，获取所述用户界面对应的应用程序。

应用程序判断子模块222，用于断所述应用程序是否为重点应用程序。

控件图像识别子模块223，用于当所述应用程序是所述重点应用程序时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。进一步地，所述控件图像识别子模块223包括：控件类型获取单元、控件类型判断单元以及控件图像识别单元，其中：

控件类型获取单元，用于当所述应用程序是所述重点应用程序时，获取与所述触控操作的位置对应的控件类型。

控件类型判断单元，用于判断所述控件类型是否满足预设类型。

控件图像识别单元，用于当所述控件类型满足预设类型时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。

选择控件显示子模块224，用于当所述应用程序不是所述重点应用程序时，在所述用户界面显示选择控件，其中，所述选择控件用于触发手动框选或取消识别。

触控中心位置获取子模块225，用于当未识别成功时，获取所述触控操作对应的触控中心位置。

触控中心位置判断子模块226，用于判断所述触控中心位置是否在所述用户界面的有效控件上，其中，所述有效控件至少包括一个界面元素。

有效控件图像识别子模块227，用于当所述触控中心位置在所述有效控件上时，截取有效控件图像并对所述有效控件图像进行识别。

用户界面图像识别子模块228，用于当所述触控中心位置不在所述有效控件上时，截取用户界面图像并对所述用户界面图像进行识别。

卡片显示模块230，用于在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述控件图像识别出的信息。进一步地，所述卡片显示模块230包括：有效信息判断子模块231、卡片显示子模块232以及选择控件显示子模块233，其中：

有效信息判断子模块231，用于判断所述控件图像是否能够识别出有效信息，其中，所述有效信息的置信概率高于预设值。

卡片显示子模块232，用于当所述控件图像能够识别出所述有效信息时，在所述用户界面的部分区域上叠加显示至少一个卡片。

选择控件显示子模块233，用于当所述控件图像不能识别出所述有效信息时，在所述用户界面显示所述选择控件。进一步地，所述选择控件显示子模块233包括：时长获取单元、时长判断单元以及选择控件显示单元，其中：

时长获取单元，用于获取对所述控件图像进行识别的时长。

时长判断单元，用于判断所述时长是否超过预设时长。

选择控件显示单元，用于当所述时长超过所述预设时长时，在所述用户界面显示所述选择控件。

综上所述，本申请实施例提供的一种文本识别方法、装置、移动终端以及存储介质，检测作用于用户界面的触控操作，当该触控操作满足预设条件时，对于该触控操作的位置对应的用户界面上的界面元素进行识别，当未识别成功时，截取与该触控操作的位置对应的控件图像并对该控件图像进行识别，在用户界面的部分区域上叠加显示至少一个卡片，该至少一个卡片用于显示由该控件图像识别出的信息，通过图像识别技术，提升取词识别的准确性，以提升用户体验。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。对于方法实施例中的所描述的任意的处理方式，在装置实施例中均可以通过相应的处理模块实现，装置实施例中不再一一赘述。

请再次参阅图10，基于上述的文本识别方法、装置，本申请实施例还提供一种移动终端100，其包括电子本体部10，所述电子本体部10包括壳体12及设置在所述壳体12上的主显示屏120。所述壳体12可采用金属、如钢材、铝合金制成。本实施例中，所述主显示屏120通常包括显示面板111，也可包括用于响应对所述显示面板111进行触控操作的电路等。所述显示面板111可以为一个液晶显示面板(Liquid Crystal Display，LCD)，在一些实施例中，所述显示面板111同时为一个触摸屏109。

请同时参阅图11，在实际的应用场景中，所述移动终端100可作为智能手机终端进行使用，在这种情况下所述电子本体部10通常还包括一个或多个(图中仅示出一个)处理器102、存储器104、RF(Radio Frequency，射频)模块106、音频电路110、传感器114、输入模块118、电源模块122。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对所述电子本体部10的结构造成限定。例如，所述电子本体部10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

本领域普通技术人员可以理解，相对于所述处理器102来说，所有其它的组件均属于外设，所述处理器102与这些外设之间通过多个外设接口124相耦合。所述外设接口124可基于以下标准实现：通用异步接收/发送装置(Universal Asynchronous Receiver/Transmitter，UART)、通用输入/输出(General Purpose Input Output，GPIO)、串行外设接口(Serial Peripheral Interface，SPI)、内部集成电路(Inter-Integrated Circuit，I2C)，但不并限于上述标准。在一些实例中，所述外设接口124可仅包括总线；在另一些实例中，所述外设接口124还可包括其它元件，如一个或者多个控制器，例如用于连接所述显示面板111的显示控制器或者用于连接存储器的存储控制器。此外，这些控制器还可以从所述外设接口124中脱离出来，而集成于所述处理器102内或者相应的外设内。

所述存储器104可用于存储软件程序以及模块，所述处理器102通过运行存储在所述存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理。所述存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其它非易失性固态存储器。在一些实例中，所述存储器104可进一步包括相对于所述处理器102远程设置的存储器，这些远程存储器可以通过网络连接至所述电子本体部10或所述主显示屏120。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述RF模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其它设备进行通讯。所述RF模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述RF模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其它设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication，GSM)、增强型移动通信技术(Enhanced Data GSM Environment，EDGE)，宽带码分多址技术(wideband code division multiple access，W-CDMA)，码分多址技术(Code division access，CDMA)、时分多址技术(time division multiple access，TDMA)，无线保真技术(Wireless，Fidelity，WiFi)(如美国电气和电子工程师协会标准IEEE 802.10A，IEEE 802.11b，IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over internet protocal，VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其它用于邮件、即时通讯及短消息的协议，以及任何其它合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

音频电路110、听筒101、声音插孔103、麦克风105共同提供用户与所述电子本体部10或所述主显示屏120之间的音频接口。具体地，所述音频电路110从所述处理器102处接收声音数据，将声音数据转换为电信号，将电信号传输至所述听筒101。所述听筒101将电信号转换为人耳能听到的声波。所述音频电路110还从所述麦克风105处接收电信号，将电信号转换为声音数据，并将声音数据传输给所述处理器102以进行进一步的处理。音频数据可以从所述存储器104处或者通过所述RF模块106获取。此外，音频数据也可以存储至所述存储器104中或者通过所述RF模块106进行发送。

所述传感器114设置在所述电子本体部10内或所述主显示屏120内，所述传感器114的实例包括但并不限于：光传感器、运行传感器、压力传感器、重力加速度传感器、以及其它传感器。

具体地，所述传感器114可包括光线传感器114F、压力传感器114G。其中，压力传感器114G可以检测由按压在移动终端100产生的压力的传感器。即，压力传感器114G检测由用户和移动终端之间的接触或按压产生的压力，例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此，压力传感器114G可以用来确定在用户与移动终端100之间是否发生了接触或者按压，以及压力的大小。

请再次参阅图11，具体地在图11所示的实施例中，所述光线传感器114F及所述压力传感器114G邻近所述显示面板111设置。所述光线传感器114F可在有物体靠近所述主显示屏120时，例如所述电子本体部10移动到耳边时，所述处理器102关闭显示输出。

作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别所述移动终端100姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外，所述电子本体部10还可配置陀螺仪、气压计、湿度计、温度计等其它传感器，在此不再赘述，

本实施例中，所述输入模块118可包括设置在所述主显示屏120上的所述触摸屏109，所述触摸屏109可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触摸屏109上或在所述触摸屏109附近的操作)，并根据预先设定的程序驱动相应的连接装置。可选的，所述触摸屏109可包括触摸检测装置和触摸控制器。其中，所述触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给所述触摸控制器；所述触摸控制器从所述触摸检测装置上接收触摸信息，并将该触摸信息转换成触点坐标，再送给所述处理器102，并能接收所述处理器102发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触摸屏109的触摸检测功能。除了所述触摸屏109，在其它变更实施方式中，所述输入模块118还可以包括其它输入设备，如按键107。所述按键107例如可包括用于输入字符的字符按键，以及用于触发控制功能的控制按键。所述控制按键的实例包括“返回主屏”按键、开机/关机按键等等。

所述主显示屏120用于显示由用户输入的信息、提供给用户的信息以及所述电子本体部10的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成，在一个实例中，所述触摸屏109可设置于所述显示面板111上从而与所述显示面板111构成一个整体。

所述电源模块122用于向所述处理器102以及其它各组件提供电力供应。具体地，所述电源模块122可包括电源管理系统、一个或多个电源(如电池或者交流电)、充电电路、电源失效检测电路、逆变器、电源状态指示灯以及其它任意与所述电子本体部10或所述主显示屏120内电力的生成、管理及分布相关的组件。

所述移动终端100还包括定位器119，所述定位器119用于确定所述移动终端100所处的实际位置。本实施例中，所述定位器119采用定位服务来实现所述移动终端100的定位，所述定位服务，应当理解为通过特定的定位技术来获取所述移动终端100的位置信息(如经纬度坐标)，在电子地图上标出被定位对象的位置的技术或服务。

应当理解的是，上述的移动终端100并不局限于智能手机终端，其应当指可以在移动中使用的计算机设备。具体而言，移动终端100，是指搭载了智能操作系统的移动计算机设备，移动终端100包括但不限于智能手机、智能手表、平板电脑，等等。

请参阅图12，图12示出了本申请实施例提供的一种计算机可读存储介质的结构框图。计算机可读存储介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其它方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其它可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(移动终端)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其它合适的介质，因为可以例如通过对纸或其它介质进行光学扫描，接着进行编辑、解译或必要时以其它合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种文本识别方法，其特征在于，所述方法包括：

检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别；

当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别；

在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述控件图像识别出的信息。
根据权利要求1所述的方法，其特征在于，所述当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别，还包括：

当未识别成功时，获取所述用户界面对应的应用程序；

判断所述应用程序是否为重点应用程序；

当所述应用程序是所述重点应用程序时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别；

当所述应用程序不是所述重点应用程序时，在所述用户界面显示选择控件，其中，所述选择控件用于触发手动框选或取消识别。
根据权利要求2所述的方法，其特征在于，所述当所述应用程序是所述重点应用程序时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别，包括：

当所述应用程序是所述重点应用程序时，获取与所述触控操作的位置对应的控件类型；

判断所述控件类型是否满足预设类型；

当所述控件类型满足预设类型时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别。
根据权利要求3所述的方法，其特征在于，所述在所述用户界面的部分区域上叠加显示至少一个卡片，包括：

判断所述控件图像是否能够识别出有效信息，其中，所述有效信息的置信概率高于预设值；

当所述控件图像能够识别出所述有效信息时，在所述用户界面的部分区域上叠加显示至少一个卡片；

当所述控件图像不能识别出所述有效信息时，在所述用户界面显示所述选择控件。
根据权利要求4所述的方法，其特征在于，所述当所述控件图像不能识别出所述有效信息时，在所述用户界面显示所述选择控件，包括：

获取对所述控件图像进行识别的时长；

判断所述时长是否超过预设时长；

当所述时长超过所述预设时长时，在所述用户界面显示所述选择控件。
根据权利要求4所述的方法，其特征在于，所述当所述控件图像不能识别出所述有效信息时，在所述用户界面显示所述选择控件，还包括：

当所述控件图像不能识别出所述有效信息时，在所述用户界面显示所述选择控件和识别不成功的提示信息。
根据权利要求3-6任一项所述的方法，其特征在于，所述预设类型为text view。
根据权利要求2-7任一项所述的方法，其特征在于，所述判断所述应用程序是否为重点应用程序，包括：

获取所述应用程序的使用频率；

判断所述使用频率是否大于频率阈值；

当所述使用频率大于所述频率阈值时，确定所述应用程序为所述重点应用程序。
根据权利要求2-7任一项所述的方法，其特征在于，所述判断所述应用程序是否为重点应用程序，包括：

获取所述应用程序的类型；

判断所述类型是否为预设类型；

当所述类型为所述预设类型时，确定所述应用程序为所述重点应用程序。
根据权利要求2-9任一项所述的方法，其特征在于，所述在所述用户界面显示选择控件之后，还包括：

若检测到针对所述选择控件的手段框选操作，在所述用户界面显示框选控件、二维码识别控件、商品识别控件以及文本识别控件。
根据权利要求1-10任一项所述的方法，其特征在于，所述当未识别成功时，截取与所述触控操作位置对应的控件图像并对所述控件图像进行识别，还包括：

当未识别成功时，获取所述触控操作对应的触控中心位置；

判断所述触控中心位置是否在所述用户界面的有效控件上，其中，所述有效控件至少包括一个界面元素；

当所述触控中心位置在所述有效控件上时，截取有效控件图像并对所述有效控件图像进行识别；

当所述触控中心位置不在所述有效控件上时，截取用户界面图像并对所述用户界面图像进行识别。
根据权利要求11所述的方法，其特征在于，所述判断所述触控中心位置是否在所述用户界面的有效控件上，包括：

检测所述用户界面的各有效控件的坐标信息和所述触控中心的坐标信息；

判断所述触控中心的坐标信息是否落在所述各有效控件中的任意有效控件的坐标信息内。
根据权利要求1-12任一项所述的方法，其特征在于，所述对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别，包括：

获取所述触控操作的位置对应的坐标信息；

获取位于所述坐标信息上的至少一个界面元素，对所述至少一个界面元素进行识别。
根据权利要求1-12任一项所述的方法，其特征在于，所述对与所述触控操作的位置对应的所述用户界面上的界面元素进行识别，包括：

获取所述触控操作的位置对应的坐标信息；

获取位于所述坐标信息上的至少一个元素，并获取所述至少一个元素所在的段落；

获取所述段落所包括的所有元素，将所述段落所包括的所有元素确定为所述至少一个界面元素。
根据权利要求1-14任一项所述的方法，其特征在于，所述截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别，包括：

截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别，以及在所述用户界面显示提示信息，其中，所述提示信息用于提示用户正在进行图像转文字识别操作。
根据权利要求1-15任一项所述的方法，其特征在于，所述截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别，包括：

截取与所述触控操作的位置对应的控件图像并获取所述控件图像中的至少一个关键词；

对所述至少一个关键词进行搜索，获得与所述控件图像的内容对应的搜索结果信息。
根据权利要求1-16任一项所述的方法，其特征在于，所述界面元素包括文本、图片、音频和/或视频。
一种文本识别装置，其特征在于，所述装置包括：

界面元素识别模块，用于检测作用于用户界面的触控操作，当所述触控操作满足预设条件时，对所述触控操作的位置对应的所述用户界面上的界面元素进行识别；

图像截取模块，用于当未识别成功时，截取与所述触控操作的位置对应的控件图像并对所述控件图像进行识别；

卡片显示模块，用于在所述用户界面的部分区域上叠加显示至少一个卡片，所述至少一个卡片用于显示由所述控件图像识别出的信息。
一种移动终端，其特征在于，包括触摸屏、存储器以及处理器，所述触摸屏与所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-17任一项所述的方法。
一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质村存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-17任一项所述的方法。