WO2017080195A1

WO2017080195A1 - 音频识别方法及装置

Info

Publication number: WO2017080195A1
Application number: PCT/CN2016/084617
Authority: WO
Inventors: 王云华
Original assignee: 深圳Tcl数字技术有限公司
Priority date: 2015-11-12
Filing date: 2016-06-03
Publication date: 2017-05-18
Also published as: CN105469783B; CN105469783A

Abstract

一种音频识别方法和装置，所述音频识别方法包括以下步骤：获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符；将获取的所述字符作为与所述音频数据匹配的字符。上述音频识别方法和装置通过智能电视解决了语音传送过程中，出现PCM码流数据的丢失的问题，提高了语音识别准确度。

Description

音频识别方法及装置

技术领域

本发明涉及智能电视技术领域，尤其涉及一种音频识别方法及装置。

背景技术

随着智能电视语音识别技术的高速发展，用户在家由传统的到处找遥控器发展到现在不用遥控器，直接用嘴告诉电视，用户喜欢看的影视、连续剧综艺节目等。虽然该种方式比较方便，然而该方式在语音识别环节的语音传送过程中，可能出现PCM（Pulse Code Modulation，脉冲编码调制）码流数据的丢失，从而造成语音识别的准确度差。例如，小敏拿着自己的无线网的手机对电视说“想看刘德华电影”，在无线网手机麦克风将PCM码流数据传送到TV端，TV端因为传送过程受到无线网多辐射干扰，集成电路片间总线干扰等因素，造成传送的PCM码流数据出现丢失，将丢失“影（0X1100,0X1000,丢失数据）”的码流数据上传到云端，识别出想看刘德华电字串，在TV上显示出刘德华电，此时，就造成小敏的困惑，因为刘德华有电影，刘德华有电视剧等等。

发明内容

本发明的主要目的在于提供一种音频识别方法及装置，旨在解决语音传送过程中，出现PCM码流数据的丢失，从而造成语音识别的准确度差的问题。

为实现上述目的，本发明提供的一种音频识别方法，所述音频识别方法包括：

获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符；以及

将确定的所述字符作为与所述音频数据匹配的字符；

其中，所述获取所述音频数据的第一特征信息的步骤包括：

确定所述音频数据的码流中的最大码值以及最小码值；

获取所述音频数据的码流中出现最大码值的时刻以及出现最小码值的时刻之间的码值；

根据获取到的所述码值计算所述音频数据的第一特征信息；

所述获取终端当前显示界面中各个字符的第二特征信息的步骤包括：

获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例；

判断所述各个字符重复出现的比例是否大于第一预设比例；

若是，则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。

此外，为实现上述目的，本发明还提供一种音频识别方法所述音频识别方法包括以下步骤：

将确定的所述字符作为与所述音频数据匹配的字符。

此外，为实现上述目的，本发明还提供一种音频识别装置，所述音频识别装置包括：

第一获取模块，用于获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

第二获取模块，用于获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

确定模块，用于确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符。

匹配模块，用于将确定的所述字符作为与所述音频数据匹配的字符。

本发明通过获取音频数据的特征信息，并将所述音频数据的特征信息与从云端获取的终端当前显示界面的各个字符数据对应的特征信息进行匹配，使得即使音频数据存在丢失的情况，也能根据所述音频数据的特征信息与所述各个字符数据对应的特征信息进行匹配，从而识别出所述音频数据对应的字符，提高了语音识别准确度。

附图说明

图1为本发明音频识别方法的第一实施例的流程示意图；

图2为图1中所述获取所述音频数据的第一特征信息的细化流程示意图；

图3为图2中根据获取到的所述码值计算所述音频数据的第一特征信息的细化流程示意图；

图4为图1中获取终端当前显示界面中各个字符的第二特征信息的细化流程示意图；

图5为本发明音频识别方法的第二实施例的流程示意图；

图6为本发明音频识别装置的第一实施例的功能模块示意图；

图7为图6中第二获取模块的细化功能模块示意图；

图8为本发明音频识别装置的第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于上述问题，本发明提供一种音频识别方法。

参照图1，图1为本发明音频识别方法的第一实施例的流程示意图。

在本实施例中，所述音频识别方法包括：

步骤S10，获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

在本实施例中，所述终端可为智能电视，以下以智能电视为例进行说明。

智能电视侦测到语音PCM码流输入时，将接收到的语音PCM码流（音频数据）存储至音频缓存区中，然后实时或定时检测所述音频缓存区是否存在音频数据，并在检测到所述音频缓存区存在音频数据后，获取所述音频缓存区中的音频数据。例如，获取到所述音频缓存区的第一存储单元存储的数据为0x50，即APCM_Data(x1)=0x50；获取到所述音频缓存区的第二存储单元存储的数据为0x40，即APCM_Data(x2)=0x40。

步骤S20，获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

当智能电视获取到音频缓存区中存储的音频数据后，对所述音频数据进行求和及移位处理，从而得到所述音频数据的第一特征信息，例如，经过对所述音频数据求和及移位处理后，得到所述音频数据的第一的特征信息为0x0A00。在本实施例中，所述音频数据为智能电视的控制指令对应的语音PCM码流数据，包括人名、一些特定的名词对应的语音PCM码流数据等。所述第一特征信息为所述音频数据的校验数据，该检验数据是唯一的，即每个音频数据的校验数据唯一代表一个音频数据。

在获取到所述音频数据的第一特征信息后，获取终端当前显示界面中各个字符的第二特征信息。在本实施例中，所述各个字符为终端当前显示界面存在的字符，该字符存在于特定的字符文件中，各个字符的存在形式举例如下：

Resource_String(x1)="影视"

Resource_String(x2)="电影"

Video.xml: <string name="app_name">影视</string>

在获取到各个字符后，从云端获取所述各个字符的第二特征信息，例如，获取到的各个字符对应的第二的特征信息分别为：0x0B00、0x0A00、0x0C00等。

步骤S30，确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符；

在获取到所述音频数据的第一特征信息以及各个字符的第二特征信息后，将所述音频数据的第一特征信息与各个字符的第二特征信息进行匹配，直到确定与所述音频数据的第一特征信息匹配成功的第二特征信息所对应的字符为止。

步骤S40，将确定的所述字符作为与所述音频数据匹配的字符。

当确定与所述音频数据的第一特征信息匹配成功的第二特征信息对应的字符后，将所述字符作为所述音频数据匹配的字符，即所述音频数据代表的意思即为所述字符，并通过智能电视的屏幕将所述匹配成功的字符显示出来，以供用户确定所述显示的字符是否为正确的字符。

进一步地，基于上述第一实施例提出本发明音频识别方法的第二实施例，参照图2，所述获取所述音频数据的第一特征信息的步骤包括：

步骤S21，确定所述音频数据的码流中的最大码值以及最小码值；

智能电视读取所述音频缓存区中的音频数据，并将所述音频数据按照码值的大小顺序排列，可以将所述音频数据按照码值的大小从大到小顺序排列，或者将所述音频数据按照码值的大小从小到大顺序排列。在对所述音频数据排序后，很容易就能获取到所述音频数据的码流中的最大码值以及最小码值。

步骤S22，获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值；

在确定所述最大码值以及最小码值后，根据所述最大码值及最小码值确定所述音频数据的码流中最大的码值的数据的出现时刻及所述音频数据的码流中最小的码值的数据的出现时刻，并获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值。

步骤S23，根据获取到的所述码值计算所述音频数据的第一特征信息。

在获取到所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值后，根据语音PCM流特征算法计算出音频数据的第一特征信息，所述语音PCM流特征算法为对所述获取到的所述码值进行求和及移位处理的算法。

具体的，参照图3，所述步骤S23包括;

步骤S231，对所获取到的所述码值进行求和得到所述音频数据的校验值；

所述智能电视对所获取到的所述码值进行求和，从而得到所述音频数据的校验值。例如，所获取到的所述码值由最大的PCM码流数据0x50、次最大的PCM码流数据0x40及最小的PCM码流数据0x10组成，则音频数据的校验值=0x50+0x40+0x10=0xA0。可选地，所述校验值由16位二进制数表示，则所述音频数据的校验值表示为0x00A0。

步骤S132，按照预设的左移算法对所述校验值进行左移处理，以得到所述音频数据的第一特征信息。

所述左移算法可为将所述校验值左移一位的算法，也可为左移多位的算法。在本实施例中，将所述校验值进行左移动一位的左移处理，则得到所述音频数据的特征信息为：Personal_PCM_Data(x1) = |0x00A0<<1| =0x0A00，其中，0x00A0为所述音频数据的校验值。每获取到一个音频数据的校验值，都需要通过左移算法对所述校验值进行处理，从而使得每个音频数据的特征信息唯一代表一个音频数据。

本实施例通过获取所述音频数据中的某些特定的音频数据的特征信息来表示所述音频数据。由于每个音频数据的特征信息是唯一的，因此，可以通过所述特征信息来代表该音频数据，从而使得音频数据的表示更加简便，解决了音频数据的传送占有大量的传送通道的问题。

进一步地，基于上述第一或第二实施例提出本发明音频识别方法的第三实施例，参照图4，所述获取终端当前显示界面中各个字符的第二特征信息的步骤包括：

步骤S24，获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例；

在获取到所述音频数据的第一特征信息后，读取所述智能电视当前界面的类型。所述类型包括浏览器类型及安卓系统类型。所述智能电视当前界面的类型可以只为浏览器类型，也可只为安卓系统类型，也可同时存在浏览器类型和安卓系统类型。

在确定到所述智能电视的当前界面类型后，获取所述各个字符在预设的字符文件中重复出现的比例。所述预设的字符文件包括当前界面类型为浏览器类型时所对应的xml文件的字符文件及当前界面类型为安卓系统类型时所对应的安卓系统控件的资源文件夹的xml文件的字符文件。当确定所述当前界面的类型包括浏览器类型时，则读取该类型对应的预设的字符文件中存在的所有字符，并将所述读取到的字符保存到预设的存储区间内；当确定所述当前界面的类型包括安卓系统类型时，则读取该类型对应的预设的字符文件中存在的所有字符，并将所述读取到的字符保存在另一预设的存储区间内。智能电视读取上述两个存储区间的字符，并确定各个字符重复出现的比例。例如，设置字符10次及10次以上重复出现的比例为100%，5次重复出现的比例为50%，4次出现的重复比例为40%，一次重复出现的比例为10%等。在读取到上述两个存储区间的字符后，根据预设的判断字符的重复出现比例的规则，就能确定各个字符重复出现的比例。

步骤S25，判断所述各个字符重复出现的比例是否大于第一预设比例；

步骤S26，若是，则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息；

在确定各个字符数据重复出现的比例后，判断所述各个字符数据重复出现的比例是否大于第一预设比例。所述第一预设比例为预先设定的比例值，可选地，所述第一预设比例设为50%，可以理解的是，所述第一预设比例也可设为其它值。当判定各个字符重复出现的比例大于第一预设比例，则优先从云端服务器获取所述重复比例最大的字符对应的第二特征信息，然后将所述从云端获取的第二特征信息与所述音频数据的第一特征信息进行匹配，若匹配成功，则显示所述字符，若匹配失败，则从云端服务器获取所述重复比例次大的字符对应的第二特征信息与所述音频数据的特征信息进行匹配，直到匹配成功为止。

本实施例通过确定所述各个字符在预设的字符文件中重复出现的比例，并在确定各个字符重复出现的比例后，优先从云端获取重复出现的比例最大的字符对应的第二特征信息与所述音频数据的第一特征信息进行匹配，从而能够缩短匹配时间，提高了系统效率。

进一步地，基于上述任一实施例，提出本发明音频识别方法的第四实施例，参照图5，在本实施例中，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

步骤S11，确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

可选地，所述第二预设比例设为5%，可以理解的，该第二预设比例也可以根据具体情况设置为其他比例值。在确定所述音频数据的第二预设比例所对应的音频数据的个数时，应该先确定所述音频缓存区的音频数据的总数，然后根据音频数据的总数与第二预设比例值计算出所述第二预设比例所对应的音频数据的个数。

步骤S12，判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

步骤S13，若是，则执行获取音频缓存区中存储的音频数据的步骤。

当确定所述第二预设比例所对应的音频数据的个数及大于1的音频数据的个数后，将两者进行比较，从而判断出所述大于1的音频数据的个数是否大于第二预设比例所对应的音频数据的个数，当判定出所述大于1的音频数据的个数大于所述第二预设比例所对应的音频数据的个数时，获取音频缓存区中存储的音频数据；当判定出所述大于1的音频数据的个数小于所述第二预设比例所对应的音频数据的个数时，确定所述音频缓存区中不存在音频数据。

本实施例通过判断所述音频缓存区中的音频数据中大于1的音频数据的个数是否大于第二预设比例所对应的音频数据的个数，来确定所述音频缓存区中是否存在音频数据。由于所述音频数据的存在与否与音频数据中大于1的音频数据的个数有关，因此通过判断所述音频数据中大于1的音频数据的个数与第二预设比例所对应的音频数据的个数的大小能更准确确定所述音频缓存区中是否存在音频数据，从而预先排除一些噪音的干扰。

上述实施例的音频识别方法的执行主体均可以为终端。更进一步地，该音频识别方法可以由安装在终端上的客户端控制程序实现，其中，该终端可以为智能电视。

本发明进一步提供一种基于智能电视的音频数据处理装置。

参照图6，图6为本发明音频识别装置的第一实施例的功能模块示意图。

在本实施例中，所述音频识别装置包括：第一获取模块10、第二获取模块20、确定模块30及匹配模块40。

第一获取模块10，用于获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

在本实施例中，所述终端可为智能电视，以下以智能电视为例进行说明。智能电视侦测到语音PCM码流输入时，将接收到的语音PCM码流（音频数据）存储至音频缓存区中，然后实时或定时检测所述音频缓存区是否存在音频数据，并在检测到所述音频缓存区存在音频数据后，获取所述音频缓存区中的音频数据。例如，获取到所述音频缓存区的第一存储单元存储的数据为0x50，即APCM_Data(x1)=0x50；获取到所述音频缓存区的第二存储单元存储的数据为0x40，即APCM_Data(x2)=0x40。

所述第二获取模块20，用于获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

Resource_String(x1)="影视"

Resource_String(x2)="电影"

Video.xml: <string name="app_name">影视</string>

所述确定模块30，确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符；

所述匹配模块40，用于将确定的所述字符作为与所述音频数据匹配的字符。

进一步地，基于上述第一实施例提出本发明音频识别装置的第二实施例，参照图7，所述第二获取模块20包括：确定单元21，获取单元22、计算单元23及判断单元24。

所述确定单元21，确定所述音频数据的码流中的最大码值以及最小码值；

智能电视读取所述音频缓存区中的音频数据，并将所述音频数据按照码值的大小顺序排列，可以将所述音频数据按照码值的大小从大到小顺序排列，或者将所述音频数据按照码值的大小从小到大顺序排列。在对所述音频数据排序后，很容易就能获取到所述音频数据的码流中的最大码值以及最小码值，所述最大码值为PCM码流中峰值最大时对应的音频数据的码值，所述最小码值为PCM码流中峰值最小时对应的音频数据的码值。

所述获取单元22，用于获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值；

进一步地，所述获取单元22，还用于获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例；

在获取到所述音频数据的第一特征信息后，读取智能电视当前界面的类型。所述类型包括浏览器类型及安卓系统类型。所述智能电视当前界面的类型可以只为浏览器类型，也可只为安卓系统类型，也可同时存在浏览器类型和安卓系统类型。

在确定到所述智能电视的当前界面类型后，获取所述各个字符在预设的字符文件中重复出现的比例。所述预设的字符文件包括当前界面类型为浏览器类型时所对应的xml文件的字符文件及当前界面类型为安卓系统类型时所对应的安卓系统控件的资源文件夹的xml文件的字符文件。当确定所述当前界面的类型包括浏览器类型时，则读取该类型对应的预设的字符文件中存在的所有字符，并将所述读取到的字符保存到预设的存储区间内；当确定所述当前界面的类型包括安卓系统类型时，则读取该类型对应的预设的字符文件中存在的所有字符，并将所述读取到的字符保存在另一预设的存储区间内。所述智能电视读取上述两个存储区间内的字符，并确定各个字符重复出现的比例。在本实施例中，设置字符10次及10次以上重复出现的比例为100%，5次重复出现的比例为50%，4次出现的重复比例为40%，一次重复出现的比例为10%等。在读取到上述两个存储区间内的字符后，根据预设的判断字符的重复出现比例的规则，就能确定各个字符重复出现的比例。

所述计算单元23，用于根据获取到的所述码值计算所述音频数据的第一特征信息。

进一步地，所述计算单元23还包括：求和子单元231及移位子单元232。

所述求和子单元231，用于对所获取到的所述码值进行求和得到所述音频数据的校验值；

所述智能电视对所获取到的所述码值进行求和，从而得到所述音频数据的校验值。所述获取到的所述码值为所述短音频数据对应的码值。例如，所所获取到的所述码值由最大的PCM码流数据0x50、次最大的PCM码流数据0x40及最小的PCM码流数据0x10组成，则所述音频数据的校验值=0x50+0x40+0x10=0xA0。可选地，所述校验值由16位二进制数表示，则所述音频数据的校验值表示为0x00A0。

移位子单元232，用于按照预设的左移算法对所述校验值进行左移处理，以得到所述音频数据的第一特征信息。

所述判断单元24，用于判断所述各个字符重复出现的比例是否大于第一预设比例；

所述获取单元22，还用于若所述各个字符重复出现的比例大于第一预设比例，则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。

进一步地，基于上述第一或第二实施例提出本发明音频识别装置的第三实施例，参照图8，所述音频识别装置还包括：判断模块50。

所述确定模块30，用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

在获取音频缓存区中存储的音频数据前，首先确定所述音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数。可选地，所述第二预设比例设为5%，可以理解的，该第二预设比例也可以根据具体情况设置为其他比例值。在确定所述音频数据的第二预设比例所对应的音频数据的个数时，应该先确定所述音频缓存区的音频数据的总数，然后根据音频数据的总数与第二预设比例值计算出所述第二预设比例所对应的音频数据的个数。

判断模块50，用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

所述第一获取模块30，还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数，则获取音频缓存区中存储的音频数据。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种音频识别方法，其特征在于，所述音频识别方法包括以下步骤：

获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符；以及

将确定的所述字符作为与所述音频数据匹配的字符；

其中，所述获取所述音频数据的第一特征信息的步骤包括：

确定所述音频数据的码流中的最大码值以及最小码值；

获取所述音频数据的码流中出现最大码值的时刻以及出现最小码值的时刻之间的码值；

根据获取到的所述码值计算所述音频数据的第一特征信息；

所述获取终端当前显示界面中各个字符的第二特征信息的步骤包括：

获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例；

判断所述各个字符重复出现的比例是否大于第一预设比例；

若是，则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
如权利要求1所述的音频识别方法，其特征在于，所述根据获取到的所述码值计算所述音频数据的第一特征信息的步骤包括：

对所获取到的所述码值进行求和得到所述音频数据的校验值；

按照预设的左移算法对所述校验值进行左移处理，以得到所述音频数据的第一特征信息。
如权利要求2所述的音频识别方法，其特征在于，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

若是，则执行获取音频缓存区中存储的音频数据的步骤。
如权利要求1所述的音频识别方法，其特征在于，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

若是，则执行获取音频缓存区中存储的音频数据的步骤。
一种音频识别方法，其特征在于，所述音频识别方法包括以下步骤：

获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符；以及

将确定的所述字符作为与所述音频数据匹配的字符。
如权利要求5所述的音频识别方法，其特征在于，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

若是，则执行获取音频缓存区中存储的音频数据的步骤。
如权利要求5所述的音频识别方法，其特征在于，所述获取所述音频数据的第一特征信息的步骤包括：

确定所述音频数据的码流中的最大码值以及最小码值；

获取所述音频数据的码流中出现最大码值的时刻以及出现最小码值的时刻之间的码值；

根据获取到的所述码值计算所述音频数据的第一特征信息。
如权利要求7所述的音频识别方法，其特征在于，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

若是，则执行获取音频缓存区中存储的音频数据的步骤。
如权利要求7所述的音频识别方法，其特征在于，所述根据获取到的所述码值计算所述音频数据的第一特征信息的步骤包括：

对所获取到的所述码值进行求和得到所述音频数据的校验值；

按照预设的左移算法对所述校验值进行左移处理，以得到所述音频数据的第一特征信息。
如权利要求9所述的音频识别方法，其特征在于，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

若是，则执行获取音频缓存区中存储的音频数据的步骤。
如权利要求5所述的音频识别方法，其特征在于，所述获取终端当前显示界面中各个字符的第二特征信息的步骤包括：

获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例；

判断所述各个字符重复出现的比例是否大于第一预设比例；

若是，则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
如权利要求11所述的音频识别方法，其特征在于，所述获取音频缓存区中存储的音频数据的步骤之前，所述音频识别方法还包括：

确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

若是，则执行获取音频缓存区中存储的音频数据的步骤。
一种音频识别装置，其特征在于，所述音频识别装置包括：

第一获取模块，用于获取音频缓存区中存储的音频数据，其中，终端在接收到音频数据时，将接收到的音频数据存储至所述音频缓存区中；

第二获取模块，用于获取所述音频数据的第一特征信息以及终端当前显示界面中各个字符的第二特征信息；

确定模块，用于确定当前显示界面的各个字符中所述第二特征信息与所述第一特征信息匹配的字符。

匹配模块，用于将确定的所述字符作为与所述音频数据匹配的字符。
如权利要求13所述的音频识别装置，其特征在于，所述音频识别装置还包括：

所述确定模块，还用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断模块，用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

所述第一获取模块，还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数，则获取音频缓存区中存储的音频数据。
如权利要求13所述的音频识别装置，其特征在于，所述第二获取模块包括：

确定单元，用于确定所述音频数据的码流中的最大码值以及最小码值；

获取单元，用于获取所述音频数据的码流中出现最大码值的数据时刻以及出现最小码值的数据时刻之间的码值；

计算单元，用于根据获取到的所述码值计算所述音频数据的第一特征信息。
如权利要求15所述的音频识别装置，其特征在于，所述音频识别装置还包括：

所述确定模块，还用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断模块，用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

所述第一获取模块，还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数，则获取音频缓存区中存储的音频数据。
如权利要求15所述的音频识别装置，其特征在于，所述计算单元包括：

求和子单元，用于对所获取到的所述码值进行求和得到所述音频数据的校验值；

处理子单元，用于按照预设的左移算法对所述校验值进行左移处理，以得到所述音频数据的第一特征信息。
如权利要求17所述的音频识别装置，其特征在于，所述音频识别装置还包括：

所述确定模块，还用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断模块，用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

所述第一获取模块，还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数，则获取音频缓存区中存储的音频数据。
如权利要求13所述的音频识别装置，其特征在于，所述第二获取模块还包括：

所述获取单元，还用于获取终端当前显示界面中所述各个字符在预设的字符文件中重复出现的比例；

判断单元，用于判断所述各个字符重复出现的比例是否大于第一预设比例；

所述获取单元，还用于若所述各个字符重复出现的比例大于第一预设比例，则按照各个字符重复出现的比例依次从云端获取各个字符对应的第二特征信息。
如权利要求19所述的音频识别装置，其特征在于，所述音频识别装置还包括：

所述确定模块，还用于确定所述音频缓存区中存储的音频数据中码值大于1的音频数据的个数以及所述音频数据的第二预设比例所对应的音频数据的个数；

判断模块，用于判断音频数据中码值大于1的音频数据的个数是否大于所述音频数据的第二预设比例所对应的音频数据的个数；

所述第一获取模块，还用于若音频数据中码值大于1的音频数据的个数大于所述音频数据的第二预设比例所对应的音频数据的个数，则获取音频缓存区中存储的音频数据。