WO2020043040A1

WO2020043040A1 - 语音识别方法和设备

Info

Publication number: WO2020043040A1
Application number: PCT/CN2019/102485
Authority: WO
Inventors: 薛少飞
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-08-30
Filing date: 2019-08-26
Publication date: 2020-03-05
Also published as: CN110875039A; CN110875039B

Abstract

一种语音识别方法和设备，其中，该方法包括：获取语音数据(S801)；通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值(S802)；通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值(S803)；对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果(S804)。通过方言确定和场景确定相融合的方式，从而提升了方言确定的准确性，解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误，将会导致后续的语音识别结果都会出错的问题，达到了有效提升语音识别结果准确性的技术效果。

Description

语音识别方法和设备

本申请要求2018年08月30日递交的申请号为201811000407.9、发明名称为“语音识别方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于语音识别技术领域，尤其涉及一种语音识别方法和设备。

背景技术

人机交互技术的普及给人们的生活和工作带来了越来越多的便利。例如，基于语音识别技术，人们可以通过购票设备实现自助购票，以地铁站购买地铁票为例，乘客只需要对售票机说出所要前往的目的地或者购票的张数，售票机就可以根据乘客的语音数据，自动购买乘客所需要的地铁票。

然而考虑到，不同地方的人使用的语言(例如方言)在发音上往往会存在较大的差异，进而会影响机器语音识别结果的准确度。针对该问题，目前采用的处理方式有：方式1)提醒用户选择所使用的语言类型，然后基于用户的选择切换至对应的语言类型语音识别模型进行语音识别；方式2)由机器先对用户的语音数据进行语言类型判别，确定出用户使用的语言类型，再切换至机器确定出的用户所使用的语言类型对应的语音识别模型进行语音识别。

然而，上述两种方式都存在着不同程度的问题，方式1)需要用户先主动选择所使用的语言类型，无法实现用户的无感知操作，用户体验较差；方式2)语音模型的选择需要依赖于机器针对语音数据一次性判定的结果，如果机器判定的语言类型错误，那么将直接影响后续的语音识别的准确度。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请目的在于提供一种语音识别方法和设备，以提高语音识别的准确率。

本申请提供一种语音识别方法和设备是这样实现的：

一种语音识别方法，包括：

获取语音数据；

通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；

通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；

对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。

一种语音识别设备，包括：声音采集器和处理器，所述声音采集器与所述处理器耦合，其中：

所述声音采集器用于采集语音数据；

所述处理器用于通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。

一种地铁站售票机，包括：声音采集器和处理器，所述声音采集器与所述处理器耦合，其中：

所述声音采集器用于采集语音数据；

一种语音识别方法，包括：

获取语音数据；

通过多个方言语音识别模型组件对所述语音数据进行识别，得到多个语音识别结果；

确定所述多个语音识别结果中各个语音识别结果的可信度；

将可信度最高的语音识别结果作为所述语音数据的识别结果。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述方法的步骤。

本申请提供的语音识别方法和设备，通过多个方言语音识别模型组件对语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值，并通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值，然后再对置信度和相关度进行融合判断，以确定语音数据的方言识别结果。因为是采用方言确定和场景确定相融合的方式，从而提升了方言确定的准确性，解决了现有的先进行识别模型的选择而导致的如果识别模型选择错误，将会导致后续的语音识别结果都会出错的问题，达到了有效提升语音识别结果准确性的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的语音识别设备的架构示意图；

图2是应用本申请提供的语音识别设备的自助购票机的场景示意图；

图3是应用本申请提供的语音识别设备的自助购票机内的声音采集器和处理器间的一种连接示意图；

图4是本申请提供的语音识别设备的一种判别流程示意图；

图5是本申请提供的语音识别设备的一种判别流程示意图；

图6是本申请提供的语音识别设备截取检验数据的示意图；

图7是本申请提供的语音识别方法的步骤流程示意图；

图8是本申请提供的语音识别方法的另一步骤流程示意图；

图9是本申请提供的语音识别设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

考虑到现有的语音识别方法往往是先对用户的语音数据进行语言类型的判别，再根据语言类型的判别结果，选择对应的语言类型进行语音识别，得到最终的语音识别结果。上述方法由于预先确定出一个语言类型之后，就按照该语言类型对应的语音识别模型进行语音识别，因此，如果所确定的语言类型错误，那么后续的语音识别结果的准确度将会很低。例如，在系统对用户语音数据进行语言类型判别时，系统将用户所使用的上海话误判为了苏州话，后续通过基于苏州话的语音识别模型得到的语音识别结果往往准确率就相对较低、误差也相对较大。

针对上述问题，考虑到如果先将获取的语音数据放入多种可能的语言类型的多个语言识别模型进行识别，得到多个识别结果后，对识别结果的可信度进行判断，从而确定出哪个识别结果更为准确，就选取哪个识别结果，这样就不会受到由于选择错语音模型而导致的语音识别准确度过低的问题的影响。

请参阅图1所示，本申请实施例提供了一种语音识别设备，该设备可以包括：声音采集器和处理器。其中，声音采集器和处理器可以集成在一起；也可以彼此相互独立，通过有线或无线的方式耦合起来，以便进行数据的传输。

上述语音识别设备具体可以设置应用在地铁自助购票、智能导航、智能购物、智能家居、老人陪护等多种交互应用场景中。具体该系统可以是设置在某些应用场景相应的实体设备中的器件，例如，自助购票机、看护机器人、导航仪等。也可以是能够调用已有设备中相关功能单元的程序或者模块，例如设置在手机端APP等。具体通过上述系统，可以采集对应的应用场景中用户的语音数据，并对用户的语音数据和语音识别结果分别进行判别，以准确地确定出用户语音数据所对应的指令，进而执行相应的指令。例如，完成乘客的购票。对于上述语音识别设备的具体应用，本申请不作限定。

下面以应用在地铁自助购票场景中的语音识别设备为例，进行具体说明。

具体的，该系统的声音采集器可以是麦克风、集音器等设备。该系统的声音采集器可以设置在地铁站的自助购票机内，用于采集乘客的语音数据。

为了减少误触发，上述声音采集器通常可以处于待机状态，用户在购票时可以选择如图2所示的自助购票机的显示界面中的语音输入标识或者符号以触发声音采集器进入工作状态，采集用户的语音数据。也可以是自动检测关键词，在检测到关键词(例如买票)的情况下自动开始采集语音数据。在实现的时候，还可以是结合智能识别技术，确定乘客是否具有买票意愿，是否有触发语音购票流程。

例如，参阅图2所示，乘客可以通过点击自助购票机显示界面中的语音输入符号，切换为语音输入模型，从而可以触发自助购票机内的声音采集器进入工作状态，以采集乘客的语音数据，并将所采集的语音数据发送至处理器，以便进行进一步的分析处理。

在上述采集语音数据的过程中，为了减少周围环境杂音的干扰，提高所采集的语音数据的纯净度，所述系统还可以包括降噪设备，例如噪声滤波器。该降噪设备的一端可以与声音采集器耦合，另一端可以与处理器耦合，从而可以将声音采集器采集到的语音数据先进行降噪处理然后再发送至处理器。

在一个实施方式中，上述处理器具体可以是单一的服务器，也可以是服务器集群，也可以是云端的处理器等等，具体采用哪种模式可以根据实际需要选择。

上述处理器具体可以是内置在自助购票机内部，通过与声音采集器之间的连接接收声音采集器采集得到的语音数据。

考虑为了降低自助购票机的成本，处理器也可以是一个总的服务器。即不同自助购票机的声音采集器都通过有线或无线的方式与该服务器耦合。例如，云服务器。具体的，可以参阅图3所示，设置在不同自助购票机内的声音采集器可以通过TCP或IP等方式与处理器相连，以将所采集的语音数据传输至处理器。

在一个实施方式中，处理器中可以设置有多个语言类型的方言语音识别模型组件，例如，可以设置有上海话识别模型组件、苏州话识别模型组件、天津话识别模型组件、普通话识别模型组件、粤语识别模型组件等等。在获取到语音数据之后，可以将该语音数据分别通过上海话识别模型组件、苏州话识别模型组件、天津话识别模型组件、普通话识别模型组件、粤语识别模型组件进行识别，得到各个方言模型的语音识别结果和置信度值。

进一步的，如图4所示，可以对各个方言模型的语音识别结果基于目标场景进行相关度判定，确定哪个识别结果与场景的相关度更高。然后基于置信度和相关度，确定出语音数据的方言识别结果。具体的，可以根据置信度和相关度，对属于每种方言的可能性进行打分，将分数最高的识别结果确定为最终的语音识别结果。

在实现的时候，如图5所示，处理器在接收到语音数据后，还可以是通过事先训练好的语音分类模型对该语音数据的方言类型进行判别，得到该语音数据分别属于多个方言类型中的各个方言类型的判别分数(即一种基于语音数据的方言类型的判别结果)。例如，以上海地铁站的自助购票机为例。考虑上海当地使用较广的语言类型是普通话和上海话，处理器在接收到语音数据后，可以通过上述语音分类模型得到一个该语音数据属于普通话的判别分数和一个该语音数据属于上海话的判别分数。而现有方法在得到上述两个判别分数后，就直接根据上述判别分数确定语音数据所对应的语言类型，继而只利用基于所确定的语言类型的语音识别模型进行语音识别得到最终的语音识别结果。然而，由于不同类型语言在发音上往往会存在一些相似的特征，例如，苏州话和上海话在某些词句的发音上就很相似。因此，只根据针对语音数据的语言类型判别分数就确定语音数据所对应的语言类型，误差往往会比较大；而且一旦在此处出现了判别错误，会对后续的语音识别产生较明显的影响，导致得到的语音识别结果往往是不准确的。为了提高语音识别的准确率，在本实施方式中，在通过语言分类模型对语音数据本身进行判别的同时，还利用基于可能的语言类型的语音识别模型分别对语音数据进行语音识别，以得到多个可能的语言类型的识别结果，并对多个语言类型的识别结果再进行判断，以得到基于语音识别结果的可信度的判断结果。

具体的，处理器可以将乘客的语音数据分为三组。其中，第一组数据可以用于输入语言分类模型，用以对语音数据所属的语言类型进行判别，得到该乘客语音数据属于普通话的判别分数(可以记为分数1)和属于上海话的判别分数(可以记为分数2)。第二组数据用于输入普通话语音识别模型，用以利用基于普通话训练得到的语音识别模型对语音数据进行语音识别，得到普通话的识别结果(可以记为结果1)。第三组数据用于输入上海话语音识别模型，用以利用基于上海训练得到的语音识别模型对语音数据进行语音识别，得到上海话的识别结果(可以记为结果2)。再通过针对识别结果的判别(例如对识别结果的场景相关度判别或置信度判别)分别对结果1、结果2的可信度进行进一步的判别，得到针对结果1的判别分数(可以记为分数3)和针对结果2的判别分数(可以记为分数4)。再结合针对语音数据的判别分数、针对识别结果的判别分数这两种不同参数进行综合判别，以从两种语言类型的识别结果中选择出较为准确的语音识别结果。

例如，可以根据分数1和分数3，通过加权的方式得到用于表征普通话的识别结果准确度的综合评价分数(可以记为分数5)。类似的，可以根据分数2和分数4，通过加权的方式得到用于表征上海话的识别结果准确度的综合评价分数(可以记为分数6)，再根据分数5和分数6的大小关系，确定出准确度相对较高的语言类型的识别结果作为最终的语音识别结果。当然，上述所列举的综合判别方式只是一种示意性说明。具体实施时，也可以根据具体的应用场景和实施条件选择其他的方式进行综合判别。对此，本申请不作限定。

为了准确确定出各个语言识别模型所识别出的语音内容的可信度，可以基于语音所处的场景、识别出的语句的句法结构等来确定识别出的语音内容的可信度。

例如，语音识别设备大多应用于某些具体的应用场景中，如果识别出的语音识别结果与所在场景的偏差较大，那么可以认为该语音识别结果的可信度较低，如果识别出的语音识别结果与所在场景较为吻合，那么可以认为该语音识别结果的可信度较高。以地铁售票机为例，如果A模型识别出的语音结果为：我想买一张地铁票，B模型识别出的语音结果为：我想买一张高铁票，因为是地铁售票机，显然A模型识别出的语音结果的可信度更高。

具体实施时，可以利用事先训练好的场景相关度判别模型对多个语言类型的识别结果与该系统应用场景的相关程度进行判别，以得到多个语言类型的识别结果的场景相关度的评价分数，即针对识别结果的判别分数。当然，也可以根据具体的应用场景预先设置多个与目标场景相关的场景关键词或关键句，进而可以对语音识别结果进行场景关键词或关键句的检测，当语音识别结果中检测出了一个或多个场景关键词或关键句时，可以判别该语音识别结果与应用场景具有较高的关联度。

例如，在对应用于地铁自助售票机的语音识别设备得到的识别结果的进行判别时，如果识别结果中存在多个与地铁场景相关的预设场景关键词，则可以认为该识别结果的场景相关度评价分数较高，即该识别结果的判别分数较高。其中，上述场景关键词具体可以包括但不限于以下至少之一：目的地站点、起始站点、车票等等。当然，上述所列举的利用场景相关度判别模型或场景关键词对识别结果进行场景相关度判别的判别方式只是一种示意性说明。具体实施时，也可以根据具体应用场景和实施条件，选择其他合适的方式进行场景相关度的判别。对此，本申请不作限定。

在一个实施方式中，为了进一步优化对识别结果可信度的判别，还可以在对多个语言类型的识别结果进行场景相关度的判别，得到各个语言类型的识别结果的场景相关度评价分数外，还可以同时对多个语言类型的识别结果进行置信度的判别，得到各个语言类型的识别结果的置信度评价分数。再将同一个语言类型的识别结果的相关度评价分数和置信度评价分数作为该种语言类型的识别结果的判别分数。其中，上述各个语言类型的识别结果置信度具体可以理解为各个语言类型的语音识别模型针对对应的语言类型的语音数据进行识别时的准确率。例如，苏州话的识别结果的置信度可以理解为利用该苏州话语音识别模型识别苏州话的语音数据的准确率。

当然，上述所列举的针对多种语言类型的识别结果的可信度的判别方式只是为了更好地说明本申请实施方式。具体实施时，也可以结合具体的应用场景，选择其他合适的方式对上述识别结果的可信度进行判别。例如，也可以对识别结果进行句法结构判别，根据识别结果的句法结构判别结果对识别结果的可信度进行判别。例如，可以根据句法结构判别结果，将符合句法结构的识别结果判别为可信度较高的识别结果。举例而言，对于同一个语音数据，通过A语言类型的语音识别模型得到的识别结果1是“一张到玉山站的地铁票”，通过B语言类型的语音识别模型得到的识别结果2是“姨丈道玉山站的地贴瓢”。通过对上述两种识别结果分别进行句法结构判别，可知结果1相对于结果2更符合句法结构，因此可以判断结果1相对于结果2可信度更高。

然而值得注意的是，上述以场景和句法结构作为识别结果可信度的判断依据仅是一种示例性描述，并不构成对本申请的限定，在实际确定可信度的时候还可以采用其它的确定因素。

结合实际情况，考虑到如果需要判别的语言类型较多，例如有20个语言类型，则每一次的语音识别需要将语音数据都转换为20种语言类型的识别结果，再对这20个语言类型的识别结果分别进行判别，势必会增加处理器的运行负担，降低识别效率。基于上述情形，在需要判别的语言类型的数量相对较大时，可以先对语音数据的语言类型进行初步语言判断，以便可以从多种语言类型的语音识别模型中筛选出可能性比较大的几个待确定语言类型的语音识别模型，以便后续分析时仅对待确定语言类型的语音识别模型进行进一步识别和判断，从而可以有效地降低处理器的工作负荷。

具体的，例如上述初步语言判断可以是先比较通过语言分类模型得到的语音数据属于各个语言类型的判别分数，选出判别分数相对较高的预设个数个(例如2个)的语言类型作为待确定语言类型；处理器仅利用待确定的语言类型的语音识别模型对语音数据进行语音识别，得到预设个数个待确定语言类型的识别结果(即得到相对数量较少的识别结果)；进而仅对上述预设个数个待确定语言类型的识别结果进行判别；再结合针对语音数据的待确定语言类型的判别分数、待确定语言类型的识别结果的判别分数，从预设个数个待确定的语言类型的识别结果中确定准确度最高的语言类型的识别结果作为最终的语音识别结果。当然，上述所列举的初步语言判断的实现方式只是一种示意性说明，具体实施时，也可以根据具体情况采用其他合适的实现方式对语音数据进行初步语言判断，以缩小后续需要进一步确定的语言类型的语音识别模型的数量。

为了进一步提高识别效率，减轻处理器的工作负荷，考虑到在对语音数据属于的语言类型进行判别时往往不需要对语音数据的全部内容进行处理。因此，参阅图6所示，可以从语音数据中截取一部分的语音数据作为检验数据进行针对语音数据的语言类型的判别。具体的，考虑到用户在输入语音数据时，中间部分的语音数据通常相对较为连贯，口音特征也较为显著，可以截取语音数据中第一预设时间点(例如语音数据开始后的第5秒)与第二预设时间点(例如语音数据结束前的第5秒)之间语音数据作为检验数据，仅对该部分数据进行语言类型的判别，得到语音数据属于各个语言类型的判别分数。当然，还可以联系具体的应用场景，用户输入的语音数据可能某些部分受外界的噪音干扰相对较大，为了提高判别的准确度，可以从语音数据中提取较为清晰的一部分数据作为检验数据。例如，可以对语音数据先进行重音检测，截取语音数据中重音位置的预设范围内(例如重音位置前20秒至重音位置后20秒)的语音数据作为检验数据，再进行针对语音数据的语言类型判别。

在通过上述语音识别设备得到最终的语音识别结果后，处理器可以将最终的语音识别结果发送至相应的执行服务器，以根据语音识别结果执行相应的用户指令。例如，处理器可以将乘客的语音识别结果发送至自助购票机中处理售票业务的服务器，该服务器可以根据语音识别结果向乘客出售其所要求的地铁票，完成自助售票。

本申请提供的多语言语音识别方法，由于不但对语音数据本身进行语言类型的判别，还对基于不同语言类型得到的语音识别结果进行相应判别，再综合针对多种数据的判别结果，选择出准确度较高的语言类型所对应的语音识别结果作为最终的语音识别结果，从而有效地提高了语音识别的准确率。

图7是本申请所述一种语音识别方法一个实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的如图7所示，本申请一种实施例提供的一种语音识别方法可以包括如下步骤：

S701：获取语音数据；

S702：通过多个方言语音识别模型组件对所述语音数据进行识别，得到多个语音识别结果；

S703：确定所述多个语音识别结果中各个语音识别结果的可信度；

S704：将可信度最高的语音识别结果作为所述语音数据的识别结果。

本申请实施例中的可信度具体可以理解为一种用于评价语音识别结果与真实语义的接近程度的参数。

在一个实施方式中，不同的语音识别模型用于识别不同类型的语言，在将可信度最高的语音识别结果作为所述语音数据的识别结果之后，所述方法还可以包括：将所述可信度最高的语音识别结果所对应的语音识别模型对应的语言类型，作为所述语音数据的语言类型。

在一个实施方式中，确定所述多个语音识别结果中各个语音识别结果的可信度，具体可以包括：根据以下至少之一确定所述多个语音识别结果中各个语音识别结果的可信度：语音识别结果与场景的相关度、语音识别结果的句法结构。当然，需要说明的是，上述所列举的多种用于确定可信度的方式只是为了更好地说明本申请实施例。具体实施时，也可以根据具体情况选择其他的合适方式对语音识别结果的可信度进行判别。对此，本申请不作限定。

在一个实施方式中，在通过多个语音识别模型对所述语音数据进行识别，得到多个语音识别结果之前，所述方法还包括以下内容：通过语言分类模型识别出所述语音数据属于各语言类型的置信度。

在一个实施方式中，上述确定所述多个语音识别结果中各个语音识别结果的可信度，具体实施时，可以包括：结合通过语言分类模型识别出所述语音数据属于各语言类型的置信度，确定所述多个语音识别结果中各个语音识别结果的可信度。

在一个实施方式中，通过语言分类模型识别出所述语音数据属于各语言类型的置信度，具体实施可以包括：截取所述语音数据中第一预设时间点和第二预设时间点之间的数据作为所述检验数据；或，截取所述语音数据中重音位置的预设范围内的数据作为所述检验数据；通过语言分类模型识别出所述检验数据属于各语言类型的置信度。

在本例中还提供了一种语音识别方法，如图8所示，可以包括：

步骤801：获取语音数据；

步骤802：通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；

步骤803：通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；

步骤804：对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。

在上述步骤804中，对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果，可以包括：

S1：获取所述语言数据用于多个语言方言的置信度值，和属于目标场景的相关度值；

S2：获取预设的置信度权重值和相关度权重值；

S3：根据所述置信度权重值、所述相关度权重值、用于多个语言方言的置信度值和属于目标场景的相关度值、确定所述语音数据的方言识别结果。

即，可以对相关度和置信度赋予不同的权重值，根据权重值对每个方言识别结果进行打分，然后，根据分数的高低确定以哪个识别结果作为最终的识别结果。即，可以根据所述置信度权重值、所述相关度权重值、用于多个语言方言的置信度值和属于目标场景的相关度值，对所述语音数据属于各方言的可能性进行打分；将分数最高的方言，作为所述语言数据对应的方言；将分数最高的方言对应的方言语音识别模型组件的识别结果，作为所述语音数据的语音识别结果。

对于置信度和相关度等的数值判断，也可以是采用打分的方式，即，通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的置信度值，可以包括：通过所述多个方言语音识别模型组件并行对所述语音数据进行打分；将打分结果，作为用于多个语言方言的置信度值。

考虑到语音数据可能一开始一段时间内是没有有效语音的，因此，可以截取开始数据之后的一段语音作为确定识别基础，这样截取得到的语音相对而言数据量更大一些，可以有效降低数据处理量，又可以得到更为准确的结果。即，通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的置信度值，可以包括：从所述语音数据中截取语音开始后预定秒数后的数据作为样本数据；通过多个方言语音识别模型组件对所述样本数据并行进行识别，得到用于多个语言方言的置信度值。

本申请实施例中可以事先通过学习、训练建立语言(方言)分类模型，以识别语音数据的语言类型。具体实施时，可以按照以下方式建立上述语言分类模型：获取样本数据；提取样本数据中每一段数据不同语言(方言)的语音的I-vector；根据语音的I-vector属于哪一种语言(方言)类型学习、训练一个多分类模型，例如神经网络等，即得到了可以用于对语音数据进行语言类型判别的语言分类模型。

本申请实施例中可以事先通过学习、训练建立可信度判别模型，以确定所述多个语音识别结果中各个语音识别结果的可信度。具体的，以建立场景相关度判别模型为例：获取样本数据，并将样本数据中的正例(例如属于目标场景的识别结果)和负例(例如不属于目标场景的识别结果)进行矢量化。其中，具体的，可以采用one-hot或者wordvec的方式对上述正例和负例进行矢量化。再对矢量化后的数据进行训练，得到一个二分类模型。该二分类模型可以用于判别语音识别结果是否属于对应的目标场景。

本申请实施例中为了提高识别效率，减少工作量，在对多种语音识别结果进行可信度判别，得到可信度的判别结果前，具体实施时，可以先从所述多种语言类型中确定出待确定的语言类型。

在一个实施方式中，具体实施时，可以根据所述语言类型的判别结果，从所述多种语言类型中确定出待确定的语言类型。当然上述所列举的从多种语音类型中确定出待确定的语言类型方式只是一种示意性说明，不应当构成对本申请的不当限定。

本申请实施例中在对语音数据进行语言类型判别前，所述方法具体实施时，还可以包括以下内容：获取语音数据。具体的，为了减少工作量，提高识别效率，在获取所述语音数据后，所述方法还可以包括：从所述语音数据中截取检验数据。上述检验数据具体可以用于识别语音数据所对应的语言类型。如此，可以避免对完整的语音数据进行分析处理，仅对所截取的部分语音数据进行语言类型的识别，减少了工作量，提高了识别效率。

具体的，可以通过截取所述语音数据中第一预设时间点和第二预设时间点之间的数据作为所述检验数据；也可以通过截取所述语音数据中重音位置的预设范围内的数据作为所述检验数据。当然，还可以根据具体的应用场景和精度要求，选择其他合适的截取方式截取上述检验数据。对此，本申请不作限定。

本申请实施例中，上述根据所述语言类型的判别结果和所述可信度的判别结果，从所述多种语音识别结果中筛选出符合要求的语音识别结果，具体实施时，可以包括：

S1：根据所述语言类型的判别结果和所述可信度的判别结果，进行多模融合判断，得到多模融合判断结果；

S2：根据所述多模融合判断结果，从所述多种语音识别结果中筛选出符合要求的语音识别结果。

本申请实施例中具体实施时，可以根据所述语言类型的判别结果和所述可信度的判别结果进行加权打分，以得到多模融合判断结果。也可以事先根据不同判别结果的特征训练一个二分类模型作为多模融合判断模型，用于进行多模融合判断，得到上述多模融合判断结果。

本申请实施例所提供的语音识别设备的实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在服务器端上的语音识别设备为例，图9是本申请实施例的一种语音识别设备的硬件结构框图。如图9所示，该系统具体可以包括声音采集器111和处理器112(处理器112可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置等)，其中，声音采集器111可以通过内部线缆与上述处理器112耦合。当然也可以通过无线的方式，例如WIFI、蓝牙等于处理器112耦合。具体的，上述声音采集器111可以是麦克风、集音器等设备，用于采集语音数据。上述处理器具体可以用于通过多个语音识别模型对所述语音数据进行识别，得到多个语音识别结果；确定所述多个语音识别结果中各个语音识别结果的可信度；将可信度最高的语音识别结果作为所述语音数据的识别结果。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，上述系统还可以包括存储器113等结构。存储器113可用于存储应用软件的软件程序以及模块，如本发明实施例中的语音识别设备的程序指令/模块，处理器112通过运行存储在存储器113内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的语音识别方法。存储器113可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器113可进一步包括相对于处理器112远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

在本实施例中，上述语音识别设备具体可以应用在地铁自助购票、智能导航、智能购物、智能家居、老人陪护等多种交互应用场景中。

在一个实施方式中，上述处理器112在将可信度最高的语音识别结果作为所述语音数据的识别结果之后，所述处理器112还可以用于将所述可信度最高的语音识别结果所对应的语音识别模型对应的语言类型，作为所述语音数据的语言类型。

本申请提供的多语言语音识别设备，通过多个语音识别模型分别对目标语音数据进行识别，然后选择识别结果中可信度最高的语音识别结果作为最终的识别结果，避免了先进行识别模型的选择而导致的如果识别模型选择错误，将会导致后续的语音识别结果都会出错的问题，达到了有效提升语音识别结果准确性的技术效果。

在软件层面，上述语音识别设备还可以包括：获取模块、识别模块、确定模块，其中：

获取模块，可以用于获取语音数据；

识别模块，可以用于通过多个语音识别模型对所述语音数据进行识别，得到多个语音识别结果；

确定模块，可以用于确定所述多个语音识别结果中各个语音识别结果的可信度，并将可信度最高的语音识别结果作为所述语音数据的识别结果。

在一个实施方式中，不同的语音识别模型用于识别不同类型的语言，在将可信度最高的语音识别结果作为所述语音数据的识别结果之后，确定模块还可以将所述可信度最高的语音识别结果所对应的语音识别模型对应的语言类型，作为所述语音数据的语言类型。

在一个实施方式中，上述确定模块在确定所述多个语音识别结果中各个语音识别结果的可信度时，可以根据以下至少之一确定所述多个语音识别结果中各个语音识别结果的可信度：语音识别结果与场景的相关度、语音识别结果的句法结构等。当然上述所列举的多种确定识别结果的可信度只是为了更好地说明本申请实施例。具体实施时，也可以根据具体情况和精度要求选择其他合适方式进行可信度的确定。

在一个实施方式中，所述装置还包括语言类型判别模块，具体可以用于在识别模块通过多个语音识别模型对所述语音数据进行识别，得到多个语音识别结果之前，语言类型判别模块可以通过语言分类模型识别出所述语音数据属于各语言类型的置信度。

在一个实施方式中，上述确定模块具体实施时，可以结合通过语言分类模型识别出所述语音数据属于各语言类型的置信度，确定所述多个语音识别结果中各个语音识别结果的可信度。

在一个实施方式中，上述语言类型判别模块具体实施时，可以先通过以下方式中的一种获取检验数据：截取所述语音数据中第一预设时间点和第二预设时间点之间的数据作为所述检验数据；或，截取所述语音数据中重音位置的预设范围内的数据作为所述检验数据；再通过语言分类模型识别出所述检验数据属于各语言类型的置信度。

在一个实施方式中，为了减少工作量，提高工作效率，在对多种语音识别结果进行可信度判别，得到可信度的判别结果前，所述系统还可以包括语言类型初选模块，用于从所述多种语言类型中确定出待确定的语言类型。

在一个实施方式中，上述语言类型初选模块具体实施时，可以根据所述语言类型的判别结果，从所述多种语言类型中确定出待确定的语言类型。

在一个实施方式中，具体实施时，以包括两种方言的语音识别为例如何利用利用上述语音识别方法准确地进行语音识别。具体的，包括以下步骤：

S1：将语音数据输入至语言(方言)分类模型，得到该语音数据分别属于哪一种语言(方言)的判别分数；

S2：将该语音数据分别输入到两种语言(方言)类型的语音识别模型，得到该语音数据在两种语言类型的语音识别模型下得到的识别结果，并对识别结果分别进行置信度判别，得到两种识别结果的置信度的判别分数；

S3：将该语音数据在两种语言类型的语音识别模型下得到的语音识别结果分别输入到场景相关度判别模型，得到两种识别结果分别和目标场景的相关度的判别分数；

S4：将上述该语音数据分别属于哪一种语言(方言)的判别分数、两种识别结果的置信度的判别分数、两种识别结果分别和目标场景的相关度的判别分数输入到多模融合判别模型，确定出哪种语言类型的语音识别结果是符合要求的语音识别结果；

S5：向用户展示符合要求的语音识别结果，或者，根据上述语音识别结果进行后续语义理解。

本申请实施方式中还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取语音数据；通过多个语音识别模型对所述语音数据进行识别，得到多个语音识别结果；确定所述多个语音识别结果中各个语音识别结果的可信度；将可信度最高的语音识别结果作为所述语音数据的识别结果。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的装置或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然，也可以将实现某功能的模块由多个子模块或子单元组合实现。

本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

一种语音识别方法，其特征在于，包括：

获取语音数据；

通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；

通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；

对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。
根据权利要求1所述的方法，其特征在于，对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果，包括：

获取所述语言数据用于多个语言方言的置信度值，和属于目标场景的相关度值；

获取预设的置信度权重值和相关度权重值；

根据所述置信度权重值、所述相关度权重值、用于多个语言方言的置信度值和属于目标场景的相关度值、确定所述语音数据的方言识别结果。
根据权利要求2所述的方法，其特征在于，根据所述置信度权重值、所述相关度权重值，用于多个语言方言的置信度值和属于目标场景的相关度值，确定所述语音数据的方言识别结果，包括：

根据所述置信度权重值、所述相关度权重值、用于多个语言方言的置信度值和属于目标场景的相关度值，对所述语音数据属于各方言的可能性进行打分；

将分数最高的方言，作为所述语言数据对应的方言；

将分数最高的方言对应的方言语音识别模型组件的识别结果，作为所述语音数据的语音识别结果。
根据权利要求1所述的方法，其特征在于，通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的置信度值，包括：

通过所述多个方言语音识别模型组件并行对所述语音数据进行打分；

将打分结果，作为用于多个语言方言的置信度值。
根据权利要求1所述的方法，其特征在于，通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的置信度值，包括：

从所述语音数据中截取语音开始后预定秒数后的数据作为样本数据；

通过多个方言语音识别模型组件对所述样本数据并行进行识别，得到用于多个语言方言的置信度值。
一种语音识别设备，其特征在于，包括：声音采集器和处理器，所述声音采集器与所述处理器耦合，其中：

所述声音采集器用于采集语音数据；

所述处理器用于通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。
一种地铁站售票机，其特征在于，包括：声音采集器和处理器，所述声音采集器与所述处理器耦合，其中：

所述声音采集器用于采集语音数据；

所述处理器用于通过多个方言语音识别模型组件对所述语音数据并行进行识别，得到用于多个语言方言的识别结果和置信度值；通过场景相关度判别模型，确定用于多个语言方言的识别结果属于目标场景的相关度值；对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果。
根据权利要求7所述的售票机，其特征在于，对置信度和相关度进行融合判断，确定所述语音数据的方言识别结果，包括：

获取所述语言数据用于多个语言方言的置信度值，和属于目标场景的相关度值；

获取预设的置信度权重值和相关度权重值；

根据所述置信度权重值、所述相关度权重值、用于多个语言方言的置信度值和属于目标场景的相关度值、确定所述语音数据的方言识别结果。
根据权利要求8所述的售票机，其特征在于，根据所述置信度权重值、所述相关度权重值，用于多个语言方言的置信度值和属于目标场景的相关度值，确定所述语音数据的方言识别结果，包括：

根据所述置信度权重值、所述相关度权重值、用于多个语言方言的置信度值和属于目标场景的相关度值，对所述语音数据属于各方言的可能性进行打分；

将分数最高的方言，作为所述语言数据对应的方言；

将分数最高的方言对应的方言语音识别模型组件的识别结果，作为所述语音数据的语音识别结果。
一种语音识别方法，其特征在于，包括：

获取语音数据；

通过多个方言语音识别模型组件对所述语音数据进行识别，得到多个语音识别结果；

确定所述多个语音识别结果中各个语音识别结果的可信度；

将可信度最高的语音识别结果作为所述语音数据的识别结果。
一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至5中任一项所述方法的步骤。