WO2017020794A1

WO2017020794A1 - 一种交互系统的语音识别方法和装置

Info

Publication number: WO2017020794A1
Application number: PCT/CN2016/092412
Authority: WO
Inventors: 齐路; 韩笑; 苑一时
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2015-07-31
Filing date: 2016-07-29
Publication date: 2017-02-09
Also published as: CN105161098A

Abstract

一种交互式系统的语音识别方法和装置。该方法包括：根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本（S110）；将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本（S120）；采集所述互动状态下的用户的语音信号（S130）；将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配（S140）。该技术方案能够提高交互系统的语音识别速度和准确性。

Description

一种交互系统的语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，具体涉及一种交互式系统的语音识别方法和装置。

背景技术

随着多媒体技术的发展，各种交互式系统都采用了语音交互的方式，以提高与用户的互动效率和提高趣味性。例如问答系统，先通过语音或图像显示的方式向用户抛出问题，然后用户语音回答。再例如一些展示系统，需要用户发出语音指令来选择展示哪些目录中的内容。在这些场景下都需要对用户的语音进行准确识别，才能在问答系统下判断用户给出的语音答案是否正确，以及在展示系统下判断用户到底选择了哪些目录，以便展示相应目录中的内容。

因此在交互系统中对用户的语音进行准确和快速的识别是亟需解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种交互式系统的语音识别方法和装置。

依据本发明的一个方面，提供了一种交互系统的语音识别方法，其中，该方法包括：

根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本；

将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本；

采集所述互动状态下的用户的语音信号；

将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。

依据本发明的一个方面，公开了一种交互系统的语音识别装置，其中，该装置包括：

预期样本确定单元，适于根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本；

分组单元，适于将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本；

采集单元，适于采集所述互动状态下的用户的语音信号；

匹配处理单元，适于将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。

依据本发明的一个方面，公开了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行如上所述的交互系统的语音识别方法。

依据本发明的一个方面，公开了一种计算机可读介质，其中存储了如上所述的计算机程序。

根据本发明的这种根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本，将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本，采集所述互动状态下的用户的语音信号，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配的技术方案，由于将预期答案对应的预期样本预先找出来并分组，将用户的语音信号直接与其中一组预期样本进行匹配，因此使得匹配的范围缩小到一个可预期的小范围，不仅提高了交互系统的语音识别的速度，而且提高了语音识别的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种交互系统的语音识别方法的流程图；

图2示出了根据本发明一个实施例的一种交互系统的语音识别装置的结构图；以及

图3示出了根据本发明又一个实施例的一种交互系统的语音识别装置的结构图；

图4示意性地示出了用于执行根据本发明的方法的计算设备的框图；以及

图5示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种交互系统的语音识别方法的流程图。如图1所示，该方法包括：

步骤S110，根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本。

在发明的本实施例中，一个互动状态是指某个特定的互动场景，例如问答系统中的某个特定的问答题场景，或者展示系统中的展示某个特定内容的场景。

以问答系统中的某个特定问答题场景为例，问答系统提问：“芹菜叶是否可以食用？”。对应的预期答案为“是”。根据该预期答案，用户回答“是”、“可以”和“能”都是在正确的，因此从语音识别样本库中选择“是”、“可以”和“能”这三个样本作为该互动状态对应的多个预期样本组。

步骤S120，将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本。

例如，仍以问答系统提问“芹菜叶是否可以食用？”这个互动状态为例，将对应的三个预期样本划分为两组，其中“是”为第一样本组，“可以”和“能”为第二样本组。

步骤S130，采集所述互动状态下的用户的语音信号。

例如，当问答系统输出问题后采集用户针对该问题的语音信号。一般采用麦克风进行语音信号的采集。

步骤S140，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。

例如，将采集的语音信号与第一样本组中的预期样本“是”进行匹配，或者与第二样本组中的预期样本“可以”和“能”进行匹配。

图1所示的方法，由于将预期答案对应的预期样本预先找出来并分组，将用户的语音信号直接与其中一组预期样本进行匹配，因此使得匹配的范围缩小到一个可预期的小范围，不仅提高了交互系统的语音识别的速度，而且提高了语音识别的准确性。

在本发明的一个实施例中，图1所示的方法进一步包括：若在所述样本组中发现匹配的预期样本，则确定用户给出的答案为该预期答案。即不管将所述语音信号与哪个样本组中的预期样本进行匹配，只要发现匹配的预期样本，则确定用户给出的答案为该预期答案，即正确答案。

在本发明的一个实施例中，图1所示的方法进一步包括：若未在所述样本组中发现匹配的预期样本，则将所述语音信号与所述至少两个样本组中另一个样本组中的预期样本进行匹配。若在所述另一个样本组中发现匹配的预期样本，则确定用户给出的答案为该预期答案。若未在所述另一个样本组中发现匹配的预期样本，则确定用户未给出预期答案。

即如果未在第一次选择的样本组中发现匹配的预期样本，则再第二次选择一个其他样本组，将语音信号与第二次选择的样本组中的预期信号进行匹配；同样，如果在第二次选择的样本组中找到匹配的预期样本，则确定用户给出了正确答案；反之，如果在第二次选择的样本组中未找到匹配的预期样本，则确定用户未给出正确答案，或者还有其他未被选择过的样本组则将语音信号进一步与未被选择过的样本组中的预期样本进行匹配。

在本发明的一个实施例中，上述方法进一步包括：计算所述语音信号与预期样本的匹配度值，如果匹配度值达到预设值，则确定所述语音信号与该预期样本匹配，反之如果匹配度值未达到预设值，则确定所述语音信号与该预期样本不匹配。

即判断语音信号与一个预期样本是否匹配时，预先设置一个预设值，具体进行匹配时是计算语音信号与预期样本的匹配度值，再将计算得到的匹配度值与预设值进行比较。语音信号与预期样本的匹配度值可以采用两者的相似度值，即两个语音信号的相似度值。

在本发明的一个实施例中，图1所示方法中所述将所述预期答案对应的多个预期样本划分为至少两个样本组包括：将所述预期答案对应的多个预期样本，按照与所述预期答案的相似程度的不同划分为至少两个样本组，或者按照用户可能答复的预期答案的概率的不同划分为至少两个样本组。

例如，“芹菜叶是否可以食用？”对应的预期答案为“是”。根据该预期答案，选择“是”、“可以”和“能”这三个样本作为该互动状态对应的三个预期样本。其中“是”与预期答案的相似程度为100％，因此被划分到第一样本组，而“可以”和“能”由于相似度不是100％，因此被划分到第二样本组。又例如，用户回答“是”的概率是70％，划分到第一样本组，用户回答“可以”和“能”的概率分别是16％和14％，则划分到第二样本组。

在本发明的一个实施例中，图1所示方法中所述将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配包括：将所述语音信号与至少两个样本组中的与所述预期答案的相似程度最高的一个样本组中的预期样本进行匹配，或者将所述语音信号与至少两个样本组中的包含用户可能答复的概率最高的预期答案的一个样本组进行匹配。

例如，第一样本组中的“是”是用户回答概率最高的一个答案，比如70％的用户都会回答“是”，因此第一次将所述语音信号与第一样本组中的预期样本“是”进行匹配。

在本发明的一个实施例中，图1所示方法中将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配包括：将所述语音信号与至少两个样本组中的一个样本组中优先级最高的预期样本进行匹配。

例如，如果当前选择将所述语音信号与前述的第二样本组中的预期样本进行匹配，而第二样本组中用户回答“可以”的概率是16％，回答“能”的概率是14％，因此设置“可以”的优先级比“能”高。则将所述语音信号先与预期样本“可以”进行匹配，如果不匹配再与预期样本“能”进行匹配。

在本发明的一个实施例中，图1所示的方法进一步包括：根据所采集的该互动状态下的历史语音信号，相应扩充所述预期答案对应的样本组数量，或者，相应扩充所述预期答案对应的一个样本组包含的预期样本数量，或者相应扩充所述语音识别样本库中的样本数量。

这是因为，预先设置的语音识别样本库可能会没有覆盖预期答案对应的所有样本，因此可以通过学习来补充语音识别样本库或者已经选出的样本组。例如通过学习发现，有些用户会回答“嗯”和“OK”，这在人类语境中也是表示“是”的含义，因此可以将“嗯”和“OK”这两个样本也收录到语音识别样本库中，或者添加到已经选出的样本组中，或者新增一个样本组。例如，将“嗯”和“OK”添加到前述的第二样本组，或者将“嗯”和“OK”划分为第三样本组。

在本发明的一个实施例中，图1所示方法在采集所述互动状态下的用户的语音信号之前，该方法进一步包括：通过结合语音、图像和视频中任一种或多种的形式，展现互动状态。例如，通过结合语音、图像和视频中任一种或多种的形式展现问题或者展现要展示的内容。

图2示出了根据本发明一个实施例的一种交互系统的语音识别装置的结构图。图2所示，该交互系统的语音识别装置200包括：

预期样本确定单元210，适于根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本。

分组单元220，适于将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本。

采集单元230，适于采集所述互动状态下的用户的语音信号。

匹配处理单元240，适于将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。

图2所示的装置，由于将预期答案对应的预期样本预先找出来并分组，将用户的语音信号直接与其中一组预期样本进行匹配，因此使得匹配的范围缩小到一个可预期的小范围，不仅提高了交互系统的语音识别的速度，而且提高了语音识别的准确性。

图3示出了根据本发明又一个实施例的一种交互系统的语音识别装置的结构图。图3所示，该交互系统的语音识别装置300包括：

预期样本确定单元310，适于根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本。

分组单元320，适于将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本。分组单元320中保存所述至少两个样本组。

采集单元330，适于采集所述互动状态下的用户的语音信号；

匹配处理单元340，适于将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。

在本发明的一个实施例中，所述匹配处理单元340，适于当在所述样本组中发现匹配的预期样本时，确定用户给出的答案为该预期答案。即不管将所述语音信号与哪个样本组中的预期样本进行匹配，只要发现匹配的预期样本，则确定用户给出的答案为该预期答案，即正确答案。

在本发明的一个实施例中，所述匹配处理单元340，适于当未在所述样本组中发现匹配的预期样本时，将所述语音信号与所述至少两个样本组中另一个样本组中的预期样本进行匹配。

在本发明的一个实施例中，所述匹配处理单元340，适于当在所述另一个样本组中发现匹配的预期样本时，确定用户给出的答案为该预期答案。

在本发明的一个实施例中，所述匹配处理单元340，适于当未在所述另一个样本组中发现匹配的预期样本，则确定用户未给出预期答案。

在本发明的一个实施例中，所述匹配处理单元340，适于计算所述语音信号与预期样本的匹配度值，如果匹配度值达到预设值，则确定所述语音信号与该预期样本匹配，反之如果匹配度值未达到预设值，则确定所述语音信号与该预期样本不匹配。即判断语音信号与一个预期样本是否匹配时，预先设置一个预设值，具体进行匹配时是计算语音信号与预期样本的匹配度值，再将计算得到的匹配度值与预设值进行比较。语音信号与预期样本的匹配度值可以采用两者的相似度值，即两个语音信号的相似度值。

在本发明的一个实施例中，所述分组单元320，适于将所述预期答案对应的多个预期样本，按照与所述预期答案的相似程度的不同划分为至少两个样本组，或者按照用户可能答复的预期答案的概率的不同划分为至少两个样本组。例如，“芹菜叶是否可以食用？”对应的预期答案为“是”。根据该预期答案，选择“是”、“可以”和“能”这三个样本作为该互动状态对应的三个预期样本。其中“是”与预期答案的相似程度为100％，因此被划分到第一样本组，而“可以”和“能”由于相似度不是100％，因此被划分到第二样本组。又例如，用户回答“是”的概率是70％，划分到第一样本组，用户回答“可以”和“能”的概率分别是16％和14％，则划分到第二样本组。

在本发明的一个实施例中，所述匹配处理单元340，适于将所述语音信号先与至少两个样本组中的与所述预期答案的相似程度最高的一个样本组中的预期样本进行匹配，或者将所述语音信号与至少两个样本组中的包含用户可能答复的概率最高的预期答案的一个样本组进行匹配。例如，第一样本组中的“是”是用户回答概率最高的一个答案，比如70％的用户都会回答“是”，因此第一次将所述语音信号与第一样本组中的预期样本“是”进行匹配。

在本发明的一个实施例中，所述匹配处理单元340，适于先将所述语音信号先与至少两个样本组中的一个样本组中优先级最高的预期样本进行匹配。例如，如果当前选择将所述语音信号与前述的第二样本组中的预期样本进行匹配，而第二样本组中用户回答“可以”的概率是16％，回答“能”的概率是14％，因此设置“可以”的优先级比“能”高。则将所述语音信号线与预期样本“可以”进行匹配，如果不匹配再与预期样本“能”进行匹配。

在本发明的一个实施例中，该装置300进一步包括：扩充单元350，适于根据所采集的该互动状态下的历史语音信号，相应扩充所述预期答案对应的样本组数量，或者，相应扩充所述预期答案对应的一个样本组包含的预期样本数量，或者相应扩充所述语音识别样本库中的样本数量。这是因为，预先设置的语音识别样本库可能会没有覆盖预期答案对应的所有样本，因此可以通过学习来补充语音识别样本库或者已经选出的样本组。例如通过学习发现，有些用户会回答“嗯”和“OK”，这在人类语境中也是表示“是”的含义，因此可以将“嗯”和“OK”这两个样本也收录到语音识别样本库中，或者添加到已经选出的样本组中，或者新增一个样本组。例如，将“嗯”和“OK”添加到前述的第二样本组，或者将“嗯”和“OK”划分为第三样本组。

在本发明的一个实施例中，该装置300进一步包括：展现单元360，适于通过结合语音、图像和视频中任一种或多种的形式，展现互动状态。例如，通过结合语音、图像和视频中任一种或多种的形式展现问题或者展现要展示的内容。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的交互系统的语音识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了用于执行根据本发明的方法的计算设备的框图。该计算设备传统上包括处理器410和以存储器420形式的计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如，用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图5所述的便携式或者固定存储单元。该存储单元可以具有与图4的计算设备中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码431’，即可以由例如诸如410之类的处理器读取的代码，这些代码当由计算设备运行时，导致该计算设备执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种交互系统的语音识别方法，其中，该方法包括：

根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本；

将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本；

采集所述互动状态下的用户的语音信号；

将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。
如权利要求1所述的方法，其中，该方法进一步包括：

若在所述样本组中发现匹配的预期样本，则确定用户给出的答案为该预期答案。
如权利要求1所述的方法，其中，该方法进一步包括：

若未在所述样本组中发现匹配的预期样本，则将所述语音信号与所述至少两个样本组中另一个样本组中的预期样本进行匹配。
如权利要求3所述的方法，其中，该方法进一步包括：

若在所述另一个样本组中发现匹配的预期样本，则确定用户给出的答案为该预期答案。
如权利要求3所述的方法，其中，该方法进一步包括：

若未在所述另一个样本组中发现匹配的预期样本，则确定用户未给出预期答案。
如权利要求1-5中任一项所述的方法，其中，该方法进一步包括：

计算所述语音信号与预期样本的匹配度值，如果匹配度值达到预设值，则确定所述语音信号与该预期样本匹配，反之如果匹配度值未达到预设值，则确定所述语音信号与该预期样本不匹配。
如权利要求1所述的方法，其中，所述将所述预期答案对应的多个预期样本划分为至少两个样本组包括：

将所述预期答案对应的多个预期样本，按照与所述预期答案的相似程度的不同划分为至少两个样本组，或者按照用户可能答复的预期答案的概率的不同划分为至少两个样本组。
如权利要求7所述的方法，其中，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配包括：

将所述语音信号与至少两个样本组中的与所述预期答案的相似程度最高的一个样本组中的预期样本进行匹配，或者将所述语音信号与至少两个样本组中的包含用户可能答复的概率最高的预期答案的一个样本组进行匹配。
如权利要求1所述的方法，其中，将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配包括：

将所述语音信号与至少两个样本组中的一个样本组中优先级最高的预期样本进行匹配。
如权利要求1所述的方法，其中，该方法进一步包括：

根据所采集的该互动状态下的历史语音信号，相应扩充所述预期答案对应的样本组数量，或者，相应扩充所述预期答案对应的一个样本组包含的预期样本数量，或者相应扩充所述语音识别样本库中的样本数量。
如权利要求1所述的方法，其中，在采集所述互动状态下的用户的语音信号之前，该方法进一步包括：

通过结合语音、图像和视频中任一种或多种的形式，展现互动状态。
一种交互系统的语音识别装置，其中，该装置包括：

预期样本确定单元，适于根据互动状态及所述互动状态下的预期答案，在语音识别样本库中预先确定与互动状态及所述预期答案对应的多个预期样本；

分组单元，适于将所述预期答案对应的多个预期样本划分为至少两个样本组，每个样本组中至少包含一个预期样本；

采集单元，适于采集所述互动状态下的用户的语音信号；

匹配处理单元，适于将所述语音信号与至少两个样本组中的一个样本组中的预期样本进行匹配。
如权利要求12所述的装置，其中，

所述匹配处理单元，适于当在所述样本组中发现匹配的预期样本时，确定用户给出的答案为该预期答案。
如权利要求12所述的装置，其中，

所述匹配处理单元，适于当未在所述样本组中发现匹配的预期样本时，将所述语音信号与所述至少两个样本组中另一个样本组中的预期样本进行匹配。
如权利要求14所述的装置，其中，

所述匹配处理单元，适于当在所述另一个样本组中发现匹配的预期样本时，确定用户给出的答案为该预期答案。
如权利要求14所述的装置，其中，

所述匹配处理单元，适于当未在所述另一个样本组中发现匹配的预期样本，则确定用户未给出预期答案。
如权利要求13-16中任一项所述的装置，其中，

所述匹配处理单元，适于计算所述语音信号与预期样本的匹配度值，如果匹配度值达到预设值，则确定所述语音信号与该预期样本匹配，反之如果匹配度值未达到预设值，则确定所述语音信号与该预期样本不匹配。
如权利要求12所述的装置，其中，

所述分组单元，适于将所述预期答案对应的多个预期样本，按照与所述预期答案的相似程度的不同划分为至少两个样本组，或者按照用户可能答复的预期答案的概率的不同划分为至少两个样本组。
如权利要求18所述的装置，其中，

所述匹配处理单元，适于将所述语音信号先与至少两个样本组中的与所述预期答案的相似程度最高的一个样本组中的预期样本进行匹配，或者将所述语音信号与至少两个样本组中的包含用户可能答复的概率最高的预期答案的一个样本组进行匹配。
如权利要求12所述的装置，其中，

所述匹配处理单元，适于先将所述语音信号先与至少两个样本组中的一个样本组中优先级最高的预期样本进行匹配。
如权利要求12所述的装置，其中，该装置进一步包括：

扩充单元，适于根据所采集的该互动状态下的历史语音信号，相应扩充所述预期答案对应的样本组数量，或者，相应扩充所述预期答案对应的一个样本组包含的预期样本数量，或者相应扩充所述语音识别样本库中的样本数量。
如权利要求12所述的装置，其中，该装置进一步包括：

展现单元，适于通过结合语音、图像和视频中任一种或多种的形式，展现互动状态。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-11中的任一个所述的交互系统的语音识别方法。
一种计算机可读介质，其中存储了如权利要求23所述的计算机程序。