WO2015062465A1

WO2015062465A1 - 移动设备上的实时口语评价系统及方法

Info

Publication number: WO2015062465A1
Application number: PCT/CN2014/089644
Authority: WO
Inventors: 王翌; 林晖; 胡哲人
Original assignee: 上海流利说信息技术有限公司
Priority date: 2013-10-30
Filing date: 2014-10-28
Publication date: 2015-05-07
Also published as: CN104599680B; EP3065119A4; JP2016536652A; US20160253923A1; JP6541673B2; CN104599680A; EP3065119A1

Abstract

一种移动设备上的实时口语评价系统及方法，系统包括：采集模块（110），用于采集待评价语音的语音数据；识别模块（130），用于将采集模块（110）采集到的语音数据识别为文本数据；匹配模块（150），用于将识别模块（130）识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果；以及评价模块（170），用于根据预先定义的评价策略和匹配模块（150）匹配得到的匹配结果，得到并输出待评价语音中至少一个字符或字符串的发音得分，和/或待评价语音的发音得分。通过将口语评价系统在移动设备上完成，不但减少了口语评价系统对网络的依赖，而且还能够给用户即时口语评价反馈，提高用户体验效果。

Description

移动设备上的实时口语评价系统及方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种移动设备上的实时口语评价系统及方法。

背景技术

现有的口语评价系统大都以计算机作为客户端，用户通过与计算机相连的麦克风录音，音频数据通过网络传到服务器端，并由在服务器端运行的算法进行评价，评价算法都是运行在计算资源(CPU资源、内存资源、存储资源)相对充足的服务器端的计算机上。

随着移动设备的普及，用户开始从计算机客户端向移动设备客户端迁移。将评价系统的客户端移植到移动设备上大都采用了如下解决方案：由移动设备客户端搜集语音数据，通过网络将语音数据传到服务器，在服务器上运行的口语评价算法，并将评价结果经由网络传回到移动设备客户端。

由于现有的方案依赖于网络连接，一方面，通过网络传输语音数据需要耗费流量，另一方面，移动设备不是在任何时候都有可靠的网络连接。以上两点都容易给口语评价系统带来负面的用户体验，而且，搭建和维护口语评价系统的服务器也会增加额外的成本。

发明内容

鉴于上述问题，提出了本发明，以便提供一种克服上述问题或者至少部分地解决上述问题的移动设备上的实时口语评价系统及方法，通过将口语评价系统在移动设备上完成，不但减少了口语评价系统对网络的依赖，即能够减少移动设备和服务器端的消息传输的流量损耗，而且还能够给用户即时口语评价反馈，从而实现何时何地都能使用该口语评价系统练习口语，提高用户体验效果。

依据本发明的一个方面，提供了一种移动设备上的实时口语评价系统，其包括：采集模块，用于采集待评价语音的语音数据，待评价语音中包括至少一个字符的语音或字符串的语音；识别模块，用于将采集模块采集到的语音数据识别为文本数据；匹配模块，用于将识别模块识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果；以及评价模块，用于根据预先定义的评价策略和所述匹配模块匹配得到的匹配结果，得到并输出待评价语音中至少一个字符或字符串的发音得分，和/或待评价语音的发音得分。

可选地，系统还包括：显示模块，用于显示所述语音样本库中语音样本的文本数据；

所述采集模块进一步用于采集用户按照所述显示模块显示的语音样本库中语音样本的文本数据输入的、作为待评价语音的语音数据。

可选地，系统还包括：得分比较模块，用于将评价模块输出的待评价语音的发音得分，和/或所述待评价语音中至少一个字符或字符串的发音得分，与预先定义的发音得分阈值进行比较；标记模块，用于在所述待评价语音的发音得分低于预先定义的发音得分阈值的情况下，在所述显示模块显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的文本数据；和/或，在待评价语音中字符或字符串的发音得分低于预先定义的发音得分阈值的情况下，在所述显示模块显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的字符或字符串。

可选地，匹配模块进一步用于根据Levenshtein Distance编辑距离算法，对所述识别模块识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配计算，得到匹配结果。

可选地，预先定义的评价策略为：在识别得到的文本数据与语音样本库中语音样本的文本数据匹配的情况下，将根据语音数据识别得到文本数据中字符或字符串的后验概率作为待评价语音中字符或字符串的发音得分；将待评价语音中所有字符或字符串的发音得分的平均分作为待评价语音的发音得分。

可选地，系统还包括：存储模块，用于存储所述语音样本库，所述语音样本库中包括至少一个语音样本。

依据本发明的另一个方面，还提供了一种终端设备上的实时口语评价方法，其包括：采集待评价语音的语音数据，所述待评价语音中包括至少一个字符的语音或字符串的语音；将采集到的所述语音数据识别为文本数据；将识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果；以及根据预先定义的评价策略和所述匹配结果，得到并输出所述待评价语音中至少一个字符或字符串的发音得分，和/或所述待评价语音的发音得分。

可选地，在所述采集待评价语音的语音数据的步骤之前，所述方法还包括：显示语音样本库中语音样本的文本数据；

相应地，所述采集待评价语音的语音数据的步骤为：采集用户按照显示的语音样本库中语音样本的文本数据输入的、作为待评价语音的语音数据。

可选地，方法还包括：将输出的所述待评价语音的发音得分，和/或所述待评价语音中的至少一个字符或字符串的发音得分，与预先定义的发音得分阈值进行比较；在所述待评价语音的发音得分低于预先定义的发音得分阈值的情况下，在显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的文本数据；和/或，在待评价语音中的至少一个字符或字符串的发音得分低于预先定义的发音得分阈值的情况下，在显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的字符或字符串。

可选地，所述将识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果的步骤为：根据Levenshtein Distance编辑距离算法，对识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配计算，得到匹配结果。

在本发明的实施例中，通过移动设备上的实时口语评价系统采集待评价语音的语音数据；然后将采集到的语音数据识别为文本数据；然后将识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果；再根据预先定义的评价策略和匹配结果，得到并输出待评价语音的发音得分，和/或待评价语音中的至少一个字符或字符串的发音得分。通过将口语评价系统在移动设备的客户端上完成，不但减少了移动设备对网络的依赖，减少了移动设备和服务器端的消息传递的流量损耗，而且能够给用户即时口语评价反馈，从而达到何时何地都能使用该口语评价系统练习口语的效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性地示出了根据本发明的实施例的移动设备上的实时口语评价系统100的结构框图；以及

图2示意性地示出了根据本发明的实施例的移动设备上的实时口语评价方法200的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

应当理解，本领域技术人员能够设想出尽管没有在本说明书中明确描述或者记载、但是实现了本发明并且包含在本发明精神、原理与范围内的各种结构。

本说明书中引述的所有例子与条件性语言都是出于说明和教导的目的，以帮助读者理解发明人对现有技术作出贡献的原理与概念，并且应该被理解为不限于这些具体引述的例子与条件。

此外，本说明书中引述本发明的原理、各方面以及各实施例及其具体例子的所有描述和说明都意在涵盖其结构上与功能上的等价物或等效物。另外，这样的等价物或等效物应当包含当前已知的、以及将来开发的等价物或等效物，即，不管结构如何、都执行相同功能的研发成果。

本领域技术人员应该理解，说明书附图中呈现的框图表示实现本发明的结构或电路的示意性图示。类似地，应该理解，说明书附图中呈现的任何流程图等表示实际可以由各种计算机或者处理器执行的各种处理，而不管在图中是否明确显示了此类计算机或者处理器。

在权利要求书中，用来执行指定功能的模块意在涵盖执行该功能的任何方式，包括例如(a)执行该功能的电路元件的组合、或者(b)任何形式的软件，因此包括固件、微代码等等，其与适当电路组合，用来执行实现功能的软件。由各种模块提供的功能被以权利要求所主张的方式组合在一起，由此应当认为，可以提供这些功能的任何模块、部件、或元件都等价于权利要求中限定的模块。

说明书中的术语“实施例”意味着结合该实施例描述的具体特征、结构等等被包含在本发明的至少一个实施例中，因此，在说明书各处出现的术语“在实施例中”不一定都指相同的实施例。

如图1所示，根据本发明的实施例的移动设备上的实时口语评价系统100可以主要包括：采集模块110、识别模块130、匹配模块150和评价模块170，应当理解，图1中所表示的各个模块的连接关系仅为示例，本领域技术人员完全可以采用其它的连接关系，只要在这样的连接关系下各个模块也能够实现本发明的功能即可。

在本说明书中，各个模块的功能可以通过使用专用硬件、或者能够与适当的软件相结合来执行处理的硬件来实现。这样的硬件或专用硬件可以包括专用集成电路(ASIC)、各种其它电路、各种处理器等。当由处理器实现时，该功能可以由单个专用处理器、单个共享处理器、或者多个独立的处理器(其中某些可能被共享)来提供。另外，处理器不应该被理解为专指能够执行软件的硬件，而是可以隐含地包括、而不限于数字信号处理器(DSP)硬件、用来存储软件的只读存储器(ROM)、随机存取存储器(RAM)、以及非易失存储设备。

根据本发明的实施例，采集模块110，用于采集待评价语音的语音数据，其中待评价语音中包括至少一个字符的语音或字符串的语音。可选地，待评价语音中可以包括：中文词语、英文词语和阿拉伯数字中的任意一种或多种组合，当然可以理解的是，在本发明的实施例中并不限定待评价语音的语言类型。

在本发明的实施例中，采集模块110负责录入待评价语音，并保存待评价语音的语音数据。可选地，该采集模块110可以是现有的麦克风，用户可通过麦克风向系统100输入待评价语音。例如：待评价语音的内容可以为以下英语句子：“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo.”。可选地，系统100通过采集模块110将待评价语音的语音数据转化为.wav格式的音频文件并保存，其中WAV格式即为声音波形文件格式。当然可以理解的是，在本发明的实施例中并不限定采集模块110的具体结构。

根据本发明的实施例，识别模块130，用于将采集模块110采集到的语音数据识别为文本数据。

也就是，通过识别模块130可以将上述举例说明的待评价语音的语音数据识别为以下文本数据：WELCOME TO LIU LI SHUO！MY NAME IS PETER.I’M AN ENGLISH TEACHER AT LIU LI SHUO。

可选地，在本发明的实施例中，识别模块130采用语音识别模型是以混合高斯分布为输出概率分布的隐马尔科夫模型(Hidden Markov Model，HMM)。

识别模块130可以采用定点运算将采集模块110采集到的语音数据识别为文本数据。例如采用以下方式进行定点运算，当然并不限于此：

方式一、在现有的语音识别的算法中，有许多的浮点运算，可以用定点DSP(定点DSP完成的是整数运算或小数运算，数值格式中不包含阶码，通常定点DSP是16位或24位数据宽度)来实现浮点运算，然后通过数的定标方法来实现浮点数转换为定点数。数的定标就是决定小数点在定点数中的位置。Q表示法是一种常用的定标方法，其表示机制是：设定点数是x，浮点数是y，则Q表示法的定点数与浮点数的转换关系为：

浮点数y转换为定点数x：x＝(int)y×2^Q

方式二、(1)定义和简化算法结构；(2)确定需要量化的函数中的关键变量；(3)收集关键变量的统计信息；(4)确定关键变量的精确表示；(5)确定其余变量的定点格式。

由此可知，在本发明的实施例中可以采用定点运算代替一般的浮点运算，并使用整型数代替一般的浮点数来代表识别结果的输出概率。由于本发明的实施例中可以采用定点运算，该定点运算相对于浮点运算不需要定义很多的参数，从而使得识别模块130可以在占用较少的系统资源(CPU资源、内存资源、存储资源)的情况下，完成识别过程。当然可以理解的是，在本发明的实施例中并不限定识别模块130字符识别所采用的识别模型的具体类型。

根据本发明的实施例，匹配模块150，用于将识别模块130识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果。

可选地，在本发明的实施例中语音样本库中语音样本的文本数据可以是预先存储在语音样本库中的文本数据，例如预先将以下文本数据：WELCOME TO LIU LI SHUO！MY NAME IS PETER.I’M AN ENGLISH TEACHER AT LIU LI SHUO，存储在语音样本库中。

可选地，在本发明的实施例中，匹配模块150进一步用于根据Levenshtein Distance编辑距离算法，对识别模块130识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配计算，得到匹配结果。其中该匹配结果可以包括：识别模块130识别得到的文本数据与语音样本库中语音样本的文本数据匹配和识别模块130识别得到的文本数据与语音样本库中语音样本的文本数据不匹配。当然可以理解的是，在本发明的实施例中并不限定匹配模块150所采用的匹配算法。

根据本发明的实施例，评价模块170，用于根据预先定义的评价策略和匹配模块150匹配得到的匹配结果，得到并输出待评价语音中的至少一个字符或字符串的发音得分，和/或待评价语音的发音得分。

可选地，在本发明的实施例中，预先定义的评价策略为：在识别得到的文本数据与语音样本库中语音样本的文本数据匹配的情况下，将识别得到文本数据中字符或字符串的后验概率作为待评价语音中字符或字符串的发音得分，以及将待评价语音中所有字符或字符串的发音得分的平均分作为待评价语音的发音得分。

可选地，在本发明的实施例中，基于语音数据识别得到字符或字符串的后验概率为p(介于0到1)，则该字符或字符串的发音得分为p×100。

以上述举例的英语句子为例，通过评价模块170可以得到“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo.”整个英语句子的发音得分，和/或得到上述英语句子中每个单词的发音得分。即，在本发明的实施例中可以使用由句子单词组成的一元语言模型(unigram language model)。

根据本发明的实施例，所述移动设备上的实时口语评价系统100还可以包括一个或者多个可选模块，以实现额外或者附加的功能，然而这些可选模块对于实现本发明的目的而言并非是不可或缺的，根据本发明的实施例的移动设备上的实时口语评价系统100完全可以在没有这些可选模块的情况下，实现本发明的目的。这些可选模块尽管未在图1中示出，但它们与上述各模块之间的连接关系可以由本领域技术人员根据下述教导而容易地得出。

可选地，在本发明的实施例中，系统100还包括：显示模块，用于显示语音样本库中语音样本的文本数据，例如显示以下英语句子“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo”；

相应地，采集模块110进一步用于采集用户按照显示模块显示的语音样本库中语音样本的文本数据输入的、作为待评价语音的语音数据。

也就是，采集模块110采集用户朗读以下英语句子“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo”的语音数据。

可选地，在本发明的实施例中，系统100还包括：得分比较模块和标记模块，其中

上述得分比较模块用于将评价模块170输出的待评价语音的发音得分，和/或待评价语音中的至少一个字符或字符串的发音得分，与预先定义的发音得分阈值进行比较；可选地，预先定义的发音得分阈值可以设置为60分，当然可以理解的是，在本发明的实施例中并不限定其具体值。

标记模块用于在待评价语音的发音得分低于预先定义的发音得分阈值的情况下，在显示模块显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的文本数据；和/或，在待评价语音中的至少一个字符或字符串的发音得分低于预先定义的发音得分阈值的情况下，在显示模块显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的字符或字符串。

以上述举例的英语句子为例，在得分比较模块比较出“Welcome”的发音得分低于预先定义的发音得分阈值的情况下，可以在整个英语句子中将“Welcome”标记出，可选地，将“Welcome”的颜色设置为红颜色。

可选地，在本发明的实施例中，系统100还包括：存储模块，用于存储语音样本库，其中语音样本库中包括至少一个语音样本，例如该语音样本的内容为：“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo.”。

通过本发明的实施例，通过将口语评价系统在移动设备的客户端上完成，不但减少了移动设备对网络的依赖，减少了移动设备和服务器端的消息传递的流量损耗，而且能够给用户即时口语评价反馈，从而达到何时何地都能使用该口语评价系统练习口语的效果。

根据本发明的第二方面，与如上所述的根据本发明的实施例的移动设备上的实时口语评价系统100相对应，本发明还提供了一种移动设备上的实时口语评价方法200。

参考图2，其中示意性地示出了根据本发明的实施例的移动设备上的实时口语评价方法200的流程图。如图2所示，所述方法200包括步骤S210、S230、S250、S270，方法200始于步骤S210，其中，采集待评价语音的语音数据。其中待评价语音中包括至少一个字符的语音或字符串的语音，可选地，待评价语音中可以包括：中文词语、英文词语和阿拉伯数字中的任意一种或多种组合，当然可以理解的是，在本发明的实施例中并不限定待评价语音的语言类型。

可选地，用户可通过麦克风对系统100输入待评价语音。例如：待评价语音的内容可以为以下英语句子：“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo.”。可选地，系统100通过采集模块110将待评价语音的语音数据转化为.wav格式的音频文件并保存，其中WAV格式即为声音波形文件格式。

随后，在步骤S230中，将采集到的语音数据识别为文本数据。也就是，通过步骤S230可以将上述举例说明的待评价语音的语音数据识别为以下文本数据：WELCOME TO LIU LI SHUO！MY NAME IS PETER.I’M AN ENGLISH TEACHER AT LIU LI SHUO。

可选地，在本发明的实施例中，采用语音识别模型是以混合高斯分布为输出概率分布的隐马尔科夫模型(Hidden Markov Model，HMM)。即在本发明的实施例中采用定点运算代替一般的浮点运算，并使用整型数代替一般的浮点数来代表识别结果的输出概率。当然可以理解的是，在本发明的实施例中并不限定字符识别所采用的识别模型的具体类型。

随后，在步骤S250中，将识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果。

可选地，在本发明的实施例中，在步骤S250中，根据Levenshtein Distance编辑距离算法对识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配计算，得到匹配结果。例如：该匹配结果包括：识别得到的文本数据与语音样本库中语音样本的文本数据匹配和识别得到的文本数据与语音样本库中语音样本的文本数据不匹配。当然可以理解的是，在本发明的实施例中并不限定所采用的匹配算法。

随后，在步骤S270中，根据预先定义的评价策略和所述匹配结果，得到并输出待评价语音中的至少一个字符或字符串的发音得分，和/或待评价语音的发音得分。

以上述举例的英语句子为例，通过步骤S270可以得到“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo.”整个英语句子的发音得分，和/或得到上述英语句子中每个单词的发音得分。即，在本发明的实施例中可以使用由句子单词组成的一元语言模型(unigram language model)。

根据本发明的实施例，所述移动设备上的实时口语评价方法200还可以包括一个或者多个可选步骤，以实现额外或者附加的功能，然而这些可选步骤对于实现本发明的目的而言并非是不可或缺的，根据本发明的实施例的移动设备上的实时口语评价方法200完全可以在没有这些可选步骤的情况下，实现本发明的目的。这些可选步骤未在图2中示出，但它们与上述各步骤之间的先后执行可以由本领域技术人员根据下述教导而容易地得出。需要指出的是，只要没有特别说明，这些可选步骤连同上述步骤的执行顺序可以根据实际需要进行选择。

可选地，方法200还包括：显示语音样本库中语音样本的文本数据的文本数据，例如显示以下英语句子“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo.”；

相应地，所述采集待评价语音的语音数据(S210)的步骤为：采集用户按照显示的语音样本库中语音样本的输入的、作为待评价语音的语音数据。

也就是，可以通过步骤S210采集用户朗读以下英语句子“Welcome to Liu Li shuo！My name is Peter.I’m an English teacher at Liu Li shuo”的语音数据。

可选地，方法200还包括：将输出的所述待评价语音的发音得分，和/或所述待评价语音中的至少一个字符或字符串的发音得分，与预先定义的发音得分阈值进行比较；可选地，预先定义的发音得分阈值可以设置为60分，当然可以理解的是，在本发明的实施例中并不限定其具体值。

在所述待评价语音的发音得分低于预先定义的发音得分阈值的情况下，在显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的文本数据；和/或，在待评价语音中的至少一个字符或字符串的发音得分低于预先定义的发音得分阈值的情况下，在显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的字符或字符串。

以上述举例的英语句子为例，在比较出“Welcome”的发音得分低于预先定义的发音得分阈值的情况下，可以在整个英语句子中将“Welcome”标记出，可选地，将“Welcome”的颜色设置为红颜色。

由于上述各方法实施例与前述各装置实施例相对应，因此不再对各方法实施例进行详细描述。

在本说明书中，说明了大量的具体细节。然而，应当理解，本发明的实施例可以在没有这些具体细节的情况下实施。在一些实施例中，并未详细示出公知的方法、结构和技术，以便不使读者混淆对本说明书的原理的理解。

本领域技术人员可以理解，可以对各实施例中的装置中的模块进行自适应性地改变，并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的若干模块组合成一个模块或单元或组件，还可以把它们分成多个子模块或子单元或子组件。除了特征和/或处理相互排斥的情况之外，可以采用任何组合，对本说明书中公开的任何方法的所有步骤或者任何装置的所有模块进行组合。除非另外明确陈述，本说明书中公开的每个特征都可以由提供相同、等同或相似目的替代特征来代替。

本发明的各个装置实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的装置程序(例如，计算机程序和计算机程序产品)。

应当注意，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不偏离所附权利要求的范围的情况下，可设计出各种替代实施例。在权利要求书中，特征的排序并不意味着特征的任何特定顺序，并且特别地，方法权利要求中各步骤的顺序并不意味着这些步骤必须按照该顺序来执行。相反地，这些步骤可以以任何适当的顺序执行。同样，装置权利要求中各模块执行处理的顺序也不应受权利要求中各模块的排序限制，而是可以以任何适当的顺序执行处理。在权利要求书中，不应将位于括号内的任何参考标记理解成对权利要求的限制。术语“包括”或“包含”不排除存在未列在权利要求中的模块或步骤。位于模块或步骤之前的术语“一”或“一个”不排除存在多个这样的模块或步骤。本发明可以借助于包括若干不同模块的硬件或者借助于适当编程的计算机或处理器来实现。在列举了若干模块的装置权利要求中，这些模块中的若干项可以通过同一个硬件模块来实现。术语“第一”、“第二”、以及“第三”等的使用不表示任何顺序，可将这些术语解释为名称。术语“连接”、“耦接”等在本说明书中使用时定义为以任何期望形式进行可操作地连接，例如，机械地、电子地、数字地、模拟地、直接地、间接地、通过软件、通过硬件等方式进行连接。

Claims

一种移动设备上的实时口语评价系统(100)，其包括：

采集模块(110)，用于采集待评价语音的语音数据，所述待评价语音中包括至少一个字符的语音或字符串的语音；

识别模块(130)，用于将所述采集模块(110)采集到的语音数据识别为文本数据；

匹配模块(150)，用于将所述识别模块(130)识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果；以及

评价模块(170)，用于根据预先定义的评价策略和所述匹配模块(150)匹配得到的匹配结果，得到并输出所述待评价语音中至少一个字符或字符串的发音得分，和/或所述待评价语音的发音得分。
根据权利要求1所述的系统，所述系统还包括：显示模块，用于显示所述语音样本库中语音样本的文本数据；

所述采集模块(110)进一步用于采集用户按照所述显示模块显示的语音样本库中语音样本的文本数据输入的、作为待评价语音的语音数据。
根据权利要求2所述的系统，所述系统还包括：

得分比较模块，用于将所述评价模块(170)输出的待评价语音的发音得分，和/或所述待评价语音中至少一个字符或字符串的发音得分，与预先定义的发音得分阈值进行比较；

标记模块，用于在所述待评价语音的发音得分低于预先定义的发音得分阈值的情况下，在所述显示模块显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的文本数据；和/或，

在待评价语音中字符或字符串的发音得分低于预先定义的发音得分阈值的情况下，在所述显示模块显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的字符或字符串。
根据权利要求1所述的系统，其中，所述匹配模块(150)进一步用于根据Levenshtein Distance编辑距离算法，对所述识别模块(130)识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配计算，得到匹配结果。
根据权利要求1～4任一所述系统，其中，所述预先定义的评价策略为：在识别得到的文本数据与语音样本库中语音样本的文本数据匹配的情况下，将根据语音数据识别得到文本数据中字符或字符串的后验概率作为待评价语音中字符或字符串的发音得分；

将待评价语音中所有字符或字符串的发音得分的平均分作为待评价语音的发音得分。
根据权利要求1～4任一所述的系统，其中，所述系统还包括：

存储模块，用于存储所述语音样本库，所述语音样本库中包括至少一个语音样本。
一种终端设备上的实时口语评价方法(200)，其包括：

采集待评价语音的语音数据，所述待评价语音中包括至少一个字符的语音或字符串的语音(S210)；

将采集到的所述语音数据识别为文本数据(S230)；

将识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果(S250)；以及

根据预先定义的评价策略和所述匹配结果，得到并输出所述待评价语音中至少一个字符或字符串的发音得分，和/或所述待评价语音的发音得分(S270)。
根据权利要求7所述的方法，在所述采集待评价语音的语音数据(S210)的步骤之前，所述方法还包括：显示语音样本库中语音样本的文本数据；

所述采集待评价语音的语音数据(S210)的步骤为：

采集用户按照显示的语音样本库中语音样本的文本数据输入的、作为待评价语音的语音数据。
根据权利要求8所述的方法，所述方法还包括：

将输出的所述待评价语音的发音得分，和/或所述待评价语音中的至少一个字符或字符串的发音得分，与预先定义的发音得分阈值进行比较；

在所述待评价语音的发音得分低于预先定义的发音得分阈值的情况下，在显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的文本数据；和/或，在待评价语音中的至少一个字符或字符串的发音得分低于预先定义的发音得分阈值的情况下，在显示的文本数据中标记出发音得分低于预先定义的发音得分阈值的字符或字符串。
根据权利要求7～9任一所述的方法，其中，所述将识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配，得到匹配结果的步骤为：

根据Levenshtein Distance编辑距离算法，对识别得到的文本数据与语音样本库中语音样本的文本数据进行匹配计算，得到匹配结果。