WO2023036283A1

WO2023036283A1 - 一种在线课堂交互的方法及在线课堂系统

Info

Publication number: WO2023036283A1
Application number: PCT/CN2022/118052
Authority: WO
Inventors: 雷延强
Original assignee: 广州视源电子科技股份有限公司; 广州视源人工智能创新研究院有限公司
Priority date: 2021-09-10
Filing date: 2022-09-09
Publication date: 2023-03-16
Also published as: CN115798277A

Abstract

一种在线课堂交互的方法及在线课堂系统，其中方法包括：获取教师账户的语音信号（110，250）；确定教师账户对应的目标识别网络，目标识别网络包括根据教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST（120）；采用目标识别网络对语音信号进行语音识别，获得基于定制加权有限状态转换机WFST确定的最优路径对应的词序列作为语音信号的语音识别结果（130）；根据语音识别结果生成交互信息，并以教师账户将交互信息发送至参与在线课堂的一个或多个对端账户中（140，2120），从而避免教师账户手动输入交互内容，提高在线课堂的交互效率。

Description

一种在线课堂交互的方法及在线课堂系统

本申请要求在2021年09月10日提交中国专利局、申请号为202111062087.1的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种在线课堂交互的方法及在线课堂系统。

背景技术

随着网络技术的发展，通过视频进行教学的在线教育得到了越来越广泛的使用。相比于线下教育，在线教育不受时间地点的限制，只需在有网络的情况下，就可满足用户的学习需求，学习方式更灵活自由。

在幼小线上课堂中，教师经常会表扬学生，例如：XXX同学发言积极、奖励XXX同学1朵小红花等，这些评语通常有固定句式。为了将这些评语录入系统，做法一般是通过老师手动操作，打开点评应用，选择XXX学生，再选择评语等，过程比较繁琐。

发明内容

本申请提供一种在线课堂交互的方法及在线课堂系统，以解决相关技术中课堂交互通过手动触发导致的交互繁琐、交互效率低的问题。

第一方面，本申请实施例提供了一种在线课堂交互的方法，所述方法包括：

获取教师账户的语音信号；

确定所述教师账户对应的目标识别网络，所述目标识别网络包括根据所述教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST；

采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果；

根据所述语音识别结果生成交互信息，并以所述教师账户将所述交互信息发送至参与在线课堂的一个或多个对端账户中。

可选地，所述目标识别网络还包括声学模型；

所述采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果，包括：

从所述语音信号中提取声学特征序列；

将所述声学特征序列输入至所述声学模型中，并获取所述声学模型输出的从声学特征到音素的各路径的第一权值；

将所述从声学特征到音素的各路径输出的音素输入至所述定制WFST中，并获取所述定制WFST输出的音素到词序列的各路径的第二权值；

计算各路径的第一权值与第二权值的总权值；

将总权值最大的路径作为最优路径，并将所述最优路径对应的词序列作为所述语音信号的语音识别结果。

可选地，所述定制WFST采用如下方式构建：

获取教师账户输入的交互关键字序列、学生标识序列及交互内容序列；

分别对所述交互关键字序列、所述学生标识序列及所述交互内容序列进行音素标注，以词典WFST；

根据所述交互关键字序列、所述学生标识序列、所述交互内容序列以及设定的权值规则，确定所述交互关键字序列、所述学生标识序列及所述交互内容序列之间交互的各路径的权重，以构建语言WFST；

将所述词典WFST以及所述语言WFST组合成定制WFST。

可选地，所述方法还包括：

检测所述教师账户是否更新所述交互关键字序列、所述学生标识序列、所述交互内容序列中的一种或多种；

若是，则采用更新的所述交互关键字序列、所述学生标识序列、所述交互内容序列中的一种或多种，对所述词典WFST和所述语言WFST进行更新。

可选地，所述根据所述语音识别结果生成交互信息，包括：

确定所述教师账户选定的目标内容模板；

采用所述目标内容模板将所述语音识别结果转换成交互信息。

可选地，所述交互关键字包括点评关键字，所述交互内容包括点评内容。

第二方面，本申请实施例还提供了一种在线课堂系统，所述系统包括：

语音信号获取模块，用于获取教师账户的语音信号；

识别网络确定模块，用于确定所述教师账户对应的目标识别网络，所述目标识别网络包括根据所述教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST；

语音识别模块，用于采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果；

交互信息生成模块，用于根据所述语音识别结果生成交互信息；

交互信息发送模块，用于以所述教师账户将所述交互信息发送至参与在线课堂的一个或多个对端账户中。

可选地，所述目标识别网络还包括声学模型；所述语音识别模块包括：

特征提取子模块，用于从所述语音信号中提取声学特征序列；

声学模型处理子模块，用于将所述声学特征序列输入至所述声学模型中，并获取所述声学模型输出的从声学特征到音素的各路径的第一权值；

定制WFST处理子模块，用于将所述从声学特征到音素的各路径输出的音素输入至所述定制WFST中，并获取所述定制WFST输出的音素到词序列的各路径的第二权值；

最优路径确定子模块，用于计算各路径的第一权值与第二权值的总权值；将总权值最大的路径作为最优路径，并将所述最优路径对应的词序列作为所述语音信号的语音识别结果。

第三方面，本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的方法。

本申请具有如下有益效果：

在本实施例中，在在线课堂的交互场景中，教师用户可以通过输入语音信号来进行课堂交互，当在线课堂系统获得该语音信号以后，则可以获取该教师用户对应的目标识别网络，该目标识别网络中可以包括根据教师账户输入的交互关键字、学生标识及交互内容生成的定制WFST。然后采用目标识别网络对语音信号进行语音识别，并获得基于该定制WFST确定的最优路径对应的词序列作为当前语音信号的语音识别结果。然后可以根据该语音识别结果生成交互信息，并将该交互信息发送至参与在线课堂的一个或多个对端账户中。从而避免教师账户手动输入交互内容，提高在线课堂的交互效率。

附图说明

图1是本申请实施例一提供的一种在线课堂交互的方法实施例的流程图；

图2是本申请实施例一提供的一种定制WFST的网络示意图；

图3是本申请实施例二提供的一种在线课堂交互的方法实施例的流程图；

图4是本申请实施例三提供的一种在线课堂系统实施例的结构框图；

图5是本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种在线课堂交互的方法实施例的流程图，本实施例可以应用于在线课堂系统中，该在线课堂系统可以包括客户端与服务器，本实施例可以由客户端完成，也可以由服务器完成，本实施例对此不作限制。以下实施例以在服务器侧完成为例进行说明，具体可以包括如下步骤：

步骤110，获取教师账户的语音信号。

在该步骤中，服务器可以接收来自教师账户的客户端发送的语音信号。而在客户端侧，可以通过该客户端所在的终端的声音采集装置(如麦克风)拾取教师用户输入的语音声波，然后生成语音信号。示例性地，该终端可以包括但不限于智能手机、个人计算机、平板电脑、智能手表、服务机器人等。终端和服务器可以通过一个或多个网络通信连接，网络可以是有线或无线网络，如因特网、蜂窝网络、卫星网络局域网和/或类似物。

该语音信号可以为教师用户在在线课堂中需要输入的交互指令。根据在线课堂系统中不同的交互功能，该语音信号可以有不同的作用。在一种可能的应用场景中，该交互功能可以包括课堂点评功能，则该语音信号为该教师账户输入的与课堂点评相关的语音。

步骤120，确定所述教师账户对应的目标识别网络，所述目标识别网络包括根据所述教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST。

在该步骤中，教师用户可以预先定制自己所需的解码网络，在线课堂系统则可以将各教师账户与所定制的解码网络关联存储在指定数据库中。当在步骤110中获得某个教师账户的语音信号以后，则可以在该指定数据库中查找该教师账户，以获得该教师账户预先定制的目标识别网络。

其中，目标识别网络中可以包括加权有限状态转换机(Weighted Finite State Transducers，简称WFST)，WFST用于生成从输入符号序列或字符串到输出字符串的映射，WFST除了输入和输出符号之外还对状态转换进行加权，其中的权重值(又可称为权值)可以是编码概率、持续时间或沿路径积累的任何其他数量，以计算将输入字符串映射到输出字符串的总体权重(即权值)。WFST用于语音识别通常是表示在语音处理中输入语音信号后输出识别结果的各种可能的路径选择及其相应的概率(或权值)。

在本实施例中，WFST可以包括根据教师账户输入的交互关键字、学生标识及交互内容生成的定制WFST。其中，交互关键字、学生标识及交互内容可根据实际的交互需求进行确定，本实施例对此不作限制。例如，在课堂点评的场景中，交互关键字可以包括点评关键字，如“点评”、“奖励”、“扣除”、“表扬”等关键词；交互内容可以包括点评内容，如“积极发言”、“听课认真”、“1朵小红花”、“1分”等；学生标识可以包括学生姓名、学号等一种或结合。则根据点评关键字、学生姓名和点评内容生成的与课堂点评相关的定制WFST可以如图2所示，在图2中，BG表示该定制WFST中的背景发音模型，用于实现并构建定制WFST。在定制WFST中，每条路径上还可以包括对应的权重，在实现时，该权重可以为人为预先设置的权重或者是根据预设的权重规则生成的权重。

在另一方面，如果在该指定数据库中没有查找到该教师账户，则可以将默认的解码网络作为目标识别网络。

步骤130，采用所述目标识别网络对所述语音信号进行语音识别，获得所述定制WFST输出的最优路径对应的词序列作为所述语音信号的语音识别结果。

在该步骤中，在获得当前教师账户对应的、使用定制WFST构建的目标识别网络以后，则可以使用该目标识别网络对语音信号进行语音解码，从而获得目标识别网络输出的语音识别结果。在实现时，可以获取WFST输出的各路径的权值，将权值最大的路径作为最佳路径，并将该最佳路径对应的词序列作为语音识别结果。

在一种实施例中，目标识别网络还可以包括声学模型，步骤130进一步可以包括如下步骤：

步骤130-1，从所述语音信号中提取声学特征序列。

声学特征提取的方式有多种，本实施例中并不对其进行特别限定。例如，其中一种声学特征提取的方式包括：将语音信号划分成多个语音信号帧，通过消除噪音、信道失真等处理对各语音信号帧进行增强，再将各语音信号帧从时域转化到频域，并从转换后的语音信号帧内提取合适的声学特征。声学特征可以表现为各种组合的声学特征序列。

步骤130-2，将所述声学特征序列输入至所述声学模型中，并获取所述声学模型输出的从声学特征到音素的各路径的第一权值。

在一种实施例中，声学模型为预先构建的通用的声学模型，本实施例对声学模型的构建方式不作限定。例如，声学模型可以为隐马尔可夫模型HMM(Hidden Markov Model)，HMM模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列的过程。HMM的参数中包括所有可能的状态的集合，以及所有可能的观测的集合。HMM由初始概率分布、状态转移概率分布以及观测概率分布确定。初始概率分布和状态转移概率分布决定状态序列，观测概率分布决定观测序列。给定模型参数与观测序列，通过前后向算法计算给定模型下观测到上述观测序列的概率；给定观测序列，通过期望最大化算法估计模型参数，使得在该模型下观测序列概率最大；给定模型和观测序列，通过维特比Viterbi算法估计最优状态序列。

在另一种实施例中，该声学模型也可以是声学WFST，该声学WFST的构建是以音素(此处的音素还可以是声母、韵母等拼音音素)作为状态，以声学特征作为观测，采用HMM模型描述的由音素生成声学特征的过程，通过前后向算法计算HMM模型下音素作为状态观测到声学特征的观测概率；给定声学特征，通过期望最大化算法和观测概率估计HMM模型参数，使得在该参数下音素作为状态所观测到声学特征概率最大；利用模型参数，通过Viterbi估计一个音素，及在该音素条件下产生给定观测(声学特征)的概率(即第一权值)。

步骤130-3，将所述从声学特征到音素的各路径输出的音素输入至所述定制WFST中，并获取所述定制WFST输出的音素到词序列的各路径的第二权值。

在该步骤中，定制WFST是从音素到词序列的解码网络。步骤130-2中从声学特征到音素的各路径输出的音素，可以作为定制WFST的输入，定制WFST再根据各路径的音素，输出从音素到词序列的各路径的第二权值，各路径还会输出词序列。

步骤130-4，计算各路径的第一权值与第二权值的总权值。

在该步骤中，从声学特征到词序列的解码过程得到的各路径，可以包括从声学特征到音素的路径段以及从音素到词序列的路径段，计算从声学特征到音素的路径段的第一权值与从音素到词序列的路径段的第二权值之和，可以得到各路径的总权值。

步骤130-5，将总权值最大的路径作为最优路径，并将所述最优路径对应的词序列作为所述语音信号的语音识别结果。

在该步骤中，当得到从声学特征到词序列的各路径的总权值以后，可以将总权值最大的路径作为当前解码结果的最优路径，然后从该最优路径中提取词序列作为当前语音信号的语音识别结果。

在一种实现中，在上述声学模型、词典WFST以及语言WFST的解码过程中，可以采用时间同步的维特比光束(Time-synchronousViterbi Beam)搜索算法进行搜索，其中，Viterbi-Beam搜索算法是一个宽度优化的帧同步算法，其核心是一嵌套循环，每当往后推移一帧，就针对相应层次的每个节点分别运行Viterbi算法。Viterbi Beam搜索算法的基本步骤如下：

1.初始化搜索路径，在当前路径集合A中添加起始路径，设该路径为解码网络的起始节点，并且设此刻时间t＝0；

2.在t时刻，对于声学模型的路径集合A中的每一条路径，都向后扩展一帧至所有可以达到的状态，执行Viterbi算法。比较扩展路径前驱的得分，并保留最佳得分。再利用词典WFST和语言WFST对路径重新判断得分；

3.利用设置的门限(光束宽度)裁剪掉不可能得分或低于门限分数的路径，保留高于得分高于门限的路径。并将这些路径添加到A中，得到t+1时刻WFST的路径集合；

4.重复步骤2-3，直到所有语音帧计算完毕。回溯集合A中得分最高的路径。

步骤140，根据所述语音识别结果生成交互信息，并以所述教师账户将所述交互信息发送至参与在线课堂的一个或多个对端账户中。

在该步骤中，当对教师账户输入的语音信号进行解码得到对应的词序列以后，可以根据得到的词序列生成交互信息，例如，在课堂点评的场景中，假设生成的词序列为{奖励，张三，积极发言}，则根据该词序列生成的交互信息可以为“奖励张三积极发言”。

在一种实施例中，步骤140中生成交互内容的步骤，进一步可以包括如下步骤：

确定所述教师账户选定的目标内容模板；采用所述目标内容模板将所述语音识别结果转换成交互信息。

具体的，在线课堂系统可以提供多种交互内容模板供用户选择，用户可以从模板展示列表中选择所需的目标内容模板，然后，系统按照所选定的目标内容模板将语音识别结果生成交互信息。

例如，在课堂点评的场景中，假设选定的目标内容模板为“点评关键词学生姓名点评内容”，生成的词序列为{奖励，张三，积极发言}，其中，“奖励”为点评关键词，“积极发言”为点评内容，则根据该目标内容模板生成的交互信息为“奖励张三积极发言”。

实施例二

图3为本申请实施例二提供的一种在线课堂交互的方法实施例的流程图，本实施例在实施例一的基础上进行说明，可以包括如下步骤：

步骤210，获取教师账户输入的交互关键字序列、学生标识序列及交互内容序列。

在该步骤中，在线课堂系统可以提供供用户定制解码网络的定制页面，例如，该定制页面可以包括课堂点评定制页面，在该定制页面中，用户可以根据实际需求输入交互关键字(多个交互关键字组成交互关键字序列)、学生标识以及交互内容。

步骤220，分别对所述交互关键字序列、所述学生标识序列及所述交互内容序列进行音素标注，以构建词典WFST。

其中，词典WFST的作用是将音素转换为字词。

在生成词典WFST时，可以首先获取教师用户输入的交互关键字序列、学生标识序列及交互内容序列中各个字词的音素，其中一种获取音素的方法可以是，对交互关键字序列、学生标识序列及交互内容序列中各个字词进行音素标注。然后对音素及字词进行编号，并引入消歧符号解决同音字等问题，例如，消歧符号是在词典中的音素序列末尾插入的符号#1，#2，#3等。当音素序列是词典中另一个音素序列的前缀，或者出现在一个以上的单词中时，需要在其后加入这些符号之一，以确保WFST的确定性。上述过程生成的词典以WFST的形式表示词-音素的映射关系。词典WFST接收音素序列，输出是字词。词典WFST中从音素到字词的各路径的权重是相同的，或者无权重。

步骤230，根据所述交互关键字序列、所述学生标识序列、所述交互内容序列以及设定的权值规则，确定所述交互关键字序列、所述学生标识序列及所述交互内容序列之间交互的各路径的权重，以构建语言WFST。

在实现时，可以采用通用的方式构建语言WFST，本实施例对此不作限制。示例性地，语言WFST可以包括N-gram语言模型，其利用马尔可夫模型，假设一个词语出现的概率仅与其前面出现的N个词语有关。比如，1-gram语言模型表示词语出现仅与自身有关，2-gram表示词语出现仅与前一个词有关，3-gram表示词语出现仅与前两个词有关，等等。例如，可以根据交互关键字序列、学生标识序列、交互内容序列中的各个字词的交互关系，以及设定的权值规则来确定确定各种交互路径的权重值，然后转化为语言WFST。

在构造语言模型时采用最大似然估计来进行概率估计，通过计算N-gram词序列在语料中出现的次数来计算相应的概率，可以将上述词序列及其概率表示成状态转换。

步骤240，将所述词典WFST以及所述语言WFST组合成定制WFST。

在一种实施例中，本实施例还可以包括如下步骤：

检测所述教师账户是否更新所述交互关键字序列、所述学生标识序列、所述交互内容序列中的一种或多种；若是，则采用更新的所述交互关键字序列、所述学生标识序列、所述交互内容序列中的一种或多种，对所述词典WFST和所述语言WFST进行更新。

在该实施例中，教师用户还可以对在先输入的交互关键字序列、学生标识序列、交互内容序列中的一种或多种进行更新，例如，修改或新增或删除交互关键词、学生标识或交互内容等。本系统可以捕获到教师用户的修改操作，并获得修改的内容，然后根据修改的内容来更新词典WFST和语言WFST。

步骤250，获取所述教师账户的语音信号。

步骤260，从所述语音信号中提取声学特征序列。

步骤270，将所述声学特征序列输入至预先构建的声学模型中，并获取所述声学模型输出的从声学特征到音素的各路径的第一权值。

步骤280，将所述从声学特征到音素的各路径输出的音素输入至所述定制WFST中，并获取所述定制WFST输出的音素到词序列的各路径的第二权值。

步骤290，计算各路径的第一权值与第二权值的总权值。

步骤2110，将总权值最大的路径作为最优路径，并将所述最优路径对应的词序列作为所述语音信号的语音识别结果。

步骤2120，根据所述语音识别结果生成交互内容，并以所述教师账户将所述交互内容发送至参与在线课堂的一个或多个对端账户中。

在本实施例中，在线课堂系统可以提供网络定制页面给教师用户输入交互关键字序列、学生标识序列及交互内容序列，根据该交互关键字序列、学生标识序列及交互内容序列可以构建与教师用户相关的定制WFST，并构建包含该定制WFST的识别网络，从而在后续该教师用户输入语音信号时，采用该定制WFST对该语音信号进行解码时获得更准确的解码结果。

实施例三

图4为本申请实施例三提供的一种在线课堂系统实施例的结构框图，可以包括如下模块：

语音信号获取模块310，用于获取教师账户的语音信号；

识别网络确定模块320，用于确定所述教师账户对应的目标识别网络，所述目标识别网络包括根据所述教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST；

语音识别模块330，用于采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果；

交互信息生成模块340，用于根据所述语音识别结果生成交互信息；

交互信息发送模块350，用于以所述教师账户将所述交互信息发送至参与在线课堂的一个或多个对端账户中。

在一种实施例中，所述目标识别网络还包括声学模型；

所述语音识别模块330可以包括如下子模块：

在一种实施例中，所述系统还包括定制WFST构建模块，具体用于：

将所述词典WFST以及所述语言WFST组合成定制WFST。

在一种实施例中，所述系统还可以包括如下模块：

更新判断模块，用于检测所述教师账户是否更新所述交互关键字序列、所述学生标识序列和/或所述交互内容序列；

WFST更新模块，用于采用更新的所述交互关键字序列、所述学生标识序列和/或所述交互内容序列，对所述词典WFST和所述语言WFST进行更新。

在一种实施例中，所述交互信息生成模块340具体用于：

确定所述教师账户选定的目标内容模板；

在一种实施例中，所述交互关键字包括点评关键字，所述交互内容包括点评内容。

需要说明的是，本申请实施例所提供的上述在线课堂系统可执行本申请实施例一或实施例二所提供的在线课堂交互的方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本申请实施例四提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器410、存储器420、输入装置430和输出装置440；电子设备中处理器410的数量可以是一个或多个，图5中以一个处理器410为例；电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述实施例一至实施例二的方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本申请实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由服务器的处理器执行时用于执行实施例一至实施例二中任一实施例中的方法。

通过以上关于实施方式的描述，本申请可借助软件及必需的通用硬件来实现，也可以通过硬件实现。本申请的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种在线课堂交互的方法，包括：

获取教师账户的语音信号；

确定所述教师账户对应的目标识别网络，所述目标识别网络包括根据所述教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST；

采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果；

根据所述语音识别结果生成交互信息，并以所述教师账户将所述交互信息发送至参与在线课堂的一个或多个对端账户中。
根据权利要求1所述的方法，其中，所述目标识别网络还包括声学模型；所述采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果，包括：

从所述语音信号中提取声学特征序列；

将所述声学特征序列输入至所述声学模型中，并获取所述声学模型输出的从声学特征到音素的各路径的第一权值；

将所述从声学特征到音素的各路径输出的音素输入至所述定制WFST中，并获取所述定制WFST输出的音素到词序列的各路径的第二权值；

计算各路径的第一权值与第二权值的总权值；

将总权值最大的路径作为最优路径，并将所述最优路径对应的词序列作为所述语音信号的语音识别结果。
根据权利要求2所述的方法，其中，所述定制WFST采用如下方式构建：

获取教师账户输入的交互关键字序列、学生标识序列及交互内容序列；

分别对所述交互关键字序列、所述学生标识序列及所述交互内容序列进行音素标注，以构建词典WFST；

根据所述交互关键字序列、所述学生标识序列、所述交互内容序列以及设定的权值规则，确定所述交互关键字序列、所述学生标识序列及所述交互内容序列之间交互的各路径的权重，以构建语言WFST；

将所述词典WFST以及所述语言WFST组合成定制WFST。
根据权利要求3所述的方法，还包括：

检测所述教师账户是否更新所述交互关键字序列、所述学生标识序列、所述交互内容序列中的一种或多种；

若是，则采用更新的所述交互关键字序列、所述学生标识序列、所述交互内容序列中的一种或多种，对所述词典WFST和所述语言WFST进行更新。
根据权利要求1-4任一项所述的方法，其中，所述根据所述语音识别结果生成交互信息，包括：

确定所述教师账户选定的目标内容模板；

采用所述目标内容模板将所述语音识别结果转换成交互信息。
根据权利要求1所述的方法，其中，所述交互关键字包括点评关键字，所述交互内容包括点评内容。
一种在线课堂系统，包括：

语音信号获取模块，用于获取教师账户的语音信号；

识别网络确定模块，用于确定所述教师账户对应的目标识别网络，所述目标识别网络包括根据所述教师账户输入的交互关键字、学生标识及交互内容生成的定制加权有限状态转换机WFST；

语音识别模块，用于采用所述目标识别网络对所述语音信号进行语音识别，获得基于所述定制WFST确定的最优路径对应的词序列作为所述语音信号的语音识别结果；

交互信息生成模块，用于根据所述语音识别结果生成交互信息；

交互信息发送模块，用于以所述教师账户将所述交互信息发送至参与在线课堂的一个或多个对端账户中。
根据权利要求7所述的系统，其中，所述目标识别网络还包括声学模型；所述语音识别模块包括：

特征提取子模块，用于从所述语音信号中提取声学特征序列；

声学模型处理子模块，用于将所述声学特征序列输入至所述声学模型中，并获取所述声学模型输出的从声学特征到音素的各路径的第一权值；

定制WFST处理子模块，用于将所述从声学特征到音素的各路径输出的音素输入至所述定制WFST中，并获取所述定制WFST输出的音素到词序列的各路径的第二权值；

最优路径确定子模块，用于计算各路径的第一权值与第二权值的总权值；将总权值最大的路径作为最优路径，并将所述最优路径对应的词序列作为所述语音信号的语音识别结果。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-6中任一所述的方法。
一种计算机可读存储介质，存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-6任一所述的方法。