WO2018036149A1

WO2018036149A1 - 一种多媒体交互教学系统及方法

Info

Publication number: WO2018036149A1
Application number: PCT/CN2017/077786
Authority: WO
Inventors: 刘佳; 卢启伟
Original assignee: 深圳市鹰硕技术有限公司
Priority date: 2016-08-23
Filing date: 2017-03-23
Publication date: 2018-03-01
Also published as: CN106056996A; CN106056996B; US20190340944A1

Abstract

一种多媒体交互教学系统及方法，系统包括教学控制器(100)、学习终端(103)、录制设备、语音采集设备(106)和存储设备(107)；录制设备，用于获取实时图像和动作数据；语音采集设备(106)，用于采集课堂实时语音信息；教学控制器(100)，用于将录制设备和语音采集设备(106)采集的教学信息发送给学习终端(103)；存储设备(107)，用于将录制设备和语音采集设备(106)采集的教学信息存储起来，用户可以通过网络点播回顾课堂教学过程。围绕无线遥控装置(101)、高拍仪(104)以及采用语音识别聚类技术对说话人分割并且单独存储等几个方面及其延伸方面的改进，降低了教学成本、提高了灵活性、交互性以及教学效果。

Description

一种多媒体交互教学系统及方法

技术领域

本发明涉及多媒体教学领域，尤其涉及一种多媒体交互教学系统及方法。

背景技术

传统的多媒体教室大都采用投影机、视频展示台、计算机、电动屏幕、功放、音箱和电动窗帘等较现代化的教学设备，实现教学、学术交流和讲座的目的，能够基本满足现有的多媒体教学的需求。但是传统的多媒体教室、投影教室在使用过程中存在着一些突出问题，主要表现在：

首先，传统的多媒体教室设备由投影机、计算机、电子白板、音响等组成，繁杂的线路使得设备经常出故障，为后期的维护增加了巨大成本。

其次，在传统的多媒体教室中，众多设备都安装在教室讲台附近，而此处也是学生经常活动的区域，设备损坏的概率很高，还容易对好动的学生造成人身伤害。

再次，传统的多媒体教室一般都是由老师一个人讲解为主，多数时间内学生都处于被动接受状态，无法实现相互交流式学习，尤其是物理、化学等情景教学，不能替代真实参与过程，教师只能按既定的备课方案进行，课堂上灵活性差，教师的发挥余地较小，因而降低了教学效果。

为了解决上述问题，现有技术中已经公开了一些基于无线网络的教学平台系统，这些系统一定程度上解决了设备多连接复杂和缺少交互的多媒体教室存在的问题，比如：

CN101154320A(公开日2008年4月2日)公开了一种基于局域网络电子课堂互动教学平台系统，该系统包括课堂教学资源库、课堂教学平台、课堂教学界面、课堂教学功能模块、教师备课系统、资源共享组成，由课堂教学资源库向课堂教学平台提供教学资源，教师和学生通过登陆课堂教学平台进入各自的课堂教学界面，课堂教学界面分为：教师界面、学生界面和演示界面；教师通过教师教学界面中的教学模块、学生管理、辅助功能三个模块进行教学管理。教师通过教师备课系统新增或编辑教学资源并确定教学方案。课堂教学资源库通过互联网可与网络资源进行资源共享，家长通过资源共享获得学生学习记录和教师教学记录。

CN103927909A(公开日2014年7月16日)公开了一种触摸式移动终端的交互式教学系统，包括教师终端、教室电脑、多个学习终端，所述教师终端、教室电脑、多个学习终端通过局域网络互联组成交互式教学系统，其中教师终端、多个学习终端通过无线方式接入局域网络，所述教室电脑通过有线或无线方式接入局域网络，所述教室电脑为交互式教学系统的服务器，所述教室电脑与教师终端之间通过私有socket通信协议、公有RFB协议、视频流互联；所述多个学习终端与教室电脑之间通过私有socket通信协议互联。

上述交互式教学系统还存在这样的问题，就是在所述无线网络平台中的教师和学生之间的交互还不能达到无障碍的程度，系统还不能自动识别和记录教师与学生的语音交互信息，事后也不能复习自己在课堂上的语音记录。现有的教学系统首先要配备专属于个人的教学终端，其次如果学生要通过学习终端进行说话，还要可以的对准麦克风，或者启动麦克风，才能进行语音交流，不能畅快与老师交流。现有技术中比如CN105306861A公开了一种网络教学录播方法，其中采用三种数据流分别存储的方式，但是其中语音存储方面还是存在这样的问题，即这样的语音录制功能完全按照实际发生的情况录制，没有对说话者的身份进行识别，没有重构说话者的语音，致使如果录制环境噪杂，那么录制的信息同样嘈杂，几乎不能有效的再现场景。这样不能提供个性化的服务，比如学生只想听自己说了什么或者老师说了什么，不想听别人说了什么，但是在回放时，却无法进行选择。

此外，现有教学平台还存在一个问题，就是教师终端通常是固定的，教师需要固定在讲台或者教师终端的设置地进行交流，缺少与学生的深入互动，不能像传统的教学那样，教师可以到学生身边，更加活泼的互动。对此，现有技术公开了无线控制装置，比如：

CN105185176A(公开日2015年12月23日)一种基于信息化教学的无线手持设备，无线手持设备通过蓝牙技术或2.4G技术与教学设备无线连接，所述教学设备为计算机、电子白板或液晶触摸屏终端，其特征在于，所述无线手持设备包括手持设备本体，所述手持设备本体的上部设置有麦克风，手持设备本体的前面板设置有支持多点触控操作的触摸屏，触摸屏的下方是左、右两个物理按键，手持设备本体的下部设置有容纳USB无线接收器的容纳槽，手持设备可以无线传输多点触摸信号、鼠标操作信号、模拟键盘触发信号，从而无线遥控教学设备中的电子黑板、电子教杆、电子粉笔、直线工具、图形工具、黑板擦、放大镜、工具栏、上翻页、下翻页、保存课件、退出课堂和插入图片或视频、插入文字、插入导学功能，实现教学动作，并可以将教师的课堂讲解及学生的语音进行采集和传输，进行课堂中语音的录制。

现有的蓝牙无线遥控装置不能实现语音的灵活控制，主要还是集成键盘鼠标等基本操作装置以无线控制的方式实现，其功能还有改进的空间。

发明内容

针对现有技术的不足，本发明要解决的技术问题在于，提供一种多媒体交互教学系统及方法，主要改进了无线遥控装置及其操作方法、高拍仪机构及其操作方法、以及利用语音识别聚类技术，对获得的教学语音信息进行分割聚类识别出相应的说话人并且单独存储这些语音信息，由此解决了现有技术中存在的一些问题，通过本发明无线多媒体信息化交互教学的方式来降低教学成本、提高教学灵活性、交互性以及提高教学效果。

本发明提供一种多媒体交互教学系统，包括教学控制器100、学习终端103、录制设备、语音采集设备106和存储设备107；

所述录制设备，用于获取实时图像和动作数据；

所述语音采集设备106，用于采集课堂实时语音信息；

所述教学控制器100，用于将所述录制设备和所述语音采集设备106采集的教学信息发送给所述学习终端103和/或额外设置的用于集中展示的显示屏102；

所述存储设备107，用于将所述录制设备和所述语音采集设备采集的教学信息存储起来，用户可以通过网络点播回顾课堂教学过程。

所述教学控制器100包括说话人分割模块、说话人聚类模块、声纹识别模块，分别用于对采集的所述语音信息进行说话人分割、说话人聚类和声纹识别处理，从而提取每个说话人的语音信息，并且根据训练得到的声纹模板识别出说话人的身份。

所述提取的语音信息添加说话人身份标识和系统统一生成的时间戳标识，形成以说话人身份为标识并且具有时间戳的一系列独立的语音信息，并且被保存起来。

用户在通过网络点播回顾课堂时，先通过对说话人的选择来选择自己想要听到的语音，再进行播放。

所述说话人分割用于找到说话人切换的转折点，包括单一转折点的检测和多个转折点的检测；

所述单一转折点检测包括基于距离的顺序检测、交叉检测和转折点确认；

所述多个转折点检测用于找到整段语音中的多个说话人转折点，在所述单一转折点检测的基础上完成，步骤如下：

步骤1)：首先设定一较大的时间窗，长度为5-15秒，在窗内作单转折点检测；

步骤2)：若在上一步骤没找到说话人转折点，则将窗向右移动1-3秒，重复步骤1，直到找到说话人转折点，或者语音段结束；

步骤3)：若找到说话人转折点，则记录此转折点，并将窗口起始点设到此转折点上，重复步骤1)-步骤2)。

所述转折点的确认公式：

sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值；所述距离曲线是指，取语音最开始时的语音段1-3秒作为模板Template窗口，之后将此模板和每个滑动片段(长度和模板的相同)作距离计算，本发明采用“广义似然比”作为度量的距离，可获得距离曲线；

其中，通过利用说话人的距离曲线起始到交叉点的这段区域，公式中的(di)就是这一端区域内计算出来的距离，若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。

所述录制设备包括教学高拍仪104和电子白板105，

所述教学高拍仪104用于获取实时图像并输出至所述教学控制器100，

所述电子白板105用于获取动作数据并输出至所述教学控制器100。

所述教学高拍仪104包括工作台1040和无线传输模块1045，

所述工作台1040两侧分别设有臂灯1041，

所述无线传输模块1045的发射天线设置在至少一个所述臂灯1041的非发光的侧部上。

还包括无线遥控器101，用于实现对所述教学控制器100的无线控制，

所述无线遥控器101包括触摸屏1012、麦克风1010、外置话筒插孔1011和无线发射模块1013。

所述无线遥控器101还包括语音识别模块1014、指令存储模块1015、和指令匹配模块1016，

所述语音识别模块1014用于识别用户输入的语音信息，如果检测到设定的动作字符，提取所述动作字符之后的语音中包含的操作信息而不把这段语音传输到所述教学控制器100，如果没有检测到设定的动作字符，那么将语音信息同步传输到所述教学控制器100；

所述指令存储模块1015用于存储可以控制所述教学控制器100的指令信息；

所述指令匹配模块1016用于将所述操作信息与所述指令存储模块1015存储的指令进行匹配，匹配成功后实现相应的指令操作。

所述触摸屏1012用于，

模拟虚拟键盘，并利用虚拟键盘键入字符；

模拟鼠标按键，实现鼠标点击操作；

获取滑动轨迹，并根据滑动轨迹生成手绘图形。

所述无线遥控器101记录所述提取的操作信息及其匹配的指令，并且可以在其触摸屏1012上进行显示，将常用的指令显示在触摸屏1012上的固定位置，用户点击操作重复这样的指令动作。

所述无线遥控器101还包括外置话筒插孔1011，设置在所述无线遥控器101的底部，用于通过外部专用麦克风获取语音信息

所述教学控制器100对所述无线遥控器101中的存储指令定期更新。

通过所述无线遥控器101传输到所述教学控制器100的语音信息同样保存到所述存储设备107；

所述教学控制器100还包括说话人去重模块，用于根据声纹模型去除来自所述无线遥控器101和所述语音采集设备106的重复语音。

本发明还提供一种多媒体交互教学方法，包括以下步骤：

步骤S1，开启教学控制器100，所述录制设备、学习终端103、语音采集设备106和存储设备107分别与教学控制器100建立连接；

步骤S2，所述录制设备获取实时图像和动作数据并传输至教学控制器100，所述语音采集设备106获取课堂语音信息并传输至教学控制器100；

步骤S3，教学控制器100将收到的实时图像、动作数据和语音信息进行处理之后，存储到存储设备107上，所述存储设备107为本地存储器或网络云端存储器以及他们的任意组合；

步骤S4，教学控制器100将收到的实时图像、动作数据和语音信息之一或任意组合的教学数据发送至学习终端103和/或额外设置的用于集中展示的显示屏102；

步骤S5，学习终端103接收和播放由教学控制器100发送的教学数据；

步骤S6，通过网络访问教学控制器100，并获得存储设备107上存储的实时图像、动作数据、语音信息的至少一种，由此实现课堂教学过程回放。

在所述步骤S3中，教学控制器100对收到的教学数据进行处理的过程包括：

说话人分割、说话人聚类、声纹识别，分别用于对采集的所述语音信息进行说话人分割、说话人聚类和声纹识别处理，从而提取每个说话人的语音信息，并且根据训练得到的声纹模板识别出说话人的身份。

在步骤S6中，

所述转折点的确认公式：

为符号函数，d_cross为两条距离曲线交叉处的距离值；所述距离曲线是指，取语音最开始时的语音段(1-3

秒)作为模板Template)窗口，之后将此模板和每个滑动片段(长度和模板的相同)

作距离计算，本发明采用“广义似然比”作为度量的距离，可获得距离曲线；

其中，通过利用说话人的距离曲线起始到交叉点的这段区域，公式中的d(i)就是这一端区域内计算出来的距离，若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。

所述录制设备包括教学高拍仪104和电子白板105，

所述教学高拍仪104包括工作台1040和无线传输模块1045，

所述工作台1040两侧分别设有臂灯1041，

所述触摸屏1012用于，

模拟虚拟键盘，并利用虚拟键盘键入字符；

模拟鼠标按键，实现鼠标点击操作；和/或

获取滑动轨迹，并根据滑动轨迹生成手绘图形。

在步骤S5中，所述学习终端103接收和播放教学数据过程，包括：

步骤S41，用户通过身份验证后登陆学习终端103；

步骤S42，学习终端103接收教学控制器100发送的教学数据；

步骤S43，学习终端103对教学数据解析而获得实时图像、动作数据和语音信息，并在学习终端103上进行显示，比如基于DirectX方式对接收到的实时图像解析并显示；

步骤S44，教学数据是否接收完成，若是，则结束接收过程，若否，则返回至步骤S42。

所述学习终端103设有用于容置预设数量实时图像的缓冲区，学习终端103接收实时图像时，首先判断该实时图像是否可以装入缓冲区，并将接收到的图像编号与学习终端103显示的图像编号进行比对，若编号之差小于缓冲区可容纳实时图像的数量，则将接收的图像写入缓冲区，若编号之差大于缓冲区可容纳实时图像的数量，则丢弃该实时图像并继续比对，重新接收教学终端发送的实时图像，直至能够将实时图像存入缓冲区。

当编号之差大于缓冲区可容纳实时图像的数量时，先判断接收到的图像帧是不是同步顿，如果是同步帧，则检查缓冲队列尾的图像帧是不是同步帧，若是，则将其丢弃并将接收到的新的图像帧放入队尾位置，若不是，则继续在缓冲队列中查询同步帧，找到同步帧并将该同步帧和接收到的图像丢弃；如果队列中没有同步帧，则将接收到的图像帧放入队尾而覆盖原有数据，通过重复接收，等待同步帧接收完毕并在学习终端103显示。

在所述步骤S6中，所述点播回放过程如下：

步骤S51，用户学习终端103通过网络向教学控制器100发送点播回放请求；

步骤S52，教学控制器100响应点播回放请求，根据请求内容，获取相应教学信息列表，并将教学信息列表发送给学习终端103；

步骤S53，用户在学习终端103上从教学信息列表上选择想要的信息，这些信息包括图像信息、动作信息以及按照说话人区分的语音信息；

步骤S54，教学控制器100根据用户的选择，将相应的教学信息发送给学习终端103；

步骤S55，学习终端103将接收的教学信息按照时间戳重构并且在本地进行显示。

附图说明

图1为根据本发明的多媒体交互教学系统示意图；

图2为根据本发明的多媒体交互教学系统的高拍仪；

图3为根据本发明的无线遥控器的正视图；

图4为根据本发明的无线遥控器的侧视图；

图5为根据本发明的无线遥控器的功能框架图；

图6为根据本发明的多媒体交互教学方法的流程图；

图7为根据本发明的说话人分段聚类流程示意图；

图8为根据本发明的单一转折点检测流程图；

图9为根据本发明的基于距离的顺序检测示意图；

图10为根据本发明的顺序检测距离曲线图；

图11为根据本发明的寻找第二说话人语音模板示意图；

图12为根据本发明的交叉检测说话人转折点示意图；

图13为根据本发明的错误的转折点检测示意图；

图14为根据本发明的转折点确认示意图；

图15为根据本发明的IHC算法框图；

图16为根据本发明的学习终端实时接收和播放教学数据的流程图；

图17为根据本发明的学习终端图像缓存处理流程示意图；和

图18为根据本发明的学习终端通过网络点播回顾课堂教学过程示意图。

具体实施方式

以下将结合附图，对本发明的具体实施方式进行进一步详细描述。

如图1所示，根据本发明的多媒体交互教学系统，包括：教学控制器100、无线遥控器101、显示屏102、学习终端103、录制设备、语音采集设备106、和存储设备107，其中：

所述录制设备包括教学高拍仪104和电子白板105，分别用于获取实时图像和动作数据，传输至教学控制器100，在教学控制器100的控制之下，以在显示屏102上显示实时图像或者根据动作数据重现操作情况。

所述无线遥控器101用于输入控制指令、文字信息和语音信息，通过无线方式比如蓝牙、局域网络、WIFI等将这些信息传输至教学控制器100。

优选的，用户可以使用语音与无线遥控器101进行交互，遥控器101可以解析语音中包含的控制指令，然后向教学控制器100发出相应的控制指令，而无需通过具体动作操作发出这样的指令。

所述语音采集设备106，可以以至少一个环形麦克风阵列的方式设置于教室的天花板上，或者其他合适的位置，而无需在每个座位上都设置语音采集设备。所述语音采集设备106主要用于采集教室内学生讨论或者回答问题时的语音信息，并且将采集到的语音信息传输给教学控制器100。

所述教学控制器100设置于教师端，所述教学控制器100安装有教学APP或者PC软件客户端，所述教学控制器100通过所述教学APP或者PC软件客户端根据接收到的无线遥控器101的控制指令，可以将所述录制设备采集的实时图像和/或动作数据加载于显示屏102上，或者将实时图像、动作数据、语音信息之一或三者间任意组合的教学数据发送至学习终端103，以及将所述三种数据按照类型不同分别存储至存储设备107，供学生事后通过网络点播回顾课堂教学过程。所述存储设备107可以是本地存储器，也可以是网络云端存储器，以及他们的组合。所述动作数据包括教师在电子白板上操作文档的数据、绘制图形的数据等等。

优选的，本发明的教学控制器100包括说话人分割模块、说话人聚类模块和声纹识别模块，对采集的所述语音信息进行说话人分割、说话人聚类和声纹识别等处理，提取出每个说话人的语音信息，并且根据已有的训练的声纹模板识别出说话人的身份。进而，对于提取的语音添加说话人标识以及系统生成的统一时间戳，这样用户在通过网络点播回放复习时，可以选择自己想要听的语音进行播放，比如只想听老师讲什么，那么就把老师的那么语音播放出来，其他的语音可以屏蔽不放，或者想听老师和自己怎么说的，也可以选择自己和老师的语音进行回放。这样可以解决多堆人说话现场比较嘈杂时，实况录音无法听清的问题，而且对于事后回顾来讲，增加多重的选择，改进了用户体验，可以节约时间。

所述显示屏102为LED显示屏或者电视屏幕等。

所述学习终端103设置于学生端，所述学习终端103安装有与所述教学APP或者PC软件客户端相关联的学习APP或者PC软件客户端，以接收和播放由教学控制器100发送的实时图像、动作数据、语音信息之一或三者间任意组合的教学数据。

根据本发明的教学系统，所述教学控制器100内置教学APP或者PC软件客户端，教学APP或者PC软件客户端同时接入用于电子白板的演示操作、输入视频与图片的录制设备，无线遥控器101用于实现控制、操作及录入语音，通过无线遥控器101输出的蓝牙信号对教学控制器100进行操作，无线遥控器101可提供虚拟键盘、鼠标、手写等，对教学APP或者PC软件客户端进行无线操作，同时无线遥控器101录入的语音信息可以传输给每个学习终端103，并在显示屏102上展示动作数据，以方便于情景教学，教师可通过高拍仪获取当前实时实验、课本、试题等近景，实时同步到显示屏或每个学习终端上，使得任何角落的学生均可清晰获取教师的讲解内容，同时通过教学APP或者PC软件客户端可以化被动学习为主动学习，提高学生的学习主动性。

所述录制设备包括：

教学高拍仪104，用于获取实时图像而输出至教学控制器100；

电子白板105，用于获取动作数据而输出至教学控制器100。

如图2所示，所述教学高拍仪104包括：工作台1040，所述工作台1040两侧分别设有臂灯1041，所述工作台1040上设有下支臂1042，所述下支臂1042上设有上支臂1043，所述上支臂1043上设有摄像头1044，所述摄像头1044朝向工作台1040，所述下支臂1042与上支臂1043通过阻尼轴而转动连接。

优选的，所述教学高拍仪104还包括无线传输模块1045比如蓝牙、无线网络、WIFI等，从而实现与所述教学控制器100的无线连接，实时传输数据，可以省去专用连接电缆，方便移动设备，便于使用。

优选的，所述无线传输模块1045的发射天线1046设置在至少一个所述臂灯1041的非发光侧部上，这样的设置方式可以提高无线传输的距离又不会占用额外的空间，也不需要专门设置其他装置。

如图3-5所示，所述无线遥控器101包括触摸屏1012、降噪麦克风1010、外置话筒插孔1011、无线发射模块1013。

优选的，所述无线遥控器101还包括语音识别模块1014、指令存储模块1015、指令匹配模块1016等。

所述触摸屏1012，可以用于：

模拟虚拟键盘，并利用虚拟键盘键入字符；

模拟鼠标按键，实现鼠标点击操作；

获取滑动轨迹，并根据滑动轨迹生成手绘图形。

所述降噪麦克风1010，用于获取语音信息。外置话筒插孔1011设置在所述无线遥控器101的底部，用于通过外部专用麦克风获取语音信息，比如教师随身携带的微型麦克风。所述无线发射模块1013用于与所述教学控制器100进行无线数据传输。

优选的，还可以通过语音识别模块1014可以识别用户输入的语音信息，提取其中的操作信息，而不必非要手动进行一些操作，所述指令匹配模块1016将所述操作信息与指令存储模块1015存储的指令进行匹配，匹配成功后实现相应的操作，如果匹配不成功就进行提示。比如，教师说，指令，自动翻页。语音识别模块1014首先识别出“指令”，从而不再将这段话传输到所述教学控制器100，而是进一步解析出“自动翻页”，与存储的指令进行匹配，然后发出自动翻页的指令。如果不是指令语音，那么会将语音信息同步传输到所述教学控制器100。

优选的，所述无线遥控器101记录所述提取的操作信息及其匹配的指令，并且可以在其触摸屏1012上进行显示。更优选的，将最常用的指令显示在触摸屏1012上的固定位置，用户也可以点击操作重复这样的指令动作。

优选的，通过所述教学控制器100的教学APP或者PC软件客户端可以以无线的方式对所述无线遥控器101的存储指令进行更新和同步，实现装置的指令更新和匹配，便于控制。

对于无线遥控器101传输的非指令性语音信息，所述教学控制器100将这些信息单独进行保存，根据教师语音模型，剔除其他的杂音，纯净的语音信息。

所述无线遥控器101的语音采样速率为44.1KHz/16bit，无线传输距离≥10m。具体地，所述无线遥控器101的规格参数可以为：

1、基于2.4G无线传输，蓝牙1对1形式配对，实时控制指令、语音信息和键盘/控制信号发送；

2、触摸式键盘，手指或笔均可操作虚拟键盘；

3、触摸式画笔手绘，支持输出绝对坐标与教学APP或者PC软件客户端，兼容支持绘画、书写；

4、触摸式鼠标，实现左右键、移动、拖动等；

5、指令、画笔、键盘、鼠标的数据均以透传SPP模式传输，采用RF4CE标准；

6、语音采样速率为44.1KHz/16bit，无线传输距离≥10M，话筒模式支持自动干净频道搜索；

7、语音实时传输，内置话筒，10cm距离拾音、外置话筒插座、ENC噪音消除；

8、机顶盒控制，具有Home、back、上下左右切换键等；

9、尺寸：119*60*9mm，触摸屏尺寸：121*60mm，分辨率：1024*560；

10、电池为3.7V/800mA 5V/1A(micro USB插头)。

本发明的教学控制器安装有Android 4.4系统。所述教学控制器的具体规格参数为：

1、Android 4.4，LPDDR3EMMC，1.8GHz八核处理器；

2、RAM：2GB DDR3，ROM Flash：8GB，SD card最大支持64GB；

3、网络连接：WIFI内置、Built-in蓝牙内置、Ethernet RJ 45；

4、显示接口为HDMI接口。

所述学习终端103可以包括本地学习终端，也可以包括远程学习终端，所述本地学习终端与教学控制器100基于无线局域网而进行数据交互，所述远程学习终端与教学控制器100基于互联网云平台而进行数据交互。

教师和学生可以通过多媒体教学系统来组织教学，在多媒体教学系统中，教师可以发布视频，学生远程观看视频可以进行相关知识的学习。教学控制器将教学信息发送给学习终端，学生通过学习终端的屏幕能看到教师的相关文档信息及教师对文档的操作。

如图6所示，根据本发明的多媒体交互教学方法，包括如下步骤：

还可以，通过无线遥控器101输入的控制指令、文字信息和/或语音信息通过无线方式例如蓝牙、无线网络、WIFI等传输至教学控制器100；

所述语音信息包括所述语音采集106设备采集的信息，还可以包括无线遥控器101采集的语音信息。

优选的，为了录入操控指令和文字信息，在所述步骤S2中：

所述无线遥控器101输入的控制指令包括在触摸屏1012上模拟鼠标按键而实现的鼠标点击操作指令；

所述无线遥控器101输入的文字信息包括在触摸屏1012上模拟虚拟键盘并利用虚拟键盘键入的字符。

优选的，在所述步骤S2中：

用户可以使用语音与无线遥控器101进行交互，遥控器101可以解析语音中包含的控制指令，然后向教学控制器100发出相应的控制指令，而无需通过具体动作操作发出这样的指令。

优选的，所述无线遥控器101还包括语音识别模块1014、指令存储模块1015、指令匹配模块1016。

所述触摸屏1012，可以用于：

模拟虚拟键盘，并利用虚拟键盘键入字符；

模拟鼠标按键，实现鼠标点击操作；

获取滑动轨迹，并根据滑动轨迹生成手绘图形，利用该滑动轨迹所生成的动作数据替代所述录制设备所获取的动作数据。

优选的，所述无线遥控器101记录所述提取的操作信息及其匹配的指令，并且可以在其触摸屏1012上进行显示。

更优选的，将最常用的指令显示在触摸屏1012上的固定位置，用户也可以点击操作重复这样的指令动作。

优选的，在所述步骤S5中：

学习终端103包括本地学习终端和/或远程学习终端，所述本地学习终端与教学控制器100基于局域网而进行数据交互，所述远程学习终端与教学控制器100基于云平台而进行数据交互。在远程教学的基础上，所述云平台包括资源列表，并且当所述教学控制器100处有新的授课信息时，将该授课信息更新至资源列表。

优选的，在所述步骤S4中：

当远程学习终端与教学控制器100建立连接后，所述云平台启动资源推送程序：先获取资源列表，判断资源列表是否有更新，若有更新，则云平台将所述教学控制器100输出的教学数据推送至远程学习终端103。云计算的虚拟化技术可以将物理层的资源看作一个“资源池”，通过云环境下的中间件进行管理由于用户所需要计算的任务是不尽相同，不同用户的资源调度也会根据需求情况和有关规则运行在一个特定的环境中，操作任务在系统中都有一个或多个进程。

有两种方法可以实现资源调度的任务：一是根据资源使用的计算任务的不同安排不同的机器；二是把计算任务往别的机器进行转移处理。例如，资源管理、安全管理、用户管理以及任务管理等方面的工作在内的用户任务调度、资源状况监测、节点故障的屏蔽、用户身份管理等多重功能都可以在云计算的资源管理环境中得到具体的实现。

优选的，在步骤S3中：

对于说话人分段聚类，所述教学控制器100对接收到的语音信息进行分析处理，提取出每个说话人的语音信息，具体方式如下：

所述教学控制器100包括：说话人分割模块、说话人聚类模块和声纹识别模块，对采集的所述语音信息进行说话人分割、说话人聚类和声纹识别等处理，提取出每个说话人的语音信息，并且根据已有的训练的声纹模板识别出说话人的身份。进而，对于提取的语音添加说话人标识以及系统生成的统一时间戳，这样用户在通过网络点播回放复习时，可以选择自己想要听的语音进行播放，比如只想听老师讲什么，那么就把老师的那么语音播放出来，其他的语音可以屏蔽不放，或者想听老师和自己怎么说的，也可以选择自己和老师的语音进行回放。

如图7所示，根据本发明的说话人分段聚类流程示意图。

所述教学控制器100首先对获得的语音信息进行端点检测处理，只提取有语音的部分，去掉静音部分，对提取的有语音的部分进行说话人分段聚类和声纹识别处理。说话人分割的目的是找到说话人改变时的转折点，使得输入语音按说话人被分割成语音段：分段1，分段2，分段3…，分段N(举个例子：分段1，分段3可能是同一个人的语音，但是因为中间有另一个人的语音，所以按说话人转折点切开)，而每个语音段中仅包含单一说话人的语音信息；说话人聚类的目的是将相同说话人的语音段聚集，使得每一类只包含一个说话人的数据，并使每个人的数据尽可能的在一类数据中(上面的例子，分段1和分段上就可以合在一起)。

本发明说话人聚类采用LSP特征来进行，即通过原始语音提取出LSP(Line SpectrumPair)特征数据，进行后面的计算。

(一)说话人分割

说话人分割的重点就是找到说话人切换的转折点，其中包括单一转折点的检测和多个转折点的检测：

(1)单一转折点检测：

如图8所示，单一转折点检测包括以下步骤：语音特征段提取、基于距离的顺序检测、交叉检测、和转折点确认。所述的语音特征段提取与前述相应的方式相同，或者可以直接使用前述提取的语音特征，在此不再赘述。

1)基于距离的顺序检测：

如图9所示，为基于距离的单转折点顺序检测示意图。该检测方法假设：在语音段最初的一小段时间间隔内，不存在转折点。首先取语音最开始时的语音段(1-3秒)作为模板(Template)窗口，之后将此模板和每个滑动片段(长度和模板的相同)作距离计算，本发明采用“广义似然比”作为度量的距离，可获得距离曲线，其中d(t)表示t时刻的滑动窗口与说话人1的模板窗口之间的距离值。

如图10所示，顺序检测后的距离曲线，当滑动窗口在第一个说话人的范围内时，模板段和移动窗口均为第一个说话人的语音，所以距离值较小。当移动窗口到达第二个说话人的范围内时，滑动窗口变为第二个说话人的语音，因此距离值逐渐增大。因此可假设在距离值最大时，其附近有第二个说话人的语音的可能性最大。

2)交叉检测：

如图11所示，在顺序检测完成后，通过寻找距离曲线的最大值点来确定第二个说话人的模板窗口。

在找出第二个说话人的模板后，采用前述同样的方法即可得到第二条距离曲线。如图12所示，两条曲线交叉处即为说话人转折点。

3)转折点确认：

如图13所示，在交叉检测时，如果错误的将第一个说话人的语音作为第二个说话人的语音模板，则可能产生虚警错误。为了减少虚警错误，需要对每个转折点进行优选的确认。转折点的确认如公式1所示：

上述公式中，sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值。

其中，通过利用说话人2的距离曲线起始到交叉点的这段区域(如图14中方框部分所示)，公式(1)中的d(i)就是这一端区域内计算出来的距离。若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。

(2)多个转折点检测：

找到整段语音中的多个说话人转折点，可在单一转折点检测的基础上完成，步骤如下：

步骤1)：首先设定一较大的时间窗(长度为5-15秒)，在窗内作单转折点检测。

步骤2)：若在上一步骤没找到说话人转折点，则将窗口向右移动(1-3秒)，重复步骤1，直到找到说话人转折点，或者语音段结束。

通过上述步骤，可以找到多个说话人的所有转折点，并据此分段为：分段1到分段N。

由此，通过上述单一转折点的检测和多个转折点的检测完成说话人的分割。

(二)说话人聚类

在完成说话人分割后，接下来，说话人聚类将这些分段聚类，相同说话人的分段合在一起：说话人聚类是聚类技术在语音信号处理方面的一个具体应用，其目的是通过对语音段进行分类，使得每一类只包含同一说话人数据，并且同一说话人的数据都被归并到同一类中。

对于所述的分段聚类，本发明提出一种改进的层次聚类方法(Improved Hierarchical Clustering，IHC)，该方法通过最小化类内误差平方和进行合并和确定类别数目，具体步骤如图15所示：

考虑一个语音段的集合X＝{x₁,x₂,…,x_N}，其中x_n表示一个语音段对应的特征序列。XN表示那个集合的最后一个特征，而Xn泛指。“其中x_n表示一个语音段对应的特征序列。”意思就是集合里面的每一个x都是一个特征序列。说话人聚类意味着要找到集合X的一个划分C＝{c₁,c₂,…,c_K}，而c_k中只包含一个说话人的语音信息，并且来自同一个说话人的语音段仅被划分到c_k中。

(1)计算距离

与确定说话人转折点的计算距离方法一样，采用“广义似然比”作为度量的距离。

(2)改进的误差平方和准则

误差平方和准则即为类内误差平方和最小为准则。在说话人聚类应用中，同一说话人的数据间的距离比较小，而不同说话人数据间的距离比较大，因此误差平方和准则能取得较好的效果。

综上所述，IHC算法的第一步是以距离度量为相似度，以改进的误差平方和准则为准则函数，逐步地两两合并，最终形成一个聚类树。

(3)类别确定

在说话人聚类中，一个重要的环节就是自动确定数据中客观存在的类别数目，即确定有多少个说话人。本发明采用了一种基于假设检验的类别确定方法，该方法利用假设检验的原理，对聚类树上的每一个合并操作进行检验，检查其合并的合理性，从而确定最终的类别数目。一旦发现有不合理的合并，就认为合并前的类别数目为最终的说话人类别数目。

对于(1)(2)采用了不同的距离计算方法和不同的聚类准则，可以提升聚类的正确性与效果；(3)采用基于假设检验方法，使得聚类的时候不需要认为指定类别个数，因为往往无法事先确定说话的有多少人，但是采用这种方法，就可以根据实际情况，聚成相应的几个类。

优选的，根据已有的声纹模型，进行说话人匹配，所述的声纹模型，可以通过事先的训练得到，由于上课的班级人数基本是固定，这样生成的声纹模型相对比较容易。对于具体上课的班级，每次可以只需要调取这个班级学生的声纹模型进行快速比对，从而提高声纹识别的效率。声纹模型的训练和识别属于比较公知的内容，不是本发明的重点，在此不再赘述。

如图16所示，所述学习终端103实时接收和播放教学数据的流程图，包括：

步骤S41，用户通过身份验证后登陆学习终端103；

步骤S42，学习终端103接收教学控制器100发送的教学数据；

如图17所示，所述学习终端103设有用于容置预设数量实时图像的缓冲区，学习终端103接收实时图像时，首先判断该实时图像是否可以装入缓冲区，并将接收到的图像编号与学习终端103显示的图像编号进行比对，若编号之差小于缓冲区可容纳实时图像的数量，则将接收的图像写入缓冲区，若编号之差大于缓冲区可容纳实时图像的数量，则丢弃该实时图像并继续比对，重新接收教学终端发送的实时图像，直至能够将实时图像存入缓冲区。

其中，当编号之差大于缓冲区可容纳实时图像的数量时，先判断接收到的图像帧是不是同步顿，如果是同步帧，则检查缓冲队列尾的图像帧是不是同步帧，若是，则将其丢弃并将接收到的新的图像帧放入队尾位置，若不是，则继续在缓冲队列中查询同步帧，找到同步帧并将该同步帧和接收到的图像丢弃；如果队列中没有同步帧，则将接收到的图像帧放入队尾而覆盖原有数据，通过重复接收，等待同步帧接收完毕并在学习终端103显示。

图像编号可以是顺序编号，编号之差就是数学上的减，如果差大于缓冲区大小，说明缓冲区已满，这时无法将收到的图像加入缓冲区了，直到缓冲区非满时(差小于缓冲区大小)，才可以将新收到的数据加入缓冲区。播放的图像都是从缓冲区中顺序取出的。没有存入缓冲区的图像视为丢弃。缓冲区中图像数量是变化的(播放，使得其中的图像减少；接受，使得图像数量增加。但是最大不会超过预设的缓冲区大小。)

为了达到实时的效果，需要一些同步帧(可以向图像一样传输，但并不代表具体的图像数据)。在当前接受到的是同步帧的情况下如果:(1)队尾是同步帧，那么说明没有同步完毕，将新的同步帧替换队尾的那个，继续接受；(2)队尾不是同步帧，在队列中查询同步帧，将查询到的同步帧到队尾接受的图像帧全部丢弃，因为这些图像帧不是同步的，或者说这些图像是在同步完成前收到的，播放这些图像将达不到实时(直播)的效果；(3)队列中没有同步帧，说明队列中都是图像帧，而这些图像帧同样也是在同步完成前收到的，应当丢弃。

等到同步帧全部接受完毕之后，证明同步过程结束，再之后的接收到的图像都是与网络实时的，可以达到一种实时的“直播”效果。为非同步接受到的图像数据多是延迟的。

如图18所示，本发明的多媒体交互教学方法的点播回放流程图，具体如下：

步骤S52，教学控制器100响应点播回放请求，根据请求的内容，获取所述存储设备107上的相应教学信息列表，并将教学信息列表发送给学习终端103；

步骤S53，用户在学习终端103上从教学信息列表上选择想要的信息，这些信息包括图像信息、动作信息以及按照说话人区分的语音信息，用户可以选择其中一个信息，比如语音信息，用户可以只选择教师语音和本人语音；

步骤S54，教学控制器100根据学生用户的选择，将相应的教学信息发送给学习终端103；

步骤S55，学习终端103将接收到的教学信息按照时间戳重构并且在本地进行显示。

本发明的教学系统及教学方法，其相比现有技术而言有如下技术效果：

1、结合教学控制器、教学APP或者PC软件客户端、高拍仪、电子白板、无线遥控器、LED显示屏等技术，将传统的被动听课转变为主动听课，教师无需站在讲台讲课，可以在教室内随时遥控来辅助讲课，与电子白板结合后让整个课堂更加有趣，有助于学生提高学习效率。

2、有效结合了高拍仪，特别是在物理/化学等实验课程，让学生更加真实、清晰地看到教师的每一步操作，透彻了解实验目的和实验过程。特别是，改进的高拍仪，可以实现无线数据传输功能，而结构上紧凑，数据传输距离上可以得到保障。

3、通过教室内安装的语音采集装置，采集了学生上课时参与讨论时的语音，并且通过所述教学控制器的语音聚类分析，使得在每个阶段讨论每个问题时，参与讨论的学生的语音被记录并且被单独保存成文件，使得学生事后可以回顾自己上课参与讨论的情况，激发学生参与课上讨论的积极性，并且有助于学生事后分析自己回答问题的语音逻辑性，有助于改进自己回答问题的方式。

4、所述无线遥控器具备了基础的语音分析、操作信息提取和指令匹配等功能，由此可以实现了语音控制，此外还能支持模拟鼠标、虚拟键盘、模拟画板等功能，实现了更加灵活多样的无线控制。

5、整套教学系统方便部署，操作灵活，通过教学控制器可以与更多的多媒体设备关联，可通过电子白板进行讲课、讲题，整个教学过程都能够同步至学习终端。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。

Claims

一种多媒体交互教学系统，包括教学控制器(100)、学习终端(103)、录制设备、语音采集设备(106)和存储设备(107)，其特征在于：

所述录制设备，用于获取实时图像和动作数据；

所述语音采集设备(106)，用于采集课堂实时语音信息；

所述教学控制器(100)，用于将所述录制设备和所述语音采集设备(106)采集的教学信息发送给所述学习终端(103)和/或额外设置的用于集中展示的显示屏(102)；

所述存储设备(107)，用于将所述录制设备和所述语音采集设备采集的教学信息存储起来，用户可以通过网络点播回顾课堂教学过程。
根据权利要求1的系统，其特征在于，

所述教学控制器(100)包括说话人分割模块、说话人聚类模块、声纹识别模块，分别用于对采集的所述语音信息进行说话人分割、说话人聚类和声纹识别处理，从而提取每个说话人的语音信息，并且根据训练得到的声纹模板识别出说话人的身份。
根据权利要求2的系统，其特征在于，

所述提取的语音信息添加说话人身份标识和系统统一生成的时间戳标识，形成以说话人身份为标识并且具有时间戳的一系列独立的语音信息，并且被保存起来。
根据权利要求3的系统，其特征在于，

用户在通过网络点播回顾课堂教学过程时，先通过对说话人的选择来选择自己想要听到的语音，再进行播放。
根据权利要求2的系统，其特征在于，

所述说话人分割用于找到说话人切换的转折点，包括单一转折点的检测和多个转折点的检测；

所述单一转折点检测包括基于距离的顺序检测、交叉检测和转折点确认；

所述多个转折点检测用于找到整段语音中的多个说话人转折点，在所述单一转折点检测的基础上完成，步骤如下：

步骤1)：首先设定一较大的时间窗，长度为5-15秒，在窗内作单转折点检测；

步骤2)：若在上一步骤没找到说话人转折点，则将窗向右移动1-3秒，重复步骤1，直到找到说话人转折点，或者语音段结束；

步骤3)：若找到说话人转折点，则记录此转折点，并将窗口起始点设到此转折点上，重复步骤1)-步骤2)。
根据权利要求5的系统，其特征在于，所述转折点的确认公式：

sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值；

其中，通过利用说话人的距离曲线起始到交叉点的这段区域，公式中的d(i)就是这一端区域内计算出来的距离，若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。
根据权利要求1-6之一的系统，其特征在于，

所述录制设备包括教学高拍仪(104)和电子白板(105)，

所述教学高拍仪(104)用于获取实时图像并输出至所述教学控制器(100)，

所述电子白板(105)用于获取动作数据并输出至所述教学控制器(100)。
根据权利要求7的系统，其特征在于，

所述教学高拍仪(104)包括工作台(1040)和无线传输模块(1045)，

所述工作台(1040)两侧分别设有臂灯(1041)，

所述无线传输模块(1045)的发射天线设置在至少一个所述臂灯(1041)的非发光的侧部上。
根据权利要求1-6之一的系统，其特征在于，

还包括无线遥控器(101)，用于实现对所述教学控制器(100)的无线控制，

所述无线遥控器(101)包括触摸屏(1012)、麦克风(1010)、外置话筒插孔(1011)和无线发射模块(1013)。
根据权利要求9的系统，其特征在于，

所述无线遥控器(101)还包括语音识别模块(1014)、指令存储模块(1015)、和指令匹配模块(1016)，

所述语音识别模块(1014)用于识别用户输入的语音信息，如果检测到设定的动作字符，提取所述动作字符之后的语音中包含的操作信息而不把这段语音传输到所述教学控制器(100)，如果没有检测到设定的动作字符，那么将语音信息同步传输到所述教学控制器(100)；

所述指令存储模块(1015)用于存储可以控制所述教学控制器(100)的指令信息；

所述指令匹配模块(1016)用于将所述操作信息与所述指令存储模块(1015)存储的指令进行匹配，匹配成功后实现相应的指令操作。
根据权利要求10的系统，其特征在于，所述触摸屏(1012)用于，

模拟虚拟键盘，并利用虚拟键盘键入字符；

模拟鼠标按键，实现鼠标点击操作；

获取滑动轨迹，并根据滑动轨迹生成手绘图形。
根据权利要求10的系统，其特征在于，

所述无线遥控器(101)记录所述提取的操作信息及其匹配的指令，并且可以在其触摸屏(1012)上进行显示，将常用的指令显示在触摸屏(1012)上的固定位置，用户点击操作重复这样的指令动作。
根据权利要求10的系统，其特征在于，所述无线遥控器(101)还包括外置话筒插孔(1011)，设置在所述无线遥控器(101)的底部，用于通过外部专用麦克风获取语音信息
根据权利要求10的系统，其特征在于，

所述教学控制器(100)对所述无线遥控器(101)中的存储指令定期更新。
根据权利要求10的系统，其特征在于，

通过所述无线遥控器(101)传输到所述教学控制器(100)的语音信息同样保存到所述存储设备(107)；

所述教学控制器(100)还包括说话人去重模块，用于根据声纹模型去除来自所述无线遥控器(101) 和所述语音采集设备(106)的重复语音。
一种多媒体交互教学方法，包括以下步骤：

步骤S1，开启教学控制器(100)，所述录制设备、学习终端(103)、语音采集设备(106)和存储设备(107)分别与教学控制器(100)建立连接；

步骤S2，所述录制设备获取实时图像和动作数据并传输至教学控制器(100)，所述语音采集设备(106)获取课堂语音信息并传输至教学控制器(100；)

步骤S3，教学控制器(100)将收到的实时图像、动作数据和语音信息进行处理之后，存储到存储设备(107)上，所述存储设备(107)为本地存储器或网络云端存储器以及他们的任意组合；

步骤S4，教学控制器(100)将收到的实时图像、动作数据和语音信息之一或任意组合的教学数据发送至学习终端(103)和/或额外设置的用于集中展示的显示屏(102)；

步骤S5，学习终端(103)接收和播放由教学控制器(100)发送的教学数据；

步骤S6，通过网络访问教学控制器(100)，并获得存储设备(107)上存储的实时图像、动作数据、语音信息的至少一种，由此实现课堂教学过程回放。
根据权利要求16的方法，其特征在于，在所述步骤S3中，教学控制器(100)对收到的教学数据进行处理的过程包括：

说话人分割、说话人聚类、声纹识别，分别用于对采集的所述语音信息进行说话人分割、说话人聚类和声纹识别处理，从而提取每个说话人的语音信息，并且根据训练得到的声纹模板识别出说话人的身份。
根据权利要求17的方法，其特征在于，

所述提取的语音信息添加说话人身份标识和系统统一生成的时间戳标识，形成以说话人身份为标识并且具有时间戳的一系列独立的语音信息，并且被保存起来。
根据权利要求18的方法，其特征在于，在步骤S6中，

用户在通过网络点播回顾课堂时，先通过对说话人的选择来选择自己想要听到的语音，再进行播放。
根据权利要求19的方法，其特征在于，

所述说话人分割用于找到说话人切换的转折点，包括单一转折点的检测和多个转折点的检测；

所述单一转折点检测包括基于距离的顺序检测、交叉检测和转折点确认；

所述多个转折点检测用于找到整段语音中的多个说话人转折点，在所述单一转折点检测的基础上完成，步骤如下：

步骤1)：首先设定一较大的时间窗，长度为5-15秒，在窗内作单转折点检测；

步骤2)：若在上一步骤没找到说话人转折点，则将窗向右移动1-3秒，重复步骤1，直到找到说话人转折点，或者语音段结束；

步骤3)：若找到说话人转折点，则记录此转折点，并将窗口起始点设到此转折点上，重复步骤1)-步骤2)。
根据权利要求20的方法，其特征在于，所述转折点的确认公式：

sign(·)为符号函数，d_cross为两条距离曲线交叉处的距离值；

其中，通过利用说话人的距离曲线起始到交叉点的这段区域，公式中的d(i)就是这一端区域内计算出来的距离，若最后结果为正，则接受此点为说话人转折点；若为负，则拒绝此点为说话人转折点。
根据权利要求16-21之一的方法，其特征在于，

所述录制设备包括教学高拍仪(104)和电子白板(105)，

所述教学高拍仪(104)用于获取实时图像并输出至所述教学控制器(100)，

所述电子白板(105)用于获取动作数据并输出至所述教学控制器(100)。
根据权利要求22的方法，其特征在于，

所述教学高拍仪(104)包括工作台(1040)和无线传输模块(1045)，

所述工作台(1040)两侧分别设有臂灯(1041)，

所述无线传输模块(1045)的发射天线设置在至少一个所述臂灯(1041)的非发光的侧部上。
根据权利要求16-21之一的方法，其特征在于，

还包括无线遥控器(101)，用于实现对所述教学控制器(100)的无线控制，

所述无线遥控器(101)包括触摸屏(1012)、麦克风(1010)、外置话筒插孔(1011)和无线发射模块(1013)。
根据权利要求24的方法，其特征在于，

所述无线遥控器(101)还包括语音识别模块(1014)、指令存储模块(1015)、和指令匹配模块(1016)，

所述语音识别模块(1014)用于识别用户输入的语音信息，如果检测到设定的动作字符，提取所述动作字符之后的语音中包含的操作信息而不把这段语音传输到所述教学控制器(100)，如果没有检测到设定的动作字符，那么将语音信息同步传输到所述教学控制器(100)；

所述指令存储模块(1015)用于存储可以控制所述教学控制器(100)的指令信息；

所述指令匹配模块(1016)用于将所述操作信息与所述指令存储模块(1015)存储的指令进行匹配，匹配成功后实现相应的指令操作。
根据权利要求24的方法，其特征在于，所述触摸屏(1012)用于，

模拟虚拟键盘，并利用虚拟键盘键入字符；

模拟鼠标按键，实现鼠标点击操作；和/或

获取滑动轨迹，并根据滑动轨迹生成手绘图形。
根据权利要求24的方法，其特征在于，

所述无线遥控器(101)记录所述提取的操作信息及其匹配的指令，并且可以在其触摸屏(1012)上进行显示，将常用的指令显示在触摸屏(1012)上的固定位置，用户点击操作重复这样的指令动作。
根据权利要求24的方法，其特征在于，所述无线遥控器(101)还包括外置话筒插孔(1011)，设置在所述无线遥控器(101)的底部，用于通过外部专用麦克风获取语音信息
根据权利要求24的方法，其特征在于，

所述教学控制器(100)对所述无线遥控器(101)中的存储指令定期更新。
根据权利要求24的方法，其特征在于，

通过所述无线遥控器(101)传输到所述教学控制器(100)的语音信息同样保存到所述存储设备(107)；

所述教学控制器(100)还包括说话人去重模块，用于根据声纹模型去除来自所述无线遥控器(101)和所述语音采集设备(106)的重复语音。
根据权利要求16-21之一的方法，其特征在于，在步骤S5中，所述学习终端(103)接收和播放教学数据过程，包括：

步骤S41，用户通过身份验证后登陆学习终端103；

步骤S42，学习终端103接收教学控制器100发送的教学数据；

步骤S43，学习终端103对教学数据解析而获得实时图像、动作数据和语音信息，并在学习终端103上进行显示，包括基于DirectX方式对接收到的实时图像解析并显示；

步骤S44，教学数据是否接收完成，若是，则结束接收过程，若否，则返回至步骤S42。
根据权利要求31的方法，其特征在于，

所述学习终端(103)设有用于容置预设数量实时图像的缓冲区，学习终端(103)接收实时图像时，首先判断该实时图像是否可以装入缓冲区，并将接收到的图像编号与学习终端(103)显示的图像编号进行比对，若编号之差小于缓冲区可容纳实时图像的数量，则将接收的图像写入缓冲区，若编号之差大于缓冲区可容纳实时图像的数量，则丢弃该实时图像并继续比对，重新接收教学终端发送的实时图像，直至能够将实时图像存入缓冲区。
根据权利要求32的方法，其特征在于，

当编号之差大于缓冲区可容纳实时图像的数量时，先判断接收到的图像帧是不是同步顿，如果是同步帧，则检查缓冲队列尾的图像帧是不是同步帧，若是，则将其丢弃并将接收到的新的图像帧放入队尾位置，若不是，则继续在缓冲队列中查询同步帧，找到同步帧并将该同步帧和接收到的图像丢弃；如果队列中没有同步帧，则将接收到的图像帧放入队尾而覆盖原有数据，通过重复接收，等待同步帧接收完毕并在学习终端(103)显示。
根据权利要求16-21之一的方法，其特征在于，在所述步骤S6中，所述点播回放过程如下：

步骤S51，用户学习终端(103)通过网络向教学控制器(100)发送点播回放请求；

步骤S52，教学控制器(100)响应点播回放请求，根据请求内容，获取相应教学信息列表，并将教学信息列表发送给学习终端(103)；

步骤S53，用户在学习终端(103)上从教学信息列表上选择想要的信息，这些信息包括图像信息、动作信息以及按照说话人区分的语音信息；

步骤S54，教学控制器(100)根据用户的选择，将相应的教学信息发送给学习终端(103)；

步骤S55，学习终端(103)将接收的教学信息按照时间戳重构并且在本地进行显示。