WO2022011965A1 - 交互设备的管理控制方法和装置 - Google Patents
交互设备的管理控制方法和装置 Download PDFInfo
- Publication number
- WO2022011965A1 WO2022011965A1 PCT/CN2020/136954 CN2020136954W WO2022011965A1 WO 2022011965 A1 WO2022011965 A1 WO 2022011965A1 CN 2020136954 W CN2020136954 W CN 2020136954W WO 2022011965 A1 WO2022011965 A1 WO 2022011965A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice command
- information
- command information
- voice
- interactive device
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
- H04L67/125—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
一种交互设备的管理控制方法和装置(200),方法包括:采集语音信号(S101);提取语音信号中的语音命令信息(S102);当语音命令信息属于当前目标语音命令信息集时,提取语音信号中的声纹特征信息(S103);当声纹特征信息属于目标声纹特征集时,采集现场图像信息(S104);提取所采集的图像信息中的人脸特征信息(S105);以及在声纹特征信息与人脸特征信息对应的情况下,执行语音命令信息对应的操作(S106)。
Description
相关申请的交叉引用
本申请要求享有于2020年07月16日提交的名称为“交互设备的管理控制方法和装置”的中国专利申请202010687889.0的优先权,该申请的全部内容通过引用并入本文中。
本申请涉及设备管理领域,尤其涉及一种交互设备的管理控制方法和装置。
伴随着教育信息化2.0的提出和推进,目前学校教室中基本部署了交互设备,如交互平板和智能黑板,这些交互设备中普遍配备有摄像头、麦克风、音箱等音视频硬件设备,具有音视频采集和分析的能力。
教师在使用此类交互设备进行教学时,一般需要首先进行开机、打开教学软件、输入用户名和密码登录等一系列操作后方可使用,这些操作往往是重复的,而且非常繁琐。而在非授课时间段内,如下课十分钟内和自习时间,当教师不在教室内时,普遍会存在学生使用交互设备中的Android或Windows系统进行与学习无关的活动,如利用交互设备上网、打游戏、聊天等。
因此,有必要对教室内的交互设备进行管理,一方面防止非授权人员的操作,另一方面降低授权人员对交互设备的各种操作的难度。
发明内容
基于此,本申请提供了一种交互设备的管理控制方法和装置,能够实现对操作人员的身份进行验证,同时降低授权人员对交互设备的操作难 度。
根据本申请的第一个方面,提供一种交互设备的管理控制方法,包括:
采集语音信号;
提取所述语音信号中的语音命令信息;
当所述语音命令信息属于当前目标语音命令信息集时,提取所述语音信号中的声纹特征信息;
当所述声纹特征信息属于目标声纹特征集时,采集现场图像信息;
提取所采集的图像信息中的人脸特征信息;以及
在所述声纹特征信息与所述人脸特征信息对应的情况下,执行所述语音命令信息对应的操作。
根据本申请的第二个方面,提供一种交互设备的管理控制装置,包括:
第一采集单元,用于采集语音信号;
第一提取单元,用于提取所述语音信号中的语音命令信息;
第二提取单元,用于当所述语音命令信息属于当前目标语音命令信息集时,提取所述语音信号中的声纹特征信息;
第二采集单元,用于当所述声纹特征信息属于目标声纹特征集时,采集现场图像信息;
第三提取单元,用于提取所采集的图像信息中的人脸特征信息;以及
执行单元,用于在所述声纹特征信息与所述人脸特征信息对应的情况下,执行所述语音命令信息对应的操作。
根据本申请的第三个方面,提供一种电子设备,包括:
处理器;以及
存储器,存储有计算机指令,当所述计算机指令被所述处理器执行时,使得所述处理器执行第一方面所述的方法。
根据本申请的第四个方面,提供一种非瞬时性计算机存储介质,存储有计算机程序,当所述计算机程序被多个处理器执行时,使得所述处理器执行第一方面所述的方法。
根据本申请提供的一种交互设备的管理控制方法和装置,通过采集语音实现对操作人员身份的一次验证,并通过采集现场的图像信息获取人脸特征信息,保证所采集的语音对应的人员与所获取的人脸特征信息对应的人员的一致性,从而实现对操作人员身份的进一步验证。此外,在确认操作人员为授权人员后,交互设备自动执行所采集的语音中的语音命令所对应的操作,方便操作人员对交互设备的操作。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图,而并不超出本申请要求保护的范围。
图1是根据本申请的交互设备的管理控制方法的一个实施例的流程图;
图2是根据本申请的交互设备的管理控制装置的一个实施例的示意图;
图3是根据本申请的电子设备的一个实施例的结构图。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请的一个方面,提供一种交互设备的管理控制方法。图1是根据本申请的交互设备的管理控制方法的一个实施例的流程图。在本申请中,交互设备可以包括智能交互音箱、智能交互白板、智能交互平板和智能交互黑板等,交互设备可以具有多种形态,包括电子白板与投影机的组合、大屏以及大屏和黑板一体化等。如图1所示,该交互设备的管理控制方法包括如下步骤:
S101,采集语音信号。
在本申请实施例中,语音信号包括用户的语音命令信息。在实际应用中,交互设备可以采用任一种方式采集语音信号,例如利用设置的麦克风采集语音信号或者利用连接的外部设备采集语音信号,这里不进行限定。为了便于说明,下面以教室的应用场景为例。
教室内的交互设备通常配备有摄像头、麦克风、音箱等音视频硬件设备。交互设备处于随时待命状态,采用(例如)麦克风采集教室内的老师、学生等发出的语音。
上述交互设备的管理控制方法还包括:
S102,提取语音信号中的语音命令信息。
交互设备在收到语音信号后,提取语音信号中的语音命令信息。在一个可选的实施例中,交互设备可以基于深度学习或神经网络技术识别语音信号中的语音命令信息。例如,所提出的语音命令信息可以是“开机”、“打开电脑”、“上课”、“关机”、“关闭电脑”、“下课”、“播放视频”、“打开文件”等。
上述交互设备的管理控制方法还包括:
S103,当语音命令信息属于当前目标语音命令信息集时,提取语音信号中的声纹特征信息。
由于交互设备可能接收到各种语音命令信息,这些语音命令信息中包括可以引起交互设备执行对应操作的语音命令信息,也包括不能引起交互设备执行对应操作的语音命令信息,即对于交互设备来说毫无意义的语音命令信息。
为了交互设备能够识别仅对能够引起执行对应操作的语音命令信息,忽略毫无意义的语音命令信息,在交互设备中存储当前目标语音命令信息集,该当前目标语音命令信息集包括所有能够引起交互设备执行对应操作的各种语音命令信息。例如,当前目标语音命令信息集包括能够引起交互设备执行对应开机和关机操作的各种语音命令信息,像“开机”、“打开电脑”、“上课”、“关机”、“关闭电脑”、“下课”等。
在判断语音命令信息属于当前目标语音命令信息集后,交互设备需要 判断发出该语音命令信息的人员是否是经授权人员,交互设备需要提取所获取的语音信号中的声纹特征信息,该声纹特征信息能够区分不同人的声音,唯一识别一个人。根据声纹特征信息判断判断发出该语音命令信息的人员是否是经授权人员。
在一个可选的实施例中,在判断语音命令信息不属于当前目标语音命令信息集时,交互设备可以输出提示信息,提示操作人员语音命令信息不符合要求。例如,交互设备可以通过屏幕或音响设备输出提示信息。从而,该方法还可以包括当语音命令信息不属于当前目标语音命令信息集时,输出提示信息。
上述交互设备的管理控制方法还包括:
S104,当声纹特征信息属于目标声纹特征集时,采集现场图像信息。
根据一个具体的实施例,交互设备中存储目标声纹特征集,该目标声纹特征集记录了所有经授权人员的声纹特征,例如,语文老师、数学老师、英语老师、设备管理员等的声纹特征。
如果判断所提取的声纹特征信息不属于目标声纹特征集,表明发出该语音命令信息的人员不是经授权人员,那么交互设备就忽略该语音命令信息,不会对该语音命令信息做出响应。在一个可选的实施例中,在判断声纹特征信息不属于目标声纹特征集时,交互设备可以输出提示信息,提示操作人员的身份未经授权。例如,交互设备可以通过屏幕或音响设备输出提示信息。
而如果判断所提取的声纹特征信息属于目标声纹特征集,表明发出该语音命令信息的人员可能是经授权人员。
然而,可能存在这样场景,发出该语音命令信息的声纹特征的确属于目标声纹特征集,但是,发出该语音命令信息的操作人员不在现场,例如只是采用播放器播放了经授权人员的声音。从而,为了保证经授权人员是在现场发出该语音命令信息,还需要采集现场图像信息。
在一个具体实施例中,可以通过交互设备的摄像头采集现场图像信息,也可以通过与交互设备处于同一场景内(如教室、会议室等)中的摄像头采集现场图像信息。基于此,上述交互设备的管理控制方法还包括:
S105,提取所采集的图像信息中的人脸特征信息。
交互设备在采集图像信息后,提取所采集的图像信息中的人脸特征信息,该人脸特征信息能够区分不同的人脸,唯一识别一个人。在一个可选的实施例中,交互设备可以基于深度学习或神经网络技术提取所采集的图像信息中的人脸特征信息。
上述交互设备的管理控制方法还包括:
S106,在声纹特征信息与人脸特征信息对应的情况下,执行语音命令信息对应的操作。
在一个具体实施例中,交互设备中预存有声纹特征信息与人脸特征信息的对应表,即一个声纹特征信息对应一个人脸特征信息,不同的声纹特征信息对应不同的人脸特征信息。这样,如果所采集的声纹特征信息与人脸特征信息与该预存的对应表的内容一致,那么判断声纹特征信息与人脸特征信息相对应,否则,声纹特征信息与人脸特征信息不对应。
交互设备在提取声纹特征信息以及人脸特征信息后,进一步判断所提取声纹特征信息与人脸特征信息是否对应,即判断发出该语音命令信息的人员与现场采集的人脸图像对应的人员是否一致,如果不一致,那么交互设备就忽略该语音命令信息,不会对该语音命令信息做出响应;而如果一致,交互设备执行语音命令信息对应的操作。在一个可选的实施例中,在判断所提取声纹特征信息与人脸特征信息不对应时,交互设备可以输出提示信息,提示操作人员的身份未经授权。例如,交互设备可以通过屏幕或音响设备输出提示信息。
这样,交互设备在获知操作人员的声纹特征信息和人脸特征信息后,通过对操作人员的声纹特征信息和人脸特征信息进行双重验证,可以有效验证发出语音命令信息的人员与现场人员的一致,进一步确保操作人员是经授权人员,然后就能够自动执行该语音命令信息对应的操作,例如,开机操作、关机操作、播放视频等。
可能存在这样的场景,教师在授课的过程中,提及了能够引起交互设备执行对应操作的语音命令信息,例如“关机”、“播放视频”等,然而,教师此时并不是想让交互设备执行对应操作,为了避免交互设备的误 操作,例如,避免教师在授课的过程中关机,根据一个可选实施例中,在声纹特征信息与人脸信息对应的情况下,在执行语音命令信息对应的操作之前,上述方法还可以包括如下步骤:
输出确认是否执行语音命令信息对应的操作的提示信息。
也就是说,交互设备会在执行语音命令信息对应的操作之前,输出提示信息,提示操作人员对该语音命令信息对应的操作的确认,在获得操作人员的确认之后,交互设备才会执行语音命令信息对应的操作。这样,可以避免由于交互设备的误操作而引起的不好的用户体验。
对于语音命令信息对应的操作,在一个具体实施例中,如果该语音命令信息对应的是“开机操作”,则交互设备自动进行开机相关的操作,该开机相关的操作可以包括自动开机、打开教学软件和登陆教学软件,例如,依次自动进行开机、打开教学软件并以该授权人员的身份自动登录教学软件的操作。
在另一个具体实施例中,如果该语音命令信息对应的是“关机操作”,则交互设备自动进行关机相关的操作,该开机相关的操作可以包括退出登陆、退出教学软件和关机,例如,依次自动进行退出教学软件账号、关闭教学软件、关机的操作。
在又一个具体实施例中,如果该语音命令信息对应的是“播放视频操作”,则交互设备自动进行播放视频相关的操作,该开机相关的操作可以包括自动打开并播放选中的视频。
需要注意的是,以上只是举出了语音命令信息对应的操作的一些具体实现方式,本领域技术人员在上述具体实现方式的教示下,可以想到的其他语音命令信息对应的操作的具体实现方式都属于本申请覆盖的范围。
交互设备在确认当前的操作人员属于经授权人员后,对于经授权人员发出的语音命令信息,会自动该执行语音命令信息对应的操作,从而方便操作人员对交互设备的操作,提高操作速度的同时降低操作人员的操作难度。
此外,还可能存在这样的场景:交互设备处于开机状态下收到“开机”的语音命令信息,或者处于关机状态下收到“关机”或“播放视频” 的语音命令信息。交互设备处于特定的状态下,有些语音命令信息对于交互设备是毫无意义的。为了减少交互设备对这些毫无意义的语音命令信息做出反应,根据一个具体实施例,该方法还包括如下步骤:
S107,在执行语音命令信息对应的操作后,更新当前目标语音命令信息集。
根据一个具体的实施例,交互设备中具有语音命令信息总集,其存有所有语音命令,例如,包括“开机”、“关机”、“播放语音”等语音命令信息。在执行“开机”语音命令对应的操作后,从当前目标语音命令信息集中删除“开机”语音命令信息并在当前目标语音命令信息集中保留或从语音命令信息总集中备份除“开机”语音命令之外的语音命令,例如“关机”和/或“播放语音”语音命令信息,由于当前目标语音命令信息集中没有“开机”语音命令信息,这样即使收到“开机”的语音命令信息,交互设备也会自动忽略该“开机”语音命令信息,而在收到“关机”和“播放语音”语音命令信息时,会进行正确的响应。
或者,在交互设备处于关机状态下,从当前目标语音命令信息集中删除“关机”和“播放语音”语音命令信息,并在当前目标语音命令信息集中保留或从语音命令信息总集中备份除“关机”和“播放语音”语音命令之外的语音命令,例如“开机”语音命令信息,这样即使收到“关机”和/或“播放语音”的语音命令信息,交互设备也会自动忽略该“关机”和/或“播放语音”语音命令信息,而在收到“开机”语音命令信息时,会进行正确的响应。
根据本申请提供的一种交互设备的管理控制方法,通过采集语音实现对操作人员身份的一次验证,并通过采集现场的图像信息获取人脸特征信息,保证所采集的语音对应的人员与所获取的人脸特征信息对应的人员的一致性,从而实现对操作人员身份的进一步验证。此外,在确认操作人员为授权人员后,交互设备自动执行所采集的语音中的语音命令所对应的操作,方便操作人员对交互设备的操作。
根据本申请的另一个方面,提供一种交互设备的管理控制装置。图2是根据本申请的交互设备的管理控制装置的一个实施例的示意图。如图2 所示,该交互设备的管理控制装置200包括如下单元:
第一采集单元201,用于采集语音信号。
在本申请实施例中,语音信号包括用户的语音命令信息。在实际应用中,交互设备可以采用任一种方式采集语音信号,例如利用设置的麦克风采集语音信号或者利用连接的外部设备采集语音信号,这里不进行限定。
为了便于说明,下面以教室的应用场景为例。
教室内的交互设备通常配备有摄像头、麦克风、音箱等音视频硬件设备。交互设备处于随时待命状态,采用(例如)麦克风采集教室内的老师、学生等发出的语音。
交互设备的管理控制装置200还包括:
第一提取单元202,用于提取语音信号中的语音命令信息。
交互设备在收到语音信号后,提取语音信号中的语音命令信息。在一个可选的实施例中,交互设备可以基于深度学习或神经网络技术识别语音信号中的语音命令信息。例如,所提出的语音命令信息可以是“开机”、“打开电脑”、“上课”、“关机”、“关闭电脑”、“下课”、“播放视频”、“打开文件”等。
交互设备的管理控制装置200还包括:
第二提取单元203,用于当语音命令信息属于当前目标语音命令信息集时,提取语音信号中的声纹特征信息。
由于交互设备可能接收到各种语音命令信息,这些语音命令信息中包括可以引起交互设备执行对应操作的语音命令信息,也包括不能引起交互设备执行对应操作的语音命令信息,即对于交互设备来说毫无意义的语音命令信息。
为了交互设备能够识别仅对能够引起执行对应操作的语音命令信息,忽略毫无意义的语音命令信息,在交互设备中存储当前目标语音命令信息集,该当前目标语音命令信息集包括所有能够引起交互设备执行对应操作的各种语音命令信息。例如,当前目标语音命令信息集包括能够引起交互设备执行对应开机和关机操作的各种语音命令信息,像“开机”、“打开电脑”、“上课”、“关机”、“关闭电脑”、“下课”等。
在判断语音命令信息属于当前目标语音命令信息集后,交互设备需要判断发出该语音命令信息的人员是否是经授权人员,交互设备需要提取所获取的语音信号中的声纹特征信息,该声纹特征信息能够区分不同人的声音,唯一识别一个人。根据声纹特征信息判断判断发出该语音命令信息的人员是否是经授权人员。
在一个可选的实施例中,在判断语音命令信息不属于当前目标语音命令信息集时,交互设备可以输出提示信息,提示操作人员语音命令信息不符合要求。例如,交互设备可以通过屏幕或音响设备输出提示信息。从而,该装置还可以包括第一输出单元,用于当语音命令信息不属于当前目标语音命令信息集时,输出提示信息。
交互设备的管理控制装置200还包括:
第二采集单元204,用于当声纹特征信息属于目标声纹特征集时,采集现场图像信息。
根据一个具体的实施例,交互设备中存储目标声纹特征集,该目标声纹特征集记录了所有经授权人员的声纹特征,例如,语文老师、数学老师、英语老师、设备管理员等的声纹特征。
如果判断所提取的声纹特征信息不属于目标声纹特征集,表明发出该语音命令信息的人员不是经授权人员,那么交互设备就忽略该语音命令信息,不会对该语音命令信息做出响应。在一个可选的实施例中,在判断声纹特征信息不属于目标声纹特征集时,交互设备可以输出提示信息,提示操作人员的身份未经授权。例如,交互设备可以通过屏幕或音响设备输出提示信息。
而如果判断所提取的声纹特征信息属于目标声纹特征集,表明发出该语音命令信息的人员可能是经授权人员。
然而,可能存在这样场景,发出该语音命令信息的声纹特征的确属于目标声纹特征集,但是,发出该语音命令信息的操作人员不在现场,例如只是采用播放器播放了经授权人员的声音。从而,为了保证经授权人员是在现场发出该语音命令信息,还需要采集现场图像信息。
在一个具体实施例中,可以通过交互设备的摄像头采集现场图像信 息,也可以通过与交互设备处于同一场景内(如教室、会议室等)中的摄像头采集现场图像信息。
交互设备的管理控制装置200还包括:
第三提取单元205,用于提取所采集的图像信息中的人脸特征信息。
交互设备在采集图像信息后,提取所采集的图像信息中的人脸特征信息,该人脸特征信息能够区分不同的人脸,唯一识别一个人。在一个可选的实施例中,交互设备可以基于深度学习或神经网络技术提取所采集的图像信息中的人脸特征信息。
交互设备的管理控制装置200还包括:
执行单元206,用于在声纹特征信息与人脸特征信息对应的情况下,执行语音命令信息对应的操作。
在一个具体实施例中,交互设备中预存有声纹特征信息与人脸特征信息的对应表,即一个声纹特征信息对应一个人脸特征信息,不同的声纹特征信息对应不同的人脸特征信息。这样,如果所采集的声纹特征信息与人脸特征信息与该预存的对应表的内容一致,那么判断声纹特征信息与人脸特征信息相对应,否则,声纹特征信息与人脸特征信息不对应。
交互设备在提取声纹特征信息以及人脸特征信息后,进一步判断所提取声纹特征信息与人脸特征信息是否对应,即判断发出该语音命令信息的人员与现场采集的人脸图像对应的人员是否一致,如果不一致,那么交互设备就忽略该语音命令信息,不会对该语音命令信息做出响应;而如果一致,交互设备执行语音命令信息对应的操作。在一个可选的实施例中,在判断所提取声纹特征信息与人脸特征信息不对应时,交互设备可以输出提示信息,提示操作人员的身份未经授权。例如,交互设备可以通过屏幕或音响设备输出提示信息。
这样,交互设备在获知操作人员的声纹特征信息和人脸特征信息后,通过对操作人员的声纹特征信息和人脸特征信息进行双重验证,可以有效验证发出语音命令信息的人员与现场人员的一致,进一步确保操作人员是经授权人员,然后就能够自动执行该语音命令信息对应的操作,例如,开机操作、关机操作、播放视频等。
可能存在这样的场景,教师在授课的过程中,提及了能够引起交互设备执行对应操作的语音命令信息,例如“关机”、“播放视频”等,然而,教师此时并不是想让交互设备执行对应操作,为了避免交互设备的误操作,例如,避免教师在授课的过程中关机,根据一个可选实施例中,在声纹特征信息与人脸信息对应的情况下,在执行语音命令信息对应的操作之前,交互设备的管理控制装置200可以包括如下单元:
第二输出单元,用于输出确认是否执行语音命令信息对应的操作的提示信息。
也就是说,交互设备会在执行语音命令信息对应的操作之前,输出提示信息,提示操作人员对该语音命令信息对应的操作的确认,在获得操作人员的确认之后,交互设备才会执行语音命令信息对应的操作。这样,可以避免由于交互设备的误操作而引起的不好的用户体验。
对于语音命令信息对应的操作,在一个具体实施例中,如果该语音命令信息对应的是“开机操作”,则交互设备自动进行开机相关的操作,该开机相关的操作可以包括自动开机、打开教学软件和登陆教学软件,例如,依次自动进行开机、打开教学软件并以该授权人员的身份自动登录教学软件的操作。
在另一个具体实施例中,如果该语音命令信息对应的是“关机操作”,则交互设备自动进行关机相关的操作,该开机相关的操作可以包括退出登陆、退出教学软件和关机,例如,依次自动进行退出教学软件账号、关闭教学软件、关机的操作。
在又一个具体实施例中,如果该语音命令信息对应的是“播放视频操作”,则交互设备自动进行播放视频相关的操作,该开机相关的操作可以包括自动打开并播放选中的视频。
需要注意的是,以上只是举出了语音命令信息对应的操作的一些具体实现方式,本领域技术人员在上述具体实现方式的教示下,可以想到的其他语音命令信息对应的操作的具体实现方式都属于本申请覆盖的范围。
交互设备在确认当前的操作人员属于经授权人员后,对于经授权人员发出的语音命令信息,会自动该执行语音命令信息对应的操作,从而方便 操作人员对交互设备的操作,提高操作速度的同时降低操作人员的操作难度。
此外,还可能存在这样的场景:交互设备处于开机状态下收到“开机”的语音命令信息,或者处于关机状态下收到“关机”或“播放视频”的语音命令信息。交互设备处于特定的状态下,有些语音命令信息对于交互设备是毫无意义的。为了减少交互设备对这些毫无意义的语音命令信息做出反应,根据一个实施例,交互设备的管理控制装置200还包括:
更新单元207,用于在执行语音命令信息对应的操作后,更新当前目标语音命令信息集。
根据一个具体的实施例,交互设备中具有语音命令信息总集,其存有所有语音命令,例如,包括“开机”、“关机”、“播放语音”等语音命令信息。在执行“开机”语音命令对应的操作后,从当前目标语音命令信息集中删除“开机”语音命令信息并在当前目标语音命令信息集中保留或从语音命令信息总集中备份除“开机”语音命令之外的语音命令,例如“关机”和/或“播放语音”语音命令信息,由于当前目标语音命令信息集中没有“开机”语音命令信息,这样即使收到“开机”的语音命令信息,交互设备也会自动忽略该“开机”语音命令信息,而在收到“关机”和“播放语音”语音命令信息时,会进行正确的响应。
或者,在交互设备处于关机状态下,从当前目标语音命令信息集中删除“关机”和“播放语音”语音命令信息并在当前目标语音命令信息集中保留或从语音命令信息总集中备份除“关机”和“播放语音”语音命令之外的语音命令,例如“开机”语音命令信息,这样即使收到“关机”和/或“播放语音”的语音命令信息,交互设备也会自动忽略该“关机”和/或“播放语音”语音命令信息,而在收到“开机”语音命令信息时,会进行正确的响应。
根据本申请提供的一种交互设备的管理控制装置,通过采集语音实现对操作人员身份的一次验证,并通过采集现场的图像信息获取人脸特征信息,保证所采集的语音对应的人员与所获取的人脸特征信息对应的人员的一致性,从而实现对操作人员身份的进一步验证。此外,在确认操作人员 为授权人员后,交互设备自动执行所采集的语音中的语音命令所对应的操作,方便操作人员对交互设备的操作。
图3是根据本申请的电子设备的一个实施例的结构图。如图3所示,电子设备包括处理器;以及存储器,存储器存储有计算机指令,当计算机指令被处理器执行时,使得处理器执行计算机指令时实现如图1所示的方法以及上述实施例提供的方法。
应该理解,上述的装置实施例仅是示意性的,本申请披露的装置还可通过其它的方式实现。例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
另外,若无特别说明,在本申请各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,处理器或芯片可以是任何适当的硬件处理器,比如CPU、GPU、FPGA、DSP和ASIC等等。若无特别说明,片上缓存、片外内存、存储器可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。
集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解, 本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本披露各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供一种非瞬时性计算机存储介质,存储有计算机程序,当计算机程序被多个处理器执行时,使得处理器执行如图1所示的方法以及上述任意实施例提供的方法。非瞬时性计算机存储介质的例子包括非暂态计算机存储介质,如电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明仅用于帮助理解本申请的方法及其核心思想。同时,本领域技术人员依据本申请的思想,基于本申请的具体实施方式及应用范围上做出的改变或变形之处,都属于本申请保护的范围。综上所述,本说明书内容不应理解为对本申请的限制。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上仅为本申请的具体实施例,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。
Claims (10)
- 一种交互设备的管理控制方法,包括:采集语音信号;提取所述语音信号中的语音命令信息;当所述语音命令信息属于当前目标语音命令信息集时,提取所述语音信号中的声纹特征信息;当所述声纹特征信息属于目标声纹特征集时,采集现场图像信息;提取所采集的图像信息中的人脸特征信息;以及在所述声纹特征信息与所述人脸特征信息对应的情况下,执行所述语音命令信息对应的操作。
- 如权利要求1所述的方法,还包括:在执行所述语音命令信息对应的操作后,更新所述当前目标语音命令信息集。
- 如权利要求1所述的方法,还包括:当所述语音命令信息不属于当前目标语音命令信息集时,输出第一提示信息。
- 如权利要求1至3任一者所述的方法,其中,所述语音命令信息包括开机命令,所述语音命令信息对应的操作包括自动开机、打开教学软件和登陆教学软件中的至少一者。
- 如权利要求1至3任一者所述的方法,其中,所述语音命令信息包括关机命令,所述语音命令信息对应的操作包括退出登陆、退出教学软件和关机中的至少一者。
- 如权利要求1所述的方法,其中,所述在所述声纹特征信息与所述人脸信息对应的情况下,在执行所述语音命令信息对应的操作之前,所述方法还包括:输出确认是否执行所述语音命令信息对应的操作的第二提示信息。
- 一种交互设备的管理控制装置,包括:第一采集单元,用于采集语音信号;第一提取单元,用于提取所述语音信号中的语音命令信息;第二提取单元,用于当所述语音命令信息属于当前目标语音命令信息集时,提取所述语音信号中的声纹特征信息;第二采集单元,用于当所述声纹特征信息属于目标声纹特征集时,采集现场图像信息;第三提取单元,用于提取所采集的图像信息中的人脸特征信息;以及执行单元,用于在所述声纹特征信息与所述人脸特征信息对应的情况下,执行所述语音命令信息对应的操作。
- 如权利要求7所述的装置,还包括:更新单元,用于在执行所述语音命令信息对应的操作后,更新所述当前目标语音命令信息集。
- 一种电子设备,包括:处理器;以及存储器,存储有计算机指令,当所述计算机指令被所述处理器执行时,使得所述处理器执行如权利要求1至6任一者所述的方法。
- 一种非瞬时性计算机存储介质,存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,使得所述处理器执行如权利要求1至6任一者所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687889.0 | 2020-07-16 | ||
CN202010687889.0A CN111968633A (zh) | 2020-07-16 | 2020-07-16 | 交互设备的管理控制方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022011965A1 true WO2022011965A1 (zh) | 2022-01-20 |
Family
ID=73361466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/136954 WO2022011965A1 (zh) | 2020-07-16 | 2020-12-16 | 交互设备的管理控制方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111968633A (zh) |
WO (1) | WO2022011965A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968633A (zh) * | 2020-07-16 | 2020-11-20 | 深圳市鸿合创新信息技术有限责任公司 | 交互设备的管理控制方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154878A (zh) * | 2017-12-12 | 2018-06-12 | 北京小米移动软件有限公司 | 控制监控设备的方法及装置 |
US20180322300A1 (en) * | 2017-05-08 | 2018-11-08 | Essential Products, Inc. | Secure machine-curated scenes |
CN110647732A (zh) * | 2019-09-16 | 2020-01-03 | 广州云从信息科技有限公司 | 一种基于生物识别特征的语音交互方法、系统、介质和设备 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN111258224A (zh) * | 2018-11-30 | 2020-06-09 | 西安欧思奇软件有限公司 | 智能家居控制方法、装置、计算机设备及存储介质 |
CN111968633A (zh) * | 2020-07-16 | 2020-11-20 | 深圳市鸿合创新信息技术有限责任公司 | 交互设备的管理控制方法和装置 |
-
2020
- 2020-07-16 CN CN202010687889.0A patent/CN111968633A/zh active Pending
- 2020-12-16 WO PCT/CN2020/136954 patent/WO2022011965A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180322300A1 (en) * | 2017-05-08 | 2018-11-08 | Essential Products, Inc. | Secure machine-curated scenes |
CN108154878A (zh) * | 2017-12-12 | 2018-06-12 | 北京小米移动软件有限公司 | 控制监控设备的方法及装置 |
CN111258224A (zh) * | 2018-11-30 | 2020-06-09 | 西安欧思奇软件有限公司 | 智能家居控制方法、装置、计算机设备及存储介质 |
CN110647732A (zh) * | 2019-09-16 | 2020-01-03 | 广州云从信息科技有限公司 | 一种基于生物识别特征的语音交互方法、系统、介质和设备 |
CN110718225A (zh) * | 2019-11-25 | 2020-01-21 | 深圳康佳电子科技有限公司 | 一种语音控制方法、终端以及存储介质 |
CN111968633A (zh) * | 2020-07-16 | 2020-11-20 | 深圳市鸿合创新信息技术有限责任公司 | 交互设备的管理控制方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111968633A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151892B2 (en) | Internet teaching platform-based following teaching system | |
CN106227335B (zh) | 预习讲义与视频课程的交互学习方法及应用学习客户端 | |
US10165327B2 (en) | Video studio creating method and service device | |
Wanzer | Delinking rhetoric, or revisiting McGee's fragmentation thesis through decoloniality | |
CN209980508U (zh) | 一种智慧黑板,及智慧教室的教学系统 | |
US20170238026A1 (en) | Determining a Playback Rate of Media for a Requester | |
US20170164051A1 (en) | Video auto-play implementation and electronic equipment | |
WO2022011965A1 (zh) | 交互设备的管理控制方法和装置 | |
JP2012128378A (ja) | 長期記憶刺激による外国語学習方法 | |
WO2017181609A1 (zh) | 一种界面跳转管理的方法及装置 | |
CN109118847A (zh) | 一种linux系统层级的课堂互动投屏方法及电子设备 | |
WO2017050006A1 (zh) | 远程直播方法和系统 | |
WO2021197296A1 (zh) | 辅助阅读的方法、装置、存储介质及电子设备 | |
CN108897771B (zh) | 自动问答方法、装置、计算机可读存储介质及电子设备 | |
JP6925469B2 (ja) | スマートマイク制御サーバー及びシステム | |
JP4845992B2 (ja) | 思考単位と連結質問を用いる言語教育方法 | |
JP2019215502A (ja) | サーバ、音データ評価方法、プログラム、通信システム | |
JP2021144065A (ja) | 情報処理装置および情報処理方法 | |
Roberts et al. | Broadening the ELF paradigm: Spoken English in an international encounter | |
Miščin et al. | Using TV Shows in Teaching English | |
US11238888B2 (en) | System and methods for automatically mixing audio for acoustic scenes | |
CN111767083A (zh) | 误唤醒音频数据的收集方法、播放设备、电子设备、介质 | |
JP2021009350A (ja) | 音声スキルの終了方法、装置、デバイスおよび記憶媒体 | |
JP6859667B2 (ja) | 情報処理装置、情報処理プログラム、情報処理システム及び情報処理方法 | |
US20190147232A1 (en) | Real-time modification of presentations based on behavior of participants thereto |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20945359 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20945359 Country of ref document: EP Kind code of ref document: A1 |