WO2021000876A1 - 一种语音控制方法、电子设备及系统 - Google Patents
一种语音控制方法、电子设备及系统 Download PDFInfo
- Publication number
- WO2021000876A1 WO2021000876A1 PCT/CN2020/099617 CN2020099617W WO2021000876A1 WO 2021000876 A1 WO2021000876 A1 WO 2021000876A1 CN 2020099617 W CN2020099617 W CN 2020099617W WO 2021000876 A1 WO2021000876 A1 WO 2021000876A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- electronic device
- voice data
- voice
- wake
- instruction
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
提供了一种语音控制方法、电子设备及系统,涉及语音控制技术领域。在多设备场景下,解决了唤醒距离用户最近的设备的语音助手,并只能由其对用户的语音命令进行响应,可能导致响应失败的问题。具体地,该语音控制方法包括:在多设备场景下,在用户说出唤醒词后,可以通过多设备唤醒仲裁选择多设备中的一个设备进行唤醒响应,并由该进行唤醒响应的设备采集用户说出的语音命令。根据采集到的语音命令,通过多设备能力仲裁由多设备中具备执行该语音命令对应事件的功能的设备,来执行该语音命令对应的事件,完成对语音命令的响应。
Description
本申请要求在2019年7月01日提交中国国家知识产权局、申请号为201910586437.0的中国专利申请的优先权,发明名称为“一种语音控制方法、电子设备及系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及语音控制技术领域,尤其涉及一种语音控制方法、电子设备及系统。
语音助手是人工智能在手机上的重要应用。手机通过语音助手可以与用户进行智能对话和即时问答的智能交互。还可以识别用户输入的语音命令,并触发手机自动执行该语音命令对应的事件。通常情况下,语音助手是处于休眠状态的,用户在使用语音助手前,可以对语音助手进行语音唤醒。只有在语音助手被唤醒后,才可以接收并识别用户输入的语音命令。用于唤醒的语音数据可以称为唤醒词。例如,以唤醒词为“小E小E”为例。如果用户想要使用语音助手触发手机播放音乐,则可先说出“小E小E”,来唤醒语音助手。在语音助手被唤醒后,用户再说出“播放音乐”。手机利用语音助手可以接收并识别该语音命令,并触发手机自动播放音乐。
随着技术的发展,语音控制的应用越来越广泛。如,很多家居设备目前都支持语音控制功能。如可以通过在家居设备中安装语音助手来实现语音控制功能。这样,便会存在用户所处环境中(如用户家中)包括多个支持语音控制功能的设备的场景,即多设备场景。在该多设备场景下,如果这多个设备中存在唤醒词相同的设备,则在用户说出唤醒词后,具有相同唤醒词的设备的语音助手均会被唤醒,并都会对用户后续说出的语音命令进行识别并作出响应。例如,如图1所示,用户家客厅有音箱101,电视机102和手机103三个设备,这三个设备均安装有语音助手,且唤醒词均为“小E小E”。那么,当用户说出唤醒词“小E小E”后,音箱101,电视机102以及手机103的语音助手均会被唤醒。当用户继续说出“播放音乐”后,音箱101,电视机102以及手机103均会接收并识别该语音命令,并自动播放音乐。
在现有技术中,可以由服务器或本地设备(该本地设备可以是上述具备语音控制功能的设备中的任意一个)基于语音能量,进行多设备唤醒仲裁。即从多个具有相同唤醒词的设备中选择出一个设备来唤醒其语音助手,以便由该设备对用户的语音命令进行识别并响应。其中,语音能量用于指示设备与用户之间的距离。例如,以由服务器进行多设备唤醒仲裁为例,继续结合图1,服务器可以根据语音能量从音箱101,电视机102和手机103中,选择出距离用户最近的设备,如音箱101唤醒其语音助手,其他设备则对唤醒词不响应,即不唤醒其语音助手。这样,在用户继续说出语音命令后,就会只有音箱101对用户的语音命令进行识别并响应。
现有技术至少存在如下问题:在上述多设备唤醒仲裁的方案中,在用户说出唤醒词后,距离用户最近的设备会唤醒其语音助手,并对用户后续说出的语音命令进行响应。但是,如果用户说出的语音命令对应的事件,该设备无法完成,如语音命令为“导航到某地”,但离用户最近的设备如上述音箱101不具备导航功能,则会导致响应失败。此时,除非用户移动到具备导航功能的设备,如上述手机103附近,并重新说出唤醒词和 语音命令,否则语音控制实现导航很难完成。
发明内容
本申请实施例提供一种语音控制方法、电子设备及系统。在多设备场景下,解决了唤醒距离用户最近的设备的语音助手,并只能由其对用户的语音命令进行响应,可能导致响应失败的问题。
为了达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种语音控制方法,该方法可以应用于语音控制系统,该语音控制系统可以包括:一组设备和服务器,该一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备。该方法可以包括:在用户想要使用设备的语音控制功能时,可说出相应的唤醒词,如第一语音数据。此时,第一电子设备和第二电子设备可分别接收用户的第一语音数据;第一电子设备在确定第一语音数据与第一电子设备中注册的唤醒词相同时,向服务器发送第一电子设备自身检测到的第一语音数据的能量信息;第二电子设备在确定第一语音数据与第二电子设备中注册的唤醒词相同时,向服务器发送第二电子设备自身检测到的第一语音数据的能量信息;服务器根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息,可进行多设备唤醒冲裁,即判断由哪个设备进行唤醒响应。如第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量,则服务器可确定由第一电子设备进行唤醒响应,并可向第一电子设备发送第一唤醒指示;第一电子设备响应于接收到的第一唤醒指示,可唤醒第一电子设备的语音控制功能;这样,用户在说出语音命名,如第二语音数据后,唤醒语音控制功能后的第一电子设备可接收用户的第二语音数据,并向服务器发送该第二语音数据;服务器根据第二语音数据可进行多设备能力冲裁,即判断由哪个设备执行第二语音数据对应事件,如,该服务器可从一组设备中确定出目标电子设备,该目标电子设备具备执行第二语音数据对应事件的功能;服务器向目标电子设备发送内容指示,该内容指示为第二语音数据对应的指令,或内容指示为执行第二语音数据对应事件所需的数据;这样,目标电子设备可根据内容指示,执行第二语音数据对应的事件。
采用上述技术方案,在多设备场景下,用户在说出唤醒词和语音命令后,服务器通过多设备唤醒仲裁和多设备能力仲裁,不仅可以仅唤醒其中一个设备,如距离用户最近的设备进行唤醒响应。而且,在进行唤醒响应的设备不具备执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一种可能的实现方式中,上述一组设备还可包括第三电子设备;其中,该第三电子设备不具备语音控制功能;或,该第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。这样,使得语音控制的覆盖范围可以超过电子设备的拾音范围。例如,设置有6个麦克风的电视机的拾音距离一般是5米以内,采用本申请实施例的方法,即使用户与该电视机之间的距离超过5米,也可以通过语音控制,控制其自动执行视频的播放等事件。另外,用户也无需明确说出需在该电视机上播放视频,即不需用户指定需要进行视频播放的设备是电视机,只需用户说出“播放某视频”,采用本实施例的方法,也可以触发该电视机自动播放视频。
在另一种可能的实现方式中,在接收第一语音数据时,第一电子设备和第二电子设备的语音控制功能均未被唤醒。
在另一种可能的实现方式中,该方法还可以包括:服务器向第一电子设备发送命令响应指示,该命令响应指示用于指示第一电子设备提示用户将由目标电子设备执行第二语音数据对应的事件;第一电子设备根据命令响应指示,提示用户将由目标电子设备执行第二语音数据对应的事件。这样,进行唤醒响应的设备,即第一电子设备通过提示,如语音提示,提示用户将在哪个设备对语音命令进行响应,提高了用户的使用体验。
在另一种可能的实现方式中,上述服务器根据第二语音数据,从一组设备中确定出目标电子设备,具体的可以包括:服务器根据一组设备中每个设备的能力信息,及第二语音数据,从一组设备中选取具备执行第二语音数据对应事件的功能的设备。如果一组设备中只存在一个设备具备执行第二语音数据对应事件的功能,则服务器确定该设备为目标电子设备。如果一组设备中存在多个设备具备执行第二语音数据对应事件的功能,则服务器从多个设备中确定一个设备为目标电子设备。其中,在一些实施例中,目标电子设备是多个设备中的任意一个。在其他一些实施例中,目标电子设备满足以下条件中的至少一个:目标电子设备是多个设备中与用户之间距离最短的设备;目标电子设备处于开机状态;目标电子设备在预设时间内未被确定用于执行其他语音数据对应的事件;或,目标电子设备是多个设备中用户使用频率最高的设备。这样一来,不仅可以选择出具备执行语音命令对应事件功能的设备对语音命令进行响应,而是可以选择出最符合用户意图的设备来执行语音命令对应的事件,使得语音控制更加智能,同时提高了用户的使用体验。
在另一种可能的实现方式中,该方法还可以包括:一组设备中的每个设备分别向服务器上报各自的能力信息;服务器存储一组设备中每个设备的能力信息。服务器利用存储的一组设备中每个设备的能力信息,便能确定出具备执行语音命令对应事件功能的设备。
在另一种可能的实现方式中,该方法还可以包括:服务器向第二电子设备发送第二唤醒指示,该第二电子设备根据第二唤醒指示,确定不唤醒第二电子设备的语音控制功能;或,第二电子设备确定在预设时间内未接收到第一唤醒指示,确定不唤醒第二电子设备的语音控制功能。在第二电子设备检测到唤醒词后,可根据服务器的反馈或预设时间内未接收到反馈,来确定不需要进行唤醒响应。
第二方面,本申请实施例提供一种语音控制方法,该方法可以应用于一组设备,该一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备,该方法可以包括:在用户想要使用设备的语音控制功能时,可说出相应的唤醒词,如第一语音数据。此时,第一电子设备和第二电子设备可分别接收用户的第一语音数据;第一电子设备在确定第一语音数据与第一电子设备中注册的唤醒词相同时,可以获取第一电子设备检测到的第一语音数据的能量信息;第二电子设备在确定第一语音数据与第二电子设备中注册的唤醒词相同,可向作为主设备的第一电子设备发送第二电子设备检测到的第一语音数据的能量信息;作为主设备的第一电子设备可进行多设备唤醒冲裁,即判断由哪个设备进行唤醒响应。如第一电子设备可根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息,从第一电子设备和第二电子设备中确定进行唤醒响应的设备;如果第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量,则可确定由第一电子设备进行唤醒响应,第一电子设 备唤醒第一电子设备的语音控制功能,这样,用户在说出语音命名,如第二语音数据后,唤醒语音控制功能的后的第一电子设备接收用户的第二语音数据;如果第二电子设备检测到的第一语音数据的能量大于第一电子设备检测到的第一语音数据的能量,确定由第二电子设备进行唤醒响应,则第一电子设备向第二电子设备发送第一唤醒指示,第二电子设备响应于第一唤醒指示,唤醒第二电子设备的语音控制功能,这样,用户在说出语音命名,如第二语音数据后,唤醒语音控制功能后的第二电子设备接收用户的第二语音数据,并发送给第一电子设备;第一电子设备根据第二语音数据可进行多设备能力冲裁,即判断由哪个设备执行第二语音数据对应事件,如,第一电子设备可从一组设备中确定出目标电子设备,目标电子设备具备执行第二语音数据对应事件的功能;如果目标电子设备为第一电子设备,第一电子设备对第二语音数据进行分析,获得第二语音数据对应的指令,根据指令执行第二语音数据对应的事件;或者,第一电子设备从服务器获取执行第二语音数据对应的事件所需的数据,根据数据执行第二语音数据对应的事件;如果目标电子设备不是第一电子设备,第一电子设备向目标电子设备发送内容指示;内容指示为第二语音数据对应的指令,或内容指示为执行第二语音数据对应事件所需的数据;目标电子设备根据内容指示,执行第二语音数据对应的事件。
采用上述技术方案,在多设备场景下,用户在说出唤醒词和语音命令后,作为主设备的电子设备可通过多设备唤醒仲裁和多设备能力仲裁,不仅可以仅唤醒其中一个设备,如距离用户最近的设备进行唤醒响应。而且,在进行唤醒响应的设备不具备执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一种可能的实现方式中,上述一组设备还可以包括第三电子设备;其中,该第三电子设备不具备语音控制功能;或,该第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。这样,使得语音控制的覆盖范围可以超过电子设备的拾音范围,也就是说,即使用户与某电子设备之间的距离超过其拾音范围,也可以通过语音控制,控制其自动执行对应事件。另外,用户也无需明确说出需该电子设备执行事件,即不需用户指定需要执行事件的设备是该电子设备,只需用户说出“执行某事”,采用本实施例的方法,也可以触发该电子设备自动执行对应事件。
在另一种可能的实现方式中,在接收第一语音数据时,第一电子设备和第二电子设备的语音控制功能均未被唤醒。
在另一种可能的实现方式中,如果第二电子设备是进行唤醒响应的设备,该方法还可以包括:第一电子设备向第二电子设备发送命令响应指示,该命令响应指示用于指示第二电子设备提示用户将由目标电子设备执行第二语音数据对应的事件;第二电子设备根据命令响应指示,提示用户将由目标电子设备执行第二语音数据对应的事件;或如果第一电子设备是进行唤醒响应的设备,方法还包括:第一电子设备提示用户将由目标电子设备执行第二语音数据对应的事件。这样,进行唤醒响应的设备通过提示,如语音提示,提示用户将在哪个设备对语音命令进行响应,提高了用户的使用体验。
在另一种可能的实现方式中,上述第一电子设备根据第二语音数据,从一组设备中确定出目标电子设备,具体的可以包括:第一电子设备根据一组设备中每个设备的能力信息,及第二语音数据,从一组设备中选取具备执行第二语音数据对应事件的功能的设 备。如果一组设备中只存在一个设备具备执行第二语音数据对应事件的功能,则第一电子设备确定该设备为目标电子设备。如果一组设备中存在多个设备具备执行第二语音数据对应事件的功能,则第一电子设备从多个设备中确定一个设备为目标电子设备。其中,在一些实施例中,目标电子设备是多个设备中的任意一个。在其他一些实施例中,目标电子设备满足以下条件中的至少一个:目标电子设备是多个设备中与用户之间距离最短的设备;目标电子设备处于开机状态;目标电子设备在预设时间内未被确定用于执行其他语音数据对应的事件;或,目标电子设备是多个设备中用户使用频率最高的设备。这样一来,不仅可以选择出具备执行语音命令对应事件功能的设备对语音命令进行响应,而是可以选择出最符合用户意图的设备来执行语音命令对应的事件,使得语音控制更加智能,同时提高了用户的使用体验。
在另一种可能的实现方式中,该方法还可以包括:一组设备中除第一电子设备外的每个设备分别向第一电子设备上报各自的能力信息;第一电子设备存储一组设备中每个设备的能力信息。作为主设备的电子设备利用存储的一组设备中每个设备的能力信息,便能确定出具备执行语音命令对应事件功能的设备。
在另一种可能的实现方式中,如果第一电子设备是进行唤醒响应的设备,该方法还可以包括:第一电子设备向第二电子设备发送第二唤醒指示,第二电子设备根据第二唤醒指示,确定不唤醒第二电子设备的语音控制功能;或,第二电子设备确定在预设时间内未接收到第一唤醒指示,确定不唤醒第二电子设备的语音控制功能。在作为从设备的电子设备检测到唤醒词后,可根据主设备的反馈或预设时间内未接收到反馈,来确定不需要进行唤醒响应。
第三方面,本申请实施例提供一种语音控制方法,该方法可以应用于具备语音控制功能的第一电子设备,该第一电子设备包含于一组设备中,该一组设备还包括具备语音控制功能的第二电子设备,该方法可以包括:在用户想要使用设备的语音控制功能时,可说出相应的唤醒词,如第一语音数据。此时,第一电子设备可接收用户的第一语音数据;第一电子设备在确定第一语音数据与第一电子设备中注册的唤醒词相同时,向服务器发送第一电子设备检测到的第一语音数据的能量信息;第一电子设备接收服务器发送的唤醒指示,该唤醒指示是服务器根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息确定由第一电子设备进行唤醒响应后发送的,第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量;第一电子设备响应于唤醒指示,唤醒第一电子设备的语音控制功能;这样,用户在说出语音命名,如第二语音数据后,唤醒语音控制功能后的第一电子设备接收用户的第二语音数据;第一电子设备向服务器发送第二语音数据;第一电子设备接收服务器发送的命令响应指示,该命令响应指示用于指示第一电子设备提示用户将由目标电子设备执行第二语音数据对应的事件,该目标电子设备是服务器根据第二语音数据,从一组设备中确定出的具备执行第二语音数据对应事件的功能的设备;第一电子设备根据命令响应指示,提示用户将由目标电子设备执行第二语音数据对应的事件。
采用上述技术方案,在多设备场景下,用户在说出唤醒词后,包括第一电子设备的一组设备中的多个设备通过将检测到的数据的能量传输给服务器,以便服务器进行多设备唤醒仲裁。如果第一电子设备是进行唤醒响应的设备,则可通过将采集到用户说出的语音命令传输给服务器,以便服务器进行多设备能力仲裁。这样,不仅可以仅唤醒其中一个设备,如距离用户最近的设备进行唤醒响应。而且,在进行唤醒响应的设备不具备 执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一种可能的实现方式中,该一组设备还可以包括第三电子设备;其中,第三电子设备不具备语音控制功能;或,第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。
在另一种可能的实现方式中,在接收第一语音数据时,第一电子设备的语音控制功能为被唤醒。
在另一种可能的实现方式中,如果上述目标电子设备为第一电子设备,则该方法还可以包括:第一电子设备接收服务器发送的内容指示,该内容指示为第二语音数据对应的指令,或该内容指示为执行第二语音数据对应事件所需的数据;第一电子设备根据内容指示,执行第二语音数据对应的事件。
第四方面,本申请实施例提供一种语音控制方法,该方法可以应用于第二电子设备,该第二电子设备包含于一组设备中,该一组设备还包括具备语音控制功能的第一电子设备,该第一电子设备用于接收用户的第一语音数据和第二语音数据,第一语音数据是唤醒词,第二语音数据是语音命令;该方法可以包括:第二电子设备接收内容指示,内容指示为第二语音数据对应的指令,或执行第二语音数据对应事件所需的数据;第二电子设备根据内容指示,执行第二语音数据对应的事件。
采用上述技术方案,在多设备场景下,即使电子设备不是被唤醒的设备,则通过服务器的多设备能力仲裁。在进行唤醒响应的设备不具备执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备,如该第二电子设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一种可能的实现方式中,上述第二电子设备不具备语音控制功能;或,第二电子设备具备语音控制功能,但第二电子设备与用户之间的距离大于第二电子设备的拾音距离。
在另一种可能的实现方式中,第二电子设备具备语音控制功能,且与用户之间的距离小于或等于第二电子设备的拾音距离;该方法还可以包括:第二电子设备接收第一语音数据;第二电子设备在确定第一语音数据与第二电子设备中注册的唤醒词相同时,发送第二电子设备检测到的第一语音数据的能量信息。在接收第一语音数据时,第二电子设备的语音控制功能未被唤醒。
在另一种可能的实现方式中,该方法还可以包括:第二电子设备接收第二唤醒指示,根据第二唤醒指示,确定不唤醒所述第二电子设备的语音控制功能;或,第二电子设备确定在预设时间内未接收到第一唤醒指示,确定不唤醒所述第二电子设备的语音控制功能。
第五方面,本申请实施例提供一种语音控制方法,该方法可以应用于具备语音控制功能的第一电子设备,该第一电子设备包含于一组设备中,该一组设备还包括具备语音控制功能的第二电子设备,该方法可以包括:第一电子设备接收用户的第一语音数据;第一电子设备在确定第一语音数据与第一电子设备中注册的唤醒词相同时,获取第一电 子设备检测到的第一语音数据的能量信息;第一电子设备接收第二电子设备发送的第二电子设备检测到的第一语音数据的能量信息;第一电子设备根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息,从第一电子设备和第二电子设备中确定进行唤醒响应的设备;如果第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量,确定由第一电子设备进行唤醒响应,则第一电子设备唤醒第一电子设备的语音控制功能,唤醒语音控制功能的后的第一电子设备接收用户的第二语音数据;如果第二电子设备检测到的第一语音数据的能量大于第一电子设备检测到的第一语音数据的能量,确定由第二电子设备进行唤醒响应,则第一电子设备向第二电子设备发送第一唤醒指示,并接收第二电子设备发送的第二语音数据,第二语音数据是第二电子设备响应于第一唤醒指示,唤醒第二电子设备的语音控制功能后,在用户说出第二语音数据后采集到的;第一电子设备根据第二语音数据,从一组设备中确定出目标电子设备,目标电子设备具备执行第二语音数据对应事件的功能;如果目标电子设备为第一电子设备,第一电子设备对第二语音数据进行分析,获得第二语音数据对应的指令,根据指令执行第二语音数据对应的事件;或者第一电子设备从服务器获取执行第二语音数据对应的事件所需的数据,根据数据执行第二语音数据对应的事件;如果目标电子设备不是第一电子设备,第一电子设备向目标电子设备发送内容指示,内容指示为第二语音数据对应的指令,或内容指示为执行第二语音数据对应事件所需的数据,用于目标电子设备执行第二语音数据对应的事件。
采用上述技术方案,在多设备场景下,用户在说出唤醒词和语音命令后,作为主设备的电子设备可通过多设备唤醒仲裁和多设备能力仲裁,不仅可以仅唤醒其中一个设备,如距离用户最近的设备进行唤醒响应。而且,在进行唤醒响应的设备不具备执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一种可能的实现方式中,上述一组设备还可以包括第三电子设备;其中,第三电子设备不具备语音控制功能;或,第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。
在另一种可能的实现方式中,在接收第一语音数据时,第一电子设备的语音控制功能未被唤醒。
在另一种可能的实现方式中,如果第二电子设备是进行唤醒响应的设备,该方法还可以包括:第一电子设备向第二电子设备发送命令响应指示,该命令响应指示用于指示第二电子设备提示用户将由目标电子设备执行第二语音数据对应的事件;或如果第一电子设备是进行唤醒响应的设备,该方法还可以包括:第一电子设备提示用户将由目标电子设备执行第二语音数据对应的事件。
在另一种可能的实现方式中,第一电子设备根据第二语音数据,从一组设备中确定出目标电子设备,具体的可以包括:第一电子设备根据一组设备中每个设备的能力信息,及第二语音数据,从一组设备中选取具备执行第二语音数据对应事件的功能的设备。如果一组设备中存在一个设备具备执行第二语音数据对应事件的功能,则第一电子设备确定该设备为目标电子设备。如果一组设备中存在多个设备具备执行第二语音数据对应事件的功能,则第一电子设备从多个设备中确定一个设备为目标电子设备;其中,在一些 实施例中,目标电子设备是多个设备中的任意一个。在其他一些实施例中,目标电子设备满足以下条件中的至少一个:目标电子设备是多个设备中与用户之间距离最短的设备;目标电子设备处于开机状态;目标电子设备在预设时间内未被确定用于执行其他语音数据对应的事件;或,目标电子设备是多个设备中用户使用频率最高的设备。
在另一种可能的实现方式中,该方法还可以包括:第一电子设备接收一组设备中除第一电子设备外的每个设备分别上报的各自的能力信息;第一电子设备存储一组设备中每个设备的能力信息。
在另一种可能的实现方式中,如果第一电子设备是进行唤醒响应的设备,该方法还可以包括:第一电子设备向第二电子设备发送第二唤醒指示,第二唤醒指示用于指示第二电子设备不进行唤醒响应。
第六方面,本申请实施例提供一种语音控制方法,应用于服务器,该服务器包含于语音控制系统,语音控制系统还包括:一组设备,该一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备;该方法可以包括:服务器接收第一电子设备发送的第一电子设备检测到的第一语音数据的能量信息,第二电子设备发送的第二电子设备检测到的第一语音数据的能量信息;服务器根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息,确定由第一电子设备进行唤醒响应,向第一电子设备发送第一唤醒指示;其中,第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量;服务器接收第一电子设备发送的第二语音数据;服务器根据第二语音数据,从一组设备中确定出目标电子设备,目标电子设备具备执行第二语音数据对应事件的功能;服务器向目标电子设备发送内容指示,内容指示为第二语音数据对应的指令,或内容指示为执行第二语音数据对应事件所需的数据,用于指示目标电子设备执行第二语音数据对应的事件。
采用上述技术方案,在多设备场景下,用户在说出唤醒词和语音命令后,服务器可通过多设备唤醒仲裁和多设备能力仲裁,不仅可以仅唤醒其中一个设备,如距离用户最近的设备进行唤醒响应。而且,在进行唤醒响应的设备不具备执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一种可能的实现方式中,上述一组设备还可以包括第三电子设备;其中,第三电子设备不具备语音控制功能;或,第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。
在另一种可能的实现方式中,该方法还可以包括:服务器向第一电子设备发送命令响应指示,该命令响应指示用于指示第一电子设备提示用户将由目标电子设备执行第二语音数据对应的事件。
在另一种可能的实现方式中,服务器根据第二语音数据,从一组设备中确定出目标电子设备,具体的可以包括:服务器根据一组设备中每个设备的能力信息,及第二语音数据,从一组设备中选取具备执行第二语音数据对应事件的功能的设备。如果一组设备中存在一个设备具备执行第二语音数据对应事件的功能,则服务器确定该设备为目标电子设备。如果一组设备中存在多个设备具备执行第二语音数据对应事件的功能,则服务器从多个设备中确定一个设备为目标电子设备。其中,在一些实施例中,目标电子设备 是多个设备中的任意一个。在其他一些实施例中,目标电子设备满足以下条件中的至少一个:目标电子设备是多个设备中与用户之间距离最短的设备;目标电子设备处于开机状态;目标电子设备在预设时间内未被确定用于执行其他语音数据对应的事件;或,目标电子设备是多个设备中用户使用频率最高的设备。
在另一种可能的实现方式中,该方法还可以包括:服务器接收一组设备中的每个设备上报的各自的能力信息;服务器存储一组设备中每个设备的能力信息。
在另一种可能的实现方式中,该方法还可以包括:服务器向第二电子设备发送第二唤醒指示,第二唤醒指示用于指示第二电子设备不进行唤醒响应。
第七方面,本申请实施例提供一种电子设备,包括:一个或多个处理器和存储器;存储器与一个或多个处理器耦合,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,该电子设备执行如第三方面或第三方面的可能的实现方式中任一项所述的语音控制方法;或者,该电子设备执行如第四方面或第四方面的可能的实现方式中任一项所述的语音控制方法;或者,该电子设备执行如第五方面或第五方面的可能的实现方式中任一项所述的语音控制方法。
第八方面,本申请实施例提供一种服务器,包括:一个或多个处理器和存储器;存储器与一个或多个处理器耦合,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,该服务器执行如第六方面或第六方面的可能的实现方式中任一项所述的语音控制方法。
第九方面,本申请实施例提供一种计算机存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如第三方面或第三方面的可能的实现方式中任一项所述的语音控制方法;或者,使得该电子设备执行如第四方面或第四方面的可能的实现方式中任一项所述的语音控制方法;或者,使得该电子设备执行如第五方面或第五方面的可能的实现方式中任一项所述的语音控制方法。
第十方面,本申请实施例提供一种计算机存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得服务器执行如第六方面或第六方面的可能的实现方式中任一项所述的语音控制方法。
第十一方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第三方面或第三方面的可能的实现方式中任一项所述的语音控制方法;或者,使得计算机执行如第四方面或第四方面的可能的实现方式中任一项所述的语音控制方法;或者,使得计算机执行如第五方面或第五方面的可能的实现方式中任一项所述的语音控制方法。
第十二方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第六方面或第六方面的可能的实现方式中任一项所述的语音控制方法。
第十三方面,本申请实施例提供一种装置,该装置具有实现上述各方面的方法中电子设备,如第一电子设备,第二电子设备或第三电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,例如,接收单元或模块,发送单元或模块,唤醒单元或模块等。
第十四方面,本申请实施例提供一种装置,该装置具有实现上述各方面的方法中服务器行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,例如,发送单元或模块,接收单元或 模块,确定单元或模块等。
第十五方面,本申请实施例提供一种语音控制系统,该语音控制系统可以包括:一组设备和服务器,一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备;第一电子设备和第二电子设备分别接收用户的第一语音数据;第一电子设备确定第一语音数据与第一电子设备中注册的唤醒词相同,向服务器发送第一电子设备检测到的第一语音数据的能量信息;第二电子设备确定第一语音数据与第二电子设备中注册的唤醒词相同,向服务器发送第二电子设备检测到的第一语音数据的能量信息;服务器根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息,确定由第一电子设备进行唤醒响应,向第一电子设备发送第一唤醒指示;其中,第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量;第一电子设备响应于第一唤醒指示,唤醒第一电子设备的语音控制功能;唤醒语音控制功能后的第一电子设备接收用户的第二语音数据;第一电子设备向服务器发送第二语音数据;服务器根据第二语音数据,从一组设备中确定出目标电子设备,目标电子设备具备执行第二语音数据对应事件的功能;服务器向目标电子设备发送内容指示,内容指示为第二语音数据对应的指令,或内容指示为执行第二语音数据对应事件所需的数据;目标电子设备根据内容指示,执行第二语音数据对应的事件。
在一种可能的实现方式中,上述一组设备还可以包括:第三电子设备;其中,第三电子设备不具备语音控制功能;或,第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。
第十六方面,本申请实施例提供一种语音控制系统,该语音控制系统可以包括:一组设备,一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备;第一电子设备和第二电子设备分别接收用户的第一语音数据;第一电子设备确定第一语音数据与第一电子设备中注册的唤醒词相同,获取第一电子设备检测到的第一语音数据的能量信息;第二电子设备确定第一语音数据与第二电子设备中注册的唤醒词相同,向第一电子设备发送第二电子设备检测到的第一语音数据的能量信息;第一电子设备根据第一电子设备检测到的第一语音数据的能量信息和第二电子设备检测到的第一语音数据的能量信息,从第一电子设备和第二电子设备中确定进行唤醒响应的设备;如果第一电子设备检测到的第一语音数据的能量大于第二电子设备检测到的第一语音数据的能量,第一电子设备确定由第一电子设备进行唤醒响应,则第一电子设备唤醒第一电子设备的语音控制功能,唤醒语音控制功能的后的第一电子设备接收用户的第二语音数据;如果第二电子设备检测到的第一语音数据的能量大于第一电子设备检测到的第一语音数据的能量,第一电子设备确定由第二电子设备进行唤醒响应,则第一电子设备向第二电子设备发送第一唤醒指示,第二电子设备响应于第一唤醒指示,唤醒第二电子设备的语音控制功能,唤醒语音控制功能后的第二电子设备接收用户的第二语音数据,并发送给第一电子设备;第一电子设备根据第二语音数据,从一组设备中确定出目标电子设备,目标电子设备具备执行第二语音数据对应事件的功能;如果目标电子设备为第一电子设备,第一电子设备对第二语音数据进行分析,获得第二语音数据对应的指令,根据指令执行第二语音数据对应的事件;或者,第一电子设备从服务器获取执行第二语音数据对应的事件所需的数据,根据数据执行第二语音数据对应的事件;如果目标电子设备不是第一电子设备,第一电子设备向目标电子设备发送内容指示;内容指示为第二语音数据对应的指令,或内容指示为执行第二语音数据对应事件所需的数据;目标电子设备根据内容指示,执行 第二语音数据对应的事件。
在一种可能的实现方式中,上述一组设备还可以包括:第三电子设备;其中,第三电子设备不具备语音控制功能;或,第三电子设备具备语音控制功能,但第三电子设备与用户之间的距离大于第三电子设备的拾音距离。
应当理解的是,本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反,可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此,本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而,还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解,无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中,还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。
图1为本申请实施例提供的一种多设备语音控制的场景示意图;
图2为本申请实施例提供的一种语音控制系统的简化示意图;
图3为本申请实施例提供的一种电子设备的结构示意图;
图4为本申请实施例提供的一种语音控制方法的流程示意图;
图5为本申请实施例提供的另一种多设备语音控制的场景示意图;
图6为本申请实施例提供的又一种多设备语音控制的场景示意图;
图7为本申请实施例提供的另一种语音控制方法的流程示意图。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例提供的语音控制方法,可以应用于一组设备中。其中,所述的一组设备可以包括多个设备,这多个设备中至少存在两个设备具备语音控制功能,且唤醒词相同。在本申请实施例中,可将这种应用场景称为多设备场景。在该多设备场景下,用户在说出唤醒词和语音命令后,采用本实施例的方法,即使具备执行该语音命令对应事件的功能的设备距离用户不是最近,也可以由该设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
在一些实施例中,可以通过在电子设备中安装语音助手,以使该电子设备实现语音控制功能。语音助手一般情况下是处于休眠状态的。用户在使用电子设备的语音控制功能之前,可以对语音助手进行语音唤醒。其中,唤醒语音助手的语音数据可以称为唤醒词(或唤醒语音)。该唤醒词可以预先注册在电子设备中。本实施例中所述的唤醒语音助手可以是指,电子设备响应于用户说出的唤醒词,启动语音助手。语音控制功能可以是指:电子设备的语音助手启动后,用户通过说出语音命令(如,一段语音数据),可以触发电子设备自动执行该语音命令对应的事件。
另外,上述语音助手可以是电子设备中的嵌入式应用(即电子设备的系统应用),也可以是可下载应用。嵌入式应用是作为电子设备(如手机)实现的一部分提供的应用 程序。可下载应用是一个可以提供自己的因特网协议多媒体子系统(Internet Protocol Multimedia Subsystem,IMS)连接的应用程序。可下载应用可以预先安装在电子设备中,也可是由用户下载并安装在电子设备中的第三方应用。
下面将结合附图对本申请实施例的实施方式进行详细描述。
图2为本申请实施例提供的一种语音控制系统的组成示意图。该语音控制系统可以应用于以上所述的一组设备中。该一组设备包括的多个设备满足以下条件中的一个或多个:连接了同一个无线接入点(如WiFi接入点),登录了同一个账号,被用户设置在同一个组中。
其中,作为一种示例,该一组设备可以包括至少两个电子设备:例如,第一电子设备201和第二电子设备202。第一电子设备201和第二电子设备202均具备语音控制功能,如均安装有语音助手。且唤醒语音助手的唤醒词相同,如均为“小E小E”。
通常情况下,当电子设备(如上述第一电子设备201或第二电子设备202)与用户之间的距离小于或等于预定距离,如5米时,用户在说出唤醒词后,电子设备便可检测到该唤醒词,并确定是否需要唤醒该设备中的语音助手。在本实施例中,上述第一电子设备201和第二电子设备202与用户之间的距离均小于或等于该预定距离。也就是说,在用户说出唤醒词“小E小E”后,第一电子设备201和第二电子设备202均可以检测到该唤醒词。
在本实施例中,可以进行多设备唤醒仲裁,即第一电子设备201和第二电子设备202中仅会有一个设备对唤醒词进行响应。也就是说,仅会有一个设备唤醒其语音助手。并在用户继续说出语音命令后,由该设备对用户说出的语音命令进行识别。
另外,还可进行多设备能力仲裁,即判断唤醒语音助手的设备是否具备执行语音命令对应事件的功能。如果唤醒语音助手的设备不具备执行该语音命令对应事件的功能,则可以交由具备执行该语音命令对应事件的功能的设备来执行。
例如,在用户说出唤醒词“小E小E”后,第二电子设备202对该唤醒词进行了响应,即第二电子设备202唤醒了其语音助手。并接收识别出用户说出的语音命令“导航到某地”。但是第二电子设备202不具备导航功能,而第一电子设备201具备导航功能,则可由第一电子设备201执行该语音命令“导航到某地”对应的事件。或者,该一组设备还可包括其他电子设备,如第三电子设备204,且该第三电子设备204具备导航功能,则可由该第三电子设备204执行该语音命令“导航到某地”对应的事件。该第三电子设备204与用户之间的距离可以小于或等于该预定距离,也可以大于该预定距离。另外,该第三电子设备204可以具备语音控制功能,也可以不具备语音控制功能。
其中,在一些实施例中,执行上述多设备唤醒仲裁和多设备能力仲裁的设备可以为上述第一电子设备201和第二电子设备202中的任意一个设备。在该实施例中,可以将执行上述多设备唤醒仲裁和多设备能力仲裁的设备称为主设备。该主设备中预先保存有多个设备的能力信息。多个设备包括上述第一电子设备201和第二电子设备202,还可以包括其他电子设备,如上述第三电子设备204。
在另一些实施例中,执行上述多设备唤醒仲裁和多设备能力仲裁的设备也可以是服务器。如图2中所示,该系统架构还可以包括服务器203。该服务器203能够提供智能语音服务,其预先保存有多个设备的能力信息。例如,第一电子设备201,第二电子设备202以及其他电子设备(如上述第三电子设备204)在上电或重启时,可以将自身的能力信息上报至该服务器203,以便其存储。又例如,电子设备(如第一电子设备201, 第二电子设备202以及其他电子设备)也可以周期性地将自身的能力信息上报至该服务器203,以便其存储。当然,电子设备还可以在确定自身的能力信息发生变化时将变化后的能力信息上至服务器,以便其对存储的该设备的能力信息进行更新。
示例性的,本申请实施例所述的电子设备,如上述第一电子设备201,第二电子设备202以及第三电子设备204可以为手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、台式电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备、媒体播放器、电视机、智能音箱、智能手表智能耳机等设备。本申请实施例对电子设备的具体形态不作特殊限制。电子设备的具体结构可以参考图3对应实施例的描述。
另外,在一些实施例中,上述第一电子设备201,第二电子设备202及第三电子设备204可以为相同类型的电子设备,如第一电子设备201,第二电子设备202及第三电子设备204均为手机。在其他一些实施例中,上述第一电子设备201,第二电子设备202及第三电子设备204可以为不同类型的电子设备,如第一电子设备201为手机,第二电子设备202为智能音箱,第三电子设备204为电视机(如图2所示)。
请参考图3,为本申请实施例提供的一种电子设备的结构示意图。
如图3所示,电子设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中,传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
在本申请实施例中,电子设备中可以设置有唤醒词(如“小E小E”)。上述DSP可以通过电子设备的麦克风170C实时监测语音数据。当DSP监测到语音数据时,可以对监测到的语音数据进行校验,以确定其是否疑似设置在电子设备中的唤醒词。若校验通过,如果电子设备的AP处于休眠状态,则DSP可以唤醒AP,并通知AP对接收到该语音数据进行再次校验。在再次校验通过时,AP可以确定该语音数据与设置在电子设备中的 唤醒词相匹配。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose input/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。例如,在本申请一些实施例中,移动通信模块150可以与服务器进行交互,如在检测到与唤醒词匹配的语音数据后,向服务器发送检测到的语音数据的能量信息,接收服务器返回的唤醒指示,以便根据该唤醒指示确定是否需要进行唤醒响应。又例如,接收服务器发送的内容指示,根据该内容指示执行用户语音命令对应的事件。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。例如,在本申请一些实施例中,无线通信模块160可以与其他电子设备进行交互,如在检测到与唤醒词匹配的语音数据后,向其他电子设备发送检测到的语音数据的能量信息,接收该电子设备返回的唤醒指示,以便根据该唤醒指示确定是否需要进行唤醒响应。又例如,接收该电子设备发送的内容指示,根据该内容指示执行用户语音命令对应的事件。
在一些实施例中,电子设备的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidou navigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。 感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样,电子设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息或需要通过语音助手触发电子设备执行某些事件时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中,电子设备可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更 多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备根据压力传感器180A检测所述触摸操作强度。电子设备也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备是翻盖机时,电子设备可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备在各个方向上(一般为三轴)加速度的大小。当电子设备静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备通过发光二极管向外发射红外光。电子设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备附近有物体。当检测到不充分的反射光时,电子设备可以确定电子设备附近没有物体。电子设备可以利用接近光传感器180G检测用户手持电子设备贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备对电池142加热,以避免低温导致电子设备异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入,产生与电子设备的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备的接触和分离。电子设备可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备中,不能和电子设备分离。
以下实施例中的方法均可以在具有上述硬件结构的电子设备中实现。
在本申请实施例中,在上述多设备场景下,在用户说出唤醒词和语音命令后,通过多设备唤醒仲裁选择多设备中的一个设备进行唤醒响应。并通过多设备能力仲裁,在进 行唤醒响应的设备不具备执行语音命令对应事件的功能时,可由多设备中具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。
其中,上述多设备唤醒仲裁和上述多设备能力仲裁可以由多设备中的其中一个设备来实现,也可以由服务器来实现。以下根据实现多设备唤醒仲裁和多设备能力仲裁设备的不同,对本申请实施例提供的语音控制方法进行详细介绍。另,以下实施例中结合图1,以多设备场景为:用户家客厅有音箱101,电视机102和手机103三个设备,这三个设备均安装有语音助手,且唤醒词均为“小E小E”为例进行说明。
图4为本申请实施例提供的一种语音控制方法的流程示意图。该实施例以多设备唤醒仲裁和多设备能力仲裁由服务器实现为例。如图4所示,该方法可以包括以下S401-S409。
S401、音箱101,电视机102和手机103分别接收用户输入的第一语音数据。
例如,该第一语音数据可以是上述唤醒词“小E小E”。
对于安装有语音助手的电子设备,在该电子设备没有其他软硬件使用麦克风采集语音数据的情况下,电子设备的DSP可以通过麦克风实时监测用户是否有语音数据输入。一般情况下,在用户想要使用电子设备的语音控制功能时,可以在电子设备的拾音距离内发声,以将发出的声音输入到麦克风。此时,若电子设备没有其他软硬件正在使用麦克风采集语音数据,则电子设备的DSP可以通过麦克风监测到对应的语音数据,如第一语音数据,并进行缓存。
例如,结合图5所示,用户坐在客厅的沙发上,在想要使用语音控制功能时,可以说出唤醒词“小E小E”。如音箱101,电视机102和手机103的拾音距离均为4米,且均没有其他软硬件正在使用麦克风采集语音数据,则音箱101,电视机102和手机103的DSP便可通过各自的麦克风检测到唤醒词“小E小E”对应的第一语音数据。
S402、音箱101,电视机102和手机103分别对接收到的第一语音数据进行校验,确定该第一语音数据为注册的唤醒词。
在电子设备接收到上述第一语音数据后,可以对该第一语音数据进行校验,即判断接收到的该第一语音数据是否是注册在电子设备中的唤醒词。如果校验通过,则表明接收到的第一语音数据是唤醒词,可执行以下S403。如果校验未通过,则表明接收到的第一语音数据不是唤醒词,此时电子设备可以删除缓存的第一语音数据。
示例性的,电子设备对第一语音数据进行校验具体的可以包括:电子设备的DSP对该第一语音数据的文本与注册在电子设备中的唤醒词的文本进行较低精度的匹配。如果DSP的匹配通过,电子设备的AP处于休眠状态,则DSP可以唤醒AP,并由AP对该第一语音数据的文本与注册在电子设备中的唤醒词的文本进行较高精度的匹配。如果AP的匹配也通过,则电子设备可以确定该第一语音数据即为注册的唤醒词。如果DSP的匹配未通过,或AP的匹配未通过,则电子设备可以确定该第一语音数据不是注册的唤醒词。
例如,结合上述S401中的示例,音箱101,电视机102和手机103的DSP检测到唤醒词“小E小E”对应的第一语音数据后,可分别由各自的DSP和AP对该第一语音数据进行校验。如在本实施例中,音箱101,电视机102和手机103对检测到的第一语音数据的校验均通过,即三者均确定检测到的第一语音数据是注册的唤醒词。
S403、音箱101,电视机102和手机103分别向服务器上报检测到的第一语音数据的能量信息。
其中,能量信息用于指示设备与用户之间的距离。在一些实施例中,能量信息可以 通过信噪比,声压等中的一个或多个来表示。例如,以能量信息通过声压来表示为例。结合S402中的示例,在音箱101,电视机102和手机103确定出检测到的第一语音数据是注册的唤醒词后,音箱101,电视机102和手机103可分别对自身检测到的第一语音数据的声压进行测量,并向服务器上报测量得到的第一语音数据的声压。其中声压越大,表示设备与用户之间的距离越近。
S404、服务器根据音箱101,电视机102和手机103上报的第一语音数据的能量信息,确定音箱101进行唤醒响应。
服务器在接收到多个电子设备上报的第一语音数据的能量信息后,可以进行多设备唤醒仲裁,即服务器可以从这多个电子设备中,选择其中一个设备进行唤醒响应。
例如,结合S403中的示例,服务器在接收到音箱101,电视机102和手机103发送的第一语音数据的声压后,可以根据声压的大小,选择声压最大,即距离用户最近的设备进行唤醒响应。参见图5所示,音箱101,电视机102和手机103与用户之间的距离分别为2米,3米和2.5米。相应的,音箱101测得的第一语音数据的声压最大,手机103次之,电视机102测得的第一语音数据的声压最小。因此,服务器可选择音箱101进行唤醒响应。如服务器可以向音箱101发送第一唤醒指示,该第一唤醒指示用于指示进行唤醒响应。另外,服务器还可向电视机102和手机103分别发送第二唤醒指示,该第二唤醒指示用于指示不进行唤醒响应。或者,服务器也可以不向电视机102和手机103发送任何指示,而是电视机102和手机103确定在预设时间内未接收到任何唤醒指示,如上述第一唤醒指示时,确定不进行唤醒响应。
S405、音箱101唤醒语音助手,接收用户输入的第二语音数据。
S406、音箱101将第二语音数据上报至服务器。
例如,如图5所示,音箱101在接收到第一唤醒指示后,可以唤醒其语音控制功能,如唤醒其语音助手。音箱101还可播放唤醒应答音,如“我在”。而电视机102和手机103则根据接收到的第二唤醒指示不做响应。用户可继续说出语音命令。这样,音箱101的AP便可通过麦克风检测到该语音命令对应的语音数据,如第二语音数据。此时,音箱101可将第二语音数据上报至服务器。
S407、服务器确定音箱101,电视机102和手机103中具备执行第二语音数据对应事件的功能的设备。
服务器在接收到音箱101上报的第二语音数据后,可进行多设备能力仲裁,即服务器可根据该第二语音数据,确定多个电子设备中,哪个电子设备具备执行该第二语音数据对应事件的功能。其中,在一些实施例中,电子设备可以在设备上电或重启时,将自身的能力信息自动上报至服务器,以便服务器进行存储。在其他一些实施例中,电子设备也可以周期性地将自身的能力信息自动上报至服务器。电子设备还可以在检测到自身的能力信息发生变化时向服务器自动上报自身的能力信息。这样,在服务器接收到第二语音数据后,可以利用自动语音识别(automatic speech recognition,ASR)技术对该第二语音数据进行分析,获得执行该第二语音数据对应事件需要电子设备具备什么样的功能。然后根据确定的结果以及存储的多个电子设备的能力信息,从这多个电子设备中确定出具备执行该第二语音数据对应事件的功能的设备。
例如,结合图5及上述S401-S406中的示例,假设音箱101,电视机102和手机103在上电时,分别上报了自身的能力信息。如音箱101上报的能力信息包括:音乐播放功能,天气播报功能。电视机102上报的能力信息包括:视频播放功能。手机103上报的 能力信息包括:导航功能。则服务器可以将每个电子设备上报的能力信息与电子设备的标识(如设备的媒体访问控制(media access control,MAC)地址)对应存储,如服务器存储的电子设备的能力信息与电子设备的标识的对应关系如表1所示。
表1
电子设备的标识 | 设备的能力信息 |
MAC地址1 | 音乐播放功能,天气播报功能 |
MAC地址2 | 视频播放功能 |
MAC地址3 | 导航功能 |
其中,在表1中,MAC地址1是音箱101的标识,MAC地址2是电视机102的标识,MAC地址3是手机103的标识。另外,需要说明的是,音箱101,电视机102和手机103可以在每次上电时便向服务器上报一次自身的能力信息,以便在设备的能力信息更新时,服务器端也能及时的进行更新。
例如,以用户说出的语音命令,即第二语音数据为“播放电影流浪地球”为例。服务器接收到该第二语音数据“播放电影流浪地球”后,可以对该第二语音数据“播放电影流浪地球”进行分析,确定执行“播放电影流浪地球”对应的事件,即执行播放电影流浪地球的设备需具备视频播放功能。服务器可以根据表1,确定出标识为MAC地址2的设备,即电视机102具备视频播放功能。也就是说,服务器确定出音箱101、电视机102和手机103中,电视机102是具备执行第二语音数据“播放电影流浪地球”对应事件的功能的设备。
又例如,以用户说出的语音命令,即第二语音数据为“导航到某地”为例。服务器接收到该第二语音数据“导航到某地”后,可以对该第二语音数据“导航到某地”进行分析,确定执行“导航到某地”对应的事件,即执行导航到某地的设备需具备导航功能。服务器可以根据表1,确定出标识为MAC地址3的设备,即手机103具备导航功能。也就是说,服务器确定出音箱101、电视机102和手机103中,手机103是具备执行第二语音数据“导航到某地”对应事件的功能的设备。
S408、服务器向具备执行该第二语音数据对应事件的功能的设备发送内容指示。
S409、具备执行该第二语音数据对应事件的功能的设备根据内容指示,执行第二语音数据对应的事件。
上述内容指示可以是执行第二语音数据对应事件所需的数据。例如,如图6所示,以用户说出的语音命令,即第二语音数据为“播放电影流浪地球”为例。上述内容指示可以是电影《流浪地球》的播放链接。这样,结合S407中的示例,服务器可以向电视机102发送电影《流浪地球》的播放链接。电视机102接收到该播放链接后,可根据该播放链接,播放电影《流浪地球》,如图6所示。其中,图4中S408和S409以具备执行该第二语音数据对应事件的功能的设备为电视机102为例示出。
上述内容指示也可以是第二语音数据对应的指令。又例如,以用户说出的语音命令,即第二语音数据为“导航到某地”为例。上述内容指示可以是与第二语音数据“导航到某地”对应的指令。这样,结合S407中的示例,服务器可以向手机103发送与第二语音数据“导航到某地”对应的指令。手机103根据接收到的指令可以启动导航应用,展示导航到该地的路线,并进行语音播报。当然,内容指示也可以是第二语音数据本身,这样,手机103在接收到第二语音数据后,可对第二语音数据进行分析获得第二语音数据对应的指令,并执行该指令。
另外,服务器还可以向音箱101发送命令响应指示,该命令响应指示用于指示音箱101进行语音命令响应。在一些实施例中,如果服务器确定出其他电子设备具备执行第二语音数据对应事件的功能,而音箱101不具备该功能,则服务器可以向音箱101发送命令响应指示,该命令响应指示用于指示音箱101提示用户将在其他电子设备上执行语音命令对应的事件。
例如,结合上述S402中的示例,服务器确定出电视机102具备执行第二语音数据“播放电影流浪地球”对应事件的功能,而音箱101不具备该功能。服务器可以向音箱101发送命令响应指示,该命令响应指示用于指示音箱101提示用户将在电视机102上播放电影《流浪地球》。如图6所示,音箱101根据该命令响应指示可进行语音播报“将在电视机上播放电影《流浪地球》”。又例如,结合上述S402中的示例,服务器确定出手机103具备执行第二语音数据“导航到某地”对应事件的功能,而音箱101不具备该功能。服务器可以向手机103发送命令响应指示,该命令响应指示用于指示音箱101提示用户将在手机103上进行导航。音箱101根据该命令响应指示可进行语音播报“将在手机上进行导航”。
在另一些实施例中,如果服务器确定出音箱101具备执行第二语音数据对应事件的功能,则服务器可以向音箱101发送语音命令响应和内容指示。这样,音箱101可根据语音命令响应进行语音播报,如播报的内容是“将执行某事件”,并根据内容指示,执行第二语音数据对应的事件。
需要说明的是,在本申请实施例中,用户说出唤醒词(即第一语音数据)和语音命令(即第二语音数据)可以是连续的,也可以是不连续的。如用户可以连续的说出唤醒词和语音命令“小E小E播放电影流浪地球”。也可以先说出唤醒词“小E小E”,在听到有设备播放唤醒应答音,如“我在”后,在说出语音命令“播放电影流浪地球”。如果用户是连续说出唤醒词和语音命令的,则在确定出进行唤醒响应的设备后,该设备可不播放唤醒应答音,而是在接收到服务器发送的命令响应指示后,按照该命令响应指示直接播放提示音,如“将在电视机上播放电影《流浪地球》”。
其中,上述S407-S409是以多设备场景中仅包含音箱101,电视机102和手机103三个设备为例进行说明的。在另一些实施例中,该多设备场景中还可以包括其他的电子设备。该电子设备可以具备语音控制功能,也可以不具备语音控制功能。且在该电子设备具备语音控制功能时,其唤醒词与上述唤醒词“小E小E”可以不同;或者,该电子设备具备语音控制功能,唤醒词与上述唤醒词“小E小E”相同,但该电子设备与用户之间的距离超过其拾音距离。在这样的场景下,如果服务器中存储有该电子设备的能力信息,且服务器确定出来该电子设备是具备执行上述第二语音数据对应事件的功能的设备,那么服务器也可以将内容指示发送给该电子设备,以便该电子设备根据内容指示,执行第二语音数据对应的事件。这样,使得语音控制的覆盖范围可以超过电子设备的拾音范围。例如,设置有6个麦克风的电视机的拾音距离一般是5米以内,采用本申请实施例的方法,即使用户与该电视机之间的距离超过5米,也可以通过语音控制,控制其自动执行视频的播放等事件。另外,用户也无需明确说出需在该电视机上播放视频,即不需用户指定需要进行视频播放的设备是电视机,只需用户说出“播放某视频”,采用本实施例的方法,也可以触发该电视机自动播放视频。
另外,智能家居的普及,具备语音控制功能的电子设备越来越多,且电子设备具备的功能也越来越多。如果只按照上述S407中的示例,根据电子设备的能力信息确定出最 终执行语音命令对应事件的设备,则可能会同时存在多个电子设备均具备执行语音命令对应事件的功能的情况。在一些实施例中,服务器可以从这多个具备执行语音命令对应事件的功能的电子设备中任意选择出一个电子设备来执行语音命令对应的事件。在另一些实施例中,服务器也可以结合用户与多个具备执行语音命令对应事件的功能的电子设备中每个电子设备之间的距离,选择距离用户最近的电子设备来执行语音命令对应的事件。服务器还可以根据多个具备执行语音命令对应事件的功能的电子设备中每个电子设备的状态,如是否处于开机状态,是否在预设时间内被确定用于执行其他语音命令对应的事件等,来选择其中一个电子设备来执行语音命令对应的事件。例如,在服务器确定出两个电子设备(如电子设备1和电子设备2)具备执行语音命令对应事件的功能,但是电子设备1在几分钟前,被确定用于执行另一语音命令对应的事件,则服务器可以选择电子设备2来执行当前语音命令对应的事件。服务器还可以记录不同用户(可用声纹来区分不同用户)的使用习惯,结合使用习惯从多个具备执行语音命令对应事件的功能的电子设备中选择用户经常使用的电子设备来执行语音命令对应的事件。例如,服务器记录的用户1经常使用电视机1来看视频,则在接收到用户1的指示播放视频的语音命令后,如果服务器确定出电视机1和电视机2均具备播放视频功能,服务器可以结合用户的使用习惯,选择电视机1播放视频。当然,服务器也可以结合上述电子设备与用户之间的距离、电子设备的状态以及用户的使用习惯中的一个或多个来综合确定出一个电子设备来执行语音命令对应的事件,本实施例在此并不做具体限制。这样一来,可以选择出最符合用户意图的设备来执行语音命令对应的事件,使得语音控制更加智能,同时提高了用户的使用体验。
图7为本申请实施例提供的另一种语音控制方法的流程示意图。该实施例以多设备唤醒仲裁和多设备能力仲裁由主设备实现为例。其中,该主设备可以是音箱101,电视机102和手机103中的任意一个设备,该实施例中以主设备为手机103为例。如图7所示,该方法可以包括以下S701-S709。
S701、音箱101,电视机102和手机103分别接收用户输入的第一语音数据。
S702、音箱101,电视机102和手机103分别对接收到的第一语音数据进行校验,确定该第一语音数据为注册的唤醒词。
其中,S701与S702的具体描述与图4所示实施例中S401和S402中对应内容的描述相同,此处不再一一赘述。
S703、音箱101和电视机102分别向手机103上报检测到的第一语音数据的能量信息。
S704、手机103根据音箱101和电视机102上报的第一语音数据的能量信息,以及自身测量得到的第一语音数据的能量信息,确定音箱101进行唤醒响应。
其中,S703与S704的具体描述与图4所示实施例中S403和S404中对应内容的描述类似。区别在于,在本实施例中,多设备唤醒仲裁由作为主设备的手机103来执行,因此,音箱101和电视机102是将第一语音数据的能量信息上报给了手机103。
S705、音箱101唤醒语音助手,接收用户输入的第二语音数据。
S706、音箱101将第二语音数据上报至手机103。
S707、手机103确定音箱101,电视机102和手机103中具备执行第二语音数据对应事件的功能的设备。
其中,S705-S707的具体描述与图4所示实施例中S405-S407中对应内容的描述类 似。区别在于:1、在本实施例中,多设备能力仲裁由作为主设备的手机103来执行,因此,音箱101在接收到第二语音数据后,将该第二语音数据上报给了手机103。当然,在本实施例中,也可由作为主设备的手机103自身采集用户输入的语音数据。2、手机103中存储有自身和其他电子设备的能力信息,例如,如图4所示实施例中的表1所示,手机103中可存储有电子设备的能力信息与电子设备的标识的对应关系,以便根据该对应关系确定出具备执行第二语音数据对应事件的功能的设备。
在本实施例中,如果手机103确定出具备执行第二语音数据对应事件的功能的设备就为自身,即为手机103。此时,如果不需要和服务器交互获得内容指示,则手机103可直接对该第二语音数据进行分析,获得对应指令,然后根据该指令执行与该第二语音数据对应的事件,如果需要和服务器交互获得内容指示,则手机103可向服务器发送请求消息,以请求服务器将内容指示下发给该手机103。
如果手机103确定出具备执行第二语音数据对应事件的功能的设备是其他设备,如音箱101或电视机102,则可执行以下S708-S709。
S708、手机103向具备执行该第二语音数据对应事件的功能的设备发送内容指示。
S709、具备执行该第二语音数据对应事件的功能的设备根据内容指示,执行第二语音数据对应的事件。
其中,手机103可以向服务器发送请求消息,以获得内容指示,并将该内容指示下发给具备执行第二语音数据对应事件的功能的设备,以便其根据内容指示执行第二语音数据对应的事件。其中,图7中S708和S709以具备执行该第二语音数据对应事件的功能的设备为电视机102为例示出。
当然,在其他一些实施例中,如果确定出具备执行第二语音数据对应事件的功能的设备是其他设备,且不是进行唤醒响应的设备,即不是音箱101,而是电视机102,则作为S708的一种替换方案,手机103可以向电视机102发送上述第二语音数据。电视机102可以根据该第二语音数据与服务器进行交互,以获得上述内容指示。
在另一些实施例中,如果确定出具备执行第二语音数据对应事件的功能的设备是其他设备,且是进行唤醒响应的设备,即是音箱101,则作为S708的一种替换方案,手机103可以向音箱101发送指示信息,该指示信息用于指示由音箱101对语音命令进行响应。此时,音箱101可以根据接收到的第二语音数据与服务器进行交互,以获得上述内容指示。
需要说明的是,上述S708和S709是以需要与服务器交互获得内容指示才能实现对语音命令的响应为例说明的。如果不需要与服务器进行交互获得内容指示,则在确定出具备执行第二语音数据对应事件的功能的设备不是音箱101,而是电视机102时,手机103可以将第二语音数据发送给电视机102,电视机102可对该第二语音数据进行分析,获得对应指令,然后根据该指令执行该第二语音数据对应的事件。手机103也可以对第二语音数据进行分析得到对应指令,然后将该指令发送给电视机102,以便电视机10根据指令执行该第二语音数据对应的事件。在确定出具备执行第二语音数据对应事件的功能的设备是音箱101时,手机103可以向音箱101发送指示信息,音箱101可以直接根据指示信息,对该第二语音数据进行分析,获得对应指令,然后根据该指令执行该第二语音数据对应的事件。
另外,手机103还可以向音箱101发送命令响应指示,该命令响应指示用于指示音箱101进行语音命令响应。对于语音命令响应的具体描述可以参考图4所示实施例中对 应内容的具体描述。对于S707-S709的其他描述也可以参考图4所示实施例中对S407-S409对应内容的描述。此处均不再详细赘述。
需要说明的是,在本申请实施例中,电子设备之间(如手机103和音箱101之间,手机103和电视机102)的交互,可以通过在两个电子设备之间采用蓝牙协议建立蓝牙连接来实现,也可以通过在两个电子设备之间采用Wi-Fi协议建立的Wi-Fi连接来实现。当然,还可以采用利用其他短距离通信协议建立的连接来实现,本实施例在此并不做具体限制。
采用上述图4或图7所示的方法,在多设备场景下,用户在说出唤醒词和语音命令后,通过多设备唤醒仲裁和多设备能力仲裁,不仅可以仅唤醒其中一个设备,如距离用户最近的设备进行唤醒响应。而且,在进行唤醒响应的设备不具备执行语音命令对应事件的功能时,不需用户移动位置,也不需要用户重新说出唤醒词和语音命令,可以由对应具备执行语音命令对应事件的功能的设备来执行该语音命令对应的事件,完成对语音命令的响应。使得电子设备更加智能,实现了电子设备与用户之间的高效互动。同时,提高了用户的使用体验。
本申请另一些实施例还提供一种计算机存储介质,该计算机存储介质可包括计算机指令,当该计算机指令在电子设备(如上述音箱101、电视机102或手机103)上运行时,使得该电子设备执行如图7相应实施例中电子设备执行的各个步骤。
本申请另一些实施例还提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行如图7相应实施例中电子设备(如上述音箱101、电视机102或手机103)执行的各个步骤。
本申请另一些实施例还提供一种装置,该装置具有实现上述图7相应实施例中电子设备(如上述音箱101、电视机102或手机103)行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块,例如,接收单元或模块,确定单元或模块,发送单元或模块等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (23)
- 一种语音控制方法,其特征在于,应用于语音控制系统,所述语音控制系统包括:一组设备和服务器,所述一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备,所述方法包括:所述第一电子设备和所述第二电子设备分别接收用户的第一语音数据;所述第一电子设备确定所述第一语音数据与所述第一电子设备中注册的唤醒词相同,向所述服务器发送所述第一电子设备检测到的所述第一语音数据的能量信息;所述第二电子设备确定所述第一语音数据与所述第二电子设备中注册的唤醒词相同,向所述服务器发送所述第二电子设备检测到的所述第一语音数据的能量信息;所述服务器根据所述第一电子设备检测到的所述第一语音数据的能量信息和所述第二电子设备检测到的所述第一语音数据的能量信息,确定由所述第一电子设备进行唤醒响应,向所述第一电子设备发送第一唤醒指示;其中,所述第一电子设备检测到的所述第一语音数据的能量大于所述第二电子设备检测到的所述第一语音数据的能量;所述第一电子设备响应于所述第一唤醒指示,唤醒所述第一电子设备的语音控制功能;唤醒语音控制功能后的所述第一电子设备接收用户的第二语音数据;所述第一电子设备向所述服务器发送所述第二语音数据;所述服务器根据所述第二语音数据,从所述一组设备中确定出目标电子设备,所述目标电子设备具备执行所述第二语音数据对应事件的功能;所述服务器向所述目标电子设备发送内容指示,所述内容指示为所述第二语音数据对应的指令,或所述内容指示为执行所述第二语音数据对应事件所需的数据;所述目标电子设备根据所述内容指示,执行所述第二语音数据对应的事件。
- 根据权利要求1所述的方法,其特征在于,所述一组设备还包括第三电子设备;其中,所述第三电子设备不具备语音控制功能;或,所述第三电子设备具备语音控制功能,但所述第三电子设备与用户之间的距离大于所述第三电子设备的拾音距离。
- 根据权利要求1或2所述的方法,其特征在于,在接收所述第一语音数据时,所述第一电子设备和所述第二电子设备的语音控制功能均未被唤醒。
- 根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:所述服务器向所述第一电子设备发送命令响应指示,所述命令响应指示用于指示所述第一电子设备提示用户将由所述目标电子设备执行所述第二语音数据对应的事件;所述第一电子设备根据所述命令响应指示,提示用户将由所述目标电子设备执行所述第二语音数据对应的事件。
- 根据权利要求1-4中任一项所述的方法,其特征在于,所述服务器根据所述第二语音数据,从所述一组设备中确定出目标电子设备,包括:所述服务器根据所述一组设备中每个设备的能力信息,及所述第二语音数据,从所述一组设备中选取具备执行所述第二语音数据对应事件的功能的设备;如果所述一组设备中只存在一个设备具备执行所述第二语音数据对应事件的功能,则所述服务器确定该设备为所述目标电子设备;如果所述一组设备中存在多个设备具备执行所述第二语音数据对应事件的功能,则 所述服务器从所述多个设备中确定一个设备为所述目标电子设备;其中,所述目标电子设备是所述多个设备中的任意一个,或,所述目标电子设备满足以下条件中的至少一个:所述目标电子设备是所述多个设备中与用户之间距离最短的设备;所述目标电子设备处于开机状态;所述目标电子设备在预设时间内未被确定用于执行其他语音数据对应的事件;或,所述目标电子设备是所述多个设备中用户使用频率最高的设备。
- 根据权利要求5所述的方法,其特征在于,所述方法还包括:所述一组设备中的每个设备分别向服务器上报各自的能力信息;所述服务器存储所述一组设备中每个设备的能力信息。
- 根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:所述服务器向所述第二电子设备发送第二唤醒指示,所述第二电子设备根据所述第二唤醒指示,确定不唤醒所述第二电子设备的语音控制功能;或,所述第二电子设备确定在预设时间内未接收到所述第一唤醒指示,确定不唤醒所述第二电子设备的语音控制功能。
- 一种语音控制方法,其特征在于,应用于一组设备,所述一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备,所述方法包括:所述第一电子设备和所述第二电子设备分别接收用户的第一语音数据;所述第一电子设备确定所述第一语音数据与所述第一电子设备中注册的唤醒词相同,获取所述第一电子设备检测到的所述第一语音数据的能量信息;所述第二电子设备确定所述第一语音数据与所述第二电子设备中注册的唤醒词相同,向所述第一电子设备发送所述第二电子设备检测到的所述第一语音数据的能量信息;所述第一电子设备根据所述第一电子设备检测到的所述第一语音数据的能量信息和所述第二电子设备检测到的所述第一语音数据的能量信息,从所述第一电子设备和所述第二电子设备中确定进行唤醒响应的设备;如果所述第一电子设备检测到的所述第一语音数据的能量大于所述第二电子设备检测到的所述第一语音数据的能量,确定由所述第一电子设备进行唤醒响应,则所述第一电子设备唤醒所述第一电子设备的语音控制功能,唤醒语音控制功能的后的所述第一电子设备接收用户的第二语音数据;如果所述第二电子设备检测到的所述第一语音数据的能量大于所述第一电子设备检测到的所述第一语音数据的能量,确定由所述第二电子设备进行唤醒响应,则所述第一电子设备向所述第二电子设备发送第一唤醒指示,所述第二电子设备响应于所述第一唤醒指示,唤醒所述第二电子设备的语音控制功能,唤醒语音控制功能后的所述第二电子设备接收用户的所述第二语音数据,并发送给所述第一电子设备;所述第一电子设备根据所述第二语音数据,从所述一组设备中确定出目标电子设备,所述目标电子设备具备执行所述第二语音数据对应事件的功能;如果所述目标电子设备为所述第一电子设备,所述第一电子设备对所述第二语音数据进行分析,获得所述第二语音数据对应的指令,根据所述指令执行所述第二语音数据对应的事件;或者,所述第一电子设备从服务器获取执行所述第二语音数据对应的事件所需的数据,根据所述数据执行所述第二语音数据对应的事件;如果所述目标电子设备不是所述第一电子设备,所述第一电子设备向所述目标电子 设备发送内容指示;所述内容指示为所述第二语音数据对应的指令,或所述内容指示为执行所述第二语音数据对应事件所需的数据;所述目标电子设备根据所述内容指示,执行所述第二语音数据对应的事件。
- 根据权利要求8所述的方法,其特征在于,所述一组设备还包括第三电子设备;其中,所述第三电子设备不具备语音控制功能;或,所述第三电子设备具备语音控制功能,但所述第三电子设备与用户之间的距离大于所述第三电子设备的拾音距离。
- 根据权利要求8或9所述的方法,其特征在于,在接收所述第一语音数据时,所述第一电子设备和所述第二电子设备的语音控制功能均未被唤醒。
- 根据权利要求8-10中任一项所述的方法,其特征在于,如果所述第二电子设备是进行唤醒响应的设备,所述方法还包括:所述第一电子设备向所述第二电子设备发送命令响应指示,所述命令响应指示用于指示所述第二电子设备提示用户将由所述目标电子设备执行所述第二语音数据对应的事件;所述第二电子设备根据所述命令响应指示,提示用户将由所述目标电子设备执行所述第二语音数据对应的事件;或如果所述第一电子设备是进行唤醒响应的设备,所述方法还包括:所述第一电子设备提示用户将由所述目标电子设备执行所述第二语音数据对应的事件。
- 根据权利要求8-11中任一项所述的方法,其特征在于,所述第一电子设备根据所述第二语音数据,从所述一组设备中确定出目标电子设备,包括:所述第一电子设备根据所述一组设备中每个设备的能力信息,及所述第二语音数据,从所述一组设备中选取具备执行所述第二语音数据对应事件的功能的设备;如果所述一组设备中只存在一个设备具备执行所述第二语音数据对应事件的功能,则所述第一电子设备确定该设备为所述目标电子设备;如果所述一组设备中存在多个设备具备执行所述第二语音数据对应事件的功能,则所述第一电子设备从所述多个设备中确定一个设备为所述目标电子设备;其中,所述目标电子设备是所述多个设备中的任意一个,或,所述目标电子设备满足以下条件中的至少一个:所述目标电子设备是所述多个设备中与用户之间距离最短的设备;所述目标电子设备处于开机状态;所述目标电子设备在预设时间内未被确定用于执行其他语音数据对应的事件;或,所述目标电子设备是所述多个设备中用户使用频率最高的设备。
- 根据权利要求12所述的方法,其特征在于,所述方法还包括:所述一组设备中除所述第一电子设备外的每个设备分别向所述第一电子设备上报各自的能力信息;所述第一电子设备存储所述一组设备中每个设备的能力信息。
- 根据权利要求8-13中任一项所述的方法,其特征在于,如果所述第一电子设备是进行唤醒响应的设备,所述方法还包括:所述第一电子设备向所述第二电子设备发送第二唤醒指示,所述第二电子设备根据所述第二唤醒指示,确定不唤醒所述第二电子设备的语音控制功能;或,所述第二电子设备确定在预设时间内未接收到所述第一唤醒指示,确定不唤醒所述第二电子设备的语音控制功能。
- 一种语音控制方法,其特征在于,应用于具备语音控制功能的第一电子设备,所述第一电子设备包含于一组设备中,所述一组设备还包括具备语音控制功能的第二电子设备,所述方法包括:所述第一电子设备接收用户的第一语音数据;所述第一电子设备确定所述第一语音数据与所述第一电子设备中注册的唤醒词相同,向服务器发送所述第一电子设备检测到的所述第一语音数据的能量信息;所述第一电子设备接收服务器发送的唤醒指示,所述唤醒指示是所述服务器根据所述第一电子设备检测到的所述第一语音数据的能量信息和所述第二电子设备检测到的所述第一语音数据的能量信息确定由所述第一电子设备进行唤醒响应后发送的,所述第一电子设备检测到的所述第一语音数据的能量大于所述第二电子设备检测到的所述第一语音数据的能量;所述第一电子设备响应于所述唤醒指示,唤醒所述第一电子设备的语音控制功能;唤醒语音控制功能后的所述第一电子设备接收用户的第二语音数据;所述第一电子设备向所述服务器发送所述第二语音数据;所述第一电子设备接收所述服务器发送的命令响应指示,所述命令响应指示用于指示所述第一电子设备提示用户将由目标电子设备执行所述第二语音数据对应的事件,所述目标电子设备是所述服务器根据所述第二语音数据,从所述一组设备中确定出的具备执行所述第二语音数据对应事件的功能的设备;所述第一电子设备根据所述命令响应指示,提示用户将由所述目标电子设备执行所述第二语音数据对应的事件。
- 根据权利要求15所述的方法,其特征在于,所述一组设备还包括第三电子设备;其中,所述第三电子设备不具备语音控制功能;或,所述第三电子设备具备语音控制功能,但所述第三电子设备与用户之间的距离大于所述第三电子设备的拾音距离。
- 根据权利要求15或16所述的方法,其特征在于,在接收所述第一语音数据时,所述第一电子设备的语音控制功能为被唤醒。
- 根据权利要求15-17中任一项所述的方法,其特征在于,所述目标电子设备为所述第一电子设备,所述方法还包括:所述第一电子设备接收所述服务器发送的内容指示,所述内容指示为所述第二语音数据对应的指令,或内容指示为执行所述第二语音数据对应事件所需的数据;所述第一电子设备根据所述内容指示,执行所述第二语音数据对应的事件。
- 一种电子设备,其特征在于,包括:一个或多个处理器和存储器;所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,所述电子设备执行如权利要求15-18中任一项所述的语音控制方法。
- 一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求15-18中任一项所述的语音控制方法。
- 一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求15-18中任一项所述的语音控制方法。
- 一种语音控制系统,其特征在于,包括:一组设备和服务器,所述一组设备至 少包括具备语音控制功能的第一电子设备和第二电子设备;所述第一电子设备和所述第二电子设备分别接收用户的第一语音数据;所述第一电子设备确定所述第一语音数据与所述第一电子设备中注册的唤醒词相同,向所述服务器发送所述第一电子设备检测到的所述第一语音数据的能量信息;所述第二电子设备确定所述第一语音数据与所述第二电子设备中注册的唤醒词相同,向所述服务器发送所述第二电子设备检测到的所述第一语音数据的能量信息;所述服务器根据所述第一电子设备检测到的所述第一语音数据的能量信息和所述第二电子设备检测到的所述第一语音数据的能量信息,确定由所述第一电子设备进行唤醒响应,向所述第一电子设备发送第一唤醒指示;其中,所述第一电子设备检测到的所述第一语音数据的能量大于所述第二电子设备检测到的所述第一语音数据的能量;所述第一电子设备响应于所述第一唤醒指示,唤醒所述第一电子设备的语音控制功能;唤醒语音控制功能后的所述第一电子设备接收用户的第二语音数据;所述第一电子设备向所述服务器发送所述第二语音数据;所述服务器根据所述第二语音数据,从所述一组设备中确定出目标电子设备,所述目标电子设备具备执行所述第二语音数据对应事件的功能;所述服务器向所述目标电子设备发送内容指示,所述内容指示为所述第二语音数据对应的指令,或所述内容指示为执行所述第二语音数据对应事件所需的数据;所述目标电子设备根据所述内容指示,执行所述第二语音数据对应的事件。
- 一种语音控制系统,其特征在于,所述语音控制系统包括:一组设备,所述一组设备至少包括具备语音控制功能的第一电子设备和第二电子设备;所述第一电子设备和所述第二电子设备分别接收用户的第一语音数据;所述第一电子设备确定所述第一语音数据与所述第一电子设备中注册的唤醒词相同,获取所述第一电子设备检测到的所述第一语音数据的能量信息;所述第二电子设备确定所述第一语音数据与所述第二电子设备中注册的唤醒词相同,向所述第一电子设备发送所述第二电子设备检测到的所述第一语音数据的能量信息;所述第一电子设备根据所述第一电子设备检测到的所述第一语音数据的能量信息和所述第二电子设备检测到的所述第一语音数据的能量信息,从所述第一电子设备和所述第二电子设备中确定进行唤醒响应的设备;如果所述第一电子设备检测到的所述第一语音数据的能量大于所述第二电子设备检测到的所述第一语音数据的能量,所述第一电子设备确定由所述第一电子设备进行唤醒响应,则所述第一电子设备唤醒所述第一电子设备的语音控制功能,唤醒语音控制功能的后的所述第一电子设备接收用户的第二语音数据;如果所述第二电子设备检测到的所述第一语音数据的能量大于所述第一电子设备检测到的所述第一语音数据的能量,所述第一电子设备确定由所述第二电子设备进行唤醒响应,则所述第一电子设备向所述第二电子设备发送第一唤醒指示,所述第二电子设备响应于所述第一唤醒指示,唤醒所述第二电子设备的语音控制功能,唤醒语音控制功能后的所述第二电子设备接收用户的所述第二语音数据,并发送给所述第一电子设备;所述第一电子设备根据所述第二语音数据,从所述一组设备中确定出目标电子设备,所述目标电子设备具备执行所述第二语音数据对应事件的功能;如果所述目标电子设备为所述第一电子设备,所述第一电子设备对所述第二语音数 据进行分析,获得所述第二语音数据对应的指令,根据所述指令执行所述第二语音数据对应的事件;或者,所述第一电子设备从服务器获取执行所述第二语音数据对应的事件所需的数据,根据所述数据执行所述第二语音数据对应的事件;如果所述目标电子设备不是所述第一电子设备,所述第一电子设备向所述目标电子设备发送内容指示;所述内容指示为所述第二语音数据对应的指令,或所述内容指示为执行所述第二语音数据对应事件所需的数据;所述目标电子设备根据所述内容指示,执行所述第二语音数据对应的事件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910586437.0A CN110322878A (zh) | 2019-07-01 | 2019-07-01 | 一种语音控制方法、电子设备及系统 |
CN201910586437.0 | 2019-07-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021000876A1 true WO2021000876A1 (zh) | 2021-01-07 |
Family
ID=68122308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2020/099617 WO2021000876A1 (zh) | 2019-07-01 | 2020-07-01 | 一种语音控制方法、电子设备及系统 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN110322878A (zh) |
WO (1) | WO2021000876A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114110912A (zh) * | 2021-11-08 | 2022-03-01 | 珠海格力电器股份有限公司 | 结合plc的语音分布式识别方法 |
EP4137932A1 (en) * | 2021-08-20 | 2023-02-22 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice collaborative awakening method and apparatus, electronic device and storage medium |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322878A (zh) * | 2019-07-01 | 2019-10-11 | 华为技术有限公司 | 一种语音控制方法、电子设备及系统 |
CN110808042A (zh) * | 2019-10-12 | 2020-02-18 | 云知声智能科技股份有限公司 | 一种语音交互组网系统及方法 |
CN110718227A (zh) * | 2019-10-17 | 2020-01-21 | 深圳市华创技术有限公司 | 一种基于多模态交互的分布式物联网设备协同方法及其系统 |
CN110687815B (zh) * | 2019-10-29 | 2023-07-14 | 北京小米智能科技有限公司 | 设备控制方法、装置、终端设备及存储介质 |
CN110890092B (zh) * | 2019-11-07 | 2022-08-05 | 北京小米移动软件有限公司 | 唤醒控制方法及装置、计算机存储介质 |
CN111128150A (zh) * | 2019-11-27 | 2020-05-08 | 云知声智能科技股份有限公司 | 一种唤醒智能语音设备的方法及装置 |
CN110910880B (zh) * | 2019-11-29 | 2022-05-10 | 广东美的厨房电器制造有限公司 | 语音控制方法、系统、设备及存储介质 |
CN111105796A (zh) * | 2019-12-18 | 2020-05-05 | 杭州智芯科微电子科技有限公司 | 无线耳机控制装置及控制方法、语音控制设置方法和系统 |
CN111161714B (zh) * | 2019-12-25 | 2023-07-21 | 联想(北京)有限公司 | 一种语音信息处理方法、电子设备及存储介质 |
CN111367488B (zh) * | 2020-01-07 | 2023-08-22 | 百度在线网络技术(北京)有限公司 | 语音设备及语音设备的交互方法、设备、存储介质 |
CN111276139B (zh) * | 2020-01-07 | 2023-09-19 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN113098739B (zh) * | 2020-01-09 | 2023-05-23 | 博泰车联网科技(上海)股份有限公司 | 用于信息处理的方法、设备和计算机存储介质 |
CN111091829B (zh) * | 2020-02-21 | 2023-03-14 | 珠海荣邦电子科技有限公司 | 一种语音控制方法、装置及电子设备 |
CN113496701A (zh) * | 2020-04-02 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 语音交互系统、方法、设备和会议系统 |
CN111667825A (zh) * | 2020-05-21 | 2020-09-15 | 四川虹美智能科技有限公司 | 语音控制方法、云平台及语音设备 |
CN111613221A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种就近唤醒方法、装置和系统 |
CN111722824B (zh) | 2020-05-29 | 2024-04-30 | 北京小米松果电子有限公司 | 语音控制方法、装置及计算机存储介质 |
CN111640433A (zh) * | 2020-06-01 | 2020-09-08 | 珠海格力电器股份有限公司 | 语音交互方法、存储介质、电子设备及智能家居系统 |
CN111640434A (zh) * | 2020-06-05 | 2020-09-08 | 三星电子(中国)研发中心 | 用于控制语音设备的方法和装置 |
EP4162698A1 (en) * | 2020-06-08 | 2023-04-12 | Sonos Inc. | Control with distributed command processing |
CN111724784A (zh) * | 2020-06-28 | 2020-09-29 | 北京小米松果电子有限公司 | 设备控制方法及装置 |
CN111883146A (zh) * | 2020-07-29 | 2020-11-03 | 上海茂声智能科技有限公司 | 跨平台的分布式就近唤醒方法和装置 |
CN112037789A (zh) * | 2020-08-07 | 2020-12-04 | 海尔优家智能科技(北京)有限公司 | 设备唤醒方法、装置、存储介质及电子装置 |
CN111968641B (zh) * | 2020-08-20 | 2023-01-06 | Oppo(重庆)智能科技有限公司 | 语音助手唤醒控制方法及装置、存储介质和电子设备 |
CN112781248B (zh) * | 2020-10-28 | 2022-11-15 | 青岛经济技术开发区海尔热水器有限公司 | 智能热水器语音控制方法、装置、电子设备及存储介质 |
CN112164399A (zh) * | 2020-11-05 | 2021-01-01 | 佛山市顺德区美的电子科技有限公司 | 语音设备及其交互控制方法、装置以及存储介质 |
CN114582337A (zh) * | 2020-12-01 | 2022-06-03 | 华为技术有限公司 | 一种设备响应方法和装置 |
CN112929724B (zh) * | 2020-12-31 | 2022-09-30 | 海信视像科技股份有限公司 | 显示设备、机顶盒及远场拾音唤醒控制方法 |
CN112837694B (zh) * | 2021-01-29 | 2022-12-06 | 青岛海尔科技有限公司 | 设备唤醒方法、装置、存储介质及电子装置 |
US11449149B2 (en) | 2021-02-03 | 2022-09-20 | Google Llc | Assistant device arbitration using wearable device data |
CN115079810A (zh) * | 2021-03-10 | 2022-09-20 | Oppo广东移动通信有限公司 | 信息处理方法与装置、主控设备和受控设备 |
CN115083400A (zh) * | 2021-03-10 | 2022-09-20 | Oppo广东移动通信有限公司 | 语音助手唤醒方法及装置 |
CN113096656A (zh) * | 2021-03-30 | 2021-07-09 | 深圳创维-Rgb电子有限公司 | 终端设备唤醒方法、装置和计算机设备 |
CN113096658A (zh) * | 2021-03-31 | 2021-07-09 | 歌尔股份有限公司 | 一种终端设备及其唤醒方法、装置和计算机可读存储介质 |
CN113421559B (zh) * | 2021-06-01 | 2023-04-07 | 荣耀终端有限公司 | 基于语音唤醒的控制方法、电子设备及控制器 |
CN113380257A (zh) * | 2021-06-08 | 2021-09-10 | 深圳市同行者科技有限公司 | 多端智能家居的响应方法、装置、设备及存储介质 |
CN113763950A (zh) * | 2021-08-18 | 2021-12-07 | 青岛海尔科技有限公司 | 设备的唤醒方法 |
KR20230060351A (ko) * | 2021-10-27 | 2023-05-04 | 삼성전자주식회사 | 발화 수신에 기반한 목적 장치의 식별 방법 및 이를 위한 전자 장치 |
CN116805488A (zh) * | 2022-03-18 | 2023-09-26 | 华为技术有限公司 | 一种多设备的语音控制系统及方法 |
CN114639384B (zh) * | 2022-05-16 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 语音控制方法、装置、计算机设备及计算机存储介质 |
CN117950620A (zh) * | 2022-10-28 | 2024-04-30 | 华为技术有限公司 | 一种设备控制方法及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170090864A1 (en) * | 2015-09-28 | 2017-03-30 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
CN107004412A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 用于监听设备的设备仲裁 |
CN107622767A (zh) * | 2016-07-15 | 2018-01-23 | 青岛海尔智能技术研发有限公司 | 家电系统的语音控制方法与家电控制系统 |
CN108259280A (zh) * | 2018-02-06 | 2018-07-06 | 北京语智科技有限公司 | 一种室内智能化控制的实现方法、系统 |
CN109155130A (zh) * | 2016-05-13 | 2019-01-04 | 伯斯有限公司 | 处理来自分布式麦克风的语音 |
CN109377987A (zh) * | 2018-08-31 | 2019-02-22 | 百度在线网络技术(北京)有限公司 | 智能语音设备间的交互方法、装置、设备及存储介质 |
CN109391528A (zh) * | 2018-08-31 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语音智能设备的唤醒方法、装置、设备及存储介质 |
CN109878434A (zh) * | 2017-12-06 | 2019-06-14 | 通用汽车环球科技运作有限责任公司 | 外部信息呈现 |
CN110322878A (zh) * | 2019-07-01 | 2019-10-11 | 华为技术有限公司 | 一种语音控制方法、电子设备及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102584184B1 (ko) * | 2015-11-24 | 2023-10-04 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN107665710B (zh) * | 2016-07-27 | 2021-02-09 | 上海博泰悦臻网络技术服务有限公司 | 移动终端语音数据处理方法及装置 |
CN107452386B (zh) * | 2017-08-16 | 2020-03-24 | 联想(北京)有限公司 | 一种语音数据处理方法和系统 |
US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
CN107919119A (zh) * | 2017-11-16 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 多设备交互协同的方法、装置、设备及计算机可读介质 |
CN108520746B (zh) * | 2018-03-22 | 2022-04-01 | 北京小米移动软件有限公司 | 语音控制智能设备的方法、装置及存储介质 |
-
2019
- 2019-07-01 CN CN201910586437.0A patent/CN110322878A/zh active Pending
- 2019-07-01 CN CN202010990191.6A patent/CN112289313A/zh active Pending
-
2020
- 2020-07-01 WO PCT/CN2020/099617 patent/WO2021000876A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004412A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 用于监听设备的设备仲裁 |
US20170090864A1 (en) * | 2015-09-28 | 2017-03-30 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
CN109155130A (zh) * | 2016-05-13 | 2019-01-04 | 伯斯有限公司 | 处理来自分布式麦克风的语音 |
CN107622767A (zh) * | 2016-07-15 | 2018-01-23 | 青岛海尔智能技术研发有限公司 | 家电系统的语音控制方法与家电控制系统 |
CN109878434A (zh) * | 2017-12-06 | 2019-06-14 | 通用汽车环球科技运作有限责任公司 | 外部信息呈现 |
CN108259280A (zh) * | 2018-02-06 | 2018-07-06 | 北京语智科技有限公司 | 一种室内智能化控制的实现方法、系统 |
CN109377987A (zh) * | 2018-08-31 | 2019-02-22 | 百度在线网络技术(北京)有限公司 | 智能语音设备间的交互方法、装置、设备及存储介质 |
CN109391528A (zh) * | 2018-08-31 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语音智能设备的唤醒方法、装置、设备及存储介质 |
CN110322878A (zh) * | 2019-07-01 | 2019-10-11 | 华为技术有限公司 | 一种语音控制方法、电子设备及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4137932A1 (en) * | 2021-08-20 | 2023-02-22 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice collaborative awakening method and apparatus, electronic device and storage medium |
US20230054011A1 (en) * | 2021-08-20 | 2023-02-23 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice collaborative awakening method and apparatus, electronic device and storage medium |
CN114110912A (zh) * | 2021-11-08 | 2022-03-01 | 珠海格力电器股份有限公司 | 结合plc的语音分布式识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112289313A (zh) | 2021-01-29 |
CN110322878A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021000876A1 (zh) | 一种语音控制方法、电子设备及系统 | |
WO2021052263A1 (zh) | 语音助手显示方法及装置 | |
WO2021008534A1 (zh) | 一种语音唤醒的方法和电子设备 | |
WO2021047435A1 (zh) | 一种电子设备及传感器控制方法 | |
CN111369988A (zh) | 一种语音唤醒方法及电子设备 | |
WO2021139767A1 (zh) | 亮屏控制方法及电子设备 | |
WO2021052282A1 (zh) | 数据处理方法、蓝牙模块、电子设备与可读存储介质 | |
CN111742361B (zh) | 一种终端更新语音助手的唤醒语音的方法及终端 | |
WO2021238230A1 (zh) | 智能家居系统及其控制方法与装置 | |
WO2020073288A1 (zh) | 一种触发电子设备执行功能的方法及电子设备 | |
WO2021017909A1 (zh) | 一种通过nfc标签实现功能的方法、电子设备及系统 | |
WO2021000817A1 (zh) | 环境音处理方法及相关装置 | |
WO2021052139A1 (zh) | 手势输入方法及电子设备 | |
WO2021190314A1 (zh) | 触控屏的滑动响应控制方法及装置、电子设备 | |
WO2022007944A1 (zh) | 一种设备控制方法及相关装置 | |
CN111835907A (zh) | 一种跨电子设备转接服务的方法、设备以及系统 | |
CN113676339B (zh) | 组播方法、装置、终端设备及计算机可读存储介质 | |
WO2020078267A1 (zh) | 在线翻译过程中的语音数据处理方法及装置 | |
WO2022161077A1 (zh) | 语音控制方法和电子设备 | |
CN114006698B (zh) | token刷新方法、装置、电子设备及可读存储介质 | |
CN113467904B (zh) | 确定协同模式的方法、装置、电子设备和可读存储介质 | |
CN114120987B (zh) | 一种语音唤醒方法、电子设备及芯片系统 | |
CN115731923A (zh) | 命令词响应方法、控制设备及装置 | |
CN114116610A (zh) | 获取存储信息的方法、装置、电子设备和介质 | |
CN115525366A (zh) | 一种投屏方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20835133 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20835133 Country of ref document: EP Kind code of ref document: A1 |