WO2021008534A1 - 一种语音唤醒的方法和电子设备 - Google Patents

一种语音唤醒的方法和电子设备 Download PDF

Info

Publication number
WO2021008534A1
WO2021008534A1 PCT/CN2020/101948 CN2020101948W WO2021008534A1 WO 2021008534 A1 WO2021008534 A1 WO 2021008534A1 CN 2020101948 W CN2020101948 W CN 2020101948W WO 2021008534 A1 WO2021008534 A1 WO 2021008534A1
Authority
WO
WIPO (PCT)
Prior art keywords
false
wake
result
devices
electronic device
Prior art date
Application number
PCT/CN2020/101948
Other languages
English (en)
French (fr)
Inventor
伍晓晖
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP20840685.0A priority Critical patent/EP3975171A4/en
Priority to JP2022502483A priority patent/JP7426470B2/ja
Priority to US17/622,158 priority patent/US20220366906A1/en
Publication of WO2021008534A1 publication Critical patent/WO2021008534A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/12Arrangements for remote connection or disconnection of substations or of equipment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/284Home automation networks characterised by the type of medium used
    • H04L2012/2841Wireless
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Definitions

  • the first electronic device is an electronic device with the strongest computing capability in the local area network; and/or, the first electronic device is an electronic device that is not power-sensitive in the local area network.
  • the first electronic device may also be a device that is playing audio in the environment.
  • the power management module 141 is used to connect the battery 142, the charging management module 140 and the processor 110.
  • the power management module 141 receives input from the battery 142 and/or the charge management module 140, and supplies power to the processor 110, the internal memory 121, the external memory, the display screen 194, the camera 193, and the wireless communication module 160.
  • the power management module 141 can also be used to monitor parameters such as battery capacity, battery cycle times, and battery health status (leakage, impedance).
  • the power management module 141 may also be provided in the processor 110.
  • the power management module 141 and the charging management module 140 may also be provided in the same device.
  • the GNSS may include global positioning system (GPS), global navigation satellite system (GLONASS), Beidou navigation satellite system (BDS), quasi-zenith satellite system (quasi -zenith satellite system, QZSS) and/or satellite-based augmentation systems (SBAS).
  • GPS global positioning system
  • GLONASS global navigation satellite system
  • BDS Beidou navigation satellite system
  • QZSS quasi-zenith satellite system
  • SBAS satellite-based augmentation systems
  • Video codecs are used to compress or decompress digital video.
  • the electronic device 100 may support one or more video codecs. In this way, the electronic device 100 can play or record videos in a variety of encoding formats, such as: moving picture experts group (MPEG) 1, MPEG2, MPEG3, MPEG4, and so on.
  • MPEG moving picture experts group
  • the fingerprint sensor 180H is used to collect fingerprints.
  • the electronic device 100 can use the collected fingerprint characteristics to realize fingerprint unlocking, access application locks, fingerprint photographs, fingerprint answering calls, etc.
  • each smart device can be represented by parameters such as the number of central processing unit (CPU) cores, CPU frequency, and memory size of each smart device.
  • CPU central processing unit
  • the playback device when it is playing audio, it may notify other devices in the local area network of the determined arbitration device and the information of the cooperative device.
  • the smart TV determines that the final arbitration result is not a false wake-up, it can also send to other devices that it is not a false wake-up. Other devices can wake up based on the voice signal collected by the microphone; other devices can wake up directly without detecting the wake-up word .
  • multiple devices in the local area network can be combined according to WiFi indoor positioning technology and house plans, and the different positions of each device in the house are measured, and grouped according to the location of each device (for example, they can be divided into bedrooms). In the device and the device located in the living room), and can calculate whether there is a wall between each device. In this way, although the distance between the playback device and the collaboration device is very short, it may be affected by a wall between them.
  • the devices in the group are in the same physical space with no wall blocking between them, which can improve the accuracy of false wakeup judgment.
  • the first electronic device and the second electronic device are non-power consumption sensitive devices in the local area network.
  • the first electronic device may be a smart TV in the foregoing method 300 or method 400.
  • the obtaining unit 602 may be used to support the electronic device 600 to perform the above-mentioned step 502 and the like, and/or other processes used in the technology described herein.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种语音唤醒的方法、系统及电子设备,该方法包括:采集第一电子设备所处环境内的第一语音信号(501);若采集该第一语音信号时环境中正在播放音频,第一电子设备通过有线或者无线通信方式获取该音频对应的音频信号;第一电子设备根据第一语音信号和该音频信号,确定第一误唤醒结果(503);该第一电子设备接收第二电子设备发送的第二误唤醒结果(504);该第一电子设备根据第一误唤醒结果和第二误唤醒结果,确定第三误唤醒结果(505),第三误唤醒结果用于指示是否需要对局域网中待唤醒的设备进行唤醒操作;第一电子设备向局域网中除第一电子设备以外的其他电子设备发送第三误唤醒结果(506)。该语音唤醒方法,有助于提升误唤醒判断的准确度。

Description

一种语音唤醒的方法和电子设备
本申请要求于2019年7月15日提交中国专利局、申请号为201910637698.0、申请名称为“一种语音唤醒的方法和电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及电子设备领域,并且更具体地,涉及一种语音唤醒的方法和电子设备。
背景技术
当前市面上的智能语音设备,在语音唤醒、降噪、识别的准确率上,虽然已经有了非常大的进步,但在有背景噪声的情况下,对人声识别就会比较差,特别是在用户距离待唤醒设备较远并且由背景噪声时,唤醒率会更低,而且会产生比较高的误唤醒。
发明内容
本申请提供一种语音唤醒的方法和电子设备,有助于提升误唤醒判断的准确度。
第一方面,提供了一种语音唤醒的方法,该方法应用于第一电子设备,该第一电子设备处于局域网中,该局域网还包括第二电子设备,其特征在于,包括:该第一电子设备采集该第一电子设备所处环境内的第一语音信号;该第一电子设备通过有线或者无线通信方式获取在该第一语音信号的采集时段内该音频对应的音频信号;该第一电子设备根据该第一语音信号和该音频信号,确定第一误唤醒结果;该第一电子设备接收该第二电子设备发送的第二唤醒结果,该第二误唤醒结果由该第二电子设备根据采集的第二语音信号和该音频信号得到;该第一电子设备根据该第一误唤醒结果和该第二误唤醒结果,确定第三误唤醒结果,该第三误唤醒结果用于指示是否需要对该局域网中待唤醒的设备进行唤醒操作;该第一电子设备向该局域网中除该第一电子设备以外的其他电子设备发送该第三误唤醒结果。
本申请实施例中的语音唤醒的方法,通过第一电子设备自己确定的误唤醒的结果以及通过接收第二电子设备发送的误唤醒的结果,第一电子设备可以确定最终误唤醒的结果,并将该结果发送给局域网中除第一电子设备以外的其他电子设备,有助于提升误唤醒判断的准确度。同时,避免了局域网中的其他设备都进行误唤醒判断,一定程度上可以较少音频数据占用大量带宽。
在一些可能的实现方式中,该第一电子设备为该局域网中计算能力最强的电子设备;和/或,该第一电子设备为该局域网中非功耗敏感的电子设备。
本申请实施例中,可以选择计算能力较强和/或非功耗敏感的电子设备作为进行误唤醒判断的电子设备,有助于避免一些功耗敏感型设备,有助于节省电子设备的功耗。也有助于避免计算能力偏弱的设备进行误唤醒检测,从而避免对电子设备正常工作的影响。
在一些可能的实现方式中,该第一电子设备也可以是环境中正在播放音频的设备。
结合第一方面,在第一方面的某些实现方式中,根据该第一误唤醒结果和该第二误唤醒结果,确定第三误唤醒结果,包括:在该第一误唤醒结果为误唤醒,且该第二误唤醒结果为误唤醒时,确定该第三误唤醒结果为误唤醒;或者,在该第一误唤醒结果为不是误唤醒,或者该第二误唤醒结果为不是误唤醒时,确定该第三误唤醒结果为不是误唤醒。
应理解,以上仅仅是电子设备根据两个误唤醒结果进行最终的误唤醒判断的过程,本申请实施例中并不限于此。
例如,第一电子设备还可以接收第三电子设备发送的误唤醒结果,从而该第一电子设备可以根据第一电子设备做出的误唤醒结果、第二电子设备做出的误唤醒结果和第三电子设备做出的误唤醒结果确定最终的误唤醒结果。
结合第一方面,在第一方面的某些实现方式中,根据该第一语音信号和该音频信号,确定第一误唤醒结果,包括:根据该音频信号对该第一语音信号进行降噪处理,得到第二语音信号;根据该音频信号和该第二语音信号,确定该第一误唤醒结果。
结合第一方面,在第一方面的某些实现方式中,根据该音频信号和该第二语音信号,确定该第一误唤醒结果,包括:在确定该音频信号中包括唤醒词,且该第二语音信号中不包括该唤醒词时,确定该第一误唤醒结果为误唤醒。
结合第一方面,在第一方面的某些实现方式中,该音频信号包括时间戳,该时间戳用于指示该音频信号的产生时间。
在一些可能的方式中,该音频信号由播放设备切分为多个音频片段,每个音频片段携带对应的时间戳。
本申请实施例中,通过在音频信号中携带时间戳,可以让第一电子设备通过该时间戳,确定对该第一语音信号作降噪处理的音频片段,从而可以利用合适的音频片段对该第一语音信号进行降噪处理。
在一些可能的实现方式中,该第一电子设备在接收到该音频信号后,该方法还包括:该第一电子设备对该音频信号增加时延处理。
第二方面,提供了一种语音唤醒的方法,该方法应用于语音唤醒的系统中,该系统中包括处于同一局域网中的播放设备、第一协同设备、第二协同设备和仲裁设备,其特征在于,该方法包括:该第一协同设备和该第二协同设备分别采集所处环境内的第一语音信号和第二语音信号;在该第一协同设备和该第二协同设备分别采集所处环境内的第一语音信号和第二语音信号时,若该播放设备正在播放音频,该播放设备通过有线或者无线通信方式向该第一协同设备和该第二协同设备发送该音频对应的音频信号;该第一协同设备根据该第一语音信号和该音频信号,确定第一误唤醒结果;该第二协同设备根据该第二语音信号和该音频信号,确定第二误唤醒结果;该第一协同设备和该第二协同设备分别向该仲裁设备发送该第一误唤醒结果和该第二误唤醒结果;该仲裁设备根据该第一误唤醒结果和该第二误唤醒结果,确定第三误唤醒结果,该第三误唤醒结果用于指示是否需要对该局域网中待唤醒的设备进行唤醒操作;该仲裁设备向该局域网中除该仲裁设备以外的其他设备发送该第三误唤醒结果。
本申请实施例中的语音唤醒的方法,仲裁设备可以通过第一协同设备确定的第一误唤醒的结果以及第二协同设备确定的第二误唤醒的结果,可以确定最终误唤醒的结果,并将 该结果发送给局域网中除仲裁设备以外的其他电子设备,有助于提升误唤醒判断的准确度。同时,避免了局域网中的其他设备都进行误唤醒判断,一定程度上可以较少音频数据占用大量带宽。
在一些可能的实现方式中,该第一协同设备和该仲裁设备为同一个设备。
在一些可能的实现方式中,该播放设备、该第一协同设备和该仲裁设备为同一个设备。
结合第二方面,在第二方面的某些可能的实现方式中,该方法还包括:该播放设备接收该局域网中除该播放设备以外的其他设备发送的能力信息,该能力信息用于指示该其他设备的计算能力和/或功耗情况;该播放设备根据该能力信息,从该局域网中确定该第一协同设备和该第二协同设备;该播放设备向该其他设备发送指示信息,该指示信息用于指示该第一协同设备和该第二协同设备。
本申请实施例中,播放设备在播放音频时可以根据局域网中每一个设备的能力信息确定第一协同设备和第二协同设备,从而将对应音频信号发送给第一协同设备和第二协同设备,避免了局域网中的其他设备都进行误唤醒判断,一定程度上可以较少音频数据占用大量带宽。
在一些可能的实现方式中,该播放设备还可以根据该能力信息,从该局域网中确定仲裁设备;该播放设备向该其他设备发送指示信息,该指示信息用于指示该仲裁设备、该第一协同设备和该第二协同设备。
在一些可能的实现方式中,该播放设备可以确定第一协同设备和第二协同设备。局域网中每个设备确定的仲裁设备相同。
结合第二方面,在第二方面的某些可能的实现方式中,该播放设备根据该能力信息,从该局域网中确定该第一协同设备和该第二协同设备,包括:该播放设备根据该能力信息,从该局域网中确定多个协同设备,该多个协同设备包括该第一协同设备和该第二协同设备;该播放设备根据该播放设备与该多个协同设备中每个协同设备之间的距离,从该多个协同设备中确定该第一协同设备和该第二协同设备。
结合第二方面,在第二方面的某些可能的实现方式中,该第一协同设备与该播放设备之间的第一距离或者该第二协同设备与该播放设备之间的第二距离小于第三距离,该第三距离为该多个协同设备中除该第一协同设备和该第二协同设备以外的其他协同设备中任意一个协同设备与该播放设备之间的距离。
本申请实施例中,播放设备可以选择距离其较近的多个设备作为协同设备,有助于避免由于声波衰减而降低误唤醒判断准确度的问题。
在一些可能的实现方式中,该音频信号包括时间戳,该时间戳用于指示该音频信号的产生时间。
第三方面,本技术方案提供了一种语音唤醒的装置,该装置包含在电子设备中,该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。
第四方面,本技术方案提供了一种电子设备,包括:一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序。其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令。当指令被电子设备执行时,使得电子设备执行上述 第一方面任一项可能的实现中的语音唤醒的方法。
第五方面,本技术方案提供了一种电子设备,包括一个或多个处理器和一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行上述第一方面任一项可能的实现中的语音唤醒的方法。
第六方面,本技术方案提供了一种语音唤醒系统,该系统包括第二方面中的播放设备、第一协同设备、第二协同设备和仲裁设备;或者,该系统包括第二方面中的播放设备、第一协同设备、第二协同设备,其中,仲裁设备可以和该第一协同设备为同一设备;或者,该系统包括第二方面中的第一协同设备和第二协同设备,其中,播放设备、仲裁设备可以和该第一协同设备为同一设备。
第七方面,本技术方案提供了一种计算机存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述任一方面任一项可能的实现中的语音唤醒方法。
第八方面,本技术方案提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述任一方面任一项可能的设计中的语音唤醒的方法。
附图说明
图1是本申请实施例提供的电子设备的结构示意图。
图2是本申请实施例提供的技术方案适用的一种应用场景的示意图。
图3是本申请实施例提供的技术方案适用的另一种应用场景的示意图。
图4是本申请实施例提供的语音唤醒的方法的示意性流程图。
图5是本申请实施例提供的语音唤醒的方法的另一示意性流程图。
图6是本申请实施例提供的技术方案适用的另一种应用场景的示意图。
图7是本申请实施例提供的语音唤醒的方法的另一示意性流程图。
图8是本申请实施例提供的语音唤醒的方法的另一示意性流程图。
图9是本申请实施例提供的电子设备的示意性框图。
图10是本申请实施例提供的语音唤醒系统的示意性框图。
具体实施方式
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的 不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以下介绍了本申请实施例提供设计的电子设备、用于这样的电子设备的用户界面、和用于使用这样的电子设备的实施例。在一些实施例中,电子设备可以是还包含其它功能诸如便携式电子设备,诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载
Figure PCTCN2020101948-appb-000001
或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备,诸如膝上型计算机(Laptop)等。还应当理解的是,在其他一些实施例中,上述电子设备也可以不是便携式电子设备,而是台式计算机。在一些实施例中,电子设备可以是智能家电,诸如智能音箱、智能家居设备等等。
示例性的,图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
本申请实施例中,处理器110可以包括以下实施例中描述的降噪处理模块和唤醒处理模块。
示例性的,处理器110中的降噪处理模块可以利用通过无线通信模块160接收来自播放设备的音频数据对通过麦克风170C接收环境中的语音信号进行降噪处理。
示例性的,处理器110中的唤醒处理模块可以分析音频数据和降噪处理后的语音信号中是否包含唤醒词,从而确定是否是误唤醒。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purpose input/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(display serial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB 接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT), 全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
本申请实施例中,电子设备100作为协同设备时,可以通过无线通信模块160接收来自播放设备的音频数据。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidou navigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成 电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
本申请实施例中,电子设备100可以作为播放设备,通过扬声器170A向外发出声音信号,其他电子设备可以通过其扬声器采集电子设备100发出的声音信号和人声混合的语音信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风 170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
本申请实施例中,电子设备100可以作为待唤醒设备或者协同设备,通过麦克风170C接收环境中的语音信号。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子 设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
在介绍本申请实施例之前,首先介绍几个语音唤醒中的概念。
唤醒词:用于唤醒电子设备的字符串。比如,唤醒词是“小艺小艺”等。
语音唤醒操作:语音唤醒操作包括唤醒操作和识别操作两个部分。
其中,唤醒操作是指用户说出唤醒词来唤醒电子设备,使得电子设备处于等待语音指令的状态。
语音指令:语音控制电子设备执行相应的语音操作的指令。比如,语音操作可以是“帮我订一张明天上午从北京飞往上海的机票”,“导航回家”,“播放音乐”等等。
识别操作:电子设备被唤醒后,用户说出语音指令来控制电子设备执行相应的语音操作。
目前在进行设备唤醒时,存在以下问题:
(1)如果在播放设备播放音频的同时,用户对唤醒设备进行唤醒,播放设备的音频可能会对唤醒设备造成干扰,导致唤醒设备被误唤醒或者唤醒不了。
例如,当电视在播放电视剧“小姨多鹤”时,音箱放在电视边上,由于电视剧中说出了唤醒词“小姨小姨”,与音箱的唤醒词“小艺小艺”同音,会带来音箱的误唤醒。
(2)目前在进行设备唤醒时,没有考虑唤醒设备与播放设备之间放置间距,播放设备的声音在传播过程中产生了时延,而在这个时间段内,用户对设备进行了唤醒。如果播放设备的声音没有在唤醒设备中缓存下来,唤醒设备接收了播放设备的声音“小姨小姨”之后,唤醒设备就会被误唤醒;因为播放设备与唤醒设备之间的音频数据传输没有安全通信保证,也没有增加时间戳,唤醒设备如果没有缓存从网络接收的音频数据,在网络中有多个设备时,可能唤醒设备先从网络中接收到了物理距离比较远的音频数据和从麦克风中接收到了物理距离比较近的声音,后收到了从网路中接收到了物理距离比较近的声音和从麦克风中接收到了物理距离比较远的音频数据,这种错序的数据会导致误唤醒或者唤醒不了。
图2示出了本申请实施例提供的技术方案适用的一种应用场景的示意图,如图2所示,该应用场景中包括唤醒设备、播放设备1和播放设备2。其中,唤醒设备和播放设备1的间距为2米,唤醒设备和播放设备2的间距为4米,唤醒设备、播放设备1和播放设备2通过本地局域网相连。
播放设备1距离唤醒设备比较近,唤醒设备先接收到了播放设备1通过声波传送的音频和播放设备2通过本地局域网传输的音频数据,后接收到了播放设备2通过声波传送的音频和播放设备1通过本地局域网传输的音频数据。如果唤醒设备1在接收到播放设备1通过声波传送的音频时,利用播放设备2传输的音频数据对该音频进行降噪处理,则可能造成误唤醒或者唤醒不了。
(3)在实际家庭网络中可能会有10来个或者更多智能设备(比如手机、智能手表、智能电视、智能音箱、智能闹钟、空调、台灯、扫地机器人、智能摄像头等),要在这些设备之间传送音频数据,会造成以下问题:第一传送大量的音频数据,会占用带宽;第二会增加计算处理,对于某些功耗敏感的智能设备比如手机、智能手表会产生功耗损失。
(4)解决不了某些计算能力不强的设备的处理问题,比如台灯、智能摄像头等设备,增加这些音频的计算处理,可能占用这些设备比较多的计算资源,会影响设备正常使用。
图3示出了本申请实施例提供的技术方案适用的另一种应用场景的示意图,如图3所 示,该应用场景中包括智能电视、手机、智能摄像头、智能闹铃、智能窗帘、扫地机器人、客厅灯、Pad、智能手表、卧室台灯和智能音箱。这些设备可以通过本地局域网(WiFi路由器)相连。
本申请实施例中,通过把多个智能设备(具有智能语音功能)构建唤醒降噪协同平台,来解决单个设备无法解决外噪声带来误唤醒的问题,同时解决无线的音频数据在家庭的网络内传输的问题,根据设备的功耗和计算能力来选择协同做误唤醒的设备和仲裁设备,从而可以避免让功耗敏感的智能设备和计算能力偏弱的智能设备进行计算。
图4示出了本申请实施例提供的语音唤醒的方法200的示意性流程图,如图4所示,该方法200包括:
S201,播放设备(设备1)将播放的音频数据通过音频播放模块传送给扬声器和音频同步模块。
一种实现方式中,播放设备的音频同步模块可以在音频数据中携带时间戳。
示例性的,播放设备可以将音频数据切分为音频片段(例如,每个音频片段可以为40ms),播放设备可以对每个音频片段增加时间戳,每个音频片段中的时间戳可以用于指示每个音频片段的产生时间,以便于待唤醒设备通过麦克风采集语音信号后,根据每个音频片段的时间戳选择多个音频片段,对语音信号做降噪处理。每个音频片段的产生时间可以是每个音频片段的起始时刻,则对应的结束时刻为起始时刻加上40ms。
本申请实施例中,播放设备和待唤醒设备处于同一局域网时,可以进行网络时间协议(network time protocol,NTP)同步,播放设备通过在音频数据中增加时间戳,待唤醒设备就可以判断在接收缓存中取哪个时间段的音频数据做降噪处理,也可以管理缓存的音频数据做内存回收。S202,音频同步模块利用安全网络将音频数据传送给待唤醒设备(设备2)的音频同步模块。
待唤醒设备(设备2)的音频同步模块可以对该音频数据增加时延处理。
示例性的,待唤醒设备可以对接收的每个音频片段增加30-40ms的时延,例如,在每个音频片段的时间戳上增加30-40ms,以便和通过麦克风接收的音频信号进行时间同步,从而利用增加时延处理后的音频片段对音频信号进行降噪处理。
应理解,一般家庭范围在10米,以声音传播的数据,声音传播的速度大约为330m/s,声音传播的时延大约在30ms(10/330)),考虑到在音频同步模块中增加缓存做30~40ms时延处理的目的是让待唤醒设备(设备2)通过麦克风采集到语音信号时,采用音频同步模块接收到的音频数据对麦克风采集的语音信号进行降噪处理。
应理解,待唤醒设备中可以缓存从播放设备接收的音频片段。
示例性的,待唤醒设备可以缓存20s的音频数据。当待唤醒设备中的缓存存满音频片段后,待唤醒设备可以将缓存中时间戳最早的音频片段丢弃,从而接收新的音频片段。
S203,待唤醒设备(设备2)把音频同步模块接收到的音频数据传送给降噪处理模块和唤醒处理模块。
S204,唤醒处理模块检测该音频数据中是否存在唤醒词。
一个实施例中,该唤醒处理模块可以为数字信号处理器(digital signal processing,DSP)。DSP可以对音频同步模块发送的音频信号进行处理,从而可以分析得到该音频数据中是否包含唤醒词。
一个实施例中,该唤醒处理模块可以包括语音识别(automatic speech recognition,ASR)模块、语义理解(natural language understanding,NLU)模块。
其中,ASR模块主要作用是将用户的语音识别为文字内容,NLU模块的主要作用是理解用户的意图(intent),进行槽位(slot)解析。
示例性的,ASR模块通过将语音转化文字得到的信息为:帮我订一张明天上午10点从北京去上海的机票。
从这句话中,NLU模块可以解析得出表1所示的内容。
表1
Figure PCTCN2020101948-appb-000002
示例性的,智能电视正在播放电视剧《小姨多鹤》,某一时刻,智能电视通过其音频同步模块将音频数据发送给智能音箱的音频同步模块,智能音箱的音频同步模块可以将音频数据发送给ASR模块,ASR模块将该音频数据转化为文字信息(例如,“小姨小姨”),NLU模块确定该音频数据中包含有与唤醒词“小艺小艺”相同发音的唤醒词。
S205,待唤醒设备(设备2)通过麦克风采集语音信号,麦克风将采集的语音信号发送给降噪处理模块。
示例性的,待唤醒设备在t 1时刻通过麦克风采集到语音信号,如果待唤醒设备没有对音频片段增加时延,则播放设备可以将时间戳为t 2时刻的音频片段以及时间戳为t 2时刻以后的音频片段作为进行降噪处理的音频片段,其中,t 2=(t 1-△t),其中,△t为播放设备播放的音频在空气中的传播时延,该时延一般可以为30-40ms。
示例性的,如果待唤醒设备已经对音频片段增加了时延(即待唤醒设备对音频片段的时间戳进行更新,新的时间戳为原始时间戳加时延),则待唤醒设备在t 1时刻通过麦克风采集到语音信号,可以从待唤醒设备的缓存中查找时间戳为t 1时刻的音频片段以及时间戳为t 1时刻以后的音频片段作为进行降噪处理的音频片段。
S206,待唤醒设备(设备2)的降噪处理模块利用音频播放设备(设备1)发送来的音频数据,作为参考信号,对麦克风采集到的语音信号进行降噪处理。
一个实施例中,该降噪处理模块可以为DSP,设备2的音频同步模块和麦克风可以将音频数据和语音信号输入到DSP中,通过DSP同步对音频数据和语音信号进行处理。
一种可能的处理方式中,DSP通过降噪算法对语音信号进行过滤,过滤掉语音信号中设备1播放的音频数据,使得语音信号中只剩下用户说出的人声。然后DSP可以对该人声进行分析,确定人声中是否含有唤醒词。
一种可能的处理方式中,DSP在对语音信号中的音频数据进行过滤得到人声后,可以将人声发送给ASR模块,由ASR模块将语音信号转化为文字信息,最后由NLU模块分析文字信息中是否含有唤醒词。
S207,降噪处理模块将降噪处理后的语音信号发送给唤醒处理模块。
S208,唤醒处理模块使用降噪处理后的语音信号进行处理,确定降噪处理后的语音片段是否包含唤醒词。
若S204中检测出音频数据中包含唤醒词,而S208中降噪处理模块对语音信号中的音频信号进行过滤得到的人声中没有唤醒词,则设备2可以确定结果为误唤醒,设备2不进行唤醒操作。
若S204中检测出音频数据中不包含唤醒词,而S208中降噪处理模块对语音信号中的音频信号进行过滤得到的人声中包含唤醒词,则设备2可以确定进行唤醒操作。
若S204中检测出音频数据中包含唤醒词,而S208中降噪处理模块对语音信号中的音频数据进行过滤得到的人声中包含唤醒词,则设备2可以确定进行唤醒操作。
若S204中检测出音频数据中不包含唤醒词,且S208中降噪处理模块对语音信号中的音频数据进行过滤得到的人声中也不包含唤醒词,则设备2不进行唤醒操作。
本申请实施例的语音唤醒的方法,播放设备可以将播放的音频数据发送给待唤醒设备,待唤醒设备可以通过音频数据对麦克风拾音的语音信号进行过滤,从而可以大大降低设备收到的外噪声产生的误唤醒,可以达到设备消除自噪声误唤醒的效果。
以上介绍了方法200,方法200中介绍了待唤醒设备通过接收播放设备的音频数据从而对麦克风拾音的语音信号进行降噪处理,从而避免待唤醒设备产生误唤醒。目前在家庭环境(或者,其他环境)下带语音能力的设备可能数目很多,诸如手机、智能音箱、智能电视、智能闹钟、智能手表或者其他智能家具设备。有些带智能语音能力的设备为功耗敏感型设备,比如手机、智能手表如果经常做唤醒操作会产生功耗损失。有些带语音能力的设备可能计算能力偏弱,比如台灯、智能摄像头等设备,增加这些音频的计算处理,可能占用这些设备比较多的计算资源,会影响设备正常使用。所以如果采用方法200所示的语音唤醒的方法,当待唤醒设备为功耗敏感型设备或者计算能力偏弱的设备时,有可能对这些待唤醒设备本身造成影响。
下面提供本申请实施例的语音唤醒的方法300和方法400,通过选择误唤醒仲裁设备和协同做误唤醒的设备,可以实现大幅度降低音频数据在网内传输占用大量带宽的问题,同时也可以降低对有些特殊的待唤醒设备造成的影响。
一个实施例中,多个智能设备中选择误唤醒仲裁设备和协同做误唤醒的设备的规则如下:
规则1:仲裁设备在一个房间内选择一个,按照功耗、计算能力(CPU的核数、主频和内存大小中的一个或者多个换算得到)。如果仲裁设备从本地局域网中离开(下电,或者,被用户带离出房间),按照功耗、计算能力重新选择仲裁设备。
示例性的,选择仲裁设备的优先顺序可以依次为智能电视、智能音箱、扫地机器人、智能闹钟、智能摄像头、Pad、手机、客厅灯、智能窗帘、卧室台灯和智能手表。
规则2:按照各个设备与播放设备之间的距离、计算能力和功耗换算,选择多台(例如,2台)协同做误唤醒的设备。每个设备记录协同做误唤醒的设备信息,设备位置发生变化之后,需动态更新协同做误唤醒的设备信息。
下面,将误唤醒仲裁设备简称为仲裁设备,将协同做误唤醒的设备简称为协同设备。多个智能设备之间可以构成相互信任的安全通信网络,比如基于账号(例如,华为账号)、安全证书认证或者个人识别(personal identification number,PIN)码认证等方式。多个智能设备在安全网络下可以实现时间同步。
下面以播放设备为手机、协同设备(即协同做误唤醒的设备)为智能电视和扫地机器 人,仲裁设备(即误唤醒仲裁设备)为智能电视为例进行说明。
图5是示出了本申请实施例提供的语音唤醒的方法300的示意性流程图,如图5所示,该方法300包括:
S301,手机把播放的音频数据通过音频播放模块传送给扬声器和音频同步模块。
应理解,S301可以参考上述S201的描述,为了简洁,在此不再赘述。
S302,手机的音频同步模块利用安全通信网络将音频发送给协同设备(智能电视、扫地机器人)的音频同步模块。
手机可以给音频数据加上时间戳后,发送给协同设备。同一局域网中互联的设备,在协同处理误唤醒时,可以进行NTP同步,手机通过在音频数据中增加时间戳,协同设备就能判断在接收缓存中取哪个时间段的音频数据做降噪处理,也可以管理缓存的音频数据做缓存的内存回收。
应理解,相比于上述方法200,手机可以只将音频数据发送给协同设备。手机可以将音频数据切分为音频片段,在每个音频片段上增加时间戳,具体的处理方式可以参考方法200中的描述,为了简洁,在此不再赘述。
可以理解地,播放设备可以从播放音视频开始,将对应的音频数据发送给协同设备。
可选地,在手机的音频同步模块利用安全通信网络将音频发送给协同设备之前,该方法还包括:
局域网中每个设备根据局域网中多个设备的功耗和计算能力确定仲裁设备以及协同设备。
示例性的,表2示出了多个智能设备的功耗情况。
表2多个智能设备的功耗情况
智能设备 功耗情况
智能电视 长电设备,>50w,功耗不明感
智能音箱 长电设备,~10w,功耗不明感
扫地机器人 充电设备,50~100w,功耗不明感
手机 充电设备,<5000mAh,功耗敏感
智能手表 充电设备,<1000mAh,功耗极为敏感
一种可能的实现方式中,每个智能设备的计算能力可以用每个智能设备的中央处理器(central processing unit,CPU)核数、CPU的频率、内存大小等参数表示。
示例性的,表3示出了多个智能设备的CPU频率。
表3多个智能设备的CPU频率
智能设备 CPU的核数 主频/hz 内存
智能电视 4 ~1.7G 1G~4G
智能音箱 2 ~1.3G 256~512M
扫地机器人 4 ~1G 4G
手机 4~8 ~2G 2~6G
台灯 1 125M <1M
智能摄像头 1 800M 64M
本申请实施例中,同一个局域网中的多个设备之间可以进行数据互通,当有一个新的设备(例如,扫地机器人)加入局域网后,扫地机器人可以将其对应的计算能力和功耗情况的信息发送给局域网中的其他设备。
也就是说,局域网中的每一个设备都可以获知局域网中其他设备的计算能力和功耗情况的信息,每一个设备都可以按照预设规则进行协同设备和仲裁设备的优先级排序。每个设备可以从局域网中多个设备中确定一个仲裁设备以及多个协同设备。
一个实施例中,局域网中的每个设备在获取其他设备的计算能力和功耗情况的信息后,可以按照每一个设备的计算能力和功耗情况,进行优先级排序,从而确定出仲裁设备和协同设备。
例如,每个设备可以根据局域网中所有设备的计算能力和功耗情况进行评分。
示例性的,对于计算能力,可以参考每个设备的主频,评分可以参考表4所示。
表4每个设备的计算能力评分
主频 评分
主频>1.5G 100
1G<主频≤1.5G 80
500M<主频≤1G 60
0<主频≤500M 40
示例性的,对于功耗情况,评分可以参考表5所示。
表5每个设备的功耗情况评分
Figure PCTCN2020101948-appb-000003
每个设备可以按照计算能力评分的50%和功耗能力评分的50%的总和确定局域网中每个设备对应的总评分,按照得分从高到低选择仲裁设备和协同设备。
示例性的,当局域网中包括智能电视、智能音箱、扫地机器人、手机和台灯时,按照上述表2至表5,每个设备可以确定总评分从高到低的顺序为智能电视、智能音箱、扫地机器人、手机和台灯。从而每个设备可以确定出局域网中的仲裁设备为智能电视,确定协同设备为智能音箱和扫地机器人;或者,在仲裁设备也可以作为协同设备的情况下,每个设备可以确定局域网中的仲裁设备为智能电视,协同设备为智能电视和智能音箱。
一个实施例中,若局域网中可能会出现总评分相同的两台设备,例如,出现了两台功耗情况和计算能力相同的智能电视,此时可以按照预设规则选择其中一台作为仲裁设备。
例如,局域网中已经有一台智能电视,当有另一台功耗情况和计算能力相同的智能电视加入局域网时,智能电视除了向局域网中的其他设备发送其功耗情况外,还可以发送其标识信息,该标识信息包括但不限于以下几种:
(1)序列号(serial number,SN)码;
(2)WLAN MAC地址;
(3)蓝牙MAC地址;
(4)设备的只读存储器(read only memory,ROM)版本号。
以序列号为例,每个设备可以选择两台智能电视中序列号较小的一个作为仲裁设备;或者,选择两台智能电视中序列号较大的一个作为仲裁设备。
应理解,设备的标识信息可以不限于以上举例,只要是可以唯一标识该设备的信息均可以作为其标识信息。
还应理解,以上表4和表5所示的计算能力评分和功耗情况评分仅仅是示意性的,本申请实施例对比并不作任何限定。例如,每个设备也可以根据计算能力和功耗情况,采用预设的公式或者函数输出相应的结果,从而进行排序。
还应理解,局域网中每个设备在选择协同设备和仲裁设备时也可以只根据每个设备的功耗情况进行选择;或者,也可以只根据每个设备的计算能力来进行选择。
一个实施例中,局域网中各个设备之间可以约定协同设备和仲裁设备的优先级排序。
例如,协同设备和仲裁设备的优先级排序可以为:智能电视、智能音箱、扫地机器人、智能闹钟、智能摄像头、Pad、手机、客厅灯、智能窗帘、卧室台灯和智能手表。
示例性的,局域网中包括智能电视、智能音箱、扫地机器人、手机和智能手表。则每个设备中可以按照上述优先级顺序确定仲裁设备为智能电视,确定协同设备为智能音箱和扫地机器人;或者,每个设备可以确定仲裁设备为智能电视,确定协同设备为智能电视和智能音箱。
一个实施例中,局域网中可能出现多台相同的设备,例如,有两台智能电视都加入了局域网。局域网中的其他设备可以将两台智能电视中序列号较小的一台智能电视作为仲裁设备。
一个实施例中,若局域网中有设备出现下电或者脱离局域网的情况下,每个设备可以重新确定局域网中的仲裁设备和协同设备。
例如,局域网中包括智能电视、智能音箱、扫地机器人、手机和台灯,每个设备可以周期性的告知其他设备自己是否下电或者是否脱离局域网的信息。当局域网中智能电视下电或者脱离局域网时,局域网中的其他设备可以重新确定仲裁设备为智能音箱,协同设备为扫地机器人和手机;或者,局域网中的其他设备可以重新确定仲裁设备为智能音箱,协同设备为智能音箱和扫地机器人。
考虑到声音在空气中传输会有能量损耗,在确定协同设备时,还可以考虑选择与播放设备距离较近的设备作为协同设备。
上述实施例中以每个设备从局域网中选择出两个协同设备为例进行说明,实际过程中,每个设备可以选择三个或者三个以上的协同设备,在进行误唤醒判断时可以从三个或者三个以上的协同设备中选择出两个设备作为实际进行误唤醒判断的设备。
示例性的,局域网中可以包括手机、智能电视、扫地机器人、智能音箱、能摄像头、智能闹钟、智Pad、客厅灯。局域网中每个设备可以根据上述的确定仲裁设备和协同设备的方式,从局域网中确定仲裁设备为智能电视,协同设备为智能电视、智能音箱、扫地机器人和智能闹钟。
当播放设备播放音频时,播放设备可以根据其与该播放设备之间的距离来确定实际进行误唤醒判断的两个协同设备,并将确定的协同设备的信息告知局域网中的其他设备。
例如,手机为播放设备,手机从局域网中确定可作为协同设备的设备为智能电视、智能音箱、扫地机器人和智能闹钟,那么手机在播放音频时,可以利用WiFi定位技术确定各个协同设备与手机之间的距离,手机可以选择距离手机最近的两个协同设备为实际进行误唤醒判断的协同设备。例如,智能音箱和扫地机器人距离手机的位置比较近,则手机可以将智能音箱和扫地机器人作为实际进行误唤醒判断的协同设备,并将这一信息告知局域网中的其他设备。
一个实施例中,播放设备在播放音频时,可以将其确定的仲裁设备以及协同设备的信息告知局域网中的其他设备。
一个实施例中,局域网中的每个设备根据预定规则确定仲裁设备,播放设备在播放音频时确定协同设备,并将协同设备的信息告知局域网的其他设备。
本申请实施例中,播放设备可以选择距离其较近的多个设备作为协同设备,有助于避免由于声波衰减而降低误唤醒判断准确度的问题。
S303,协同设备把音频同步模块收到的音频数据传送给降噪处理模块和唤醒处理模块。
协同设备的音频同步模块可以对音频数据增加时延处理。具体的处理方式可以参考上述方法200中待唤醒设备增加时延处理的过程,为了简洁,在此不再赘述。
应理解,本申请实施例中,播放设备、协同设备和仲裁设备可以为同一个设备;或者协同设备和仲裁设备可以为同一设备。
S304,协同设备的唤醒处理模块检测是否存在唤醒词。
S305,协同设备通过麦克风采集语音信号,并将将采集到的语音信号发送给降噪处理模块。
S306,协同设备将手机发送来的音频数据作为参考信号,对麦克风采集的语音信号进行降噪处理。
S307,协同设备的降噪处理模块将降噪后的语音信号发送给唤醒处理模块。
S308,协同设备的唤醒处理模块确定降噪后的语音信号是否存在唤醒词。
如果S308中降噪处理后的语音信号中不存在唤醒词,而S304中协同设备的音频同步模块接收到的音频数据中有唤醒词,则协同设备可以确定为误唤醒。
如果S308中降噪处理后的语音信号中不存在唤醒词,而S304中协同设备的音频同步模块接收到的音频数据中不存在唤醒词,则协同设备确定是误唤醒。
如果S308中降噪处理后的语音信号中存在唤醒词,而S304中协同设备的音频同步模块接收到的音频数据中存在唤醒词,则协同设备确定不是误唤醒。
如果S308中降噪处理后的语音信号中存在唤醒词,而S304中协同设备的音频同步模块接收到的音频数据中不存在唤醒词,则协同设备确定不是误唤醒。
播放设备(例如,手机)播放音频时,除了把音频通过扬声器播放以外,还可以将同一音频数据通过安全通信网络传递给协同设备。协同设备通过麦克风采集语音信号后,利用播放设备通过局域网传输的音频数据,对采集到的语音信号进行降噪处理。待语音唤醒设备利用降噪处理后的语音信号进行唤醒处理。
S309,协同设备(扫地机器人)将误唤醒结果发送给智能电视。
S310,智能电视根据扫地机器人返回的误唤醒结果以及智能电视确定的误唤醒结果, 确定最终是否为误唤醒的结果。
一个实施例中,若智能电视确定的结果为误唤醒,且扫地机器人确定的结果为误唤醒,则智能电视可以确定最终的仲裁结果为误唤醒;若智能电视和扫地机器人中有一方确定结果不是误唤醒,则智能电视可以确定最终的仲裁结果为不是误唤醒;若智能电视和扫地机器人都确定不是误唤醒,则智能电视可以确定最终的仲裁结果为不是误唤醒。
S311,如果智能电视确定最终的仲裁结果为误唤醒,则智能电视将误唤醒的仲裁结果发送给其他设备。
本申请实施例中,其他设备也可以采集环境中的语音信号,但是采集到语音信号后可以不进行唤醒操作,而是等待仲裁设备发送的误唤醒结果。在仲裁设备确定了最终的误唤醒结果后,如果仲裁设备确定最终的结果为误唤醒,则仲裁设备可以将误唤醒的结果发送给局域网中的其他设备,其他设备可以根据该误唤醒结果,不进行唤醒。
应理解,其他设备在确定自身不是仲裁设备以及协同设备时,可以不进行误唤醒检测(局域网中的每个设备都可以明确仲裁设备和协同设备)。
可选地,该终裁结果中携带时间戳。此处仲裁设备在仲裁结果中携带时间戳的目的是在某些极端情况下,在很短时间内产生了多个唤醒的音频,该时间戳可以用来区分先后顺序。
应理解,若智能电视确定最终的仲裁结果不是误唤醒,则可以不向其他设备发送该仲裁结果。其他设备可以在采集到环境中的语音信号后的预设时长内,如果没有接收到仲裁设备发送的误唤醒结果,则其他设备可以认为不是误唤醒,从而根据麦克风采集到的语音信号进行唤醒操作。
或者,其他设备可以在接收到播放设备发送的局域网中协同设备的指示后的预设时长内,如果没有接收到仲裁设备发送的误唤醒结果,则其他设备可以认为不是误唤醒,从而根据麦克风采集到的语音信号进行唤醒操作。
还应理解,若智能电视确定最终的仲裁结果不是误唤醒,也可以向其他设备发送不是误唤醒的结果,其他设备可以根据麦克风采集的语音信号进行唤醒操作;其他设备可以不检测唤醒词直接唤醒。
本申请实施例的语音唤醒的方法,通过提前确定仲裁设备和协同设备,由多个协同设备分别确定是否为误唤醒,并由仲裁设备确定最终的误唤醒结果,有助于降低设备收到外噪声所产生的误唤醒;同时,也可以避免一些功耗敏感型设备或者计算能力偏弱的设备进行误唤醒检测,有助于节省设备的功耗。
上面考虑了将多个智能语音设备放在一个空间中的情况,下面考虑将多个语音设备在不同的空间中的情况。
图6示出了本申请实施例的技术方案的另一种应用场景,如图6所示,在用户的客厅和卧室中分别放置有不同的智能设备,其中,在客厅中放置有智能电视、手机、扫地机器人、Pad、客厅灯和智能手表,在卧室中放置有智能音箱、智能闹钟、卧室台灯和智能窗帘等智能语音设备。客厅和卧室中的智能语音设备可以通过本地局域网(WiFi路由器)连接在一起,因为隔了房间,声音传送的质量差甚至有可能传送不过去。
通过WiFi定位技术,各个智能设备可以测量其所在的位置,并能计算出各个智能设备之间是否有墙壁,结合户型图判断出各个智能设备所在的房间。或者根据智能设备注册 网络时的设置信息确定智能设备所在房间。
应理解,本申请实施例中,各个智能设备测量其所在位置的技术可以采用现有技术,也可以未来其他的定位技术,本申请实施例对此并不做限定。
这些智能设备分布在客厅和卧室中,其中,可以在客厅和卧室中分别选择出一个误唤醒仲裁设备,可以按照上述优先策略,在客厅中选择智能电视为误唤醒仲裁设备,在卧室中选择智能音箱为误唤醒仲裁设备。
图7是示出了本申请实施例提供的语音唤醒的方法400的示意性流程图,如图7所示,该方法400包括:
S401,手机把播放的音频数据通过音频播放模块传送给扬声器和音频同步模块。
S402,手机的音频同步模块利用安全通信网络将音频发送给卧室中的协同设备(智能电视和扫地机器人)的音频同步模块。
应理解,方法400中考虑了多个智能设备中每个智能设备的位置,可以确定卧室中有哪些智能设备,客厅中有哪些智能设备。从卧室中的智能设备中选择出卧室中的仲裁设备和协同设备;从客厅中的智能设备中选择出客厅中仲裁设备和协同设备。如图7所示,客厅中的多个设备可以选择智能电视和扫地机器人为协同设备,选择智能电视为仲裁设备。卧室中的多个设备可以选择智能音箱和智能闹钟为协同设备,选择智能音箱为仲裁设备。
还应理解,从卧室中的智能设备中选择协同设备和仲裁设备的方式可以参考上述方法300,从客厅中的智能设备中选择协同设备和仲裁设备的方式也可以参考上述方法300,为了简洁,在此不再赘述。
S403,客厅中协同设备(智能电视和扫地机器人)把自身的音频同步模块收到的音频数据传送给降噪处理模块和唤醒处理模块。
S404,协同设备的唤醒处理模块检测是否存在唤醒词。
S405,协同设备通过麦克风采集语音信号,并将将采集到的语音信号发送给降噪处理模块。
S406,协同设备将手机发送来的音频数据作为参考信号,对麦克风拾音的语音信号进行降噪处理。
S407,协同设备的降噪处理模块将降噪后的语音信号发送给唤醒处理模块。
S408,协同设备的唤醒处理模块确定降噪后的语音信号是否存在唤醒词。
S409,扫地机器人将误唤醒的结果发送给智能电视。
S410,智能电视根据扫地机器人返回的误唤醒的结果和智能电视确定的误唤醒的结果,确定最终是否为误唤醒的结果。
S411,如果智能电视确定最终的仲裁结果为误唤醒,则智能电视将误唤醒的仲裁结果发送给客厅中的他设备。
可以理解地,智能电视可以将最终的仲裁结果发给局域网中的所有其他设备,包括客厅和卧室的设备。
应理解,S403-S411的描述可以参考上述方法300中S303-S311,为了简洁,在此不在赘述。
方法400中,将局域网中的多个设备,可以按照WiFi室内定位技术和户型图结合,测量每个设备在住宅中不同位置,按照每个设备所在的位置进行分组(例如,可以分为位 于卧室中的设备和位于客厅中的设备),并且可以计算出各个设备之间是否有墙壁。这样可以避免播放设备和协同设备之间虽然距离很短,但是有可能之间有墙壁而造成的影响。分组中的设备处于同一物理空间中,之间没有墙壁阻挡,可以提高误唤醒判断的准确度。
例如,客厅中的播放设备为手机,如果不对每个设备所在的位置进行分组,则在选择协同设备时有可能选择位于卧室中的智能音箱和智能闹钟为协同设备,而手机与智能音箱、智能闹钟之间可能隔了墙壁,此时如果让智能音箱和智能闹钟进行误唤醒判断可能造成误唤醒结果不准确。在将多个设备进行空间分组后,客厅的播放设备在播放时可以在客厅中设备中选择协同设备;卧室的播放设备在播放时可以在卧室中的设备中选择协同设备,有助于提高误唤醒判断的准确度。
应理解,对于仲裁设备,可以在卧室和客厅中分别选择一台设备作为仲裁设备,也可以在卧室和客厅中的所有设备中只选择一台设备作为仲裁设备。
本申请实施例的语音唤醒的方法,在不同的空间中选择不同的仲裁设备和协同设备,有助于减少每个空间中的设备收到外噪声产生的误唤醒;同时,也可以避免一些功耗敏感型设备或者计算能力偏弱的设备进行误唤醒检测,有助于节省设备的功耗。
结合上述实施例及相关附图,本申请实施例提供了一种语音唤醒的方法500,该方法可以在如图1所示的具有智能语音功能的电子设备(例如,智能电视、智能音箱或者扫地机器人等)中实现。如图8所示,该方法可以包括以下步骤:
S501,第一电子设备采集该第一电子设备所处环境内的第一语音信号。
应理解,该第一电子设备可以处于局域网中,该局域网中可以还可以包括播放设备和第二电子设备。
可选地,该第一电子设备和第二电子设备为该局域网中计算能力最强的两个设备;和/或,
该第一电子设备和该第二电子设备为该局域网中的非功耗敏感型设备。
示例性的,该第一电子设备可以为上述方法300或者方法400中的智能电视。
该第一电子设备采集该第一电子设备所处环境内的第一语音信号可以为该第一电子设备通过其麦克风采集所处环境内的第一语音信号。
S502,该第一电子设备通过有线或者无线通信方式获取在该第一语音信号的采集时段内该音频对应的音频信号。
示例性的,该第一电子设备所处环境中的播放设备在播放音频时,播放设备可以将该音频对应的音频信号发送给第一电子设备和第二电子设备。如上述方法300中,手机在播放音频时,可以将音频对应的音频数据发送给智能电视和扫地机器人。
可选地,该音频信号中包括时间戳,该时间戳可以用于指示音频信号产生的时间。
可选地,该第一电子设备和该第二电子设备可以由该播放设备选择得到。具体的选择过程可以参考上述方法300中的描述,为了简洁,在此不再赘述。
S503,该第一电子设备根据该第一语音信号和该音频信号,确定第一误唤醒结果。
可选地,该第一电子设备根据该第一语音信号和该音频信号,确定第一误唤醒结果,包括:
该第一电子设备根据该音频信号对该第一语音信号进行降噪处理,得到第二语音信号;
该第一电子设备根据该音频信号和该第二语音信号,确定该第一误唤醒结果。
应理解,该第一电子设备确定第一误唤醒结果的过程可以参考上述方法300中S303-S308的过程,为了简洁,在此不再赘述。
S504,该第一电子设备接收该第二电子设备发送的第二唤醒结果,该第二误唤醒结果由该第二电子设备根据采集的第二语音信号和该音频信号得到。
应理解,该第二电子设备根据采集的第二语音信号和该音频信号确定第二误唤醒结果的过程也可以参考上述方法303-S308的过程,为了简洁,在此不再赘述。
示例性的,该第一电子设备为上述方法300中的智能电视,该第二电子设备可以为上述方法300中的扫地机器人,智能电视可以自己确定第一误唤醒结果,也可以接收扫地机器人发送的第二误唤醒结果。
S505,该第一电子设备根据该第一误唤醒结果和该第二误唤醒结果,确定第三误唤醒结果,该第三误唤醒结果用于指示是否需要对该局域网中待唤醒的设备进行唤醒操作。
示例性的,当该第一误唤醒结果为误唤醒,该第二误唤醒结果为误唤醒时,该第一电子设备确定该第三误唤醒结果为误唤醒;
或者,当该第一误唤醒结果为不是误唤醒,该第二误唤醒结果为误唤醒时,该第一电子设备确定该第三误唤醒结果为不是误唤醒;
或者,当第一误唤醒结果为误唤醒,该第二误唤醒结果为不是误唤醒时,该第一电子设备确定该第三误唤醒结果为不是误唤醒;
或者,当第一误唤醒结果为不是误唤醒,该第二误唤醒结果为不是误唤醒时,该第一电子设备确定该第三误唤醒结果为不是误唤醒。
S506,该第一电子设备向该局域网中除该第一电子设备以外的其他电子设备发送该第三误唤醒结果。
本申请实施例中,局域网中除第一电子设备以外的其他电子设备也可以接收环境中的语音信号。在采集到环境中的语音信号后,其他设备可以先不利用该语音信号进行唤醒操作,而是等待该第一电子设备发送的误唤醒结果。在第一电子设备确定了最终的误唤醒结果为误唤醒后,第一电子设备可以将误唤醒结果发送给局域网中的其他设备,其他设备可以根据误唤醒结果,不进行唤醒操作。
一个实施例中,若第一电子设备确定该第三误唤醒结果为不是误唤醒,则可以不向局域网中的其他设备发送该第三误唤醒结果。示例性的,其他设备可以在接收到语音信号后开启一个定时器,定时器超时前,其他设备可以等待第一电子设备发送的第三误唤醒结果,而不进行唤醒操作;定时器超时后,其他设备可以根据采集到的语音信号进行唤醒操作。
一个实施例中,若第一电子设备确定该第三误唤醒结果为不是误唤醒,也可以向局域网中的其他设备发送该第三误唤醒结果。其他电子设备在接收到该第三误唤醒结果后,可以利用采集到的语音信号进行唤醒操作。
可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申 请的范围。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图9示出了上述实施例中涉及的电子设备600的一种可能的组成示意图,如图9所示,该电子设备600可以包括:采集单元601、获取单元602、确定单元603、接收单元604以及发送单元605。
其中,采集单元601可以用于支持电子设备600执行上述步骤501等,和/或用于本文所描述的技术的其他过程。
获取单元602可以用于支持电子设备600执行上述步骤502等,和/或用于本文所描述的技术的其他过程。
确定单元603可以用于支持电子设备600执行上述步骤503和步骤505等,和/或用于本文所描述的技术的其他过程。
接收单元604可以用于支持电子设备600执行上述步骤504等,和/或用于本文所描述的技术的其他过程。
发送收单元605可以用于支持电子设备600执行上述步骤506等,和/或用于本文所描述的技术的其他过程。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述语音唤醒的方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述采集单元601、获取单元602、确定单元603、接收单元604以及发送单元605执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。
在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
图10示出了本申请实施例的语音唤醒系统700的示意性框图,如图10所示,该语音唤醒系统700包括处于同于局域网中的播放设备701、第一协同设备702、第二协同设备703和仲裁设备704。该局域网中还可以包括更多或者更少的电子设备。例如,该播放设备701和第一协同设备702可以为同一个设备。该播放设备701、第一协同设备702和仲裁设备704可以为同一个设备。
示例性的,该播放设备701可以为上述方法300中的手机,该第一协同设备702可以 为上述方法300中的智能电视,该第二协同设备可以为上述方法300中的扫地机器人,该协同设备可以为上述方法300中的智能电视。
示例性的,该播放设备701可以为上述方法400中的手机,该第一协同设备702可以为上述方法400中的智能电视,该第二协同设备可以为上述方法400中的扫地机器人,该协同设备可以为上述方法400中的智能电视。
本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的语音唤醒的方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的语音唤醒的方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的语音唤醒的方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储 器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (16)

  1. 一种语音唤醒的方法,应用于第一电子设备,所述第一电子设备处于局域网中,所述局域网还包括第二电子设备,其特征在于,包括:
    采集所述第一电子设备所处环境内的第一语音信号;
    通过有线或者无线通信方式获取在所述第一语音信号的采集时段内所述音频对应的音频信号;
    根据所述第一语音信号和所述音频信号,确定第一误唤醒结果;
    接收所述第二电子设备发送的第二唤醒结果,所述第二误唤醒结果由所述第二电子设备根据采集的第二语音信号和所述音频信号得到;
    根据所述第一误唤醒结果和所述第二误唤醒结果,确定第三误唤醒结果,所述第三误唤醒结果用于指示是否需要对所述局域网中待唤醒的设备进行唤醒操作;
    向所述局域网中除所述第一电子设备以外的其他电子设备发送所述第三误唤醒结果。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述第一误唤醒结果和所述第二误唤醒结果,确定第三误唤醒结果,包括:
    在所述第一误唤醒结果为误唤醒,且所述第二误唤醒结果为误唤醒时,确定所述第三误唤醒结果为误唤醒;或者,
    在所述第一误唤醒结果为不是误唤醒,或者所述第二误唤醒结果为不是误唤醒时,确定所述第三误唤醒结果为不是误唤醒。
  3. 根据权利要求1或2所述的方法,其特征在于,所述根据所述第一语音信号和所述音频信号,确定第一误唤醒结果,包括:
    根据所述音频信号对所述第一语音信号进行降噪处理,得到第二语音信号;
    根据所述音频信号和所述第二语音信号,确定所述第一误唤醒结果。
  4. 根据权利要求3中所述的方法,其特征在于,所述根据所述音频信号和所述第二语音信号,确定所述第一误唤醒结果,包括:
    在确定所述音频信号中包括唤醒词,且所述第二语音信号中不包括所述唤醒词时,确定所述第一误唤醒结果为误唤醒。
  5. 根据权利要求1至4中任一项所述的方法,其特征在于,所述音频信号包括时间戳。
  6. 一种电子设备,其特征在于,包括:
    一个或多个处理器;
    一个或多个存储器;
    所述一个或多个存储器存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1至5中任一项所述的方法。
  7. 一种语音唤醒的方法,所述方法应用于语音唤醒的系统中,所述系统中包括处于同一局域网中的播放设备、第一协同设备、第二协同设备和仲裁设备,其特征在于,所述方法包括:
    所述第一协同设备和所述第二协同设备分别采集所处环境内的第一语音信号和第二语音信号;
    在所述第一协同设备和所述第二协同设备分别采集所处环境内的第一语音信号和第二语音信号时,若所述播放设备正在播放音频,所述播放设备通过有线或者无线通信方式向所述第一协同设备和所述第二协同设备发送所述音频对应的音频信号;
    所述第一协同设备根据所述第一语音信号和所述音频信号,确定第一误唤醒结果;
    所述第二协同设备根据所述第二语音信号和所述音频信号,确定第二误唤醒结果;
    所述第一协同设备和所述第二协同设备分别向所述仲裁设备发送所述第一误唤醒结果和所述第二误唤醒结果;
    所述仲裁设备根据所述第一误唤醒结果和所述第二误唤醒结果,确定第三误唤醒结果,所述第三误唤醒结果用于指示是否需要对所述局域网中待唤醒的设备进行唤醒操作;
    所述仲裁设备向所述局域网中除所述仲裁设备以外的其他设备发送所述第三误唤醒结果。
  8. 根据权利要求7所述的方法,其特征在于,所述方法还包括:
    所述播放设备接收所述局域网中除所述播放设备以外的其他设备发送的能力信息,所述能力信息用于指示所述其他设备的计算能力和/或功耗情况;
    所述播放设备根据所述能力信息,从所述局域网中确定所述第一协同设备和所述第二协同设备;
    所述播放设备向所述其他设备发送指示信息,所述指示信息用于指示所述第一协同设备和所述第二协同设备。
  9. 根据权利要求8所述的方法,其特征在于,所述播放设备根据所述能力信息,从所述局域网中确定所述第一协同设备和所述第二协同设备,包括:
    所述播放设备根据所述能力信息,从所述局域网中确定多个协同设备,所述多个协同设备包括所述第一协同设备和所述第二协同设备;
    所述播放设备根据所述播放设备与所述多个协同设备中每个协同设备之间的距离,从所述多个协同设备中确定所述第一协同设备和所述第二协同设备。
  10. 根据权利要求9所述的方法,其特征在于,所述第一协同设备与所述播放设备之间的第一距离或者所述第二协同设备与所述播放设备之间的第二距离小于第三距离,所述第三距离为所述多个协同设备中除所述第一协同设备和所述第二协同设备以外的其他协同设备中任意一个协同设备与所述播放设备之间的距离。
  11. 一种语音唤醒系统,所述系统包括处于同一局域网中的播放设备、第一协同设备、第二协同设备和仲裁设备,其特征在于,
    所述第一协同设备,用于采集所述第一协同设备所处环境内的第一语音信号;
    所述第二协同设备,用于采集所述第二协同设备所处环境内的第二语音信号;
    所述播放设备,用于在所述第一协同设备和所述第二协同设备分别采集所述第一语音信号和所述第二语音信号时,若所述播放设备正在播放音频,通过有线或者无线通信方式向所述第一协同设备和所述第二协同设备发送所述音频对应的音频信号;
    所述第一协同设备还用于根据所述第一语音信号和所述音频信号,确定第一误唤醒结果;
    所述第二协同设备还用于根据所述第二语音信号和所述音频信号,确定第二误唤醒结果;
    所述第一协同设备还用于向所述仲裁设备发送所述第一误唤醒结果;
    所述第二协同设备还用于向所述仲裁设备发送所述第二误唤醒结果;
    所述仲裁设备,用于根据所述第一误唤醒结果和所述第二误唤醒结果,确定第三误唤醒结果,所述第三误唤醒结果用于指示是否需要对所述局域网中待唤醒的设备进行唤醒操作;
    所述仲裁设备还用于向所述局域网中除所述仲裁设备以外的其他设备发送所述第三误唤醒结果。
  12. 根据权利要求11所述的系统,其特征在于,所述播放设备具体用于:
    接收所述局域网中除所述播放设备以外的其他设备发送的能力信息,所述能力信息用于指示所述其他设备的计算能力和/或功耗情况;
    根据所述能力信息,从所述局域网中确定所述第一协同设备和所述第二协同设备;
    向所述其他设备发送指示信息,所述指示信息用于指示所述第一协同设备和所述第二协同设备。
  13. 根据权利要求12所述的系统,其特征在于,所述播放设备具体用于:
    根据所述能力信息,从所述局域网中确定多个协同设备,所述多个协同设备包括所述第一协同设备和所述第二协同设备;
    根据所述播放设备与所述多个协同设备中每个协同设备之间的距离,从所述多个协同设备中确定所述第一协同设备和所述第二协同设备。
  14. 根据权利要求13所述的系统,其特征在于,所述第一协同设备与所述播放设备之间的第一距离或者所述第二协同设备与所述播放设备之间的第二距离小于第三距离,所述第三距离为所述多个协同设备中除所述第一协同设备和所述第二协同设备以外的其他协同设备中任意一个协同设备与所述播放设备之间的距离。
  15. 一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-5中任一项所述的语音唤醒的方法。
  16. 一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-5中任一项所述的语音唤醒的方法。
PCT/CN2020/101948 2019-07-15 2020-07-14 一种语音唤醒的方法和电子设备 WO2021008534A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20840685.0A EP3975171A4 (en) 2019-07-15 2020-07-14 VOCAL AWAKENING PROCESS AND ELECTRONIC DEVICE
JP2022502483A JP7426470B2 (ja) 2019-07-15 2020-07-14 音声起動方法及び電子デバイス
US17/622,158 US20220366906A1 (en) 2019-07-15 2020-07-14 Voice wake-up method and electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910637698.0A CN110364151B (zh) 2019-07-15 2019-07-15 一种语音唤醒的方法和电子设备
CN201910637698.0 2019-07-15

Publications (1)

Publication Number Publication Date
WO2021008534A1 true WO2021008534A1 (zh) 2021-01-21

Family

ID=68219363

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/101948 WO2021008534A1 (zh) 2019-07-15 2020-07-14 一种语音唤醒的方法和电子设备

Country Status (5)

Country Link
US (1) US20220366906A1 (zh)
EP (1) EP3975171A4 (zh)
JP (1) JP7426470B2 (zh)
CN (2) CN112712803B (zh)
WO (1) WO2021008534A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066490A (zh) * 2021-03-16 2021-07-02 海信视像科技股份有限公司 一种唤醒响应的提示方法和显示设备

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712803B (zh) * 2019-07-15 2022-02-25 华为技术有限公司 一种语音唤醒的方法和电子设备
CN111767083A (zh) * 2020-02-03 2020-10-13 北京沃东天骏信息技术有限公司 误唤醒音频数据的收集方法、播放设备、电子设备、介质
CN113497744B (zh) * 2020-03-18 2022-10-04 深圳市云动创想科技有限公司 控制智能家居的方法、系统、可穿戴设备及可读存储介质
CN111696562B (zh) * 2020-04-29 2022-08-19 华为技术有限公司 语音唤醒方法、设备及存储介质
CN111614770B (zh) * 2020-05-22 2022-06-17 云知声智能科技股份有限公司 一种单一唤醒方法、装置和系统
CN112118506B (zh) * 2020-09-29 2022-11-11 英华达(上海)科技有限公司 耳机降噪模式控制方法、系统、设备及存储介质
US11798530B2 (en) 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
CN112822246A (zh) * 2020-12-31 2021-05-18 展讯通信(上海)有限公司 一种设备的识别方法及设备
CN114863936A (zh) * 2021-01-20 2022-08-05 华为技术有限公司 一种唤醒方法及电子设备
US11907039B2 (en) 2021-03-25 2024-02-20 Dell Products L.P. Information handling system location wakeup radio interface synchronized communications
US11943712B2 (en) 2021-03-25 2024-03-26 Dell Products L.P. Information handling system and peripheral group wakeup radio interface synchronized communications
US11435810B1 (en) 2021-03-25 2022-09-06 Dell Products L.P. Information handling system and peripheral bi-directional wakeup interface
US11665645B2 (en) 2021-03-25 2023-05-30 Dell Products L.P. Information handling system and peripheral wakeup radio interface configuration
US11737026B2 (en) 2021-03-25 2023-08-22 Dell Products L.P. Information handling system and peripheral wakeup radio interface synchronized communications
CN113593549A (zh) * 2021-06-29 2021-11-02 青岛海尔科技有限公司 确定语音设备的唤醒率的方法及装置
CN113467333B (zh) * 2021-07-28 2022-12-20 深圳市广和通无线股份有限公司 开机控制电路及开机控制方法
CN114979781A (zh) * 2022-04-22 2022-08-30 海信视像科技股份有限公司 显示设备、设备控制方法及可读存储介质
CN115294983B (zh) * 2022-09-28 2023-04-07 科大讯飞股份有限公司 一种自主移动设备唤醒方法、系统及基站
CN115866845A (zh) * 2022-12-27 2023-03-28 深圳市飞鹤电子有限公司 一种唤醒台灯

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN106098054A (zh) * 2016-06-13 2016-11-09 惠州Tcl移动通信有限公司 一种语音识别中扬声器噪音的过滤装置及方法
CN108369574A (zh) * 2015-09-30 2018-08-03 苹果公司 智能设备识别
CN108766432A (zh) * 2018-07-02 2018-11-06 珠海格力电器股份有限公司 一种控制家电间协同工作的方法
CN109389976A (zh) * 2018-09-27 2019-02-26 珠海格力电器股份有限公司 智能家电设备控制方法、装置、智能家电设备及存储介质
CN110364151A (zh) * 2019-07-15 2019-10-22 华为技术有限公司 一种语音唤醒的方法和电子设备

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008263404A (ja) * 2007-04-12 2008-10-30 Sony Corp 受信装置および受信方法
JP6038635B2 (ja) * 2012-12-21 2016-12-07 株式会社東芝 信号処理装置および信号処理方法
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
DE102015208242A1 (de) * 2015-05-05 2016-11-10 Volkswagen Aktiengesellschaft Fahrzeug, Vorrichtungen, Verfahren und Computerprogramme zur Kontrolle eines Datenverkehrs und einer Datenübertragung an Fahrzeugkomponenten
US9734822B1 (en) * 2015-06-01 2017-08-15 Amazon Technologies, Inc. Feedback based beamformed signal selection
JP6519336B2 (ja) * 2015-06-16 2019-05-29 ヤマハ株式会社 オーディオ機器および同期再生方法
US9779735B2 (en) * 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
DK179415B1 (en) * 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US20180020309A1 (en) * 2016-07-17 2018-01-18 Bose Corporation Synchronized Audio Playback Devices
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6844472B2 (ja) * 2017-08-24 2021-03-17 トヨタ自動車株式会社 情報処理装置
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
US10621981B2 (en) * 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
KR102543693B1 (ko) * 2017-10-17 2023-06-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11064281B1 (en) * 2017-11-15 2021-07-13 Amazon Technologies, Inc. Sending and receiving wireless data
WO2019112660A1 (en) * 2017-12-06 2019-06-13 Google Llc Ducking and erasing audio from nearby devices
CN108564947B (zh) * 2018-03-23 2021-01-05 北京小米移动软件有限公司 远场语音唤醒的方法、装置和存储介质
US10679629B2 (en) * 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
US10762896B1 (en) * 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
US11157696B1 (en) * 2018-06-25 2021-10-26 Amazon Technologies, Inc. Language agnostic phonetic entity resolution
US11490332B2 (en) * 2018-07-12 2022-11-01 Telefonaktiebolaget Lm Ericsson (Publ) Multiplexing of wake-up signals
US11514917B2 (en) * 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
US10878811B2 (en) * 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10692518B2 (en) * 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) * 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
CN109087650B (zh) * 2018-10-24 2022-02-22 北京小米移动软件有限公司 语音唤醒方法及装置
US11183183B2 (en) * 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US20220028380A1 (en) * 2018-12-11 2022-01-27 Lg Electronics Inc. Display device
US11315556B2 (en) * 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
KR20200105302A (ko) * 2019-02-28 2020-09-07 삼성전자주식회사 무선 통신을 확장하기 위한 방법 및 그 전자 장치
WO2020246634A1 (ko) * 2019-06-04 2020-12-10 엘지전자 주식회사 다른 기기의 동작을 제어할 수 있는 인공 지능 기기 및 그의 동작 방법
WO2021146661A2 (en) * 2020-01-17 2021-07-22 Syntiant Systems and methods for generating wake signals from known users

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN108369574A (zh) * 2015-09-30 2018-08-03 苹果公司 智能设备识别
CN106098054A (zh) * 2016-06-13 2016-11-09 惠州Tcl移动通信有限公司 一种语音识别中扬声器噪音的过滤装置及方法
CN108766432A (zh) * 2018-07-02 2018-11-06 珠海格力电器股份有限公司 一种控制家电间协同工作的方法
CN109389976A (zh) * 2018-09-27 2019-02-26 珠海格力电器股份有限公司 智能家电设备控制方法、装置、智能家电设备及存储介质
CN110364151A (zh) * 2019-07-15 2019-10-22 华为技术有限公司 一种语音唤醒的方法和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3975171A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066490A (zh) * 2021-03-16 2021-07-02 海信视像科技股份有限公司 一种唤醒响应的提示方法和显示设备
CN113066490B (zh) * 2021-03-16 2022-10-14 海信视像科技股份有限公司 一种唤醒响应的提示方法和显示设备

Also Published As

Publication number Publication date
CN112712803A (zh) 2021-04-27
EP3975171A1 (en) 2022-03-30
CN112712803B (zh) 2022-02-25
EP3975171A4 (en) 2022-08-17
US20220366906A1 (en) 2022-11-17
JP2022541207A (ja) 2022-09-22
CN110364151B (zh) 2024-01-30
CN110364151A (zh) 2019-10-22
JP7426470B2 (ja) 2024-02-01

Similar Documents

Publication Publication Date Title
WO2021008534A1 (zh) 一种语音唤醒的方法和电子设备
WO2021000876A1 (zh) 一种语音控制方法、电子设备及系统
WO2020244623A1 (zh) 一种空鼠模式实现方法及相关设备
CN111369988A (zh) 一种语音唤醒方法及电子设备
WO2020168968A1 (zh) 一种具有折叠屏的电子设备的控制方法及电子设备
WO2021023046A1 (zh) 一种电子设备控制方法及一种电子设备
WO2021017909A1 (zh) 一种通过nfc标签实现功能的方法、电子设备及系统
WO2021000817A1 (zh) 环境音处理方法及相关装置
WO2021013196A1 (zh) 一种同时响应的方法及设备
WO2022017474A1 (zh) 任务处理方法及相关装置
CN113691271B (zh) 数据传输方法及可穿戴设备
WO2022007944A1 (zh) 一种设备控制方法及相关装置
WO2021238387A1 (zh) 一种执行应用的方法及装置
CN111835907A (zh) 一种跨电子设备转接服务的方法、设备以及系统
CN113676339B (zh) 组播方法、装置、终端设备及计算机可读存储介质
WO2022206825A1 (zh) 一种调节音量的方法、系统及电子设备
WO2022161077A1 (zh) 语音控制方法和电子设备
WO2021043250A1 (zh) 一种蓝牙通信方法及相关装置
WO2020078267A1 (zh) 在线翻译过程中的语音数据处理方法及装置
CN114116610A (zh) 获取存储信息的方法、装置、电子设备和介质
CN113467904A (zh) 确定协同模式的方法、装置、电子设备和可读存储介质
WO2024055881A1 (zh) 时钟同步方法、电子设备、系统及存储介质
WO2022222780A1 (zh) 音频输出方法、媒体文件的录制方法以及电子设备
WO2023226645A1 (zh) 通信方法、通信系统及电子设备
WO2023237087A1 (zh) 易孕期的预测方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20840685

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020840685

Country of ref document: EP

Effective date: 20211221

ENP Entry into the national phase

Ref document number: 2022502483

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE