WO2023029442A1 - 智能设备的控制方法、装置、智能设备和可读存储介质 - Google Patents
智能设备的控制方法、装置、智能设备和可读存储介质 Download PDFInfo
- Publication number
- WO2023029442A1 WO2023029442A1 PCT/CN2022/081944 CN2022081944W WO2023029442A1 WO 2023029442 A1 WO2023029442 A1 WO 2023029442A1 CN 2022081944 W CN2022081944 W CN 2022081944W WO 2023029442 A1 WO2023029442 A1 WO 2023029442A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- wake
- smart device
- information
- threshold
- similarity
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012790 confirmation Methods 0.000 claims description 82
- 238000010411 cooking Methods 0.000 claims description 4
- 238000005406 washing Methods 0.000 claims description 4
- 230000002618 waking effect Effects 0.000 abstract description 23
- 241001672694 Citrus reticulata Species 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000001960 triggered effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000037007 arousal Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005057 refrigeration Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Abstract
智能设备的控制方法,包括:获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值(102);确定第一语音信息和智能设备的第一预设唤醒信息的第一相似度(104);根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段(106)。使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,降低了说方言地区用户对智能设备的唤醒难度,提升用户的使用体验。还涉及智能设备的控制装置、智能设备和可读存储介质。
Description
本申请要求于2021年08月30日提交到中国国家知识产权局的申请号为202111001832.1、发明名称为“智能设备的控制方法、装置、智能设备和可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及智能设备技术领域,具体而言,涉及一种智能设备的控制方法、一种智能设备的控制装置、一种智能设备和一种可读存储介质。
相关技术中,智能设备的语音唤醒随之而来的就是语音控制。在目前的主流控制方式中,唤醒率的控制一般是通过唤醒阈值控制。常见的唤醒阈值为常数,并根据不同机型,声学结构来调整。如果唤醒阈值过低,那么有一些和唤醒词相近的词语就可以唤醒智能设备,造成误唤醒。如果唤醒阈值过高,那么就会给用户产生一种设备很难唤醒的感觉。由于中国地域广泛,方言种类多,口音差异化大,在应用于某些特定地区时,由于口音和普通话相差比较大,一些人群普通话不标准,导致设备唤醒体验很差。
发明内容
本申请旨在至少解决或改善现有技术或相关技术中存在的技术问题之一。
为此,本申请的第一方面提供了一种智能设备的控制方法。
本申请的第二方面提供了一种智能设备的控制装置。
本申请的第三方面提供了一种智能设备。
本申请的第四方面提供了另一种智能设备。
本申请的第五方面提供了一种可读存储介质。
有鉴于此,本申请的第一方面提出了一种智能设备的控制方法,包括: 获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;确定第一语音信息和智能设备的第一预设唤醒信息的第一相似度;根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段。
本申请提供的智能设备的控制方法,利用数据统计,预先设置地区和第一唤醒阈值之间的对应关系,其中,不同地区对应的第一唤醒阈值可以相同或不相同。当用户通过第一语音信息尝试唤醒智能设备时,比较该第一语音信息和用于唤醒智能设备的唤醒词(第一预设唤醒信息),并确定两者之间的第一相似度,也即第一语音信息的置信度。其中,第一相似度越高,说明第一语音信息与第一预设唤醒信息越接近,那么唤醒智能设备的成功率越高。同时,通过智能设备的所在地和预设的地区和第一唤醒阈值之间的对应关系查询该地理位置对应的第一唤醒阈值。此时,比较第一相似度和对应于地理位置的第一唤醒阈值,通过比较结果来判断用户发出的语音是否满足唤醒条件,并在满足条件时唤醒该智能设备。从而通过为不同地区设定对应的第一唤醒阈值,不再采用固定的唤醒阈值,使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,有效降低了说方言地区用户对智能设备的唤醒难度,即使是普通话较差的老人和儿童也能够正常使用智能设备,避免出现唤醒难的问题,大大提升用户的使用体验。
其中,语音唤醒(keyword spotting,KWS)是指在连续语流中实时检测出用户语音中的特定片段。语音唤醒的目的就是将设备从休眠状态激活至运行状态。
可以理解的是,第一唤醒阈值对应的地理位置可以是街区、省、市甚至是国家,可根据用户的语言习惯的地域差异合理设置。
根据本申请提供的上述的一种智能设备的控制方法,还可以具有以下附加技术特征:
在上述技术方案中,进一步地,根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段,包括:基于第一相似度大于第一唤醒阈值,控制智能设备进入唤醒阶段;基于第一相似度小于或等于第一唤醒阈值,输出确认提示信息;根据确认提示信息的确认指示,控制智能设 备进入唤醒阶段。
在该技术方案中,比较第一相似度和第一唤醒阈值之后,若第一相似度高于(大于)第一唤醒阈值,说明第一语音信息和用于唤醒智能设备的唤醒词的相似度较高,满足唤醒条件,则唤醒智能设备,以便于智能设备运行。若第一相似度不高于(小于或等于)第一唤醒阈值,也即第一语音信息和唤醒词的相似度较低,不满足唤醒条件,此时向用户发出确认提示信息,以提醒用户唤醒失败并给予用户二次确认的机会。用户可通过下达确认指示来确认用户需要通过第一语音信息唤醒智能设备。当智能设备接收到确认指示后,同样能够唤醒智能设备。
通过上述技术方案,一方面,通过针对地区的第一唤醒阈值作为唤醒智能设备的依据,使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,有效降低了说方言地区用户对智能设备的唤醒难度。另一方面,在唤醒失败的情况下,用户可进行二次确认,为不同地区的用户使用智能设备提供了方便。
进一步地,统计指定时间段(例如,一周或一个月)内根据确认指示唤醒智能设备的唤醒次数。若唤醒次数大于预设次数,说明在近期的只能设备使用过程中,频繁出现首次唤醒识别失败,需要通过二次确认实现唤醒操作的情况,可能是预存的该地区对应的第一唤醒阈值并不符合用户的语言习惯。此时,按照预设偏移量适当降低该地区对应的第一唤醒阈值,并进行存储。进而保证下次该用户触发唤醒事件后,能够成功唤醒智能设备。
在上述任一技术方案中,进一步地,输出确认提示信息,包括:基于第一相似度大于智能设备的第二唤醒阈值,输出确认提示信息;其中,第二唤醒阈值小于第一唤醒阈值。
在该技术方案中,在第一相似度大于略低于第一唤醒阈值的第二唤醒阈值的情况下,才会触发确认提示信息的输出。从而通过第二唤醒阈值对用户的唤醒需求进行进一步判断。从而在确保用户能够成功唤醒智能设备的同时,避免智能设备频繁的发出确认提示信息,对用户造成的打扰,提升用户的使用体验。
可以理解的是,第一唤醒阈值和第二唤醒阈值之间的差值不宜过大或过小。差值过大也即第二唤醒阈值远小于第一唤醒阈值,若出现唤醒失败的情况,智能设备会频繁的发出确认提示信息,对用户造成打扰。差值过小又无法区分第一唤醒阈值和第二唤醒阈值之间的差异,降低对用户滑行需求的判断准确性。
在上述任一技术方案中,进一步地,智能设备的控制方法还包括:基于输出确认提示信息,获取预设时长内的第二语音信息;确定第二语音信息和智能设备的第二预设唤醒信息的第二相似度;基于第二相似度大于预设相似度,生成确认指示。
在该技术方案中,在智能设备向用户发出确认提示信息,也即第一相似度高于第二唤醒阈值之后,用户仍可以通过语音的形式对本次唤醒事件进行二次确认,从而在唤醒失败的情况下,用户可通过语音进行二次确认,为不同地区的用户使用智能设备提供了方便。
具体地,在发出确认提示信息的情况下,控制智能设备开始采集第二语音信息,若在预设时长内采集到第二语音信息,则比较第二语音信息和用于确定唤醒事件的第二预设唤醒信息。当检测到第二语音信息相对于第二预设唤醒信息的第二相似度大于预设相似度,说明语音匹配成功,此时生成确认指示,以唤醒智能设备。若预设时长内未采集到第二语音信息或第二相似度小于或等于预设相似度,则代表本次唤醒事件的二次确认失败,则忽略由第一语音信息触发的唤醒事件,并继续保持智能设备的休眠状态。
在上述任一技术方案中,进一步地,智能设备的控制方法还包括:基于输出确认提示信息,获取预设时长内的智能设备的输入操作信息;基于输入操作信息与预设操作信息相同,生成确认指示。
在该技术方案中,在智能设备向用户发出确认提示信息,也即第一相似度高于第二唤醒阈值之后,用户还可以对智能设备的输入操作对本次唤醒事件进行二次确认,从而在唤醒失败的情况下,用户可通过语音进行二次确认,为不同地区的用户使用智能设备提供了方便。
具体地,与语音确认基于相同的原理,在智能设备向用户发出确认提示信息的情况下,控制智能设备开始采集输入操作信息,若在预设时长内 采集到用户对智能设备的输入操作信息,则比较输入操作信息和预设操作信息。当检测到预设操作信息与输入操作信息相同,说明操作信息匹配成功,此时生成确认指示,以唤醒智能设备。若预设时长内未采集到输入操作信息或预设操作信息与输入操作信息不相同,则代表本次唤醒事件的二次确认失败,则忽略由第一语音信息触发的唤醒事件,并继续保持智能设备的休眠状态。
在上述任一技术方案中,进一步地,智能设备的控制方法还包括:确定第一语音信息对应的用户信息;根据用户信息对应的第三唤醒阈值,更新第一唤醒阈值。
在该技术方案中,在通过比较第一唤醒阈值和第一语音信息来唤醒智能设备之前,先识别出发出第一语音信息用户的用户信息。并利用与该用户关联的第三唤醒阈值对第一唤醒阈值进行修正,并存储修正后的第一唤醒阈值。那么在同一个用户下次需要唤醒智能设备的情况下,通过地理位置匹配出的第一唤醒阈值为通过第三唤醒阈值修正后的第一唤醒阈值。使得智能设备唤醒条件不仅能够符合某个地区内大部分人群的语言习惯,还能针对个人进行动态调整,进一步降低了不同地区不同人群的唤醒难度,提高智能设备的可靠性。
在上述任一技术方案中,进一步地,智能设备的控制方法还包括:响应于智能设备的配置指令,获取第三语音信息;根据第三语音信息的声纹特征确定用户信息;确定第三语音信息和第一预设唤醒信息的第三相似度;对第三相似度和第一唤醒阈值进行加权运算,得到用户信息对应的第三唤醒阈值。
在该技术方案中,用户可通过对智能设备下达配置指令,为智能设备的设定与用户信息绑定的第三唤醒阈值。其中,配置指令用于设定第三唤醒阈值,配置指令包括智能设备首次启动或初始化后的唤醒指示、智能设备配置模式的控制指示等。
具体地,当接收到配置指令,智能设备开始采集第三语音信息。通过第三语音信息的声纹特征匹配出发出第三语音信息用户的用户信息。比较第三语音信息与第一预设唤醒信息,并确定两者之间的第三相似度。分别 计算第三相似度与对应的第三权重的乘积和根据地理位置匹配出的第一唤醒阈值与对应的第四权重的乘积,将两个乘积相加得到第三唤醒阈值与用户信息进行绑定,以完成针对用户个人的第三唤醒阈值的配置操作。以在通过地区调整第一唤醒阈值的同时,通过用户个人的语言习惯进一步更新第一唤醒阈值,有利于降低不同地区不同人群的唤醒难度,提高智能设备的可靠性。
其中,声纹特征包括节奏感特征、音调特征和音素特征等。
在上述任一技术方案中,进一步地,智能设备的控制方法还包括:基于智能设备处于唤醒阶段,获取预设时长内的第四语音信息;根据第四语音信息对应的控制指令,控制智能设备运行。
在该技术方案中,在智能设备已经被唤醒的情况下,用户可通过第四语音信息对智能设备下达控制指令,以使智能设备按照该控制指令运行。从而,利用语音方便用户对空调进行精准地控制。省去手动调节智能设备的工作,更加方便、快捷。
具体地,识别第四语音信息中文本,如“温度”、“制冷”、“增大档位”等。利用识别出的文本,从预先存储在存储器中的控制指令列表中去查找。如果查找到,则可确定第四语音信息对应的控制指令。如果没有查找到,则忽略该第四语音信息,并输出通知信息,以通知用户控制失败。
在上述任一技术方案中,进一步地,智能设备的控制方法还包括:基于预设时长内未采集到第四语音信息;控制智能设备退出唤醒阶段。
在该技术方案中,在智能设备已经被唤醒的情况下,若在预设时长内未采集到第四语音信息,说明用户不想运行智能设备了,则控制智能设备退出唤醒阶段,重新进入休眠状态,有利于降低智能设备的运行功耗,节省智能设备的运行成本。
在上述任一技术方案中,进一步地,确定第一语音信息和智能设备的第一预设唤醒信息的第一相似度,包括:识别第一语音信息的第一语音特征;比对第一语音特征和第一预设唤醒信息中的第二语音特征,确定第一相似度。
在该技术方案中,对第一语音信息进行特征提取处理,获得第一语音 特征。通过对第一语音信息包含的第一语音特征和第一预设唤醒信息中的第二语音特征进行比对,第一语音特征对应于第二语音特征的概率,即为第一语音信息和第一预设唤醒信息的第一相似度,以便于通过第一相似度,实现智能设备的语音唤醒功能。
其中,语音特征包括音节结构、发音特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征等。
根据本申请的第二方面,提出了一种智能设备的控制装置,包括:获取模块,用于获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;确定模块,用于确定第一语音信息和智能设备的第一预设唤醒信息的第一相似度;唤醒模块,用于根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段。
在该技术方案中,利用数据统计,预先设置地区和第一唤醒阈值之间的对应关系,其中,不同地区对应的第一唤醒阈值可以相同或不相同。当用户通过第一语音信息尝试唤醒智能设备时,比较该第一语音信息和用于唤醒智能设备的唤醒词(第一预设唤醒信息),并确定两者之间的第一相似度,也即第一语音信息的置信度。其中,第一相似度越高,说明第一语音信息与第一预设唤醒信息越接近,那么唤醒智能设备的成功率越高。同时,通过智能设备的所在地和预设的地区和第一唤醒阈值之间的对应关系查询该地理位置对应的第一唤醒阈值。此时,比较第一相似度和对应于地理位置的第一唤醒阈值,通过比较结果来判断用户发出的语音是否满足唤醒条件,并在满足条件时唤醒该智能设备。从而通过为不同地区设定对应的第一唤醒阈值,不再采用固定的唤醒阈值,使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,有效降低了说方言地区用户对智能设备的唤醒难度,即使是普通话较差的老人和儿童也能够正常使用智能设备,避免出现唤醒难的问题,大大提升用户的使用体验。
根据本申请的第三方面,提出了一种智能设备,包括第二方面提出的智能设备的控制装置。因此该智能设备具备第二方面提出的智能设备的控制装置的全部有益效果,为避免重复,不再过多赘述。
根据本申请的第四方面,提出了另一种智能设备,包括:存储器,存储器储存有程序或指令;处理器,与存储器连接,处理器执行程序或指令时实现第一方面提出的智能设备的控制方法。因此该智能设备具备第一方面提出的智能设备的控制方法的全部有益效果,为避免重复,不再过多赘述。
进一步地,智能设备包括:空调器、电视、烹饪器具、冰箱、洗衣机等电器设备和终端设备。其中,终端设备包括手机、平板电脑、计算机、笔记本电脑、可穿戴设备、车载终端等。
根据本申请的第五方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时执行第一方面提出的智能设备的控制方法。因此该可读存储介质具备第一方面提出的智能设备的控制方法的全部有益效果,为避免重复,不再过多赘述。
本申请的附加方面和优点将在下面的描述部分中变得明显,或通过本申请的实践了解到。
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本申请一个实施例的智能设备的控制方法的流程示意图之一;
图2示出了本申请一个实施例的智能设备的控制方法的流程示意图之二;
图3示出了本申请一个实施例的智能设备的控制方法的流程示意图之三;
图4示出了本申请一个实施例的智能设备的控制方法的流程示意图之四;
图5示出了本申请一个实施例的智能设备的控制方法的流程示意图之五;
图6示出了本申请一个实施例的智能设备的控制方法的流程示意图之 六;
图7示出了本申请一个实施例的智能设备的控制方法的流程示意图之七;
图8示出了本申请一个具体实施例的智能设备的控制方法的流程示意图;
图9示出了本申请一个实施例的智能设备的控制装置的结构框图;
图10示出了本申请一个实施例的智能设备的结构框图。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图10描述根据本申请一些实施例所述的智能设备的控制方法、装置、智能设备和可读存储介质。
实施例1:
如图1所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤102,获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;
其中,在智能设备中预先设置GPS(Global Positioning System,全球定位系统)模块、WIFI(Wireless Fidelity,无线保真),和/或基站定位模块等,以获取智能设备所处的地理位置。
步骤104,确定第一语音信息和智能设备的第一预设唤醒信息的第一相似度;
步骤106,根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段。
其中,语音唤醒(keyword spotting,KWS)是指在连续语流中实时检测出用户语音中的特定片段。语音唤醒的目的就是将设备从休眠状态激活至运行状态。
在该实施例中,利用数据统计,预先设置地区和第一唤醒阈值之间的对应关系,其中,不同地区对应的第一唤醒阈值可以相同或不相同。当用户通过第一语音信息尝试唤醒智能设备时,比较该第一语音信息和用于唤醒智能设备的唤醒词(第一预设唤醒信息),并确定两者之间的第一相似度,也即第一语音信息的置信度。其中,第一相似度越高,说明第一语音信息与第一预设唤醒信息越接近,那么唤醒智能设备的成功率越高。同时,通过智能设备的所在地和预设的地区和第一唤醒阈值之间的对应关系查询该地理位置对应的第一唤醒阈值。此时,比较第一相似度和对应于地理位置的第一唤醒阈值,通过比较结果来判断用户发出的语音是否满足唤醒条件,并在满足条件时唤醒该智能设备。从而通过为不同地区设定对应的第一唤醒阈值,不再采用固定的唤醒阈值,使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,有效降低了说方言地区用户对智能设备的唤醒难度,即使是普通话较差的老人和儿童也能够正常使用智能设备,避免出现唤醒难的问题,大大提升用户的使用体验。
在一些实施例中,智能设备设置有语音采集装置(例如麦克风阵列)、扬声器、处理器以及存储器。唤醒所需的第一预设唤醒信息同样是预先设定的,可以是中文唤醒词,也可以是英文唤醒词,还可以是方言唤醒词,如“芝麻开门”、“Hello小美”等。在智能设备的配置阶段,用户可通过麦克风阵列录入第一预设唤醒信息,然后将第一预设唤醒信息保存至存储器中。同理,用户想开启智能设备时,通过麦克风阵列采集用户发出的第一语音信息。
可以理解的是,第一唤醒阈值对应的地理位置可以是街区、省、市甚至是国家,可根据用户的语言习惯的地域差异合理设置。例如,以省市为地区划分边界,并设定北方的省份的第一唤醒阈值为80%,南方的省份的第一唤醒阈值为60%。
进一步地,获取智能设备周围的环境噪音信息;根据环境噪音信息修正第一唤醒阈值。从而根据智能设备所处环境的不同,动态调整本次唤醒程序的第一唤醒阈值。例如,环境噪音信息高于预设噪音,说明当前环境声音较为吵闹,不利于语音信息采集,此时可适当降低第一唤醒阈值,而在安静的环境中则无需修改第一唤醒阈值,从而提高唤醒词识别的准确率和可靠性。
值得一提的是,为了提高对第一语音信息的识别度,可对第一语音信息进行降噪处理。具体地,先确定声源的位置信息(坐标、距离、角度等),再根据声源的位置信息采用对应的降噪算法。从而去除环境噪声,达到噪声和回声抑制。
实施例2:
如图2所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤202,获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;
步骤204,确定第一语音信息对应于预设唤醒词的第一相似度;
步骤206,第一相似度是否大于第一唤醒阈值,若是,进入步骤208,若否,进入步骤210;
步骤208,唤醒智能设备;
步骤210,输出确认提示信息;
步骤212,是否检测到确认指示,若是,进入步骤210,若否,进入步骤214;
步骤214,忽略此次唤醒事件。
在该实施例中,通过比对第一语音信息对应于预设唤醒词(第一预设唤醒信息)来确定二者之间的第一相似度,再比较第一相似度和第一唤醒阈值。若第一相似度高于(大于)第一唤醒阈值,说明第一语音信息和用于唤醒智能设备的唤醒词的相似度较高,满足唤醒条件,则唤醒智能设备,以便于智能设备运行。若第一相似度不高于(小于或等于)第一唤醒阈值,也即第一语音信息和唤醒词的相似度较低,不满足唤醒条件,此时向用户 发出确认提示信息,以提醒用户唤醒失败并给予用户二次确认的机会。用户可通过下达确认指示来确认用户需要通过第一语音信息唤醒智能设备。当智能设备接收到确认指示后,同样能够唤醒智能设备。
通过该实施例,一方面,通过针对地区的第一唤醒阈值作为唤醒智能设备的依据,使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,有效降低了说方言地区用户对智能设备的唤醒难度。另一方面,在唤醒失败的情况下,用户可进行二次确认,为不同地区的用户使用智能设备提供了方便。
例如,对于应用于北方地区的智能设备,该地区人群普通话推广率高,则对应的第一唤醒阈值较高。但若说方言朋友来到北方地区试图唤醒智能设备时,极易出现唤醒失败的情况。此时,方言朋友可通过其它方式的确认指示来确认本次唤醒操作,使得智能设备能够成功幻想能够并运行,提高只能设备的实用性和可靠性。
具体地,输出确认提示信息包括显示确认提示信息或播放确认提示信息。确认提示信息包括文字、图像、灯光等,本申请实施例不作具体限定。
进一步地,统计指定时间段(例如,一周或一个月)内根据确认指示唤醒智能设备的唤醒次数。若唤醒次数大于预设次数,说明在近期的只能设备使用过程中,频繁出现首次唤醒识别失败,需要通过二次确认实现唤醒操作的情况,可能是预存的该地区对应的第一唤醒阈值并不符合用户的语言习惯。此时,按照预设偏移量适当降低该地区对应的第一唤醒阈值,并进行存储。进而保证下次该用户触发唤醒事件后,能够成功唤醒智能设备。
具体地,获取确认提示信息的确认指示包括以下两种方式。
方式一:在智能设备向用户发出确认提示信息,也即第一相似度高于第二唤醒阈值之后,获取预设时长内的第二语音信息,通过第二语音信息对本次唤醒事件进行二次确认,从而在唤醒失败的情况下,用户可通过语音进行二次确认,为不同地区的用户使用智能设备提供了方便。
其中,在发出确认提示信息的情况下,控制智能设备开始采集第二语音信息,若在预设时长内采集到第二语音信息,则比较第二语音信息和用 于确定唤醒事件的第二预设唤醒信息。当检测到第二语音信息相对于第二预设唤醒信息的第二相似度大于预设相似度,说明语音匹配成功,此时生成确认指示,以唤醒智能设备。若预设时长内未采集到第二语音信息或第二相似度小于或等于预设相似度,则代表本次唤醒事件的二次确认失败,则忽略由第一语音信息触发的唤醒事件,并继续保持智能设备的休眠状态。
值得一提的是,第一预设唤醒信息或第二预设唤醒信息可以是的声纹特征,也可以是词语的文字结构特征,亦可以是声纹特征和文字结构特征相结合。预设时长为响应第二语音信息的时间。第一预设唤醒信息和第二预设唤醒信息可以相同也可以不同,而且第一预设唤醒信息和第二预设唤醒信息可与智能设备的所属用户的用户信息进行绑定,也即不同用户可设置不同的唤醒词,从而防止他人对智能设备进行唤醒操作,提高智能设备的使用安全性。
例如,用户发出内容为“小美小美”的第一语音信息,由于该用户使用了方言导致第一语音信息相对于第一预设唤醒信息的第一相似度低于第一唤醒阈值,但第一相似度高于第二唤醒阈值。此时空调器(智能设备)的指示灯开始按规律闪烁,以提醒用户进行二次确认。用户发出内容为“确认”的第二语音信息。提取出第二语音信息中的关键字“确认”,通过温习结构特征的对比,可以确定第二语音信息与第二预设唤醒信息相同。则唤醒空调器。
方式二:在智能设备向用户发出确认提示信息,也即第一相似度高于第二唤醒阈值之后,获取预设时长内的输入操作信息。通过输入操作信息对本次唤醒事件进行二次确认,从而在唤醒失败的情况下,用户可通过语音进行二次确认,为不同地区的用户使用智能设备提供了方便。
其中,与语音确认基于相同的原理,在智能设备向用户发出确认提示信息的情况下,控制智能设备开始采集输入操作信息,若在预设时长内采集到用户对智能设备的输入操作信息,则比较输入操作信息和预设操作信息。当检测到预设操作信息与输入操作信息相同,说明操作信息匹配成功,此时生成确认指示,以唤醒智能设备。若预设时长内未采集到输入操作信息或预设操作信息与输入操作信息不相同,则代表本次唤醒事件的二次确 认失败,则忽略由第一语音信息触发的唤醒事件,并继续保持智能设备的休眠状态。
示例性的,输入操作信息输入方式和输入内容。输入方式包括点击输入、按键输入、指纹输入、手势输入等。输入内容包括:指纹、手势、用户信息、指定指令等。其中,按键输入包括但不限于对智能设备的电源键、主菜单键以及用于控制智能设备的应用程序的控制按键的单击输入、双击输入、长按输入、组合按键输入等。当然输入操作信息还可以是用户对智能设备的其它操作信息,本申请实施例对操作的方式和内容不作具体限定,可为任一可实现的方式。
例如,用户在智能设备的指令检测区域做出“剪刀手”的手势,通过该手势的特征与预设手势特征(预设操作信息)进行对比,确定“剪刀手”的手势与预设操作信息匹配,则生成确认指示。
实施例3:
如图3所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤302,获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;
步骤304,确定第一语音信息对应于预设唤醒词的第一相似度;
步骤306,第一相似度是否大于第一唤醒阈值,若是,进入步骤308,若否,进入步骤310;
步骤308,唤醒智能设备;
步骤310,第一相似度是否大于第二唤醒阈值,若是,进入步骤312,若否,进入步骤316;
步骤312,输出确认提示信息;
步骤314,是否检测到确认指示,若是,进入步骤308,若否,进入步骤316;
步骤316,忽略此次唤醒事件。
在该实施例中,在第一相似度大于略低于第一唤醒阈值的第二唤醒阈值的情况下,才会触发确认提示信息的输出。从而通过第二唤醒阈值对用 户的唤醒需求进行进一步判断。从而在确保用户能够成功唤醒智能设备的同时,避免智能设备频繁的发出确认提示信息,对用户造成的打扰,提升用户的使用体验。
可以理解的是,第一唤醒阈值和第二唤醒阈值之间的差值不宜过大或过小。差值过大也即第二唤醒阈值远小于第一唤醒阈值,若出现唤醒失败的情况,智能设备会频繁的发出确认提示信息,对用户造成打扰。差值过小又无法区分第一唤醒阈值和第二唤醒阈值之间的差异,降低对用户滑行需求的判断准确性。
实施例4:
如图4所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤402,获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;
步骤404,根据与第一语音信息关联的用户信息对应的第三唤醒阈值,更新第一唤醒阈值;
步骤406,确定第一语音信息对应于预设唤醒词的第一相似度;
步骤408,第一相似度是否大于第一唤醒阈值,若是,进入步骤410,若否,进入步骤412;
步骤410,唤醒智能设备;
步骤412,忽略此次唤醒事件。
在该实施例中,在通过比较第一唤醒阈值和第一语音信息来唤醒智能设备之前,先识别出发出第一语音信息用户的用户信息。并利用与该用户关联的第三唤醒阈值对第一唤醒阈值进行修正,并存储修正后的第一唤醒阈值。那么在同一个用户下次需要唤醒智能设备的情况下,通过地理位置匹配出的第一唤醒阈值为通过第三唤醒阈值修正后的第一唤醒阈值。使得智能设备唤醒条件不仅能够符合某个地区内大部分人群的语言习惯,还能针对个人进行动态调整,进一步降低了不同地区不同人群的唤醒难度,提高智能设备的可靠性。
具体地,分别计算第三唤醒阈值与对应的第一权重的乘积,以及本次 匹配出的第一唤醒阈值与对应的第二权重的乘积,在将两个乘积相加,也即对第三唤醒阈值和第一唤醒阈值进行加权运算。最后将加权运算得到的值设定为该地区对应的新的第一唤醒阈值,并存储。
实施例5:
如图5所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤502,接收对智能设备的配置指令;
步骤504,响应于配置指令,获取第三语音信息;
步骤506,比对预设唤醒词和第三语音信息,确定第三相似度;
步骤508,对第三相似度和第一唤醒阈值进行加权运算,得到第三语音信息的用户信息对应的第三唤醒阈值;
步骤510,获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;
步骤512,根据第三唤醒阈值调整第一唤醒阈值;
步骤514,确定第一语音信息对应于预设唤醒词的第一相似度;
步骤516,根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段。
在该实施例中,用户可通过对智能设备下达配置指令,为智能设备的设定与用户信息绑定的第三唤醒阈值。其中,配置指令用于设定第三唤醒阈值,配置指令包括智能设备首次启动或初始化后的唤醒指示、智能设备配置模式的控制指示等。
具体地,当接收到配置指令,智能设备开始采集第三语音信息。通过第三语音信息的声纹特征匹配出发出第三语音信息用户的用户信息。比较第三语音信息与第一预设唤醒信息,并确定两者之间的第三相似度。分别计算第三相似度与对应的第三权重的乘积和根据地理位置匹配出的第一唤醒阈值与对应的第四权重的乘积,将两个乘积相加得到第三唤醒阈值与用户信息进行绑定,以完成针对用户个人的第三唤醒阈值的配置操作。以在通过地区调整第一唤醒阈值的同时,通过用户个人的语言习惯进一步更新第一唤醒阈值,有利于降低不同地区不同人群的唤醒难度,提高智能设备 的可靠性。
其中,声纹特征包括节奏感特征、音调特征和音素特征等。
可以理解的是,若用户进行了多次第三唤醒阈值的配置操作,也即得到多个第三唤醒阈值。此时可根据多个第三唤醒阈值的平均值对调整第一唤醒阈值,使得修正后的第一唤醒阈值更加贴近用户实际的语言习惯。
实施例6:
如图6所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤602,获取第一语音信息和智能设备所在地对应的第一唤醒阈值;
步骤604,确定第一语音信息对应于预设唤醒词的第一相似度;
步骤606,根据第一相似度唤醒智能设备;
步骤608,预设时长内是否采集到第四语音信息,若是,进入步骤610,若否,进入步骤612;
步骤610,根据第四语音信息对应的控制指令运行智能设备;
步骤612,控制智能设备退出唤醒阶段。
在该实施例中,在智能设备已经被唤醒的情况下,用户可通过第四语音信息对智能设备下达控制指令,以使智能设备按照该控制指令运行。从而,利用语音方便用户对空调进行精准地控制。省去手动调节智能设备的工作,更加方便、快捷。
具体地,识别第四语音信息中文本,如“温度”、“制冷”、“增大档位”等。利用识别出的文本,从预先存储在存储器中的控制指令列表中去查找。如果查找到,则可确定第四语音信息对应的控制指令。如果没有查找到,则忽略该第四语音信息,并输出通知信息,以通知用户控制失败。
具体举例来说,空调处于唤醒阶段,识别到第四语音信息的内容为“温度设为18度”,则确定控制指令为调节空调的目标温度设定为18度,此时,响应于该控制指令,空调可直接将温度设定为18度。
进一步地,若在预设时长内未采集到第四语音信息,说明用户不想运行智能设备了,则控制智能设备退出唤醒阶段,重新进入休眠状态,有利于降低智能设备的运行功耗,节省智能设备的运行成本。
实施例7:
如图7所示,根据本申请的一个实施例,提出了一种智能设备的控制方法,包括:
步骤702,获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;
步骤704,识别第一语音信息的第一语音特征;
步骤706,对第一语音特征和第一预设唤醒信息中的第二语音特征进行比对处理,得到第一相似度;
步骤708,根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段。
在该实施例中,对第一语音信息进行特征提取处理,获得第一语音特征。通过对第一语音信息包含的第一语音特征和第一预设唤醒信息中的第二语音特征进行比对,第一语音特征对应于第二语音特征的概率,即为第一语音信息和第一预设唤醒信息的第一相似度,以便于通过第一相似度,实现智能设备的语音唤醒功能。
其中,语音特征包括音节结构、发音特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征等。
实施例8:
如图8所示,根据本申请的一个具体实施例,提出了一种智能设备的控制方法,包括:
步骤802,获取唤醒指令词;
步骤804,读取当前地区的唤醒阈值;
步骤806,唤醒指令词的置信度是否高于第一唤醒阈值,若是,进入步骤808,若否,进入步骤814;
步骤808,唤醒设备并播报;
步骤810,记录当前的置信度和当前地区的信息,并根据当前的置信度计算用户的平均唤醒阈值;
步骤812,取本机预存的唤醒阈值和平均唤醒阈值的加权平均数作为当前地区的新的第一唤醒阈值;
步骤814,置信度是否接近唤醒阈值,若是,进入步骤816,若否,进入步骤818;
步骤816,二次确认是否唤醒,若是,进入步骤808,若否,进入步骤818;
步骤818,忽略唤醒事件。
在该实施例中,如果唤醒指令词(第一语音信息)的置信度高于唤醒阈值(第一唤醒阈值),则正常唤醒。如果唤醒指令词的置信度略低于唤醒阈值,则需要二次确认,可通过APP或语音的方式与用户进行二次确认,如果用户确认需要唤醒,则记录这次唤醒的置信度和地区信息。如果用户确认不需要唤醒或者唤醒词的置信度远低于唤醒阈值,则忽略唤醒事件。进一步,在唤醒设备后,取设备所在地区内用户的平均唤醒阈值(第三唤醒阈值)的作为加权算法中的一项,另一项为本机的唤醒阈值,更新当前地区对应的唤醒阈值。从而充分考虑了每个地区的普通话标准程度不同,使唤醒阈值更符合该地区的普遍说话习惯,灵活方便的实现设备的语音唤醒功能。
实施例9:
如图9所示,根据本申请的一个实施例,提出了一种智能设备的控制装置900,包括:获取模块902、确定模块904和唤醒模块906。
详细地,获取模块902用于获取第一语音信息和智能设备所处地理位置对应的第一唤醒阈值;确定模块904用于确定第一语音信息和智能设备的第一预设唤醒信息的第一相似度;唤醒模块906用于根据第一相似度和第一唤醒阈值的比较结果,控制智能设备进入唤醒阶段。
在该实施例中,利用数据统计,预先设置地区和第一唤醒阈值之间的对应关系,其中,不同地区对应的第一唤醒阈值可以相同或不相同。当用户通过第一语音信息尝试唤醒智能设备时,比较该第一语音信息和用于唤醒智能设备的唤醒词(第一预设唤醒信息),并确定两者之间的第一相似度,也即第一语音信息的置信度。其中,第一相似度越高,说明第一语音信息与第一预设唤醒信息越接近,那么唤醒智能设备的成功率越高。同时,通过智能设备的所在地和预设的地区和第一唤醒阈值之间的对应关系查询 该地理位置对应的第一唤醒阈值。此时,比较第一相似度和对应于地理位置的第一唤醒阈值,通过比较结果来判断用户发出的语音是否满足唤醒条件,并在满足条件时唤醒该智能设备。从而通过为不同地区设定对应的第一唤醒阈值,不再采用固定的唤醒阈值,使得处于不同地区智能设备的唤醒条件更符合该地区的语言习惯,在降低误唤醒概率的基础上,有效降低了说方言地区用户对智能设备的唤醒难度,即使是普通话较差的老人和儿童也能够正常使用智能设备,避免出现唤醒难的问题,大大提升用户的使用体验。
进一步地,唤醒模块906还用于基于第一相似度大于第一唤醒阈值,控制智能设备进入唤醒阶段;智能设备的控制装置900还包括:输出模块(图中未示出),输出模块用于基于第一相似度小于或等于第一唤醒阈值,输出确认提示信息;唤醒模块906还用于根据确认提示信息的确认指示,控制智能设备进入唤醒阶段。
进一步地,输出模块还用于基于第一相似度大于智能设备的第二唤醒阈值,输出确认提示信息;其中,第二唤醒阈值小于第一唤醒阈值。
进一步地,获取模块902还用于基于输出确认提示信息,获取预设时长内的第二语音信息;确定模块904还用于确定第二语音信息和智能设备的第二预设唤醒信息的第二相似度;基于第二相似度大于预设相似度,生成确认指示。
进一步地,获取模块902还用于基于输出确认提示信息,获取预设时长内的智能设备的输入操作信息;确定模块904还用于基于输入操作信息与预设操作信息相同,生成确认指示。
进一步地,确定模块904还用于确定第一语音信息对应的用户信息;智能设备的控制装置900还包括:更新模块(图中未示出),更新模块用于根据用户信息对应的第三唤醒阈值,更新第一唤醒阈值。
进一步地,获取模块902还用于响应于智能设备的配置指令,获取第三语音信息;确定模块904还用于根据第三语音信息的声纹特征确定用户信息;确定第三语音信息和第一预设唤醒信息的第三相似度;对第三相似度和第一唤醒阈值进行加权运算,得到用户信息对应的第三唤醒阈值。
进一步地,获取模块902还用于基于智能设备处于唤醒阶段,获取预设时长内的第四语音信息;智能设备的控制装置900还包括:控制模块(图中未示出),控制模块用于根据第四语音信息对应的控制指令,控制智能设备运行。
进一步地,唤醒模块906还用于基于预设时长内未采集到第四语音信息,控制智能设备退出唤醒阶段。
进一步地,智能设备的控制装置900还包括:识别模块(图中未示出),识别模块用于识别第一语音信息的第一语音特征;确定模块904还用于比对第一语音特征和第一预设唤醒信息中的第二语音特征,确定第一相似度。
在该实施例中,智能设备的控制装置900的各模块执行各自功能时实现第一方面的任一实施例中的应用图标的显示方法的步骤,因此,智能设备的控制装置900同时也包括第一方面任一实施例中的智能设备的控制方法的全部有益效果,在此不再赘述。
实施例10:
根据本申请的一个实施例,提出了一种智能设备,包括第二方面实施例提出的智能设备的控制装置。因此该智能设备具备第二方面实施例提出的智能设备的控制装置的全部有益效果,为避免重复,不再过多赘述。
示例性的,智能设备包括:空调器、电视、烹饪器具、冰箱、洗衣机等电器设备和终端设备。其中,终端设备包括手机、平板电脑、计算机、笔记本电脑、可穿戴设备、车载终端等。
实施例11:
如图10所示,根据本申请的一个实施例,提出了一种智能设备1000,包括:存储器1002和处理器1004。
具体地,存储器1002储存有程序或指令。处理器1004执行程序或指令时实现第一方面实施例提出的智能设备的控制方法。因此该智能设备具备第一方面实施例提出的智能设备的控制方法的全部有益效果,为避免重复,不再过多赘述。
示例性的,智能设备包括:空调器、电视、烹饪器具、冰箱、洗衣机等电器设备和终端设备。其中,终端设备包括手机、平板电脑、计算机、 笔记本电脑、可穿戴设备、车载终端等。
实施例12:
根据本申请的一个实施例,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时执行第一方面实施例提出的智能设备的控制方法。因此该可读存储介质具备第一方面实施例提出的智能设备的控制方法的全部有益效果,为避免重复,不再过多赘述。
在本申请中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
- 一种智能设备的控制方法,其中,包括:获取第一语音信息和所述智能设备所处地理位置对应的第一唤醒阈值;确定所述第一语音信息和所述智能设备的第一预设唤醒信息的第一相似度;根据所述第一相似度和所述第一唤醒阈值的比较结果,控制所述智能设备进入唤醒阶段。
- 根据权利要求1所述的智能设备的控制方法,其中,所述根据所述第一相似度和所述第一唤醒阈值的比较结果,控制所述智能设备进入唤醒阶段,包括:基于所述第一相似度大于所述第一唤醒阈值,控制所述智能设备进入唤醒阶段;基于所述第一相似度小于或等于所述第一唤醒阈值,输出确认提示信息;根据所述确认提示信息的确认指示,控制所述智能设备进入唤醒阶段。
- 根据权利要求2所述的智能设备的控制方法,其中,所述输出确认提示信息,包括:基于所述第一相似度大于所述智能设备的第二唤醒阈值,输出确认提示信息;其中,所述第二唤醒阈值小于所述第一唤醒阈值。
- 根据权利要求2所述的智能设备的控制方法,其中,还包括:基于输出确认提示信息,获取预设时长内的第二语音信息;确定所述第二语音信息和所述智能设备的第二预设唤醒信息的第二相似度;基于所述第二相似度大于预设相似度,生成所述确认指示。
- 根据权利要求2所述的智能设备的控制方法,其中,还包括:基于输出确认提示信息,获取预设时长内的所述智能设备的输入操作 信息;基于所述输入操作信息与预设操作信息相同,生成所述确认指示。
- 根据权利要求1至5中任一项所述的智能设备的控制方法,其中,还包括:确定所述第一语音信息对应的用户信息;根据所述用户信息对应的第三唤醒阈值,更新所述第一唤醒阈值。
- 根据权利要求6所述的智能设备的控制方法,其中,还包括:响应于所述智能设备的配置指令,获取第三语音信息;根据所述第三语音信息的声纹特征确定用户信息;确定所述第三语音信息和所述第一预设唤醒信息的第三相似度;对所述第三相似度和所述第一唤醒阈值进行加权运算,得到所述用户信息对应的第三唤醒阈值。
- 根据权利要求1至5中任一项所述的智能设备的控制方法,其中,还包括:基于所述智能设备处于唤醒阶段,获取预设时长内的第四语音信息;根据所述第四语音信息对应的控制指令,控制所述智能设备运行。
- 根据权利要求8所述的智能设备的控制方法,其中,还包括:基于所述预设时长内未采集到所述第四语音信息,控制所述智能设备退出唤醒阶段。
- 根据权利要求1至5中任一项所述的智能设备的控制方法,其中,所述确定所述第一语音信息和所述智能设备的第一预设唤醒信息的第一相似度,包括:识别所述第一语音信息的第一语音特征;比对所述第一语音特征和所述第一预设唤醒信息中的第二语音特征,确定所述第一相似度。
- 一种智能设备的控制装置,其中,包括:获取模块,用于获取第一语音信息和所述智能设备所处地理位置对应的第一唤醒阈值;确定模块,用于确定所述第一语音信息和所述智能设备的第一预设唤 醒信息的第一相似度;唤醒模块,用于根据所述第一相似度和所述第一唤醒阈值的比较结果,控制所述智能设备进入唤醒阶段。
- 一种智能设备,其中,包括如权利要求11所述智能设备的控制装置。
- 一种智能设备,其中,包括:存储器,所述存储器储存有程序或指令;处理器,与所述存储器连接,所述处理器执行所述程序或所述指令时实现如权利要求1至10中任一项所述的智能设备的控制方法。
- 根据权利要求13所述的智能设备,其中,所述智能设备包括:空调器、电视、烹饪器具、冰箱、洗衣机、终端设备。
- 一种可读存储介质,其上存储有程序或指令,其中,所述程序或所述指令被处理器执行时执行如权利要求1至10中任一项所述的智能设备的控制方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111001832.1 | 2021-08-30 | ||
CN202111001832.1A CN115731926A (zh) | 2021-08-30 | 2021-08-30 | 智能设备的控制方法、装置、智能设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023029442A1 true WO2023029442A1 (zh) | 2023-03-09 |
Family
ID=85290658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/081944 WO2023029442A1 (zh) | 2021-08-30 | 2022-03-21 | 智能设备的控制方法、装置、智能设备和可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115731926A (zh) |
WO (1) | WO2023029442A1 (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
KR20180127065A (ko) * | 2017-05-19 | 2018-11-28 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
CN108922520A (zh) * | 2018-07-12 | 2018-11-30 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN109346071A (zh) * | 2018-09-26 | 2019-02-15 | 出门问问信息科技有限公司 | 唤醒处理方法、装置及电子设备 |
CN110706703A (zh) * | 2019-10-16 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN110765105A (zh) * | 2019-10-14 | 2020-02-07 | 珠海格力电器股份有限公司 | 一种唤醒指令数据库的建立方法、装置、设备及介质 |
CN111161728A (zh) * | 2019-12-26 | 2020-05-15 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111816178A (zh) * | 2020-07-07 | 2020-10-23 | 云知声智能科技股份有限公司 | 语音设备的控制方法、装置和设备 |
-
2021
- 2021-08-30 CN CN202111001832.1A patent/CN115731926A/zh active Pending
-
2022
- 2022-03-21 WO PCT/CN2022/081944 patent/WO2023029442A1/zh unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN102999161A (zh) * | 2012-11-13 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
KR20180127065A (ko) * | 2017-05-19 | 2018-11-28 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
CN108922520A (zh) * | 2018-07-12 | 2018-11-30 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN109346071A (zh) * | 2018-09-26 | 2019-02-15 | 出门问问信息科技有限公司 | 唤醒处理方法、装置及电子设备 |
CN110765105A (zh) * | 2019-10-14 | 2020-02-07 | 珠海格力电器股份有限公司 | 一种唤醒指令数据库的建立方法、装置、设备及介质 |
CN110706703A (zh) * | 2019-10-16 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN111161728A (zh) * | 2019-12-26 | 2020-05-15 | 珠海格力电器股份有限公司 | 一种智能设备的唤醒方法、装置、设备及介质 |
CN111816178A (zh) * | 2020-07-07 | 2020-10-23 | 云知声智能科技股份有限公司 | 语音设备的控制方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115731926A (zh) | 2023-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11133008B2 (en) | Reducing the need for manual start/end-pointing and trigger phrases | |
US11094324B2 (en) | Accumulative multi-cue activation of domain-specific automatic speech recognition engine | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
US10438595B2 (en) | Speaker identification and unsupervised speaker adaptation techniques | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN109410952B (zh) | 一种语音唤醒方法、装置及系统 | |
CN110890093B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
KR20190042918A (ko) | 전자 장치 및 그의 동작 방법 | |
WO2021179854A1 (zh) | 声纹唤醒方法及装置、设备、存储介质 | |
KR102653450B1 (ko) | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 | |
EP3603040B1 (en) | Electronic device and method of executing function of electronic device | |
CN110349579B (zh) | 语音唤醒处理方法及装置、电子设备及存储介质 | |
KR102551276B1 (ko) | 핫워드 인식 및 수동 어시스턴스 | |
WO2023029442A1 (zh) | 智能设备的控制方法、装置、智能设备和可读存储介质 | |
WO2023246036A1 (zh) | 语音识别设备的控制方法、装置、电子设备及存储介质 | |
CN111526244A (zh) | 一种闹钟处理方法以及电子设备 | |
CN112787899B (zh) | 设备语音交互方法、计算机可读存储介质以及冰箱 | |
CN114121022A (zh) | 语音唤醒方法、装置、电子设备以及存储介质 | |
CN114093357A (zh) | 控制方法、智能终端及可读存储介质 | |
US20230215422A1 (en) | Multimodal intent understanding for automated assistant | |
US20230113883A1 (en) | Digital Signal Processor-Based Continued Conversation | |
CN113808584A (zh) | 语音唤醒方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22862590 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |