WO2023125002A1 - 语音交互方法及其装置、模型训练方法、车辆和存储介质 - Google Patents

语音交互方法及其装置、模型训练方法、车辆和存储介质 Download PDF

Info

Publication number
WO2023125002A1
WO2023125002A1 PCT/CN2022/138924 CN2022138924W WO2023125002A1 WO 2023125002 A1 WO2023125002 A1 WO 2023125002A1 CN 2022138924 W CN2022138924 W CN 2022138924W WO 2023125002 A1 WO2023125002 A1 WO 2023125002A1
Authority
WO
WIPO (PCT)
Prior art keywords
scale
accuracy
navigation map
voice
intention
Prior art date
Application number
PCT/CN2022/138924
Other languages
English (en)
French (fr)
Inventor
王亭玉
赵群
樊骏锋
潘晓彤
宁洪珂
赵恒艺
Original Assignee
广州小鹏汽车科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州小鹏汽车科技有限公司 filed Critical 广州小鹏汽车科技有限公司
Publication of WO2023125002A1 publication Critical patent/WO2023125002A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请公开了一种语音交互方法及其装置、模型训练方法、车辆和可读存储介质。该语音交互方法包括:接收对车辆导航地图调节的语音请求,导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,语音请求可支持的叠词范围根据比例尺和使用频率高于预设频率的语音请求确定;在车辆的网络连接状态处于异常状态的情况下,利用车辆上的意图识别模型对语音请求进行意图识别;利用车辆上的精度识别模型对语音请求进行精度识别;根据意图识别结果和精度识别结果生成第一控制指令;根据第一控制指令的比例尺调节导航地图的显示状态。本申请可以在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应。

Description

语音交互方法及其装置、模型训练方法、车辆和存储介质
本申请要求于2021年12月29日提交国家知识产权局、申请号为202111628094.3、申请名称为“语音交互方法及其装置、模型训练方法、车辆和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及语音技术领域,特别涉及一种语音交互方法及其装置、模型训练方法、车辆和存储介质。
背景技术
目前在智能汽车场景中,存在着语音交互可以实现用户导航的需求。导航场景与其他车辆控制场景不同。用户常在车辆驾驶状态下使用导航,受路况、光线、周围环境的影响,用户需要实时调整导航地图的大小使目标出现在自己的视线范围内。
在相关的导航场景下,虽然可以实现地图放大和地图缩小的语音交互,但对于精度的需求,“地图大大大”,“比例尺大大大”类的体现放大比例和频率的精简语音请求并不能得到有效的识别以及正确车机端命令的下发。另外,在网络信号情况较差的方案下精简的语音请求不能得到有效的识别,影响用户体验。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种语音交互方法及其装置、模型训练方法、车辆和存储介质。
本申请提供一种语音交互方法。语音交互方法包括:接收对车辆导航地图调节的语音请求,所述导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,所述语音请求可支持的叠词范围根据所述比例尺和使用频率高于预设频率的语音请求确定;在车辆的网络连接状态处于异常状态的情况下,利用所述车辆上的意图识别模型对所述语音请求进行意图识别;利用所述车辆上的精度识别模型对所述语音请求进行精度识别;根据所述意图识别结果和所述精度识别结果生成第一控制指令;根据所述第一控制指令的比例尺调节所述导航地图的显示状态。
如此,本申请的语音交互方法可以在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应。
所述叠词范围小于所述比例尺的可调节范围。
如此,可以在用户所表述的叠词较少的情况下实现较大范围的比例尺调节。
所述根据所述第一控制指令的比例尺调节所述导航地图的显示状态,包括:在所述第一控制指令的比例尺超过预设阈值的情况下,根据所述预设阈值调节所述导航地图的显示状态,并向用户反馈第一提示信息。
如此,在第一控制指令的比例尺超过预设阈值时,可以根据预设阈值调节导航地图的显示状态,并向用户反馈第一提示信息,从而使车机端能够正确地进行调节导航地图的显示状态。
所述根据所述第一控制指令的比例尺调节所述导航地图的显示状态,包括:在所述第一控制指令的比例尺不超过预设阈值的情况下,根据所述第一控制指令的比例尺调节所述导航地图的显示状态,并向用户反馈第二提示信息。
如此,在第一控制指令的比例尺不超过预设阈值的情况下,则可以根据第一控制指令的比例尺调节导航地图的显示状态,并向用户反馈第二提示信息,从而使车机端能够正确地进行调节导航地图的显示状态。
所述根据所述意图识别结果和所述精度识别结果生成第一控制指令,包括:根据所述意图识别的结果确定目标意图;根据所述精度识别的结果确定目标刻度调节精度值;根据所述目标意图和所述目标刻度调节精度值修改默认值;将所述目标意图和修改后的所述默认值融合生成所述第一控制指令。
如此,在确定目标意图和目标刻度调节精度值后,根据目标意图和目标刻度调节精度值对默认值进行修改,从而实现根据用户精简的语音请求控制导航地图的需求,同时使车机端能正确接受放大地图刻度的第一控制指令。
所述根据所述意图识别的结果确定所述目标意图,包括:获取所述意图识别的结果对应各个预设意图的意图判别概率;将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述目标意图。
如此,可以获取意图识别的结果对应各个预设意图的意图判别概率,将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图,从而实现识根据用户精简的语音请求控制导航地图的需求。
所述根据所述精度识别的结果确定所述目标刻度调节精度值,包括:获取所述精度识别的结果对应各个预设刻度调节精度值的精度判别概率;将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值,确定为所述目标刻度调节精度值。
如此,本申请的语音交互方法可以获取精度识别的结果对应各个预设刻度调节精度值的精度判别概率,确定精度判别概率大于第二概率阈值的预设刻度调节精度值为目标刻度调节精度值,从而对导航地图进行精确的刻度调节。
所述根据所述第一控制指令的比例尺调节所述导航地图的显示状态,包括:根据所述目标意图确定所述导航地图的比例尺的调节方向;根据所述目标刻度调节精度值确定所述导航地图的比例尺的调节跨度;根据当前比例尺、所述调节方向和所述调节跨度确定所述第一控制指令的比例尺;调节所述导航地图的比例尺至所述第一控制指令的比例尺。
如此,根据目标意图确定导航地图的比例尺的调节方向;根据目标刻度调节精度值确定导航地图的比例尺的调节跨度,根据当前比例尺、调节方向和调节跨度确定第一控制指令的比例尺,然后调节导航地图的比例尺 至第一控制指令的比例尺,使得车机端能正确接受放大地图刻度的第一控制指令,实现对导航地图比例的精准调节。
所述语音交互方法包括:在所述车辆的网络连接处于正常状态的情况下,将所述语音请求发送至服务器;接收服务器根据所述语音请求下发的第二控制指令;根据所述第二控制指令的比例尺调节所述导航地图的显示状态。
如此,在车辆的网络连接处于正常状态的情况下,将语音请求发送至服务器;接收服务器根据语音请求下发的第二控制指令;根据第二控制指令的比例尺调节导航地图的显示状态,可以实现在网络连接状态为正常状态下,实现语音请求在有网的情况下快速实时响应。
所述语音交互方法包括:确定所述语音请求可调节所述导航地图的比例尺和可调节范围。
如此,本申请的语音交互方法可以根据可调节的导航地图的比例尺和可调节范围,可为后续根据语音请求精确调节导航地图的比例提供基础。
所述语音交互方法包括:根据所述比例尺和使用频率高于预设频率的语音请求确定所述语音请求可支持的叠词范围。
如此,本申请的语音交互方法按照比例尺和使用频率高于预设频率的语音请求确定语音请求可支持的叠词范围,可以为实现根据用户精简的语音请求控制导航地图的需求奠定基础。
本申请还提供一种模型训练方法。用于训练模型得到上述实施方式中任一项的意图识别模型和精度识别模型。所述模型训练方法包括:通过意图训练数据训练得到所述意图识别模型,所述意图训练数据与导航地图的比例尺和可调节范围相关;通过精度训练数据训练得到所述精度识别模型,所述精度训练数据与所述导航地图的比例尺和可调节范围以及所述导航地图的比例尺刻度调节精度范围相关。
如此,本申请的模型训练方法可以通过意图训练数据训练得到意图识别模型,进而根据意图识别模型进行意图识别,实现精确识别用户的意图。另外,本申请的模型训练方法可以通过精度训练数据训练得到精度识别模型,根据精度识别模型对语音请求进行精度识别,可以确定语音请求对应导航地图的比例调节精度。
本申请提供一种语音交互装置。所述语音交互装置包括:指令接收模块、意图识别模块、精度识别模块、控制指令生成模块和调节模块。所述指令接收模块用于接收对车辆导航地图调节的语音请求,所述导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,所述语音请求可支持的叠词范围根据所述比例尺和使用频率高于预设频率的语音请求确定;所述意图识别模块用于在车辆的网络连接状态处于异常状态的情况下,利用所述车辆上的意图识别模型对所述语音请求进行意图识别;所述精度识别模块用于利用所述车辆上的精度识别模型对所述语音请求进行精度识别;所述控制指令生成模块用于根据所述意图识别结果和所述精度识别结果生成第一控制指令;所述调节模块用于根据所述第一控制指令的比例尺调节所述导航地图的显示状态。
如此,本申请的语音交互装置可以满足在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求以实现对用户语音请求的快速响应,同时使车机端能正确接受放大地图刻度的第一控制指令。
本申请还提供一种车辆。所述车辆包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述实施方式中任一项所述的语音交互方法。
如此,本申请的车辆可以在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应。
本申请还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,实现上述实施方式中任一项所述的语音交互方法和/或上述实施方式中任一项所述的模型训练方法。
如此,本申请的计算机可读存储介质可以在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请的语音交互方法的流程示意图之一;
图2是本申请的语音交互装置的结构示意图之一;
图3是本申请的语音交互方法的流程示意图之二;
图4是本申请的语音交互方法的流程示意图之三;
图5是本申请的语音交互方法的流程示意图之四;
图6是本申请的语音交互装置中第一控制指令生成模块的结构示意图;
图7是本申请的语音交互方法的流程示意图之五;
图8是本申请的语音交互装置中意图确定单元的结构示意图;
图9是本申请的语音交互方法的流程示意图之六;
图10是本申请的语音交互装置中精度确定单元的结构示意图;
图11是本申请的语音交互方法的流程示意图之七;
图12是本申请的语音交互装置中调节模块的结构示意图;
图13是本申请的语音交互方法的流程示意图之八;
图14是本申请的语音交互装置的结构示意图之二;
图15是本申请的模型训练方法的流程示意图;
图16是本申请的模型训练装置的结构示意图;
图17是本申请的车辆的结构示意图;
图18是本申请的计算机可读存储介质的结构示意图。
具体实施方式
下面详细描述本申请,本申请的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
请参阅图1,本申请提供了一种语音交互方法。该语音交互方法包括:
01:接收对车辆导航地图调节的语音请求,导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,语音请求可支持的叠词范围根据比例尺和使用频率高于预设频率的语音请求确定;
03:在车辆的网络连接状态处于异常状态的情况下,利用车辆上的意图识别模型对语音请求进行意图识别;
05:利用车辆上的精度识别模型对语音请求进行精度识别;
07:根据意图识别结果和精度识别结果生成第一控制指令;
09:根据第一控制指令的比例尺调节导航地图的显示状态。
请参阅图2,本申请还提供一种语音交互装置10。语音交互装置10包括:接收模块11、意图识别模块13、精度识别模块15、第一控制指令生成模块17和调节模块19。
步骤01可以由接收模块11实现,步骤03可以由意图识别模块13实现,步骤05可以由精度识别模块15实现,步骤07可以由第一控制指令生成模块17实现,步骤09可以由调节模块19实现。也即是说,接收模块11用于接收对车辆导航地图调节的语音请求,导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,语音请求可支持的叠词范围根据比例尺和使用频率高于预设频率的语音请求确定;意图识别模块13用于在车辆的网络连接状态处于异常状态的情况下,利用车辆上的意图识别模型对语音请求进行意图识别;精度识别模块15用于利用车辆上的精度识别模型对语音请求进行精度识别;第一控制指令生成模块17用于根据意图识别结果和精度识别结果生成第一控制指令;调节模块19用于根据第一控制指令的比例尺调节导航地图的显示状态。
例如,对车辆导航地图调节的语音请求例如可以为“地图大大大大”和“地图小小小小”,其中“大”的个数代表用户想要放大的层级数,“小”的个数代表用户想要缩小的层级数,即为带有精简词的语音请求。可以理解地,在导航地图中,地图放大是通过缩小比例尺的级别实现的,缩小是通过放大比例尺的级别实现的。
导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,语音请求可支持的叠词范围根据比例尺和使用频率高于预设频率的语音请求确定。其中,车辆零部件可以指机械旋钮或按钮等部件。预设频率可以时车辆系统默认设置的频率,也可以是用户自行设定的频率。语音请求可支持的叠词范围根据比例尺和使用频率高于预设频率的语音请求确定,能够最大限度地满足用户调节导航地图调节的需求。
在车辆的网络连接状态处于异常状态的情况下,利用车辆上的意图识别模型对语音请求进行意图识别,利用车辆上的精度识别模型对语音请求 进行精度识别,根据意图识别结果和精度识别结果生成第一控制指令,根据第一控制指令的比例尺调节导航地图的显示状态,可以使高频语音请求在无网状态下可以快速实时识别用户的语音请求对应的导航地图调节的意图,提升用户体验。
在接收到用户对于车辆预设功能调节的语音请求后,通过语音识别技术进行语音识别,得到待识别文本以便后续处理,例如,对用户输入的语音请求“地图大大大”进行语音识别,得到待识别文本“地图大大大”。
综上,本申请的语音交互方法可以满足在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应,使车机端能正确接受放大地图刻度的第一控制指令。
语音交互方法包括:确定所述语音请求可调节所述导航地图的比例尺和可调节范围。
具体的,语音交互装置10用于确定所述语音请求可调节所述导航地图的比例尺和可调节范围。
确定语音请求可调节导航地图的比例尺和可调节范围,从而为后续根据语音请求精确调节导航地图的比例提供基础。
可以理解地,导航地图的比例尺的级别有5米,10米,25米,50米,100米,200米,500米,1公里,2公里,5公里,10公里等更大的级别。对应的渲染层级为20级,19级,18级,17级,16级,15级,14级,13级依次往下。也即是,比例尺的可调节范围可以为5米至10公里或更多的调节数值。其中,比例尺的渲染层级可以决定叠词范围。
语音交互方法包括:根据比例尺和使用频率高于预设频率的语音请求确定语音请求可支持的叠词范围。
具体的,语音交互装置10用于根据比例尺和使用频率高于预设频率的语音请求确定语音请求可支持的叠词范围。
可以理解,用户语音请求“地图大大大大”中“大”的个数代表用户想要放大的层级数。用户语音请求“地图小小小”中“小”的个数代表用户想要缩小的层级数。在导航地图调节的精度需求下,用户“地图大大大”的需求则为比例尺级别直接向左跨越3个层级,渲染层级缩小3个层级,“地图小小小”则将比例尺级别向右跨越,显示缩小3个层级。
根据比例尺和使用频率高于预设频率的语音请求确定语音请求可支持的叠词范围,可以为实现根据用户精简的语音请求控制导航地图的需求奠定基础。例如,某车辆的导航地图所支持的比例尺的渲染层级为20级,对应的叠词范围可以是:2~20个叠词。然而,用户在调节导航地图的比例尺时通常不会从最小的渲染层级调节到最大的渲染层级,也即是,语音请求采用的叠词不会达到20。从而,本申请可以结合使用频率高于预设频率的语音请求,预设频率例如可以为60%,例如使用频率高于60%的语音请求中用户使用的叠词为2~10个叠词,如此,可以确定叠词范围可以为:2~10。
其中,叠词范围小于比例尺的可调节范围。
语音交互方法还包括:根据比例尺的可调节范围,纠正预设语音请求 的意图。语音交互装置10用于根据比例尺的可调节范围,纠正预设语音请求的意图。
根据比例尺的可调节范围,对传统逻辑下将“地图大大大”的精简语音请求识别成“最大”“最小”意图的语音请求进行意图纠正,在精简词符合条件的情况下纠正为相对应的调大调小意图。
如此,可以在原先的传统逻辑的基础上达到用户指令中真正的精确调节的目的。
语音交互方法包括:将比例尺的可调节范围和叠词范围映射到预设意图和对应的预设刻度调节精度值。
语音交互装置10用于将比例尺的可调节范围和叠词范围映射到预设意图和对应的预设刻度调节精度值。
如此,将比例尺的可调节范围映射到意图识别模型所能够理解的意图体系。例如,“navigation_map_zoomin”代表着预设意图“地图放大”和“navigation_map_zoomout”代表着预设意图“地图缩小”。从而针对比例尺的可调节范围制定了一套具体的意图映射体系。
对于预设刻度调节精度值,例如,语音交互模拟对车辆零部件的操作可支持的叠词范围为2~10,则预设刻度调节精度值的范围可以为2~10。其中,每个预设意图对应多个预设刻度调节精度值。
在本申请的其他实施例中,在用户允许的情况下可以关于同样预设意图对应收集不同的用户指令,如关于“地图大大大”的说法,用户会有更自由度的展开,如“调大调大调大”,“放大放大放大”等相关的泛化说法。
请参阅图3,步骤09包括:
091:在第一控制指令的比例尺超过预设阈值的情况下,根据预设阈值调节导航地图的显示状态,并向用户反馈第一提示信息。
请结合图2,步骤091可以由调节模块19实现。也即是,调节模块19用于在第一控制指令的比例尺超过预设阈值的情况下,根据预设阈值调节导航地图的显示状态,并向用户反馈第一提示信息。
例如,预设阈值可以为车辆系统默认设置的导航地图的比例尺可放大的最大值,也可以为用户自行设定的数值,在此不作限制。
详细地,目前的导航地图的比例尺层级与需要增加的比例尺层级之和超过预设阈值之后,可以对用户反馈第一提示信息,例如第一提示信息可以为“指令中比例尺超出阈值”等语音播报信息,使得用户知晓第一控制指令的比例尺超过了预设阈值,同时此时车辆可以自主根据预设阈值调节导航地图的显示状态,使车机端能够正确地进行调节导航地图的显示状态。
请参阅图4,步骤09包括:
092:在第一控制指令的比例尺不超过预设阈值的情况下,根据第一控制指令的比例尺调节导航地图的显示状态,并向用户反馈第二提示信息。
请结合图2,步骤092可以由调节模块19实现。也即是,调节模块19用于在第一控制指令的比例尺不超过预设阈值的情况下,根据第一控制指令的比例尺调节导航地图的显示状态,并向用户反馈第二提示信息。
例如,预设阈值可以为车辆系统默认设置的导航地图的比例尺可放大的最大值或可缩小的最小值,也可以为用户自行设定的数值,在此不作限制。
第一控制指令的比例尺不超过预设阈值,则根据第一控制指令的比例尺调节导航地图的显示状态,即车辆可以根据用户的语音请求自动进行调节导航地图的显示状态,提升用户体验。
反馈的第二提示信息可以为“已为您调至目标比例”等其他语音播报信息,使得用户可以及时知晓车辆导航地图当前调节的比例。
请参阅图5,步骤07包括:
071:根据意图识别的结果确定目标意图;
072:根据精度识别的结果确定目标刻度调节精度值;
073:根据目标意图和目标刻度调节精度值修改默认值;
074:将目标意图和修改后的默认值融合生成第一控制指令。
请参阅图6,第一控制指令生成模块17包括意图确定单元171、精度确定单元172、修改单元173和第一指令生成单元174。
步骤071可以由意图确定单元171实现,步骤072可以由精度确定单元172实现,步骤073可以由修改单元173实现,步骤074可以由第一指令生成单元174实现。也即是,意图确定单元171用于根据意图识别的结果确定语音请求对应的目标意图;精度确定单元172用于根据精度识别的结果确定语音请求对应的目标刻度调节精度值;修改单元173用于根据目标意图和目标刻度调节精度值修改默认值;第一指令生成单元174用于将目标意图和修改后的默认值融合生成第一控制指令。
可以理解地,传统逻辑下,用户想放大和缩小地图只能进行前后一个刻度的跨越。以目前比例尺级别为50米为例,即渲染层级为17,用户想放大地图,则比例尺级别设置为25米,25米对应的渲染层级为18级,此时用户若想再放大地图,需要再次说“放大地图”,将比例尺级别设置为10米,将渲染层级设置为19级;将而无法根据“地图大大”这样一句精简语音请求实现比例尺级别跨越两个刻度。
也即是,默认值为根据原先的传统逻辑确认的预设语音请求中的目标意图对应的调节值。其中,预设语音请求可以指的是“地图放大”、“地图缩小”等用户语音请求。按照传统的识别逻辑,“地图放大”的目标意图对应的调节值为调大1个比例尺级别,即该默认值为1个比例尺级别。按照传统的识别逻辑,“地图缩小”的目标意图对应的调节值为调低1个比例尺级别,即该默认值为1个比例尺级别。即,此时的默认值为:default value=1。
而在对精简指令进行精度识别的精度逻辑下,用户语音请求“地图大大”对应的目标意图为将导航地图的比例尺调大,且用户期望的比例尺渲染层级调节2次,在识别目标刻度调节精度的情况下,可识别到目标刻度调节精度值为2,则修改默认值得到修改后的调节刻度:default_value’=刻度值*default_value=1*2=2。默认值根据用户的语音请求提高2个档位的需求,默认值修改为2。即在新增根据带有精简词的语音请求进行控制车 辆零部件进行精确调节的需求下,本申请的语音交互方法完全不会破坏原有非精度指令的实现逻辑,在原有的识别逻辑框架下实现了根据带有精简词的语音请求进行控制车辆零部件进行精确调节的功能。
最后,将目标意图和修改后的默认值融合生成第一控制指令,以控制导航地图的显示状态。
请参阅图7,步骤071包括:
0711:获取意图识别的结果对应各个预设意图的意图判别概率;
0712:将意图判别概率大于第一概率阈值的一个预设意图确定为目标意图。
请参阅图8,意图确定单元171包括第一获取子单元1711和意图确定子单元1712。
步骤0711可以由第一获取子单元1711实现,步骤0712可以由意图确定子单元1712实现。也即是,第一获取子单元1711用于获取意图识别的结果对应各个预设意图的第一判别概率;意图确定子单元1712用于将第一判别概率大于第一概率阈值的一个预设意图确定为目标意图。
例如,使用车辆的意图识别模型针对语音请求进行意图识别得到意图识别的结果,意图识别的结果中包括语音请求与各个预设意图相匹配的概率,即可以得到多个意图判别概率。若第一概率阈值为0.9,则意图识别的结果为某个类别的预设意图的意图判别概率超过0.9,那么认为当前用户的语音请求为对应类别的预设意图,也就是目标意图。第一概率阈值也可以为其他数值,第一概率阈值可以为默认设置的数值,也可以根据用户需要自行设定,在此不作限制。
本申请的预设意图可以包括地图放大及地图缩小。
因此,本申请可以根据用户提供的带有精简词的语音请求进行不同意图的识别,从而实现相应的目标意图。
步骤071还包括:
0713:在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定语音请求的意图为非地图比例尺调节意图。
步骤0713可以由意图确定子单元1712实现,也即是,意图确定子单元1712用于在各个预设意图的意图判别概率均不大于第一概率阈值的情况下,确定语音请求的意图为非地图比例尺调节意图。
例如,当地图放大和地图缩小的预设意图对应的判别概率均不大于第一概率阈值的情况,即根据语音请求得到用户的意图识别结果与预设意图相匹配的概率比较低,低于第一概率阈值,例如第一概率阈值为0.9,则确定该语音请求的意图为非地图比例尺调节意图,非地图比例尺调节意图指的是不用可进行刻度调节的车辆零部件来调节导航地图比例尺的用户意图,例如,用户输入的语音请求为“音量大大大”,因为音量不是对导航地图的比例尺进行调节,因此,该语音请求“音量大大大”的意图是非地图比例尺调节意图。
请参阅图9,步骤072包括:
0721:获取精度识别的结果对应各个预设刻度调节精度值的精度判别 概率;
0722:将精度判别概率大于第二概率阈值的一个预设刻度调节精度值,确定为目标刻度调节精度值。
请参阅图10,精度确定单元172包括第二获取子单元1721和精度确定子单元1722。
步骤0721可以由第二获取子单元1721实现,步骤0722可以由精度确定子单元1722实现。第二获取子单元1721用于获取精度识别的结果对应各个预设刻度刻度调节精度的第二判别概率;精度确定子单元1722用于将第二判别概率大于第二概率阈值的一个预设刻度调节精度值,确定为目标刻度调节精度值。
精度判别概率指的是识别该语音请求的精度与各个预设刻度调节精度值相匹配的概率。第二概率阈值例如可以为0.7、0.8、0.9或其他数值,在此不作限制。
当精度判别概率为1,第二概率阈值为0.9时,即精度判别概率为1超过第二概率阈值0.9,则确定语音请求“地图大大大大大”对应音量调节的目标刻度调节精度值为5。
步骤072还包括:
0723:在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下,确定语音请求的精度识别错误。
步骤0723可以由精度确定子单元1722实现。也即是说,精度确定子单元1722用于在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下,确定语音请求的精度识别错误。
各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况,说明输入的语音请求的精度识别有误,可以排除非刻度调节精度相关的语音请求。
请参阅图11,步骤09包括:
093:根据目标意图确定导航地图的比例尺的调节方向;
094:根据目标刻度调节精度值确定导航地图的比例尺的调节跨度;
095:根据当前比例尺、调节方向和调节跨度确定第一控制指令的比例尺;
096:调节导航地图的比例尺至第一控制指令的比例尺。
请参阅图12,调节模块19包括方向调节单元193、跨度调节单元194、比例尺确定单元195和调节子单元196。
步骤093可以由方向调节单元193实现,步骤094可以由跨度调节单元194实现,步骤095可以由比例尺确定单元195实现,步骤096可以由调节子单元196实现。
例如,根据目标意图确定导航地图的比例尺的调节方向,例如,目标意图为向导航地图的A方向放大3个级别,则目标意图的导航地图的比例尺的调节方向为A方向。此时目标刻度调节精度值为3,则相对应的比例尺的调节跨度为3个级别。
然后,综合当前比例尺、调节方向和调节跨度确定第一控制指令的比 例尺。可以理解地,导航地图的比例尺的级别有5米,10米,25米,50米,100米,200米,500米,1公里,2公里,5公里,10公里等更大的级别。对应的渲染层级为20级,19级,18级,17级,16级,15级,14级,13级依次往下。若当前比例尺为5米(对应的渲染层级为20级),调节方向为A方向,调节跨度为增大3个级别,则此时第一控制指令的比例尺为25米(对应的渲染层级为18级)。
最后,调节导航地图的比例尺至第一控制指令的比例尺。若当前比例尺为5米,第一控制指令的比例尺为25米,则调节导航地图的比例尺由5米调节至25米,从而实现根据精简语音请求的精确控制。
请参阅图13,语音交互方法包括:
02:在车辆的网络连接处于正常状态的情况下,将语音请求发送至服务器;
04:接收服务器根据语音请求下发的第二控制指令;
06:根据第二控制指令的比例尺调节导航地图的显示状态。
请参阅图14,语音交互装置10包括:请求发送模块12、指令接收模块14和调节模块19。
步骤02可以由请求发送模块12实现,步骤04可以由指令接收模块14实现,步骤06可以由调节模块19实现。也即是,请求发送模块12用于若车辆的网络连接状态处于正常状态,将语音请求发送至服务器;指令接收模块14用于接收服务器根据语音请求下发的第二控制指令;调节模块19用于根据第二控制指令的比例尺调节导航地图的显示状态。
例如,当车辆的网络连接状态处于正常状态时,将语音请求发送至服务器,接收服务器根据语音请求下发的第二控制指令,并根据第二控制指令的比例尺调节导航地图的显示状态,可以实现在网络连接状态为正常状态下,实现在有网的情况下,导航地图比例尺根据语音请求的快速实时响应进行快速调节。
本申请还提供一种模型训练方法,用于训练模型本申请的意图识别模型和精度识别模型。请参阅图15,模型训练方法包括:
011:通过意图训练数据训练得到意图识别模型,意图训练数据与导航地图的比例尺和可调节范围相关;
013:通过精度训练数据训练得到精度识别模型,精度训练数据与导航地图的比例尺和可调节范围以及导航地图的比例尺刻度调节精度范围相关。
请结合图16,本申请还提供一种模型训练装置100。模型训练装置100包括意图训练模块110和精度训练模块130。
步骤11可以由意图训练模块110实现,步骤13可以由精度训练模块130实现。也即是,意图训练模块110用于通过意图训练数据训练得到意图识别模型,意图训练数据与导航地图的比例尺和可调节范围相关;精度训练模块130用于通过精度训练数据训练得到精度识别模型,精度训练数据与导航地图的比例尺和可调节范围以及导航地图的比例尺刻度调节精度范围相关。
本申请通过机器学习的方式,由导航地图的比例尺和可调节范围对应的训练数据训练得到意图识别模型,进而对语音请求进行意图识别,实现用户意图的准确识别。并由导航地图的比例尺和可调节范围以及导航地图的比例尺刻度调节精度范围对应的训练数据训练得到精度识别模型,进而语音请求进行精度识别,实现用户刻度调节精度的准确识别。
用于意图训练和精度训练的数据可以在取得相关用户权限的情况下,收集一定数量的用户语音请求的历史记录,对收集到的用户语音请求进行简单的筛选得到语义明确且包含具体目的语音请求,具体为:在筛选中去掉明显语义不明确的语音请求,以及一些只包含语气词,例如“啊”,“哦”等较短的语音请求,留下语义明确同时包含具体目的语音请求。
对筛选后的语音请求参照制定的预设意图进行标注,例如,语音请求为“地图大大大”,可标注对应的意图为“地图放大”,然后,对标注的数据进行质检,再次筛选去掉不符合预设意图的标注数据,留下可用于意图模型训练的标注数据。例如,语音请求为“车门开”,标注对应的意图为“打开车门”,并非对导航地图的比例尺进行调节,此时,可通过筛选将该语音请求去掉。
在意图训练过程中,将可用于意图模型训练的的标注数据作为意图训练数据并划分为意图训练集和意图验证集,划分比例可根据需求设定,在此不作限定。例如意图训练集80%,意图验证集为20%。利用意图训练集中的数据进行意图识别模型的训练。模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。
例如,对于建立好的意图识别模型,先利用意图训练集中的至少部分数据用于训练意图识别模型,然后利用意图验证集的至少部分数据对训练后的意图识别模型的准确率进行意图验证。在意图验证的准确率没有达到意图准确率阈值的情况下,再次通过意图训练集的至少另一部分数据对意图识别模型进行训练,以及再次利用意图验证集的另一部分数据对再次训练后的意图识别模型的准确率进行意图验证,如此重复训练和意图验证的过程,直到意图验证的准确率达到意图准确率阈值时,可以认为意图识别模型已经达标,完成意图识别模型的训练。
由于车辆的运算资源有限,还可以通蒸馏技术对上述训练好的意图识别模型进行蒸馏,从而得到蒸馏后的意图识别模型,从而可以缩减模型大小,例如将训练好的意图识别模型蒸馏10M大小的小模型。然后,利用意图验证集中的至少一部分对蒸馏后的意图识别模型进行意图验证,若意图验证的准确率达到意图准确率阈值时,可以认为蒸馏后的意图识别模型已经达标,从而可以将蒸馏后的意图识别模型进行模型量化,例如从float32量化为int8,从而进一步对模型进行压缩,从而减少模型对车辆性能的依赖,最后将蒸馏和量化后的意图识别模型部署到车辆上。
而对蒸馏后的意图识别模型进行意图验证过程中,若意图验证的准确率未达到意图准确率阈值,则继续通过意图训练集的更多数据再次对上述训练好的意图识别模型进行训练,并重新对再次训练好的意图识别模型进行意图验证,直到蒸馏后的意图识别模型的意图验证的准确率达到意图准 确率阈值。
需要说明的是,意图训练集和意图验证集中的每个数据均只使用一次,在意图识别模型遍历意图训练集和意图验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音请求,从而筛选并标注得到更多的意图训练数据对意图识别模型进行训练,从而保证意图识别模型能够准确识别输入的语音请求对应的意图。
还可以对所述筛选后的语音请求按预设刻度精度值进行人工标注,需标注出用户想要调节的刻度调节精度值。例如,语音请求为“地图大大大”,对应标注对车辆内屏幕亮度进行调节的刻度调节精度值为3。然后,基于槽位提取的方式建立精度识别模型,槽位提取可以使用的算法包括RNN槽填充,CRF等,将标注好的数据作为精度训练数据并划分得到精度训练集和精度验证集,划分比例可根据需求设定,在此不作限定。例如精度训练集80%,精度验证集为20%。利用精度训练集中的数据进行精度识别模型的训练。对于建立好的精度识别模型,先利用精度训练集中的至少部分数据用于训练精度识别模型,然后利用精度验证集的至少部分数据对训练后的精度识别模型的准确率进行精度验证。在精度验证的准确率没有达到精度准确率阈值的情况下,再次通过精度训练集的至少另一部分数据对精度识别模型进行训练,以及再次利用精度验证集的另一部分数据对再次训练后的精度识别模型的准确率进行精度验证,如此重复训练和精度验证的过程,直到精度验证的准确率达到精度准确率阈值时,可以认为精度识别模型已经达标,完成精度识别模型的训练。
相应地,还可以通蒸馏技术对上述训练达标的精度识别模型进行蒸馏,从而得到蒸馏后的精度识别模型,以缩减模型大小。然后,利用精度验证集中的至少一部分对蒸馏后的精度识别模型进行精度验证,若精度验证的准确率达到精度准确率阈值时,可以认为蒸馏后的精度识别模型已经达标,从而可以将蒸馏后的精度识别模型进行模型量化,从而进一步对模型进行压缩,从而减少模型对车辆性能的依赖,最后将蒸馏和量化后的精度识别模型部署到车辆上。
对蒸馏后的精度识别模型进行精度验证过程中,若精度验证的准确率未达到精度准确率阈值,则继续通过精度训练集的更多数据再次对上述训练达标的精度识别模型进行训练,并重新对再次训练达标的精度识别模型进行精度验证,直到蒸馏后的精度识别模型的精度验证的准确率达到精度准确率阈值。
需要说明的是,精度训练集和精度验证集中的每个数据均只使用一次,在精度识别模型遍历精度训练集和精度验证集的所有数据均未能训练达标的情况下,可以再次在用户允许的情况下收集更多的语音信息,从而筛选并标注得到更多的精度训练数据对精度识别模型进行训练,从而保证精度识别模型能够准确识别输入的语音请求对应的刻度调节精度。
如此,可以通过精度训练数据预先训练好精度识别模型对语音请求进行精度识别,从而识别出地图比例尺的调节精度,得到精度识别结果,最终确定目标刻度调节精度值。
请参阅图17,本申请还提供一种车辆20。该车辆20包括处理器21和存储器22,存储器22上存储有计算机程序221,当计算机程序221被处理器21执行时,实现上述任意一个实施例中所述的语音交互方法。
本申请的车辆20可以满足在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应,使车机端能正确接受放大地图刻度的第一控制指令。
请参阅图18,本申请还提供一种包含有计算机程序的非易失性计算机可读存储介质30。当计算机程序31被一个或多个处理器40执行时,实现上述任意实施示例的语音交互方法和模型训练方法。
例如,计算机程序31被处理器40执行时实现以下语音交互方法的步骤:
01:接收对车辆导航地图调节的语音请求,导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,语音请求可支持的叠词范围根据比例尺和使用频率高于预设频率的语音请求确定;
03:在车辆的网络连接状态处于异常状态的情况下,利用车辆上的意图识别模型对语音请求进行意图识别;
05:利用车辆上的精度识别模型对语音请求进行精度识别;
07:根据意图识别结果和精度识别结果生成第一控制指令;
09:根据第一控制指令的比例尺调节导航地图的显示状态。
可以理解地,计算机程序31包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本申请的计算机可读存储介质可以满足在网络异常的情况下,根据用户精简的语音请求控制导航地图的需求,及实现对用户语音请求的快速响应,使车机端能正确接受放大地图刻度的第一控制指令。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (15)

  1. 一种语音交互方法,其特征在于,包括:
    接收对车辆导航地图调节的语音请求,所述导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,所述语音请求可支持的叠词范围根据所述比例尺和使用频率高于预设频率的语音请求确定;
    在车辆的网络连接状态处于异常状态的情况下,利用所述车辆上的意图识别模型对所述语音请求进行意图识别;
    利用所述车辆上的精度识别模型对所述语音请求进行精度识别;
    根据所述意图识别结果和所述精度识别结果生成第一控制指令;
    根据所述第一控制指令的比例尺调节所述导航地图的显示状态。
  2. 根据权利要求1所述的语音交互方法,其特征在于,所述叠词范围小于所述比例尺的可调节范围。
  3. 根据权利要求1所述的语音交互方法,其特征在于,所述根据所述第一控制指令的比例尺调节所述导航地图的显示状态,包括:
    在所述第一控制指令的比例尺超过预设阈值的情况下,根据所述预设阈值调节所述导航地图的显示状态,并向用户反馈第一提示信息。
  4. 根据权利要求1所述的语音交互方法,其特征在于,所述根据所述第一控制指令的比例尺调节所述导航地图的显示状态,包括:
    在所述第一控制指令的比例尺不超过预设阈值的情况下,根据所述第一控制指令的比例尺调节所述导航地图的显示状态,并向用户反馈第二提示信息。
  5. 根据权利要求1所述的语音交互方法,其特征在于,所述根据所述意图识别结果和所述精度识别结果生成第一控制指令,包括:
    根据所述意图识别的结果确定目标意图;
    根据所述精度识别的结果确定目标刻度调节精度值;
    根据所述目标意图和所述目标刻度调节精度值修改默认值;
    将所述目标意图和修改后的所述默认值融合生成所述第一控制指令。
  6. 根据权利要求5所述的语音交互方法,其特征在于,所述根据所述意图识别的结果确定所述目标意图,包括:
    获取所述意图识别的结果对应各个预设意图的意图判别概率;
    将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述目标意图。
  7. 根据权利要求5所述的语音交互方法,其特征在于,所述根据所述精度识别的结果确定所述目标刻度调节精度值,包括:
    获取所述精度识别的结果对应各个预设刻度调节精度值的精度判别概率;
    将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值,确定为所述目标刻度调节精度值。
  8. 根据权利要求5所述的语音交互方法,其特征在于,所述根据所述第一控制指令的比例尺调节所述导航地图的显示状态,包括:
    根据所述目标意图确定所述导航地图的比例尺的调节方向;
    根据所述目标刻度调节精度值确定所述导航地图的比例尺的调节跨度;
    根据当前比例尺、所述调节方向和所述调节跨度确定所述第一控制指令的比例尺;
    调节所述导航地图的比例尺至所述第一控制指令的比例尺。
  9. 根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
    在所述车辆的网络连接处于正常状态的情况下,将所述语音请求发送至服务器;
    接收服务器根据所述语音请求下发的第二控制指令;
    根据所述第二控制指令的比例尺调节所述导航地图的显示状态。
  10. 根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
    确定所述语音请求可调节所述导航地图的比例尺和可调节范围。
  11. 根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
    根据所述比例尺和使用频率高于预设频率的语音请求确定所述语音请求可支持的叠词范围。
  12. 一种模型训练方法,用于训练模型得到权利要求1-11任一项中所述的意图识别模型和精度识别模型,其特征在于,包括:
    通过意图训练数据训练得到所述意图识别模型,所述意图训练数据与导航地图的比例尺和可调节范围相关;
    通过精度训练数据训练得到所述精度识别模型,所述精度训练数据与所述导航地图的比例尺和可调节范围以及所述导航地图的比例尺刻度调节精度范围相关。
  13. 一种语音交互装置,其特征在于,包括:
    指令接收模块,所述指令接收模块用于接收对车辆导航地图调节的语音请求,所述导航地图的比例尺可通过模拟对车辆零部件的操作进行刻度调节,所述语音请求可支持的叠词范围根据所述比例尺和使用频率高于预设频率的语音请求确定;
    意图识别模块,所述意图识别模块用于在车辆的网络连接状态处于异常状态的情况下,利用所述车辆上的意图识别模型对所述语音请求进行意图识别;
    精度识别模块,所述精度识别模块用于利用所述车辆上的精度识别模型对所述语音请求进行精度识别;
    控制指令生成模块,所述控制指令生成模块用于根据所述意图识别结果和所述精度识别结果生成第一控制指令;
    调节模块,所述调节模块用于根据所述第一控制指令的比例尺调节所述导航地图的显示状态。
  14. 一种车辆,其特征在于,所述车辆包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现 权利要求1-11任一项所述的语音交互方法。
  15. 一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-11任一项所述的语音交互方法和/或权利要求12所述的模型训练方法。
PCT/CN2022/138924 2021-12-29 2022-12-14 语音交互方法及其装置、模型训练方法、车辆和存储介质 WO2023125002A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111628094.3A CN114005449B (zh) 2021-12-29 2021-12-29 语音交互方法及其装置、模型训练方法、车辆和存储介质
CN202111628094.3 2021-12-29

Publications (1)

Publication Number Publication Date
WO2023125002A1 true WO2023125002A1 (zh) 2023-07-06

Family

ID=79932117

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/138924 WO2023125002A1 (zh) 2021-12-29 2022-12-14 语音交互方法及其装置、模型训练方法、车辆和存储介质

Country Status (2)

Country Link
CN (1) CN114005449B (zh)
WO (1) WO2023125002A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005449B (zh) * 2021-12-29 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、模型训练方法、车辆和存储介质
CN115064169B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11183190A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp ナビゲーション用音声認識装置および音声認識機能付きナビゲーション装置
CN111753039A (zh) * 2020-06-28 2020-10-09 广州小鹏车联网科技有限公司 调整方法、信息处理方法、车辆和服务器
CN111833872A (zh) * 2020-07-08 2020-10-27 北京声智科技有限公司 对电梯的语音控制方法、装置、设备、系统及介质
CN113436628A (zh) * 2021-08-27 2021-09-24 广州小鹏汽车科技有限公司 语音交互方法、装置、系统、交通工具及介质
CN114005449A (zh) * 2021-12-29 2022-02-01 广州小鹏汽车科技有限公司 语音交互方法及其装置、模型训练方法、车辆和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10904985B2 (en) * 2017-07-19 2021-01-26 Signify Holding B.V. Lighting control utilizing a speech recognition system
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备
CN110444206A (zh) * 2019-07-31 2019-11-12 北京百度网讯科技有限公司 语音交互方法及装置、计算机设备与可读介质
CN111965985B (zh) * 2020-08-04 2024-01-26 深圳市欧瑞博科技股份有限公司 智能家居设备控制方法、装置、电子设备以及存储介质
CN113239178A (zh) * 2021-07-09 2021-08-10 肇庆小鹏新能源投资有限公司 意图生成方法、服务器、语音控制系统和可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11183190A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp ナビゲーション用音声認識装置および音声認識機能付きナビゲーション装置
CN111753039A (zh) * 2020-06-28 2020-10-09 广州小鹏车联网科技有限公司 调整方法、信息处理方法、车辆和服务器
CN111833872A (zh) * 2020-07-08 2020-10-27 北京声智科技有限公司 对电梯的语音控制方法、装置、设备、系统及介质
CN113436628A (zh) * 2021-08-27 2021-09-24 广州小鹏汽车科技有限公司 语音交互方法、装置、系统、交通工具及介质
CN114005449A (zh) * 2021-12-29 2022-02-01 广州小鹏汽车科技有限公司 语音交互方法及其装置、模型训练方法、车辆和存储介质

Also Published As

Publication number Publication date
CN114005449A (zh) 2022-02-01
CN114005449B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
WO2023125002A1 (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
KR20120012919A (ko) 음성명령 인식 장치 및 음성명령 인식 방법
US11436497B2 (en) System and method for optimization of deep learning model
CN106384593A (zh) 一种语音信息转换、信息生成方法及装置
WO2023116523A1 (zh) 语音交互方法及其装置、服务器和可读存储介质
US10320354B1 (en) Controlling a volume level based on a user profile
US20200043485A1 (en) Dynamic adjustment of response thresholds in a dialogue system
WO2023116500A1 (zh) 语音交互方法及其装置、服务器和可读存储介质
EP3710993B1 (en) Image segmentation using neural networks
WO2023124957A1 (zh) 语音交互方法及其装置、服务器和可读存储介质
US20200019641A1 (en) Responding to multi-intent user input to a dialog system
WO2023000993A1 (zh) 语音控制方法、语音控制系统、车辆、服务器和存储介质
CN111178154B (zh) 表格边框预测模型生成方法、装置及表格定位方法、装置
US20240046931A1 (en) Voice interaction method and apparatus
US11972759B2 (en) Audio mistranscription mitigation
CN116258946B (zh) 基于前提的多粒度跨模态推理方法及装置
CN111261149B (zh) 语音信息识别方法和装置
EP4174722A1 (en) Method and apparatus for generating synthetic data
CN114299929A (zh) 语音交互方法及装置、服务器及存储介质
CN112562668A (zh) 一种语义信息纠偏方法和装置
CN114241253A (zh) 违规内容识别的模型训练方法、系统、服务器及存储介质
CN114341867B (zh) 翻译方法、装置、客户端、服务器和存储介质
WO2021011708A1 (en) Methods and systems for transcription of audio data
CN114005448A (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
KR102379637B1 (ko) 딥 러닝 인공신경망 기반 영상 인식 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22914257

Country of ref document: EP

Kind code of ref document: A1