WO2023124957A1

WO2023124957A1 - 语音交互方法及其装置、服务器和可读存储介质

Info

Publication number: WO2023124957A1
Application number: PCT/CN2022/138587
Authority: WO
Inventors: 王亭玉; 赵群; 宁洪珂; 樊骏锋; 潘晓彤; 赵恒艺
Original assignee: 广州小鹏汽车科技有限公司
Priority date: 2021-12-28
Filing date: 2022-12-13
Publication date: 2023-07-06
Also published as: CN113990301A; CN113990301B

Abstract

一种语音交互方法及其装置、服务器和可读存储介质，该方法包括：对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，预设功能指模拟对车辆零部件的操作进行刻度调节的功能（01）；根据初步识别文本确定对应的第一类实体（02）；根据第一类实体进行屏幕元素查询得到第二类实体，一个第一类实体对应多个第二类实体（03）；将第二类实体和初步识别文本组合生成待识别文本（04）；利用意图识别模型对待识别文本进行意图识别，根据意图识别的结果进行语音交互（05）。该方法将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

Description

语音交互方法及其装置、服务器和可读存储介质

本申请要求于2021年12月28日提交国家知识产权局、申请号为202111617605.1、申请名称为“语音交互方法及其装置、服务器和可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音技术领域，特别涉及一种语音交互方法及其装置、服务器和可读存储介质。

背景技术

目前车载语音交互系统对用户在进行车辆控制时的意图不能进行精准识别，即系统不能正确识别出用户的真实需求，需要给出tts(text to speech，从文本到语音)回复引导用户进行第二轮对话。tts播报冗长，用户需要多轮交互，用户体验变差。例如，在车载屏幕中已经在某相关页面时，说“音量大大大”，不是希望默认的“媒体音量”调大，有可能是别的音量。如当在导航页面时，用户希望“音量大大大”是希望导航音量提高；而在系统设置界面，用户希望“音量大大大”，是希望系统音量增大。而在大多数情况下，用户不会特意区分系统音量，媒体音量，导航音量等，只希望音量在当前场景下提高。目前方案下，对于音量多实体的情况，默认会走引导，引导用户说“您具体想提高什么音量呢”“您可以试着这样说”等引导用户说出希望命中的语音请求，因此，根据传统的逻辑引导用户的做法并不能准确地捕捉用户的意图，使用户体验变差。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种语音交互方法及其装置、服务器和可读存储介质，能够准确识别出用户真正意图，提高用户体验。

本申请提供一种语音交互方法。所述语音交互方法包括：对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；根据所述初步识别文本确定对应的第一类实体；根据所述第一类实体进行屏幕元素查询得到第二类实体，一个所述第一类实体对应多个所述第二类实体；将所述第二类实体和所述初步识别文本组合生成待识别文本；利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互。

如此，本申请的语音交互方法通过建立多个第二类实体与第一类实体的映射关系，并结合屏幕元素检索出的真正的第二类实体，将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

所述根据所述初步识别文本确定对应的第一类实体，包括：对所述初步识别文本进行叠词抽取得到预设文本词；根据所述预设文本词确定所述初步识别文本的所述第一类实体。

如此，可以根据对用户的初步识别文本进行叠词抽取得到预设文本词，再根据预设文本词确定第一类实体，根据预设文本词的提取，可以快速定位到第一类实体范围，为后续根据第一类实体确定第二类实体奠定基础。

所述对所述初步识别文本进行叠词抽取得到预设文本词，包括：通过字符串匹配的方式或正则搜索的方式对所述初步识别文本进行叠词抽取得到预设文本词。

如此，可以灵活利用不同的方式对所述初步识别文本进行叠词抽取得到预设文本词。

所述语音交互方法包括：建立可变化动词与所述第一类实体的第一映射关系表，一个所述可变化动词对应多个所述第一类实体。

如此，本申请的语音交互方法通过建立可变化动词与第一类实体的第一映射关系表，可以根据该第一映射关系表确定第一类实体，为精确识别用户意图奠定基础。

所述根据所述预设文本词确定所述初步识别文本的所述第一类实体，包括：将所述预设文本词进行归一化处理以确定所述预设文本词对应的可变化动词；根据所述可变化动词和所述第一映射关系表确定所述第一类实体。

如此，通过对预设文本词进行归一化处理，可以精确地确定预设文本词对应的可变化动词，从而根据可变化动词和第一映射关系表精确地确定第一类实体。

所述语音交互方法包括：建立所述第一类实体与所述第二类实体的第二映射关系表。

如此，通过建立第一类实体与第二类实体的第二映射关系表，便于后续根据第一类实体确定第二类实体，提升语音交互效率。

所述根据所述第一类实体进行屏幕元素查询得到第二类实体，包括：在屏幕的当前页面为不可展开页面的情况下，根据所述不可展开页面、所述第一类实体和所述第二映射关系表确定所述第二类实体。

如此，本申请的语音交互方法先判断了屏幕的当前页面为不可展开页面，由于不可展开页面不含可弹出控件界面，因此可以根据不可展开页面、第一类实体和第二映射关系表直接确定此时的第二类实体，先判断了为不可展开页面，提升了第二类实体确定的效率。其中，不可展开界面是指不含有可弹出控件界面，但可含有可拖动元素的界面，如系统音量调节界面。

所述根据所述第一类实体进行屏幕元素查询得到第二类实体，包括：在所述当前页面为可展开页面的情况下，获取所述可展开页面的主页面名称和控件名称；根据所述主页面名称、所述控件名称和所述第二映射关系表确定所述第二类实体。

如此，本申请的语音交互方法可以在当前页面为可展开页面的情况下，获取可展开页面的主页面名称和控件名称，根据主页面名称、控件名称和第二映射关系表确定第二类实体，即本申请的语音交互方法，只读取控件可能的名称与当前页面名称，不对控件建立可执行节点的脚本命令，操作简单。其中，可展开页面指含有可弹出控件的界面，如系统设置界面，含有音量调节控件，并可以打开。

所述语音交互方法包括：通过意图训练数据训练得到所述意图识别模型，所述意图训练数据与车辆零部件和所述车辆零部件的可调节范围相关。

如此，本申请的语音交互方法可以通过意图训练数据训练得到意图识别模型，根据意图识别模型进行意图识别，可以实现精确识别用户指令的意图。

所述利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互，包括：获取所述意图识别的结果对应各个预设意图的意图判别概率；将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述语音请求对应的目标意图。

如此，本申请的语音交互方法可以获取意图识别的结果对应各个预设意图的意图判别概率，将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图，从而实现识别用户精准调节车辆零部件的刻度的需求。

所述预设意图包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。

如此，设置了多种预设意图可以进一步为识别用户的语音交互意图奠定基础，完善可能遇到的语音交互场景。

所述利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互，包括：利用精度识别模型对所述待识别文本进行精度识别，根据所述意图识别的结果和所述精度识别的结果进行语音交互。

如此，根据精度识别模型对待识别文本进行精度识别，根据意图识别的结果和精度识别的结果进行语音交互，从而根据精确的用户语音请求的意图和精度实现精确地语音交互。

所述语音交互方法包括：通过精度训练数据训练得到所述精度识别模型，所述精度训练数据与车辆零部件、所述车辆零部件的可调节范围和所述车辆零部件的刻度调节精度范围相关。

如此，根据精度识别模型对待识别文本进行精度识别，可以确定语音请求对应的刻度调节精度。

所述利用精度识别模型对所述待识别文本进行精度识别，根据所述意图识别的结果进行语音交互，包括：获取所述精度识别的结果对应多个预设刻度调节精度值的精度判别概率；将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值，确定为所述语音请求对应的目标刻度调节精度值。

如此，本申请的语音交互方法可以获取精度识别的结果对应各个预设刻度调节精度值的精度判别概率，确定精度判别概率大于第二概率阈值的预设刻度调节精度值为目标刻度调节精度值，从而进行精确的刻度调节。

所述根据所述意图识别的结果和所述精度识别的结果进行语音交互，包括：根据所述目标意图和所述目标刻度调节精度值融合生成控制指令，以控制对应的车辆零部件。

如此，本申请根据目标意图和目标刻度调节精度值融合生成控制指令从而控制对应的车辆零部件，可以实现对用户语音请求的精准刻度调节。

本申请还提供一种语音交互装置。所述语音交互装置包括：语音识别模块、确定模块、查询模块、组合模块和语音交互模块。所述语音识别模块用于对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；所述确定模块用于根据所述初步识别文本确定对应的第一类实体；所述查询模块用于根据所述第一类实体进行屏幕元素查询得到第二类实体，一个所述第一类实体对应多个所述第二类实体；所述组合模块用于将所述第二类实体和所述初步识别文本组合生成待识别文本；所述语音交互模块用于利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互。

如此，本申请的语音交互装置通过建立多个第二类实体与第一类实体的映射关系，并结合屏幕元素检索出的真正的第二类实体，将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

本申请还提供一种服务器。所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述任意一项实施方式所述的语音交互方法。

如此，本申请的服务器通过建立多个第二类实体与第一类实体的映射关系，并结合屏幕元素检索出的真正的第二类实体，将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

本申请还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，实现上述任意一项实施方式所述的语音交互方法。

如此，本申请的计算机可读存储介质通过建立多个第二类实体与第一类实体的映射关系，并结合屏幕元素检索出的真正的第二类实体，将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请的语音交互方法的流程示意图之一；

图2是本申请的语音交互装置的结构示意图之一；

图3是本申请的语音交互方法的流程示意图之二；

图4是本申请的语音交互装置的结构示意图之二；

图5是本申请的语音交互方法的流程示意图之三；

图6是本申请的语音交互装置的结构示意图之三；

图7是本申请的语音交互方法的流程示意图之四；

图8是本申请的语音交互装置中第一确定单元的结构示意图；

图9是本申请的语音交互方法的流程示意图之五；

图10是本申请的语音交互装置的结构示意图之四；

图11是本申请的语音交互方法的流程示意图之六；

图12是本申请的语音交互方法的流程示意图之七；

图13是本申请的语音交互方法的流程示意图之八；

图14是本申请的语音交互装置的结构示意图之五；

图15是本申请的语音交互方法的流程示意图之九；

图16是本申请的语音交互装置中语音交互模块的结构示意图之一；

图17是本申请的语音交互方法的流程示意图之十；

图18是本申请的语音交互装置中语音交互模块的结构示意图之二；

图19是本申请的语音交互方法的流程示意图之十一；

图20是本申请的语音交互方法的流程示意图之十二；

图21是本申请的语音交互模块中精度识别单元的结构示意图；

图22是本申请的语音交互方法的流程示意图之十三；

图23是本申请的语音交互装置中语音交互模块的结构示意图之三；

图24是本申请的服务器的结构示意图；

图25是本申请的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

下面详细描述本申请，本申请的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

请参阅图1，本申请提供了一种语音交互方法。该语音交互方法包括：

01：对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，预设功能指模拟对车辆零部件的操作进行刻度调节的功能；

02：根据初步识别文本确定对应的第一类实体；

03：根据第一类实体进行屏幕元素查询得到第二类实体，一个第一类实体对应多个第二类实体；

04：将第二类实体和初步识别文本组合生成待识别文本；

05：利用意图识别模型对待识别文本进行意图识别，根据意图识别的结果进行语音交互。

请参阅图2，本申请还提供一种语音交互装置10。语音交互装置10包括：语音识别模块11、第一类实体确定模块12、第二类实体确定模块13、组合模块14、语音交互模块15。

步骤01可以由语音识别模块11实现，步骤02可以由第一类实体确定模块12实现，步骤03可以由第二类实体确定模块13实现，步骤04可以由组合模块14实现，步骤05可以由语音交互模块15实现。也即是说，语音识别模块11用于对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，预设功能指模拟对车辆零部件的操作进行刻度调节的功能；第一类实体确定模块12用于根据初步识别文本确定对应的第一类实体；第二类实体确定模块13用于根据第一类实体进行屏幕元素查询得到第二类实体，一个第一类实体对应多个第二类实体；组合模块14用于将第二类实体和初步识别文本组合生成待识别文本；语音交互模块15用于利用意图识别模型对待识别文本进行意图识别，根据意图识别的结果进行语音交互。

车辆预设功能调节的语音请求例如可以为“屏幕亮亮亮”、“音量大大大”、“屏幕亮亮亮亮”、“空调风量大大大”、“座椅后后后”，即为带有精简词的语音请求。其中，预设功能指模拟对车辆零部件的操作进行刻度调节的功能，其中的车辆零部件可以指机械旋钮或按钮等实体部件，这些是可以进行调节刻度的车辆零部件。

首先，对该语音请求进行语音识别得到初步识别文本，也即是，例如，对用户输入的具有对车辆预设功能调节的语音请求“屏幕亮亮亮”进行语音识别，得到的初步识别文本即为“屏幕亮亮亮”。

可以理解地，在实际交互环境中，可能受车辆硬件限制，或者因为网络的不稳定性，用户表述口语化或者方言化等原因，导致语音识别后得到的待识别文本不够清晰准确，需要通过预处理进行一些常规文本纠错，例如将一些表达进行近义或同义纠正，以及一些无意义词语的去除等。例如“音量深深深深深”纠正为“音量增增增增增”，以及一些无意义词语的去除等，例如“啊”，“请”等。

然后，根据初步识别文本确定对应的第一类实体。其中，第一类实体指的是用户语音请求的历史记录中“音量”和“屏幕”等包含的多种调节名词的总称。可以理解地，“音量”包括“导航音量”、“系统音量”、“媒体音量”、“小P声音”等音量的调节。“屏幕”包括“大屏”、“仪表”、“中控台”等屏幕的调节。即，带有具体的实体名称的实体为第二类实体。

接着，根据第一类实体进行屏幕元素查询得到第二类实体，一个第一类实体对应多个第二类实体。例如，第一类实体为“音量”，对应的多个第二类实体包括“导航音量”、“系统音量”、“媒体音量”、“小P声音”等。

屏幕元素查询指的是对实时车辆状态建立相应的查询元素，例如，风量、音量等在当前屏幕页面的标识。本申请的语音交互方法首先查询此时是否在第二类实体的调节页面，若是在具体实体的调节页面，在一个示例中，当前界面为导航界面，即第二类实体为导航音量，则音量大大大说法，直接继承该页面实体。此时，用户指令可以将“导航音量”与初步识别文本“音量大大大”组合为待识别文本“导航音量大大大”，并根据该待识别文本“导航音量大大大”进行正确的意图识别过程，根据对应的意图识别结果进行语音交互。

屏幕元素查询还包括检索当前页面控件及其对应名称。例如，在系统设置的页面中，定位当前主页面名称“系统设置”，检测控件名称为“音量”，根据主页面名称与具体控件名称组装成“系统音量”。此时，用户指令可以将“系统音量”与初步识别文本“音量大大大”组合为待识别文本“系统音量大大大”，并根据该待识别文本“系统音量大大大”进行正确的意图识别过程，根据对应的意图识别结果进行语音交互。

请参阅图3，步骤02包括：

021：通过字符串匹配的方式或正则搜索的方式对初步识别文本进行叠词抽取得到预设文本词；

022：根据预设文本词确定初步识别文本的第一类实体。

请结合图4，第一类实体确定模块12包括叠词抽取单元121和第一确定单元122。

步骤021可以由叠词抽取单元121实现，步骤022可以由第一确定单元122实现。也即是，叠词抽取单元121用于通过字符串匹配的方式或正则搜索的方式对初步识别文本进行叠词抽取得到预设文本词；第一确定单元122用于根据预设文本词确定初步识别文本的第一类实体。

首先对用户的初步识别文本进行叠词提取，可采用字符串匹配或正则搜索的方式，进行叠词抽取，例如对初步识别文本“音量大大大”进行叠词抽取，则抽取的预设文本词为“大大大”。也即是，预设文本词指的是初步识别文本中的叠词。

请参阅图5，语音交互方法包括：

001：建立可变化动词与第一类实体的第一映射关系表，一个可变化动词对应多个第一类实体。

请结合图6，语音交互装置10包括第一关系表建立模块101。

步骤001可以由关系表建立模块101实现。也即是，关系表建立模块101用于建立可变化动词与第一类实体的第一映射关系表，一个可变化动词对应多个第一类实体。

可变化动词为大小、高低、前后等可以变化的动词。一个可变化动词对应多个第一类实体，例如第一映射关系表中，可变化动词为“大”，对应的第一类实体为“音量”或者“风量”。可变化动词为“前”，对应的第一类实体为“椅背”。可变化动词为“高”，对应的第一类实体为“温度”或“座椅”。其中，可变化动词包括一个或多个，在此不作限制。

可变化动词与第一类实体的第一映射关系表，如下所示可变化动词“大”、“小”、“高”、“低”、“亮”和“暗”与对应的第一类实体间的映射关系可以为：

{“大”：[音量，风量]

“小”：[音量，风量]

“高”：[温度，音量]

“低”：[温度，音量]

“亮”：[屏幕，氛围灯]

“暗”：[屏幕，氛围灯]}。

请参阅图7，步骤022包括：

0221：将预设文本词进行归一化处理以确定预设文本词对应的可变化动词；

0222：根据可变化动词和第一映射关系表确定第一类实体。

请结合图8，第一确定单元122包括第一确定子单元1221和第二确定子单元1222。

步骤0221可以由第一确定子单元1221实现，步骤0222可以由第二确定子单元1222实现。也即是，第一确定子单元1221用于将预设文本词进行归一化处理以确定预设文本词对应的可变化动词；第二确定子单元1222用于根据可变化动词和第一映射关系表确定第一类实体。

对抽取的预设文本词进行归一化处理，并根据可变化动词与实体间的映射关系表进行检索。如对预设文本词“大大大”归一化处理后得到的词为“大”，则根据可变化动词与实体间的映射关系表可以得到归一化处理后的词“大”，对应的第一类实体为“音量”或者“风量”。

请参阅图9，语音交互方法包括：

002：建立第一类实体与第二类实体的第二映射关系表。

请结合图10，语音交互装置10包括第二关系表建立模块102。

步骤002可以由第二关系表建立模块102实现。也即是，第二关系表建立模块102用于建立第一类实体与第二类实体的第二映射关系表。

第一类实体与第二类实体的第二映射关系表，例如，第二映射关系表中第一类实体“音量”对应的第二类实体为“导航音量”、“系统音量”、“媒体音量”、“小P声音”等。第二映射关系表中第一类实体“屏幕”对应的第二类实体为“大屏”、“仪表”、“中控台”等。第二类实体可以根据车辆具有的硬件进行增减设置。

请参阅图11，步骤03包括：

031：在屏幕的当前页面为不可展开页面的情况下，根据不可展开页面、第一类实体和第二映射关系表确定第二类实体。

请结合图2，步骤031可以由第二类实体确定模块13实现，第二类实体确定模块13用于在屏幕的当前页面为不可展开页面的情况下，根据不可展开页面、第一类实体和第二映射关系表确定第二类实体。

不可展开界面是指不含有可弹出控件界面，但可含有可拖动元素的界面，如系统音量调节界面。在屏幕的当前页面为不可展开页面的情况下，由于不含可弹出控件界面，因此可以根据不可展开页面、第一类实体和第二映射关系表直接确定此时的第二类实体，优先判断当前页面为不可展开页面，提升了第二类实体确定的效率。

另外，本申请的语音交互方法优先判断是屏幕的当前页面否是不可展开页面，在屏幕的当前页面为不可展开页面的情况下确定第二类实体，不需要在可展开页面中先识别用户语音中的控件是否在屏幕上，然后打开该控件，对其进行语音请求操作，即，本申请的语音交互方法更为简单。

请参阅图12，步骤03包括：

032：在当前页面为可展开页面的情况下，获取可展开页面的主页面名称和控件名称；

033：根据主页面名称、控件名称和第二映射关系表确定第二类实体。

请结合图2，步骤032和步骤033可以由第二类实体确定模块13实现，第二类实体确定模块13用于在当前页面为可展开页面的情况下，获取可展开页面的主页面名称和控件名称；根据主页面名称、控件名称和第二映射关系表确定第二类实体。

可展开页面指含有可弹出控件的界面，如系统设置界面，含有音量调节控件，并可以打开。

本申请只读取当前页面的控件可能的名称与主页面名称，不需要对控件建立可执行节点的脚本命令，因为本申请语音请求的命令下发，是通过“控件名字”+“叠词”组装脚本实现的。

如此，相比于传统的语音识别逻辑需要对屏幕元素的每一个控件建立可执行脚本，再对用户的说法中进行控件名的匹配，操作复杂、速度慢，本申请只读取屏幕元素的名称，自行组装命令会更加快速，更加便捷，其省去大量存储每个控件脚本的空间。

可以理解地，车辆并非所有功能的调节都可以、能够或有需要进行精准的刻度调节。例如，座椅在各个方向上的移动可以通过车辆零部件进行调节。而车门则没有类似旋钮、按键等车辆零部件来实现刻度调节，而通常仅通过车门把手进行开关。因此，座椅调节是属于车辆零部件的控制范围、而车门调节则属于车辆零部件的非控制范围。

获取车辆零部件的信息，根据车辆零部件的信息，确定可通过车辆零部件进行刻度调节的硬件，确定为车辆零部件的控制范围，将不可通过车辆零部件进行调节的硬件确定为非控制范围。

首先，确定在车辆上可以进行刻度调节的车辆零部件，例如：“音量旋钮”、“屏幕亮度按钮”、“空调风量旋钮/按钮”、“座椅调节旋钮/按钮”等。进一步，确定车辆零部件的控制范围可包括：车载音响、车辆内的屏幕、车辆空调、车辆座椅、车内的氛围灯、车辆外部的车灯、或车窗等。车辆零部件的非控制范围可包括：车门、后视镜、后备箱等。

在后续语音交互的过程中，可在语音请求针对车辆零部件的非控制范围的情况下进行语音提示。

如此，通过收集车辆零部件信息，确认可通过车辆零部件进行刻度调节的功能，从而确定车辆零部件的控制范围，也即是可通过语音交互进行刻度调节的控制范围。

在确定车辆零部件的控制范围和非控制范围后，需要针对控制范围中的每一个车辆零部件确定可调节范围。车辆零部件的可调节范围与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件，可调节范围可以是档位或量程。例如，屏幕亮度按钮累计连续按压5次，屏幕亮度依次调整1至5个档位的亮度至最大亮度，则该屏幕亮度按钮的可调节范围为1至5个档位。又如，对座椅进行前后调节的旋钮的总刻度值为90，则该座椅调节旋钮的可调节范围为刻度值1～90。

然后，将车辆零部件的控制范围和每个车辆零部件的可调节范围，映射到意图识别模型所能够理解的意图体系。针对车辆零部件的控制范围中的对象和对应的车辆零部件的可调节范围均制定一个相应的预设意图。例如：system volume up代表着预设意图“音量调大”和system volume down代表着预设意图“音量调小”。从而针对零部件控制范围和车辆零部件的可调节范围制定了一套具体的意图映射体系。

对于预设刻度调节精度，例如，语音交互模拟对车辆零部件的操作时音量每次调节3个刻度值，总刻度值为60，则预设刻度调节精度范围可以为1～20。又例如，语音交互模拟对车辆零部件的操作时座椅前后每次调节18个刻度，总刻度值为90，则预设刻度调节精度范围为1～5。

请参阅图13，语音交互方法包括：

003：通过意图训练数据训练得到意图识别模型，意图训练数据与车辆零部件和车辆零部件的可调节范围相关。

请结合图14，语音交互装置10包括意图识别模型获取模块103。

步骤003可以由意图识别模型获取模块103实现。也即是，意图识别模型获取模块103用于通过意图训练数据训练得到意图识别模型，意图训练数据与车辆零部件和车辆零部件的可调节范围相关。

本申请通过机器学习的方式，由可进行刻度调节的车辆零部件和车辆零部件的可调节范围对应的训练数据训练得到意图识别模型，进而对改写后的当前轮的语音请求进行意图识别，实现用户意图的准确识别。其中，模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。

其中，意图训练数据与可进行刻度调节的车辆零部件和零部件的可调节范围相关。车辆零部件指的是在智能汽车上可以进行刻度调节的零部件，例如：“音量旋钮”、“屏幕亮度按钮”、“空调风量旋钮/按钮”、“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件，可调节范围可以是档位或量程。

本申请中的意图识别模型，在使用前预先训练。意图训练的数据可以在取得相关用户权限的情况下，收集一定数量的用户语音请求的历史记录，对收集到的用户语音请求进行简单的筛选得到语义明确且包含具体目的语音请求，具体为：在筛选中去掉明显语义不明确的语音请求，以及一些只包含语气词，例如“啊”、“哦”等较短的语音请求，留下语义明确同时包含具体目的语音请求。

然后，对筛选后的语音请求参照制定的预设意图进行标注，例如，语音请求为“屏幕亮亮亮”，可标注对应的意图为“屏幕调亮”，然后，对标注的数据进行质检，再次筛选去掉不符合预设意图的标注数据，留下可用于意图模型训练的标注数据。例如，语音请求为“车门开”，标注对应的意图为“打开车门”，而可进行刻度调节的零部件不用于调节车门，此时，可通过筛选将该语音请求去掉。

在训练过程中，将可用于意图模型训练的的标注数据作为意图训练数据并划分为意图训练集和意图数据集，划分比例可根据需求设定，在此不作限定。例如意图训练集80％，意图验证集为20％。利用意图训练集中的数据进行意图识别模型的训练。模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。

例如，对于建立好的意图识别模型，先利用意图训练集中的至少部分数据用于训练意图识别模型，然后利用意图验证集的至少部分数据对训练后的意图识别模型的准确率进行意图验证。在意图验证的准确率没有达到意图准确率阈值的情况下，再次通过意图训练集的至少另一部分数据对意图识别模型进行训练，以及再次利用意图验证集的另一部分数据对再次训练后的意图识别模型的准确率进行意图验证。如此重复训练和意图验证的过程，直到意图验证的准确率达到意图准确率阈值时，可以认为意图识别模型已经达标，完成意图识别模型的训练。

需要说明的是，意图训练集和意图验证集中的每个数据均只使用一次，在意图识别模型遍历意图训练集和意图验证集的所有数据均未能训练达标的情况下，可以再次在用户允许的情况下收集更多的语音请求，从而筛选并标注得到更多的意图训练数据对意图识别模型进行训练，从而保证意图识别模型能够准确识别输入的语音请求对应的意图。

可以理解，上述意图识别模型可以离线进行训练，将离线训练好的意图识别模型部署到服务器或车辆后，服务器或车辆可以对接收到的语音请求，利用意图识别模型进行意图识别。

请参阅图15，步骤05包括：

051：获取意图识别的结果对应各个预设意图的意图判别概率；

052：将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图。

请结合图16，语音交互模块15包括第一获取单元151和意图确定单元152。

步骤051可以由第一获取单元151实现，步骤052可以由意图确定单元152实现。也即是，第一获取单元151用于获取意图识别的结果对应各个预设意图的意图判别概率；意图确定单元152用于将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图。

使用训练好的的模型针对待识别文本进行意图识别得到意图识别的结果，意图识别的结果中包括待识别文本与各个预设意图相匹配的概率，即可以得到多个意图判别概率。若第一概率阈值为0.9，则意图识别的结果为某个类别的预设意图的意图判别概率超过0.9，那么服务端认为当前用户的语音请求为对应类别的预设意图就是目标意图。第一概率阈值也可以为其他数值，第一概率阈值可以为默认设置的数值，也可以根据用户需要自行设定，在此不作限制。

本申请的预设意图可包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。

应当理解地，本申请中的预设意图仅为示意性说明，对于车辆中可进行刻度调节的对象都可以根据其实际的操作设定相应的预设意图。

如此，可根据车辆的具体情况制定多个预设意图，完善可能遇到的语音交互场景。

步骤05还包括：

053：在各个预设意图的意图判别概率均不大于第一概率阈值的情况下，确定语音请求的意图为非刻度调节意图。

步骤053可以由意图确定单元152实现，也即是，意图确定单元152用于在各个预设意图的意图判别概率均不大于第一概率阈值的情况下，确定语音请求的意图为非刻度调节意图。

例如，当多个类别的预设意图对应的判别概率均不大于第一概率阈值的情况，即根据语音请求得到用户的意图识别结果与多个类别预设意图相匹配的概率比较低，低于第一概率阈值，例如第一概率阈值为0.9，则确定该语音请求的意图为非刻度调节意图，非刻度调节意图指的是不用可进行刻度调节的车辆零部件来调节车辆预设功能的用户意图，例如，用户输入的语音请求为“车门开开开”，因为车门不能用带有刻度的车辆零部件进行调节，因此，该语音请求“车门开开开”的意图是非刻度调节意图。

请参阅图17，步骤05包括：

054：利用精度识别模型对待识别文本进行精度识别，根据意图识别的结果和精度识别的结果进行语音交互。

请参阅图18，语音交互模块15包括精度识别单元153。

步骤054可以由精度识别单元153实现。也即是，精度识别单元153用于利用精度识别模型对待识别文本进行精度识别，根据意图识别的结果和精度识别的结果进行语音交互。

如此，本申请通过机器学习的方式，由可进行刻度调节的车辆零部件、车辆零部件的可调节范围和零部件的刻度调节精度范围对应的训练数据训练得到精度识别模型，进而语音请求进行精度识别，实现用户刻度调节精度的准确识别。建立精度识别模型以对语音请求。

请参阅图19，步骤054包括：

0541：通过精度训练数据训练得到精度识别模型，精度训练数据与车辆零部件、车辆零部件的可调节范围和车辆零部件的刻度调节精度范围相关。

请结合图18，步骤0541可以由精度识别单元153实现。也即是，精度识别单元153用于通过精度训练数据训练得到精度识别模型，精度训练数据与车辆零部件、车辆零部件的可调节范围和车辆零部件的刻度调节精度范围相关。

如此，可以通过精度训练数据预先训练好精度识别模型对待识别文本进行精度识别，从而识别出某个车辆零部件的调节精度，得到精度识别结果，最终确定目标刻度调节精度值。

其中，精度训练数据与可通过车辆零部件进行刻度调节的车辆零部件、零部件的可调节范围相关，指的是精度训练数据包括车辆中所有可以进行刻度调节的车辆零部件，例如“音量旋钮”、“屏幕亮度按钮”、“空调风量旋钮/按钮”、“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件，可调节范围可以是档位或量程，刻度调节精度范围可以是每次调节的刻度值。

其中，精度训练的数据可以在取得相关用户权限的情况下，收集一定数量的用户语音请求的历史记录，对收集到的用户语音请求进行简单的筛选得到语义明确且包含具体目的语音请求，具体为：在筛选中去掉明显语义不明确的语音请求，以及一些只包含语气词，例如“啊”、“哦”等较短的语音请求，留下语义明确同时包含具体目的语音请求。此时，精度训练时获取的用户语音请求的历史记录可以与意图训练时获取的用户语音请求的历史记录相同，以及精度训练时对收集到的用户语音请求进行筛选的步骤可以与意图训练时对收集到的用户语音请求进行筛选的步骤相同。

然后对筛选后的语音请求进行人工标注，需标注出用户想要调节的刻度调节精度值。例如，语音请求为“屏幕亮亮亮”，对应标注对车辆内屏幕亮度进行调节的刻度调节精度值为3。然后，基于槽位提取的方式建立精度识别模型，槽位提取可以使用的算法包括RNN槽填充，CRF等，将标注好的数据作为精度训练数据并划分得到精度训练集和精度数据集，划分比例可根据需求设定，在此不作限定。例如精度训练集80％，精度验证集为20％。利用精度训练集中的数据进行精度识别模型的训练。对于建立好的精度识别模型，先利用精度训练集中的至少部分数据用于训练精度识别模型，然后利用精度验证集的至少部分数据对训练后的精度识别模型的准确率进行精度验证。在精度验证的准确率没有达到精度准确率阈值的情况下，再次通过精度训练集的至少另一部分数据对精度识别模型进行训练，以及再次利用精度验证集的另一部分数据对再次训练后的精度识别模型的准确率进行精度验证。如此重复训练和精度验证的过程，直到精度验证的准确率达到精度准确率阈值时，可以认为精度识别模型已经达标，完成精度识别模型的训练。

需要说明的是，精度训练集和精度验证集中的每个数据均只使用一次，在精度识别模型遍历精度训练集和精度验证集的所有数据均未能训练达标的情况下，可以再次在用户允许的情况下收集更多的语音信息，从而筛选并标注得到更多的精度训练数据对精度识别模型进行训练，从而保证精度识别模型能够准确识别输入的语音请求对应的刻度调节精度。

请参阅图20，步骤054包括：

0542：获取精度识别的结果对应多个预设刻度调节精度值的精度判别概率；

0543：将精度判别概率大于第二概率阈值的一个预设刻度调节精度值，确定为语音请求对应的目标刻度调节精度值。

请结合图21，精度识别单元153包括第二获取单元1532和精度确定单元1533实现。也即是，第二获取单元1532用于获取精度识别的结果对应多个预设刻度调节精度值的精度判别概率；精度确定单元1533用于将精度判别概率大于第二概率阈值的一个预设刻度调节精度值，确定为语音请求对应的目标刻度调节精度值。

精度判别概率指的是识别该语音请求的精度与各个预设刻度调节精度值相匹配的概率。第二概率阈值例如可以为0.7、0.8、0.9或其他数值，在此不作限制。

当精度判别概率为1，第二概率阈值为0.9时，即精度判别概率为1超过第二概率阈值0.9，则确定语音请求“音量大大大大大”对应音量调节的目标刻度调节精度值为5。

步骤054还包括：

0544：在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下，确定语音请求的精度识别错误。

步骤0544可以由精度确定单元1533实现。也即是说，精度确定单元1533用于在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下，确定语音请求的精度识别错误。

各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况，说明输入的语音请求的精度识别有误，可以排除非刻度调节精度相关的语音请求。

请参阅图22，步骤05包括：

055：根据目标意图和目标刻度调节精度值融合生成控制指令，以控制对应的车辆零部件。

请参阅图23，语音交互模块15包括指令生成单元154。

步骤055可以由指令生成单元154实现。也即是，指令生成单元154用于根据目标意图和目标刻度调节精度值融合生成控制指令，以控制对应的车辆零部件。

根据前面步骤中得到的目标意图和目标刻度调节精度值融合生成控制指令得到结合意图与精度的控制信息，从而可以实现根据用户带有精简词的语音交互指令精确地控制对应的车辆零部件，从而实现用户的真正意图。

请参阅图24，本申请还提供一种服务器20。该服务器20包括处理器21和存储器22，存储器22上存储有计算机程序221，当计算机程序221被处理器21执行时，实现上述任意一个实施例中所述的语音交互方法。服务器20可以安装在车辆内部，也可以与车辆外接设置，在此不作限制。

本申请的服务器20通过建立多个第二类实体与第一类实体的映射关系，并结合屏幕元素检索出的真正的第二类实体，将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

请参阅图25，本申请还提供一种包含有计算机程序的非易失性计算机可读存储介质30。当计算机程序31被一个或多个处理器40执行时，实现上述任意实施条例的语音交互方法。

例如，计算机程序31被处理器40执行时实现以下语音交互方法的步骤：

02：根据初步识别文本确定对应的第一类实体；

04：将第二类实体和初步识别文本组合生成待识别文本；

可以理解地，计算机程序31包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。

本申请的计算机可读存储介质通过建立多个第二类实体与第一类实体的映射关系，并结合屏幕元素检索出的真正的第二类实体，将第二类实体和初步识别文本组合生成待识别文本，可以准确识别出用户真正意图。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种语音交互方法，其特征在于，包括：

对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；

根据所述初步识别文本确定对应的第一类实体；

根据所述第一类实体进行屏幕元素查询得到第二类实体，一个所述第一类实体对应多个所述第二类实体；

将所述第二类实体和所述初步识别文本组合生成待识别文本；

利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互。
根据权利要求1所述的语音交互方法，其特征在于，所述根据所述初步识别文本确定对应的第一类实体，包括：

对所述初步识别文本进行叠词抽取得到预设文本词；

根据所述预设文本词确定所述初步识别文本的所述第一类实体。
根据权利要求2所述的语音交互方法，其特征在于，所述对所述初步识别文本进行叠词抽取得到预设文本词，包括：通过字符串匹配的方式或正则搜索的方式对所述初步识别文本进行叠词抽取得到预设文本词。
根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

建立可变化动词与所述第一类实体的第一映射关系表，一个所述可变化动词对应多个所述第一类实体。
根据权利要求4所述的语音交互方法，其特征在于，所述根据所述预设文本词确定所述初步识别文本的所述第一类实体，包括：

将所述预设文本词进行归一化处理以确定所述预设文本词对应的可变化动词；

根据所述可变化动词和所述第一映射关系表确定所述第一类实体。
根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

建立所述第一类实体与所述第二类实体的第二映射关系表。
根据权利要求6所述的语音交互方法，其特征在于，所述根据所述第一类实体进行屏幕元素查询得到第二类实体，包括：

在屏幕的当前页面为不可展开页面的情况下，根据所述不可展开页面、所述第一类实体和所述第二映射关系表确定所述第二类实体。
根据权利要求7所述的语音交互方法，其特征在于，所述根据所述第一类实体进行屏幕元素查询得到第二类实体，包括：

在所述当前页面为可展开页面的情况下，获取所述可展开页面的主页面名称和控件名称；

根据所述主页面名称、所述控件名称和所述第二映射关系表确定所述第二类实体。
根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

通过意图训练数据训练得到所述意图识别模型，所述意图训练数据与车辆零部件和所述车辆零部件的可调节范围相关。
根据权利要求1所述的语音交互方法，其特征在于，所述利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互，包括：

获取所述意图识别的结果对应各个预设意图的意图判别概率；

将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述语音请求对应的目标意图。
根据权利要求10所述的语音交互方法，其特征在于，所述预设意图包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
根据权利要求10所述的语音交互方法，其特征在于，所述利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互，包括：

利用精度识别模型对所述待识别文本进行精度识别，根据所述意图识别的结果和所述精度识别的结果进行语音交互。
根据权利要求12所述的语音交互方法，其特征在于，所述语音交互方法包括：

通过精度训练数据训练得到所述精度识别模型，所述精度训练数据与车辆零部件、所述车辆零部件的可调节范围和所述车辆零部件的刻度调节精度范围相关。
根据权利要求12所述的语音交互方法，其特征在于，所述利用精度识别模型对所述待识别文本进行精度识别，根据所述意图识别的结果和所述精度识别的结果进行语音交互，包括：

获取所述精度识别的结果对应多个预设刻度调节精度值的精度判别概率；

将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值，确定为所述语音请求对应的目标刻度调节精度值。
根据权利要求14所述的语音交互方法，其特征在于，根据所述意图识别的结果和所述精度识别的结果进行语音交互，包括：

根据所述目标意图和所述目标刻度调节精度值融合生成控制指令，以控制对应的车辆零部件。
一种语音交互装置，其特征在于，包括：

语音识别模块，所述语音识别模块用于对车辆预设功能调节的语音请求进行语音识别得到初步识别文本，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；

确定模块，所述确定模块用于根据所述初步识别文本确定对应的第一类实体；

查询模块，所述查询模块用于根据所述第一类实体进行屏幕元素查询得到第二类实体，一个所述第一类实体对应多个所述第二类实体；

组合模块，所述组合模块用于将所述第二类实体和所述初步识别文本组合生成待识别文本；

语音交互模块，所述语音交互模块用于利用意图识别模型对所述待识别文本进行意图识别，根据所述意图识别的结果进行语音交互。
一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-15任一项所述的语音交互方法。
一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-15任一项所述的语音交互方法。