WO2024078460A1

WO2024078460A1 - 语音处理方法、语音交互方法、服务器及存储介质

Info

Publication number: WO2024078460A1
Application number: PCT/CN2023/123601
Authority: WO
Inventors: 韩传宇; 李东恒; 易晖; 翁志伟; 王天一
Original assignee: 广州小鹏汽车科技有限公司
Priority date: 2022-10-13
Filing date: 2023-10-09
Publication date: 2024-04-18
Also published as: CN115503639A

Abstract

一种语音处理方法，包括：接收的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息；根据唤醒音区信息确定车辆多音区座舱内每个音区初始的拒识模式；接收车辆转发的在车辆语音功能被唤醒后的用户语音请求以及根据用户语音请求确认的对话音区信息；根据用户语音请求和对话音区信息更新对应音区的拒识模式，以确定每个音区的拒识模式。

Description

语音处理方法、语音交互方法、服务器及存储介质

本申请要求于2022年10月13日申请的、申请号为202211255729.4的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音技术领域，特别涉及一种语音处理方法、语音交互方法、服务器及计算机可读存储介质。

背景技术

随着自动驾驶技术的发展，车辆可以支持语音控制服务，如语音控制车窗开启等。在实际用车场景中，用户可能从车内多个音区发出语音，且发出的语音并不都是对车载系统的请求，这就要求车载语音处理器能够在所有语音中拒绝识别无用信息，提取针对自己的语音请求并做出响应。

相关技术中，对于语音请求的拒识处理通常仅能够针对单音区场景，通过结合当前文本信息、自动语音识别技术、置信度表征语音特征等实现在单音区场景下对无关语音请求的拒识，无法满足对于车辆内多音区语音交互的需求。

技术问题

本申请提供了一种语音处理方法、语音交互方法、服务器及计算机可读存储介质。

技术解决方案

本申请的语音处理方法，包括：

接收车辆转发的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息；

根据所述唤醒音区信息确定所述车辆座舱内多个音区中每个音区初始的拒识模式；

接收所述车辆转发的在所述车辆语音功能被唤醒后的用户语音请求以及根据所述用户语音请求确认的对话音区信息；

根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式。

如此，本申请中，将车辆座舱划分为多个音区，针对接收到语音请求，根据语音请求及其语音请求来确认每个音区对应的拒识模式，从而能够满足车辆座舱内对于多音区语音交互的拒识需求。同时，伴随语音交互的进行，各个音区的拒识模式会进行更新，从而在多音区交互场景中，具有较高的语音请求拒识准确性，用户体验较佳。

所述根据所述唤醒音区信息确定所述车辆座舱内多个音区中每个音区初始的拒识模式，包括：

根据所述唤醒音区信息确定所述车辆座舱内唤醒音区初始的所述拒识模式为第一拒识模式；

确定所述车辆座舱内除所述唤醒音区外的各个音区初始的所述拒识模式为第二拒识模式，所述第二拒识模式对语音请求的拒识程度高于所述第一拒识模式。

如此，可根据唤醒音区信息确认各个音区的初始拒识模式，具体而言，唤醒音区初始的拒识模式为第一拒识模式，非唤醒音区初始的拒识模式为拒识程度更高的第二拒识模式。

所述根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式，包括：

若根据所述对话音区信息确认对话音区的拒识模式为所述第一拒识模式且所述用户语音请求为非车辆交互语音请求，则将所述对话音区的拒识模式更新为第二拒识模式。

如此，如果在交互过程中，某一对话音区的拒识模式为第一拒识模式，当该音区的语音请求为非车辆交互语音请求，那么可认为该音区暂时无真实交互意图，将该音区的拒识模式更新为第二拒识模式。

若所述车辆座舱拒识模式为所述第一拒识模式的音区在第一预设时长内未获取到有效语音请求，则将对应音区的拒识模式更新为所述第二拒识模式。

如此，如果在交互过程中，某一对话音区的拒识模式为第一拒识模式，但该音区在预设时长内未收到有效语音请求，那么可认为该音区暂时无真实交互意图，将该音区的拒识模式更新为第二拒识模式。

在根据所述对话音区信息确认对话音区的拒识模式为所述第二拒识模式的情况下，若根据所述用户语音请求确定所述对话音区在第二预设时长内存在有效语音请求被执行，则将所述对话音区的拒识模式更新为所述第一拒识模式。

如此，如果在交互过程中，某一对话音区的拒识模式为第二拒识模式，但该音区在预设时长内接收到有效语音请求，那么可认为该音区存在真实交互意图，可将该音区的拒识模式更新为第一拒识模式，也即是拒识程度较低的拒识模式。

所述语音处理方法包括：

在所述车辆语音功能被唤醒后的第三预设时长内未获取到用户语音请求的情况下，退出所述车辆语音功能。

如此，在预设时间内，如果座舱内用户都没有发出任何语音请求，暂时退出车辆语音功能，等待下一次唤醒。

所述方法还包括：

处理所述用户语音请求确定所述用户语音请求的说话对象标签和意图分级标签；

根据对话音区的拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果。

如此，通过说话对象标签和意图分级标签对用户语音请求进行标定，在结合该语音请求所在音区的拒识模式，确定语音请求的拒识结果，也即是清晰可召回或作为噪声过滤。

所述根据对话音区的拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果，包括：

在所述对话音区的拒识模式为第一拒识模式的情况下，若所述说话对象标签为语音助手类标签且所述意图分级标签为第一级标签或第二级标签，则对所述用户语音请求进行处理得到所述拒识结果为清晰结果；

若所述说话对象标签为非语音助手类标签且所述意图分级标签为第三级标签，则对所述用户语音请求进行处理得到所述拒识结果为噪声结果，所述意图分级标签表征所述用户语音请求的有效程度，其中所述第一级标签大于所述第二级标签且所述第二级标签大于所述第三级标签。

如此，在第一拒识模式下，对于说话对象标签为语音助手类标签且所述意图分级标签为第一级标签或第二级标签的语音请求，确认拒识结果为清晰结果，对于非语音助手类标签且所述意图分级标签为第三级标签的语音请求，确认拒识结果为噪声结果。

所述根据所述拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果，包括：

在所述对话音区的拒识模式为第二拒识模式的情况下，若所述说话对象标签是语音助手类标签且所述意图分级标签为第一级标签，则对所述用户语音请求进行处理得到所述拒识结果为清晰结果；

若所述说话对象标签为非语音助手类标签且所述意图分级标签为第二级标签或第三级标签，则对所述用户语音请求进行处理得到所述拒识结果为噪声结果。

如此，在第二拒识模式下，对于说话对象标签为语音助手类标签且所述意图分级标签为第一级标签的语音请求，确认拒识结果为清晰结果，对于非语音助手类标签且所述意图分级标签为第二级标签或第三级标签的语音请求，确认拒识结果为噪声结果。相对于第一拒识模式，第二拒识模式对于意图分级标签为第二级的标签拒识程度更为严格。

本申请的语音交互方法，包括：

根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式；

确定每个所述音区的拒识模式后，处理所述用户语音请求得到说话对象标签和意图分级标签；

根据所述拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果；

将所述拒识结果下发至所述车辆以完成语音交互。

如此，将车辆座舱划分为多个音区，针对接收到语音请求，根据语音请求及其语音请求来确认每个音区对应的拒识模式，从而能够满足车辆座舱内对于多音区语音交互的拒识需求。同时，伴随语音交互的进行，各个音区的拒识模式会进行更新，从而在多音区交互场景中，具有较高的语音请求拒识准确性，用户体验较佳。

本申请的服务器，包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的方法。

本申请的计算机可读存储介质，存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述的方法。

有益效果

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请语音处理方法的流程示意图之一；

图2是本申请车辆座舱的示意图；

图3是本申请语音处理方法的状态示意图之一；

图4是本申请语音处理方法的状态示意图之二；

图5是本申请语音处理方法的状态示意图之三；

图6是本申请语音处理方法的状态示意图之四；

图7是本申请语音处理方法的状态示意图之五；

图8是本申请语音处理方法的状态示意图之六；

图9是本申请语音处理方法的流程示意图之二；

图10是本申请语音处理方法的状态示意图之七；

图11是本申请语音处理方法的状态示意图之八；

图12是本申请语音交互方法的流程示意图。

本发明的实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

请参阅图1，本申请提供一种语音处理方法，包括：

01：接收车辆转发的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息；

02：根据唤醒音区信息确定车辆座舱内多个音区中每个音区初始的拒识模式；

03：接收车辆转发的在车辆语音功能被唤醒后的用户语音请求以及根据用户语音请求确认的对话音区信息；

04：根据用户语音请求和对话音区信息更新对应音区的拒识模式，以确定每个音区的拒识模式。

本申请还提供了一种服务器，服务器包括存储器和处理器。本申请的语音处理方法可以由本申请的服务器实现。具体地，存储器中存储有计算机程序，处理器用于接收车辆转发的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息，及用于根据唤醒音区信息确定车辆座舱内多个音区中每个音区初始的拒识模式，及用于接收车辆转发的在车辆语音功能被唤醒后的用户语音请求以及根据用户语音请求确认的对话音区信息，以及用于根据用户语音请求和对话音区信息更新对应音区的拒识模式，以确定每个音区的拒识模式。

具体地，车载系统的语音助手为座舱内的用户提供诸多便利，用户可以通过语音交互实现对软件或座舱内车辆零部件的控制。为了交互便利，语音助手可支持连续对话，也即是，在一次唤醒后，用户和语音助手可以进行类似自然语言交流中的多轮对话，直至对话结束，而不必在每次与语音助手交互时，都进行唤醒操作。而为了保证车辆行驶安全，部分相关技术中，仅向主驾用户提供进行语音交互的权限，即只有主驾用户可以在座舱内进行语音交互，而其他座位处的用户若希望实现相关功能就只能由主驾用户进行转达，然而如此，可能会导致主驾用户分心，从而影响驾驶安全。若开放权限给座舱内的全部用户，使得所有用户均可在语音助手被唤醒后进行对话，由于车内空间属于共享环境，语音助手可能会面临接收到来自不同用户与语音助手之间的对话，不同用户之间的对话等，如何在不限定交互环境的情况下，尽可能准确地对接收到的语音请求做出准确的处理，确定需要对哪些语音请求做出反馈，从而能够更好地为用户服务，将决定用户进行语音交互的使用体验。

可以理解，在多音区连续对话的场景中，也即是，在语音助手被唤醒后，支持座舱内不同位置处的用户共同与语音助手进行多轮对话的场景。多个用户可能围绕同一主题进行自由度较高的交互，这些交互中可能有些是与语音助手的交互，有些是用户之间的交互，相较于单一音区的情况更为复杂。

唤醒车辆语音功能也即是唤醒车辆的语音助手，唤醒语音请求可以是由厂商设定或用户自定义的唤醒词。在语音助手被唤醒后，座舱内用户可与语音助手进行连续多轮对话。在对话达到设定的轮次阈值，或在预定时间内没有接收到用户的语音请求等情况后，对话结束。

座舱内根据用户可能发声的区域划分为不同的音区，请参阅图2，以五座车辆100为例，车辆座舱内可划分为包括主驾音区101、副驾音区102、后排左侧即左后音区103、后排中间即中间音区104以及后排右侧即右后音区105等在内的5个音区。座舱内可设置有多个语音拾取装置，从而根据获取到的语音请求的状态信息判断发出语音请求的用户所在的音区位置信息。

唤醒音区也即是发出唤醒语音请求的用户所在的音区位置。如，主驾唤醒语音助手，那么唤醒音区就是主驾音区。唤醒音区信息也即是唤醒音区对应的音区位置信息。

对话音区也即是语音助手获取到的正在进行语音交互的用户所在的音区位置，正在进行对话的音区即为对话音区。如，在某一场景中，在语音助手被唤醒后，主驾用户与副驾用户先后与语音助手进行交互，则在该场景中，主驾用户和副驾用户发出的语音请求先后被语音助手获取，主驾用户和副驾用户所在音区都属于对话音区。对话音区与唤醒音区可以相同或不同。

拒识处理用于在交互过程中甄别出用户的语音请求哪些是对语音助手说的，将其进行召回并执行，哪些不是对语音助手说的，将其作为噪声过滤。

本申请中，提供多种拒识模式，不同的拒识模式基于对语音请求的标注进行召回或拒识，在不同拒识模式下，针对同一语音请求可能会有不同的拒识结果。具体在下文展开。

本申请中，引入状态机，状态机用于记录在语音交互过程中各个音区的拒识模式。并不断地根据接收到的对应音区信息和用户的语音请求进行状态机的更新。实际用车场景中，用户的语音请求具有一定的随机性，当语音助手被唤醒后，各音区的拒识模式需要跟随语音交互的进程更新，从而保证对每一个与语音助手存在明确交互意图的语音请求能够被准确识别，而对于其他非与语音助手的交互能够准确拒识。

综上所述，本申请中，将车辆座舱划分为多个音区，针对接收到语音请求，根据语音请求及其语音请求来确认每个音区对应的拒识模式，从而能够满足车辆座舱内对于多音区语音交互的拒识需求。同时，伴随语音交互的进行，各个音区的拒识模式会进行更新，从而在多音区交互场景中，具有较高的语音请求拒识准确性，用户体验较佳。

请参阅图3及图4，步骤02包括：

021：根据唤醒音区信息确定车辆座舱内唤醒音区初始的拒识模式为第一拒识模式；

022：确定车辆座舱内除唤醒音区外的各个音区初始的拒识模式为第二拒识模式。

处理器用于根据唤醒音区信息确定车辆座舱内唤醒音区初始的拒识模式为第一拒识模式，以及用于确定车辆座舱内除唤醒音区外的各个音区初始的拒识模式为第二拒识模式。

具体地，本申请中，提供两种拒识程度不同的拒识模式，即第一拒识模式和第二拒识模式，其中，第二拒识模式对语音请求的拒识程度高于第一拒识模式。对于同一语音请求而言，采用的拒识模式不同，拒识结果也不同。例如，对于语音请求“明天下不下雨”，该语音请求可能意图不够清楚、存在一定的歧义，表达也相对不够规范，但如采用第一拒识模式，则可将其召回，确认查询天气的意图，而如果采用第二拒识模式，则直接对其进行拒识处理。

在交互过程中，在语音助手唤醒后，会对各个座舱内各个音区配置一初始的拒识模式，并基于该初始拒识模式，进行后续的拒识模式更新。可以理解，一般而言，唤醒语音助手的用户通常具有较强的交互意图，因此，将唤醒音区初始的拒识模式设置为第一拒识模式，其他音区初始的拒识模式置为第二拒识模式，以避免其他音区可能对第一音区的交互造成干扰。

在一个示例中，若车辆语音助手被主驾音区101的用户唤醒，那么主驾音区101也即是确认为唤醒音区，主驾音区101的拒识模式将被置为第一拒识模式。座舱内其它音区，如前例中的副驾音区102、左后音区103、中间音区104、右后音区105的拒识模式将被置为第二拒识模式。

请参阅图3及图5，步骤04包括：

041：若根据对话音区信息确认对话音区的拒识模式为第一拒识模式且用户语音请求为非车辆交互语音请求，则将对话音区的拒识模式更新为第二拒识模式。

处理器用于在根据对话音区信息确认对话音区的拒识模式为第一拒识模式且用户语音请求为非车辆交互语音请求的情况下，将对话音区的拒识模式更新为第二拒识模式。

具体地，在交互过程中，可根据对话音区信息确认对话音区的拒识模式，例如，对话音区为唤醒音区，那么确认对话音区的拒识模式为第一拒识模式，但如果用户语音请求为非车辆交互语音请求，例如，获取到的语音请求为“喂你好哪位”，可确认该用户在打电话，又如，获取的用户请求为“不知道呀”，可确认用户当前在闲聊。类似这类语音请求可认为是非车辆交互语音请求。在这种情况下，可认为该音区用户暂时无真实交互意图，可将该音区的拒识模式更新为第二拒识模式，进行较高程度的拒识。

在一个示例中，主驾用户唤醒车辆语音助手户，主驾音区101被置为第一拒识模式，但根据获取到的主驾音区101的语音请求，确认语音请求为非车辆交互语音请求，那么将主驾音区101的拒识模式更新为第二拒识模式，即判断后续主驾音区101暂时无明确的交互意图，提高拒识程度，防止交互意图不高的语音请求被漏拒。

请参阅图3及图6，步骤04包括：

042：若车辆座舱拒识模式为第一拒识模式的音区在第一预设时长内未获取到有效语音请求，则将对应音区的拒识模式更新为第二拒识模式。

处理器用于在车辆座舱拒识模式为第一拒识模式的音区在第一预设时长内未获取到有效语音请求的情况下，将对应音区的拒识模式更新为第二拒识模式。

具体地，在交互过程中，可根据对话音区信息确认对话音区的拒识模式，例如，对话音区为唤醒音区，那么确认对话音区的拒识模式为第一拒识模式，但如果该音区在一段时间内未获取到有效语音请求。例如，某一音区的拒识模式为第一拒识模式，但在20s内未获取到有效语音请求。在这种情况下，可认为该音区用户暂时无真实交互意图，可将该音区的拒识模式更新为第二拒识模式，进行较高程度的拒识。其中，未获取到有效语音请求，可以是未获取到语音请求或者未虽然获取到语音请求，但该语音请求与车辆交互不相关。

其中，第一预设时长是对于用户发出有效语音请求的间隔时间的限定，可根据实际情况取设定适当的取值，例如20s、30s、50s、1min等。可以理解，第一预设时长过短会导致音区的拒识模式频繁切换，而设置过长则可能导致语音请求的误召回率较高。

在一个示例中，可将第一预设时长设为20秒，主驾用户唤醒车辆语音助手户，主驾音区101被置为第一拒识模式，若在第一预定时长内未获取到主驾音区101存在有效语音请求，即在20s内未接收到语音请求或者未接收到与车辆交互相关的语音请求，那么将主驾音区101的拒识模式更新为第二拒识模式，即判断后续主驾音区101暂时无明确的交互意图，提高拒识程度，防止交互意图不高的语音请求被漏拒。

而如果在第一预设时长内获取到有效指令，则该音区的第一拒识模式将继续保持。

请参阅图3及图7，步骤04包括：

043：在根据对话音区信息确认对话音区的拒识模式为第二拒识模式的情况下，若根据用户语音请求确定对话音区在第二预设时长内存在有效语音请求被执行，则将对话音区的拒识模式更新为第一拒识模式。

处理器用于在根据对话音区信息确认对话音区的拒识模式为第二拒识模式的情况下，若根据用户语音请求确定对话音区在第二预设时长内存在有效语音请求被执行，则将对话音区的拒识模式更新为第一拒识模式。

具体地，有效语音请求被执行也即是获取到有效语音请求，并生成相应的车辆执行指令。在交互过程中，可根据对话音区信息确认对话音区的拒识模式，例如，对话音区为非唤醒音区，那么可确认对话音区初始的拒识模式为第二拒识模式，如果该音区在一段时间内接收到有效语音请求，或者说获取到与车辆交互相关的语音请求。例如，某一音区的拒识模式为第二拒识模式，在第二预定时长内获取到有效语音请求“打开车窗”。在这种情况下，可认为该音区用户存在真实交互意图，可将该音区的拒识模式更新为第一拒识模式，进行较低程度的拒识。

其中，第二预设时长与第一预设时长相类似，是对于用户发出有效语音请求的间隔时间的限定，可根据实际情况取设定适当的取值，例如20s、30s、50s、1min等。可以理解，第一预设时长过短会导致音区的拒识模式频繁切换，而设置过长则可能导致语音请求的误召回率较高。

在一个示例中，可将第二预设时长设为20秒，主驾音区101为唤醒音区，左后音区103为非唤醒音区，初始拒识状态为第二拒识模式，若左后音区103在20秒内获取到有效语音请求被执行，将左后音区103的拒识模式更新为拒识程度较低的第一拒识模式，即判断后续左后音区103具有较为明确的交互意图，降低拒识程度，防止语音请求被误拒。

可以理解地，如果拒识模式为第二拒识模式的音区在第二预设时长内未获取到有效指令，则该音区的第二拒识模式将继续保持。

请参阅图3及图8，本申请语音处理方法还包括：

044：在车辆语音功能被唤醒后的第三预设时长内未获取到用户语音请求的情况下，退出车辆语音功能。

处理器用于在车辆语音功能被唤醒后的第三预设时长内未获取到用户语音请求的情况下，退出车辆语音功能。

具体地，在交互过程中，如果语音助手在距离前一次获取到用户语音请求的时间超过第三预设时长，每个音区可单独计时，直至最后一个音区在第三预设时长内未获取到用户语音请求，退出车辆语音功能，等待下一次唤醒。

其中，第三预设时长是对于退出车辆语音功能时间的限定，可根据实际情况设定适当的取值，例如100s、120s、150s等。可以理解，第三预设时长过短会导致车辆语音功能频繁退出，影响使用体验，而设置过长则会可能会存在较长的无效工作时间，加重处理负荷。

在一个示例中，可将第三预设时长设为120秒，在车辆语音功能被唤醒后，经过多轮交互后，各个音区在120秒内均未再获取到用户的任何语音请求，则退出车辆语音功能，等待下一次唤醒。

请参阅图9，语音处理方法还包括：

05：处理用户语音请求确定用户语音请求的说话对象标签和意图分级标签；

06：根据对话音区的拒识模式、说话对象标签和意图分级标签对语音请求进行处理得到拒识结果。

处理器用于处理用户语音请求确定用户语音请求的说话对象标签和意图分级标签；以及用于根据对话音区的拒识模式、说话对象标签和意图分级标签对语音请求进行处理得到拒识结果。

具体地，说话对象标签用于标定用户发出的语音请求是否对语音助手发出，可包括语音助手类标签和非语音助手类标签。

意图分级标签用于表征用户语音请求与车辆进行交互意图的有效程度，按有效性从高到低可分为第一级标签、第二级标签和第三级标签。

本申请中，可对用户的每一条语音请求利用这两个标签进行标定，并进一步结合在先确定的对应音区的拒识模式，可得到最终的拒识结果，及召回或拒识。

步骤06包括：

061：在对话音区的拒识模式为第一拒识模式的情况下，若说话对象标签为语音助手类标签且意图分级标签为第一级标签或第二级标签，则对用户语音请求进行处理得到拒识结果为清晰结果；

062：若说话对象标签为非语音助手类标签且意图分级标签为第三级标签，则对用户语音请求进行处理得到拒识结果为噪声结果。

处理器用于在对话音区的拒识模式为第一拒识模式的情况下，若说话对象标签为语音助手类标签且意图分级标签为第一级标签或第二级标签，则对用户语音请求进行处理得到拒识结果为清晰结果，以及用于在说话对象标签为非语音助手类标签且意图分级标签为第三级标签的情况下，对用户语音请求进行处理得到拒识结果为噪声结果。

具体地，请参阅图10，本申请中，说话对象标签用于标定用户发出的语音请求是否对语音助手发出，例如可以包括：“明确对语音助手说”、“大概率对语音助手说”、“明确不对语音助手说”、“大概率不对语音助手说”“无法判断”“无说话人”等情况，其中语音助手类标签包括“明确对语音助手说”和“大概率对语音助手说”，非语音助手类标签包括“明确不对语音助手说”、“大概率不对语音助手说”、“无法判断”及“无说话人”。

例如，对于语音请求“打开车窗”，可认为该语音请求“大概率对语音助手说”，可确认其说话对象标签为语音助手类标签。

又如，对于语音请求“哈哈哈哈”，可以认为该语音请求“大概率不对语音助手说”，可确认其说话对象标签为非语音助手类标签。

意图分级标签用于表征所述用户语音请求的有效程度，可包括：“强有效”、“弱有效”、“无意图”及“无法判断”等，根据用户语音请求的有效程度可划分标签：第一级标签“强有效”、第二级标签“弱有效”和第三级标签“无意图或无法判断”。

其中，强有效语音请求，通常意图清晰大多无歧义、句式较规范、与车辆功能相关性强。例如：打开空调、椅背调直、仪表调亮一点、播放歌曲、打开音乐界面、音量大点等。

弱有效语音请求，通常意图不够清晰、可能存在歧义、句式不够规范、与车辆功能相关性较弱。例如：明天下不下雨、怎么会没电了、这什么歌、大点声、空调等。

无意图语音请求，通常意图不够清晰、可能存在歧义、句式较为随意、与车辆功能弱相关或无关。例如：随便、我们家、想买这个车可以贷款、开了快点出来吧、开玻璃、变个速。

无法判断，可作为以上情况的补充。

例如，对于语音请求“打开车窗”，可认为该语音请求“大概率对语音助手说”，可确认其说话对象标签为语音助手类标签。并且该语音请求为强有效语音请求，可确认其意图分级标签为第一级标签。若该音区为第一拒识模式，则拒识结果为清晰结果。

又如，对于语音请求“哈哈哈哈”，可以认为该语音请求“大概率不对语音助手说”，可确认其说话对象标签为非语音助手类标签。并且该语音请求为无意图语音请求，可确认其意图分级标签为第三级标签。若该音区为第一拒识模式，则拒识结果为噪声结果。

在实际应用场景中，在对话音区处于第一拒识模式的情况下，如果说话对象标签为语音助手类标签，表明语音请求的说话对象为语音助手或大概率为语音助手，且意图分级标签为第一级标签或第二级标签时，也即是强有效或弱有效语音请求，则对用户语音请求进行处理得到拒识结果为清晰结果，也即是将该语音请求进行召回。反之，如果说话对象标签为非语音助手类标签，且意图分级标签为第三级标签，则对用户语音请求进行处理得到的拒识结果为噪声结果，也即是拒识该语音请求。

如此，在第一拒识模式下，对于说话对象标签为语音助手类标签且意图分级标签为第一级标签或第二级标签的语音请求，确认拒识结果为清晰，对于非语音助手类标签且意图分级标签为第三级标签的语音请求，确认拒识结果为噪声结果。

步骤06还包括：

063：在对话音区的拒识模式为第二拒识模式的情况下，若说话对象标签是语音助手类标签且意图分级标签为第一级标签，则对用户语音请求进行处理得到拒识结果为清晰结果；

064：若说话对象标签为非语音助手类标签且意图分级标签为第二级标签或第三级标签，则对用户语音请求进行处理得到拒识结果为噪声结果。

处理器用于在对话音区的拒识模式为第二拒识模式的情况下，若说话对象标签是语音助手类标签且意图分级标签为第一级标签，则对用户语音请求进行处理得到拒识结果为清晰结果，及用于在说话对象标签为非语音助手类标签且意图分级标签为第二级标签或第三级标签的情况下，对用户语音请求进行处理得到拒识结果为噪声结果。

请参阅图11，在实际应用场景中，在对话音区处于第二拒识模式的情况下，如果说话对象标签为语音助手类标签，表明语音请求的说话对象为语音助手或大概率为语音助手，且意图分级标签为第一级标签时，也即是强有效语音请求，则对用户语音请求进行处理得到拒识结果为清晰结果，也即是将该语音请求进行召回。反之，如果说话对象标签为非语音助手类标签，且意图分级标签为第二级标签或第三级标签，则对用户语音请求进行处理得到的拒识结果为噪声结果，也即是拒识该语音请求。

例如，对于语音请求“打开车窗”，可认为该语音请求“大概率对语音助手说”，可确认其说话对象标签为语音助手类标签。并且该语音请求为强有效语音请求，可确认其意图分级标签为第一级标签。若该音区为第二拒识模式，则拒识结果为清晰结果。

又如，对于语音请求“哈哈哈哈”，可以认为该语音请求“大概率不对语音助手说”，可确认其说话对象标签为非语音助手类标签。并且该语音请求为无意图语音请求，可确认其意图分级标签为第三级标签。若该音区为第二拒识模式，则拒识结果为噪声结果。

如此，在第二拒识模式下，对于说话对象标签为语音助手类标签且意图分级标签为第一级标签的语音请求，确认拒识结果为清晰结果，对于非语音助手类标签且意图分级标签为第二级标签或第三级标签的语音请求，确认拒识结果为噪声结果。相对于第一拒识模式，第二拒识模式对于意图分级标签为第二级的标签拒识程度更为严格。

以下通过三个场景示例对根据拒识模式、说话对象标签和意图分级标签对语音请求进行处理得到拒识结果进行图示辅助说明：

示例一：请参阅表1，主驾音区101的用户唤醒车辆语音功能，主驾音区101确认为唤醒音区，初始拒识模式为第一拒识模式，其他音区为非唤醒音区，初始拒识模式为第二拒识模式。主驾音区101的用户发出“开下空调”的语音请求，该语音请求的说话对象标签为语音助手类，意图分级标签为第一级标签，得到清晰拒识结果。进一步地，主驾音区101的用户发出“20度3档风”的语音请求，该语音请求的说话对象标签为语音助手类，意图分级标签为第一级标签，得到清晰拒识结果。进一步地，左后音区103的用户发出“有点低吧”的语音请求，该语音请求的说话对象标签为非语音助手类，意图分级标签为第二级标签，得到噪声拒识结果。进一步地，左后音区103的用户发出语音请求“车辆温高一点”，以及“再高一点”，说话对象标签均为语音助手类，意图分级标签为第一级标签，由于在预设时长内存在有效语音请求被执行，左后音区的103的拒识模式将更新为第一拒识模式，并得到清晰拒识结果。

唤醒音区	对话音区	语音请求	说话对象标签	意图分级标签	拒识模式	拒识结果
主驾	主驾	开下空调	语音助手类	第一级	第一拒识模式	清晰
主驾	主驾	20度3档风	语音助手类	第一级	第一拒识模式	清晰
主驾	左后	有点低吧	非语音助手类	第二级	第二拒识模式	噪声
主驾	左后	车辆温高一点	语音助手类	第一级	第一拒识模式	清晰
主驾	左后	再高一点	语音助手类	第一级	第一拒识模式	清晰

表1

示例二：请参阅表2，左后音区103的用户唤醒车辆语音功能，左后音区103确认为唤醒音区，初始拒识模式为第一拒识模式，其他音区为非唤醒音区，初始拒识模式为第二拒识模式。左后音区103的用户发出“今天天气怎么样”的语音请求，该语音请求的说话对象标签为语音助手类，意图分级标签为第一级标签，得到清晰拒识结果。进一步地，左后音区103的用户发出“明天呢”的语音请求，该语音请求的说话对象标签为语音助手类，意图分级标签为第一级标签，得到清晰拒识结果。随后，左后音区103的用户和右后音区的开始聊天，左后音区103的用户发出语音请求“天气挺好的要不明天去爬山吧”，由于在预设时间内，左后音区103存在有效指令被执行，左后音区103的拒识模式仍保持在第一拒识模式，该语音请求的说话对象标签为非语音助手类，意图分级标签为第三级标签，得到噪声拒识结果。右后音区105的用户发出语音请求“可以呀”，该语音请求的说话对象标签为非语音助手类，意图分级标签为第三级标签，得到噪声拒识结果。左后音区103的用户发出语音请求“去八达岭长城吗”，该语音请求的说话对象标签为非语音助手类，意图分级标签为第三级标签，得到噪声拒识结果。右后音区105的用户发出语音请求“看看过去要多久”，该语音请求的说话对象标签为非语音助手类，意图分级标签为第三级标签，得到噪声拒识结果。进一步地，结束闲聊，左后音区103的用户发出语音请求“帮我导航到八达岭长城”，由于在预设时间内，左后音区103存在有效指令被执行，左后音区103的拒识模式仍保持在第一拒识模式，该语音请求的意图分级标签判定为第一级标签，得到清晰拒识结果。

唤醒音区	对话音区	语音请求	说话对象标签	意图分级标签	拒识模式	拒识结果
左后	左后	今天天气怎么样	语音助手类	第一级	第一拒识模式	清晰
左后	左后	明天呢	语音助手类	第一级	第一拒识模式	清晰
左后	左后	天气挺好的要不明天去爬山吧	非语音助手类	第三级	第一拒识模式	噪声
左后	右后	可以呀	非语音助手类	第三级	第二拒识模式	噪声
左后	左后	去八达岭长城吗	非语音助手类	第三级	第一拒识模式	噪声
左后	右后	看看过去要多久	非语音助手类	第三级	第二拒识模式	噪声
左后	左后	帮我导航到八达岭长城	语音助手类	第一级	第一拒识模式	清晰

表2

示例三：请参阅表3，主驾音区101的用户唤醒车辆语音功能后，主驾音区101确认为唤醒音区，初始拒识模式为第一拒识模式，其他音区为非唤醒音区，初始拒识模式为第二拒识模式。此时主驾音区101的用户开始打电话，发出“你好你好”，“我现在去上班”，“还在路上呢还没到”等语音请求，这些语音请求的说话对象标签均为非语音助手类，意图分级标签判定为第三级标签，得到噪声拒识结果。进一步地，副驾音区102用户发出语音请求“音量调低一点”，副驾音区102的拒识模式更新为第一拒识模式，该语音请求的说话对象标签为语音助手类，意图分级标签判定为第一级标签，得到清晰拒识结果。左后音区103发出语音请求“把音乐关了吧”，左后音区103的拒识模式更新为第一拒识模式，该语音请求的说话对象标签为语音助手类，意图分级标签判定为第一级标签，得到清晰拒识结果。

唤醒音区	对话音区	语音请求	说话对象标签	意图分级标签	拒识模式	拒识结果
主驾	主驾	你好你好	非语音助手类	第三级	第一拒识模式	噪声
主驾	主驾	我现在去上班	非语音助手类	第三级	第一拒识模式	噪声
主驾	主驾	还在路上呢还没到	非语音助手类	第三级	第一拒识模式	噪声
主驾	副驾	音量调低一点	语音助手类	第一级	第一拒识模式	清晰
主驾	左后	把音乐关了吧	语音助手类	第一级	第二拒识模式	清晰

表3

请参阅图12，本申请还提供了一种语音交互方法，包括：

04：根据用户语音请求和对话音区信息更新对应音区的拒识模式，以确定每个音区的拒识模式；

07：确定每个音区的拒识模式后，处理用户语音请求得到说话对象标签和意图分级标签；

08：根据拒识模式、说话对象标签和意图分级标签对语音请求进行处理得到拒识结果；

09：将拒识结果下发至车辆以完成语音交互。

本申请的语音交互方法可以由本申请的服务器实现，服务器包括存储器和处理器。本申请的语音交互方法可以由本申请的服务器实现。具体地，存储器中存储有计算机程序，处理器用于接收车辆转发的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息，及用于根据唤醒音区信息确定车辆座舱内多个音区中每个音区初始的拒识模式，及用于接收车辆转发的在车辆语音功能被唤醒后的用户语音请求以及根据用户语音请求确认的对话音区信息，及用于根据用户语音请求和对话音区信息更新对应音区的拒识模式，以确定每个音区的拒识模式，及用于确定每个音区的拒识模式后，处理用户语音请求得到说话对象标签和意图分级标签，及用于根据拒识模式、说话对象标签和意图分级标签对语音请求进行处理得到拒识结果，以及用于将拒识结果下发至车辆以完成语音交互。

具体地，在确认对于语音请求的拒识结果后，将拒识结果下发至车辆，车辆可执行由语音请求生成的控制指令或不做响应，完成语音交互。

关于拒识模式及拒识结果的确认方式，可参考上述处理方法中各个实施方式的解释说明，此处不再赘述。

本申请的计算机可读存储介质，存储有计算机程序，当计算机程序被一个或多个处理器执行时，实现上述的方法。

在本说明书的描述中，参考术语“上述”、“具体地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分，并且本申请的一些实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

一种语音处理方法，其中，所述语音处理方法包括：

接收车辆转发的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息；

根据所述唤醒音区信息确定所述车辆座舱内多个音区中每个音区初始的拒识模式；

接收所述车辆转发的在所述车辆语音功能被唤醒后的用户语音请求以及根据所述用户语音请求确认的对话音区信息；

根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式。
根据权利要求1所述的语音处理方法，其中，所述根据所述唤醒音区信息确定所述车辆座舱内多个音区中每个音区初始的拒识模式，包括：

根据所述唤醒音区信息确定所述车辆座舱内唤醒音区初始的所述拒识模式为第一拒识模式；

确定所述车辆座舱内除所述唤醒音区外的各个音区初始的所述拒识模式为第二拒识模式，所述第二拒识模式对语音请求的拒识程度高于所述第一拒识模式。
根据权利要求2所述的语音处理方法，其中，所述根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式，包括：

若根据所述对话音区信息确认对话音区的拒识模式为所述第一拒识模式且所述用户语音请求为非车辆交互语音请求，则将所述对话音区的拒识模式更新为第二拒识模式。
根据权利要求2所述的语音处理方法，其中，所述根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式，包括：

若所述车辆座舱拒识模式为所述第一拒识模式的音区在第一预设时长内未获取到有效语音请求，则将对应音区的拒识模式更新为所述第二拒识模式。
根据权利要求2所述的语音处理方法，其中，所述根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式，包括：

在根据所述对话音区信息确认对话音区的拒识模式为所述第二拒识模式的情况下，若根据所述用户语音请求确定所述对话音区在第二预设时长内存在有效语音请求被执行，则将所述对话音区的拒识模式更新为所述第一拒识模式。
根据权利要求1所述的语音处理方法，其中，所述语音处理方法包括：

在所述车辆语音功能被唤醒后的第三预设时长内未获取到用户语音请求的情况下，退出所述车辆语音功能。
根据权利要求1至6中任一项所述的语音处理方法，其中，所述语音处理方法包括：

处理所述用户语音请求确定所述用户语音请求的说话对象标签和意图分级标签；

根据对话音区的拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果。
根据权利要求7所述的语音处理方法，其中，所述根据对话音区的拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果，包括：

在所述对话音区的拒识模式为第一拒识模式的情况下，若所述说话对象标签为语音助手类标签且所述意图分级标签为第一级标签或第二级标签，则对所述用户语音请求进行处理得到所述拒识结果为清晰结果；

若所述说话对象标签为非语音助手类标签且所述意图分级标签为第三级标签，则对所述用户语音请求进行处理得到所述拒识结果为噪声结果，所述意图分级标签表征所述用户语音请求的有效程度，其中所述第一级标签大于所述第二级标签且所述第二级标签大于所述第三级标签。
根据权利要求8所述的语音处理方法，其中，所述根据所述拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果，包括：

在所述对话音区的拒识模式为第二拒识模式的情况下，若所述说话对象标签是语音助手类标签且所述意图分级标签为第一级标签，则对所述用户语音请求进行处理得到所述拒识结果为清晰结果；

若所述说话对象标签为非语音助手类标签且所述意图分级标签为第二级标签或第三级标签，则对所述用户语音请求进行处理得到所述拒识结果为噪声结果。
一种语音交互方法，其中，所述语音交互方法包括：

接收车辆转发的用户在车辆座舱内唤醒车辆语音功能的唤醒音区信息；

根据所述唤醒音区信息确定所述车辆座舱内多个音区中每个音区初始的拒识模式；

接收所述车辆转发的在所述车辆语音功能被唤醒后的用户语音请求以及根据所述用户语音请求确认的对话音区信息；

根据所述用户语音请求和所述对话音区信息更新对应音区的所述拒识模式，以确定每个所述音区的拒识模式；

确定每个所述音区的拒识模式后，处理所述用户语音请求得到说话对象标签和意图分级标签；

根据所述拒识模式、所述说话对象标签和所述意图分级标签对所述语音请求进行处理得到拒识结果；

将所述拒识结果下发至所述车辆以完成语音交互。
一种服务器，其中，所述服务器包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至10中任一项所述的方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现如权利要求1至10中任意一项所述的方法。