WO2021081744A1

WO2021081744A1 - 语音信息处理方法、装置、设备及存储介质

Info

Publication number: WO2021081744A1
Application number: PCT/CN2019/113943
Authority: WO
Inventors: 郝杰
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2021-05-06
Also published as: CN114391165A

Abstract

一种语音信息处理方法、装置、设备及存储介质，该方法包括：获取语音采集单元采集的语音信息；其中，语音信息包括第一语音信息，第一语音信息用于指示调用的目标技能（101）；基于预设的技能识别策略识别第一语音信息，确定第一语音信息指示调用的目标技能（102）；再确定实现目标技能的第一目标角色；控制第一目标角色执行针对目标技能的语音播报（104），通过意图判断确定语音信息中所表达的用户意图，根据用户意图确定用户想要调用的目标技能，从而唤醒目标技能对应的目标角色。如此，能够更加顺畅的实现角色唤醒，提高语音控制的智能性，且通过配置多种角色来执行不同技能的语音播报，提高了语音控制的趣味性。

Description

语音信息处理方法、装置、设备及存储介质

技术领域

本申请涉及语音技术，尤其涉及一种语音信息处理方法、装置、设备及存储介质。

背景技术

智能语音助手已经被广泛应用在手机、车载终端、智能家居等产品中，解放了用户双手，用户只需要与智能语音助手通过语音交互，就可以实现对产品功能的控制操作。

目前智能语音方案中语音合成系统(Text to Speech，TTS)只能提供单一音色的角色，角色在向用户播报语音信息时音色单一，缺少趣味性和拟人化的互动过程。

发明内容

为解决相关技术问题，本申请实施例期望提供一种语音信息处理方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，提供了一种语音信息处理方法，包括：

获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

控制所述第一目标角色执行针对所述目标技能的语音播报。

上述方案中，所述控制所述第一目标角色执行针对所述目标技能的语音播报之前，所述方法还包括：确定当前执行语音播报的第二目标角色；所述第二目标角色和所述第一目标角色不同时，将当前执行语音播报的所述第二目标角色切换为所述第一目标角色。

上述方案中，所述语音信息还包括第二语音信息，所述第二语音信息用于指示唤醒所述第二目标角色；所述确定当前执行语音播报的第二目标角色之前，所述方法还包括：从所述语音信息中识别所述第二语音信息，并确定所述第二语音信息指示唤醒的第二目标角色；控制所述第二目标角色执行语音播报。

上述方案中，所述确定所述第二语音信息指示唤醒的第二目标角色，包括：确定第二语音信息中的唤醒标识；从预设的第二映射关系中，确定所述唤醒标识对应的所述第二目标角色；其中，所述第二映射关系中包含至少三种角色与唤醒标识的映射关系。

上述方案中，所述控制所述第一目标角色执行针对所述目标技能的语音播报，包括：获取所述第一目标角色的音色信息，以及语音文本信息；其中，不同角色对应不同音色信息；基于第一目标角色的音色信息和所述语音文本信息，合成语音音频信息；控制语音输出单元输出所述语音音频信息。

上述方案中，所述控制所述第一目标角色执行针对所述目标技能的语音播报之后，所述方法还包括：获取第三语音信息；其中，所述第三语音信息用于指示退出当前执行语音播报的第一目标角色；基于所述第三语音信息，控制退出所述第一目标角色。

上述方案中，所述基于所述第三语音信息，控制退出所述第一目标角色，包括：确定所述第三语音信息中的退出标识；从预设的第三映射关系表中，确定所述退出标识对应的第一目标角色；其中，所述第三映射关系中包含至少三种角色与退出标识的映射关系；控制退出所述第一目标角色。

第二方面，提供了一种语音信息处理装置，包括：

获取部分，配置为获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

处理部分，配置为基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

所述处理部分，配置为从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

控制部分，配置为控制所述第一目标角色执行针对所述目标技能的语音播报。

第三方面，提供了一种语音信息处理设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行前述任一项所述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现前述任一项所述的方法的步骤。

本申请实施例提供的语音信息处理方法、装置、设备及存储介质，通过获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用的目标技能；基于预设的技能识别策略，识别所述第一语音信息指示的所述目标技能；再确定实现目标技能的第一目标角色；控制第一目标角色执行针对所述目标技能的语音播报，通过意图判断确定语音信息中所表达的用户意图，根据用户意图确定用户想要调用的目标技能，从而唤醒目标技能对应的目标角色。如此，能够更加顺畅的实现角色唤醒，提高语音控制的智能性，且通过配置多种角色来执行不同技能的语音播报，提高了语音控制的趣味性。

附图说明

图1为本申请实施例中语音信息处理方法的第一流程示意图；

图2为本申请实施例中语音信息处理方法的第二流程示意图；

图3为本申请实施例中语音信息处理方法的第三流程示意图；

图4为本申请实施例中语音处理系统的组成结构示意图；

图5为本申请实施例中技能处理系统的组成结构示意图；

图6为本申请实施例中语音信息处理装置的组成结构示意图；

图7为本申请实施例中语音信息处理设备的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请实施例提供了一种语音信息处理方法，图1为本申请实施例中语音信息处理方法的第一流程示意图，如图1所示，该方法具体可以包括：

步骤101：获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

步骤102：基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

步骤103：从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

步骤104：控制所述第一目标角色执行针对所述目标技能的语音播报。

这里，步骤101至步骤104的执行主体可以为语音信息处理装置的处理器。这里，语音信息处理装置可以位于服务器侧或终端侧。终端可以为具备语音控制功能的移动终端或者固定终端。比如，智能手机、个人电脑(例如平板电脑、台式电脑、笔记本、上网本、掌上电脑)、移动电话、电子书阅读器、便携式多媒体播放器、音频/视频播放器、摄像机、虚拟现实设备和可穿戴设备等。

这里，语音采集装置可以为麦克风。比如，位于终端上的麦克风采集语音信息，在终端本地执行上述语音信息处理方法的步骤；或者将语音信息上传至服务器，由服务器执行上述语音信息处理方法的步骤，服务器将处理结果下发至终端，终端根据处理结果执行对应的语音输出控制操作。

实际应用中，预设的技能识别策略用于技能识别，确定用户通过语音信息所要控制终端或其他电子设备实现的目标技能，这里，目标技能是根据第一语音信息所表达的用户意图确定的技能，通过识别用户意图确定用户下一步想要控制终端实现的目标技能。比如，第一语音信息为“今天天气怎样？”根据第一语音信息识别用户意图为查询天气，然后确定对应的目标技能为“天气查询”，查询日期为“今天”。这样，用户无需说出“查询天气”这样的控制关键字，而是使用一种更加口语化的语言，便可实现语音控制功能，控制过程更加智能化，符合用户日常交流习惯。

具体的，所述基于预设的技能识别策略识别所述第一语音信息，包括：利用语音识别技术对第一语音信息进行文本识别，得到第一文本信息；利用语义识别技术对第一文本信息进行语义识别，得到第一语音信息指示调用的目标技能。

也就是说，利用语音识别技术识别出语音信息所包含的文本信息，利用语义识别技术识别出文本信息所指示的目标技能。

在一些实施例中，该方法还包括：获取至少三种角色所能实现的至少一种技能；利用所述至少三种角色与至少一种技能的映射关系建立第一映射关系。

或者，获取至少三种角色所能实现的至少一种技能；利用每种角色所能实现的至少一种技能建立技能集合；利用至少三种角色与技能集合的映射关系建立第一映射关系。第一映射关系中一种角色对应至少一种技能，一种角色对应的所有技能组成技能集合。

也就是说，第一映射关系中可以包括角色和技能的映射关系，或者角色和技能集合的映射关系。可以从第一映射关系直接确定目标技能对应的第一目标角色，或者先确定目标技能所在的技能集合，再从第一映射关系中确定技能集合对应的第一目标角色。

实际应用中，不同角色对应的技能相同或者不相同，即不同角色可以实现的相同或者不同的技能。这里，终端上所配置的语音角色可以是终端制造商开发的角色，也可以是第三方制造商所开发的第三方角色，通过下载第三方应用程序调用第三方角色，也可以无需下载第三方应用程序，通过在线访问的方式调用第三方角色。

比如，角色A对应技能集合A，集合A中包括的技能有“天气查询、广播播放、有声电子书播放等”；

角色B对应技能集合B，集合B中包括的技能有“音乐播放、音乐视频播放、音乐主播直播等”；

角色C对应技能集合C，集合C中包括的技能有“信息查询、信息推荐、信息下载等”。

上述角色A可以是终端制造商自行开发的角色，用于实现自身应用程序A的语音控制操作，角色B和角色C可以是其他终端自行开发的角色，用于实现应用程序B和应用程序C的语音控制操作。

本申请实施例中，通过配置多种角色来执行不同技能的语音播报，提高了语音控制的趣味性。

进一步地，从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系。具体的，将目标技能第一映射关系中的技能进行匹配，确定匹配成功时对应的第一目标角色；或者将目标技能与角色对应的技能集合进行匹配，确定包含目标技能的技能集合，从而确定技能集合对应的第一目标角色。

进一步地，控制所述第一目标角色执行针对所述目标技能的语音播报，包括：获取所述第一目标角色的音色信息，以及语音文本信息；其中，不同角色对应不同音色信息；基于第一目标角色的音色信息和所述语音文本信息，合成语音音频信息；控制语音输出单元输出所述语音音频信息。

也就是说，在执行目标技能时如果需要输出语音信息，实现与用户的语音交互操作，则将待输出的语音文本与第一目标角色的音色进行合成，合成具有第一目标角色音色的语音音频信息，通过扬声器或耳机等语音输出单元进行输出。

在上述实施例的基础上还提供了一种更详细的语音信息处理方法，图2为本申请实施例中语音信息处理方法的第二流程示意图，如图2所示，该方法包括：

步骤201：获取语音采集单元采集的语音信息；其中，语音信息包括第一语音信息，第一语音信息用于指示调用目标技能；

步骤202：基于预设的技能识别策略识别第一语音信息，确定第一语音信息指示调用的目标技能；

步骤203：从预设的第一映射关系中，确定目标技能对应的第一目标角色；其中，第一映射关系中包括至少三种角色与技能的映射关系；

这里，第一映射关系中可以包括角色和技能的映射关系，或者角色和技能集合的映射关系。可以从第一映射关系直接确定目标技能对应的第一目标角色，或者先确定目标技能所在的技能集合，再从第一映射关系中确定技能集合对应的第一目标角色。

相应的，步骤203具体可以包括：将目标技能第一映射关系中的技能进行匹配，确定匹配成功时对应的第一目标角色；或者将目标技能与角色对应的技能集合进行匹配，确定包含目标技能的技能集合，从而确定技能集合对应的第一目标角色。

步骤204：确定当前执行语音播报的第二目标角色；

这里，第二目标角色为唤醒第一目标角色之前正在执行语音播报的角色。比如，终端设备正在使用第二目标角色与用户进行语音交流时，此时根据用户的说话意图判断用户需要第一目标角色执行目标技能，可以通过第二目标角色召唤出第一目标角色。

在一些实施例中，确定当前执行语音播报的第二目标角色包括：检测当前执行语音播报角色，确定第二目标角色。比如，检测当前执行语音播报角色的角色标识位，确定正在执行语音播报的第二目标角色。

在一些实施例中，在确定执行目标技能的第一目标角色之前，需要先唤醒一个角色与用户进行初始交流，比如，用户直接唤醒调用目标技能对应的第一目标角色；或者唤醒系统默认角色；或者唤醒用户经常使用的角色。

在一些实施例中，可以通过语音唤醒，比如：所述语音信息还包括第二语音信息，所述第二语音信息用于指示唤醒所述第二目标角色；相应的，所述确定当前执行语音播报的第二目标角色之前，所述方法还包括：从所述语音信息中识别所述第二语音信息，并确定所述第二语音信息指示唤醒的第二目标角色；控制所述第二目标角色执行语音播报。

进一步地，所述确定所述第二语音信息指示唤醒的第二目标角色，包括：确定第二语音信息中的唤醒标识；从预设的第二映射关系中，确定所述唤醒标识对应的所述第二目标角色；其中，所述第二映射关系中包含至少三种角色与唤醒标识的映射关系。

实际应用中，第二映射关系中角色和唤醒标识是一对一的映射，或者一对多的映射。即一个角色只能被一种唤醒标识唤醒，或者一个角色可以被多个唤醒标识唤醒。不同角色的唤醒标识可以由制造商统一规定，或由用户根据习惯或喜好自行设定。

比如，角色A对应的唤醒标识为“A同学、小A你好、吃货小A”；

角色B对应的唤醒标识为“胖B同学”；

角色C对应的唤醒标识为“老C你好、嗨老C”。

这里，为不同角色关联不同唤醒标识，提高角色控制的灵活性。

实时应用中，获取语音采集单元采集的语音信息，包括：同时获取第一语音信息和第二语音信息，或者，先获取第一语音信息，确定所述第二语音信息指示唤醒的第二目标角色；控制所述第二目标角色执行语音播报；再获取第二语音信息，确定第二语音信息指示调用的目标技能。

步骤205：判断第二目标角色和第一目标角色是否相同，如果否，执行步骤206；如果是，执行步骤207；

步骤206：第二目标角色和第一目标角色不同时，将当前执行语音播报的第二目标角色切换为第一目标角色；

在一些实施例中，所述第二目标角色和所述第一目标角色不同时，该方法还包括：生成切换提示信息；控制所述第一目标角色或所述第二目标角色播放所述切换提示信息。这里，切换提示信息用于提示用户即将执行角色切换操作，或者已经执行完角色切换操作。

所述控制所述第一目标角色或所述第二目标角色播放所述切换提示信息，包括：在切换之前，控制第二目标角色播放所述切换提示信息；在切换之后，控制第一目标角色播放所述切换提示信息。

也就是说，可以在切换操作之前播放切换提示信息，提醒用户即将由第二目标角色召唤出第一目标角色执行语音播报。示例性的，用角色A的唤醒词唤醒角色A的语音助手，使用技能分类器实际判断目标技能为角色B的技能，可以增加顺滑语句同时用角色A的音色进行播报“关于XX的问题可以问角色B哟”，然后再反馈角色B的实际结果。

或者，可以在切换操作之后播放切换提示信息，提醒用户即现在由第一目标角色执行语音播报。示例性的，用角色A的唤醒词唤醒角色A的语音助手，使用技能分类器实际判断目标技能为角色B的技能，可以增加顺滑语句同时用角色B的音色进行播报“关于XX的问题角色A不知道，就有我角色B来回答你吧”，然后反馈角色B的实际结果。

这里，不同角色之间允许闭环对话，使角色切换变得更加顺畅，更加符合用户日常交流习惯，提升语音控制的智能化水平。

这里，切换完后执行同样执行步骤207。

步骤207：控制第一目标角色执行针对目标技能的语音播报。

可以理解的是，当第二目标角色和所述第一目标角色相同，第一目标角色即为第二目标角色，控制第一目标角色执行语音播报也就是控制第二目标角色执行语音播报。

该步骤具体可以包括：获取所述第一目标角色的音色信息，以及语音文本信息；其中，不同角色对应不同音色信息；基于第一目标角色的音色信息和所述语音文本信息，合成语音音频信息；控制语音输出单元输出所述语音音频信息。

在上述实施例的基础上还提供了一种更详细的语音信息处理方法，图3为本申请实施例中语音信息处理方法的第三流程示意图，如图3所示，该方法包括：

步骤301：获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

步骤302：基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

步骤303：从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

相应的，步骤303具体可以包括：将目标技能第一映射关系中的技能进行匹配，确定匹配成功时对应的第一目标角色；或者将目标技能与角色对应的技能集合进行匹配，确定包含目标技能的技能集合，从而确定技能集合对应的第一目标角色。

实际应用中，不同角色对应的技能相同或者不相同，即不同角色可以实现的相同或者不同的技能。这里，终端上所配置的语音角色可以是终端制造商开发的角色，也可以是第三方制造商所开发的第三方角色，通过下载第三方应用程序调用第三方角色，也可以无需下载第三方应用程序，通过在线访问的方式调用第三方角色，通过调用第三方角色，来扩展语音技能范围，提高对用户语音信息的处理效果。

步骤304：控制所述第一目标角色执行针对所述目标技能的语音播报；

步骤305：获取第三语音信息；其中，所述第三语音信息用于指示退出当前执行语音播报的第一目标角色；

步骤306：基于所述第三语音信息，控制退出所述第一目标角色。

在一些实施例中，该步骤具体包括：确定所述第三语音信息中的退出标识；从预设的第三映射关系表中，确定所述退出标识对应的第一目标角色；其中，所述第三映射关系中包含至少三种角色与退出标识的映射关系；控制退出所述第一目标角色。

实际应用中，第三映射关系中角色和退出标识是一对一的映射，或者一对多的映射。即一个角色只能被一种退出标识退出，或者一个角色可以被多个退出标识退出。不同角色的退出标识可以由制造商统一规定，或由用户根据习惯或喜好自行设定。

比如，角色A对应的退出标识为“退出A同学、小A退下、走开吃货小A”；

角色B对应的退出标识为“走开胖B同学”；

角色C对应的退出标识为“退出老C、老C再见”。

这里，为不同角色关联不同退出标识，提高角色控制的灵活性。

在上述实施例的基础上还提供了一种语音信息处理场景，图4为本申请实施例中语音处理系统的组成结构示意图，如图4所示，语音处理系统包括：语音助手客户端401、语音助手中控服务器402、识别服务器403、技能识别器404、角色A服务器405、角色B服务器406和角色C服务器407。

这里，语音助手客户端401，用户实现语音信息(包括音频和角色唤醒词)的采集、上传、接收语音输出结果和输出不同角色的语音信息。这里，音频为第一语音信息，角色唤醒词为第二语音信息。

语音助手中控服务器402至角色C服务器407，用于实现语音数据的处理。

其中，语音助手中控服务器402，用于接收语音助手客户端401上传的语音信息，采用语音识别技术对语音信息进行文本识别，得到识别文本；发送识别文本至技能分类器404；

技能分类器404，采用语义识别技术对文本信息进行语义理解，确定目标技能，当目标技能为技能A则使用角色A服务器405执行技能A服务；当目标技能为技能B则使用角色B服务器406执行技能B服务；当目标技能为技能C则使用角色C服务器407执行技能C服务。

角色A服务器405处理技能A，将得到的技能A意图结果、技能A资源服务结果、应答文本和角色A应答音频发送给语音助手中控服务器402；

角色B服务器406处理技能B，将得到的技能B意图结果、技能B资源服务结果、应答文本和角色B应答音频发送给语音助手中控服务器402；

角色C服务器407处理技能C，将得到的技能C意图结果、技能C资源服务结果、应答文本和角色C应答音频发送给语音助手中控服务器402；

语音助手中控服务器402根据接收到的处理结果进行语音合成生成语音输出结果，并发送语音输出结果至语音助手客户端401；语音助手客户端401控制输出语音输出结果。

图5为本申请实施例中技能处理系统的组成结构示意图，如图5所示，该系统包括：技能服务器501、语义理解服务器502、资源召回服务器503和TTS服务器504。

技能服务器501将接收到的识别文本发送至语义理解服务器502，语义理解服务器502对识别文本进行语义理解，得到用户的意图结果，并将意图结果返回给技能服务器501；

技能服务器501将意图结果发送给资源召回服务器503，资源召回服务器503根据意图结果确定资源服务结果和应答文本并发送给技能服务器501；

技能服务器501再将应答文本发送给TTS服务器504，TTS服务器根据角色音色和应答文本，进行语音合成生成应答音频，并返回应答音频给技能服务器501；

技能服务器501将得到的意图结果、资源服务结果、应答文本和应答音频这些语音处理结果发送至语音助手中控服务器。

在一种实现场景中，语音助手客户端位于终端侧，终端侧还包括语音采集单元，用于采集语音数据；其他实现语音信息处理的服务器位于服务器侧。

在另一些实现场景中，实现语音信息处理的部分或全部服务器也可以位于终端侧。

本申请实施例中还提供了一种语音信息处理装置，如图6所示，该装置包括：

获取部分601，配置为获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

处理部分602，配置为基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

所述处理部分602，配置为从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

控制部分603，配置为控制所述第一目标角色执行针对所述目标技能的语音播报。

在一些实施例中，所述控制所述第一目标角色执行针对所述目标技能的语音播报之前，所述处理部分，配置为确定当前执行语音播报的第二目标角色；

相应的，该装置还包括：切换部分，配置为所述第二目标角色和所述第一目标角色不同时，将当前执行语音播报的所述第二目标角色切换为所述第一目标角色。

在一些实施例中，所述语音信息还包括第二语音信息，所述第二语音信息用于指示唤醒所述第二目标角色；所述处理部分，配置为从所述语音信息中识别所述第二语音信息，并确定所述第二语音信息指示唤醒的第二目标角色；控制所述第二目标角色执行语音播报。

在一些实施例中，所述处理部分，配置为确定第二语音信息中的唤醒标识；从预设的第二映射关系中，确定所述唤醒标识对应的所述第二目标角色；其中，所述第二映射关系中包含至少三种角色与唤醒标识的映射关系。

在一些实施例中，所述控制部分，配置为获取所述第一目标角色的音色信息，以及语音文本信息；其中，不同角色对应不同音色信息；基于第一目标角色的音色信息和所述语音文本信息，合成语音音频信息；控制语音输出单元输出所述语音音频信息。

在一些实施例中，所述获取部分，配置为获取第三语音信息；其中，所述第三语音信息用于指示退出当前执行语音播报的第一目标角色；所述控制部分，配置为基于所述第三语音信息，控制退出所述第一目标角色。

在一些实施例中，所述处理部分，配置为确定所述第三语音信息中的退出标识；从预设的第三映射关系表中，确定所述退出标识对应的第一目标角色；其中，所述第三映射关系中包含至少三种角色与退出标识的映射关系；所述控制部分，配置为控制退出所述第一目标角色。

本申请实施例还提供了一种语音信息处理设备，如图7所示，该设备包括：处理器701和配置为存储能够在处理器上运行的计算机程序的存储器702；处理器701运行存储器702中计算机程序时实现前述实施例方法的步骤。

当然，实际应用时，如图7所示，该设备中的各个组件通过总线系统703耦合在一起。可理解，总线系统703用于实现这些组件之间的连接通信。总线系统703除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统703。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal Processing Device)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音信息处理方法，包括：

获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

控制所述第一目标角色执行针对所述目标技能的语音播报。
根据权利要求1所述的方法，其中，所述控制所述第一目标角色执行针对所述目标技能的语音播报之前，所述方法还包括：

确定当前执行语音播报的第二目标角色；

所述第二目标角色和所述第一目标角色不同时，将当前执行语音播报的所述第二目标角色切换为所述第一目标角色。
根据权利要求2所述的方法，其特征在于，所述语音信息还包括第二语音信息，所述第二语音信息用于指示唤醒所述第二目标角色；

所述确定当前执行语音播报的第二目标角色之前，所述方法还包括：

从所述语音信息中识别所述第二语音信息，并确定所述第二语音信息指示唤醒的第二目标角色；

控制所述第二目标角色执行语音播报。
根据权利要求3所述的方法，其特征在于，所述确定所述第二语音信息指示唤醒的第二目标角色，包括：

确定第二语音信息中的唤醒标识；

从预设的第二映射关系中，确定所述唤醒标识对应的所述第二目标角色；其中，所述第二映射关系中包含至少三种角色与唤醒标识的映射关系。
根据权利要求1所述的方法，其特征在于，所述控制所述第一目标角色执行针对所述目标技能的语音播报，包括：

获取所述第一目标角色的音色信息，以及语音文本信息；其中，不同角色对应不同音色信息；

基于第一目标角色的音色信息和所述语音文本信息，合成语音音频信息；

控制语音输出单元输出所述语音音频信息。
根据权利要求1至5任一项所述的方法，其特征在于，所述控制所述第一目标角色执行针对所述目标技能的语音播报之后，所述方法还包括：

获取第三语音信息；其中，所述第三语音信息用于指示退出当前执行语音播报的第一目标角色；

基于所述第三语音信息，控制退出所述第一目标角色。
根据权利要求6所述的方法，其特征在于，所述基于所述第三语音信息，控制退出所述第一目标角色，包括：

确定所述第三语音信息中的退出标识；

从预设的第三映射关系表中，确定所述退出标识对应的第一目标角色；其中，所述第三映射关系中包含至少三种角色与退出标识的映射关系；

控制退出所述第一目标角色。
一种语音信息处理装置，包括：

获取部分，配置为获取语音采集单元采集的语音信息；其中，所述语音信息包括第一语音信息，所述第一语音信息用于指示调用目标技能；

处理部分，配置为基于预设的技能识别策略识别所述第一语音信息，确定所述第一语音信息指示调用的目标技能；

所述处理部分，配置为从预设的第一映射关系中，确定所述目标技能对应的第一目标角色；其中，所述第一映射关系中包括至少三种角色与技能的映射关系；

控制部分，配置为控制所述第一目标角色执行针对所述目标技能的语音播报。
一种语音信息处理设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。