WO2024012590A1

WO2024012590A1 - 音视频呼叫方法及装置

Info

Publication number: WO2024012590A1
Application number: PCT/CN2023/107721
Authority: WO
Inventors: 魏学松
Original assignee: 中兴通讯股份有限公司
Priority date: 2022-07-15
Filing date: 2023-07-17
Publication date: 2024-01-18
Also published as: CN117440123A

Abstract

本发明实施例提供了一种音视频呼叫方法及装置，通过本发明实施例，通过在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，利用AI组件接收媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；AI组件对音频流和/或视频流中的特定内容进行识别，并通过媒体服务器在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效，解决了相关技术中音视频呼叫功能单一的问题，达到了提升音视频通话的趣味性和智能化水平。

Description

音视频呼叫方法及装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种音视频呼叫方法及装置。

背景技术

5G新通话是对基础音、视频通话的升级，在长期演进语音承载(Voice over LTE，VoLTE)或者5G话音解决方案(Voice over New Radio，VoNR)的音、视频通话的基础上，可实现更快、更清、更智、更广的通话体验，支持用户在通话中进行实时交互，为用户提供更丰富、更便捷的通话功能。

传统的音视频通话，只能进行通话功能，不能附加更多的智能功能，随着5G视频业务的推广，越来越多的人尝试使用视频呼叫功能，但是当前的视频呼叫，更多是基本功能，没有附加其它功能和智能功能，虽然有些应用APP也尝试推出一些有趣的功能，比如进行虚拟背景、虚拟头像等，但在语音呼叫中，很少有这些实现，而且这些实现都是基于客户端应用APP的实现，需要用户安装APP，对业务的推广有很大阻碍作用。

发明内容

本发明实施例提供了一种音视频呼叫方法及装置，以至少解决相关技术中音视频呼叫功能单一的问题。

根据本发明的一个实施例，提供了一种音视频呼叫方法，包括：在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，人工智能AI组件接收所述媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；所述AI组件对所述音频流和/或所述视频流中的特定内容进行识别，并通过所述媒体服务器在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。

根据本发明的又一实施例，还提供了一种音视频呼叫方法，包括：在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，所述媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；所述媒体服务器根据所述AI组件对所述音频流和/或所述视频流中的特定内容的识别结果，在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。

根据本发明的又一实施例，还提供了一种音视频呼叫装置，包括：第一接收模块，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，接收所述媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；识别处理模块，对所述音频流和/或所述视频流中的特定内容进行识别，以通过所述媒体服务器在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。

根据本发明的又一实施例，还提供了一种音视频呼叫装置，包括：复制发送模块，设置为在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；叠加模块，设置为根据所述AI组件对所述音频流和/或所述视频流中的特定内容的识别结果，在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

附图说明

图1是本发明实施例的一种音视频呼叫方法的移动终端的硬件结构框图；

图2是根据本发明实施例的音视频呼叫方法的流程图；

图3是根据本发明实施例的音视频呼叫方法的流程图；

图4是根据本发明实施例的音视频呼叫方法的流程图；

图5是根据本发明实施例的音视频呼叫方法的流程图；

图6是根据本发明实施例的音视频呼叫方法的流程图；

图7是根据本发明实施例的动效叠加的流程图；

图8是根据本发明实施例的音视频呼叫装置的结构框图；

图9是根据本发明实施例的音视频呼叫装置的结构框图；

图10是根据本发明实施例的识别处理模块的结构框图；

图11是根据本发明实施例的识别处理模块的结构框图；

图12是根据本发明实施例的音视频呼叫装置的结构框图；

图13是根据本发明实施例的音视频呼叫装置的结构框图；

图14是根据本发明实施例的音视频呼叫装置的结构框图；

图15是根据本发明实施例的叠加模块的结构框图；

图16是根据本发明场景实施例的用户视频呼叫锚定流程示意图；

图17是根据本发明场景实施例的AI组件识别和动效叠加的流程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种音视频呼叫方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的音视频呼叫方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，设置为通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的音视频呼叫方法，图2是根据本发明实施例的音视频呼叫方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，人工智能AI组件接收媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；

步骤S204，AI组件对音频流和/或视频流中的特定内容进行识别，并通过媒体服务器在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

通过上述步骤，通过在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，利用AI组件接收媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；AI组件对音频流和/或视频流中的特定内容进行识别，并通过媒体服务器在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效，解决了相关技术中音视频呼叫功能单一的问题，达到了提升音视频通话的趣味性和智能化水平。

其中，上述步骤的执行主体可以为基站、终端等，但不限于此。

在一示例性实施例中，在AI组件接收媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流之前，还包括：AI组件接收媒体服务器的协商请求；AI组件向媒体服务器返回接收端的统一资源定位符URL地址和端口信息。图3是根据本发明实施例的音视频呼叫方法的流程图，如图3所示，该流程包括如下步骤：

步骤S302，AI组件与媒体服务器协商用于接收音频流和视频流的端口信息和媒体信息；

步骤S304，AI组件向媒体服务器返回用于接收音频流和视频流的统一资源定位符URL地址和端口信息；

步骤S306，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，人工智能AI组件接收媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；

步骤S308，AI组件对音频流和/或视频流中的特定内容进行识别，并通过媒体服务器在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

在一示例性实施例中，AI组件对音频流和/或视频流中的特定内容进行识别，包括：AI组件将音频流转写成文字，并将文字发送至业务应用，以便业务应用对文字中的关键词进行识别，并查询与关键词对应的动效。

在一示例性实施例中，AI组件对音频流和/或视频流中的特定内容进行识别，还包括：AI组件识别视频流中的特定动作，并将识别结果发送至业务应用，以便业务应用查询与特定动作对应的动效。

在一示例性实施例中，动效包括以下至少之一：静态图片或者动态视频。

在本发明的又一实施例中，提供了一种音视频呼叫方法，图4是根据本发明实施例的音视频呼叫方法的流程图，如图4所示，该流程包括如下步骤：

步骤S402，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；

步骤S404，媒体服务器根据AI组件对音频流和/或视频流中的特定内容的识别结果，在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

在一个示例性实施例中，在媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到AI组件之前，还包括：媒体服务器根据通话平台的申请分别给主叫用户和被叫用户分配媒体资源，以便通话平台根据申请到的主叫用户和被叫用户的媒体资源分别将主叫用户和被叫用户重新锚定至媒体服务器。

图5是根据本发明实施例的音视频呼叫方法的流程图，如图5所示，该流程包括如下步骤：

步骤S502，媒体服务器根据通话平台的申请分别给主叫用户和被叫用户分配媒体资源；

步骤S504，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；

步骤S506，媒体服务器根据AI组件对音频流和/或视频流中的特定内容的识别结果，在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

在一个示例性实施例中，在媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到AI组件之前，还包括：媒体服务器接收业务应用下发的将音频流和视频流复制到AI组件的请求指令，其中请求指令中携带音频流ID、视频流ID、AI组件的URL地址；媒体服务器与AI组件协商接收复制的音频流和视频流的端口信息和媒体信息；媒体服务器接收AI组件返回的接收复制的音频流和视频流的URL地址和端口信息。

图6是根据本发明实施例的音视频呼叫方法的流程图，如图6所示，该流程包括如下步骤：

步骤S602，媒体服务器接收业务应用下发的将音频流和视频流复制到AI组件的请求指令，其中请求指令中携带音频流ID、视频流ID、AI组件的URL地址；

步骤S604，媒体服务器与AI组件协商用于接收音频流和视频流的端口信息和媒体信息；

步骤S606，媒体服务器接收AI组件返回的用于接收音频流和视频流的URL地址和端口信息；

步骤S608，媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；

步骤S610，媒体服务器根据AI组件对音频流和/或视频流中的特定内容的识别结果，在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

在一个示例性实施例中，媒体服务器根据AI组件对音频流和/或视频流中的特定内容的识别结果，在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效，包括：媒体服务器接收来自业务应用的媒体加工指令，其中，媒体加工指令根据AI组件对音频流和/或视频流中的特定内容的识别结果产生；媒体服务器在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

图7是根据本发明实施例的动效叠加的流程图，如图7所示，该流程包括以下步骤：

步骤S702，媒体服务器接收来自业务应用的媒体加工指令，并根据媒体加工指令中携带的动效的URL获取动效；

步骤S704，媒体服务器将动效与音频流和/或视频流进行编码合成，并向主叫用户和被叫用户下发经过编码合成处理的音频流和视频流。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明的又一实施例，提供了一种音视频呼叫装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本发明实施例的音视频呼叫装置的结构框图，如图8所示，该音视频呼叫装置80包括：第一接收模块810，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，接收媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；识别处理模块820，对音频流和/或视频流中的特定内容进行识别，以通过媒体服务器在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

在一个示例性实施例中，图9是根据本发明实施例的音视频呼叫装置的结构框图，如图9所示，该音视频呼叫装置90除了包括图8所示的各个模块外，还包括：第一协商模块910，设置为与媒体服务器协商用于接收音频流和视频流的端口信息和媒体信息；返回模块920，设置为向媒体服务器返回用于接收音频流和视频流的统一资源定位符URL地址和端口信息。

在一个示例性实施例中，图10是根据本发明实施例的识别处理模块的结构框图，如图10所示，识别处理模块820包括：音频处理单元1010，设置为将音频流转写成文字，并将文字发送至业务应用，以便业务应用对文字中的关键词进行识别，并查询与关键词对应的动效。

在一个示例性实施例中，图11是根据本发明实施例的识别处理模块的结构框图，如图11所示，识别处理模块820除了包括图10所示的单元，还包括：视频处理单元1110，设置为识别视频流中的特定动作，并将识别结果发送至业务应用，以便业务应用查询与特定动作对应的动效。

根据本发明的又一实施例，还提供了一种音视频呼叫装置，图12是根据本发明实施例的音视频呼叫装置的结构框图，如图12所示，该音视频呼叫装置120包括：复制发送模块1210，设置为在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到A I组件；叠加模块1220，设置为根据AI组件对音频流和/或视频流中的特定内容的识别结果，在主叫用户与被叫用户的音视频通话上叠加与特定内容对应的动效。

在一个示例性实施例中，图13是根据本发明实施例的音视频呼叫装置的结构框图，如图13所示，该音视频呼叫装置130除了包括图12中的各个模块外，还包括：资源分配模块1310，设置为根据通话平台的申请分别给主叫用户和被叫用户分配媒体资源，以便通话平台根据申请到的主叫用户和被叫用户的媒体资源分别将主叫用户和被叫用户重新锚定至媒体服务器。

在一个示例性实施例中，图14是根据本发明实施例的音视频呼叫装置的结构框图，如图14所示，该音视频呼叫装置140除了包括图13中的各个模块外，还包括：第二接收模块1410，设置为接收业务应用下发的将音频流和视频流复制到AI组件的请求指令，其中请求指令中携带音频流ID、所述视频流ID、AI组件的URL地址；第二协商模块1420，设置为与AI组件协商用于接收音频流和视频流的端口信息和媒体信息；第三接收模块1430，设置为接收AI组件返回的用于接收音频流和视频流的URL地址和端口信息。

在一个示例性实施例中，图15是根据本发明实施例的叠加模块的结构框图，如图15所示，叠加模块1220包括：接收单元1510，设置为接收来自业务应用的媒体加工指令，并根据媒体加工指令中携带的动效的URL获取动效；叠加单元1520，设置为将动效与音频流和/或视频流进行编码合成，并向主叫用户和被叫用户下发经过编码合成处理的音频流和视频流。

需要说明的是，上述各个模块、单元是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块、单元均位于同一处理器中；或者，上述各个模块、单元以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合具体的场景实施例进行阐述。

本发明实施例主要是基于VoLTE视频呼叫，需要在音视频进行自动识别功能，包括语音识别和视频动作识别，识别后，返回识别的结果，业务根据返回的识别结果，进行视频加工处理，主要进行解码，视频叠加处理和编码处理等，最后给双方用户在视频通话中，呈现一些动效功能。具体实施说明如下：

用户用手机终端发起原生VOLTE视频呼叫，或者发起语音呼叫后切换为视频呼叫，用户签约了新通话增强呼叫业务功能，否则不能使用该功能。

首先，需要重新对通话双方进行锚定，需要把通话双方音视频重新锚定到媒体服务器上。对通话双方进行重新协商，重新锚定到媒体服务器上，目的是为了实现双方媒体流的控制，一般可以在被叫用户应答后，开始对主被叫锚定到媒体面。

锚定后，需要对用户的音视频流程重新进行控制，媒体服务器将进行签约用户的音视频流复制到AI组件，由AI组件进行音视频的的识别，音频方面，主要由AI组件进行音频的语音转文字后发送给业务应用，由业务应用进行关键词的识别，视频方面，主要由AI组件进行视频的智能识别，对特定的内容进行识别。

当用户的音频中的某关键词和视频某特定动作被识别后，如果是音频识别，AI组件会返回转写的文字内容到业务应用，由业务应用进行关键词识别；如果视频识别，则AI组件直接进行识别，把识别结果给业务应用，最后由应用根据用户的设置，找到对应的用户的设置的特效，指示媒体服务器进行视频的媒体加工。

媒体服务器收到指示后，获取对应的用户动效，下载到本地，然后进行视频媒体的加工功能，把对应的动效叠加到双方的视频上。

图16是根据本发明场景实施例的用户视频呼叫锚定流程示意图，如图16所示，该流程包括以下步骤：

步骤1602，呼叫开始，正常上报呼叫事件到业务应用，比如：呼叫起呼，振铃，应答，应答中断事件，需要业务指示下一步操作。

步骤1604，呼叫应答后，业务对用户鉴权，发现签约了增强呼叫业务，下达媒体重新协商控制命令。

步骤1606，用于实现业务功能控制与逻辑控制的新通话平台收到媒体锚定指令后，开始对被叫进行锚定，首先对被叫媒体资源进行申请，申请后，用申请到的媒体资源对被叫发起reinvite重新媒体协商，获取到被叫媒体资源后，返回给媒体服务器，然后把被叫终端加入会议(在本场景实施例中，锚定通过会议的方式实现)中，由此完成被叫侧的音视频锚定功能。完成锚定后，要向锚定的发起端返回各个流的参数情况，比如本端流，音频流id，视频流id，收发方向，远端流，音频流id，视频流id，收发方向等。

步骤1608，完成被叫锚定后，同样向媒体服务器申请主叫媒体资源，申请后，对主叫侧发起update媒体更新操作，把刚申请的媒体资源携带给主叫侧，主叫侧返回自己的媒体资源，同样把主叫侧媒体资源加入到会议中，这样完成把主被叫的媒体资源都加入媒体服务器的会议中，实现主被叫的媒体锚定功能。

图17是根据本发明场景实施例的AI组件识别和动效叠加的流程示意图，如图17所示，该流程包括以下步骤：

步骤1702，完成被叫和主叫的锚定后，业务侧即业务应用开始向AI组件申请访问地址，同时请求AI组件进行智能语音转写功能和视频识别操作，包括语音转文字和视频手势识别，AI响应，则返回AI的后继协商的统一资源定位器(Uniform Resoure Locator，URL)。

步骤1704，业务应用开始向媒体服务器下达音视频流复制请求指令，音频流复制到对应的音频识别的AI组件平台上，视频流复制到对应的AI视频识别的组件平台上。携带的参数主要包括：要复制的音频流ID，视频流ID，复制的请求AI的URL。

步骤1706，媒体服务器收到流复制指令，需要和AI组件就具体的流复制的端口和媒体信息进行协商，包括复制的IP，端口和流的编解码类型等，AI收到媒体服务器的协商请求后，进行处理，最后响应返回对应的复制的接收端的地址和端口等信息，协商完后，媒体服务器向AI组件平台启动流复制。同时媒体服务器返回复制结果给业务应用。

步骤1708，AI组件平台收到复制流后，开启对AI智能识别功能，包括音频转写为文字，视频识别用户指定的手势。其中，音频转写为文字后，直接将文字和URL地址返回。

步骤1710，AI组件在识别视频过程中，如果识别了对应的关键信息，则立刻上报给业务应用。如果是音频内容，则由AI组件返回转写的文字内容，由业务应用进行关键词的识别。业务应用对关键词的识别，首先把用户转写的所有文字都保存起来，然后每次收到新增加的文字后，开始进行关键词识别，如果识别到关键词，则进行识别后流程处理。

步骤1712，当识别到关键词后，不管是业务应用自行识别的关键词，还是AI识别的手势动态，业务应用都会根据识别的信息，查询用户的设置的对应的动效，可能是静态图片，也可以是动态短视频。

步骤1714，业务应用下发媒体加工指令给媒体服务器，其中动效以动效资源的URL地址发送，媒体服务器收到媒体加工指令后，根据动效的URL，首先获取到对应的动效，也可以缓存到本地，如果本地没有，则通过URL访问获取到本地。

步骤1716，媒体服务器进行媒体加工处理，在服务器进行视频解码，在用户视频流上进行编码合成处理，合成后进行视频编码，然后下发视频，其中，合成的视频，需要在用户主叫和被叫双向下行视频都要进行合成处理，这样主被叫都可以看到相同的视频加工结果。

综上，本发明实施例提供的音视频呼叫方法及装置，主要包括语音识别、视频智能识别和视频加工处理几个部分，具体包括两个主要功能更：语音转动效功能和手势转动效功能。

语音转动效，用户在通话过程中，如果用户说了某些关键词，比如：生日快乐，谢谢，点赞等关键词，系统侧进行语音识别，如果识别到某些关键词后，上报到业务侧，由业务侧指示媒体服务器进行特定动效或图片的展示，比如在双向视频中，均展现出蛋糕，爱心或礼花等动效。

在视频通话中，自动对用户手势动作的识别，比如用户做了一个比爱心的手势，则经过AI组件识别后，识别预先定义的关键动作后，然后在双方视频上叠加关键动动作的动效，比如爱心，大拇指点赞等图片或动效。

本发明实施例基于VOLTE呼叫的音视频通话，提供一种基于服务端的音视频增强功能，不需要借助于客户端的APP和SDK支持，只要用户支持原生的VOLTE视频呼叫，就可以提供更加有趣的通话功能，在服务端实现语音的自动识别和视频的自动识别，识别后，进行某些动效的叠加处理，大大的增强了音视频呼叫的趣味性，提升用户的使用体验。使用户的通话更加的有趣，更加的智能。大大提升了用户的操作体验，使语音通话更具有智能化，非常利于5G新通话业务的推广应用。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种音视频呼叫方法，包括：

在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，人工智能AI组件接收所述媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；

所述AI组件对所述音频流和/或所述视频流中的特定内容进行识别，并通过所述媒体服务器在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。
根据权利要求1所述的方法，其中，在所述AI组件接收所述媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流之前，还包括：

所述AI组件与所述媒体服务器协商用于接收所述音频流和视频流的端口信息和媒体信息；

所述AI组件向所述媒体服务器返回用于接收所述音频流和视频流的统一资源定位符URL地址和端口信息。
根据权利要求1所述的方法，其中，所述AI组件对所述音频流和/或所述视频流中的特定内容进行识别，包括：

所述AI组件将所述音频流转写成文字，并将所述文字发送至业务应用，以便所述业务应用对所述文字中的关键词进行识别，并查询与所述关键词对应的动效。
根据权利要求1所述的方法，其中，所述AI组件对所述音频流和/或所述视频流中的特定内容进行识别，还包括：

所述AI组件识别所述视频流中的特定动作，并将识别结果发送至业务应用，以便所述业务应用查询与所述特定动作对应的动效。
根据权利要求1所述的方法，所述动效包括以下至少之一：静态图片或者动态视频。
一种音视频呼叫方法，包括：

在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，所述媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；

所述媒体服务器根据所述AI组件对所述音频流和/或所述视频流中的特定内容的识别结果，在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。
根据权利要求6所述的方法，其中，在所述媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到AI组件之前，还包括：

所述媒体服务器根据通话平台的申请分别给主叫用户和被叫用户分配媒体资源，以便所述通话平台根据申请到的所述主叫用户和被叫用户的媒体资源分别将所述主叫用户和被叫用户重新锚定至所述媒体服务器。
根据权利要求6所述的方法，其中，在所述媒体服务器将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到AI组件之前，还包括：

所述媒体服务器接收业务应用下发的将所述音频流和视频流复制到所述AI组件的请求指令，其中所述请求指令中携带所述音频流ID、所述视频流ID、AI组件的URL地址；

所述媒体服务器与所述AI组件协商用于接收所述音频流和视频流的端口信息和媒体信息；

所述媒体服务器接收所述AI组件返回的用于接收所述音频流和视频流的URL地址和端口信息。
根据权利要求6所述的方法，其中，所述媒体服务器在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效，包括：

所述媒体服务器接收来自业务应用的媒体加工指令，并根据所述媒体加工指令中携带的所述动效的URL获取所述动效；

所述媒体服务器将所述动效与所述音频流和/或视频流进行编码合成，并向所述主叫用户和被叫用户下发经过编码合成处理的所述音频流和视频流。
一种音视频呼叫装置，包括：

第一接收模块，在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，接收所述媒体服务器复制的主叫用户与被叫用户之间的音视频通话的音频流和视频流；

识别处理模块，对所述音频流和/或所述视频流中的特定内容进行识别，以通过所述媒体服务器在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。
根据权利要求10所述的装置，还包括：

第一协商模块，设置为与所述媒体服务器协商用于接收所述音频流和视频流的端口信息和媒体信息；

返回模块，设置为向所述媒体服务器返回用于接收所述音频流和视频流的统一资源定位符URL地址和端口信息。
根据权利要求10所述的装置，其中，所述识别处理模块包括：

音频处理单元，设置为将所述音频流转写成文字，并将所述文字发送至业务应用，以便所述业务应用对所述文字中的关键词进行识别，并查询与所述关键词对应的动效。
根据权利要求10所述的装置，其中，所述识别处理模块还包括：

视频处理单元，设置为识别所述视频流中的特定动作，并将识别结果发送至业务应用，以便所述业务应用查询与所述特定动作对应的动效。
一种音视频呼叫装置，包括：

复制发送模块，设置为在主叫用户与被叫用户之间的音视频通话被锚定至媒体服务器后，将主叫用户与被叫用户之间的音视频通话的音频流和视频流复制到人工智能AI组件；

叠加模块，设置为根据所述AI组件对所述音频流和/或所述视频流中的特定内容的识别结果，在所述主叫用户与所述被叫用户的音视频通话上叠加与所述特定内容对应的动效。
根据权利要求14所述的装置，还包括：

资源分配模块，设置为根据通话平台的申请分别给主叫用户和被叫用户分配媒体资源，以便所述通话平台根据申请到的所述主叫用户和被叫用户的媒体资源分别将所述主叫用户和被叫用户重新锚定至所述媒体服务器。
根据权利要求14所述的装置，还包括：

第二接收模块，设置为接收业务应用下发的将所述音频流和视频流复制到所述AI组件的请求指令，其中所述请求指令中携带所述音频流ID、所述视频流ID、AI组件的URL地址；

第二协商模块，设置为与所述AI组件协商用于接收所述音频流和视频流的端口信息和媒体信息；

第三接收模块，设置为接收所述AI组件返回的用于接收所述音频流和视频流的URL地址和端口信息。
根据权利要求14所述的装置，其中，所述叠加模块包括：

接收单元，设置为接收来自业务应用的媒体加工指令，并根据所述媒体加工指令中携带的所述动效的URL获取所述动效；

叠加单元，设置为将所述动效与所述音频流和/或视频流进行编码合成，并向所述主叫用户和被叫用户下发经过编码合成处理的所述音频流和视频流。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至9任一项中所述的方法。
一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述权利要求1至9任一项中所述的方法。