WO2024065690A1

WO2024065690A1 - 一种音频广告投放的方法、设备及系统

Info

Publication number: WO2024065690A1
Application number: PCT/CN2022/123309
Authority: WO
Inventors: 夏曾华; 马中瑞
Original assignee: 华为技术有限公司
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-04

Abstract

一种音频广告投放的方法，包括:客户端（100）播放音频节目时向云端装置（20,90,110）发送广告请求（301），广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，云端装置（20,90,110）根据音频节目的信息和目标广告槽位的标识确定目标广告槽位的向量表示（302），目标广告槽位的向量表示用于描述音频节目中在目标广告槽位前一段时间内所涉及的内容;云端装置（20,90,110）根据用户特征和目标广告槽位的向量表示确定与目标广告槽位匹配的音频广告（303）；云端装置（20,90,110）向客户端（100）发送音频广告（304），客户端（100）在播放音频节目到目标广告槽位时播放音频广告（305）。使得音频广告与音频节目的匹配度更高，而且结合了用户特征，更能满足用户的个性化需求，可以提高音频广告的投放效果。

Description

一种音频广告投放的方法、设备及系统

技术领域

本申请涉及计算机技术领域，具体涉及一种音频广告投放的方法、设备及系统。

背景技术

播客是录制的网络广播或者网络声讯节目，比如有声书、相声、时事新闻等。播客的市场也日益壮大，用户数量已经达到了数亿。在播客的蓬勃发展下，对应的广告市场份额也在不断增长，随着国内外播客的发展，音频广告也成为一个重要的广告形式。

在音频节目中插入音频广告需要先离线挖掘音频节目中的广告槽位，也就是音频广告在音频节目中插入的位置。然后再为每个广告槽位配置音频广告。这样，播放音频节目到该广告槽位时，就会播放为该广告槽位配置的音频广告。

这种离线配置的音频广告，与音频节目的匹配度较低，经常会影响用户收听音频节目的连续性，投放效果较差。

发明内容

本申请提供一种音频广告投放的方法，用于在音频节目中为用户投放满足用户个性化需求的音频广告。本申请还提供了相应的设备、系统、计算机可读存储介质，以及计算机程序产品等。

本申请第一方面提供一种音频广告投放的方法，包括：云端接收来自客户端的广告请求，广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，目标广告槽位为从音频节目中挖掘出的至少一个广告槽位中的一个，广告请求是客户端播放音频节目时触发的；云端根据音频节目的信息和目标广告槽位的标识确定目标广告槽位的向量表示，目标广告槽位的向量表示用于描述音频节目中在目标广告槽位前的一段时间内所涉及的内容；云端根据用户特征和目标广告槽位的向量表示得到与目标广告槽位匹配的音频广告；云端向客户端发送音频广告，音频广告用于客户端在播放音频节目到目标广告槽位时播放。

本申请中，云端可以是云平台的软件或服务，也可以是部署在例如边缘节点等网络中节点上的软件或服务。云端可以运行在独立的物理机上，也可以运行在虚拟化的资源上。

本申请中，客户端可以是终端设备，也可以是应用，例如该应用运行于终端设备上供用户使用。

本申请中，客户端播放音频节目时通常指的是客户端播放音频节目快到目标广告槽位时，通常在距离到达目标广告槽位前的一个预设时间点触发广告请求，该预设时间点可以是距离目标广告槽位5秒或者其他表示时长的数值的时间点。

本申请中，音频广告指的是通过音频方式播放的广告。广告请求用于向云端请求音频广告。

本申请中，音频节目的信息可以是音频节目的标识或索引等。该音频节目为客户端即将要播放的、正在要播放的或者刚播放完的音频节目。音频节目可以是有声书、音频形式的歌曲、相声或时事新闻等。

本申请中，在广告槽位挖掘阶段，可以在音频节目中挖掘出一个或多个广告槽位，一个音频节目中的每个广告槽位都会有一个唯一的标识。每个广告槽位都会有一个向量表示，同一个广告槽位的标识与该广告槽位的向量表示关联，并且，每个音频节目的至少一个广告槽位的表示和向量表示与该音频节目关联存储，这些信息都可以存储在云平台的音频内容库中。其中，广告槽位的向量表示指的是对该广告槽位前一段时间内所涉及的内容进行编码得到的向量，本申请的“一段时间”可以是一段时长，如：1分钟或者其他表示时长的数值。又例如一种实现下具体的数值可以是预先设置的，一种实现下，该时长可以是在一个范围内随机取值。

本申请中，用户特征可以包括用户画像和用户行为特征，用户画像可以包括用户的基本信息，如：性别、年龄、爱好等。用户行为特征可以包括用户对历史音频节目的点击、收藏、评论等行为信息。

本申请中，根据音频节目的信息可以查找到与该音频节目关联的所有广告槽位的标识，以及广告槽位的向量表示，进一步，在根据目标广告槽位的标识，就可以确定该目标广告槽位的向量表示。

本申请中，根据目标广告槽位的向量表示可以确定与在该目标广告槽位前用户正在收听的音频节目强相关的一个或多个音频广告，进一步可以根据用户特征进一步筛选或处理音频广告，得到与该目标广告槽位匹配的音频广告。因为，本申请确定的音频广告与音频节目的匹配度更高，而且结合了用户特征，更能满足用户的个性化需求，可以提高音频广告的投放效果。

一种可能的实现方式中，上述步骤：云端根据用户特征和目标广告槽位的向量表示确定与目标广告槽位匹配的音频广告，包括：云端根据目标广告槽位的向量表示从音频广告库中召回多个音频广告；云端根据用户特征从多个音频广告中得到与目标广告槽位匹配的音频广告。

该种可能的实现方式中，云端根据目标广告槽位的向量表示召回与在该目标广告槽位前用户正在收听的音频节目强相关的多个音频广告，然后从中选择与用户特征匹配度最高的广告，这样可以提高音频广告与客户端上正在播放的音频节目的匹配度。

一种可能的实现方式中，上述步骤：云端根据用户特征从多个音频广告中得到与目标广告槽位匹配的音频广告，包括：云端根据用户特征和广告排序模型预测多个音频广告的完播率，其中，完播率最大的音频广告为与目标广告槽位匹配的音频广告，或者，完播率最大的音频广告为与目标广告槽位匹配的音频广告的源广告，广告排序模型是以用户特征为输入，以完播率为输出的模型。

该种可能的实现方式中，完播率指的是预测的音频广告被完整播放的概率。一条音频广告的内容和风格越贴近用户的偏好，被完整播放的概率越大，被投放后所获得的投放效果也会越好。所以，可以根据用户特征对召回的多个音频广告进行完播率预测，从中确定完播率最大的音频广告作为音频广告或者作为音频广告的源广告，这样可以提高音频广告的投放效果。

一种可能的实现方式中，当完播率最大的音频广告为与目标广告槽位匹配的音频广告的源广告时，该方法还包括：云端根据音频节目的风格和用户特征，调整完播率最大的音频广告的风格得到与目标广告槽位匹配的音频广告。

该种可能的实现方式中，云端通过广告排序模型确定完播率最大的音频广告后，可以再根据用户所要播放或正在播放的音频节目的风格和用户特征调整完播率最大的音频广告的风格，这样可以提高用户对音频广告的接受度，从而提高音频广告的投放效果。

一种可能的实现方式中，上述步骤：云端根据音频节目的风格和用户特征，调整完播率最大的音频广告的风格得到与目标广告槽位匹配的音频广告，包括：云端根据音频节目中对象声音的风格向量和用户偏好的风格向量，调整完播率最大的音频广告中的对象声音，音频节目中对象声音的风格向量是通过编码音频节目中对象声音得到的，用户偏好的风格向量是通过编码用户特征得到的；云端根据音频节目中背景音乐的风格向量和用户偏好的风格向量，调整完播率最大的音频广告中的背景音乐，音频节目中背景音乐的风格向量是通过编码音频节目中背景音乐得到的；云端融合调整后的完播率最大的音频广告中的对象声音，以及调整后的完播率最大的音频广告中背景音乐，得到与目标广告槽位匹配的音频广告。

该种可能的实现方式中，如果音频节目包括对象声音和背景音乐，则可以分离音频节目的对象声音和背景音乐，再分别进行编码得到对象声音的风格向量和背景音乐的风格向量，再结合用户偏好的风格向量调整打分最高的音频广告中的对象声音和背景音乐，得到音频广告。音频广告的风格在调整后与音频节目的风格相一致，可以满足用户的风格偏好，提高用户体验，从而提高音频广告的投放效果。

一种可能的实现方式中，在云端接收客户端发送的广告请求之前，该方法还包括：云端基于音频节目在语音状态下的时域信息，以及音频节目转换为文本后的文本内容，确定至少一个广告槽位；云端对至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到每个广告槽位的向量表示。

该种可能的实现方式中，本申请中，时域信息可以包括振幅(振幅也可以描述为声音强度)、振幅随时间的变化等。

云端还可以在接收广告请求之前执行广告槽位的挖掘任务，挖掘广告槽位的过程可以是从音频节目在语音状态下的时域信息，以及音频节目转换为文本后的文本内容来确定该音频节目的广告槽位。本申请中，因为可以基于音频节目的时域信息和文本内容共同挖掘广告槽位，挖掘出的广告槽位的质量较高，通常不会因为在该广告槽位插入广告而影响音频节目的连续性，从而可以提升用户体验，提高音频广告的投放效果。

一种可能的实现方式中，该方法还包括：云端将音频节目、每个广告槽位的标识和每个广告槽位的向量表示关联存储。

该种可能的实现方式中，将音频节目、音频节目中的每个广告槽位的标识和每个广告槽位的向量表示关联存储，可以便于在客户端发送广告请求时，快速的确定到与所请求的目标广告槽位匹配的音频广告，提高音频广告的投放效率。

一种可能的实现方式中，上述步骤：云端基于音频节目在语音状态下的时域信息，以及音频节目转换为文本后的文本内容，确定至少一个广告槽位，包括：时域信息为振幅时，若音频节目在语音状态下的振幅连续低于振幅阈值的时长超过第一阈值，则云端将振幅连续低于振幅阈值的时长确定为第一基础广告槽位；若音频节目转换后的文本内容中相邻两个词的时间间隔大于第二阈值，则云端将相邻两个词的时间间隔确定为第二基础广告槽位，相邻两个词的时间间隔时通过文本转换时每个词的时间戳确定的；云端从第一基础广告槽位和第二基础广告槽位的并集中确定至少一个广告槽位。

该种可能的实现方式中，从第一基础广告槽位和第二基础广告槽位的并集中选择广告槽位，可以扩大广告槽位选择的范围。

一种可能的实现方式中，上述步骤：云端从第一基础广告槽位和第二基础广告槽位的并集中确定至少一个广告槽位，包括：云端从第一基础广告槽位和第二基础广告槽位的并集中选择权重最大的至少一个广告槽位确定为音频节目的至少一个广告槽位，至少一个广告槽位中每个广告槽位的权重是通过每个广告槽位对应的标点符号和/或文本段的分割位置确定的。

该种可能的实现方式中，可以通过标点符号、文本分段等方式对相应的基础广告槽位进行提权，也就是增加相应广告为的权重，然后从中选择权重最大的至少一个基础广告槽位确定为音频节目的至少一个广告槽位。这样，可以提高被选出的广告槽位的质量。

一种可能的实现方式中，用户特征包括用户画像，以及用户对历史音频节目的行为特征。

本申请第二方面提供一种音频广告投放的方法，包括：客户端播放音频节目时，向云端发送广告请求，所述广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，所述目标广告槽位为从所述音频节目中挖掘出的至少一个广告槽位中的一个；所述客户端接收所述云端发送的与所述目标广告槽位匹配的音频广告；所述客户端在播放所述音频节目到所述目标广告槽位时播放所述音频广告。

一种可能的实现方式中，用户特征包括用户特征和用户对音频节目的偏好特征。

本申请第三方面提供一种挖掘广告槽位的方法，包括：云端获取待挖掘广告槽位的音频节目；云端基于音频节目在语音状态下的时域信息，以及音频节目转换为文本后的文本内容，确定至少一个广告槽位；云端对至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到每个广告槽位的向量表示。

本申请第四方面，提供了一种云端装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该云端装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的模块或单元，如：处理单元、发送单元和接收单元。

本申请第五方面，提供了一种客户端，用于执行上述第二方面的方法。具体地，该客户端包括用于执行上述第二方面或第二方面的任意可能的实现方式中的方法的模块或单元，如：接收单元、显示单元和发送单元。

本申请第六方面，提供了一种云端装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该云端装置包括用于执行上述第三方面或第三方面的任意可能的实现方式中的方法的模块或单元，如：处理单元、发送单元和接收单元。

本申请第七方面，提供了一种云端装置。该云端装置可以包括至少一个处理器、存储器和通信接口。处理器与存储器和通信接口耦合。存储器用于存储指令，处理器用于执行该指令，通信接口用于在处理器的控制下与其他网元进行通信。该指令在被处理器执行时，使处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

本申请第八方面提供了一种客户端，包括收发器、处理器和存储器，收发器和处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得云端装置执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第九方面，提供了一种云端装置。该云端装置可以包括至少一个处理器、存储器和通信接口。处理器与存储器和通信接口耦合。存储器用于存储指令，处理器用于执行该指令，通信接口用于在处理器的控制下与其他网元进行通信。该指令在被处理器执行时，使处理器执行第三方面或第三方面的任意可能的实现方式中的方法。

本申请第十方面提供了一种芯片系统，该芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从云端装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，云端装置执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请第十一方面提供了一种芯片系统，该芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从客户端的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，客户端执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第十二方面提供了一种芯片系统，该芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从云端装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，云端装置执行前述第三方面或第三方面的任意可能的实现方式中的方法。

本申请第十三方面提供了一种计算机可读存储介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机设备上运行时，使得计算机设备执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请第十四方面提供了一种计算机可读存储介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机设备上运行时，使得计算机设备执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第十五方面提供了一种计算机可读存储介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机设备上运行时，使得计算机设备执行前述第三方面或第三方面的任意可能的实现方式中的方法。

本申请第十六方面提供了一种计算机设备程序产品，该计算机设备程序产品包括计算机设备程序代码，当计算机设备程序代码在计算机设备上执行时，使得计算机设备执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请第十七方面提供了一种计算机设备程序产品，该计算机设备程序产品包括计算机设备程序代码，当计算机设备程序代码在计算机设备上执行时，使得计算机设备执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第十八方面提供了一种计算机设备程序产品，该计算机设备程序产品包括计算机设备程序代码，当计算机设备程序代码在计算机设备上执行时，使得计算机设备执行前述第三方面或第三方面的任意可能的实现方式中的方法。

本申请第十九方面提供一种音频广告系统，该音频广告系统包括云端装置和客户端，该云端装置用于执行前述第一方面或第一方面的任意可能的实现方式中的方法，客户端用于执行前述第二方面或第二方面的任意可能的实现方式中的方法。

本申请第二十方面提供一种音频广告系统，该音频广告系统包括云端装置和音频内容库，云端装置从音频内容库获取音频节目，并执行上述第三方面或第三方面的任意可能的实现方式中的方法。

其中，第二方面至第二十方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的音频广告系统的一架构示意图；

图1B是本申请实施例提供的音频广告系统的另一架构示意图；

图2A是本申请实施例提供的客户端的一结构示意图；

图2B是本申请实施例提供的云端装置的一结构示意图；

图3是本申请实施例提供的音频广告投放的方法的一实施例示意图；

图4是本申请实施例提供的一广告排序模型的结构示意图；

图5是本申请实施例提供的音频广告投放的方法的另一实施例示意图；

图6是本申请实施例提供的挖掘广告槽位的方法的一实施例示意图；

图7是本申请实施例提供的一场景示例示意图；

图8是本申请实施例提供的挖掘广告槽位和音频广告投放的一实施例示意图；

图9是本申请实施例提供的云端装置的另一结构示意图；

图10是本申请实施例提供的客户端的另一结构示意图；

图11是本申请实施例提供的云端装置的另一结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种音频广告投放的方法，用于在音频节目中为用户投放满足用户个性化需求的音频广告。本申请还提供了相应的设备、系统、计算机可读存储介质，以及计算机程序产品等。以下分别进行详细说明。

图1A是本申请实施例提供的音频广告系统的一架构示意图。

如图1A所示，本申请实施例提供的音频广告系统包括云端以及多个客户端，该云端可以与多个客户端通过网络进行通信。本申请实施例提供的音频广告系统中还可以包括音频内容库和音频广告库，当然，音频内容库和/或音频广告库也可以集成于云端上。

本申请实施例中，云端可以是云平台的软件或服务，也可以是部署在例如边缘节点等网络中节点上的软件或服务。客户端可以是终端设备，也可以是应用，例如该应用运行于终端设备上供用户使用。

客户端在使用播客类型的应用时，可以从音频内容库获取音频节目，播放音频节目时，可以向云端发送广告请求。云端可以根据广告请求中携带的与音频节目相关的信息，以及用户特征从音频广告库中确定一个能满足用户个性化需求的音频广告，发送给客户端，供客户端在播放音频节目时投放到音频节目中。

本申请实施例提供的音频广告系统可以结合用户特征确定音频广告，这样确定的音频广告更能满足用户的个性化需求，可以提高音频广告的投放效果。

本申请实施例中，与音频节目相关的信息可以包括音频节目的标识，还可以包括预先从音频节目中挖掘出的广告槽位的标识。这样，云端可以为广告请求中所指定的广告槽位确定音频广告，可以进一步提高音频广告与音频节目的匹配度。广告槽位指的是在音频节目中用于播放音频广告的时间段。

本申请实施例中，挖掘广告槽位的过程通常是离线挖掘，当然，也可以在线挖掘。下面结合图1B对用于挖掘广告槽位的音频广告系统进行介绍。

如图1B所示，该音频广告系统可以包括云端和音频内容库。该音频内容库可以集成在云端，该云端可以与图1A中的云端是同一设备，也可以是不同设备。

在挖掘广告槽位时，云端可以从音频内容库中获取待挖掘广告槽位的音频节目，然后云端基于音频节目在语音状态下的时域信息，以及音频节目转换为文本后的文本内容，确定至少一个广告槽位；云端对至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到每个广告槽位的向量表示。

本申请实施例中，时域信息可以包括振幅(振幅也可以描述为声音强度)、振幅随时间的变化等。

云端会将同一个音频节目的每个广告槽位的标识和每个广告槽位的向量表示以及音频节目关联存储，如果音频节目存储在音频内容库中，则可以将同一个音频节目的每个广告槽位的标识和每个广告槽位的向量表示返回到音频内容库中，音频内容库关联存储音频节目，以及音频节目的每个广告槽位的标识和每个广告槽位的向量表示。如图1B中，音频内容库中可以关联存储很多个音频节目和该音频节目中的广告槽位的标识和向量表示。例如：音频节目1，对应的广告槽位有x个，与音频节目1对应的广告槽位的标识和向量表示分别为广告槽位1、向量表示1，…，广告槽位x、向量表示x。音频节目M，对应的广告槽位有y个，与音频节目1对应的广告槽位的标识和向量表示分别为广告槽位1、向量表示1，…，广告槽位y、向量表示y。其中，x、y、M都为正整数。

本申请实施例提供的广告槽位的挖掘方案，因为可以基于音频节目的在语音状态下的时域信息和音频节目转换为文本格式后的文本内容共同挖掘广告槽位，挖掘出的广告槽位的质量较高，通常不会因为在该广告槽位插入音频广告而影响音频节目的连续性，从而可以提升用户体验，提高音频广告的投放效果。而且在音频内容库中将音频节目、音频节目中的每个广告槽位的标识和每个广告槽位的向量表示关联存储，可以便于在客户端发送广告请求时，快速的确定到与所请求的目标广告槽位匹配的音频广告，提高音频广告的投放效率。

本申请实施例中，云端可以是物理机也可以是虚拟机(virtual machine，VM)或容器(container)等计算实例，也可以将云端理解为是广告系统，或者，云端是广告系统中的设备。

客户端为终端设备时，该终端设备(也可以称为用户设备(user equipment，UE))是一种具有无线收发功能的设备，可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上(如轮船等)；还可以部署在空中(例如飞机、气球和卫星上等)。终端可以是手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端、增强现实(augmented reality，AR)终端、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、以物联网(internet of things，IoT)中的无线终端等。

本申请实施例提供的终端设备的结构可以参阅如下图2A进行理解，云端装置的结构可以参阅如下图2B进行理解。

请参考图2A，为本申请实施例提供的一种终端设备的结构示意图。如图2A所示，终端设备可以包括处理器101、收发器102、存储器103以及总线104。处理器101、收发器102以及存储器103通过总线104相互连接。在本申请的实施例中，处理器101用于对终端设备10的动作进行控制管理，例如，处理器101用于控制播放音频节目和音频广告过程。收发器102用于支持终端设备10进行通信，例如：收发器102可以执行发送广告请求和接收音频广告的步骤。存储器103，用于存储终端设备10的程序代码和数据。

其中，处理器101可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。总线104可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2A中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

以上图2A介绍了终端设备的结构，下面结合图2B介绍云端装置的结构。

图2B为本申请的实施例提供的云端装置的一种可能的逻辑结构示意图。如图2B所示，本申请实施例提供的云端装置20包括：处理器201、通信接口202、存储器203以及总线204。处理器201、通信接口202以及存储器203通过总线204相互连接。在本申请的实施例中，处理器201用于对云端装置20的动作进行控制管理，例如，处理器201用于执行确定音频广告过程。通信接口202用于支持云端装置20进行通信，例如：通信接口202可以执行接收广告请求和发送音频广告的步骤。存储器203，用于存储云端装置20的程序代码和数据。

其中，处理器201可以是中央处理器单元，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。总线204可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2B中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

下面对本申请实施例提供的音频广告投放的方法进行描述。该方法中涉及到云端执行的内容可以由云端执行，也可以由云端的部件(例如处理器、芯片、或芯片系统等)执行。

图3为本申请实施例提供的音频广告投放的方法的一实施例示意图。

如图3所示，本申请实施例提供的音频广告投放的方法的一实施例包括：

301.客户端向云端发送广告请求。对应的，云端接收来自客户端的广告请求。

广告请求是客户端播放音频节目时触发的。

本申请实施例中，客户端播放音频节目时通常指的是客户端播放音频节目快到目标广告槽位时，通常在距离到达目标广告槽位前的一个预设时间点触发广告请求，该预设时间点可以是距离目标广告槽位5秒或者其他表示时长的数值的时间点。

本申请实施例中，广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征。

本申请实施例中，目标广告槽位为从音频节目中挖掘出的至少一个广告槽位中的一个，如：图1B中音频节目1对应的广告槽位1，当然，也可以是其他广告槽位。

302.云端根据音频节目的信息和目标广告槽位的标识确定目标广告槽位的向量表示。

目标广告槽位的向量表示用于描述音频节目中在目标广告槽位前的一段时间内所涉及的内容。

本申请实施例中，音频节目的信息可以是音频节目的标识或索引等。该音频节目为客户端即将要播放的、正在要播放的或者刚播放完的音频节目。音频节目可以是有声书、音频形式的歌曲、相声或时事新闻等。

本申请实施例中，在广告槽位挖掘阶段，可以在音频节目中挖掘出一个或多个广告槽位，一个音频节目中的每个广告槽位都会有一个唯一的标识。每个广告槽位都会有一个向量表示，同一个广告槽位的标识与该广告槽位的向量表示关联，并且，每个音频节目的至少一个广告槽位的表示和向量表示与该音频节目关联存储，这些信息都可以存储在云平台的音频内容库中。其中，广告槽位的向量表示指的是对该广告槽位前一段时间内所涉及的内容进行编码得到的向量，本申请的“一段时间”可以是一段时长，如：1分钟或者其他表示时长的数值。又例如一种实现下具体的数值可以是预先设置的，一种实现下，该时长可以是在一个范围内随机取值。

如图1B中的示意，若音频节目的信息为音频节目1，目标广告槽位的标识为广告槽位1，那么根据音频节目1和广告槽位1就可以确定广告槽位1的向量表示1。

303.云端根据用户特征和目标广告槽位的向量表示确定与目标广告槽位匹配的音频广告。

本申请实施例中，用户特征可以反映出用户对音频节目类型或风格的偏好，例如：用户喜欢收听的音频节目的类型、内容，以及所喜欢的音频节目朗读者等。

本申请实施例中，因为广告槽位的向量表示可以反映音频节目的内容，所以在匹配音频广告时，可以选择与音频节目的内容有关联的音频广告，这样的音频广告与音频节目的融合度较高，不会影响用户收听音频节目的连续性。云端再结合用户的偏好进一步确定音频广告，可以得到与目标广告槽位匹配度最好的音频广告。

304.云端向客户端发送音频广告。对应的，客户端接收来自云端的音频广告。

音频广告用于客户端在播放音频节目到目标广告槽位时播放。

305.客户端在目标广告槽位中播放音频广告。

本申请实施例中，根据目标广告槽位的向量表示可以确定与在该目标广告槽位前用户正在收听的音频节目强相关的一个或多个音频广告，进一步可以根据用户特征进一步筛选或处理音频广告，得到与该目标广告槽位匹配的音频广告。因为，本申请确定的音频广告与音频节目的匹配度更高，而且结合了用户特征，更能满足用户的个性化需求，可以提高音频广告的投放效果。

上述步骤303可以包括：云端根据目标广告槽位的向量表示从音频广告库中召回多个音频广告；云端根据用户特征从多个音频广告中得到与目标广告槽位匹配的音频广告。

进一步的可以包括：云端根据用户特征和广告排序模型预测多个音频广告的完播率，其中，完播率最大的音频广告为与目标广告槽位匹配的音频广告，或者，完播率最大的音频广告为与目标广告槽位匹配的音频广告的源广告，广告排序模型是以用户特征为输入，以完播率为输出的模型。

也就是说，本申请实施例中，在确定音频广告的过程中可以包括广告召回、广告排序和风格迁移几个部分，下面分别进行介绍。

1.广告召回。

广告召回指的是从音频广告库中获取与目标广告槽位的向量表示所描述的内容相关的多个音频广告。

2.广告排序。

云端可以使用广告排序模型对召回的每个音频广告进行打分，也可以基于打分进行排序，选择其中打分最高的音频广告。

本申请实施例中，广告排序模型是以用户特征为输入，以完播率为输出的模型。该广告排序模型可以是机器学习模型，关于广告排序模型可以参阅图4进行理解。如图4所示，该广告排序模型中的输入可以包括音频节目、音频广告，音频广告文本(文本形式的音频广告)，槽位文本(文本形式的广告槽位)，还可以包括槽位权重、音频广告特征、音频节目特征、上下文特征等，另外，本申请实施例提供的广告排序模型的输入还包括用户特征。这样，嵌入层对槽位权重、音频广告特征、音频节目特征、上下文特征，以及户特征信息进行处理后，以及对音频节目和音频广告进行音频编码，对音频广告文本和槽位文本进行文本编码后，都输入到连接(Concat)&压平(Flatten)层进行处理后，通过神经网络输入该条音频广告对于该用户的完播率。神经网络可以包括卷积神经网络(deep neural network，DNN)、深度兴趣网络(deep interest network，DIN)或深度因子分解机(deep factorization machine，DeepFM)。

可以将召回的多个音频广告分别输入到广告排序模型中，也可以一次性或分批输入到广告排序模型，就可以得到每个音频广告的完播率。完播率的数值可以理解为是音频广告的分数，打分最高的音频广告为完播率最大的音频广告。

完播率指的是预测的音频广告被完整播放的概率。一条音频广告的内容和风格越贴近用户的偏好，被完整播放的概率越大，被投放后所获得的投放效果也会越好。所以，可以根据用户特征对召回的多个音频广告进行完播率预测，从中确定完播率最大的音频广告作为音频广告，这样可以提高音频广告的投放效果。

3.风格迁移。

本申请实施例中，云端通过广告排序模型确定完播率最大的音频广告后，可以再根据用户所要播放或正在播放的音频节目的风格和用户特征调整完播率最大的音频广告的风格，得到与目标广告槽位匹配的音频广告。这样可以提高用户音频广告的接受度，从而提高音频广告的投放效果。

需要说明的是，确定完播率最大的音频广告后，也可以直接将完播率最大的音频广告确定为与目标广告槽位匹配的音频广告，也可以以完播率最大的音频广告作为源广告进行上述风格迁移得到与目标广告槽位匹配的音频广告，本申请中对此不做限定。

本申请实施例提供的风格迁移的过程可以参阅图5进行理解。

如图5所示，该过程可以包括：

501.云端分离音频广告中的对象声音和背景音乐。

对象声音通常为音频广告中的主体声音，如解说广告的解说者。

502.云端分离音频节目中的对象声音和背景音乐。

503.云端编码音频节目中的对象声音得到对象声音的风格向量。

504.云端编码音频节目中的背景音乐得到背景音乐的风格向量。

505.云端编码用户特征得到用户偏好的风格向量。

506.云端根据对象声音的风格向量和用户偏好的风格向量，调整打分最高的音频广告中的对象声音。

该步骤506就是迁移音频广告中对象声音的风格。

507.云端根据背景音乐的风格向量和用户偏好的风格向量，调整打分最高的音频广告中背景音乐。

该步骤507就是迁移音频广告中背景声音的风格。

风格迁移可以是对对象声音或者背景音乐的风格的替换，或者部分调整。

508.将步骤506和步骤507风格迁移后的对象声音和背景音乐进行融合，以得到音频广告。

需要说明的是，如果音频广告或音频节目中都没有背景音乐，则可以不执行与背景音乐处理的相关步骤，如：步骤501、502、504、507或508中的一个或多个步骤。

本申请实施例中，音频广告的风格在调整后与音频广告的风格相一致，可以满足用户的风格偏好，提高用户体验，从而提高音频广告的投放效果。

以上介绍了在线投放音频广告的过程，下面再对图1B中离线或在线挖掘广告槽位的过程进行进一步的描述。

如图6所示，本申请实施例提供的挖掘广告槽位的方法的一实施例包括：

601.云端获取待挖掘广告槽位的音频节目。

云端可以从音频内容库获取待挖掘广告槽位的音频节目。

602.云端对音频节目在语音状态下进行检测。

603.时域信息为振幅时，若音频节目在语音状态下的振幅连续低于振幅阈值的时长超过第一阈值，则云端将振幅连续低于振幅阈值的时长确定为第一基础广告槽位。

604.云端将音频节目转换为文本内容并记录文本内容中词的时间戳，根据相邻两个词的时间戳确定相邻两个词的时间间隔。

第一阈值和第二阈值可以相同，也可以不相同。

605.若音频节目转换后的文本内容中相邻两个词的时间间隔大于第二阈值，则云端将相邻两个词的时间间隔确定为第二基础广告槽位。

606.云端恢复文本内容中的标点符号。

607.云端针对标点符号中结束的标点符号对应的基础广告槽位增加权重。

本申请实施例中的基础广告槽位指的是第一基础广告槽位和第二基础广告槽位的并集中的广告槽位。

当然，第一基础广告槽位和第二基础广告槽位可以有重叠。

608.云端对恢复符号的文本内容划分文本段，针对两个文本段之间的基础广告槽位增加权重。

上述步骤602至608的过程可以参阅图7的示例进行理解。

如图7所示，云端可以先对音频节目(图7中示意的可以是从音频节目中截取的一段)进行检测，从中检测出有一段音频振幅很小(小于振幅阈值)，且持续时间超过第一阈值，则可以确定在这个时长中音频节目中的对象没有发声，也就是处于停顿状态，也可以将这个时长确定为一个第一基础广告槽位。

然后，云端可以将图7所示的一段音频通过语音识别，转换为文本。从图7中可以看出转换出的文本内容包括：“今天天气真好咱们去哪玩颐和园在海淀区”，其中，“今天”的时间戳为1，“天气”的时间戳为2，“真好”的时间戳为3，“咱们”的时间戳为6，“去哪”的时间戳为7，“玩”的时间戳为8，“颐和园”的时间戳为12，“在”的时间戳为13，“海淀区”的时间戳为14。从各个词的时间戳中可以确定，“真好”和“咱们”之间少了时间戳4和5，也就是说“真好”和“咱们”两个词之间出现了停顿，如果第二阈值等于1(或者其他0到2之间的数值)，则该处可以确定为一个第二基础广告槽位。同理，在“玩”和“颐和园”之间的时间戳少了9、10和11，则可以将该处可以确定为一个第二基础广告槽位。在“海淀区”也可以确定为一个第二基础广告槽位。从图7中可见，第一基础广告槽位基本与“玩”和“颐和园”之间第二基础广告槽位重叠。为了便于描述，下面将图7中示意出的第一基础广告槽位和第二基础广告槽位都统称为基础广告槽位。

接下来可以恢复文本中的标点符号，如图7所示，恢复标点符号后的文本内容包括：“今天天气真好，咱们去哪玩？颐和园在海淀区。”，因为标点符号中问号“？”和句号“。”的停顿通常较逗号“，”长，所以可以对“？”和“。”对应的两个基础广告槽位进行提权，也就是增加这两个基础广告槽位的权重。

进一步还可以为图7示意的文本内容进行分段，可以将“今天天气真好，咱们去哪玩？”划分为文本段1，将“颐和园在海淀区。”划分为文本段2，在两个文本段分割处的停顿会更久，所以可以再进一步提权两个文本段分割处的基础广告槽位的权重，也就是进一步增加“玩”和“颐和园”之间的基础广告槽位的权重。

609.云端选择权重最大的至少一个基础广告槽位确定为音频节目的至少一个广告槽位。

执行如上操作后，“玩”和“颐和园”之间的基础广告槽位的权重最大。如果在图7所示意的这段音频中选择一个广告槽位，则可以选择“玩”和“颐和园”之间的基础广告槽位作为该段音频的广告槽位。

610.云端对至少一个广告槽位中每个广告槽位前的预设长度文本内容进行编码，以得到每个广告槽位的向量表示。

云端可以对“今天天气真好，咱们去哪玩？”这段文本内容进行编码，这道该“玩”和“颐和园”之间的广告槽位的向量表示。

611.云端可以将每个广告槽位的标识和向量表示发送到音频内容库中，与音频内容进行关联存储。

这样，当用户在播放这段音频时，播放到该“玩”和“颐和园”之间的广告槽位，则可以选择与旅游相关的音频广告进行推送，推送时还可以考虑用户所在城市，用户历史上的旅游过的景区的类型筛选与“今天天气真好，咱们去哪玩？”相匹配的音频广告投放到“玩”和“颐和园”之间的广告槽位。这样，音频节目和音频广告之间是连续的，不会影响用户的收听体验，可以增加音频广告的投放效果。

为了更好的理解本申请实施例提供的广告挖掘过程与广告投放过程的联系，下面结合图8对两个过程进行结合性描述。

801.基于音频内容的广告槽位挖掘。

该过程可以包括广告槽位识别和广告槽位向量表示。

该步骤801的过程可以参阅前面步骤601至611进行理解，此处不再重复赘述。

802.在音频广告投放过程中，客户端播放音频节目时判断是否播放至广告槽位，若是，执行步骤803，若否，继续播放音频节目。

803.当播放至广告槽位时，判断是否发送广告请求，若是，则执行步骤804，若否，则继续播放音频节目。

如果前面已经播放了足够的广告，也就是播放音乐广告的时长已经超过了预设值，则后续广告槽位不再播放广告，就不需要发送广告请求。

804.从音频广告库召回多个音频广告。

805.对多个音频广告进行个性化音频广告排序。

步骤804和805可以参阅前面广告召回和广告打分的介绍进行理解。

806.判断是否投放音频广告。

根据打分结果判断是否投放音频广告，如果所有音频广告得分均低于分数阈值，则不投放音频广告，如果得分最高的音频广告高于分数阈值，则确定投放该得分最高的音频广告，并进行步骤807。

807.音频广告风格迁移。

该步骤807可以参阅前面风格迁移部分的介绍进行理解。

808.播放风格迁移之后的音频广告，播放之后继续播放音频节目。

以上所介绍的广告槽位的挖掘过程结合了文本内容生成了向量表示，这样，在投放广告时可以确定出与音频内容更匹配的音频广告，而且在投放音频广告时，还使用了用户特征，这样，更能满足用户的个性化需求，可以提高音频广告的投放效果。

以上介绍了挖掘广告槽位的方法和音频广告投放的方法，下面结合附图介绍本申请实施例中的云端装置和客户端。

如图9所示，本申请实施例提供的云端装置90的一结构包括：

接收单元901，用于接收来自客户端的广告请求，广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，目标广告槽位为从音频节目中挖掘出的至少一个广告槽位中的一个，广告请求是客户端播放音频节目时触发的。该接收单元901可以执行上述方法实施例中的步骤301。

第一处理单元902，用于根据音频节目的信息和目标广告槽位的标识确定目标广告槽位的向量表示，目标广告槽位的向量表示用于描述音频节目中在目标广告槽位前的一段时间内所涉及的内容。该第一处理单元902可以执行上述方法实施例中的步骤302。

第二处理单元903，用于根据用户特征和目标广告槽位的向量表示得到与目标广告槽位匹配的音频广告。该第二处理单元903可以执行上述方法实施例中的步骤303。

发送单元904，用于向客户端发送音频广告，音频广告用于客户端在播放音频节目到目标广告槽位时播放。该发送单元904可以执行上述方法实施例中的步骤304。

可选地，第二处理单元903，具体用于根据目标广告槽位的向量表示从音频广告库中召回多个音频广告；根据用户特征从多个音频广告中得到与目标广告槽位匹配的音频广告。

可选地，第二处理单元903，具体用于根据用户特征和广告排序模型预测多个音频广告的完播率，其中，完播率最大的音频广告为与目标广告槽位匹配的音频广告，或者，完播率最大的音频广告为与目标广告槽位匹配的音频广告的源广告，广告排序模型是以用户特征为输入，以完播率为输出的模型。

可选地，第二处理单元903，具体用于当完播率最大的音频广告为与目标广告槽位匹配的音频广告的源广告时，根据音频节目的风格和用户特征，调整完播率最大的音频广告的风格得到与目标广告槽位匹配的音频广告。

可选地，第二处理单元903，具体用于根据音频节目中对象声音的风格向量和用户偏好的风格向量，调整完播率最大的音频广告中的对象声音，音频节目中对象声音的风格向量是通过编码音频节目中对象声音得到的，用户偏好的风格向量是通过编码用户特征得到的；根据音频节目中背景音乐的风格向量和用户偏好的风格向量，调整完播率最大的音频广告中的背景音乐，音频节目中背景音乐的风格向量是通过编码音频节目中背景音乐得到的；融合调整后的完播率最大的音频广告中的对象声音，以及调整后的完播率最大的音频广告中背景音乐，得到与目标广告槽位匹配的音频广告。

可选地，第一处理单元902，还用于基于音频节目在语音状态下的时域信息，以及音频节目转换为文本后的文本内容，确定至少一个广告槽位；对至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到每个广告槽位的向量表示。

可选地，第一处理单元902，具体用于时域信息为振幅时，若音频节目在语音状态下的振幅连续低于振幅阈值的时长超过第一阈值，则将振幅连续低于振幅阈值的时长确定为第一基础广告槽位；若音频节目转换后的文本内容中相邻两个词的时间间隔大于第二阈值，则将相邻两个词的时间间隔确定为第二基础广告槽位，相邻两个词的时间间隔时通过文本转换时每个词的时间戳确定的；从第一基础广告槽位和第二基础广告槽位的并集中确定至少一个广告槽位。

可选地，第一处理单元902，具体用于从第一基础广告槽位和第二基础广告槽位的并集中选择权重最大的至少一个广告槽位确定为音频节目的至少一个广告槽位，至少一个广告槽位中每个广告槽位的权重是通过每个广告槽位对应的标点符号和/或文本段的分割位置确定的。

可选地，用户特征包括用户画像，以及用户对历史音频节目的行为特征。

本申请实施例中，云端装置90中各单元所执行的操作与前述图3至图8所示实施例中描述的类似，此处不再赘述。

如图10所示，本申请实施例提供的客户端100的一结构包括：

发送单元1001，用于播放音频节目时，向云端发送广告请求，广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，目标广告槽位为从音频节目中挖掘出的至少一个广告槽位中的一个。

接收单元1002，用于接收云端发送的与目标广告槽位匹配的音频广告。

处理单元1003，用于在播放音频节目到目标广告槽位时播放音频广告。

本申请实施例中，客户端100中各单元所执行的操作与前述图3至图8所示实施例中描述的类似，此处不再赘述。

如图11所示，本申请实施例还提供了云端装置110的另一结构包括：

获取单元1101，用于获取待挖掘广告槽位的音频节目。

第一处理单元1102，用于基于所述音频节目在语音状态下的时域信息，以及所述音频节目转换为文本后的文本内容，确定至少一个广告槽位。

第二处理单元1103，用于对所述至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到所述每个广告槽位的向量表示。

可选地，第一处理单元1102，具体用于时域信息为振幅时，若音频节目在语音状态下的振幅连续低于振幅阈值的时长超过第一阈值，则将振幅连续低于振幅阈值的时长确定为第一基础广告槽位；若音频节目转换后的文本内容中相邻两个词的时间间隔大于第二阈值，则将相邻两个词的时间间隔确定为第二基础广告槽位，相邻两个词的时间间隔时通过文本转换时每个词的时间戳确定的；从第一基础广告槽位和第二基础广告槽位的并集中确定至少一个广告槽位。

可选地，第一处理单元1102，具体用于从所述第一基础广告槽位和所述第二基础广告槽位的并集中选择权重最大的至少一个广告槽位确定为所述音频节目的至少一个广告槽位，所述至少一个广告槽位中每个广告槽位的权重是通过所述每个广告槽位对应的标点符号和/或文本段的分割位置确定的。

本申请实施例中，云端装置110中各单元所执行的操作与前述图3至图8所示实施例中描述的类似，此处不再赘述。

在本申请的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当云端装置的处理器执行该计算机执行指令时，云端装置执行上述图3至图8中云端装置所执行的步骤。

在本申请的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当客户端的处理器执行该计算机执行指令时，客户端执行上述图3至图8中客户端所执行的步骤。

在本申请的另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上执行时，计算机设备执行上述图3至图8中云端装置或客户端所执行的步骤。

在本申请的另一实施例中，还提供一种芯片系统，该芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从终端的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，终端执行前述上述图3至图8中云端装置或客户端所执行的步骤。在一种可能的设计中，芯片系统还可以包括存储器，存储器，用于保存控制设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。

当使用软件实现所述集成的单元时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

Claims

一种音频广告投放的方法，其特征在于，包括：

云端接收来自客户端的广告请求，所述广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，所述目标广告槽位为从所述音频节目中挖掘出的至少一个广告槽位中的一个，所述广告请求是所述客户端播放所述音频节目时触发的；

所述云端根据所述音频节目的信息和所述目标广告槽位的标识确定所述目标广告槽位的向量表示，所述目标广告槽位的向量表示用于描述所述音频节目中在所述目标广告槽位前的一段时间内所涉及的内容；

所述云端根据所述用户特征和所述目标广告槽位的向量表示得到与所述目标广告槽位匹配的音频广告；

所述云端向所述客户端发送所述音频广告，所述音频广告用于所述客户端在播放所述音频节目到所述目标广告槽位时播放。
根据权利要求1所述的方法，其特征在于，所述云端根据所述用户特征和所述目标广告槽位的向量表示确定与所述目标广告槽位匹配的音频广告，包括：

所述云端根据所述目标广告槽位的向量表示从音频广告库中召回多个音频广告；

所述云端根据所述用户特征从所述多个音频广告中得到与所述目标广告槽位匹配的音频广告。
根据权利要求2所述的方法，其特征在于，所述云端根据所述用户特征从所述多个音频广告中得到与所述目标广告槽位匹配的音频广告，包括：

所述云端根据所述用户特征和广告排序模型预测所述多个音频广告的完播率，其中，完播率最大的音频广告为所述与所述目标广告槽位匹配的音频广告，或者，完播率最大的音频广告为所述与所述目标广告槽位匹配的音频广告的源广告，所述广告排序模型是以用户特征为输入，以完播率为输出的模型。
根据权利要求3所述的方法，其特征在于，当所述完播率最大的音频广告为所述与所述目标广告槽位匹配的音频广告的源广告时，所述方法还包括：

所述云端根据所述音频节目的风格和所述用户特征，调整所述完播率最大的音频广告的风格得到与所述目标广告槽位匹配的音频广告。
根据权利要求4所述的方法，其特征在于，所述云端根据所述音频节目的风格和所述用户特征，调整所述完播率最大的音频广告的风格得到与所述目标广告槽位匹配的音频广告，包括：

所述云端根据所述音频节目中对象声音的风格向量和用户偏好的风格向量，调整所述完播率最大的音频广告中的对象声音，所述音频节目中对象声音的风格向量是通过编码所述音频节目中对象声音得到的，所述用户偏好的风格向量是通过编码所述用户特征得到的；

所述云端根据所述音频节目中背景音乐的风格向量和所述用户偏好的风格向量，调整所述完播率最大的音频广告中的背景音乐，所述音频节目中背景音乐的风格向量是通过编码所述音频节目中背景音乐得到的；

所述云端融合调整后的所述完播率最大的音频广告中的对象声音，以及调整后的所述完播率最大的音频广告中背景音乐，得到与所述目标广告槽位匹配的音频广告。
根据权利要求1-5任一项所述的方法，其特征在于，所述云端接收客户端发送的广告请求之前，所述方法还包括：

所述云端基于所述音频节目在语音状态下的时域信息，以及所述音频节目转换为文本后的文本内容，确定至少一个广告槽位；

所述云端对所述至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到所述每个广告槽位的向量表示。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述云端将所述音频节目、所述每个广告槽位的标识和所述每个广告槽位的向量表示关联存储。
根据权利要求6或7所述的方法，其特征在于，所述云端基于所述音频节目在语音状态下的时域信息，以及所述音频节目转换为文本后的文本内容，确定至少一个广告槽位，包括：

所述时域信息为振幅时，若所述音频节目在语音状态下的振幅连续低于振幅阈值的时长超过第一阈值，则所述云端将所述振幅连续低于振幅阈值的时长确定为第一基础广告槽位；

若所述音频节目转换后的文本内容中相邻两个词的时间间隔大于第二阈值，则所述云端将所述相邻两个词的时间间隔确定为第二基础广告槽位，所述相邻两个词的时间间隔时通过文本转换时每个词的时间戳确定的；

所述云端从所述第一基础广告槽位和所述第二基础广告槽位的并集中确定所述至少一个广告槽位。
根据权利要求8所述的方法，其特征在于，所述云端从所述第一基础广告槽位和所述第二基础广告槽位的并集中确定所述至少一个广告槽位，包括：

所述云端从所述第一基础广告槽位和所述第二基础广告槽位的并集中选择权重最大的至少一个广告槽位确定为所述音频节目的至少一个广告槽位，所述至少一个广告槽位中每个广告槽位的权重是通过所述每个广告槽位对应的标点符号和/或文本段的分割位置确定的。
根据权利要求1-9任一项所述的方法，其特征在于，所述用户特征包括用户画像，以及用户对历史音频节目的行为特征。
一种音频广告投放的方法，其特征在于，包括：

客户端播放音频节目时，向云端发送广告请求，所述广告请求中包括音频节目的信息、目标广告槽位的标识，以及用户特征，所述目标广告槽位为从所述音频节目中挖掘出的至少一个广告槽位中的一个；

所述客户端接收所述云端发送的与所述目标广告槽位匹配的音频广告；

所述客户端在播放所述音频节目到所述目标广告槽位时播放所述音频广告。
根据权利要求11所述的方法，其特征在于，所述用户特征包括用户画像，以及用户对历史音频节目的行为特征。
一种挖掘广告槽位的方法，其特征在于，包括：

云端获取待挖掘广告槽位的音频节目；

所述云端基于所述音频节目在语音状态下的时域信息，以及所述音频节目转换为文本后的文本内容，确定至少一个广告槽位；

所述云端对所述至少一个广告槽位中每个广告槽位前一段时间内的文本内容进行编码，以得到所述每个广告槽位的向量表示。
根据权利要求13所述的方法，其特征在于，所述方法还包括：

所述云端将所述音频节目、所述每个广告槽位的标识和所述每个广告槽位的向量表示关联存储。
根据权利要求13或14所述的方法，其特征在于，所述云端基于所述音频节目在语音状态下的时域信息，以及所述音频节目转换为文本后的文本内容，确定至少一个广告槽位，包括：

所述时域信息为振幅时，若所述音频节目在语音状态下的振幅连续低于振幅阈值的时长超过第一阈值，则所述云端将所述振幅连续低于振幅阈值的时长确定为第一基础广告槽位；

若所述音频节目转换后的文本内容中相邻两个词的时间间隔大于第二阈值，则所述云端将所述相邻两个词的时间间隔确定为第二基础广告槽位，所述相邻两个词的时间间隔时通过文本转换时每个词的时间戳确定的；

所述云端从所述第一基础广告槽位和所述第二基础广告槽位的并集中确定所述至少一个广告槽位。
根据权利要求15所述的方法，其特征在于，所述云端从所述第一基础广告槽位和所述第二基础广告槽位的并集中确定所述至少一个广告槽位，包括：

所述云端从所述第一基础广告槽位和所述第二基础广告槽位的并集中选择权重最大的至少一个广告槽位确定为所述音频节目的至少一个广告槽位，所述至少一个广告槽位中每个广告槽位的权重是通过所述每个广告槽位对应的标点符号和/或文本段的分割位置确定的。
一种云端装置，其特征在于，包括：通信接口、处理器和存储器，所述通信接口和所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述云端装置执行如权利要求1至10中任一项所述的方法，或者执行如权利要求13至16中任一项所述的方法。
一种客户端，其特征在于，包括：收发器、处理器和存储器，所述收发器和所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述客户端执行如权利要求11或12所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至16中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机设备上运行时，使得所述计算机设备执行如权利要求1至16中任一项所述的方法。
一种芯片系统，其特征在于，所述芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从云端装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，云端装置执行如权利要求1至10中任一项所述的方法，或者执行如权利要求13至16中任一项所述的方法。
一种芯片系统，其特征在于，所述芯片系统包括一个或多个接口电路和一个或多个处理器；接口电路和处理器通过线路互联；接口电路用于从客户端的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，客户端执行如权利要求11或12所述的方法。
一种音频广告系统，其特征在于，包括：客户端和云端，所述云端用于执行权利要求1-10任一项所述的方法，所述客户端用于执行权利要求11或12所述的方法