WO2019086044A1

WO2019086044A1 - 音频文件处理方法、电子设备及存储介质

Info

Publication number: WO2019086044A1
Application number: PCT/CN2018/114179
Authority: WO
Inventors: 赖春江
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-11-06
Filing date: 2018-11-06
Publication date: 2019-05-09
Also published as: US11538456B2; US20200234689A1; CN108305636B; CN108305636A

Abstract

本申请公开了音频文件处理方法、电子设备及存储介质。该方法由电子设备执行，包括：从第一音频文件中提取出至少一个音频分段；从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，并确定每个待替换音频分段在所述第一音频文件中的时间帧信息；及，针对每个待替换音频分段，获取待配音的音频数据，根据所述时间帧信息将该待替换音频分段内的数据替换为所述音频数据，得到第二音频文件。

Description

音频文件处理方法、电子设备及存储介质

本申请要求于2017年11月6日提交中国专利局、申请号为201711076391.5、申请名称为“一种音频文件处理方法及装置”的中国专利申请的优先权。

技术领域

本申请涉及语音处理技术领域，特别涉及音频文件处理方法、电子设备及存储介质。

发明背景

目前，用户在观看电影、电视剧等视频或者听书、听广播等音频文件时，文件内的声音是事先录好的，用户无法自由选择其中主演的声音或者主讲人的声音，因此，不能满足用户的个人喜好。

而在影视剧制作或者录音过程中，配音是一个耗时、费力的过程。以影片为例，目前针对主演角色的配音，主要通过人工配音实现，通过影片的后期处理将人工录入的声音合成影片中。但是，整个过程的自动化程度不高，耗时费力，导致人力成本和时间成本比较高，降低了音频处理设备的资源利用率。

发明内容

有鉴于此，本申请实施例提供了音频文件处理方法、电子设备及存储介质，提供了一种自动化配音的方案，能够提升音频替换的时间效率，消耗较少的内存资源，提高音频文件处理装置的资源利用率。

具体地，本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种音频文件处理方法，由电子设备执行，所述方法包括：

从第一音频文件中提取出至少一个音频分段；

从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，并确定每个待替换音频分段在所述第一音频文件中的时间帧信息；及，

针对每个待替换音频分段，获取待配音的音频数据，根据所述时间帧信息将该待替换音频分段内的数据替换为所述音频数据，得到第二音频文件。

本申请实施例还提供了一种电子设备，包括处理器和存储器，所述存储器中存储可被所述处理器执行的指令，当执行所述指令时，所述处理器用于：

从第一音频文件中提取出至少一个音频分段；

从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段；

确定每个待替换音频分段在所述第一音频文件中的时间帧信息；

本申请实施例还提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上所述的方法。

附图简要说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例所涉及的实施环境示意图；

图2为本申请一个实施例中音频文件处理方法的流程示意图；

图3a为本申请一个实施例中客户端发起语音替换请求的界面示意图；

图3b为本申请另一个实施例中客户端发起语音替换请求的界面示意图；

图4为本申请另一个实施例中音频文件处理方法的流程示意图；

图5为本申请一个实施例中候选时间帧信息的结构示意图；

图6为本申请又一个实施例中音频文件处理方法的流程示意图；

图7为本申请一个实施例中音频文件处理装置的结构示意图；

图8为本申请另一个实施例中音频文件处理装置的结构示意图；

图9为本申请一个实施例中电子设备的结构示意图。

实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一个实施例所涉及的实施环境示意图。如图1所示，在自动配音系统100中包括音频文件处理装置110、网络120、终端设备130以及用户140。其中，音频文件处理装置110包括处理器和存储器，本申请中的方法实施例由处理器执行存储在存储器中的指令来执行。

具体地，音频文件处理装置110包括源文件数据库111、音频样本数据库112、音效管理数据库113和音频替换处理单元114。终端设备130上安装有客户端130-1。用户140登录客户端130-1后可以观看视频或者听取音频。

在本申请的实施例中，源文件数据库111存储有待替换的源视频文件或者源音频文件。音频样本数据库112中存储有用于替换的各类声音样本，例如预先采集的标准男音、标准女音、明星的声音等；音效管理数据库113中设置、存储各种音频风格、情绪类型以及相应的处理模块。

用户140登录到客户端130-1后，观看视频或者听取音频时，希望替换目标角色(如主演或者主讲人)的声音，此时在终端130上输入操作，发起针对目标角色的语音替换请求。客户端130-1向音频文件处理装置110发送该语音替换请求，音频替换处理单元114基于该语音替换请求从源文件数据库111中获取源视频文件或者源音频文件，从音频样本数据库112中获取音频样本，生成待配音的音频数据，执行音频替换处理，输出替换后的视频/音频文件，即重新配音后的文件，将其返回给客户端130-1。在执行音频替换之前，还可以调用音效管理数据库113中相应的音效处理模块对音频数据进行滤波处理。

其中，音频文件处理装置110可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。网络120可以为无线或有线的形式将音频文件处理装置110和终端设备130进行相连。终端设备130可以为智能终端，包括智能电视、智能手机、平板电脑、膝上型便携计算机等。

图2为本申请一个实施例中音频文件处理方法的流程示意图。该方法可以应用于音频文件处理装置或者服务器等电子设备。该方法包括以下步骤。

步骤201，从第一音频文件中提取出至少一个音频分段。

其中，第一音频文件为进行音频替换之前的源文件。根据场景的不同，获取第一音频文件的方式有如下两种：

一，从客户端接收针对源视频文件中目标角色的语音替换请求，根据语音替换请求从源视频文件中分离出第一音频文件。

对应的应用场景是用户通过客户端观看视频，如电影、电视剧、娱乐节目等。语音替换请求中携带有源视频文件的标识以及目标角色的标识。

图3a为本申请一个实施例中客户端发起语音替换请求的界面示意图。如图3a所示，在界面310上显示“电视剧：琅琊榜第3集”的播放画面，用户点击播放按钮311后观看该集电视剧，312为进度控制按钮。当用户对某个主演的声音不满意，希望替换该主演的声音时，在界面310上点击鼠标右键，弹出窗口313，在该窗口中选择希望替换声音的主演，例如，选择替换主演“胡**”的声音。此时，客户端向音频文件处理装置发送语音替换请求，该请求中包括《琅琊榜》第3集的电视剧标识以及目标角色“胡**”的标识。

音频文件处理装置接收到语音替换请求后，根据该请求中电视剧的标识获得源视频文件，然后从源视频文件中分离出第一音频文件。例如，读取整个视频文件，通过转码的方式，抽取出其中的纯音频文件作为第一音频文件。

二，从客户端接收针对源音频文件中目标角色的语音替换请求，将源音频文件确定为第一音频文件。

此时对应的应用场景是用户通过客户端听取音频，如听书、听讲座、听网络课程等。语音替换请求中携带有源音频文件的标识以及目标角色的标识。

具体应用时，考虑到该场景中目标角色为主讲人，通常主讲人的声音在音频文件中是唯一的人声，因此，语音替换请求可以仅携带有源音频文件的标识。

图3b为本申请另一个实施例中客户端发起语音替换请求的界面示意图。如图3b所示，在界面320上显示“听书：三国演义第8回”的播放界面，用户点击播放按钮321后收听该音频，322为进度控制按钮。当用户希望替换主讲人的声音时，在界面320上点击鼠标右键，弹出窗口323，在该窗口中选择选项：“替换主讲人的声音”。此时，客户端向音频文件处理装置发送携带有“听书：三国演义第8回”标识的语音替换请求。

音频文件处理装置接收到语音替换请求后，根据该请求中音频文件的标识获得源音频文件作为第一音频文件。

此外，从第一音频文件中提取音频分段时，可以对第一音频文件内的数据进行语音检测；将检测到语音的一部分连续数据作为一个音频分段。例如，通过检测音频数据中声波能量的波动来判断语音的出现和消失，当检测到语音出现时的时间点作为起始时刻，当检测到语音消失时的时间点作为终止时刻，起始时刻和终止时刻之间的连续音频数据作为一个音频分段。

步骤202，从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，并确定每个待替换音频分段在第一音频文件中的时间帧信息。

此步骤中，从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，具体包括如下两个步骤：

步骤2021，提取出每个音频分段的音频特征。

在具体应用时，可以采用机器学习的方式实现音频特征的提取。具体地，将每个音频分段输入到卷积神经网络进行训练，获得每个音频分段的音频特征。其中，音频特征包括音色、频率、性别、情绪、声音波峰距离中的任意一项或几项。

通常，卷积神经网络包括多层处理，例如有卷积层、池化层、全连接层和输出层。其中，卷积层中设置有卷积矩阵作为过滤器，能够过滤出音频分段中的音频特征，或者称之为音频指纹。在实际应用时，可以设计多个卷积层进行深度学习，可以提取出多维的复合音频特征。

或者，也可以使用基于深度学习的长短期记忆(LSTM)模型进行训练，通过记忆和关联，适合对长音频文件进行音频特征的提取。

步骤2022，根据音频特征从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段。

在具体应用时，基于目标角色建立二分类模型；将每个音频分段以及该音频分段的音频特征输入到二分类模型，基于逻辑回归算法进行训练，根据训练结果确定至少一个待替换音频分段。

考虑到在音频文件中对于主演与配角间的识别或者主讲人和背景声音之间的识别，属于0-1关系，符合二分类模型。因此，建立二分类模型时，可以将目标角色设置为1，非目标角色设置为0。对目标角色的声音进行识别时，可以采用基于逻辑回归的机器学习算法进行二分类模型训练。

步骤203，针对每个待替换音频分段，获取待配音的音频数据，根据时间帧信息将该待替换音频分段内的数据替换为音频数据，得到第二音频文件。

此步骤中，时间帧信息包括时长，在获取待配音的音频数据时，可以根据时长从预设的台词文本信息中确定出该待替换音频分段所对应的待替换台词；根据待替换台词和预设的音频样本数据生成待配音的音频数据。

这样，待替换音频分段内的数据与待配音的音频数据在时长上是一致的，将两者数据进行替换，即得到重新配音后的第二音频文件。这样，从第一音频文件到第二音频文件，在时间帧上是一致的，但是所包含的音频数据进行了替换。

本实施例中，通过从第一音频文件中提取出至少一个音频分段，从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，并确定每个待替换音频分段在第一音频文件中的时间帧信息，以及针对每个待替换音频分段，获取待配音的音频数据，根据时间帧信息将该待替换音频分段内的数据替换为音频数据，得到第二音频文件，提供了一种自动化配音的方案，达到了自动替换目标角色声音的目的，相比人工配音的方法，若有X个目标角色、Y个替换的音频效果、时间成本为T，总的成本为X*Y*T，而本申请实施例不涉及人力因素，通过机器的并行和处理，整体的成本仅为T，因此大大节省了配音的人力成本和时间成本，并且满足了用户对个性化声音的需求，提高了配音设备的资源利用率。

图4为本申请另一个实施例中音频文件处理方法的流程示意图,该方法可以由音频文件处理装置或者服务器等电子设备执行。如图4所示，包括如下步骤：

步骤401，基于短句划分的原则从第一音频文件中提取出至少一个音频分段，并确定每个音频分段的第一候选时间帧信息。

根据语言的表达习惯，短句是指结构简单、词语较少的句子。长句是指结构复杂、词语较多的句子。通常，在完整的一个长句中包括若干个短句，通过短暂的停顿连接上下两个短句。那么，在从第一音频文件中提取音频分段时，可以基于短句划分的原则进行提取，每个音频分段对应一个短句。

每个音频文件对应一个时间轴，在提取音频分段的同时，确定出每个音频分段的第一候选时间帧信息。所谓的时间帧信息用于表征该音频分段在时间轴上的时间分段信息，包括一个音频分段在时间轴上的起始时刻、或者起始时刻和终止时刻、或者起始时刻和时长等。

提取出的多个音频分段及对应的第一候选时间帧信息将存储在音频文件处理装置或者服务器等电子设备中，以便用于后续的替换操作。

图5为本申请一个实施例中候选时间帧信息的结构示意图。如图5所示，第一候选时间帧信息510包括6个音频分段的起始时刻，由时间轴上的黑色三角标识，在方框500给出了对应的台词信息。这6个音频分段分别对应一个短句，即“策马迎风”、“看人生起伏”、“啸歌书景”、“笑天地荒老”、“以梦为马”及“驰骋流年”，对应的起始时刻为0分10秒、0分12秒、0分14.5秒、0分17秒、0分20.8秒、0分22秒。

步骤402，从第一音频文件中提取出基于长句的第二候选时间帧信息。

此步骤和上述步骤401可以是并行的。提取的原则是基于长句划分，所谓的长句是指由若干个短句组合而成的句子。提取的方法可以与步骤201中描述的方法相同。由于此步骤的目标是获取第二候选时间帧信息，因此，可以不存储与长句相对应的音频分段。

在图5所示的实施例中，第二候选时间帧信息520包括3个长句对应的3个(起始时刻、时长)信息，具体为(0分9.43秒、3.50秒)、(0分14.20秒、4.95秒)和(0分20.35秒、3.95秒)。

步骤403，预先设置包括第三候选时间帧信息的台词文本信息。

此步骤和上述步骤401、步骤402可以都是并行的。在制作音频文件过程中，会预先设置好台词文本信息，该台词文本信息中包括台词以及对应的第三候选时间帧信息。第三候选时间帧信息对应的台词可以为短句，也可以为长句。

在图5所示的实施例中，第三候选时间帧信息530包括3个长句对应的3个起始时刻，分别是0分10秒、0分15秒和0分20秒。

步骤404，根据一个或多个候选时间帧信息确定每个待替换音频分段的时间帧信息。

在进行音频替换时，时间帧信息决定了替换的时间位置，从而决定了替换的准确性。根据步骤401-403中获取到的各种可能的候选时间帧信息，确定的方式具体分为以下几种情况：

1)根据第一候选时间帧信息确定时间帧信息。

第一候选时间帧信息是在提取音频分段时获得的。那么，在一个实施例中，可以将第一候选时间帧信息直接作为时间帧信息。

在另一个实施例中，考虑到提取音频分段时在时间上可能具有一定的偏差，可以预先估计出提取音频分段时产生的时间偏差，然后在确定时间帧信息时根据该时间偏差进行补偿。例如，第一候选时间帧信息中包括N个音频分段的起始时刻，其中，第i个音频分段的起始时刻为t1 _i，i＝1,…N，那么时间帧信息中第i个音频分段的起始时刻t0 _i＝t1 _i+Δoffset。其中，Δoffset为时间偏差，其数值可以为正值或者为负值。

2)根据第一候选时间帧信息和第二候选时间帧信息确定时间帧信息。

在一个实施例中，考虑到第二候选时间帧信息作为单独的时间数据，在抽取时精度可能更高，此时可以将第二候选时间帧信息直接作为时间帧信息。

在另一个实施例中，根据第二候选时间帧信息对第一候选时间帧信息进行校正，确定时间帧信息。考虑到起始时刻和时长是相关联的，校正时可以分别从这两个角度进行校正，具体包括如下三种方式。

方式一，基于第二候选时间帧信息中的起始时刻对第一候选时间帧信息中的起始时刻进行校正。

首先，确定出第二候选时间帧信息与第一候选时间帧信息中相对应的两个起始时刻；取两个起始时刻的均值、最大值或者最小值为时间帧信息中的起始时刻。此处的相对应是指两个起始时刻对应了台词中相同的位置。

若第二候选时间帧信息中包括M个音频分段的起始时刻，其中，第j个音频分段的起始时刻为t2 _j，j＝1,…M。以图5所示的实施例为例，第一候选时间帧信息中第一个起始时刻t1 ₁＝10秒，第二候选时间帧信息中第一个起始时刻t2 ₁＝9.43秒，那么，时间帧信息中第i个音频分段的起始时刻取为二者的均值，即t0 ₁＝(t1 ₁+t2 ₁)/2＝9.715秒。

方式二，基于第二候选时间帧信息中的时长对第一候选时间帧信息中的起始时刻进行校正。

首先，确定出第二候选时间帧信息的时长与第一候选时间帧信息中相对应的两个起始时刻；调整两个起始时刻中的任一个以保证两个起始时刻之间的差大于时长。

若第二候选时间帧信息中包括M个音频分段的时长，其中，第j个音频分段的时长为Δt2 _j，j＝1,…M，若确定出Δt2 _j对应第一候选时间帧信息中两个起始时刻为t1 _i和t1 _i+1，则判断是否满足条件

t1 _i+1-t1 _i>Δt2 _j； (1)

若不满足，则减小t1 _i或者增加t1 _i+1直到满足上述条件。

方式三，基于第二候选时间帧信息中的时长对第一候选时间帧信息中的时长进行校正。

首先，确定出第二候选时间帧信息的时长与第一候选时间帧信息中相对应的一个或多个时长；将对应相同台词长度的时长中的最大值为作为时间帧信息中的时长。

在具体应用时，考虑到配音时的时长是可变的，可以取两种候选时间帧信息中时长的最大值。若第一候选时间帧信息中包括N个音频分段的时长，其中，第i个音频分段的时长为Δt1 _i，i＝1,…N。若确定出Δt2 _j对应第一候选时间帧信息中两个时长为Δt1 _i和Δt1 _i+1，判断是否满足条件

Δt1 _i+Δt1 _i+1<Δt2 _j； (2)

若满足，则可以增加Δt1 _i或者Δt1 _i+1的数值以满足上述条件。

在选择使用上述哪种校正的方式时，可以根据第一候选时间帧信息和第二候选时间帧信息中所包含的具体信息来决定，即根据起始时刻和时长的数量比例来选择。若起始时刻的数量多，则对起始时刻进行校正；反之，对时长进行校正。或者，考虑到时长可以由相邻的两个起始时刻限定，起始时刻的数值更加重要，则优选上述方式一或二。

3)根据第一候选时间帧信息和第三候选时间帧信息确定时间帧信息。

在一个实施例中，考虑到第三候选时间帧信息来源于台词文本信息，表征了标准的时间数据，此时可以将第三候选时间帧信息直接作为时间帧信息。

在另一个实施例中，当仅依赖台词文本信息不够可靠时，可以根据第三候选时间帧信息对第一候选时间帧信息进行校正，确定时间帧信息。具体的校正方法可以参照上述步骤4042中的描述，将第三候选时间帧信息代替第二候选时间帧信息，在此不再赘述。

4)根据第一候选时间帧信息、第二候选时间帧信息和第三候选时间帧信息确定时间帧信息。

此步骤中，可以根据第二候选时间帧信息和第三候选时间帧信息对第一候选时间帧信息进行校正，确定时间帧信息。

由这三种候选时间帧信息确定时间帧信息时，可以参照上述步骤4042中的三种方式进行校正。需要确定的是三种候选时间帧信息中相对应的起始时刻和时长数据。所谓的相对应是指对应相同的台词位置。

例如，参照上述方式一，确定出三种候选时间帧信息相对应的三个起始时刻；取三个起始时刻的均值、最大值或者最小值为时间帧信息中的起始时刻。或者，可以选择三个起始时刻中数值最为接近的两个起始时刻，然后取这两个起始时刻的均值、最大值或者最小值为时间帧信息中的起始时刻。

例如，参照上述方式二，确定第二候选时间帧信息与第三候选时间帧信息中较大的时长，然后，调整第一候选时间帧信息中相对应的两个起始时刻，以保证两个起始时刻之间的差大于该较大的时长。

例如，参照上述方式三，确定三种候选时间帧信息中相对应的多个时长；将对应相同台词长度的时长中的最大值为作为时间帧信息中的时长。

步骤405，从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段。

识别的方法可以参照上述步骤202的描述，在此不再赘述。

步骤406，针对每个待替换音频分段，获取待配音的音频数据，根据时间帧信息将该待替换音频分段内的数据替换为音频数据，得到第二音频文件。

替换的方法可以参照上述步骤203的描述，在此不再赘述。

在上述实施例中，在确定用于音频替换时的时间帧信息时，综合考虑了三种候选的信息，分别来源于音频分段的短句提取(即第一候选时间帧信息)、整个音频文件的长句提取(即第二候选时间帧信息)和台词文本信息(即第三候选时间帧信息)，其中，第二候选时间帧信息和第三候选时间帧信息作为单独的时间特征进行优化，这种附加的冗余时间信息有利于确定音频分段在时间轴上的精准位置，从而保证了音频特征替换的准确性。

图6为本申请一个实施例中音频文件处理方法的流程示意图。该方法可以由音频文件处理装置或者服务器等电子设备执行,是对源视频文件进行主演的声音替换处理。具体包括以下步骤。

步骤601，从客户端接收针对源视频文件中目标角色的语音替换请求，根据语音替换请求从源视频文件中分离出第一音频文件。

如步骤201中的方式一所述，语音替换请求中携带有源视频文件的标识以及目标角色的标识。音频文件处理装置接收到语音替换请求后，根据该请求中源视频文件的标识获得源视频文件，然后从源视频文件中分离出第一音频文件。

步骤602，基于短句划分的原则从第一音频文件中提取出至少一个音频分段，并确定每个音频分段的第一候选时间帧信息。

步骤603，基于长句划分的原则从第一音频文件中提取出第二候选时间帧信息。

步骤604，预先设置包括第三候选时间帧信息的台词文本信息。

步骤605，根据一个或多个候选时间帧信息确定每个待替换音频分段的时间帧信息。

步骤602-605的处理方法可以参照上述步骤401-404的描述，在此不再赘述。

步骤606，对音频分段进行抽样，确定二分类模型的训练数据和测试数据。

在实际应用时，由于音频片段的数量可能比较多，不可能把所有电视剧的视频都进行训练。考虑覆盖度的要求，可以采用抽样的方法选择训练数据和测试数据用于二分类模型的训练。

例如，按照6：4的比例进行抽样，即所有的音频分段中，60％的数据用于训练，40％的数据用于测试。抽样过程可以采用分层抽样，例如，整个电视剧包括40集，每集中都抽取出一定量的训练数据，使得训练数据能够覆盖所有的剧集。

步骤607，使用二分类模型从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，并进行评分优化。

如步骤202所述，考虑到在音频文件中对于主演与配角间的识别0-1关系，即主演为1，配角为0，符合二分类模型。因此，建立二分类模型，在对主演的声音进行识别时，可以采用基于逻辑回归的机器学习算法进行二分类模型训练。具体应用时，逻辑回归作为成熟的机器学习算法，可以集成于spark mllib中，可以试用spark进行并发训练。

此外，二分类模型训练的输出结果为该音频分段为0或1的可能性。由于基于机器学习的训练结果可能出现误判的可能性，可以采用AUC(Area Under roc Curve)模型进行评分，优化整个训练过程。即对于每一个音频片段，都进行0-1打分，其中，0标识未命中主演的音频分段，1标识命中主演的音频分段。本申请实施例中的方案考虑标签为1的打分情况，要求AUC达到的准确性要求为0.9以上，即判别为1的准确率需要达到90％以上。当达不到该要求时，则重新进行训练。

其中，AUC模型是一种用来度量分类模型好坏的一个标准，其基于ROC(Receiver Operating Characteristic)分析，主要分析工具是一个画在二维平面上的ROC曲线，AUC的取值为处于ROC曲线下方的那部分面积。

步骤608，针对每个待替换音频分段，根据预设的台词文本信息和音频样本数据生成待配音的音频数据。

当时间帧信息包括时长时，可以根据时长从预设的台词文本信息中确定出该待替换音频分段所对应的待替换台词；根据待替换台词和预设的音频样本数据生成待配音的音频数据。例如，音频样本数据为标准男音，对应待替换台词中的每个字，将标准男音的样本数据进行组合，获得待配音的音频数据。

步骤609，从客户端接收针对音频效果的处理请求，根据处理请求对音频数据的音频效果进行调整。

具体地，音频效果包括音频风格和音频情绪。用户的处理请求中将体现出希望替换的音频是在声音的风格上有所改变，或者是在主演的情绪上有所改变。

所谓的音频风格包括声音屏蔽、声音扭曲(如抬升、下降、去除、变换等)、女音替换成男音、男音替换成女音、明星声音、特殊声音(鬼畜声音、魔音、海豚音)等等有特色的声音风格。

当音频效果指音频的风格时，基于处理请求从预先设置的至少一个音频风格中选择出目标音频风格；根据目标音频风格对音频数据进行滤波。例如，用户的处理请求是将主演的声音由男音替换成女音，在预先设置的音频风格中标准女音包括多种音高的女音，那么从多个标准女音中选择一个作为目标音频风格，对音频数据进行滤波。

所谓的音频情绪是指主演在表达台词时表现出来的个人情感，例如愤怒、愉快、悲伤等，对应到音频上将会出现声音的波动成分。

当音频效果指音频的情绪时，基于音频情绪请求从预先设置的至少一种音频情绪中选择出目标音频情绪；确定目标音频情绪对应的语音频谱分布；根据语音频谱分布对所述音频数据进行滤波。例如，用户感觉到主演的表演不够情绪化，处理请求是增加主演的悲伤情绪，在预先设置的音频情绪中包括多种程度的悲伤情绪以及对应的语音频谱分布，那么从多个悲伤情绪中选择一个作为目标情绪，对音频数据进行滤波。

在其他实施例中，也可以不基于用户的处理请求，而是根据对音频样本数据的分析，在生成的音频数据中增加音频风格或者情绪的滤波处理。

步骤610，根据时间帧信息将待替换音频分段内的数据替换为音频数据，得到第二音频文件。

通过上述实施例，考虑到用户对影视剧中声音的个性化需求，在配音的同时，加入对音频风格或者情绪的处理，为现有配音行业中枯燥、单一的配音引入了声音的各种可能性，能够在自动配音的同时提高丰富的音频效果，可以满足用户的个性化需求。

图7为本申请一个实施例中音频文件处理装置的结构示意图。如图7所示，音频文件处理装置700包括：

提取模块710，用于从第一音频文件中提取出至少一个音频分段；

识别模块720，用于从提取模块710提取出的至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段；

时间帧确定模块730，用于确定识别模块720识别出的每个待替换音频分段在第一音频文件中的时间帧信息；

获取模块740，用于针对识别模块识720别出的每个待替换音频分段，获取待配音的音频数据；及，

替换模块750，用于针对识别模块720识别出的每个待替换音频分段，根据时间帧确定模块730确定出的时间帧信息将该待替换音频分段内的数据替换为获取模块740得到的音频数据，得到第二音频文件。

根据上述实施例，提供了一种自动化配音的方案，达到了自动替换目标角色声音的目的；相比人工配音的方法，若有X个目标角色、Y个替换的音频效果、时间成本为T，总的成本为X*Y*T，而本申请实施例不涉及人力因素，通过机器的并行和处理，整体的成本仅为T，因此大大节省了配音的人力成本和时间成本，并且满足了用户对个性化声音的需求，提高了配音设备的资源利用率。

图8为本申请另一个实施例中音频文件处理装置的结构示意图。如图8所示，在图7所示的音频文件处理装置700基础之上，音频文件处理装置800进一步包括：

第一接收模块760，用于从客户端接收针对源视频文件中目标角色的语音替换请求；

音频文件确定模块770，用于根据第一接收模块760接收到的语音替换请求从源视频文件中分离出第一音频文件。

在一个实施例中，音频文件处理装置800进一步包括：

第一接收模块760，用于从客户端接收针对源音频文件中所述目标角色的语音替换请求；

音频文件确定模块770，用于将第一接收模块760接收到的语音替换请求中标识的源音频文件确定为第一音频文件。

在一个实施例中，识别模块720包括：

特征提取单元721，用于提取出每个音频分段的音频特征；

识别单元722，用于根据特征提取单元721提取出的音频特征从至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段。

在一个实施例中，提取模块710用于，基于短句划分的原则从第一音频文件中提取出至少一个音频分段，并确定每个音频分段的第一候选时间帧信息；

时间帧确定模块730用于，根据提取模块710确定的第一候选时间帧信息确定时间帧信息。

在一个实施例中，音频文件处理装置800进一步包括：

设置模块780，用于预先设置包括第三候选时间帧信息的台词文本信息；

提取模块710进一步用于，从第一音频文件中提取出基于长句的第二候选时间帧信息；

时间帧确定模块730用于，根据提取模块710提取出的第二候选时间帧信息和设置模块780设置的第三候选时间帧信息对第一候选时间帧信息进行校正，确定时间帧信息。

在一个实施例中，时间帧信息包括时长，获取模块740用于，根据时长从预设的台词文本信息中确定出该待替换音频分段所对应的待替换台词；根据待替换台词和预设的音频样本数据生成待配音的音频数据。

在一个实施例中，音频文件处理装置800进一步包括：

第二接收模块790，用于从客户端接收针对音频效果的处理请求；

音效处理模块810，用于根据第二接收模块790接收到的处理请求对获取模块740获取的音频数据的音频效果进行调整。

根据上述实施例，第二候选时间帧信息和第三候选时间帧信息作为单独的时间特征进行优化，这种附加的冗余时间信息有利于确定音频分段在时间轴上的精准位置，从而保证了音频特征替换的准确性。此外，考虑到用户对影视剧中声音的个性化需求，在配音的同时，加入对音频风格或者情绪的处理，为现有配音行业中枯燥、单一的配音引入了声音的各种可能性，能够在自动配音的同时提高丰富的音频效果，可以满足用户的个性化需求。

图9为本申请一个实施例中电子设备的结构示意图。如图9所示，电子设备900包括：处理器910、存储器920、端口930以及总线940。处理器910和存储器920通过总线940互联。处理器910可通过端口930接收和发送数据。其中，

处理器910用于执行存储器920存储的机器可读指令模块。

存储器920存储有处理器910可执行的机器可读指令模块。处理器910可执行的指令模块包括：提取模块921、识别模块922、时间帧确定模块923、获取模块924和替换模块925。其中，

提取模块921被处理器910执行时可以为：从第一音频文件中提取出至少一个音频分段；

识别模块922被处理器910执行时可以为：从提取模块921提取出的至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段；

时间帧确定模块923被处理器910执行时可以为：确定识别模块922识别出的每个待替换音频分段在第一音频文件中的时间帧信息；

获取模块924被处理器910执行时可以为：针对识别模块922识别出的每个待替换音频分段，获取待配音的音频数据；

替换模块925被处理器910执行时可以为：针对识别模块922识别出的每个待替换音频分段，根据时间帧确定模块923确定出的时间帧信息将该待替换音频分段内的数据替换为获取模块924得到的音频数据，得到第二音频文件。

在一个实施例中，处理器910可执行的指令模块进一步包括第一接收模块926和音频文件确定模块927，其中，

第一接收模块926被处理器910执行时可以为：从客户端接收针对源视频文件中目标角色的语音替换请求；

音频文件确定模块927被处理器910执行时可以为：根据第一接收模块926接收到的语音替换请求从源视频文件中分离出第一音频文件。

在另一个实施例中，第一接收模块926被处理器910执行时可以为：从客户端接收针对源音频文件中所述目标角色的语音替换请求；

音频文件确定模块927被处理器910执行时可以为：将第一接收模块926接收到的语音替换请求中标识的源音频文件确定为第一音频文件。

在一个实施例中，提取模块921被处理器910执行时可以为：基于短句划分的原则从第一音频文件中提取出至少一个音频分段，并确定每个音频分段的第一候选时间帧信息；

时间帧确定模块923被处理器910执行时可以为：根据提取模块921确定的第一候选时间帧信息确定时间帧信息。

在一个实施例中，处理器910可执行的指令模块进一步包括设置模块928，其中，

设置模块928被处理器910执行时可以为：预先设置包括第三候选时间帧信息的台词文本信息；

提取模块921被处理器910执行时可以为：从第一音频文件中提取出基于长句的第二候选时间帧信息；

时间帧确定模块923被处理器910执行时可以为：根据提取模块921提取出的第二候选时间帧信息和设置模块928设置的第三候选时间帧信息对第一候选时间帧信息进行校正，确定时间帧信息。

在一个实施例中，处理器910可执行的指令模块进一步包括第二接收模块929和音效处理模块931，其中，

第二接收模块929被处理器910执行时可以为：从客户端接收针对音频效果的处理请求；

音效处理模块931被处理器910执行时可以为：根据第二接收模块929接收到的处理请求对获取模块924获取的音频数据的音频效果进行调整，将调整后的音频数据用于替换模块925进行替换。

由此可以看出，当存储在存储器920中的指令模块被处理器910执行时，可实现前述各个实施例中提取模块、识别模块、时间帧确定模块、获取模块、替换模块、第一接收模块、音频文件确定模块、设置模块、第二接收模块和音效处理模块的各种功能。

上述电子设备实施例中，各个模块及单元实现自身功能的具体方法在方法实施例中均有描述，这里不再赘述。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

另外，本申请的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请。存储介质可以使用任何类别的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此，本申请还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本申请上述方法的任何一种实施例。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种音频文件处理方法，其特征在于，由电子设备执行，所述方法包括：

从第一音频文件中提取出至少一个音频分段；

从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段，并确定每个待替换音频分段在所述第一音频文件中的时间帧信息；及，

针对每个待替换音频分段，获取待配音的音频数据，根据所述时间帧信息将该待替换音频分段内的数据替换为所述音频数据，得到第二音频文件。
根据权利要求1所述的方法，进一步包括：

从客户端接收针对源视频文件中所述目标角色的语音替换请求；

根据所述语音替换请求从所述源视频文件中分离出所述第一音频文件。
根据权利要求1所述的方法，其中，所述从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段包括：

提取出每个音频分段的音频特征；

根据所述音频特征从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段。
根据权利要求3所述的方法，其中，所述根据所述音频特征从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段包括：

基于所述目标角色建立二分类模型；

将每个音频分段以及该音频分段的音频特征输入到所述二分类模型，基于逻辑回归算法进行训练，根据训练结果确定所述至少一个待替换音频分段。
根据权利要求1所述的方法，其中，所述从第一音频文件中提取出至少一个音频分段包括：

基于短句划分的原则从所述第一音频文件中提取出所述至少一个音频分段，并确定每个音频分段的第一候选时间帧信息；

所述确定每个待替换音频分段在所述第一音频文件中的时间帧信息包括：

根据所述第一候选时间帧信息确定所述时间帧信息。
根据权利要求5所述的方法，进一步包括：

从所述第一音频文件中提取出基于长句的第二候选时间帧信息；

所述根据所述第一候选时间帧信息确定所述时间帧信息包括：

根据所述第二候选时间帧信息对所述第一候选时间帧信息进行校正，确定所述时间帧信息。
根据权利要求5所述的方法，进一步包括：

预先设置包括第三候选时间帧信息的台词文本信息；

所述根据所述第一候选时间帧信息确定所述时间帧信息包括：

根据所述第三候选时间帧信息对所述第一候选时间帧信息进行校正，确定所述时间帧信息。
根据权利要求1所述的方法，其中，所述时间帧信息包括时长，所述获取待配音的音频数据包括：

根据所述时长从预设的台词文本信息中确定出该待替换音频分段所对应的待替换台词；

根据所述待替换台词和预设的音频样本数据生成所述待配音的音频数据。
根据权利要求1至8中任一项所述的方法，进一步包括：

从客户端接收针对音频效果的处理请求；

根据所述处理请求对所述音频数据的音频效果进行调整。
根据权利要求9所述的方法，其中，所述根据所述时间帧信息将该待替换音频分段内的数据替换为所述音频数据包括：

根据所述时间帧信息将该待替换音频分段内的数据替换为调整后的音频数据。
一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储可被所述处理器执行的指令，当执行所述指令时，所述处理器用于：

从第一音频文件中提取出至少一个音频分段；

从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段；

确定每个待替换音频分段在所述第一音频文件中的时间帧信息；

针对每个待替换音频分段，获取待配音的音频数据，根据所述时间帧信息将该待替换音频分段内的数据替换为所述音频数据，得到第二音频文件。
根据权利要求11所述的电子设备，其中，当执行所述指令时，所述处理器进一步用于：

提取出每个音频分段的音频特征；

根据所述音频特征从所述至少一个音频分段中识别出表征目标角色的至少一个待替换音频分段。
根据权利要求11所述的电子设备，其中，当执行所述指令时，所述处理器进一步用于：

基于短句划分的原则从所述第一音频文件中提取出所述至少一个音频分段，并确定每个音频分段的第一候选时间帧信息；

根据所述第一候选时间帧信息确定所述时间帧信息。
根据权利要求13所述的电子设备，其中，当执行所述指令时，所述处理器进一步用于：

预先设置包括第三候选时间帧信息的台词文本信息；

从所述第一音频文件中提取出基于长句的第二候选时间帧信息；

根据所述第二候选时间帧信息和所述第三候选时间帧信息对所述第一候选时间帧信息进行校正，确定所述时间帧信息。
根据权利要求11至14中任一项所述的电子设备，其中，当执行所述指令时，所述处理器进一步用于：

从客户端接收针对音频效果的处理请求；

根据所述处理请求对所述音频数据的音频效果进行调整。
一种计算机可读存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至10中任一项所述的方法。