WO2023093295A1

WO2023093295A1 - 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质

Info

Publication number: WO2023093295A1
Application number: PCT/CN2022/122553
Authority: WO
Inventors: 林炳怀; 王丽园
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-11-26
Filing date: 2022-09-29
Publication date: 2023-06-01
Also published as: EP4394759A1; CN114360504A; US20230306959A1

Abstract

一种基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质，该方法包括：获取给定文本的至少一个音素，并确定每个音素的音素特征（101）；获取对应给定文本的音频数据，并确定音频数据包括的每个音频帧的音频特征（102）；针对每个音频帧执行以下处理：对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到音频帧的融合特征（103）；基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻（104）。

Description

基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质

相关申请的交叉引用

本申请基于申请号为202111421900.X、申请日为2021年11月26日的中国专利申请提出，并要求中国专利申请的优先权，中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

越来越多的人工智能产品具备语音交互的功能，语音交互可以应用于各种语音评分系统，例如，语言教育应用的语言测试系统，口语考试系统等等，为了正常使用语音交互功能，需要将音素与文本进行对齐，并尽可能地提高对齐准确度，但是相关技术中无法准确将音素与文本进行对齐。

发明内容

本申请实施例提供一种基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质，能够提高音素的对齐的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的音频处理方法，包括：

获取给定文本的至少一个音素，并确定每个所述音素的音素特征；

获取对应所述给定文本的音频数据，并确定所述音频数据包括的每个音频帧的音频特征；

针对每个所述音频帧执行以下处理：对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到所述音频帧的融合特征；

基于每个所述音频帧的融合特征，确定每个所述音频帧对应的音素，并基于每个所述音频帧对应的音素，确定每个所述音素的起止时刻。

本申请实施例提供一种基于人工智能的音频处理装置，所述方法由电子设备执行，包括：

音素模块，配置为获取给定文本的至少一个音素，并确定每个所述音素的音素特征；

音频模块，配置为获取对应所述给定文本的音频数据，并确定所述音频数据包括的每个音频帧的音频特征；

融合模块，配置为针对每个所述音频帧执行以下处理：对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到所述音频帧的融合特征；

对齐模块，配置为基于每个所述音频帧的融合特征，确定每个所述音频帧对应的音素，并基于每个所述音频帧对应的音素，确定每个所述音素的起止时刻。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的基于人工智能的音频处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于被处理器执行时，实现本申请实施例提供的基于人工智能的音频处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的基于人工智能的音频处理方法。

本申请实施例具有以下有益效果：

通过本申请实施例基于音频特征确定出文本序列中每个音素的权重，再基于每个音素的权重将音素特征与音频特征与文本序列进行融合处理，得到融合特征，因此融合特征能够有效表征音频帧与音素之间的关系，再基于融合特征对音频中每个音频帧进行音素分类，可以有效提高分类准确度，从而提高音素对齐准确度。

附图说明

图1是本申请实施例提供的基于人工智能的音频处理系统的结构示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-3C是本申请实施例提供的基于人工智能的音频处理方法的流程示意图；

图4A-4D是本申请实施例提供的基于人工智能的音频处理方法的界面示意图；

图5是本申请实施例提供的基于人工智能的音频处理方法的流程示意图；

图6是本申请实施例提供的基于人工智能的音频处理方法的音素对齐模型的结构示意图；

图7是本申请实施例提供的基于人工智能的音频处理方法的数据流程示意图；

图8A-8C是本申请实施例提供的基于人工智能的音频处理方法的对齐时间矩阵；

图9是本申请实施例提供的音频编码器的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)语音识别技术：自动语音识别(ASR，Automatic Speech Recognition)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

2)隐马尔可夫模型(HMM，Hidden Markov Model)：是一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程。

3)最大似然估计：(MLE，Maximum Likelihood Estimation)，也称极大似然估计，是用来估计一个概率模型的参数的一种方法。

4)判别模型：在机器学习领域判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法。判别模型是一种基于概率理论的方法，已知输入变量x，判别模型通过构建条件概率分布P(y|x)预测y。

5)全连接(FC，Full Connection)：全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。

6)皮尔逊相关系数：在统计学中皮尔逊相关系数用于度量两个变量X和Y之间的线性相关，其值介于-1与1之间。

7)支持向量机(SVM，support vector machine)：在机器学习中常简称为支持向量网络，是在分类与回归分析中分析数据的监督式学习模型。

8)音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个发音动作作为一个音素，音素分为元音与辅音两大类，在本申请实施例中音素还包括静音音素，例如，某个音频帧是静音的，即该音频帧对应静音音素。

9)音素对齐，音素对齐指的是将音素与音频进行对齐，即确定出给定文本中每个音素的起止时间。

相关技术中音素对齐方式有两种，一种是不依赖于给定文本，一种是依赖于文本的，不依赖于文本的方式通常对音素边界进行分类，判断音频数据中某一音频帧的时间是否是音素边界，例如，采用维特比算法来区分发音段和非发音段，或者采用循环神经网络对音素边界进行分类，依赖于文本的方式通常采用HMM基于最大似然来得到最有可能的序列，或者采用判别模型，或者设计对齐函数并利用支持向量机进行音素对齐。

相关技术中基于HMM的对齐方式主要将音素边界判断作为隐藏状态，采用最大似然进行优化，没有直接显式地优化音素对齐，相关技术中其他音素对齐方式需要设计人工设计对齐函数并进行人工特征工程。

本申请实施例提出一种基于人工智能的音频处理方法，能够在不依赖于人工设计对齐函数的前提下基于包括注意力机制的神经网络自动学习音素序列与音频数据的映射关系，并在训练阶段显式优化损失函数，联合多任务进行训练，并在注意力处理阶段通过损失函数进行约束学习，有效提高音素对齐的准确度。

针对相关技术的上述问题，本申请实施例提供一种基于人工智能的音频处理方法、装置、电子设备、计算机程序产品和计算机可读存储介质，能够将音频特征与文本序列进行注意力机制计算得到融合特征，从而基于融合特征对音频中每帧进行音素分类，有效提高分类准确度，从而提高音素对齐准确度。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。

参见图1，图1是本申请实施例提供的基于人工智能的音频处理系统的结构示意图，音频处理系统可以用于口语考试场景，在音频处理系统中，终端400通过网络300连接服务器200，网络可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，音频处理系统的功能是基于服务器200中的各个模块实现的，在用户使用终端400的过程中，终端400接收用户针对给定文本的音频数据，终端400将音频数据以及给定文本发送至服务器200，服务器200确定给定文本中每个音素的音素特征以及音频数据中每个音频帧的音频特征，针对每个音频帧执行以下处理：对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻，将每个音素的起止时刻发送至终端400，以使终端400直接呈现每个音素的起止时刻，从而完成了音素对齐过程。

以音频处理系统应用于口语考试场景为例，口语考试题目要求用户使用英语跟读给定文本，终端400接收到用户对应给定文本的音频数据，终端400将音频数据发送至服务器200，服务器200对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到每个音频帧的融合特征，基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻，并发送至终端400，以使终端400直接呈现每个音素的起止时刻，响应于用户的评分操作，终端400可以显示针对每个音素的评分结果，参与跟读的用户与进行评分的用户可以是相同或者不同用户。

以音频处理系统应用于口语练习场景为例，口语练习题目要求用户使用英语跟读给定文本，终端400接收到用户对应给定文本的音频数据，终端400将音频数据发送至服务器200，服务器200对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到每个音频帧的融合特征，基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻，并发送至终端400，以使终端400直接呈现每个音素的起止时刻，从而想用于用户针对每个音素的播放操作，终端400可以单独播放对应音素的音频帧。

作为上述示例的服务器200进行音素对齐的替代方案，可以由终端对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到每个音频帧的融合特征，基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻，并直接呈现每个音素的起止时刻。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的音频处理方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如口语考试APP或者口语学习APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

接下来，说明本申请实施例提供的用于实施基于人工智能的音频处理方法的电子设备的结构，如前，本申请实施例提供的电子设备可以是图1中的服务器200。参见图2，图2是本申请实施例提供的服务器200的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的基于人工智能的音频处理装置可以采用软件方式实现，图2示出了存储在存储器250中的基于人工智能的音频处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：音素模块2551、音频模块2552、融合模块2553、对齐模块2554和训练模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

将结合本申请实施例提供的服务器200的示例性应用和实施，说明本申请实施例提供的基于人工智能的音频处理方法。

参见图6，图6是本申请实施例提供的基于人工智能的音频处理方法的音素对齐模型的结构示意图，音素对齐模型包括注意力融合网络、音素分类网络(对应第一任务)以及响度分类网络(对应第二任务)，注意力融合网络用于对音素特征以及音频特征进行融合处理，使得注意力融合网络输出的融合特征被对应第一任务的响度分类网络与对应第二任务的音素分类网络共享，注意力融合网络的输入是基于音频数据得到的音频特征以及基于给定文本得到的音素特征，注意力融合网络的输出是音频特征和音素特征的融合特征，再通过响度分类网络和音素分类网络分别对融合特征进行全连接处理，分别得到响度分类结果和音素分类结果，响度分类网络可以是全连接层的结构，音素分类网络也可以是全连接层的结构，但是两者的参数不同，第一任务是从多个候选音素中识别出某个音频帧的音素，第二任务是判断某个音频帧是否为静音音频帧。

参见图6，音素对齐模型包括注意力融合网络、音素分类网络(对应第一任务)以及响度分类网络(对应第二任务)，参见图7，图7是本申请实施例提供的基于人工智能的音频处理方法的数据流程示意图，音频编码器的输入是音频数据，音频编码器的输出是音频数据包括的每个音频帧的音频特征(向量形式)，音素编码器的输入是音素序列(给定文本)，音素编码器的输出是每个音素的音素特征(音素特征的数据形式是向量)，注意力融合网络的输入是音频编码器的输出以及音素编码器的输出，注意力融合网络的输出是音素特征与音频特征的融合特征，通过两个并列的音素分类网络以及响度分类网络分别对融合特征进行分类处理，音素分类网络输出每个音频帧属于每个候选音素的概率，响度分类网络输出每个音频帧属于每个响度类别的概率，响度类别包括静音以及非静音，例如，非静音的标识为1，静音的标识为0，候选音素为W、IH、L等等。

以由图1中的服务器200执行本申请实施例提供的基于人工智能的音频处理方法为例，说明本申请实施例提供的基于人工智能的音频处理方法。

参见图3A，图3A是本申请实施例提供的基于人工智能的音频处理方法的流程示意图，将结合图3A示出的步骤101-104进行说明。

在步骤101中，获取给定文本的至少一个音素，并确定每个音素的音素特征。

在一些实施例中，确定每个音素的音素特征是通过调用音素编码器实现的，音素编码器包括音素特性表示网络以及音素位置表示网络，步骤101中确定每个音素的音素特征，可以通过以下技术方案实现：针对每个音素执行以下处理：通过音素特性表示网络确定音素的特性表示特征，其中，特性表示特征用于表征音素的特性；通过音素位置表示网络确定音素的位置表示特征，其中，位置表示特征用于表征音素在对应文本单元中的位置；将位置表示特征与特性表示特征进行相加处理，得到音素的音素特征。

作为示例，音素特性表示网络和音素位置表示网络是并列关系，音素特性表示网络和音素位置表示网络均是卷积神经网络，两个卷积神经网络包括的卷积层的数目不同，且每个卷积层的参数也各不相同。通过音素特性表示网络中级联的多个卷积层对音素进行卷积处理，得到音素的特性表示特征，通过音素位置表示网络中级联的多个卷积层对音频帧进行卷积处理，得到音频帧的位置表示特性。

作为示例，不同语言所包含的音素不同，以英语为例，当给定文本为ever forget时，给定文本的音素包括EH1、V、ER、sp、F、R、G、EH、T，其中，EH1、V、ER、F、R、G、EH、T为各不相同的音素，sp表征静音音素，静音也是候选音素的其中之一。通过音素特性表示网络对每个音素进行编码，得到每个音素的特性表示特征，例如，图6所示的E(HH)，不同音素的特性表示特征不同，特性包括发音特性、含义特性等等，特性表示特征用于对不同音素进行区别，特性表示特征表征音素的特性。每个音素在对应的文本单元中具有四种位置可能性，文本单元是语句的最小单位，例如，在英语中，图6所示的给定文本(How are)的文本单元(How)是单词，当某个单词包含多个音素时，单词具有音素的开始位置(B)、中间位置(I)和结束位置(E)，当某个单词包含一个音素时，利用S表示该音素的位置，通过音素位置表示网络对音素在对应文本单元中的位置进行编码，得到每个音素的位置表示特征，位置表示特征表征音素在对应文本单元中的位置，例如，图6所示的E(B)，最终将每个音素的独特的特性表示特征(用于表征音素特性的向量)与位置表示特征(用于表征音素位置的向量)进行相加，得到最终的音素特征。通过这种音素编码方式能够有效表征每个音素的特性区别，并且还能够有效表征相同音素在不同位置的区别。

在步骤102中，获取对应给定文本的音频数据，并确定音频数据包括的每个音频帧的音频特征。

在一些实施例中，参见图9，图9是本申请实施例提供的音频编码器的结构示意图，图9示出的音频编码器包括多个级联的卷积网络以及归一化网络，步骤102中确定音频数据包括的每个音频帧的音频特征，可以通过以下技术方案实现：通过音频编码器包括的多个级联的卷积网络对至少一个音频帧进行特征提取处理，得到对应每个音频帧的卷积特征提取结果；通过音频编码器包括的归一化网络对每个音频帧的卷积特征提取结果进行归一化处理，得到每个音频帧的音频特征。

作为示例，基于音频编码器获取音频特征，通过多个级联的卷积网络将至少一个音频帧作为一个整体进行特征提取处理，若是存在多个音频帧时，多个卷积网络的输出是低频特征表示，例如，它对大约30毫秒的16千赫兹的音频数据进行编码，并且每隔设定时间的步长就会生成一个低频特征表示，从而得到每个音频帧的卷积特征提取结果，再通过归一化网络对每个音频帧的卷积特征提取结果进行归一化处理，得到每个音频帧的音频特征，音频编码器的结构可以为wav2vec的网络结构，音频编码器的参数是基于wav2vec的网络结构进行训练得到的。

wav2vec是一种卷积神经网络，卷积神经网络包括编码网络，编码网络是5层卷积结构，卷积神经网络还包括内容网络，内容网络是9层卷积结构。

在步骤103中，针对每个音频帧执行以下处理：对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到音频帧的融合特征。

在一些实施例中，步骤103是通过注意力融合网络实现的，注意力融合网络包括注意力层和融合层，步骤103中对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，可以通过以下技术方案实现：对音频特征进行查询向量变换处理，得到查询向量；对音素特征进行关键向量变换处理，得到关键向量；将查询向量以及关键向量的转置进行相乘处理，得到相乘结果；获取关键向量的维度的平方根；将相乘结果与平方根的比值确定为注意力特征；对注意力特征进行最大似然处理，得到对应音素的权重。基于音频帧的音频特征来获取对应每个音素的权重，可以获取音素与音频帧的关联信息，从而提高后续对齐的准确度。

作为示例，查询向量变换处理可以通过以下方式实施：将注意力层的第一参数Wq与音频特征进行相乘处理，可以得到查询向量Q，或者，将注意力层的第一参数Wq与音频特征进行相乘处理，得到第一相乘结果，将第一相乘结果与第四参数Bq相加，可以得到查询向量Q；关键向量变换处理可以通过以下方式实施：将注意力层的第二参数Wk与音频特征进行相乘处理，可以得到关键向量K，或者，将注意力层的第二参数Wk与音素特征进行相乘处理，得到第二相乘结果，将第二相乘结果与第五参数Bk相加，可以得到查询向量K，注意力层的第一参数、第二参数、第四参数以及第五参数均是通过对注意力融合网络进行训练得到的。

作为示例，采用注意力机制对音素特征与音频特征进行融合，注意力机制用于建模查询向量Q、关键向量K以及值向量V之间的关系，参见公式(1)和(2)：

Attention(Q,K,V)＝AttentionScore(Q,K)*V(2)；

其中，基于每个音频帧的音频特征

得到查询向量Q，基于给定文本的每个音素的音素特征H _phone得到每个音素的关键向量K和每个音素的值向量V，还可以将每个音频帧的音频特征

作为查询向量，将给定文本的每个音素的音素特征H _phone作为每个音素的关键向量K和每个音素的值向量V，AttentionScore(Q,K)是每个音素的权重，Attention(Q,K,V)是每个音素的注意力结果，d _k是关键向量K的维度。

作为示例，对每个音频帧的音频特征

进行查询向量变换处理得到查询向量Q，对给定文本的每个音素的音素特征H _phone进行关键向量变换处理，得到关键向量K，对给定文本的每个音素的音素特征H _phone进行值向量变换处理，得到值向量V，这些变换处理所涉及的参数可以通过对于音素对齐模型进行整体训练得到，还可以将每个音频帧的音频特征

作为查询向量，或者将给定文本的每个音素的音素特征H _phone作为每个音素的关键向量K和每个音素的值向量V。

在一些实施例中，步骤103是通过注意力融合网络实现的，注意力网络包括注意力层和融合层，参见图3B，图3B是本申请实施例提供的基于人工智能的音频处理方法的流程示意图，步骤103中基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到每个音频帧的融合特征，可以通过针对每个音素执行图3B示出的步骤1031-1033进行说明。

在步骤1031中，对音素的音素特征进行值向量变换处理，得到值向量。

在步骤1032中，将对应音素的权重与值向量进行相乘处理，得到对应音素的注意力结果。

步骤1031和步骤1032均是通过注意力融合网络中的注意力层实现的，值向量变换处理可以通过以下方式实施：将注意力层的第三参数Wv与音素特征进行相乘处理，可以得到值向量V，或者，将注意力层的第三参数Wv与音素特征进行相乘处理，得到第三相乘结果，将第三相乘结果与第六参数Bv相加，可以得到值向量V；注意力层的第三参数以及第六参数均是通过对注意力融合网络进行训练得到的。

在步骤1033中，将对应至少一个音素的注意力结果以及音频帧的音频特征进行融合处理，得到对应音频帧的融合特征。

作为示例，步骤103是通过调用注意力融合网络实现的，注意力融合网络包括注意力层以及融合层，融合处理实际上是特征拼接过程，将基于某个音频帧得到的注意力结果与该音频帧的音频特征进行拼接处理，得到对应该音频帧的融合特征，参见公式(3)：

其中，

是音频帧i的注意力结果，音频帧i的注意力结果是矩阵，矩阵中每列代表所有音素中每个音素与音频帧i的注意力结果，

是音频帧i的音频特征，H _phone是给定文本的所有音素的音素特征，

是对应每个音频帧的融合特征。

作为示例，注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，注意力机制包括软性注意力机制(可分为基于输入项的软注意力(Item-wise Soft Attention)和基于位置的软注意力(Location-wise Soft Attention))、硬性注意力机制(可分为基于输入项的强注意力(Item-wise Hard Attention)和基于位置的强注意力(Location-wise Hard Attention))、自注意力机制(是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。自注意力机制在文本中的应用，主要是通过计算单词间的互相影响，来解决长距离依赖问题)等等，注意力机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。在深度学习中，注意力可以借助权重实现，通过权重来判断，音频帧与每个音素的关联性，针对不同的音频帧，音频帧对相同音素的注意力具有差异，从而将音频帧的音频特征与多个音素的音素特征进行融合时，音素特征的权重会存在差异。

在步骤104中，基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻。

在一些实施例中，确定每个音频帧对应的音素是通过调用音素分类网络实现的，图6所示的音素分类网络包括至少一个级联的音素全连接层，步骤104中基于每个音频帧的融合特征，确定每个音频帧对应的音素，可以通过以下技术方案实现：针对每个音频帧执行以下处理：当音素全连接层的数目为一个时，通过音素全连接层对融合特征进行第一全连接处理，得到音频帧属于每个候选音素的第一概率；当音素全连接层的数目为多个时，通过N个级联的音素全连接层中的第n音素全连接层，对第n音素全连接层的输入进行第一全连接处理，并将第n音素全连接层输出的第n音素全连接结果传输到第n+1音素全连接层以继续进行第一全连接处理，得到对应第n+1音素全连接层的第n+1音素全连接结果；其中，N为大于或者等于2的整数，n为取值从1开始递增的整数变量，n的取值范围为1≤n＜N，当n取值为1时，第n音素全连接层的输入为融合特征，当n取值为2≤n＜N时，第n音素全连接层的输入为第n-1音素全连接层输出的第n-1音素全连接结果，当n取值为N-1时，第n+1音素全连接结果为音频帧属于每个候选音素的第一概率；将最大的第一概率的候选音素确定为音频帧对应的音素。

作为示例，参见图6，在注意力融合网络后外接音素分类网络(音素全连接层)，通过音素分类网络针对每个音频帧进行音素分类，候选音素总共包含40个音素(包括音素词典中39个音素以及静音音素)，当仅存在一个音素全连接层时，通过音素全连接层输出某个音频帧属于每个候选音素的第一概率，即针对音频帧A输出40个第一概率，将最高的第一概率所对应的候选音素确定为该音频帧A的音素，当存在多个音素全连接层时，由于是级联的关系，通过多个级联的全连接层可以学习到更深度的特征，从而有效提高后续音素识别准确性。

在一些实施例中，步骤104中基于每个音频帧对应的音素，确定每个音素的起止时刻，可以通过以下技术方案实现：基于每个音频帧对应的音素，确定每个音素对应的至少一个音频帧；针对每个音素执行以下处理：当音素对应多个连续的音频帧时，将音素对应的连续音频帧的起止时刻确定为音素的起止时刻；当音素对应一个音频帧时，将音素对应的音频帧的时刻确定为音素的起止时刻。

作为示例，起止时刻包括音素的开始时刻以及结束时刻，以存在10个音频帧为例进行说明，基于每个音频帧对应的音素，确定每个音素对应的至少一个音频帧，针对每个音素执行以下处理：当音素对应多个连续的音频帧时，将音素对应的连续音频帧的起止时刻确定为音素的起止时刻，例如，第1个音频帧至第3个音频帧均对应音素W，则音素W对应第1个音频帧至第3个音频帧，将第1个音频帧至第3个音频帧的起止时刻确定为音素W的起止时刻，即将第1个音频帧的时刻确定为起止时刻中的开始时刻，第3个音频帧的时刻确定为起止时刻中的结束时刻，当音素对应一个音频帧时，将音素对应的音频帧的时刻确定为音素的起止时刻，例如，第1个音频帧对应音素W，第2个音频帧对应静音音频帧，则音素W对应第1个音频帧，将第1个音频帧的起止时刻确定为音素W的起止时刻，即将第1个音频帧的时刻确定为起止时刻中的开始时刻，也同时将第1个音频帧的时刻确定为起止时刻中的结束时刻。

在一些实施例中，参见图3C，图3C是本申请实施例提供的基于人工智能的音频处理方法的流程示意图，执行步骤101中获取给定文本的至少一个音素，并确定每个音素的音素特征之前，或者执行步骤102中获取对应给定文本的音频数据，并确定所述音频数据包括的每个音频帧的音频特征之前，可以执行图3C示出的步骤105-步骤111。

在步骤105中，获取音频数据样本以及给定文本样本。

作为示例，给定文本样本与音频数据样本对应，例如，音频数据样本是用户跟读给定文本得到的。

在步骤106中，获取给定文本样本的至少一个音素样本，并通过音素编码器确定每个音素样本的音素特征。

在步骤107中，通过音频编码器确定音频数据样本包括的每个音频帧样本的音频特征。

作为示例，参与训练的音频编码器和音素编码器可以为经过预先训练的网络结构，本申请实施例采用预训练的声学模型进行音频特征提取，如声音转向量模型，声音转向量模型由多层卷积网络构成，利用大量无标签任务基于对比损失进行声音转向量模型的预训练，在训练音素对齐模型时，将音频数据(音频波形特征)输入至预训练的网络结构。

作为示例，参见图6，音素对齐模型包括音素分类网络、响度分类网络、共享注意力融合网络、音频编码器以及音素编码器，步骤103是通过调用注意力融合网络实现的，确定每个音频帧对应的音素是通过调用音素分类网络实现的，音素分类网络与响度分类网络共享注意力融合网络，注意力融合网络的输入是音频编码器的输出以及音素编码器的输出。

在步骤108中，针对每个音频帧样本执行以下处理：将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及音素分类网络构成的网络中进行正向传播，得到第一正向传播结果。

在一些实施例中，上述将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及音素分类网络构成的网络中进行正向传播，得到第一正向传播结果，可以通过以下技术方案实现：通过注意力融合网络的注意力层针对每个音素样本执行以下处理：基于音频帧样本的音频特征以及音素样本的音素特征，确定对应音素样本的权重；对音素样本的音素特征进行值向量变换处理，将对应音素样本的权重与值向量变换结果进行相乘处理，得到对应音素样本的注意力结果；通过注意力融合网络的融合层将对应每个音素样本的注意力结果以及音频帧样本的音频特征进行融合处理，得到对应音频帧样本的融合特征；通过音素分类网络对音频帧样本的融合特征进行第一全连接处理，得到音频帧样本属于每个候选音素的第三概率；将第三概率以及权重组成第一正向传播结果。

作为示例，为了更好的融合音素特征和音频特征表示，需要对本申请实施例中权重矩阵进行约束，即进行注意力权重约束，其中，权重矩阵中每行代表一个音频帧，每列代表该音频帧对应每个音素的概率分布。

在步骤109中，针对每个音频帧样本执行以下处理：将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及响度分类网络构成的网络中进行正向传播，得到第二正向传播结果。

在一些实施例中，上述将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及响度分类网络构成的网络中进行正向传播，得到第二正向传播结果，可以通过以下技术方案实现：通过注意力融合网络对对音频帧样本的音频特征进行映射处理，得到每个音素样本的音素特征的权重，基于每个音素样本的音素特征的权重，对音频帧样本的音频特征以及至少一个音素样本的音素特征进行融合处理，得到每个音频帧样本的融合特征；通过响度分类网络对每个音频帧样本的融合特征进行第二全连接处理，得到每个音频帧样本属于每个响度类别的第二概率，并将每个音频帧样本属于每个响度类别的第二概率组成第二正向传播结果。

作为示例，在进行数据正向传播的过程中，响度分类网络的输入与音素分类网络的输入相同。

在一些实施例中，上述将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及响度分类网络构成的网络中进行正向传播，得到第二正向传播结果，可以通过以下技术方案实现：通过注意力融合网络的注意力层针对每个音素样本执行以下处理：基于音频帧样本的音频特征以及音素样本的音素特征，确定对应音素样本的权重；对音素样本的音素特征进行值向量变换处理，将对应音素样本的权重与值向量变换结果进行相乘处理，得到对应音素样本的注意力结果；通过注意力融合网络的融合层将对应每个音素样本的注意力结果以及音频帧样本的音频特征进行融合处理，得到对应音频帧样本的融合特征；通过响度分类网络对音频帧样本的融合特征进行第二全连接处理，得到音频帧样本属于每个候选音素的第二概率；将第二概率以及权重组成第二正向传播结果。

作为示例，音素对齐模型包括注意力融合网络、音素分类网络以及响度分类网络，音频编码器的输入是音频数据样本，音频编码器的输出是音频数据包括的每个音频帧样本的音频特征(向量形式)，音素编码器的输入是音素序列样本(给定文本样本)，音素编码器的输出是每个音素样本的音素特征(音素特征的数据形式是向量)，注意力融合网络的输入是音频编码器的输出以及音素编码器的输出，注意力融合网络的输出是音素特征与音频特征的融合特征，每个音频帧的音频特征与所有音素进行注意力机制计算，得到融合特征，确定音频帧对应候选音素的表示和对应静音与否的表示，通过两个并列的音素分类网络以及响度分类网络分别对融合特征进行分类处理，音素分类网络输出每个音频帧属于每个候选音素的第三概率，响度分类网络输出每个音频帧属于每个响度类别的第二概率，响度类别包括静音以及非静音，例如，非静音的标识为1，静音的标识为0，响度类别还可以为更加细粒度的划分，例如静音、10分贝、20分贝、30分贝等等，候选音素为W、IH、L等等。

在步骤110中，根据第一正向传播结果以及第二正向传播结果，确定联合损失。

在一些实施例中，上述根据第一正向传播结果以及第二正向传播结果，确定联合损失，可以通过以下技术方案实现：基于每个音频帧样本对应多个候选音素的第三概率、以及每个音频帧样本的预标记候选音素，确定第一音素类别损失；基于每个音频帧样本对应多个响度类别的第二概率、以及每个音频帧样本的预标记响度类别，确定第二响度类别损失；基于每个音频帧样本对应每个音素样本的权重、以及每个音频帧样本对应每个音素样本的预标记对齐标识，确定第三对齐损失；对第一音素类别损失、第二响度类别损失以及第三对齐损失进行融合处理，得到联合损失。通过多个维度的损失构成联合损失，并基于联合损失进行训练，可以有效提高音素对齐模型的训练效果。

作为示例，在音素对齐模型的训练过程中采用交叉损失对两种分类的损失进行计算，参见公式(4)和公式(5)：

其中，L _phone是音素分类损失(第一音素类别损失)，L _sil是响度分类损失(第二响度类别损失)，m是音频帧的数目，c是候选音素的数目，

是第i个音频帧对应第j个音素的真实标识结果，

是第i个音频帧对应第j个音素的第一概率，

是第i个音频帧的预标记对齐标识，非静音为1，静音为0，

是第i个音频帧为非静音音频帧的概率。

在一些实施例中为了更好的融合音素特征和音频特征表示，对本申请实施例中权重矩阵进行约束，即进行注意力权重约束，其中，矩阵中每行代表一个音频帧，每列代表该音频帧中每个音素的概率分布，将每个音频帧的音素的概率分布与实际该音频帧对应的音素进行损失计算，得到注意力机制损失，参见公式(6)：

其中，L _align是注意力机制损失，m是音频帧的数目，N _p是给定文本中音素的数目，

是1或者0，1表征第i个音频帧与第j个音素是对齐的，0表征第i个音频帧与第j个音素不是对齐的，

是第i个音频帧与第j个音素的权重。

在一些实施例中，整个音素对齐网络的联合损失由三部分构成，包括音素分类损失(第一音素类别损失)，响度分类损失(第二响度类别损失)以及对齐损失(第三对齐损失)，三种损失采用不同的权重进行加权求和，最终得到的联合损失如公式(7)所示：

L _total＝λL _phone+βL _sil+γL _align (7)；

其中，每个损失的权重(λ、β以及γ)是预先设置的权重，三者求和等于1，L _phone是音素分类损失(第一音素类别损失)，L _sil是响度分类损失(第二响度类别损失)以及L _align是对齐损失(第三对齐损失)，L _total是联合损失。

在步骤111中，根据联合损失更新注意力融合网络、音素分类网络、响度分类网络、音素编码器以及音频编码器的参数。

作为示例，在根据联合损失更新注意力融合网络、音素分类网络、以及响度分类网络、音素编码器以及音频编码器的参数时，根据联合损失确定出梯度，进而通过下降算法更新各个网络的参数，从而尽量使得联合损失收敛至最低值。

通过本申请实施例将音频特征与文本序列进行注意力机制计算得到融合特征，因此融合特征能够有效表征音频帧与音素之间的关系，再基于融合特征对音频中每个音频帧进行音素分类，可以有效提高分类准确度，从而提高音素对齐准确度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

在一些实施例中，当音频处理系统应用于口语考试场景时，例如，口语考试题目要求考生用户使用英语跟读给定文本，考生终端接收到用户对应给定文本的音频数据，考生终端将音频数据发送至服务器，服务器对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到音频帧的融合特征，基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻，并发送至评委终端，以使评委终端直接呈现每个音素的起止时刻，响应于评委用户的评分操作，评委终端可以显示针对每个音素的评分结果。即本申请实施例主要提供一种音素标注的自动化的工具，标注出给定文本的每个音素在音频数据中的对应位置，并在此基础上可以进一步进行音素以及单词朗读是否错误的标注，从而有效减少人工标注成本，为后续评委评分提供了更便捷的评分环境。

在一些实施例中，当音频处理系统应用于口语练习场景时，例如，口语练习题目要求学生用户使用英语跟读给定文本，学生终端接收到用户对应给定文本的音频数据，学生终端将音频数据发送至服务器，服务器对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到音频帧的融合特征，基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻，并发送至考生终端，以使考生终端直接呈现每个音素的起止时刻，响应于考生用户的评分操作，考生终端可以显示针对每个音素的评分结果，评分结果可以为针对音素的发音是否正确的标注，即本申请实施例主要提供一种音素标注的自动化的工具，标注出给定文本的每个音素在音频数据中的对应位置，并在此基础上可以进一步进行音素以及单词朗读是否错误的标注，从而有效减少人工标注成本，为后续考生评分自检提供了更便捷的自检环境。

音素强制对齐是指将给定的音素序列文本与对应的音频进行对齐，得到文本中的每个音素在音频中的时间位置。音素对齐在语音处理中有不同应用，如语音识别，语音关键词检测等。本申请实施例将音频特征与文本序列进行注意力机制计算，得到融合的音频和文本特征，对音频中每帧进行音素分类，为了让对齐更加准确，增加辅助任务，如音频中每帧是否静音的判断。同时，对得到的权重矩阵进行约束，以达到更精确的对齐。

在一些实施例中，参见图4A，图4A是本申请实施例提供的基于人工智能的音频处理方法的界面示意图，人机交互界面401A中显示朗读按钮402A以及结束朗读按钮403A，人机交互界面401A中还显示给定文本“What are you doing？”，响应于考生用户针对朗读按钮402A的触发操作，考生终端接收对应给定文本的音频数据，响应于考生用户针对结束朗读按钮403A的触发操作，考生终端停止接收对应给定文本的音频数据。

在一些实施例中，参见图4B，图4B是本申请实施例提供的基于人工智能的音频处理方法的界面示意图，音素标注功能可以以嵌入在网页中，还可以嵌入在客户端内，用户对发音进行音素级别的标注流程如下，人机交互界面401B中显示给定文本403B以及标注按钮402B，响应于针对标注按钮402B的触发操作，人机交互界面401B中显示针对给定文本403B的标注页面。

在一些实施例中，参见图4C，图4C是本申请实施例提供的基于人工智能的音频处理方法的界面示意图，人机交互界面401C中显示标注页面403C，标注页面403C中显示音素402C在音频中的起止时间以及单词404C在音频中的起止时间，单词404C在音频中的起止时间由音素402C在音频中的起止时间确定。

在一些实施例中，参见图4D，图4D是本申请实施例提供的基于人工智能的音频处理方法的界面示意图，人机交互界面401D中显示标注页面403D，标注页面403D中显示音素402D在音频中的起止时间以及单词404D在音频中的起止时间，单词404D在音频中的起止时间由音素402D在音频中的起止时间确定，因此人机交互界面401D中显示有经过划分的音素，响应于用户针对音素的标注操作，在标注页面的最后一层中显示针对音素的发音标注405D，例如，如某个音素是否错误。

在一些实施例中，参见图5是本申请实施例提供的基于人工智能的音频处理方法的流程示意图，基于音素强制对齐的业务整体流程图如图5所示，步骤如下：音素标注工具的网页打开后，用户可以选择需要标注的音频和对应的跟读文本；响应于用户的选择操作，确定需要标注的音频和对应的音素文本序列(来源于题目的跟读文本)并且开始标注；网页将音频数据音素文本序列(来源于题目的跟读文本)发送给服务器；服务器将音频数据和音素文本序列(来源于题目的跟读文本)发送给音素强制对齐模块；音素强制对齐模块将每个音素在音频数据中的起止时间(音素边界信息)返回给服务器；服务器将基于音素边界信息切分的音频返回给用户；响应于用户的批注操作，基于每个切分的音素发音段对音素级别进行发音标注。

在一些实施例中，参见图6，本申请实施例提供的音素对齐模型由音素编码器、音频编码器、注意力融合网络、音素分类网络以及响度分类网络。音素编码器用于提取音素特征，音频编码器用于提取音频特征。对音频帧的音频特征进行映射处理，得到每个音素的音素特征的权重，基于每个音素的音素特征的权重，对音频帧的音频特征以及至少一个音素的音素特征进行融合处理，得到音频帧的融合特征，融合特征包含音频特征的信息和音素特征的信息，在注意力融合网络后外接音素分类网络(全连接层)以及响度分类网络(全连接层)，通过音素分类网络针对每个音频帧进行音素分类，音素分类总共包含40个音素(包括音素词典中39个音素以及静音音素)，通过响度分类网络对每个音频帧进行是否为静音音频帧的分类(包含静音或非静音)。

在一些实施例中，基于音频编码器获取音频特征表示，本申请实施例采用预训练的声学模型进行音频特征提取，如声音转向量模型，声音转向量模型由多层卷积网络构成，利用大量无标签任务基于对比损失进行声音转向量模型的预训练，在训练音素对齐模型时，将音频数据(音频波形特征)输入至预训练的网络结构，输出音频数据中每个音频帧的音频特征，基于音素编码器获取音素特征，本申请实施例采用音素编码的方式进行音素特征的提取，用独特的向量对每个音素的特性进行表示(特性表示特征)，采用随机初始化的方式对每个音素的特性向量(特性表示特征)进行初始化，同时为了让音素在单词中不同位置的表示有所区别，随机初始化每个音素的位置向量(位置表示特征)，包括四种位置，当单词包含多个音素，则代表单词的开始位置(B)、中间位置(I)、结束为止(E)，当单词包含一个音素，则用S表示，对这些位置进行编码，得到每个音素的位置向量，最终将每个音素的独特的编码表示(发音向量)与位置编码表示(位置向量)进行相加，得到最终的音素特征，将给定文本的音素输入到音素编码器后，得到每个音素的深度特征表示(音素特征)。

在一些实施例中，基于注意机制对音素特征与音频特征进行融合，本申请实施例采用注意力机制对音素特征与音频特征进行融合，注意力机制用于建模查询向量Q、关键向量K以及值向量V之间的关系，参见公式(8)和(9)：

Attention(Q,K,V)＝AttentionScore(Q,K)*V (9)；

其中，用每个音频帧的音频特征

作为查询向量Q，将给定文本的所有音素的音素特征H _phone作为关键向量K和值向量V，AttentionScore(Q,K)是权重，Attention(Q,K,V)是每个音频帧对应所有音素的注意力结果，d _k是关键向量K的维度。

在一些实施例中，将基于注意力机制得到的矩阵与音频特征进行拼接，最终得到融合特征，参见公式(10)：

其中，

是基于注意力机制得到的音频帧i的注意力结果，音频帧i的注意力结果是矩阵，矩阵中每列代表所有音素中每个音素与音频帧i的注意力结果，

是对应每个音频帧的融合特征。

在一些实施例中，在音素对齐模型的训练过程中采用交叉损失对两种分类的损失进行计算，参见公式(11)和公式(12)：

是第i个音频帧对应第j个音素的真实标识结果，

是第i个音频帧对应第j个音素的第一概率，

是第i个音频帧的预标记对齐标识，非静音为1，静音为0，

是第i个音频帧为非静音音频帧的概率。

在一些实施例中为了更好的融合音素特征和音频特征表示，对本申请实施例中权重矩阵进行约束，即进行注意力权重约束，其中，矩阵中每行代表一个音频帧，每列代表该音频帧中每个音素的概率分布，将每个音频帧的音素的概率分布与实际该音频帧对应的音素进行损失计算，得到注意力机制损失，参见公式(13)：

是第i个音频帧与第j个音素的权重。

在一些实施例中，整个音素对齐网络的联合损失由三部分构成，包括音素分类损失(第一音素类别损失)，响度分类损失(第二响度类别损失)以及对齐损失(第三对齐损失)，三种损失采用不同的权重进行加权求和，最终得到的联合损失如公式(14)所示：

L _total＝λL _phone+βL _sil+γL _align (14)；

在一些实施例中，参见图7，图7是本申请实施例提供的基于人工智能的音频处理方法的数据流程示意图，音素对齐模型包括注意力融合网络、音素分类网络(对应第一任务)以及响度分类网络(对应第二任务)，音频编码器的输入是音频数据，音频编码器的输出是音频数据包括的每个音频帧的音频特征(向量形式)，音素编码器的输入是音素序列(给定文本)，音素编码器的输出是每个音素的音素特征(音素特征的数据形式是向量)，注意力融合网络的输入是音频编码器的输出以及音素编码器的输出，注意力融合网络的输出是音素特征与音频特征的融合特征，每个音频帧的音频特征与所有音素进行注意力机制计算，得到融合特征，确定音频帧对应候选音素的表示和对应静音与否的表示，通过两个并列的音素分类网络以及响度分类网络分别对融合特征进行分类处理，音素分类网络输出每个音频帧属于每个候选音素的概率，响度分类网络输出每个音频帧属于每个响度类别的概率，响度类别包括静音以及非静音，例如，非静音的标识为1，静音的标识为0，候选音素为W、IH、L等等。

在一些实施例中，本申请实施例在两个公开数据集进行实验，包括TIMIT数据集和Buckeye数据集，这两个数据集会在音频中对每个音素进行时间标记，最终进行指标计算，指标包括以下至少之一：音素对齐模型预测得到的音素边界与实际音素边界的精确率P，召回率R和F1分数，另外为了解决当召回率很高且精确率很低的情况下，F1分数值比较高的问题，引入R-value进行评价，参见公式(15)-公式(17)：

其中，P为精确率，R为召回率，OS是R/P-1。

最终结果参见表1，Discrimi、Montreal与SEGFEAT均是相关技术中的模型，从表1可以看出，本申请实施例在不同公开数据集上，音素边界准确率都有较大的提升。

表1本申请实施例以及相关技术中各个模型在各个数据集的评分

Corpora	Model	P	R	F1	R-value
TIMIT	Ours	93.42	95.96	94.67	95.18
TIMIT	Discrimi	90	82.2	85.9	79.51
TIMIT	Montreal	83.9	81.6	82.7	85.16
TIMIT	SEGFEAT	92.67	93.03	92.85	93.91
Buckeye	Ours	88.49	90.33	89.40	90.90
Buckeye	SEGFEAT	85.40	89.12	87.23	88.76

参见图8A-8C，图8A-8C是本申请实施例提供的基于人工智能的音频处理方法的对齐时间矩阵，为了验证对注意力机制约束的有效性，绘制了音素对齐矩阵，其中，纵轴为按照时间划分的音频帧，横轴为每个音素，图8A示出了未添加加注意力权重约束的对齐时间矩阵，图8B示出了添加约束的对齐时间矩阵，图8C示出了真实的对齐时间矩阵，可以看出加了注意力机制约束的矩阵整体更符合音素与音频的实际对齐时间。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的基于人工智能的音频处理装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的基于人工智能的音频处理装置255中的软件模块可以包括：音素模块2551，配置为获取给定文本的至少一个音素，并确定每个音素的音素特征；音频模块2552，配置为获取对应所述给定文本的音频数据，并确定所述音频数据包括的每个音频帧的音频特征；融合模块2553，配置为针对每个音频帧执行以下处理：对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到每个所述音频帧的融合特征；对齐模块2554，配置为基于每个音频帧的融合特征，确定每个音频帧对应的音素，并基于每个音频帧对应的音素，确定每个音素的起止时刻。

在一些实施例中，音频模块2552，还配置为：对至少一个音频帧进行特征提取处理，得到对应每个音频帧的卷积特征提取结果；对每个音频帧的卷积特征提取结果进行归一化处理，得到每个音频帧的音频特征。

在一些实施例中，音素模块2551，还配置为：针对每个音素执行以下处理：确定音素的特性表示特征，其中，特性表示特征表征音素的特性；确定音素的位置表示特征，其中，位置表示特征表征音素在对应文本单元中的位置；将位置表示特征与特性表示特征进行相加处理，得到音素的音素特征。

在一些实施例中，融合模块2553，还配置为：针对每个所述音素执行以下处理：对所述音素的音素特征进行值向量变换处理，得到值向量；将对应所述音素的权重与所述值向量进行相乘处理，得到对应所述音素的注意力结果；将对应所述至少一个音素的注意力结果以及所述音频帧的音频特征进行融合处理，得到对应所述音频帧的融合特征。

在一些实施例中，融合模块2553，还配置为：对音频特征进行查询向量变换处理，得到查询向量；对音素特征进行关键向量变换处理，得到关键向量；将查询向量以及关键向量的转置进行相乘处理，得到相乘结果；获取所述关键向量的维度的平方根；将相乘结果与平方根的比值确定为注意力特征；对注意力特征进行最大似然处理，得到对应音素的权重。

在一些实施例中，确定每个音频帧对应的音素是通过调用音素分类网络实现的，音素分类网络包括至少一个级联的音素全连接层，对齐模块2554，还配置为：针对每个音频帧执行以下处理：当音素全连接层的数目为一个时，通过音素全连接层对融合特征进行第一全连接处理，得到音频帧属于每个候选音素的第一概率；当音素全连接层的数目为多个时，通过N个级联的音素全连接层中的第n音素全连接层，对第n音素全连接层的输入进行第一全连接处理，并将第n音素全连接层输出的第n音素全连接结果传输到第n+1音素全连接层以继续进行第一全连接处理，得到对应第n+1音素全连接层的第n+1音素全连接结果；其中，N为大于或者等于2的整数，n为取值从1开始递增的整数变量，n的取值范围为1≤n＜N，当n取值为1时，第n音素全连接层的输入为融合特征，当n取值为2≤n＜N时，第n音素全连接层的输入为第n-1音素全连接层输出的第n-1音素全连接结果，当n取值为N-1时，第n+1音素全连接结果为音频帧属于每个候选音素的第一概率；将最大的第一概率的候选音素确定为音频帧对应的音素。

在一些实施例中，对齐模块2554，还配置为：基于每个音频帧对应的音素，确定每个音素对应的至少一个音频帧；针对每个音素执行以下处理：当音素对应多个连续的音频帧时，将音素对应的连续音频帧的起止时刻确定为音素的起止时刻；当音素对应一个音频帧时，将音素对应的音频帧的时刻确定为音素的起止时刻。

在一些实施例中，对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到每个所述音频帧的融合特征是通过调用注意力融合网络实现的，确定每个音频帧对应的音素是通过调用音素分类网络实现的，音素分类网络与响度分类网络共享注意力融合网络，装置还包括：训练模块2555，配置为：获取音频数据样本以及给定文本样本；获取给定文本样本的至少一个音素样本，并通过音素编码器确定每个音素样本的音素特征；通过音频编码器确定音频数据样本包括的每个音频帧样本的音频特征；针对每个音频帧样本执行以下处理：将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及音素分类网络构成的网络中进行正向传播，得到第一正向传播结果；针对每个音频帧样本执行以下处理：将音频帧样本的音频特征以及至少一个音素样本的音素特征，在由注意力融合网络以及响度分类网络构成的网络中进行正向传播，得到第二正向传播结果；根据第一正向传播结果以及第二正向传播结果，确定联合损失；根据联合损失更新注意力融合网络、音素分类网络、响度分类网络、音频编码器以及音素编码器的参数。

在一些实施例中，将音频帧样本的音频特征以及至少一个音素样本的音素特征，训练模块2555，还配置为：通过注意力融合网络对音频帧样本的音频特征以及至少一个音素样本的音素特征进行基于注意力机制的融合处理，得到对应每个音频帧样本的融合特征；通过响度分类网络对每个音频帧样本的融合特征进行第二全连接处理，得到每个音频帧样本属于每个响度类别的第二概率，并将每个音频帧样本属于每个响度类别的第二概率组成第二正向传播结果。

在一些实施例中，训练模块2555，还配置为：通过注意力融合网络的注意力层针对每个音素样本执行以下处理：通过注意力融合网络的注意力层针对每个音素样本执行以下处理：基于音频帧样本的音频特征以及音素样本的音素特征，确定对应音素样本的权重；对音素样本的音素特征进行值向量变换处理，将对应音素样本的权重与值向量变换结果进行相乘处理，得到对应音素样本的注意力结果；通过注意力融合网络的融合层将对应每个音素样本的注意力结果以及音频帧样本的音频特征进行融合处理，得到对应音频帧样本的融合特征；通过音素分类网络对音频帧样本的融合特征进行第一全连接处理，得到音频帧样本属于每个候选音素的第三概率；将第三概率以及权重组成第一正向传播结果。

在一些实施例中，训练模块2555，还配置为：基于每个音频帧样本对应多个候选音素的第三概率、以及每个音频帧样本的预标记候选音素，确定第一音素类别损失；基于每个音频帧样本对应多个响度类别的第二概率、以及每个音频帧样本的预标记响度类别，确定第二响度类别损失；基于每个音频帧样本对应每个音素样本的权重、以及每个音频帧样本对应每个音素样本的预标记对齐标识，确定第三对齐损失；对第一音素类别损失、第二响度类别损失以及第三对齐损失进行融合处理，得到联合损失。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的。。方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的音频处理方法，例如，如图3A-3C示出的基于人工智能的音频处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本申请实施例将音频特征与文本序列进行注意力机制计算得到融合特征，因此融合特征能够有效表征音频帧与音素之间的关系，再基于融合特征对音频中每个音频帧进行音素分类，可以有效提高分类准确度，从而提高音素对齐准确度。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

一种基于人工智能的音频处理方法，所述方法由电子设备执行，所述方法包括：

获取给定文本的至少一个音素，并确定每个所述音素的音素特征；

获取对应所述给定文本的音频数据，并确定所述音频数据包括的每个音频帧的音频特征；

针对每个所述音频帧执行以下处理：对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到所述音频帧的融合特征；

基于每个所述音频帧的融合特征，确定每个所述音频帧对应的音素，并基于每个所述音频帧对应的音素，确定每个所述音素在所述音频数据中的起止时刻。
根据权利要求1所述的方法，其中，所述确定每个所述音素的音素特征，包括：

针对每个所述音素执行以下处理：

确定所述音素的特性表示特征，其中，所述特性表示特征表征所述音素的特性；

确定所述音素的位置表示特征，其中，所述位置表示特征表征所述音素在对应文本单元中的位置；

将所述位置表示特征与所述特性表示特征进行相加处理，得到所述音素的音素特征。
根据权利要求1所述的方法，其中，所述基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到所述音频帧的融合特征，包括：

针对每个所述音素执行以下处理：

对所述音素的音素特征进行值向量变换处理，得到值向量；

将对应所述音素的权重与所述值向量进行相乘处理，得到对应所述音素的注意力结果；

将对应所述至少一个音素的注意力结果以及所述音频帧的音频特征进行融合处理，得到对应所述音频帧的融合特征。
根据权利要求1所述的方法，其中，所述对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，包括：

对所述音频特征进行查询向量变换处理，得到查询向量；

对所述音素特征进行关键向量变换处理，得到关键向量；

将所述查询向量以及所述关键向量的转置进行相乘处理，得到相乘结果；

获取所述关键向量的维度的平方根；

将所述相乘结果与所述平方根的比值确定为所述注意力特征；

对所述注意力特征进行最大似然处理，得到对应所述音素的权重。
根据权利要求1所述的方法，其中，所述确定每个所述音频帧对应的音素是通过调用音素分类网络实现的，所述音素分类网络包括至少一个级联的音素全连接层，所述基于每个所述音频帧的融合特征，确定每个所述音频帧对应的音素，包括：

针对每个所述音频帧执行以下处理：

当所述音素全连接层的数目为一个时，通过所述音素全连接层对所述融合特征进行第一全连接处理，得到所述音频帧属于每个候选音素的第一概率；

当所述音素全连接层的数目为多个时，通过N个级联的音素全连接层中的第n音素全连接层，对所述第n音素全连接层的输入进行第一全连接处理，并将所述第n音素全连接层输出的第n音素全连接结果传输到第n+1音素全连接层以继续进行第一全连接处理，得到对应所述第n+1音素全连接层的第n+1音素全连接结果；

其中，N为大于或者等于2的整数，n为取值从1开始递增的整数变量，n的取值范围为1≤n＜N，当n取值为1时，所述第n音素全连接层的输入为所述融合特征，当n取值为2≤n＜N时，所述第n音素全连接层的输入为第n-1音素全连接层输出的第n-1音素全连接结果，当n取值为N-1时，所述第n+1音素全连接结果为所述音频帧属于每个候选音素的第一概率；

将最大的所述第一概率的候选音素确定为所述音频帧对应的音素。
根据权利要求1所述的方法，其中，所述基于每个所述音频帧对应的音素，确定每个所述音素在所述音频数据中的起止时刻，包括：

基于每个所述音频帧对应的音素，确定每个所述音素对应的至少一个音频帧；

针对每个所述音素执行以下处理：

当所述音素对应多个连续的音频帧时，将所述音素对应的连续音频帧的起止时刻确定为所述音素的起止时刻；

当所述音素对应一个音频帧时，将所述音素对应的音频帧的时刻确定为所述音素在所述音频数据中的起止时刻。
根据权利要求1所述的方法，其中，所述对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到每个所述音频帧的融合特征是通过调用注意力融合网络实现的，所述确定每个所述音频帧对应的音素是通过调用音素分类网络实现的，所述音素分类网络与响度分类网络共享所述注意力融合网络，所述注意力融合网络的输入是音频编码器以及音素编码器的输出，所述方法还包括：

获取给定文本样本以及对应所述给定文本样本的音频数据样本；

获取所述给定文本样本的至少一个音素样本，并通过所述音素编码器确定每个所述音素样本的音素特征；

通过所述音频编码器确定所述音频数据样本包括的每个音频帧样本的音频特征；

针对每个所述音频帧样本执行以下处理：将所述音频帧样本的音频特征以及至少一个所述音素样本的音素特征，在由所述注意力融合网络以及所述音素分类网络构成的网络中进行正向传播，得到第一正向传播结果；

针对每个所述音频帧样本执行以下处理：将所述音频帧样本的音频特征以及至少一个所述音素样本的音素特征，在由所述注意力融合网络以及所述响度分类网络构成的网络中进行正向传播，得到第二正向传播结果；

根据所述第一正向传播结果以及所述第二正向传播结果，确定联合损失；

根据所述联合损失更新所述注意力融合网络、所述音素分类网络、所述响度分类网络、所述音频编码器以及所述音素编码器的参数。
根据权利要求7所述的方法，其中，所述将所述音频帧样本的音频特征以及至少一个所述音素样本的音素特征，在由所述注意力融合网络以及所述响度分类网络构成的网络中进行正向传播，得到第二正向传播结果，包括：

通过所述注意力融合网络对所述音频帧样本的音频特征以及至少一个所述音素样本的音素特征进行基于注意力机制的融合处理，得到对应每个所述音频帧样本的融合特征；

通过所述响度分类网络对每个所述音频帧样本的融合特征进行第二全连接处理，得到每个所述音频帧样本属于每个响度类别的第二概率，并将每个所述音频帧样本属于每个响度类别的第二概率组成所述第二正向传播结果。
根据权利要求7所述的方法，其中，所述将所述音频帧样本的音频特征以及至少一个所述音素样本的音素特征，在由所述注意力融合网络以及所述音素分类网络构成的网络中进行正向传播，得到第一正向传播结果，包括：

通过所述注意力融合网络的注意力层针对每个所述音素样本执行以下处理：

基于所述音频帧样本的音频特征以及所述音素样本的音素特征，确定对应所述音素样本的权重；

对所述音素样本的音素特征进行值向量变换处理，将对应所述音素样本的权重与值向量变换结果进行相乘处理，得到对应所述音素样本的注意力结果；

通过所述注意力融合网络的融合层将对应每个所述音素样本的注意力结果以及所述音频帧样本的音频特征进行融合处理，得到对应所述音频帧样本的融合特征；

通过所述音素分类网络对所述音频帧样本的融合特征进行第一全连接处理，得到所述音频帧样本属于每个候选音素的第三概率；

将所述第三概率以及所述权重组成所述第一正向传播结果。
根据权利要求9所述的方法，其中，所述根据所述第一正向传播结果以及所述第二正向传播结果，确定联合损失，包括：

基于每个所述音频帧样本对应多个候选音素的第三概率、以及每个所述音频帧样本的预标记候选音素，确定第一音素类别损失；

基于每个所述音频帧样本对应多个响度类别的第二概率、以及每个所述音频帧样本的预标记响度类别，确定第二响度类别损失；

基于每个所述音频帧样本对应每个所述音素样本的权重、以及每个所述音频帧样本对应每个所述音素样本的预标记对齐标识，确定第三对齐损失；

对所述第一音素类别损失、所述第二响度类别损失以及所述第三对齐损失进行融合处理，得到所述联合损失。
一种基于人工智能的音频处理装置，所述装置包括：

音素模块，用于获取给定文本的至少一个音素，并确定每个所述音素的音素特征；

音频模块，用于获取对应所述给定文本的音频数据，并确定所述音频数据包括的每个音频帧的音频特征；

融合模块，用于针对每个所述音频帧执行以下处理：对所述音频帧的音频特征进行映射处理，得到每个所述音素的音素特征的权重，基于每个所述音素的音素特征的权重，对所述音频帧的音频特征以及至少一个所述音素的音素特征进行融合处理，得到所述音频帧的融合特征；

对齐模块，用于基于每个所述音频帧的融合特征，确定每个所述音频帧对应的音素，并基于每个所述音频帧对应的音素，确定每个所述音素的起止时刻。
一种电子设备，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至10任一项所述的基于人工智能的音频处理方法。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的基于人工智能的音频处理方法。
一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的基于人工智能的音频处理方法。