WO2020154883A1

WO2020154883A1 - 语音信息的处理方法、装置、存储介质及电子设备

Info

Publication number: WO2020154883A1
Application number: PCT/CN2019/073642
Authority: WO
Inventors: 叶青
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-08-06
Also published as: CN113056784A

Abstract

本实施例公开了一种语音信息的处理方法，该方法包括采集语音信息，提取出目标语音特征信息并输入至预设模型中，以得到目标声纹参数，获取待识别语音，并提取出待识别语音的第一声纹参数，将第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取标识信息，并标识信息标识至所述播放视频中。提升了语音信息的处理准确性。

Description

语音信息的处理方法、装置、存储介质及电子设备

技术领域

本发明涉及语音处理领域，特别涉及一种语音信息的处理方法、装置、存储介质及电子设备。

背景技术

随着信息技术的发展，用户使用的数据早已不局限于文本与图片，其中视频已成为信息传输中的主要媒介。

目前，为了帮助用户更好的理解视频的内容，利用语音合成技术在视频中添加字幕已经成为常规的选择，同时在视频中添加字幕也能加速不同语言视频之间的分享。但是，现有添加的字幕仅带有语音中的文字内容，导致在一些视频中，仅仅依靠文字内容难以判断说话人的身份从而影响用户对视频内容的理解。

发明内容

本申请实施例提供的一种语音信息的处理方法、装置、存储介质及电子设备，可以提升语音信息的处理准确性。

第一方面，本申请实施例了提供了一种语音信息的处理方法，包括：

采集目标用户的语音信息，提取出所述语音信息的目标语音特征信息；

将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取播放视频中的待识别语音信息，并提取出所述待识别语音信息的第一声纹参数；

将所述第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将所述标识信息标识至所述播放视频中。

第二方面，本申请实施例了提供了的一种语音信息的处理装置，包括：

采集单元，用于采集目标用户的语音信息，提取出所述语音信息的目标语音特征信息；

输入单元，用于将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取单元，用于获取播放视频中的待识别语音信息，并提取出所述待识别语音信息的第一声纹参数；

匹配单元，用于将所述第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将所述标识信息标识至所述播放视频中。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的语音信息的处理方法。

第四方面，本申请实施例提供的电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行步骤：

将目标语音特征信息输入预设模型，以得到目标声纹参数；

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1是本申请实施例提供的语音信息的处理方法的流程示意图。

图2为本申请实施例提供的语音信息的处理方法的另一流程示意图。

图3为本申请实施例提供的语音信息的处理装置的模块示意图。

图4为本申请实施例提供的语音信息的处理装置的另一模块示意图。

图5为本申请实施例提供的电子设备的结构示意图。

图6为本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文该的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请实施例提供一种语音信息的处理方法，该语音信息的处理方法的执行主体可以是本申请实施例提供的语音信息的处理装置，或者集成了该语音信息的处理装置的电子设备，其中该语音信息的处理装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑(PDA，Personal Digital Assistant)等。

以下进行具体分析说明。

本发明实施例提供一种视频语音的处理方法，包括：

采集目标用户的语音信息，提取出该语音信息的目标语音特征信息；

将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取播放视频中的待识别语音信息，并提取出该待识别语音信息的第一声纹参数；

将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将该标识信息标识至该播放视频中。

在一种实施方式中，将目标语音特征信息输入预设模型的步骤之前，还可以包括：通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，该背景数据包括每一目标用户的语音信息。

在一种实施方式中，将目标语音特征信息输入预设模型，以得到目标声纹参数的步骤，可以包括：将该目标语音特征信息输入预设模型，以得到与该共同语音特征信息相应的目标差异特征信息；根据该目标差异特征信息确定出第二声纹参数；对该第二声纹参数进行信道补偿，以得到相应的目标声纹参数。

在一种实施方式中，对该第二声纹参数进行信道补偿的步骤，可以包括：利用线性鉴别分析的方法对该第二声纹参数进行信道补偿。

在一种实施方式中，将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息的步骤，可以包括：将该第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。

在一种实施方式中，获取相匹配的目标声纹参数的标识信息的步骤，可以包括：将该匹配值进行排序处理，获取大于预设阈值的匹配值中的最大匹配值，根据该最大匹配值获取相匹配的目标声纹参数；根据该目标声纹参数获取该相应的标识信息。

在一种实施方式中，将该标识信息标识至该播放视频中的步骤，包括：将该待识别语音信息输入语音识别模型，以生成相应的文本信息。将该标识信息与该文本信息相结合，以生成该待识别语音信息相应的字幕信息；将该字幕信息标识至该播放视频中。

本申请实施例提供一种语音信息的处理方法，如图1所示，图1为本申请实施例提供的语音信息的处理方法的流程示意图，该语音信息的处理方法可以包括以下步骤：

在步骤S101中，采集目标用户的语音信息，提取出语音信息的目标语音特征信息。

其中，目标用户可以是指视频中的主要说话人，可以理解的是，在访谈、电影、综艺节目等类型的视频中，绝大部分情况下的说话人都集中在有限个数的角色中。例如，在访谈类的视频中，目标用户即为主持人以及访谈嘉宾，在电影或电视剧类的视频中，目标用户即为戏份权重较大的演员，或者在偶像组合的音乐短片(Music Video，MV)视频中，目标用户即为偶像组合的所有成员。

其中，目标用户的语音信息是指经过标注后的语音信息，此时目标用户的语音信息中包含目标用户的标识信息。进一步的，标识信息可以是指目标用户的身份信息，例如姓名、性别、年龄、称号等等个人信息。同时，目标语音特征信息指目标语音声纹特征信息，可以理解的是，因为人在讲话时使用的发声器官如：舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，导致每个人的声纹均存在差异。故声纹特征信息是每个人特有的特征，如同每个人有自己独一无二的指纹一样。进一步的，目标语音特征信息包括目标语音信息的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)。

在一些实施方式中，为保证语音信息的目标语音特征信息的稳定性可以对语音信息进行去静音与去噪声的处理，生成处理后的语音信息；提取处理后的语音信息的目标语音特征信息并使用特征均值方差归一化与特征弯曲对目标语音特征信息进行处理。

在步骤S102中，将目标语音特征信息输入预设模型，以得到目标声纹参数。

其中，预设模型可以指通用背景模型(Universal Background Model，简称UBM模型)，通过将目标语音特征信息即目标声纹特征输入UBM模型，以得到包含目标用户的标识信息的目标声纹参数，其中，不同的目标声纹参数对应着不同的目标用户的标识信息，即通过每一段语音信息的目标声纹参数可以确定每一段语音信息的目标用户。同时，若不同的语音片段输出的目标声纹参数相同时，即可认定不同的语音片段的说话人为同一用户。另外，将目标语音特征信息输入预设模型，以得到目标声纹参数的过程即为根据目标声纹参数建立声纹模型的过程。可理解的是，不同的目标声纹参数分别对应不同目标用户的声纹模型。

在一些实施方式中，在将目标语音特征信息输入预设模型的步骤之前，还可以包括：通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，该背景数据包括每一目标用户的语音信息。

此时，将目标语音特征信息输入预设模型，以得到目标声纹参数的步骤，可以包括：

(1)将该目标语音特征信息输入预设模型，以得到与该共同语音特征信息相应的目标差异特征信息；

(2)根据该目标差异特征信息确定出第二声纹参数；

(3)对该第二声纹参数进行信道补偿，以得到相应的目标声纹参数。

其中，预设算法可以为EM算法，通过EM算法对背景数据进行训练，即对背景数据中的目标语音特征信息进行训练，以生成通用背景模型，并通过UBM模型获取每一目标用户相应的共同语音特征信息，此时，共同语音特征信息即为根据所有目标用户获取的对应的共同声纹特征。

进一步的，将目标语音特征信息输入UBM模型，根据目标语音特征信息与共同语音特征信息可计算得出与该共同语音特征信息相应的目标差异特征信息，并根据目标差异特征信息确定出每一语音信息对应的第二声纹参数，其中第二声纹参数中包含目标用户的标识信息。可理解的是，由于声纹的独特性，不同目标用户的目标语音特征信息是不同的，故根据获取与共同语音特征信息相应的目标差异特征信息来放大每一目标语音特征信息的差异性，从而相比于目标语音特征信息，根据目标差异特征信息能更准确确定每一语音信息对应的目标用户信息。

另外，由于背景数据中的语音信息与待识别的语音信息采集于不同的传输信道，导致存在很大的信道差异，从而导致识别性能下降，影响识别率。故对第二声纹参数进行信道补偿使得第二声纹参数能够最小化类内差异，最大化类间差异，以得到易区分的低维目标声纹参数。

在步骤S103中，获取播放视频中的待识别语音信息，并提取出待识别语音信息的第一声纹参数。

其中，获取播放视频中的待识别语音信息的方式可以包括实时获取正在播放的视频或者直播视频的待识别语音信息、或者获取本地存储的视频的待识别语音信息。另外，提取待识别语音信息的第一声纹参数的方法与上述提取目标声纹参数的过程相同，即为提取待识别语音信息中的第一语音特征信息，并将第一语音特征信息输入预设模型中，并根据预设模型中的每一目标用户对应的共同语音特征信息与第一语音特征信息计算得出与该共同语音特征信息相应的第一差异特征信息，并根据第一差异特征信息确定出待识别语音信息对应的第一声纹参数。

在步骤S104中，将第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将标识信息标识至播放视频中。

其中，将第一声纹参数与目标声纹参数进行匹配，并得到相应的匹配结果，根据匹配结果可确定第一声纹参数相匹配的目标声纹参数，其中，由于每一目标声纹参数分别对应着每一目标用户的信息，即目标声纹参数中包含相应的目标用户的标识信息，故可根据目标声纹参数确认第一声纹参数对应的目标用户的信息。

在一些实施方式中，将第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息的步骤，可以包括：

(1)将该第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；

(2)当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。

其中，当匹配值大于预设阈值时，即第一声纹参数与相匹配的目标声纹参数相似度极高可认定第一声纹参数的说话人与相匹配的目标声纹参数所对应的目标用户为同一用户，故可获取相匹配的目标声纹参数的标识信息作为第一声纹参数对应的待识别语音的标识信息。

另外，在一些实施方式中，将标识信息标识至播放视频中的步骤，可以包括：

(1.1)将该待识别语音信息输入语音识别模型，以生成相应的文本信息；

(2.1)将该标识信息与该文本信息相结合，以生成该待识别语音信息相应的字幕信息；

(3.1)将该字幕信息标识至该播放视频中。

其中，在将待识别语音信息输入至预设模型获取标识信息时，同步将待识别语音输入至语音识别模型获取文本信息，分别记录文本信息与标识信息所对应的时间信息，并根据时间信息将标识信息与文本信息相结合生成待识别语音信息的字幕信息，并根据时间信息将字幕信息标识至播放视频中。

在一些实施方式中，可以将字幕信息以预设组合方式标识至播放视频的预设位置，例如，将标识信息与字幕信息并排组合标识至播放视频画面的下方位置。或者将字幕信息中的标识信息以特殊形式标识播放视频的第一区域，同时将标识信息以不同形式将文本信息标识至播放视频的第二区域。例如，将标识信息以小于文本信息的字号添加至播放视频画面的上端位置，将文本信息添加至播放视频画面的下端位置。

由上述可知，本实施例提供的一种语音信息的处理方法，通过采集目标用户的语音信息，提取出该语音信息的目标语音特征信息；将目标语音特征信息输入预设模型，以得到目标声纹参数；获取播放视频中的待识别语音信息，并提取出该待识别语音信息的第一声纹参数；并将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将该标识信息标识至该播放视频中。以此可以实现将目标用户的标识信息例如身份信息标识至播放视频中，帮助用户在观看视频时能更好的理解视频的内容，以保证用户体验，同时通过声纹识别技术自动的将标识信息添加至播放视频中，大大减少了人工操作，节省了人力成本。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图2，图2为本申请实施例提供的语音信息的处理方法的另一流程示意图。

具体而言，该方法包括以下步骤：

在步骤S201中，采集目标用户的语音信息，提取出语音信息的目标语音特征信息。

其中，目标用户的语音信息是指经过标注后的语音信息，故目标用户的语音信息中包含目标用户的标识信息，进一步的，标识信息可以是指目标用户的身份信息，例如姓名、性别、年龄、称号等等个人信息。另外，目标语音特征信息指目标语音的声纹特征信息，由于声纹特征信息是每个人特有的特征，故可以根据声纹特征来区分语音信息对应的用户信息。

在步骤S202中，通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，背景数据包括每一目标用户的语音信息。

在步骤S203中，将目标语音特征信息输入预设模型，以得到与共同语音特征信息相应的目标差异特征信息。

其中，将每一段语音目标特征信息输入预设模型，此时，根据每一段语音对应的目标语音特征信息与步骤S202得到的所有目标用户的共同语音特征信息可得出目标差异特征信息。

在步骤S204中，根据目标差异特征信息确定出第二声纹参数；

其中，将目标差异特征信息通过全因子空间(Total Variability Space(TVS)-based model)的变换，可以得到第二声纹参数。其中，可以通过EM算法估计全因子空间的全因子矩阵。

在步骤S205中，利用线性鉴别分析的方法对第二声纹参数进行信道补偿，以得到相应的目标声纹参数。

其中，为了减少信道差异造成的识别精度下降问题，可以利用线性鉴别分析(LDA)的方法进行信道补偿，需要说明的是，LDA使用标签信息来寻找最优的投影方向，使得投影后的样本集具有最小的类内差异和最大的类间差异。当应用于声纹识别时，同一说话人的声纹参数的矢量代表一个类，最小类内差异就是减少信道引起的变化，最大化类间差异就是增大说话人之间的差异信息，从而经过线性鉴别分析的方法可以得到易区分的低维目标声纹参数。

另外，此时根据目标语音特征信息获取目标声纹参数的过程即为建立相应声纹模型的过程，此时声纹模型分别为每一目标用户对应的i-vector声纹模型。

在步骤S206中，获取播放视频中的待识别语音信息，并提取出待识别语音信息的第一声纹参数。

其中，提取待识别语音信息的语音特征信息，并将语音特征信息输入步骤S205中声纹模型，并根据UBM模型中的共同语音特征信息获取相应的目标差异特征信息；并将第一语音特征信息输入预设模型中，并根据预设模型中的每一目标用户对应的共同语音特征信息与第一语音特征信息计算得出与该共同语音特征信息相应的第一差异特征信息，并根据第一差异特征信息确定出待识别语音信息对应的第一声纹参数；并对该第一声纹参数进行信道补偿得到处理后的第一声纹参数。其中提取出待识别语音信息的第一声纹参数的步骤与上述提取目标声纹参数的步骤相同，在此不再赘述。

在步骤S207中，将第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值。

其中，将第一声纹参数分别与目标用户的目标声纹参数进行相似度匹配，生成相应的匹配值。

在步骤S208中，当匹配值大于预设阈值时，将匹配值进行排序处理，获取大于预设阈值的匹配值中的最大匹配值，根据最大匹配值获取相匹配的目标声纹参数。

其中，当匹配值大于预设阈值如0.8时，即此时第一声纹参数与相应的目标声纹参数匹配成功，可认定为该匹配值对应的第一声纹参数对应的目标用户与目标声纹参数对应的目标用户大概率下为同一用户。若大于预设阈值的匹配值为多个时，将大于预设阈值的匹配值进行排序处理，获取其中的最大匹配值。此时则认定最大匹配值对应的第一声纹参数对应的目标用户与目标声纹参数对应的目标用户大概率下为同一人，获取最大匹配值相应的目标声纹参数。

另外，在一些实施方式中，当匹配值均小于预设阈值时，代表第一声纹参数与目标声纹参数均不匹配，即待识别语音对应的说话人与模型中的目标用户不匹配，此时声纹模型输入不匹配的匹配结果。

在步骤S209中，根据目标声纹参数获取相应的标识信息。

其中，由于目标声纹参数中包含目标用户的标识信息，此时便可根据匹配成功的目标声纹参数获取对应的标识信息。

在步骤S210中，将待识别语音信息输入语音识别模型，以生成相应的文本信息。

其中，在将待识别语音信息输入声纹模型获取标识信息时，同步将待识别语音信息输入至语音识别模型以获取文本信息。

在步骤S211中，将标识信息与文本信息相结合，以生成待识别语音信息相应的字幕信息。

其中，在获取标识信息与文本信息时，分别记录文本信息与标识信息所对应的时间信息，并根据时间信息将标识信息与文本信息相结合生成待识别语音信息的字幕信息。

在步骤S212中，将字幕信息标识至播放视频中。

其中，根据时间信息将字幕信息标识至播放视频中的预设区域，以保证字幕信息与播放视频中的语音信息相同步。

由上述可知，本实施例提供的一种语音信息的处理方法，通过采集目标用户的语音信息，提取出该语音信息的目标语音特征信息；

将目标语音特征信息输入预设模型，以得到目标声纹参数；获取播放视频中的待识别语音信息，并提取出该待识别语音信息的第一声纹参数；并将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将该标识信息标识至该播放视频中。以此可以实现将目标用户的标识信息例如身份信息标识至播放视频中，帮助用户在观看视频时能更好的理解视频的内容，以保证用户体验。另外利用语音识别与声纹识别技术自动的为视频添加字幕信息，能够很大程度上减少人工标注操作，节省人力成本。

为便于更好的实施本申请实施例提供的语音信息的处理方法，本申请实施例还提供一种基于上述语音信息的处理方法的装置。其中名词的含义与上述语音信息的处理方法中相同，具体实现细节可以参考方法实施例中的说明。

本发明实施例提供一种视频语音的处理装置，包括：

采集单元，用于采集目标用户的语音信息，提取出该语音信息的目标语音特征信息；

获取单元，用于获取播放视频中的待识别语音信息，并提取出该待识别语音信息的第一声纹参数；

匹配单元，用于将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将该标识信息标识至该播放视频中。

在一实施方式中，该装置还可以包括：训练单元，用于通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，该背景数据包括每一目标用户的语音信息。

在一实施方式中，输入单元，可以包括：输入子单元，用于将该目标语音特征信息输入预设模型，以得到与该共同语音特征信息相应的目标差异特征信息；确定子单元，用于根据该目标差异特征信息确定出第二声纹参数；处理子单元，用于对该第二声纹参数进行信道补偿，以得到相应的目标声纹参数。

在一实施方式中，匹配单元，可以包括：匹配子单元，用于将该第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；获取子单元，用于当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。

在一实施方式中，匹配单元，还可以包括：生成子单元，用于将该待识别语音信息输入语音识别模型，以生成相应的文本信息；结合子单元，用于将该标识信息与该文本信息相结合，以生成该待识别语音信息相应的字幕信息；标识子单元，用于将该字幕信息标识至该播放视频中。

请参阅图3，图3为本申请实施例提供的语音信息的处理装置的模块示意图。具体而言，该语音信息的处理装置300包括：采集单元31、输入单元32、获取单元33以及匹配单元34。

采集单元31，用于采集目标用户的语音信息，提取出该语音信息的目标语音特征信息。

其中，采集单元31采集的目标用户的语音信息是指经过标注后的语音信息，故目标用户的语音信息中包含目标用户的标识信息，进一步的，标识信息可以是指目标用户的身份信息，例如姓名、性别、年龄、称号等等个人信息。

另外，采集单元31提取的目标语音特征信息指目标语音声纹特征信息，可以理解的是，因为人在讲话时使用的发声器官如：舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，导致每个人的声纹均存在差异。故声纹特征信息是每个人特有的特征，如同每个人有自己独一无二的指纹一样。进一步的，声纹特征信息可以用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)来表示。

输入单元32，用于将目标语音特征信息输入预设模型，以得到目标声纹参数。

其中，输入单元32通过将目标用户的语音信息的目标语音特征信息输入预设模型，以得到该语音信息相应的调整后的语音特征信息，另外，由于预设模型中包含有每一目标用户相应的共同语音特征信息，故输入单元32可根据调整后的语音特征信息与共同语音特征信息确定出相应的目标声纹参数。

获取单元33，用于获取播放视频中的待识别语音信息，并提取出该待识别语音信息的第一声纹参数。

其中，获取单元33中获取播放视频中的待识别语音信息的方式可以包括实时获取正在播放的视频或者直播视频的待识别语音信息、或者获取本地存储的视频的待识别语音信息。另外，获取单元33提取出该待识别语音信息的第一声纹参数的步骤与通过输入单元32获取目标声纹参数的步骤相同。

匹配单元34，用于将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将该标识信息标识至该播放视频中。

其中，匹配单元34将第一声纹参数与目标声纹参数进行匹配，并得到相应的匹配结果，根据匹配结果可确定第一声纹参数相匹配的目标声纹参数，其中，由于每一目标声纹参数分别对应着每一目标用户的信息，即目标声纹参数中包含相应的目标用户的标识信息，故可根据目标声纹参数确认第一声纹参数对应的目标用户的信息。

可一并参考图4，图4为本申请实施例提供的语音信息的处理装置的另一模块示意图。该语音信息的处理装置300还可以包括：训练单元35，用于通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，该背景数据包括每一目标用户的语音信息。

其中，输入单元32，可以包括：输入子单元321，用于将该目标语音特征信息输入预设模型，以得到与该共同语音特征信息相应的目标差异特征信息；确定子单元322，用于根据该目标差异特征信息确定出第二声纹参数；处理子单元323，用于对该第二声纹参数进行信道补偿，以得到相应的目标声纹参数。

其中，匹配单元34，可以包括：匹配子单元341，用于将该第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；获取子单元342，用于当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。生成子单元343，用于将该待识别语音信息输入语音识别模型，以生成相应的文本信息；结合子单元344，用于将该标识信息与该文本信息相结合，以生成该待识别语音信息相应的字幕信息；标识子单元345，用于将该字幕信息标识至该播放视频中。

本申请实施例还提供一种电子设备。请参阅图5，电子设备500包括处理器501以及存储器502。其中，处理器501与存储器502电性连接。

该处理器500是电子设备500的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器502内的计算机程序，以及调用存储在存储器502内的数据，执行电子设备500的各种功能并处理数据，从而对电子设备500进行整体监控。

该存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

在本申请实施例中，电子设备500中的处理器501会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中，并由处理器501运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

采集目标用户的语音信息，提取出语音信息的目标语音特征信息；

将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取播放视频中的待识别语音信息，并提取出待识别语音信息的第一声纹参数；

将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将标识信息标识至该播放视频中。

在某些实施方式中，将目标语音特征信息输入预设模型之前，处理器501还可以具体执行以下步骤：

通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，该背景数据包括每一目标用户的语音信息。

在某些实施方式中，将目标语音特征信息输入预设模型，以得到目标声纹参数时，处理器501可以具体执行以下步骤：

将该目标语音特征信息输入预设模型，以得到与该共同语音特征信息相应的目标差异特征信息；

根据该目标差异特征信息确定出第二声纹参数；

利用线性鉴别分析的方法对第二声纹参数进行信道补偿，以得到相应的目标声纹参数。

在某些实施方式中，将第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息时，处理器501可以具体执行以下步骤：

将该第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；

当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。

其中，在某些实施方式中，获取相匹配的目标声纹参数的标识信息时，处理器501可以具体执行以下步骤：

将该匹配值进行排序处理，获取大于预设阈值的匹配值中的最大匹配值，根据该最大匹配值获取相匹配的目标声纹参数；

根据该目标声纹参数获取该相应的标识信息。

在某些实施方式中，将标识信息标识至该播放视频中时，处理器501可以具体执行以下步骤：

将待识别语音信息输入语音识别模型，以生成相应的文本信息；

将该标识信息与文本信息相结合，以生成待识别语音信息相应的字幕信息；

将字幕信息标识至该播放视频中。

请一并参阅图6，在某些实施方式中，电子设备500还可以包括：显示器503、射频电路504、音频电路505以及电源506。其中，其中，显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。

该显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid Crystal Display，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

该射频电路504可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

该音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

该电源506可以用于给电子设备500的各个部件供电。在一些实施例中，电源506可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图6中未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。

本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上述任一实施例中的语音信息的处理方法，比如：采集目标用户的语音信息，提取出该语音信息的目标语音特征信息；将目标语音特征信息输入预设模型，以得到目标声纹参数；获取播放视频中的待识别语音信息，并提取出该待识别语音信息的第一声纹参数；将该第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将该标识信息标识至该播放视频中。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的语音信息的处理方法而言，本领域普通测试人员可以理解实现本申请实施例的语音信息的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如语音信息的处理方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的语音信息的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，该存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种语音信息的处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种语音信息的处理方法，其中，包括：

采集目标用户的语音信息，提取出所述语音信息的目标语音特征信息；

将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取播放视频中的待识别语音信息，并提取出所述待识别语音信息的第一声纹参数；

将所述第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将所述标识信息标识至所述播放视频中。
根据权利要求1所述的方法，其中，所述将目标语音特征信息输入预设模型的步骤之前，还包括：

通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，所述背景数据包括每一目标用户的语音信息。
根据权利要求2所述的方法，其中，所述将目标语音特征信息输入预设模型，以得到目标声纹参数的步骤，包括：

将所述目标语音特征信息输入预设模型，以得到与所述共同语音特征信息相应的目标差异特征信息；

根据所述目标差异特征信息确定出第二声纹参数；

对所述第二声纹参数进行信道补偿，以得到相应的目标声纹参数。
根据权利要求3所述的方法，其中，所述对所述第二声纹参数进行信道补偿的步骤，包括：

利用线性鉴别分析的方法对所述第二声纹参数进行信道补偿。
根据权利要求1所述的方法，其中，所述将所述第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息的步骤，包括：

将所述第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；

当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。
根据权利要求5所述的方法，其中，所述获取相匹配的目标声纹参数的标识信息的步骤，包括：

将所述匹配值进行排序处理，获取大于预设阈值的匹配值中的最大匹配值，根据所述最大匹配值获取相匹配的目标声纹参数；

根据所述目标声纹参数获取所述相应的标识信息。
根据权利要求1所述的方法，其中，所述将所述标识信息标识至所述播放视频中的步骤，包括：

将所述待识别语音信息输入语音识别模型，以生成相应的文本信息；

将所述标识信息与所述文本信息相结合，以生成所述待识别语音信息相应的字幕信息；

将所述字幕信息标识至所述播放视频中。
一种语音信息的处理装置，其中，包括：

采集单元，用于采集目标用户的语音信息，提取出所述语音信息的目标语音特征信息；

输入单元，用于将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取单元，用于获取播放视频中的待识别语音信息，并提取出所述待识别语音信息的第一声纹参数；

匹配单元，用于将所述第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将所述标识信息标识至所述播放视频中。
根据权利要求8所述的装置，其中，所述装置还包括：

训练单元，用于通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，所述背景数据包括每一目标用户的语音信息。
根据权利要求9所述的装置，其中，所述输入单元，包括：

输入子单元，用于将所述目标语音特征信息输入预设模型，以得到与所述共同语音特征信息相应的目标差异特征信息；

确定子单元，用于根据所述目标差异特征信息确定出第二声纹参数；

处理子单元，用于对所述第二声纹参数进行信道补偿，以得到相应的目标声纹参数。
根据权利要求8所述的装置，其中，所述匹配单元，包括：

匹配子单元，用于将所述第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；

获取子单元，用于当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。
根据权利要求11所述的装置，其中，所述匹配单元，还包括：

生成子单元，用于将所述待识别语音信息输入语音识别模型，以生成相应的文本信息；

结合子单元，用于将所述标识信息与所述文本信息相结合，以生成所述待识别语音信息相应的字幕信息；

标识子单元，用于将所述字幕信息标识至所述播放视频中。
一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1所述的语音信息的处理方法。
一种电子设备，包括处理器和存储器，所述存储器有计算机程序，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

采集目标用户的语音信息，提取出所述语音信息的目标语音特征信息；

将目标语音特征信息输入预设模型，以得到目标声纹参数；

获取播放视频中的待识别语音信息，并提取出所述待识别语音信息的第一声纹参数；

将所述第一声纹参数与目标声纹参数进行匹配，根据匹配结果获取相匹配的目标声纹参数的标识信息，并将所述标识信息标识至所述播放视频中。
根据权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，还用于执行步骤：

通过预设算法对背景数据进行训练，以生成包含有每一目标用户相应的共同语音特征信息的预设模型，所述背景数据包括每一目标用户的语音信息。
根据权利要求15所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

将所述目标语音特征信息输入预设模型，以得到与所述共同语音特征信息相应的目标差异特征信息；

根据所述目标差异特征信息确定出第二声纹参数；

对所述第二声纹参数进行信道补偿，以得到相应的目标声纹参数。
根据权利要求16所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

利用线性鉴别分析的方法对所述第二声纹参数进行信道补偿。
根据权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

将所述第一声纹参数与目标声纹参数进行匹配，生成相应的匹配值；

当匹配值大于预设阈值时，获取相匹配的目标声纹参数的标识信息。
根据权利要求18所述的电子设备，所述处理器通过调用所述计算机程序，用于执行步骤：

将所述匹配值进行排序处理，获取大于预设阈值的匹配值中的最大匹配值，根据所述最大匹配值获取相匹配的目标声纹参数；

根据所述目标声纹参数获取所述相应的标识信息。
根据权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

将所述待识别语音信息输入语音识别模型，以生成相应的文本信息；

将所述标识信息与所述文本信息相结合，以生成所述待识别语音信息相应的字幕信息；

将所述字幕信息标识至所述播放视频中。