WO2021196802A1 - 多模态语音识别模型训练方法、装置、设备及存储介质 - Google Patents

多模态语音识别模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2021196802A1
WO2021196802A1 PCT/CN2020/142166 CN2020142166W WO2021196802A1 WO 2021196802 A1 WO2021196802 A1 WO 2021196802A1 CN 2020142166 W CN2020142166 W CN 2020142166W WO 2021196802 A1 WO2021196802 A1 WO 2021196802A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
recognition model
modal
speech recognition
voice signal
Prior art date
Application number
PCT/CN2020/142166
Other languages
English (en)
French (fr)
Inventor
景子君
潘嘉
吴华鑫
Original Assignee
科大讯飞股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 科大讯飞股份有限公司 filed Critical 科大讯飞股份有限公司
Publication of WO2021196802A1 publication Critical patent/WO2021196802A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Definitions

  • This application relates to the field of machine learning technology, and more specifically, to a training method, device, equipment, and storage medium for a multi-modal speech recognition model.
  • said using the sample voice signal to obtain the weight of each basic image feature includes:
  • the voice features of the sample voice signal of the second language are used to process each basic image feature in the preset data set to obtain the same The target image characteristics corresponding to the sample voice signal;
  • speech recognition is performed according to the voice features of the sample voice signal of the second language and the target image feature corresponding to the sample voice signal of the second language to obtain the second The speech recognition result of the sample speech signal of the language;
  • said acquiring the characteristics of several known lip-related images includes:
  • FIG. 1b is another implementation flowchart of the multimodal speech recognition model training method disclosed in an embodiment of this application.
  • FIG. 5 is a flow chart for implementing further training of the first multimodal speech recognition model using sample speech signals in the second language after the first multimodal speech recognition model is obtained according to an embodiment of the application;
  • Fig. 6a is a schematic structural diagram of a multi-modal speech recognition model training device disclosed in an embodiment of the application.
  • FIG. 7 is a block diagram of the hardware structure of the multi-modal speech recognition model training device disclosed in an embodiment of the application.
  • the basic idea of the solution of this application is to use single audio data (that is, only the voice of the speaker is collected, but the video of the speaker is not collected), or it can be combined with the audio data and video data collected simultaneously, which is richer and richer.
  • the training data set in the training process of the modal speech processing model thereby improving the generalization ability of the multi-modal speech processing model, and improving the reliability of the multi-modal speech recognition.
  • Step S111 Obtain training data through a multi-modal speech recognition model.
  • the lip movement-related area can refer to only the lip area; or,
  • Step S213 Obtain the feature of each basic lip movement related region image as a basic image feature.
  • the image feature extraction model can be used to obtain the features of the basic lip movement-related region image.
  • the image feature extraction model may specifically be: the image feature of the lip language recognition model trained with the lip movement-related region image and the corresponding lip pronunciation content as the training data for feature extraction of the lip movement-related region image Extract the module.
  • the basic lip movement-related region image can be input into the lip language recognition model, and the feature output by the image feature extraction module in the lip language recognition model is the basic image feature.
  • the specific structure of the lip language recognition model is not limited, but no matter what the structure of the lip language recognition model is, the image feature extraction module may be included.
  • the lip language recognition model may include: an image feature extraction module for extracting features of an image sequence input to the lip language recognition model; a lip language recognition module for extracting features based on the image feature extraction module Features of lip language recognition.
  • Fig. 2b is another implementation flow chart of obtaining basic image features based on known lip movement-related region images according to an embodiment of the application, which may include:
  • Step S221 Acquire several known features of lip movement related region images.
  • Step S222 clustering several known features of lip movement related region images to obtain multiple clusters.
  • the target cluster can be determined according to the cluster center of the cluster cluster to which the target cluster center belongs, the characteristics of the image of the lip movement-related region, and the number of image features in the cluster cluster to which the target cluster center belongs The new cluster center of the cluster to which the center belongs.
  • Both the first space conversion parameter and each subspace conversion parameter may be a space conversion matrix.
  • the voice samples used to train the voice recognition model may include the voice samples used to train the above-mentioned multi-modal voice recognition model, or may not include the above-mentioned voice samples used to train the above-mentioned multi-modal voice recognition model. There is no specific limitation.
  • the specific structure of the lip language recognition model is not limited, but no matter what the structure of the lip language recognition model is, the image feature extraction module may be included.
  • the lip language recognition model may include: an image feature extraction module for extracting features of an image sequence input to the lip language recognition model; a recognition module for extracting features based on the image feature extraction module Perform lip recognition.
  • the training process of the lip recognition model is not limited, and existing or possible future training methods can be used.
  • the speech signal contained in the above training data is the speech signal of the first language.
  • the trained multi-modal speech recognition model can be used to perform Speech recognition in the first language.
  • the first language can be any language, for example, it can be any of the following languages: Chinese, English, Korean, Japanese, French, Italian, etc.
  • the training data set of the first language has audio and video synchronization data, but the training data set of the second language does not have audio and video synchronization data, you can first use the training data set of the first language to train the multi-modal speech recognition model according to the aforementioned method
  • the training data set of the second language is used to further train the trained first multimodal speech recognition model to obtain the second Multi-modal speech recognition model
  • the second multi-modal speech recognition model can use the audio and video synchronization data of the second language to realize multi-modal speech recognition.
  • FIG. 5 an implementation flow chart of further training the first multimodal speech recognition model using sample speech signals of the second language is shown in Fig. 5, which may include:
  • Step S52 Through the image feature generating module 42 of the first multi-modal speech recognition model, the voice features of the sample voice signal of the second language are used to process each of the basic image features in the preset data set to obtain the image feature in the second language.
  • the target image feature corresponding to the sample voice signal is used to process each of the basic image features in the preset data set to obtain the image feature in the second language.
  • the process for the multi-modal speech recognition model to obtain the speech recognition result may include:
  • the multimodal voice recognition model acquires the voice feature of the voice signal to be recognized and the feature of the lip motion-related area image, according to The voice feature of the voice signal to be recognized and the feature of the image of the lip movement-related area are subjected to voice recognition, and the voice recognition result corresponding to the voice signal to be recognized is obtained.
  • a schematic structural diagram of a multi-modal speech recognition model training device may include:
  • the data acquisition module 611 is configured to acquire training data through the multi-modal speech recognition model
  • the first feature acquisition module 612 is configured to, if the training data only contains sample voice signals, use the sample voice signals to process each basic image feature in the preset data set through the multi-modal voice recognition model to obtain and The target image feature corresponding to the sample voice signal; the basic image feature is obtained according to the known lip movement related region image;
  • the recognition module 613 is configured to perform voice recognition according to the voice feature of the sample voice signal and the target image feature through the multi-modal voice recognition model to obtain a voice recognition result of the sample voice signal;
  • the update module 614 is configured to use the multi-modal speech recognition model to target the speech recognition result of the sample speech signal to approach the speech content of the sample speech signal, and perform the parameters of the multi-modal speech recognition model. renew.
  • the target acquisition module is configured to use the weight of each basic image feature through the multi-modal speech recognition model to sum the weight of each basic image feature to obtain the target image feature corresponding to the sample voice signal.
  • the weight obtaining module may include:
  • a spatial conversion module configured to perform spatial conversion on the voice features of the sample voice signals and each basic image feature by using the spatial conversion parameters through the multi-modal voice recognition model if the training data only contains sample voice signals;
  • updating the parameters of the multi-modal speech recognition model by the updating module 614 includes: updating the spatial conversion parameters.
  • the sample speech signal is a speech signal in a first language; the multi-modal speech recognition model training device is further used to: pass the speech feature extraction module of the multi-modal speech recognition model , To obtain the voice features of the sample voice signal in the second language;
  • the multi-modal speech recognition model training device may further include:
  • the basic image feature acquisition module is used to acquire the image sequence of the lip movement-related area synchronously collected with several known voice signals; sample each lip-motion-related area image sequence separately to obtain the basic lip-motion correlation corresponding to each voice signal Regional image; acquiring the feature of each basic lip movement-related regional image as the basic image feature.
  • the multi-modal speech recognition model training device may further include:
  • the basic image feature acquisition module is used to acquire the features of several known lip movement-related area images; cluster the features of the several known lip movement-related area images to obtain multiple clusters; extract each cluster The cluster center of the cluster is used as the basic image feature.
  • the basic image feature acquisition module acquires several known features of lip-related images, it is specifically used to:
  • the image feature extraction model is used to obtain the features of the several known lip movement-related region images.
  • the image feature extraction model is: in the lip language recognition model trained with the lip movement-related region image and its corresponding lip pronunciation content as training data, it is used to identify the lip movement-related region.
  • Image feature extraction module for image feature extraction.
  • FIG. 6b another schematic structural diagram of the multi-modal speech recognition model training device provided by this embodiment of the application may include:
  • Data acquisition module 621 first feature acquisition module 622, second feature acquisition module 623, identification module 624 and update module 625; among them,
  • the recognition module 624 is configured to perform voice recognition according to the voice feature of the sample voice signal and the target image feature through the multi-modal voice recognition model, to obtain a voice recognition result of the sample voice signal;
  • the training data in the training process of the multi-modal speech processing model, is not limited to the audio data and video data collected synchronously, but also includes single audio signals (that is, unsynchronized Collecting video signals), and the data set used to generate the image features corresponding to the single audio signal, further enrich the training data set in the training process of the multi-modal speech processing model, thereby further improving the generalization of the multi-modal speech processing method Ability, it further improves the reliability of the multi-modal speech recognition model.
  • the recognition object acquisition module is used to acquire the object to be recognized, the object to be recognized is a speech signal to be recognized, or the object to be recognized is a speech signal to be recognized, and is related to the lip movement collected synchronously with the speech signal to be recognized Area image
  • the multi-modal recognition module is used to input the object to be recognized into a multi-modal speech recognition model to obtain a speech recognition result; wherein, the multi-modal speech recognition model adopts the multi-modal speech recognition model described in any of the above embodiments.
  • the recognition model training method is trained.
  • the number of the processor 1, the communication interface 2, the memory 3, and the communication bus 4 is at least one, and the processor 1, the communication interface 2, and the memory 3 communicate with each other through the communication bus 4;
  • the memory stores a program
  • the processor can call the program stored in the memory, and the program is used for:
  • the parameters of the multi-modal voice recognition model are updated.
  • the object to be recognized is input into a multi-modal speech recognition model to obtain a speech recognition result; wherein, the multi-modal speech recognition model is obtained through training of the multi-modal speech recognition model training method described in any one of the above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种多模态语音识别模型训练方法、装置、设备及存储介质,在多模态语音识别模型的训练过程中,训练数据包含单音频信号,以及用于基于单音频信号生成对应的图像特征的数据集,丰富了多模态语音识别模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。

Description

多模态语音识别模型训练方法、装置、设备及存储介质
本申请要求于2020年03月31日提交中国专利局、申请号为202010247184.7、发明创造名称为“多模态语音识别模型训练方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及机器学习技术领域,更具体地说,涉及一种多模态语音识别模型训练方法、装置、设备及存储介质。
背景技术
传统的语音识别技术是通过仅对语音信号进行处理得到识别结果,这种语音识别方法在语音清晰的环境下已经能够达到很高的识别效果。然而,在一些高噪声,远场的环境下,传统的语音识别技术的识别率会迅速下降。为了提高语音识别率,有方案提出借助唇部动作视频协助进行语音识别的多模态语音识别方法,在一定程度上提高了高噪声场景下语音的识别率。
然而,现有的用于多模态语音识别的多模态语音识别模型的泛化能力弱,导致多模态语音识别模型的可靠性差。
因此,如何提高多模态语音识别模型的可靠性成为亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种多模态语音识别模型训练方法、装置、设备及存储介质,以提高多模态语音识别模型的可靠性。
为了实现上述目的,现提出的方案如下:
一种多模态语音识别模型训练方法,包括:
通过所述多模态语音识别模型获取训练数据;
若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
上述方法,优选的,还包括:
若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则所述多模态语音识别模型获取所述唇动相关区域图像的特征,作为与所述样本语音信号对应的目标图像特征。
上述方法,优选的,所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,包括:
利用所述样本语音信号获得各个基本图像特征的权重;
利用各个基本图像特征的权重,将所述各个基本图像特征加权求和,得到与所述样本语音信号对应的目标图像特征。
上述方法,优选的,所述利用所述样本语音信号获得各个基本图像特征的权重,包括:
利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换;
利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。
上述方法,优选的,所述对所述多模态语音识别模型的参数进行更新,包括对所述空间转换参数的更新。
上述方法,优选的,所述样本语音信号为第一语种的语音信号;在所述多模态语音识别模型训练好之后,还包括:
通过所述多模态语音识别模型的语音特征提取模块,获取第二语种的样本语音信号的语音特征;
通过所述多模态语音识别模型的图像特征生成模块,利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理,得到与所述第二语种的样本语音信号对应的目标图像特征;
通过所述多模态语音识别模型的识别模块,根据所述第二语种的样本语音 信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别,得到所述第二语种的样本语音信号的语音识别结果;
以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标,对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。
上述方法,优选的,根据已知的唇动相关区域图像获得基本图像特征的过程,包括:
获取与若干已知的语音信号同步采集的唇动相关区域图像序列;
分别对每个唇动相关区域图像序列进行采样,得到每一个语音信号对应的基本唇动相关区域图像;
获取每一个基本唇动相关区域图像的特征,作为所述基本图像特征。
上述方法,优选的,根据已知的唇部相关图像获得基本图像特征的过程,包括:
获取若干已知的唇动相关区域图像的特征;
将所述若干已知的唇动相关区域图像的特征聚类,得到多个聚类簇;
提取每个聚类簇的聚类中心,作为所述基本图像特征。
上述方法,优选的,所述将所述若干已知的唇部相关图像的特征聚类,包括:
对于每一个待聚类的唇动相关区域图像的特征,确定与该唇动相关区域图像的特征的距离最小的聚类中心,作为目标聚类中心;
将该唇动相关区域图像的特征聚合到所述目标聚类中心所属的聚类簇;
更新所述目标聚类中心所属的聚类簇的聚类中心。
上述方法,优选的,所述获取若干已知的唇部相关图像的特征,包括:
利用图像特征提取模型获取所述若干已知的唇动相关区域图像的特征。
上述方法,优选的,所述图像特征提取模型为:以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中,用于对唇动相关区域图像进行特征提取的图像特征提取模块。
一种语音识别方法,包括:
获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别 对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像;
将所述待识别对象输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如上任意一项所述的多模态语音识别模型训练方法训练得到。
一种多模态语音识别模型训练装置,包括:
数据获取模块,用于通过所述多模态语音识别模型获取训练数据;
第一特征获取模块,用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
识别模块,用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
更新模块,用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
一种语音识别装置,包括:
识别对象获取模块,用于获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像;
多模态识别模块,用于将所述待识别对象输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如上任意一项所述的多模态语音识别模型训练方法训练得到。
一种设备,包括:包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上任一项所述的多模态语音识别模型训练方法的各个步骤,或者,实现如上所述的语音识别方法的各个步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处 理器执行时,实现如上任一项所述的多模态语音识别模型训练方法的各个步骤,或者,实现如上所述的语音识别方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的多模态语音识别模型训练方法、装置、设备及存储介质,多模态语音识别模型获取训练数据后,若训练数据仅包含样本语音信号,则利用样本语音信号,对根据已知的唇部相关图像获得的预置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征;根据样本语音信号的语音特征和目标图像特征进行语音识别,得到样本语音信号的语音识别结果;以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标,对多模态语音识别模型的参数进行更新。基于本申请的模型训练方案,在多模态语音处理模型的训练过程中,训练数据可以包含单音频信号(即未同步采集视频信号),以及用于基于单音频信号生成对应的图像特征的数据集,丰富了多模态语音处理模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1a为本申请实施例公开的多模态语音识别模型训练方法的一种实现流程图;
图1b为本申请实施例公开的多模态语音识别模型训练方法的另一种实现流程图;
图2a为本申请实施例公开的根据已知的唇动相关区域图像获得基本图像特征的一种实现流程图;
图2b为本申请实施例公开的根据已知的唇动相关区域图像获得基本图像特征的另一种实现流程图;
图3为本申请实施例公开的多模态语音识别模型利用样本语音信号对预 置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征的一种实现流程图;
图4为本申请实施例公开的多模态语音识别模型的一种结构示意图;
图5为本申请实施例公开的在得到第一多模态语音识别模型之后,利用第二语种的样本语音信号对第一多模态语音识别模型进行进一步训练的一种实现流程图;
图6a为本申请实施例公开的多模态语音识别模型训练装置的一种结构示意图;
图6b为本申请实施例公开的多模态语音识别模型训练装置的另一种结构示意图;
图7为本申请实施例公开的多模态语音识别模型训练设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人研究发现,目前的多模态语音识别模型是通过音视频同步数据(即,同步采集了发声人的语音和唇部视频)进行训练得到的,而音视频同步数据获取难度较大,数量较少,导致目前的多模态语音识别模型只能在小数据集上训练,这造成了多模态语音识别模型的泛化性差,存在过拟合现象。即训练好的多模态语音识别模型在训练数据集上效果好,但在测试数据集上效果差。
为了克服上述技术问题,本申请方案的基本思想是可以通过单音频数据(即只采集了发声人的语音,未采集发声人的视频),也可以结合同步采集的音频数据和视频数据,丰富多模态语音处理模型训练过程中的训练数据集,从而提高多模态语音处理模型的泛化能力,提高多模态语音识别的可靠性。
基于上述基本思想,本申请实施例提供的多模态语音识别模型训练方法的 一种实现流程图如图1a所示,可以包括:
步骤S111:通过多模态语音识别模型获取训练数据。
该训练数据可能仅包含样本语音信号,也可能既包含样本语音信号,又包含与该样本语音信号同步采集的唇动相关区域图像。也就是说,用于对多模态语音识别模型进行训练的训练数据集中可能包含两类训练数据,其中,一类为单语音信号,另一类为同步采集的语音信号和视频。本申请实施例中,将训练数据集中的语音信号统称为样本语音信号。
步骤S112:若训练数据仅包含样本语音信号,则通过多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征;基本图像特征根据已知的唇动相关区域图像获得。
若训练数据仅包含样本语音信号,说明在采集该样本语音信号时未同步采集唇动相关区域图像。
已知的唇动相关区域图像是指音视频同步数据中的图像或图像中的部分。其中,
唇动相关区域可以是指仅唇部区域;或者,
唇动相关区域可以是唇部及其周围区域,比如,唇部和下巴区域;或者,
唇动相关区域可以是整个脸部区域。
本申请实施例中,预先根据若干已知的唇动相关区域图像确定基本图像特征集,即上述预置数据集。在对多模态语音识别模型进行训练的过程中,若训练数据为单语音,则利用单语音和基本图像特征集生成与单语音对应的虚拟唇语特征作为与样本语音信号对应的目标图像特征。
基本图像特征的获取方式有多种,下面列举两种优选的实现方式进行说明:
请参阅图2a,图2a为本申请实施例提供的根据已知的唇动相关区域图像获得基本图像特征的一种实现流程图,可以包括:
步骤S211:获取与若干已知的语音信号同步采集的唇动相关区域图像序列。
假设有N个已知的语音信号同步采集了唇动相关区域图像序列,则唇动 相关区域图像序列的个数也为N。
步骤S212:分别对每个唇动相关区域图像序列进行采样,得到每一个语音信号对应的基本唇动相关区域图像。
每个唇动相关区域图像序列的采样率不做具体限定,可以每个唇动相关区域图像序列中仅采样一帧唇动相关区域图像,也可以每个唇动相关区域图像序列中采样两帧或更多帧唇动相关区域图像。
具体的采样方式可以为随机采样,或者,可以按照预定的采样方式进行采样。比如,每Q帧中采样1帧等。
步骤S213:获取每一个基本唇动相关区域图像的特征,作为基本图像特征。
可选的,可以利用图像特征提取模型获取基本唇动相关区域图像的特征。其中,图像特征提取模型具体可以为:以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中,用于对唇动相关区域图像进行特征提取的图像特征提取模块。具体的,可以将基本唇动相关区域图像输入唇语识别模型,该唇语识别模型中的图像特征提取模块输出的特征即为基本图像特征。
本申请实施例中,不对唇语识别模型的具体架构进行限定,但不管唇语识别模型的架构是怎样的,均可以包含图像特征提取模块。比如,在一可选的实施例中,唇语识别模型可以包括:图像特征提取模块,用于提取输入唇语识别模型的图像序列的特征;唇语识别模块,用于根据图像特征提取模块提取的特征进行唇语识别。唇语识别模型的训练过程可以包括但不限于以下的实现方式:将唇动相关区域图像样本输入唇语识别模型,得到唇语识别模型输出的文本内容,以唇语识别模型输出的文本内容趋近于唇动相关区域图像样本对应的发音内容为目标,对唇语识别模型的参数进行更新,得到训练好的唇语识别模型。
请参阅图2b,图2b为本申请实施例提供的根据已知的唇动相关区域图像获得基本图像特征的另一种实现流程图,可以包括:
步骤S221:获取若干已知的唇动相关区域图像的特征。
该若干已知的唇动相关区域图像可以是与多个已知的语音信号同步采集 的唇动相关区域图像序列中的所有图像。唇动相关区域图像的特征可以是利用图2a所示实施例中的图像特征提取模型获取的唇动相关区域图像的特征。唇动相关区域图像的特征可以为一定维度的特征向量,比如,512维的特征向量,或者,1024维的特征向量,或者,256维的特征向量,或者128维的特征向量等等。可选的,唇语识别模块是一个帧分类网络,其可以仅包含一层全连接,使得唇语识别模型中的图像特征提取模块提取的特征能够更直接的反映唇语特征,为基本图像特征的获取提供便利。
步骤S222:将若干已知的唇动相关区域图像的特征聚类,得到多个聚类簇。
可选的,可以对所有的特征向量进行基于余弦距离的聚类,比如,kmeans聚类。聚类的类别数可以为128,或者,56,或者,256等等,还可以为其它数量,这里不做具体限定。具体聚类过程可以包括:
对于每一个待聚类的唇动相关区域图像的特征,确定与该唇动相关区域图像的特征的距离最小的聚类中心,作为目标聚类中心;即,对于每一个待聚类的唇动相关区域图像的特征,分别计算该唇动相关区域图像的特征与每一个聚类中心的距离,将计算得到的各个距离进行比较,确定最小距离。具体的,唇动相关区域图像的特征P与聚类中心Center的距离Distance可以通过如下公式计算得到:
Figure PCTCN2020142166-appb-000001
将该唇动相关区域图像的特征聚合到目标聚类中心所属的聚类簇。若该唇动相关区域图像的特征与聚类中心J的距离最小,则将该唇动相关区域图像的特征聚合到目标聚类中心J所属的聚类簇。
更新目标聚类中心所属的聚类簇的聚类中心。可选的,可以根据目标聚类中心所属的聚类簇的聚类中心、该唇动相关区域图像的特征,以及目标聚类中心所属的聚类簇中的图像特征的数量,确定目标聚类中心所属的聚类簇的新的聚类中心。具体的,假设目标聚类中心所属的聚类簇更新前,该聚类簇中有n个成员,即1个聚类中心(为便于叙述,记为Center n-1),以及该聚类中心的n-1个聚类点(即聚合到聚类中心所属的聚类簇中的唇动相关区域图像的特征), 将唇动相关区域图像的特征P聚合到目标聚类中心所属的聚类簇后,该目标聚类中心所属的聚类簇的聚类中心更新为Center n,则更新后的聚类中心Center n可以通过如下公式得到:
Figure PCTCN2020142166-appb-000002
步骤S223:提取每个聚类簇的聚类中心,作为基本图像特征。
步骤S113:通过多模态语音识别模型根据样本语音信号的语音特征和样本语音信号对应的目标图像特征进行语音识别,得到样本语音信号的语音识别结果。
步骤S114:通过多模态语音识别模型以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标,对多模态语音识别模型的参数进行更新。
本申请实施例公开的多模态语音识别模型训练方法,在多模态语音处理模型的训练过程中,训练数据可以包含单音频信号(即未同步采集视频信号),以及用于基于单音频信号生成对应的图像特征的数据集,丰富了多模态语音处理模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。
为了进一步丰富训练集,训练数据还可以包括同步采集的音频数据和视频数据,基于此,请参阅图1b,图1b为本申请实施例提供的多模态语音识别模型训练方法的另一种实现流程图,可以包括:
步骤S121:通过多模态语音识别模型获取训练数据。
步骤S122:若训练数据仅包含样本语音信号,则通过多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征;基本图像特征根据已知的唇动相关区域图像获得。
步骤S121-步骤S122的具体实现方式可以参看前述步骤S111-步骤S112,这里不再赘述。
步骤S123:若训练数据同时包含样本语音信号及与之同步采集的唇动相 关区域图像,则通过多模态语音识别模型获取唇动相关区域图像的特征,作为与样本语音信号对应的目标图像特征。
若训练数据同时包含语音和唇动相关区域图像,则直接从唇动相关区域图像中提取特征,得到与样本语音信号对应的目标图像特征。本申请实施例中,不管唇动相关区域图像是直接采集的,还是从采集的图像中裁剪得到的,均统称为与语音信号同步采集的唇动相关区域图像。
步骤S124通过多模态语音识别模型根据样本语音信号的语音特征和样本语音信号对应的目标图像特征进行语音识别,得到样本语音信号的语音识别结果。
步骤S125:通过多模态语音识别模型以样本语音信号的语音识别结果趋近于样本语音信号的语音内容为目标,对多模态语音识别模型的参数进行更新。
步骤S124-步骤S125的具体实现方式可以参看前述步骤S113-步骤S114,这里不再赘述。
本申请实施例中,训练数据集中包括两类训练数据(一类训练数据为单语音数据,另一类训练数据为同步采集的音频数据和视频数据),基于该训练数据集对多模态语音识别模型进行训练,可以进一步提高多模态语音处理方法的泛化能力,从而进一步提高多模态语音识别模型的可靠性。
在一可选的实施例中,多模态语音识别模型利用样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征的一种实现流程图如图3所示,可以包括:
步骤S31:利用样本语音信号获得各个基本图像特征的权重。
对于同一基本图像特征而言,样本语音信号不同,该基本图像特征的权重可能是不同的。
可选的,可以利用空间转换参数对样本语音信号的语音特征以及各个基本图像特征分别进行空间转换,利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。通过将样本语音信号的语音特征以及各个基本图像特征分别进行空间转换,使得转换后的语音特征,以及转换后的基 本图像特征处于同一空间,从而能准确得到各个基本图像特征的权重。
其中,可以利用第一空间转换参数对样本语音信号的语音特征进行空间转换,得到转换后的语音特征,利用第二空间转换参数对基本图像特征进行空间转换,得到转换后的基本图像特征。第二空间转换参数由多个子空间转换参数组成,每个基本图像特征对应一个子空间转换参数。
第一空间转换参数和各个子空间转换参数均可以为空间转换矩阵。
可选的,可以利用如下公式计算语音特征为A时,第i(i=1,2,3,……,n;n为预置数据集中的基本图像特征的数量)个基本图像特征的权重a Ai
Figure PCTCN2020142166-appb-000003
其中,K A表示语音特征A对应的空间转换矩阵;M i表示第i个基本图像特征;
Figure PCTCN2020142166-appb-000004
表示第i个基本图像特征M i对应的空间转换矩阵;
Figure PCTCN2020142166-appb-000005
表示第j个基本图像特征M j对应的空间转换矩阵;M j表示第j个基本图像特征。
Figure PCTCN2020142166-appb-000006
体现了语音特征A与第i个基本图像特征M i的相关性,本申请实施例中,利用进行空间转换得到的转换后的语音特征,以及转换后的基本图像特征计算语音特征A与第i个基本图像特征M i的相关性,保证了语音特征A与第i个基本图像特征M i的相关性的准确性,从而保证计算得到各个基本图像特征的权重的准确性。
步骤S32:利用各个基本图像特征的权重,将各个基本图像特征加权求和,得到与样本语音信号对应的目标图像特征。
如果对语音信号进行特征提取得到语音特征A,则语音特征A对应的目标图像特征M Ao用公式可以表示为:
Figure PCTCN2020142166-appb-000007
在一可选的实施例中,上述多模态语音识别模型的一种结构示意图如图4所示,可以包括:
语音特征提取模块41,图像特征生成模块42,图像特征提取模块43和识别模块44;其中,
语音特征提取模块41用于获取样本语音信号的语音特征。语音特征可以为声学特征(比如fbank特征,或者,梅尔频率倒谱系数(MFCC)特征等)的隐层特征。
图像特征生成模块42用于若多模态语音识别模型获取的训练数据仅包含样本语音信号,则利用样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与样本语音信号对应的目标图像特征。
图像特征提取模块43用于若多模态语音识别模型获取的训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则对该唇动相关区域图像进行特征提取,得到与样本语音信号对应的目标图像特征。
在采集音视频同步数据的实时,通常是采集一定时长的音频信号,以及该一定时长内的视频。
以唇动相关区域图像仅包含唇部区域为例,唇动相关区域区域图像可以为以嘴部中心点为中心,在采集的视频图像中取预定大小的嘴部区域图像。预定大小可以为80×80。
采集的视频帧率通常为25fps,为了与视频数据同步,本申请实施例中,对采集的语音信号采用滑窗进行分帧,具体的,可以通过窗长为25ms,帧移为10ms的滑动窗口在采集得到的语音信号中进行滑动得到100fps的语音帧,对于每个语音帧,进行初始特征(比如fbank特征)提取,得到初始fbank特征序列,该初始fbank特征为40维向量。本申请实施例中,输入多模态语音识别模型的样本语音信号为样本语音信号的100fps的初始fbank特征序列。图像特征提取模块43对该100fps的初始fbank特征序列进行特征提取,得到25fps的512维的语音特征向量(通常为隐层特征)。
识别模块44用于根据语音特征和目标图像特征进行语音识别,得到样本语音信号的语音识别结果。具体的,识别模块将语音特征和目标图像特征进行 融合,得到融合特征,然后利用融合特征进行语音识别,得到语音识别结果。
该多模态语音识别模型的损失函数Loss可以为:
Loss=α*CELoss(φ(A,V),Label)+(1-α)*CELoss(φ M(A,M),Label)
其中,若多模态语音识别模型获取的训练数据仅包含样本语音信号,则α=0,若多模态语音识别模型获取的训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则α=1。φ(A,V)表示训练数据同时包含样本语音信号及唇动相关区域图像时多模态语音识别模型的输出;φ M(A,M)表示训练数据仅包含样本语音信号时多模态语音识别模型的输出;Label表示训练数据对应的标签,即真实语音内容;CELoss表示交叉熵损失函数,当然,本申请实施例中,损失函数并不限于交叉熵损失函数,还可以是其它损失函数,本申请不做具体限定。
在一可选的实施例中,上述对多模态语音识别模型的参数进行更新包括对上述语音特征提取模块41的参数,图像特征生成模块42的参数,图像特征提取模块43的参数和识别模块44的参数的更新。其中,图像特征生成模块42的参数包括上述空间转换参数,因此,上述对多模态语音识别模型的参数进行更新包括对上述空间转换参数的更新。
在一可选的实施例中,为了进一步提高多模态语音识别模型的识别准确率,在对多模态语音识别模型训练之前,可以对一些功能模块进行预训练。
可选的,在对多模态语音识别模型训练之前,语音特征提取模块41初始参数可以为,以语音信号及其对应的语音内容为训练数据训练好的语音识别模型中,用于对语音信号进行特征提取的特征提取模块的参数。
也就是说,语音特征提取模块41的初始参数是利用纯语音样本训练好的语音识别模型中的特征提取模块的参数。
本申请实施例中,不对语音识别模型的具体架构进行限定,但不管语音识别模型的架构是怎样的,均可以包含特征提取模块。比如,在一可选的实施例中,语音识别模型可以包括:特征提取模块,用于提取输入语音识别模型的声学特征;识别模块,用于根据特征提取模块提取的特征进行语音识别。语音识 别模型的训练过程不做限定,可以用已有或未来可以用的训练方法
这里用于训练语音识别模型的语音样本中可以包含用于训练上述多模态语音识别模型的语音样本,也可以不包含上述用于训练上述多模态语音识别模型的语音样本,本申请对此不做具体限定。
可选的,在对多模态语音识别模型训练之前,图像特征提取模块43的初始参数可以为,以图像序列及其对应的发音内容为训练数据训练好的唇语识别模型中,用于对图像序列进行特征提取的图像特征提取模块的参数。
也就是说,图像特征提取模块43的初始参数是利用纯图像序列样本训练好的唇语识别模型中的图像特征提取模块的参数。
本申请实施例中,不对唇语识别模型的具体架构进行限定,但不管唇语识别模型的架构是怎样的,均可以包含图像特征提取模块。比如,在一可选的实施例中,唇语识别模型可以包括:图像特征提取模块,用于提取输入唇语识别模型的图像序列的特征;识别模块,用于根据图像特征提取模块提取的特征进行唇语识别。唇语识别模型的训练过程不做限定,可以用已有的或未来可能用的训练方法。
这里用于训练唇语识别模型的图像序列样本中可以包含用于训练上述多模态语音识别模型的图像序列样本,也可以不包含上述用于训练上述多模态语音识别模型的图像序列样本,本申请对此不做具体限定。
在一可选的实施例中,上述训练数据中包含的语音信号为第一语种的语音信号,则在多模态语音识别模型训练好之后,训练好的多模态语音识别模型可以用于进行第一语种的语音识别。第一语种可以为任意一种语种,比如,可以为如下几种语种中的任意一种:汉语、英语、韩语、日语、法语、意大利语等等。
在利用第一语种的训练数据训练好多模态语音识别模型之后,还可以在第二语种的训练数据没有视频数据的情况下,将前述训练好的多模态语音识别模型(为便于叙述,记为第一多模态语音识别模型)迁移到用于第二语种的多模态语音识别的多模态语音识别模型(为便于叙述,记为第二多模态语音识别模型)的训练。即若第一语种的训练数据集中具有音视频同步数据,而第二语种 的训练数据集中没有音视频同步数据,则可以先利用第一语种的训练数据集按照前述方法训练多模态语音识别模型,在利用第一语种的训练数据集训练得到第一多模态语音识别模型后,再利用第二语种的训练数据集对训练好的第一多模态语音识别模型进行进一步训练,得到第二多模态语音识别模型,该第二多模态语音识别模型即可以利用第二语种的音视频同步数据实现多模态语音识别了。由于第二多模态语音识别模型是在第一多模态语音识别模型的基础上训练得到的,而第一多模态语音识别模型是预训练得到的,因此,利用第二语种的训练数据集对第一多模态语音识别模型进行训练,收敛速度快,且训练得到的多模态语音识别模型对第二语种的音视频同步数据进行多模态语音识别的准确率较高,实现了多模态语音识别模型在不同语种间的迁移。
具体的,在得到第一多模态语音识别模型之后,利用第二语种的样本语音信号对第一多模态语音识别模型进行进一步训练的一种实现流程图如图5所示,可以包括:
步骤S51:通过第一多模态语音识别模型的语音特征提取模块41,获取第二语种的样本语音信号的语音特征。
步骤S52:通过第一多模态语音识别模型的图像特征生成模块42,利用第二语种的样本语音信号的语音特征对上述预置数据集中的各个基本图像特征进行处理,得到与第二语种的样本语音信号对应的目标图像特征。
步骤S53:通过第一多模态语音识别模型的识别模块44,根据第二语种的样本语音信号的语音特征和第二语种的样本语音信号对应的目标图像特征进行语音识别,得到第二语种的样本语音信号的语音识别结果。
步骤S54:以第二语种的样本语音信号的语音识别结果趋近于第二语种的样本语音信号的语音内容为目标,对语音特征提取模块41、图像特征生成模块42和识别模块44的参数进行更新。
由于第二语种的训练数据集中仅包含单语音数据,因而在利用第二语种的训练数据集对第一多模态语音识别模型进行进一步训练时,不会用到图像特征提取模块43,所以训练得到的第二多模态语音识别模型中的图像特征提取模块与第一多模态语音识别模型中的图像特征提取模块的参数是相同的。
在训练得到的多模态语音识别模型后,就可以利用多模态语音识别模型进行多模态语音识别了,基于此,本申请实施例提供的语音识别方法的一种实现方式可以为:
获取待识别对象,该待识别对象为待识别语音信号,或者,该待识别对象为待识别语音信号以及与待识别语音信号同步采集的唇动相关区域图像。其中,待识别语音信号为第一语种的语音信号,或者,为第二语种的语音信号,具体根据多模态语音识别模型确定,即如果多模态语音识别模型为第一多模态语音识别模型,则待识别语音信号为第一语种的语音信号,如果多模态语音识别模型为第二多模态语音识别模型,则待识别语音信号为第二语种的语音信号。
将待识别对象输入多模态语音识别模型,得到语音识别结果。
可选的,多模态语音识别模型得到语音识别结果的过程可以包括:
如果待识别对象为待识别语音信号,则多模态语音识别模型利用待识别语音信号对预置数据集中的各个基本图像特征进行处理,得到与待识别语音信号对应的目标图像特征;
根据待识别语音信号的语音特征和目标图像特征进行语音识别,得到待识别语音信号的语音识别结果
如果待识别对象为待识别语音信号以及与待识别语音信号同步采集的唇动相关区域图像,则多模态语音识别模型获取待识别语音信号的语音特征,以及唇动相关区域图像的特征,根据待识别语音信号的语音特征,以及唇动相关区域图像的特征进行语音识别,得到待识别语音信号对应的语音识别结果。
与方法实施例相对应,本申请实施例还提供一种多模态语音识别模型训练装置。
如图6a所示,为本申请实施例提供的多模态语音识别模型训练装置的一种结构示意图,可以包括:
数据获取模块611,第一特征获取模块612,识别模块613和更新模块614;其中,
数据获取模块611用于通过所述多模态语音识别模型获取训练数据;
第一特征获取模块612用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
识别模块613用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
更新模块614用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
本申请实施例提供的多模态语音识别模型训练装置,在多模态语音处理模型的训练过程中,训练数据可以包含单音频信号(即未同步采集视频信号),以及用于生成单音频信号对应的图像特征的数据集,丰富了多模态语音处理模型训练过程中的训练数据集,从而提高了多模态语音处理方法的泛化能力,提高了多模态语音识别模型的可靠性。
在一可选的实施例中,第一特征获取模块612可以包括:
权重获取模块,用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用所述样本语音信号获得各个基本图像特征的权重;
目标获取模块,用于通过所述多模态语音识别模型利用各个基本图像特征的权重,将所述各个基本图像特征加权求和,得到与所述样本语音信号对应的目标图像特征。
在一可选的实施例中,权重获取模块可以包括:
空间转换模块,用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换;
计算模块,用于通过所述多模态语音识别模型利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。
在一可选的实施例中,更新模块614对所述多模态语音识别模型的参数进行更新包括:对所述空间转换参数的更新。
在一可选的实施例中,所述样本语音信号为第一语种的语音信号;所述多模态语音识别模型训练装置还用于:通过所述多模态语音识别模型的语音特征提取模块,获取第二语种的样本语音信号的语音特征;
所述第一特征获取模块612还用于:通过所述多模态语音识别模型的图像特征生成模块,利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理,得到与所述第二语种的样本语音信号对应的目标图像特征;
所述识别模块613还用于:通过所述多模态语音识别模型的识别模块,根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别,得到所述第二语种的样本语音信号的语音识别结果;
所述更新模块614还用于:以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标,对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。
在一可选的实施例中,所述多模态语音识别模型训练装置还可以包括:
基本图像特征获取模块,用于获取与若干已知的语音信号同步采集的唇动相关区域图像序列;分别对每个唇动相关区域图像序列进行采样,得到每一个语音信号对应的基本唇动相关区域图像;获取每一个基本唇动相关区域图像的特征,作为所述基本图像特征。
在一可选的实施例中,所述多模态语音识别模型训练装置还可以包括:
基本图像特征获取模块,用于获取若干已知的唇动相关区域图像的特征;将所述若干已知的唇动相关区域图像的特征聚类,得到多个聚类簇;提取每个聚类簇的聚类中心,作为所述基本图像特征。
在一可选的实施例中,基本图像特征获取模块将所述若干已知的唇动相关区域图像的特征聚类时,具体用于:
对于每一个待聚类的唇动相关区域图像的特征,确定与该唇动相关区域图像的特征的距离最小的聚类中心,作为目标聚类中心;
将该唇动相关区域图像的特征聚合到所述目标聚类中心所属的聚类簇;
更新所述目标聚类中心所属的聚类簇的聚类中心。
在一可选的实施例中,所述基本图像特征获取模块获取若干已知的唇部相关图像的特征时,具体用于:
利用图像特征提取模型获取所述若干已知的唇动相关区域图像的特征。
在一可选的实施例中,所述图像特征提取模型为:以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中,用于对唇动相关区域图像进行特征提取的图像特征提取模块。
如图6b所示,为本申请实施例提供的多模态语音识别模型训练装置的另一种结构示意图,可以包括:
数据获取模块621,第一特征获取模块622,第二特征获取模块623,识别模块624和更新模块625;其中,
数据获取模块621用于通过所述多模态语音识别模型获取训练数据;
第一特征获取模块622用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
第二特征获取模块623用于若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则通过所述多模态语音识别模型获取所述唇动相关区域图像的特征,作为与所述样本语音信号对应的目标图像特征;
识别模块624用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
更新模块625用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
本申请实施例提供的多模态语音识别模型训练装置,在多模态语音处理模型的训练过程中,训练数据不局限于同步采集的音频数据和视频数据,还包含单音频信号(即未同步采集视频信号),以及用于生成单音频信号对应的图像特征的数据集,进一步丰富了多模态语音处理模型训练过程中的训练数据集,从而进一步提高了多模态语音处理方法的泛化能力,也就进一步提高了多模态 语音识别模型的可靠性。
与方法实施例相对应,本申请实施例还提供一种语音识别装置,本申请实施例提供的语音识别装置可以包括:
识别对象获取模块,用于获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别对象为待识别语音信号,以及与所述待识别语音信号同步采集的唇动相关区域图像;
多模态识别模块,用于将所述待识别对象输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如上任意一实施例所述的多模态语音识别模型训练方法训练得到。
本申请实施例提供的多模态语音识别模型训练装置可应用于多模态语音识别模型训练设备,如PC终端、云平台、服务器及服务器集群等。可选的,图7示出了多模态语音识别模型训练设备的硬件结构框图,参照图7,多模态语音识别模型训练设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
通过所述多模态语音识别模型获取训练数据;
若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
通过所述多模态语音识别模型获取训练数据;
若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例提供的语音识别装置可应用于语音识别设备,如PC终端、云平台、服务器及服务器集群等。可选的,该语音识别设备的硬件结构框图可以参看图7,这里不再赘述,与多模态语音识别模型训练设备中的存储器存储的程序不同,语音识别设备中的存储器存储的程序用于:
获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像;
将所述待识别对象输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如上任意一项所述的多模态语音识别模型训练方法训练得到。
语音识别设备和多模态语音识别模型训练设备的功能可以集成于同一设备中。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像;
将所述待识别对象输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如上任意一项所述的多模态语音识别模型训练方法训练得到。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在 其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

  1. 一种多模态语音识别模型训练方法,其特征在于,包括:
    通过所述多模态语音识别模型获取训练数据;
    若所述训练数据仅包含样本语音信号,则所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
    根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
    以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
  2. 根据权利要求1所述的方法,其特征在于,还包括:
    若所述训练数据同时包含样本语音信号及与之同步采集的唇动相关区域图像,则所述多模态语音识别模型获取所述唇动相关区域图像的特征,作为与所述样本语音信号对应的目标图像特征。
  3. 根据权利要求1所述的方法,其特征在于,所述利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,包括:
    利用所述样本语音信号获得各个基本图像特征的权重;
    利用各个基本图像特征的权重,将所述各个基本图像特征加权求和,得到与所述样本语音信号对应的目标图像特征。
  4. 根据权利要求3所述的方法,其特征在于,所述利用所述样本语音信号获得各个基本图像特征的权重,包括:
    利用空间转换参数对所述样本语音信号的语音特征以及各个基本图像特征分别进行空间转换;
    利用转换后的语音特征,以及转换后的基本图像特征,计算各个基本图像特征的权重。
  5. 根据权利要求4所述的方法,其特征在于,所述对所述多模态语音识别模型的参数进行更新,包括对所述空间转换参数的更新。
  6. 根据权利要求1所述的方法,其特征在于,所述样本语音信号为第一 语种的语音信号;在所述多模态语音识别模型训练好之后,还包括:
    通过所述多模态语音识别模型的语音特征提取模块,获取第二语种的样本语音信号的语音特征;
    通过所述多模态语音识别模型的图像特征生成模块,利用所述第二语种的样本语音信号的语音特征对所述预置数据集中的各个基本图像特征进行处理,得到与所述第二语种的样本语音信号对应的目标图像特征;
    通过所述多模态语音识别模型的识别模块,根据所述第二语种的样本语音信号的语音特征和所述第二语种的样本语音信号对应的目标图像特征进行语音识别,得到所述第二语种的样本语音信号的语音识别结果;
    以所述第二语种的样本语音信号的语音识别结果趋近于所述第二语种的样本语音信号的语音内容为目标,对所述语音特征提取模块、所述图像特征生成模块和所述识别模块的参数进行更新。
  7. 根据权利要求1-6任意一项所述的方法,其特征在于,根据已知的唇动相关区域图像获得基本图像特征的过程,包括:
    获取与若干已知的语音信号同步采集的唇动相关区域图像序列;
    分别对每个唇动相关区域图像序列进行采样,得到每一个语音信号对应的基本唇动相关区域图像;
    获取每一个基本唇动相关区域图像的特征,作为所述基本图像特征。
  8. 根据权利要求1-6任意一项所述的方法,其特征在于,根据已知的唇部相关图像获得基本图像特征的过程,包括:
    获取若干已知的唇动相关区域图像的特征;
    将所述若干已知的唇动相关区域图像的特征聚类,得到多个聚类簇;
    提取每个聚类簇的聚类中心,作为所述基本图像特征。
  9. 根据权利要求8所述的方法,其特征在于,所述将所述若干已知的唇部相关图像的特征聚类,包括:
    对于每一个待聚类的唇动相关区域图像的特征,确定与该唇动相关区域图像的特征的距离最小的聚类中心,作为目标聚类中心;
    将该唇动相关区域图像的特征聚合到所述目标聚类中心所属的聚类簇;
    更新所述目标聚类中心所属的聚类簇的聚类中心。
  10. 根据权利要求8所述的方法,其特征在于,所述获取若干已知的唇部相关图像的特征,包括:
    利用图像特征提取模型获取所述若干已知的唇动相关区域图像的特征;
    所述图像特征提取模型为:以唇动相关区域图像及其对应的唇部发音内容为训练数据训练好的唇语识别模型中,用于对唇动相关区域图像进行特征提取的图像特征提取模块。
  11. 一种语音识别方法,其特征在于,包括:
    获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像;
    将所述待识别对象输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如权利要求1-10任意一项所述的多模态语音识别模型训练方法训练得到。
  12. 一种多模态语音识别模型训练装置,其特征在于,包括:
    数据获取模块,用于通过所述多模态语音识别模型获取训练数据;
    第一特征获取模块,用于若所述训练数据仅包含样本语音信号,则通过所述多模态语音识别模型利用所述样本语音信号对预置数据集中的各个基本图像特征进行处理,得到与所述样本语音信号对应的目标图像特征;所述基本图像特征根据已知的唇动相关区域图像获得;
    识别模块,用于通过所述多模态语音识别模型根据所述样本语音信号的语音特征和所述目标图像特征进行语音识别,得到所述样本语音信号的语音识别结果;
    更新模块,用于通过所述多模态语音识别模型以所述样本语音信号的语音识别结果趋近于所述样本语音信号的语音内容为目标,对所述多模态语音识别模型的参数进行更新。
  13. 一种语音识别装置,其特征在于,包括:
    识别对象获取模块,用于获取待识别对象,所述待识别对象为待识别语音信号,或者,所述待识别对象为待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像;
    多模态识别模块,用于将所述待识别语音信号以及与所述待识别语音信号同步采集的唇动相关区域图像输入多模态语音识别模型,得到语音识别结果;其中,所述多模态语音识别模型通过如权利要求1-10任意一项所述的多模态语音识别模型训练方法训练得到。
  14. 一种设备,其特征在于,包括:包括存储器和处理器;
    所述存储器,用于存储程序;
    所述处理器,用于执行所述程序,实现如权利要求1-10中任一项所述的多模态语音识别模型训练方法的各个步骤,或者,实现如权利要求11所述的语音识别方法的各个步骤。
  15. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-10中任一项所述的多模态语音识别模型训练方法的各个步骤,或者,实现如权利要求11所述的语音识别方法的各个步骤。
PCT/CN2020/142166 2020-03-31 2020-12-31 多模态语音识别模型训练方法、装置、设备及存储介质 WO2021196802A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010247184.7A CN111462733B (zh) 2020-03-31 2020-03-31 多模态语音识别模型训练方法、装置、设备及存储介质
CN202010247184.7 2020-03-31

Publications (1)

Publication Number Publication Date
WO2021196802A1 true WO2021196802A1 (zh) 2021-10-07

Family

ID=71682420

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/142166 WO2021196802A1 (zh) 2020-03-31 2020-12-31 多模态语音识别模型训练方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111462733B (zh)
WO (1) WO2021196802A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434027A (zh) * 2023-06-12 2023-07-14 深圳星寻科技有限公司 一种基于图像识别人工智能交互系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN112464993B (zh) * 2020-11-05 2022-12-09 苏州浪潮智能科技有限公司 一种多模态模型训练方法、装置、设备及存储介质
CN114494930B (zh) * 2021-09-09 2023-09-22 马上消费金融股份有限公司 语音与图像同步性衡量模型的训练方法及装置
CN113782048A (zh) * 2021-09-24 2021-12-10 科大讯飞股份有限公司 多模态语音分离方法、训练方法及相关装置
CN114692778B (zh) * 2022-04-13 2023-07-25 北京百度网讯科技有限公司 用于智能巡检的多模态样本集生成方法、训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
US20170278517A1 (en) * 2016-03-25 2017-09-28 Intel Corporation Technologies for automatic speech recognition using articulatory parameters
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
US20190371334A1 (en) * 2014-11-26 2019-12-05 Panasonic Intellectual Property Corporation of Ame Method and apparatus for recognizing speech by lip reading
CN110544479A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种去噪的语音识别方法及装置
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1213398C (zh) * 2001-12-12 2005-08-03 国际商业机器公司 使用行为模型来进行无干扰的说话者验证的方法和系统
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
CN101751692B (zh) * 2009-12-24 2012-05-30 四川大学 语音驱动唇形动画的方法
US9883259B2 (en) * 2011-08-15 2018-01-30 Digimarc Corporation Synchronized metrology in power generation and distribution networks
CN102708862B (zh) * 2012-04-27 2014-09-24 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
CN104217226B (zh) * 2014-09-09 2017-07-11 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN108804453B (zh) * 2017-04-28 2020-06-02 深圳荆虹科技有限公司 一种视音频识别方法及装置
CN110019776B (zh) * 2017-09-05 2023-04-28 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN108182477A (zh) * 2017-12-26 2018-06-19 南京信息工程大学 一种基于povm测量的量子感知机方法
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108520741B (zh) * 2018-04-12 2021-05-04 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN109241912B (zh) * 2018-09-08 2020-08-07 河南大学 面向无人自主系统的基于类脑跨媒体智能的目标识别方法
CN109615016B (zh) * 2018-12-20 2021-06-22 北京理工大学 一种基于金字塔输入增益的卷积神经网络的目标检测方法
CN110096966A (zh) * 2019-04-10 2019-08-06 天津大学 一种融合深度信息汉语多模态语料库的语音识别方法
CN110111783A (zh) * 2019-04-10 2019-08-09 天津大学 一种基于深度神经网络的多模态语音识别方法
CN110188673B (zh) * 2019-05-29 2021-07-30 京东方科技集团股份有限公司 表情识别方法和装置
CN110516536B (zh) * 2019-07-12 2022-03-18 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110570862A (zh) * 2019-10-09 2019-12-13 三星电子(中国)研发中心 一种语音识别方法及智能语音引擎装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
US20190371334A1 (en) * 2014-11-26 2019-12-05 Panasonic Intellectual Property Corporation of Ame Method and apparatus for recognizing speech by lip reading
US20170278517A1 (en) * 2016-03-25 2017-09-28 Intel Corporation Technologies for automatic speech recognition using articulatory parameters
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN110544479A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种去噪的语音识别方法及装置
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116434027A (zh) * 2023-06-12 2023-07-14 深圳星寻科技有限公司 一种基于图像识别人工智能交互系统

Also Published As

Publication number Publication date
CN111462733A (zh) 2020-07-28
CN111462733B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
WO2021196802A1 (zh) 多模态语音识别模型训练方法、装置、设备及存储介质
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
Hou et al. Signspeaker: A real-time, high-precision smartwatch-based sign language translator
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
JP2007507784A (ja) オーディオビジュアルコンテント合成システム及び方法
CN110111808B (zh) 音频信号处理方法及相关产品
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
US20230089308A1 (en) Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering
WO2022228235A1 (zh) 生成视频语料的方法、装置及相关设备
CN111554279A (zh) 一种基于Kinect的多模态人机交互系统
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
CN111462732B (zh) 语音识别方法和装置
Liu et al. MSDWild: Multi-modal Speaker Diarization Dataset in the Wild.
CN113053361B (zh) 语音识别方法、模型训练方法、装置、设备及介质
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
CN115937726A (zh) 说话人检测方法、装置、设备及计算机可读存储介质
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
CN112183430A (zh) 一种基于双神经网络的手语识别方法及装置
Shashidhar et al. Audio visual speech recognition using feed forward neural network architecture

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20929572

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20929572

Country of ref document: EP

Kind code of ref document: A1