WO2020258661A1 - 基于循环神经网络和声学特征的说话人分离方法及装置 - Google Patents

基于循环神经网络和声学特征的说话人分离方法及装置 Download PDF

Info

Publication number
WO2020258661A1
WO2020258661A1 PCT/CN2019/117805 CN2019117805W WO2020258661A1 WO 2020258661 A1 WO2020258661 A1 WO 2020258661A1 CN 2019117805 W CN2019117805 W CN 2019117805W WO 2020258661 A1 WO2020258661 A1 WO 2020258661A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
speaker
recognized
result
feature vector
Prior art date
Application number
PCT/CN2019/117805
Other languages
English (en)
French (fr)
Inventor
王健宗
贾雪丽
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020258661A1 publication Critical patent/WO2020258661A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • This application relates to the technical field of speech classification, and in particular to a speaker separation method and device based on cyclic neural networks and acoustic features.
  • Speaker separation is a very important pre-processing step for a complete speech recognition system (ASR, the full name is Automatic Speech Recognition) that contains multiple speakers, and the speaker separation information is useful for voices such as role changes. Analysis is also crucial.
  • ASR Automatic Speech Recognition
  • speaker separation system consists of two parts: segmentation and clustering.
  • segmentation is to find all the transition points between speakers, and the most commonly used segmentation method is based on Bayesian information criteria.
  • speaker separation using recurrent neural networks, joint factor analysis, and pre-trained deep neural networks with supervised learning and unsupervised learning have achieved good results.
  • few algorithms involve mining vocabulary information.
  • Most research involving vocabulary information involves the identity or role of the speaker, that is, the text obtained by speech recognition has not been applied to the separation. One possible reason is if the separation is If you run ASR first, more noise will be introduced.
  • the embodiments of the present application provide a speaker separation method, device, computer equipment, and storage medium based on cyclic neural networks and acoustic features, aiming to solve the problem that the conventional speaker separation systems in the prior art use cyclic neural networks, joint factor analysis, and Speaker separation using methods such as pre-trained deep neural networks with supervised learning and unsupervised learning, and the introduction of speech recognition before speaker separation will produce more noise, resulting in the text obtained by speech recognition not being applied to the speaker The issue of separation.
  • an embodiment of the present application provides a speaker separation method based on a cyclic neural network and acoustic features, which includes:
  • the speaker classification result is sent to the uploader corresponding to the voice data to be recognized.
  • an embodiment of the present application provides a speaker separation device based on a cyclic neural network and acoustic features, which includes:
  • the voice receiving unit is used to receive the voice data to be recognized sent by the uploader
  • the feature fusion unit is used to obtain the word vector set of the to-be-recognized voice data through voice recognition, and obtain the MFCC feature vector set of the to-be-recognized voice data through voice recognition, and perform the combination of the word vector set and the MFCC feature vector set Fully connected to get the feature vector after fusion;
  • An encoding unit configured to input the fused feature vector into an encoder for encoding to obtain an encoding result
  • a decoding unit configured to decode the encoding result as the input of the decoder to obtain a segmentation result corresponding to the fused feature vector; wherein the segmentation result includes a word sequence and a speaker conversion symbol;
  • the speaker prediction unit is used to assign the speaker converter with the closest distance to each word in the segmentation result to the corresponding word, so as to predict the speaker conversion on the segmentation result, and obtain the speaker converter corresponding Speaker recognition result;
  • a speaker clustering unit for clustering the speaker recognition results to obtain speaker classification results
  • the result sending unit is configured to send the speaker classification result to the uploader corresponding to the voice data to be recognized.
  • an embodiment of the present application provides a computer device, which includes a memory, a processor, and a computer program stored on the memory and running on the processor, and the processor executes the computer
  • the program implements the speaker separation method based on the recurrent neural network and acoustic features described in the first aspect.
  • the embodiments of the present application also provide a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the processor executes the above-mentioned On the one hand, the speaker separation method based on recurrent neural network and acoustic features.
  • FIG. 1 is a schematic flow chart of a speaker separation method based on cyclic neural network and acoustic features provided by an embodiment of the application;
  • FIG. 2 is a schematic diagram of a sub-flow of a speaker separation method based on a cyclic neural network and acoustic features provided by an embodiment of the application;
  • FIG. 3 is a schematic diagram of another sub-process of the speaker separation method based on cyclic neural network and acoustic features provided by an embodiment of the application;
  • FIG. 4 is a schematic diagram of the output of the decoder and the overlapped speaker conversion vector in the speaker separation method based on cyclic neural network and acoustic features provided by an embodiment of the application;
  • FIG. 5 is a schematic block diagram of a speaker separation device based on a cyclic neural network and acoustic features provided by an embodiment of the application;
  • FIG. 6 is a schematic block diagram of a subunit of a speaker separation device based on a cyclic neural network and acoustic features according to an embodiment of the application;
  • FIG. 7 is a schematic block diagram of another subunit of the speaker separation device based on cyclic neural network and acoustic features according to an embodiment of the application;
  • FIG. 8 is a schematic block diagram of a computer device provided by an embodiment of the application.
  • FIG. 1 is a schematic flowchart of a speaker separation method based on cyclic neural network and acoustic features provided by an embodiment of the application.
  • the speaker separation method based on cyclic neural network and acoustic features is applied to a server, and the method passes The application software installed in the server is executed.
  • the method includes steps S110 to S170.
  • S110 Receive the voice data to be recognized sent by the uploader.
  • the voice data to be recognized when the voice data to be recognized is collected using the recording function or video recording function of the uploader, in order to realize the separation of the speakers of the voice data to be recognized, the voice data to be recognized needs to be sent from the uploader to the server. Perform data processing on the speech data to be recognized to obtain speaker classification results.
  • step S120 includes:
  • S121 Acquire independent hot-encoded word vectors corresponding to each word segment in the voice data to be recognized through voice recognition;
  • S122 Transform each independent hot-encoded word vector corresponding to the voice to be recognized through the Word2Vec model for converting words into vectors, to obtain a set of word vectors corresponding to the voice data to be recognized.
  • step S120 includes:
  • the window length of the feature window can be preset as 25ms, the preset moving distance of the characteristic window is 10ms.
  • a 13-dimensional MFCC feature is extracted from a window with a window length of 25ms and a moving distance of 10ms, and then the word segments are averaged to obtain a 13*1 one-dimensional column vector for each word to form a set of MFCC feature vectors.
  • the word vector set and the MFCC feature vector set are both input into a GRU model with the same number of hidden layers for full connection, so as to obtain a fused feature vector.
  • a hidden layer of 256 hidden layer units For the MFCC feature vector, a hidden layer of 256 hidden layer units, a word vector of 256 size and an output layer of 256 size are used. And make the number of hidden layers of the MFCC feature the same as the number of hidden layers of the word embedding layer, so as to output better performance.
  • the fused feature vector is input into the encoder for encoding, it can be seen that the MFCC feature vector and word vector are fused in the encoder, and the MFCC feature vector and word vector are fully integrated through some linear layers in the encoder. Connect to get the feature vector after fusion. Then input the fused feature vector into the GRU model (that is, the gated loop unit) used in the encoder to obtain the encoding result.
  • the GRU model that is, the gated loop unit
  • step S130 includes:
  • the attention mechanism is often used in the encoder-decoder framework.
  • C F(x 1 , x 2 , ......, x m );
  • its task is to generate i at time according to the intermediate semantic representation C of the input sentence Source and the previously generated historical information y 1 , y 2 , ... y i-1
  • the word y i (Ci, y 1 , y 2 , ...
  • the attention mechanism has a huge improvement effect on sequence learning tasks.
  • the A model is added to the encoding section to perform data weighted transformation on the source data sequence, or the A model is introduced at the decoder to perform the target data
  • the weighting change can effectively improve the system performance in the natural way of sequence to sequence.
  • S140 Decode the encoding result as the input of the decoder to obtain a segmentation result corresponding to the fused feature vector; wherein the segmentation result includes a word sequence and a speaker converter.
  • the output of the decoder is the segmentation result including the word sequence and the speaker conversion symbol.
  • the text corresponding to the voice data to be recognized is: hello hi my name is James hi James.
  • the segmentation result output by the decoder is: hello#A hi#B my name is James#A hi James.
  • the loss function of the decoder When calculating the loss function of the decoder, the ID of the speaker is ignored, and only the speaker grouping is concerned. For example, the speaker conversion sequence ABA is considered equivalent to BAB. Because in the calculation process, the original version and the reversed version of the conversion sequence are calculated, and the one with the least loss is selected as the loss value. This loss function can also avoid learning the probability between conversion symbols and words in the target sequence in the training set.
  • a move-overlap design is adopted. For example, use a 32-word window to scan the entire section from beginning to end. For each window, the trained sequence-to-sequence model is used to predict the sequence of conversion symbols.
  • step S150 includes:
  • Step S156 Determine whether the current starting word is the last word in the segmentation result. If the current starting word is not the last word in the segmentation result, return to step S153, if the current start word is the last word in the segmentation result. Step S157 is executed for the word of position;
  • a majority vote is used to determine the ownership of the speaker switch. In this way, it is equivalent to using 32 different predictions to determine.
  • a clustering method based on Bayesian Information Criterion is adopted, and the adopted feature is a frame-level MFCC feature.
  • clustering the speaker recognition results is a clustering process of a speech stream, which clusters the speech stream into the speech stream of multiple speakers.
  • the speaker classification results are sent to the uploader corresponding to the voice data to be recognized, and the voice data to be recognized is completed on the server line.
  • step S121 includes:
  • the N-gram model is an N-gram model
  • the N-gram model is input from the training set corpus to the initial N-gram model Obtained through training
  • the corresponding word segmentation in the word segmentation result is transformed into an independent hot-encoded word vector.
  • the N-gram model is a language model (Language Model, LM).
  • the language model is a probability-based discriminant model. Its input is a sentence (the sequence of words), and the output is this sentence The probability is the joint probability of these words (joint probability).
  • the word segmentation is performed based on the probability and statistics word segmentation model to obtain the word segmentation result corresponding to the recognition result.
  • the word segmentation model based on probability statistics can find the target word string W so that W satisfies: P(W
  • C) MAX(P(Wa
  • the word segmentation can be performed on the recognition result based on the probability and statistics word segmentation model, thereby obtaining the word segmentation result corresponding to the recognition result.
  • step S160 the method further includes:
  • the voice data to be recognized is correspondingly added with a first label for identifying non-conversational voice
  • the voice data to be recognized is correspondingly added with a second label for identifying dialogue voice.
  • the number of speakers in the speaker classification result exceeds one, it means that the voice data to be recognized is at least two personal conversations; when the number of speakers in the speaker classification result does not exceed One, it means that the voice data to be recognized is at most one person speaking. By counting the number of speakers, it can effectively distinguish whether the voice data to be recognized corresponds to a dialogue or a monologue.
  • This method realizes the fusion of the sequence-to-sequence model of vocabulary and acoustic feature information to separate the speakers, and can capture the coding information including the speaker before and after the conversion point.
  • the embodiment of the present application also provides a speaker separation device based on cyclic neural network and acoustic features.
  • the speaker separation device based on cyclic neural network and acoustic features is used to perform the aforementioned speaker separation method based on cyclic neural network and acoustic features. Any embodiment of. Specifically, please refer to FIG. 5, which is a schematic block diagram of a speaker separation device based on a cyclic neural network and acoustic features provided by an embodiment of the present application.
  • the speaker separation device 100 based on recurrent neural network and acoustic features can be configured in a server.
  • the speaker separation device 100 based on cyclic neural network and acoustic features includes a voice receiving unit 110, a feature fusion unit 120, an encoding unit 130, a decoding unit 140, a speaker prediction unit 150, and a speaker clustering unit 160 , The result sending unit 170.
  • the voice receiving unit 110 is used to receive the voice data to be recognized sent by the uploader.
  • the feature fusion unit 120 is configured to obtain the word vector set of the voice data to be recognized through voice recognition, and obtain the MFCC feature vector set of the voice data to be recognized through voice recognition, and combine the word vector set and the MFCC feature vector set Perform full connection to get the feature vector after fusion.
  • the word vector set is obtained from the text data corresponding to the voice data to be recognized.
  • the feature fusion unit 120 includes:
  • the independent hot-encoded word vector obtaining unit 121 is configured to obtain, through speech recognition, an independent hot-encoded word vector corresponding to each word segment in the voice data to be recognized;
  • the word vector set acquiring unit 122 is configured to transform each independent hot-encoded word vector corresponding to the voice to be recognized through the Word2Vec model for converting words into vectors to obtain a set of word vectors corresponding to the voice data to be recognized.
  • the MFCC feature vector set is directly obtained from the voice data to be recognized.
  • the feature fusion unit 120 is further used for:
  • the word vector set and the MFCC feature vector set are both input into a GRU model with the same number of hidden layers for full connection, so as to obtain a fused feature vector.
  • the encoding unit 130 is configured to input the fused feature vector into an encoder for encoding to obtain an encoding result.
  • the encoding unit 130 includes:
  • An intermediate semantic acquisition unit configured to input the fused feature vector into an encoder for nonlinear change conversion to obtain intermediate semantics
  • the attention mechanism processing unit is configured to obtain the attention distribution probability distribution of each word segmentation in the intermediate semantics through the attention mechanism, so as to obtain the encoding result corresponding to the intermediate semantics.
  • the decoding unit 140 is configured to decode the encoding result as the input of the decoder to obtain a segmentation result corresponding to the fused feature vector; wherein the segmentation result includes a word sequence and a speaker converter.
  • the speaker prediction unit 150 is configured to assign the speaker conversion symbol closest to each word in the segmentation result to the corresponding word, so as to predict the speaker conversion of the segmentation result, and obtain the speaker conversion symbol corresponding The result of speaker recognition.
  • the speaker prediction unit 150 includes:
  • the segmentation result obtaining unit 151 is configured to obtain the segmentation result in the decoder
  • the current starting word obtaining unit 152 is configured to obtain the word whose identification position points to the first position in the segmentation result as the current starting word;
  • the conversion vector obtaining unit 153 is configured to assign the speaker converter whose distance is closest to each word in the segmentation result to each word in the segmentation result to establish a conversion vector;
  • the conversion vector storage unit 154 is configured to store the conversion vector in the speaker conversion sequence matrix
  • the initial word update unit 155 is configured to move the identification position to the right by one word to update the current initial word;
  • the last word judging unit 156 is used to determine whether the current starting word is the last word in the segmentation result. If the current starting word is not the last word in the segmentation result, return to execution and divide the segmentation result from each The speaker converter with the closest word distance is assigned to each word in the segmentation result to establish a conversion vector step. If the current starting word is the last word in the segmentation result, the process of ending the speaker conversion prediction process is executed step;
  • the process ending unit 157 is used to end the process of predicting speaker conversion.
  • the speaker clustering unit 160 is used to cluster the speaker recognition results to obtain speaker classification results.
  • the result sending unit 170 is configured to send the speaker classification result to the uploader corresponding to the voice data to be recognized.
  • the speaker classification results are sent to the uploader corresponding to the voice data to be recognized, and the voice data to be recognized is completed on the server line.
  • the device implements a sequence-to-sequence model that combines vocabulary and acoustic feature information to separate speakers, and can capture the encoding information including the speaker's conversion point before and after.
  • the above-mentioned speaker separation device based on recurrent neural network and acoustic features can be implemented in the form of a computer program, which can be run on a computer device as shown in FIG. 8.
  • FIG. 8 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • the computer device 500 is a server, and the server may be an independent server or a server cluster composed of multiple servers.
  • the computer device 500 includes a processor 502, a memory, and a network interface 505 connected through a system bus 501, where the memory may include a non-volatile storage medium 503 and an internal memory 504.
  • the non-volatile storage medium 503 can store an operating system 5031 and a computer program 5032.
  • the processor 502 can execute a speaker separation method based on a recurrent neural network and acoustic features.
  • the processor 502 is used to provide calculation and control capabilities, and support the operation of the entire computer device 500.
  • the internal memory 504 provides an environment for the operation of the computer program 5032 in the non-volatile storage medium 503.
  • the processor 502 can perform speaker separation based on recurrent neural networks and acoustic features. method.
  • the network interface 505 is used for network communication, such as providing data information transmission.
  • the structure shown in FIG. 8 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device 500 to which the solution of the present application is applied.
  • the specific computer device 500 may include more or fewer components than shown in the figure, or combine certain components, or have a different component arrangement.
  • the processor 502 is configured to run a computer program 5032 stored in a memory to implement the speaker separation method based on the cyclic neural network and acoustic features in the embodiment of the present application.
  • the embodiment of the computer device shown in FIG. 8 does not constitute a limitation on the specific configuration of the computer device.
  • the computer device may include more or less components than those shown in the figure. Or combine certain components, or different component arrangements.
  • the computer device may only include a memory and a processor. In such an embodiment, the structures and functions of the memory and the processor are consistent with the embodiment shown in FIG. 8 and will not be repeated here.
  • the processor 502 may be a central processing unit (Central Processing Unit, CPU), and the processor 502 may also be other general-purpose processors, digital signal processors (Digital Signal Processors, DSPs), Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor.
  • a computer-readable storage medium may be a non-volatile computer-readable storage medium.
  • the computer-readable storage medium stores a computer program, where the computer program is executed by a processor to implement the speaker separation method based on the recurrent neural network and acoustic features in the embodiments of the present application.
  • the storage medium is a physical, non-transitory storage medium, such as a U disk, a mobile hard disk, a read-only memory (Read-Only Memory, ROM), a magnetic disk, or an optical disk that can store program codes. medium.
  • a physical, non-transitory storage medium such as a U disk, a mobile hard disk, a read-only memory (Read-Only Memory, ROM), a magnetic disk, or an optical disk that can store program codes. medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)

Abstract

基于循环神经网络和声学特征的说话人分离方法包括通过语音识别获取待识别语音数据的词向量集合,并识别获取待识别语音数据的MFCC特征向量集合,将其进行全连接,以得到融合后特征向量(S120);将融合后特征向量进行编码得到编码结果(S130);将编码结果进行解码得到与融合后特征向量对应的分割结果(S140);将分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果(S150);将说话人识别结果通过聚类,得到说话人分类结果(S160);以及将说话人分类结果发送至待识别语音数据对应的上传端(S170)。

Description

基于循环神经网络和声学特征的说话人分离方法及装置
本申请要求于2019年6月26日提交中国专利局、申请号为201910561692.X、申请名称为“基于循环神经网络和声学特征的说话人分离方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及语音分类技术领域,尤其涉及一种基于循环神经网络和声学特征的说话人分离方法及装置。
背景技术
说话人分离对于一个包含多个说话人的完整语音识别系统(ASR,全称是Automatic Speech Recognition)来说是一个非常重要的前处理步骤,并且说话人分离的信息对于比如像角色变换之类的语音分析也至关重要。
通常说话人分离系统包含两个部分:分割和聚类。分割的目的是找到所有的说话人间转换点,其中最常用的是基于贝叶斯信息准则的分割方法。近来,利用循环神经网络、联合因子分析以及经过监督学习和非监督学习的预训练的深度神经网络等方法的说话人分离都取得了很好的效果。然而,很少有算法涉及到挖掘词汇信息,大多数涉及到词汇信息的研究都涉及到说话人的身份或角色,即语音识别得到的文本没有被应用到分离的一个可能的原因是如果在分离之前先运行ASR的话会引入更多的噪声。
发明内容
本申请实施例提供了一种基于循环神经网络和声学特征的说话人分离方法、装置、计算机设备及存储介质,旨在解决现有技术中通常说话人分离系统利用循环神经网络、联合因子分析以及经过监督学习和非监督学习的预训练的深度神经网络等方法的说话人分离,而由于在说话人分离之前引入语音识别会产生更多的噪声,导致语音识别得到的文本没有被应用到说话人分离的问题。
第一方面,本申请实施例提供了一种基于循环神经网络和声学特征的说话人分离方法,其包括:
接收上传端所发送的待识别语音数据;
通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量;
将所述融合后特征向量输入至编码器中进行编码,得到编码结果;
将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符;
将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;
将所述说话人识别结果通过聚类,得到说话人分类结果;以及
将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
第二方面,本申请实施例提供了一种基于循环神经网络和声学特征的说话人分离装置,其包括:
语音接收单元,用于接收上传端所发送的待识别语音数据;
特征融合单元,用于通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量;
编码单元,用于将所述融合后特征向量输入至编码器中进行编码,得到编码结果;
解码单元,用于将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符;
说话人预测单元,用于将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;
说话人聚类单元,用于将所述说话人识别结果通过聚类,得到说话人分类结果;以及
结果发送单元,用于将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于循环神经网络和声学特征的说话人分离方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于循环神经网络和声学特征的说话人分离方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的流程示意图;
图2为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的子流程示意图;
图3为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的另一子流程示意图;
图4为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法中解码器输出和重叠的说话人转换向量的示意图;
图5为本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的示意性框图;
图6为本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的子单元示意性框图;
图7为本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的另一子单元示意性框图;
图8为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,其为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的流程示意图,该基于循环神经网络和声学特征的说话人分离方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图1所示,该方法包括步骤S110~S170。
S110、接收上传端所发送的待识别语音数据。
在本实施例中,当使用上传端的录音功能或视频录制功能采集到了待识别语音数据时,为了实现对待识别语音数据的说话人分离,需将待识别语音数据由上传端发送至服务器,由服务器对待识别语音数据进行数据处理而得到说话人分类结果。
S120、通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量。
在本实施例中,为了对待识别语音数据进行说话人分离,需要先提取待识别语音数据对应的词向量集合和MFCC特征向量集合。
其中,词向量集合从所述待识别语音数据对应的文本数据中获取。在一实 施例中,如图2所示,步骤S120包括:
S121、通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量;
S122、通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化,得到与待识别语音数据对应的词向量集合。
即先用一个线性层将与所述待识别语音数据中各分词对应的独立热编码词向量转化到编码器中的词嵌入层,由词嵌入层中的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化,得到与待识别语音数据对应的词向量集合。
其中,MFCC特征向量集合从所述待识别语音数据中直接获取。在一实施例中,步骤S120包括:
按照预设的特征窗口从所述待识别语音进行特征提取,得到与所述待识别语音对应的MFCC特征向量;其中,所述特征窗口的窗口长度为预设的第一时间值,所述特征窗口的移动距离为预设的第二时间值。
在本实施例中,从所述待识别语音进行特征提取MFCC特征向量集合时(MFCC的全称是Mel-scaleFrequency Cepstral Coefficients,表示梅尔倒谱系数),可以预设所述特征窗口的窗口长度为25ms,预设所述特征窗口的移动距离为10ms。从窗口长度25ms,移动距离10ms的窗口中提取13维的MFCC特征,然后对词段进行平均,每一个词得到一个13*1的一维列向量,以组成MFCC特征向量集合。通过提取与所述待识别语音对应的MFCC特征向量,有效的将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。
在一实施例中,将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接,以得到融合后特征向量。
对于MFCC特征向量,采用了256个隐藏层单元的隐藏层,256大小的词向量和256大小的输出层。并且令MFCC特征的隐藏层层数和词嵌入层的隐藏层层数一致,这样才能输出更好的表现。
S130、将所述融合后特征向量输入至编码器中进行编码,得到编码结果。
在本实施例中,由于将所述融合后特征向量输入至编码器中进行编码,可知编码器中融合了MFCC特征向量和词向量,MFCC特征向量和词向量通过编码器中一些线性层进行全连接,得到融合后特征向量。然后将融合后特征向量 输入至编码器中采用的GRU模型(即门控循环单元),即可得到编码结果。
在一实施例中,步骤S130包括:
将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义;
通过注意力机制获取所述中间语义中各分词的注意力分配概率分布,以得到与所述中间语义对应的编码结果。
在本实施例中,注意力机制常用于编码器-解码器框架。编码器顾名思义就是对输入句子Source(例如待识别语音数据对应的文本中的语句)进行编码,将输入句子Source通过非线性变换转化为中间语义表示C,其中C=F(x 1,x 2,……,x m);对于解码器来说,其任务是根据输入句子Source的中间语义表示C和之前已经生成的历史信息y 1,y 2,……y i-1来生成i时刻要生成的单词y i=(Ci,y 1,y 2,……y i-1),C i为所述中间语义中分词i的注意力分配概率分布。即若在编码器和解码器中间引入注意力模型,上述过程如y1=f(C1),y2=f(C2,y1),y3=f(C3,y1,y2),也即每个Ci可能对应着不同的源语句子单词的注意力分配概率分布,这就使得模型的注意力机制可以帮助捕捉到说话人的特征的最重要的部分。
注意力机制在序列学习任务上具有巨大的提升作用,在编解码器框架内,通过在编码段加入A模型,对源数据序列进行数据加权变换,或者在解码端引入A模型,对目标数据进行加权变化,可以有效提高序列对序列的自然方式下的系统表现。
S140、将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符。
在本实施例中,解码器输出的是包括词序列和说话人转换符的分割结果。例如,待识别语音数据对应的文本为:hello hi my name is James hi James。解码器输出的分割结果为:hello#A hi#B my name is James#A hi James。
在解码器的损失函数在计算时,忽略了说话人的ID,而只关心说话人分组情况。比如,说话人转换符序列ABA被视为等价于BAB。因为在计算过程中,会计算转换符序列的原始版本和翻转版本,并选择损失最小的那一个作为损失值。这个损失函数也可以避免学习训练集中目标序列中转换符和词之间的概率。
S150、将所述分割结果中距每个词距离最近的说话人转换符分配至对应的 词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果。
在本实施例中,为了实现最大化说话人转换预测的准确度,采用了一个移动-重叠的设计。例如,采用一个32个词长度的窗口从头到尾扫过整个部分。对于每个窗口,用训练好的序列到序列模型来预测转换符序列。
在一实施例中,如图3所示,步骤S150包括:
S151、获取解码器中的分割结果;
S152、获取所述分割结果中标识位指向首位的词,以作为当前起始词;
S153、将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量;
S154、将所述转换向量存储至说话人转换序列矩阵中;
S155、将所述标识位指向位置向右移动一个词以更新当前起始词;
S156、判断当前起始词是否为分割结果中处于末位的词,若当前起始词不为分割结果中处于末位的词,返回执行步骤S153,若当前起始词为分割结果中处于末位的词执行步骤S157;
S157、结束说话人转换的预测的流程。
即在预测中,分别从文本和音频文件中抽取32个词的词向量和32维的MFCC特征向量。具体的说话人转换序列的预测通过图4和如下步骤进行:
51)从解码器中得到一个分割结果;
52)通过将分割结果中距每个词最近的转换符分配给每个词的方式建立一个转换向量;
53)将所述转换向量存在一个累积的说话人转换序列矩阵中;
54)向右移动一个单词的距离并将下一组32个词向量和32维的MFCC特征向量输入到编码器中;
通过将窗口移动到末端之后,通过多数表决的方式来决定说话人转换符的所属。通过这种方式,相当于用32种不同的预测来决定。
S160、将所述说话人识别结果通过聚类,得到说话人分类结果。
在本实施例中,采用的是基于贝叶斯信息准则(BIC)的聚类方式,并且采用的特征是帧级别的MFCC特征。在多说话人语音分离中,将所述说话人识别结果进行聚类,就是一个语音流的聚类过程,将语音流聚类成多个说话人的语 音流。
S170、将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
在本实施例中,当完成了说话人分类结果的识别后,将将所述说话人分类结果发送至所述待识别语音数据对应的上传端,完成待识别语音数据在服务器线上进行说话人分离。
在一实施例中,步骤S121包括:
通过N-gram模型对所述待识别语音数据进行识别,以得到识别结果;其中,所述N-gram模型为N元模型,所述N-gram模型由训练集语料库输入至初始N-gram模型进行训练而得到;
将所述识别结果通过基于概率统计分词模型进行分词,得到与所述识别结果对应的分词结果;
将分词结果中的各分词对应转化为独立热编码词向量。
在本实施例中,N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。
通过N-gram模型对所述待识别语音数据进行识别得到识别结果后,再通过基于概率统计分词模型进行分词,得到与所述识别结果对应的分词结果。其中,基于概率统计分词模型进行分词过程如下:例如,令C=C1C2...Cm,C是待切分的汉字串,令W=W1W2...Wn,W是切分的结果,Wa,Wb,……,Wk是C的所有可能的切分方案。那么,基于概率统计分词模型就是能够找到目的词串W,使得W满足:P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C))的分词模型,上述分词模型得到的词串W即估计概率为最大之词串。通过基于概率统计分词模型即可对所述识别结果行分词,从而得到与所述识别结果对应的分词结果。
最后将分词结果中的各分词对应转化为独立热编码词向量即可。
在一实施例中,步骤S160之后还包括:
判断所述说话人分类结果中的说话人个数是否大于1;
若所述说话人分类结果中的说话人个数等于1,将所述待识别语音数据对应增加用于标识非对话语音的第一标签;
若所述说话人分类结果中的说话人个数大于1,将所述待识别语音数据对应增加用于标识对话语音的第二标签。
在本实施例中,当所述说话人分类结果中的说话人个数超出一个,表示所述待识别语音数据是至少2个人对话;当所述说话人分类结果中的说话人个数未超出一个,表示所述待识别语音数据是至多1个人说话。通过对说话人个数统计,能有效区分待识别语音数据对应的是对话还是独白。
该方法实现了融合了词汇和声学特征信息的序列到序列模型去进行说话人的分离,可以捕捉到包括说话人转换点前后的编码信息。
本申请实施例还提供一种基于循环神经网络和声学特征的说话人分离装置,该基于循环神经网络和声学特征的说话人分离装置用于执行前述基于循环神经网络和声学特征的说话人分离方法的任一实施例。具体地,请参阅图5,图5是本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的示意性框图。该基于循环神经网络和声学特征的说话人分离装置100可以配置于服务器中。
如图5所示,基于循环神经网络和声学特征的说话人分离装置100包括语音接收单元110、特征融合单元120、编码单元130、解码单元140、说话人预测单元150、说话人聚类单元160、结果发送单元170。
语音接收单元110,用于接收上传端所发送的待识别语音数据。
特征融合单元120,用于通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量。
其中,词向量集合从所述待识别语音数据对应的文本数据中获取。在一实施例中,如图6所示,特征融合单元120包括:
独立热编码词向量获取单元121,用于通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量;
词向量集合获取单元122,用于通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化,得到与待识别语音数据对应的词向量集合。
其中,MFCC特征向量集合从所述待识别语音数据中直接获取。在一实施例中,特征融合单元120还用于:
按照预设的特征窗口从所述待识别语音进行特征提取,得到与所述待识别语音对应的MFCC特征向量;其中,所述特征窗口的窗口长度为预设的第一时 间值,所述特征窗口的移动距离为预设的第二时间值。
在一实施例中,将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接,以得到融合后特征向量。
编码单元130,用于将所述融合后特征向量输入至编码器中进行编码,得到编码结果。
在一实施例中,编码单元130包括:
中间语义获取单元,用于将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义;
注意力机制处理单元,用于通过注意力机制获取所述中间语义中各分词的注意力分配概率分布,以得到与所述中间语义对应的编码结果。
解码单元140,用于将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符。
说话人预测单元150,用于将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果。
在一实施例中,如图7所示,说话人预测单元150包括:
分割结果获取单元151,用于获取解码器中的分割结果;
当前起始词获取单元152,用于获取所述分割结果中标识位指向首位的词,以作为当前起始词;
转换向量获取单元153,用于将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量;
转换向量存储单元154,用于将所述转换向量存储至说话人转换序列矩阵中;
起始词更新单元155,用于将所述标识位指向位置向右移动一个词以更新当前起始词;
末位词判断单元156,用于判断当前起始词是否为分割结果中处于末位的词,若当前起始词不为分割结果中处于末位的词,返回执行将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量的步骤,若当前起始词为分割结果中处于末位的词执行结束说话人转换的预测的流程的步骤;
流程结束单元157,用于结束说话人转换的预测的流程。
说话人聚类单元160,用于将所述说话人识别结果通过聚类,得到说话人分类结果。
结果发送单元170,用于将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
在本实施例中,当完成了说话人分类结果的识别后,将将所述说话人分类结果发送至所述待识别语音数据对应的上传端,完成待识别语音数据在服务器线上进行说话人分离。
该装置实现了融合了词汇和声学特征信息的序列到序列模型去进行说话人的分离,可以捕捉到包括说话人转换点前后的编码信息。
上述基于循环神经网络和声学特征的说话人分离装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于循环神经网络和声学特征的说话人分离方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于循环神经网络和声学特征的说话人分离方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本申请实施例中基于循环神经网络和声学特征的说话人分离方法。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(Central Processing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例中基于循环神经网络和声学特征的说话人分离方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种基于循环神经网络和声学特征的说话人分离方法,包括:
    接收上传端所发送的待识别语音数据;
    通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量;
    将所述融合后特征向量输入至编码器中进行编码,得到编码结果;
    将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符;
    将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;
    将所述说话人识别结果通过聚类,得到说话人分类结果;以及
    将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
  2. 根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述通过语音识别获取所述待识别语音数据的词向量集合,包括:
    通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量;
    通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化,得到与待识别语音数据对应的词向量集合。
  3. 根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述通过语音识别获取所述待识别语音数据的MFCC特征向量集合,包括:
    按照预设的特征窗口从所述待识别语音进行特征提取,得到与所述待识别语音对应的MFCC特征向量;其中,所述特征窗口的窗口长度为预设的第一时间值,所述特征窗口的移动距离为预设的第二时间值。
  4. 根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量,包括:
    将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接,以得到融合后特征向量。
  5. 根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述将所述融合后特征向量输入至编码器中进行编码,得到编码结果,包括:
    将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义;
    通过注意力机制获取所述中间语义中各分词的注意力分配概率分布,以得到与所述中间语义对应的编码结果。
  6. 根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果,包括:
    获取解码器中的分割结果;
    获取所述分割结果中标识位指向首位的词,以作为当前起始词;
    将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量;
    将所述转换向量存储至说话人转换序列矩阵中;
    将所述标识位指向位置向右移动一个词以更新当前起始词;
    判断当前起始词是否为分割结果中处于末位的词,若当前起始词不为分割结果中处于末位的词,返回执行将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量的步骤,若当前起始词为分割结果中处于末位的词执行结束说话人转换的预测的流程的步骤;
    结束说话人转换的预测的流程。
  7. 根据权利要求2所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量,包括:
    通过N-gram模型对所述待识别语音数据进行识别,以得到识别结果;其中,所述N-gram模型为N元模型,所述N-gram模型由训练集语料库输入至初始N-gram模型进行训练而得到;
    将所述识别结果通过基于概率统计分词模型进行分词,得到与所述识别结果对应的分词结果;
    将分词结果中的各分词对应转化为独立热编码词向量。
  8. 根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法,其中,所述将所述说话人识别结果通过聚类,得到说话人分类结果之后,还包括:
    判断所述说话人分类结果中的说话人个数是否大于1;
    若所述说话人分类结果中的说话人个数等于1,将所述待识别语音数据对应增加用于标识非对话语音的第一标签;
    若所述说话人分类结果中的说话人个数大于1,将所述待识别语音数据对应增加用于标识对话语音的第二标签。
  9. 一种基于循环神经网络和声学特征的说话人分离装置,包括:
    语音接收单元,用于接收上传端所发送的待识别语音数据;
    特征融合单元,用于通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量;
    编码单元,用于将所述融合后特征向量输入至编码器中进行编码,得到编码结果;
    解码单元,用于将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符;
    说话人预测单元,用于将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;
    说话人聚类单元,用于将所述说话人识别结果通过聚类,得到说话人分类结果;以及
    结果发送单元,用于将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
  10. 根据权利要求9所述的基于循环神经网络和声学特征的说话人分离装置,其中,所述特征融合单元,还用于:
    按照预设的特征窗口从所述待识别语音进行特征提取,得到与所述待识别语音对应的MFCC特征向量;其中,所述特征窗口的窗口长度为预设的第一时间值,所述特征窗口的移动距离为预设的第二时间值。
  11. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
    接收上传端所发送的待识别语音数据;
    通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量;
    将所述融合后特征向量输入至编码器中进行编码,得到编码结果;
    将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符;
    将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;
    将所述说话人识别结果通过聚类,得到说话人分类结果;以及
    将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
  12. 根据权利要求11所述的计算机设备,其中,所述通过语音识别获取所述待识别语音数据的词向量集合,包括:
    通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量;
    通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化,得到与待识别语音数据对应的词向量集合。
  13. 根据权利要求11所述的计算机设备,其中,所述通过语音识别获取所述待识别语音数据的MFCC特征向量集合,包括:
    按照预设的特征窗口从所述待识别语音进行特征提取,得到与所述待识别语音对应的MFCC特征向量;其中,所述特征窗口的窗口长度为预设的第一时间值,所述特征窗口的移动距离为预设的第二时间值。
  14. 根据权利要求11所述的计算机设备,其中,所述将所述词向量集合和 MFCC特征向量集合进行全连接,以得到融合后特征向量,包括:
    将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接,以得到融合后特征向量。
  15. 根据权利要求11所述的计算机设备,其中,所述将所述融合后特征向量输入至编码器中进行编码,得到编码结果,包括:
    将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义;
    通过注意力机制获取所述中间语义中各分词的注意力分配概率分布,以得到与所述中间语义对应的编码结果。
  16. 根据权利要求11所述的计算机设备,其中,所述将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果,包括:
    获取解码器中的分割结果;
    获取所述分割结果中标识位指向首位的词,以作为当前起始词;
    将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量;
    将所述转换向量存储至说话人转换序列矩阵中;
    将所述标识位指向位置向右移动一个词以更新当前起始词;
    判断当前起始词是否为分割结果中处于末位的词,若当前起始词不为分割结果中处于末位的词,返回执行将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词,以建立转换向量的步骤,若当前起始词为分割结果中处于末位的词执行结束说话人转换的预测的流程的步骤;
    结束说话人转换的预测的流程。
  17. 根据权利要求12所述的计算机设备,其中,所述通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量,包括:
    通过N-gram模型对所述待识别语音数据进行识别,以得到识别结果;其中,所述N-gram模型为N元模型,所述N-gram模型由训练集语料库输入至初始N-gram模型进行训练而得到;
    将所述识别结果通过基于概率统计分词模型进行分词,得到与所述识别结果对应的分词结果;
    将分词结果中的各分词对应转化为独立热编码词向量。
  18. 根据权利要求11所述的计算机设备,其中,所述将所述说话人识别结果通过聚类,得到说话人分类结果之后,还包括:
    判断所述说话人分类结果中的说话人个数是否大于1;
    若所述说话人分类结果中的说话人个数等于1,将所述待识别语音数据对应增加用于标识非对话语音的第一标签;
    若所述说话人分类结果中的说话人个数大于1,将所述待识别语音数据对应增加用于标识对话语音的第二标签。
  19. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行以下操作:
    接收上传端所发送的待识别语音数据;
    通过语音识别获取所述待识别语音数据的词向量集合,并通过语音识别获取所述待识别语音数据的MFCC特征向量集合,将所述词向量集合和MFCC特征向量集合进行全连接,以得到融合后特征向量;
    将所述融合后特征向量输入至编码器中进行编码,得到编码结果;
    将所述编码结果作为解码器的输入进行解码,得到与所述融合后特征向量对应的分割结果;其中,所述分割结果包括词序列和说话人转换符;
    将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词,以对所述分割结果进行说话人转换的预测,得到说话人转换符对应的说话人识别结果;
    将所述说话人识别结果通过聚类,得到说话人分类结果;以及
    将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述通过语音识别获取所述待识别语音数据的词向量集合,包括:
    通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量;
    通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化,得到与待识别语音数据对应的词向量集合。
PCT/CN2019/117805 2019-06-26 2019-11-13 基于循环神经网络和声学特征的说话人分离方法及装置 WO2020258661A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910561692.X 2019-06-26
CN201910561692.XA CN110444223B (zh) 2019-06-26 2019-06-26 基于循环神经网络和声学特征的说话人分离方法及装置

Publications (1)

Publication Number Publication Date
WO2020258661A1 true WO2020258661A1 (zh) 2020-12-30

Family

ID=68428733

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117805 WO2020258661A1 (zh) 2019-06-26 2019-11-13 基于循环神经网络和声学特征的说话人分离方法及装置

Country Status (2)

Country Link
CN (1) CN110444223B (zh)
WO (1) WO2020258661A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555034A (zh) * 2021-08-03 2021-10-26 京东数科海益信息科技有限公司 压缩音频识别方法、装置及存储介质
CN113642422A (zh) * 2021-07-27 2021-11-12 东北电力大学 一种连续中文手语识别方法
CN113822276A (zh) * 2021-09-30 2021-12-21 中国平安人寿保险股份有限公司 基于神经网络的图片矫正方法、装置、设备及介质
CN114330474A (zh) * 2021-10-20 2022-04-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN112951270B (zh) * 2019-11-26 2024-04-19 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备
CN110931013B (zh) * 2019-11-29 2022-06-03 北京搜狗科技发展有限公司 一种语音数据的处理方法及装置
CN111128223B (zh) * 2019-12-30 2022-08-05 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111261186B (zh) * 2020-01-16 2023-05-30 南京理工大学 基于改进自注意力机制与跨频带特征的音频音源分离方法
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111461173B (zh) * 2020-03-06 2023-06-20 华南理工大学 一种基于注意力机制的多说话人聚类系统及方法
CN111223476B (zh) * 2020-04-23 2020-08-04 深圳市友杰智新科技有限公司 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111640450A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 多人声音频处理方法、装置、设备及可读存储介质
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111883165B (zh) * 2020-07-02 2024-06-18 中移(杭州)信息技术有限公司 说话人语音切分方法、装置、电子设备及存储介质
CN112201275B (zh) * 2020-10-09 2024-05-07 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
CN112233668B (zh) * 2020-10-21 2023-04-07 中国人民解放军海军工程大学 一种基于神经网络的语音指令及身份识别方法
CN112992175B (zh) * 2021-02-04 2023-08-11 深圳壹秘科技有限公司 一种语音区分方法及其语音记录装置
CN113707130B (zh) * 2021-08-16 2024-06-14 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
CN105427858A (zh) * 2015-11-06 2016-03-23 科大讯飞股份有限公司 实现语音自动分类的方法及系统
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN108320732A (zh) * 2017-01-13 2018-07-24 阿里巴巴集团控股有限公司 生成目标说话人语音识别计算模型的方法和装置
CN108766440A (zh) * 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
US20190156837A1 (en) * 2017-11-23 2019-05-23 Samsung Electronics Co., Ltd. Neural network device for speaker recognition, and method of operation thereof
CN110444223A (zh) * 2019-06-26 2019-11-12 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN107731233B (zh) * 2017-11-03 2021-02-09 王华锋 一种基于rnn的声纹识别方法
CN109147758B (zh) * 2018-09-12 2020-02-14 科大讯飞股份有限公司 一种说话人声音转换方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6895376B2 (en) * 2001-05-04 2005-05-17 Matsushita Electric Industrial Co., Ltd. Eigenvoice re-estimation technique of acoustic models for speech recognition, speaker identification and speaker verification
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105427858A (zh) * 2015-11-06 2016-03-23 科大讯飞股份有限公司 实现语音自动分类的方法及系统
CN108320732A (zh) * 2017-01-13 2018-07-24 阿里巴巴集团控股有限公司 生成目标说话人语音识别计算模型的方法和装置
US20190156837A1 (en) * 2017-11-23 2019-05-23 Samsung Electronics Co., Ltd. Neural network device for speaker recognition, and method of operation thereof
CN108766440A (zh) * 2018-05-28 2018-11-06 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和系统
CN109584903A (zh) * 2018-12-29 2019-04-05 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
CN110444223A (zh) * 2019-06-26 2019-11-12 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642422A (zh) * 2021-07-27 2021-11-12 东北电力大学 一种连续中文手语识别方法
CN113642422B (zh) * 2021-07-27 2024-05-24 东北电力大学 一种连续中文手语识别方法
CN113555034A (zh) * 2021-08-03 2021-10-26 京东数科海益信息科技有限公司 压缩音频识别方法、装置及存储介质
CN113555034B (zh) * 2021-08-03 2024-03-01 京东科技信息技术有限公司 压缩音频识别方法、装置及存储介质
CN113822276A (zh) * 2021-09-30 2021-12-21 中国平安人寿保险股份有限公司 基于神经网络的图片矫正方法、装置、设备及介质
CN114330474A (zh) * 2021-10-20 2022-04-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114330474B (zh) * 2021-10-20 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质

Also Published As

Publication number Publication date
CN110444223B (zh) 2023-05-23
CN110444223A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
WO2020258661A1 (zh) 基于循环神经网络和声学特征的说话人分离方法及装置
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
WO2019196196A1 (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
WO2023109379A1 (zh) 语音识别方法、语音识别模型、电子设备和存储介质
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
WO2015103836A1 (zh) 一种语音控制方法及装置
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN111489754A (zh) 一种基于智能语音技术的话务数据分析方法
JP2024508196A (ja) 拡張された自己注意によってコンテキストを取り込むための人工知能システム
KR102305672B1 (ko) 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
CN113948090B (zh) 语音检测方法、会话记录产品及计算机存储介质
CN113793599A (zh) 语音识别模型的训练方法和语音识别方法及装置
WO2024001662A1 (zh) 语音识别方法、装置、设备和存储介质
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
JP7291099B2 (ja) 音声認識方法及び装置
CN118176537A (zh) 用于长形式语音识别的训练
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19934901

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19934901

Country of ref document: EP

Kind code of ref document: A1