WO2019212375A1 - Method for obtaining speaker-dependent small high-level acoustic speech attributes - Google Patents

Method for obtaining speaker-dependent small high-level acoustic speech attributes Download PDF

Info

Publication number
WO2019212375A1
WO2019212375A1 PCT/RU2018/000286 RU2018000286W WO2019212375A1 WO 2019212375 A1 WO2019212375 A1 WO 2019212375A1 RU 2018000286 W RU2018000286 W RU 2018000286W WO 2019212375 A1 WO2019212375 A1 WO 2019212375A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
level
speech
low
layer
Prior art date
Application number
PCT/RU2018/000286
Other languages
French (fr)
Russian (ru)
Inventor
Алексей Александрович ПРУДНИКОВ
Максим Львович КОРЕНЕВСКИЙ
Иван Павлович МЕДЕННИКОВ
Original Assignee
Общество с ограниченной ответственностью "Центр речевых технологий"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Центр речевых технологий" filed Critical Общество с ограниченной ответственностью "Центр речевых технологий"
Priority to EA202092400A priority Critical patent/EA202092400A1/en
Priority to PCT/RU2018/000286 priority patent/WO2019212375A1/en
Publication of WO2019212375A1 publication Critical patent/WO2019212375A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Definitions

  • the invention relates to the field of speech recognition, in particular to obtaining high-level acoustic features of speech for speech recognition in terms of acoustic variability.
  • a known method of obtaining a speaker adaptive acoustic model through a neural network using the i-vector (US2015149165).
  • an acoustic model based on a deep neural network is provided, audio data including one or more speaker statements is received, a plurality of speech recognition features are extracted from said one or more speaker statements, a speaker identification vector for this speaker is created based on the extracted speech recognition features and adapt the acoustic model of the deep neural network for automatic speech recognition using the extracted features p spoznavaniya speech and speaker identification vector.
  • a known method of adapting an acoustic model based on a neural network (US20170169815).
  • a trained acoustic neural network can be adapted to the speaker by using speech data corresponding to a variety of statements made by the speaker.
  • a trained acoustic model neural network may have an input layer, one or more hidden layers and an output layer, and may be a deep neural network.
  • the input layer may include a set of input nodes that contain speech features derived from a speech utterance, and another set of input nodes that contain speaker information values derived from a speech utterance.
  • Signs of speech may include values used to collect information about the content of the utterance, including, without limitation, melf-frequency cepstral coefficients (MFCCs) for one or more speech frames, first-order derivatives between MFCCs for consecutive speech frames (delta MFCCs) and derivatives second order between MFCCs for consecutive frames (delta-delta MFCCs).
  • MFCCs melf-frequency cepstral coefficients
  • delta MFCCs first-order derivatives between MFCCs for consecutive speech frames
  • delta-delta MFCCs derivatives second order between MFCCs for consecutive frames
  • the speaker information values may include a speaker identification vector (i-vector).
  • An acoustic model with a multilingual deep neural network may have a direct distribution neural network having several layers with one or more nodes. Each node of this layer is connected by appropriate weights to each node of the subsequent layer, and several layers with one or more nodes can have one or more common hidden layers of nodes and a language-dependent output layer of nodes corresponding to each of two or more languages.
  • the disadvantages of the known invention is that the method disclosed therein does not provide a multilingual acoustic model that would be highly resistant to distortion of the input data and would allow speech recognition with high accuracy under conditions of acoustic variability.
  • a deep neural network has several hidden layers, a small layer and an output layer, while its first hidden layer includes a first set of nodes processing acoustic features, and a second set of nodes processing additional speaker information, input acoustic features are multiplied by the first matrix of weights, and additional announcer information is multiplied by a second matrix of weights.
  • the outputs of the small layer are connected to the next network layer.
  • the disadvantage of this method is that training a neural network with a narrow neck does not provide high-quality small-sized features and, as a result, cannot provide an acoustic model that would allow high-precision speech recognition under conditions of acoustic variability.
  • a known method of data replenishment based on the stochastic conversion of features for automatic speech recognition (US9721559), according to which a speaker-dependent acoustic model of the target speaker is taught for further recognition of his speech, i.e. this model is designed with the best possible quality to recognize one specific speaker.
  • the disadvantage of this method is that small-sized features are built for a specific speaker and are used to train an acoustic model designed exclusively for recognizing his speech. The signs obtained in this way do not allow learning the acoustic model that would be used for speech recognition of arbitrary speakers.
  • the proposed method for training a neural network with a narrow neck does not provide high-quality small-sized features.
  • the known methods do not provide acoustic characteristics and acoustic models corresponding to a high level of quality for subsequent speech recognition in the conditions of acoustic variability of various speakers.
  • the possibility of obtaining multilingual acoustic features and / or a multilingual acoustic model that is highly resistant to input data distortions and meets a high level of quality for subsequent speech recognition has not been sufficiently developed.
  • the technical problem of the present invention is to provide a method for producing high-level acoustic features that can be used to train an acoustic model characterized by low sensitivity to acoustic variability of a speech signal and providing high accuracy in speech recognition.
  • the posed problem is solved due to the fact that, according to the proposed method for obtaining small-sized high-level acoustic signs of speech, they provide the presence of low-level signs of speech and the corresponding speaker information, then they train the neural network using low-level signs of speech, after which they train the neural network using low-level signs of speech, supplemented by announcer information.
  • a small-sized layer is introduced into the composition of the neural network and a neural network with a small-sized layer is further trained using low-level features of speech supplemented by announcer information, then small-sized, high-level acoustic features of speech are extracted from the output of the small-sized layer of the neural network.
  • the proposed method allows to achieve a technical result in the form of increasing the information content of high-level acoustic features, which, in turn, improves the accuracy of speech recognition systems of various (arbitrary) speakers under conditions of acoustic variability.
  • additional announcer information is used (for example, using i-vectors), taking into account information about the announcer, and / or channel, and / or surroundings, which allows obtaining so-called speaker-dependent acoustic features that provide recognition speeches of various (arbitrary) speakers and in various conditions.
  • Implementation of the proposed method is based on neural networks, which improves the quality of the obtained acoustic signs.
  • the proposed method uses a neural network with a narrow neck, i.e. a small-sized layer is introduced into the neural network, which reduces the dimension of the input data.
  • the outputs of this layer will be small high-level features that are not only resistant to distortion of the input acoustic features, but also accumulate information about the speaker, and / or channel, and / or environment. It is worth noting that the quality of training a neural network directly affects the quality of the resulting speaker-dependent small-sized high-level acoustic features.
  • the initial training of the neural network is performed using only low-level speech features, and then using low-level speech features, supplemented by speaker information, without small-sized layer, which allows you to bring the weights of the remaining layers to values that are close enough to optimal, which improves the quality of training the neural network and facilitates retraining of the network after the introduction of the small-sized layer.
  • Additional training of the neural network using low-level speech features, supplemented by announcer information allows you to compensate for changes in the weight matrix of the last layer after the small layer is inserted into the neural network, which improves the quality of training of the neural network and, as a result, the quality of acoustic characteristics obtained after training.
  • the use of speaker-dependent small-sized high-level acoustic features obtained by the proposed method for training a neural network in speech recognition allows to obtain significant gains in the accuracy of speech recognition.
  • its input layer is expanded by supplementing the matrix of the layer with zero columns. Expansion of the input layer is necessary to enable the training of the neural network using low-level speech features supplemented by announcer information, otherwise the dimension of the input vector, consisting of low-level speech features and the corresponding speaker information, will be too large for the input layer of the neural network.
  • expansion by supplementing the input layer matrix with zero columns after training the neural network using low-level speech features allows you to save the behavior of the network, which improves the quality of training the neural network.
  • low-level speech features have the form of shallow-frequency cepstral coefficients or logarithms of energy in shallow-frequency bands.
  • the presentation of low-level speech features in the proposed types allows to obtain high-quality high-level acoustic features.
  • the announcer's information has the form of a small-sized i-vector.
  • the 1-vector is a small-sized (of the order of 100 elements) vector that allows you to encode the deviation of the distribution of acoustic phonogram signs from the distribution estimated over the entire training sample, and accumulate information about the speaker, as well as, to some extent, the channel and acoustic environment .
  • the use of a small-sized i-vector together with low-level speech features increases the accuracy of training neural network and, as a result, resulting from the training of high-level acoustic features.
  • training a neural network using low-level speech features is carried out according to the criterion of minimum cross-entropy.
  • Cross entropy shows how much the probability distribution at the output of the neural network corresponds to the senon actually observed in this frame.
  • the neural network is retrained using low-level speech features, supplemented by announcer information, according to the criterion of the minimum amount of cross-entropy and an additional regularizing term.
  • An additional regularizing term prevents a strong deviation of weights from previously trained ones, which increases the quality (accuracy) of training the neural network.
  • a neural network trained using low-level speech features, supplemented by announcer information is retrained using the criterion of minimum cross-entropy sum and an additional regularizing term using the sequentially discriminative criterion. This criterion improves recognition accuracy.
  • a small-sized layer is introduced by low-ranking factorization of the weight matrix of the last hidden layer, in particular by singular decomposition.
  • the singular decomposition allows to reduce the rank of the weight matrix of the last hidden layer of the neural network by discarding the smallest singular numbers, thereby ensuring the entry of a small-sized layer (small-sized linear layer) into the neural network.
  • the layers located after the small-sized layer of the neural network are removed. Removing all layers after the small-sized layer will allow us to consider the trained neural network as an extractor of small-sized high-level features.
  • low-level speech features of at least two different languages and the corresponding speaker information are supplied to the input of the neural network, and multilingual small-sized high-level acoustic features of speech are extracted from the output of the small size layer of the neural network.
  • the small-sized layer contains high-level features that apply to all languages of the training set at once. Received so In this way, acoustic features are highly informative and can increase resistance to changing the input language in speech recognition systems.
  • the number of output layers of the neural network is equal to the number of languages, and the weights of each of the output layers are adjusted only according to the data of the corresponding language, and the weights of all hidden layers are adjusted according to the data of all of the indicated at least two languages.
  • the proposed architecture provides the possibility of multilingual learning of a neural network.
  • FIG. 1 architecture of a trained neural network without a small layer, according to one embodiment of the invention
  • FIG. 2 is an architecture of a trained neural network with a small layer, according to one embodiment of the invention.
  • FIG. 3 is a training diagram of a speech recognition neural network according to one embodiment of the invention.
  • One of the most difficult tasks in the field of automatic speech recognition is the problem of recognition of spontaneous spoken speech of various (arbitrary) speakers.
  • the complexity of the task is due to the peculiarities of spontaneous speech of various (arbitrary) speakers: high channel and speaker variability, the presence of additive and non-linear distortions, the presence of accent and emotional speech, a diverse manner of pronunciation, the variability of the tempo of speech, reduction and lingering articulation.
  • One way to improve the quality of recognition of spontaneous speech is to reduce the sensitivity of the recognition system to the acoustic variability of the speech signal.
  • the implementation of this method is possible when applying the adaptation of acoustic models based on deep neural networks using speaker information that takes into account information about the speaker and / or channel and / or environment.
  • the method of obtaining small-sized, high-level acoustic features of speech allows obtaining acoustic features that can be used for adaptive learning acoustic model, characterized by low sensitivity to acoustic variability of the speech signal and providing high accuracy in speech recognition.
  • retraining refers to training that begins with the configured parameters obtained during previous training.
  • the method of obtaining small-sized high-level acoustic features of speech in accordance with the present invention can be carried out using, for example, known computer or multiprocessor systems.
  • the claimed method can be implemented using specialized software and hardware.
  • a deep direct distribution neural network is used.
  • other suitable architectures can be used to train the neural network, for example convolutional neural networks, time-delayed neural networks, etc.
  • the basic deep direct distribution neural network is initially initialized with random weights, after which a training example is fed to its input and the network activity is calculated, then an idea of the error is formed, that is, the difference between what should be on the output layer and what happened to the network. Further weights are adjusted in such a way as to reduce this error.
  • FIG. 1 depicts a deep neural network of direct distribution without a small layer (without a narrow throat).
  • the proposed neural network contains an input layer 1, which serves low-level features of speech and i-vector.
  • the neural network also contains several hidden layers 2, which process the signs obtained from the input layer, and the output layer 3, which outputs the result.
  • Each layer contains neurons that receive information, perform calculations and pass it on.
  • neurons change weights; in other words, the weights of the neurons vary with the information coming into the neuron.
  • training is carried out through a deep neural network without a narrow throat (without small layer), after training the neural network to the required limits add small layer 2A (Fig. 2).
  • a deep direct distribution neural network is used, trained to classify speech units. On each short-term part of speech (frame, they usually follow with a frequency of 100 Hz), the classification allows us to evaluate which pronounced "sounds" of speech most likely generated the observed vector of acoustic signs.
  • Speech units can be understood as phonemes.
  • phoneme means the minimum unit of the sound system of a language that does not have an independent lexical or grammatical meaning. For example, according to various phonological schools, the Russian language contains from 39 to 43 phonemes. Also, speech units can be understood as allophones or their parts.
  • the term "allophone” refers to a specific implementation of the phoneme in speech, due to its phonetic environment.
  • An allophone that takes into account 1 phoneme before and after this one is called a trifon.
  • phonemes or trifons are modeled by a hidden Markov model with states 1–3 (state 1 — entrance to sound, transition from the previous one, state 2 — stable part, state 3 — exit from sound, transition to the next), while some Trifon states “Bind” together to provide enough data to train rare Trifonov.
  • Such bound states are called “senons”, and it is to them that the outputs of the neural network correspond, i.e. the neural network classifies speech feature vectors into classes of senons, estimates the probabilities of each senon with the observed feature vector.
  • the optimal configuration of a deep neural network provides 6 hidden layers of 1536 neurons each with sigmoid and output softmax layer with 13000 neurons corresponding to the senons of the acoustic model based on Gaussian mixtures.
  • the optimal configuration depends on the amount of training data.
  • the training sample is formed from the phonograms of various speakers. Phonograms can be obtained by any known method, for example, by recording telephone conversations. In this embodiment, the speakers speak the same language.
  • low-level acoustic features mel-frequency cepstral coefficients, for example, dimension 12, or logarithms of energy in mel-frequency bands, for example, dimensions
  • low-level acoustic features are meant features extracted directly from a speech signal or its spectrum by digital signal processing methods. They carry important information about the signal, but are difficult to interpret in terms of classifying speech units.
  • low-level acoustic features such as perceptual linear prediction (PLP) coefficients, output energies of the gammatone filter bank (gammatone interbank, GTFB), etc.
  • PPP perceptual linear prediction
  • GTFB gammatone interbank
  • a small-sized representation of the announcer information contained in the phonogram is extracted, in particular, i-vectors, for example, dimension 50 are extracted.
  • the extraction of i-vectors is carried out, for example, using the Universal Background Model (UBM), which was trained in advance.
  • UBM Universal Background Model
  • the 1-vector accumulates announcer information, and in some embodiments, it is a small-sized vector encoding the deviation of the distribution of the acoustic features of the phonogram from the distribution estimated over the entire training sample.
  • announcer information in the form of maximum likelihood coefficients of linear regression in a feature space (feature space Maximum Likelihood Linear Regression, fMLLR).
  • a deep neural network is trained to predict the probabilities of senon states corresponding to a separate speech frame, using only low-level acoustic signs according to the criterion of minimum cross-entropy.
  • Cross entropy shows how much the probability distribution at the output of the neural network corresponds to the senon actually observed in this frame. The closer the probability of a given cenon to unity, and the remaining cenons to zero, the cross-entropy in this frame will be lower.
  • cross-entropy is a measure of the average accuracy of the classification of individual speech frames throughout the training sample, and the smaller it is, the more accurately a given neural network is able to predict senons. In other words, minimizing cross-entropy is equivalent to lowering the average frame-by-frame classification error.
  • the initial low-level acoustical features are fed to the input of a deep neural network, previously expanding the input layer of a deep neural network by the dimension of additional features by adding zeros to the layer matrix, which will allow preserving the network behavior due to the multiplication of zeros by the components of the i-vector.
  • the input vector consists of 2 parts - the first part (low-level acoustic features) differs from frame to frame, the second (i-vector) is the same for all vectors of the same phonogram.
  • each voice of the speaker is characterized by a set of features that allow him to be perceived as the voice of this particular speaker. These features can be interpreted as coordinates in space, so each voice can be considered a point in the voice space, and if two voices are close in some parameters, then the points will also be close in the voice space and the corresponding i-vectors will also be close in space of voices.
  • speech recognition of various (arbitrary) speakers is provided. This is because, since there are usually a lot of speakers in the training sample, the network gains the ability to use information about which area of the voice space the input i-vector came from.
  • a deep neural network is retrained according to the criterion of the minimum cross-entropy sum, which allows you to combine all values to simultaneously reduce them, and an additional regularizing term, which controls the deviation of the weights of the deep neural network trained in this way from the weights of the deep neural network trained using only low-level acoustic features, which avoids a strong change in the weights of a deep neural th network in comparison with good (quality) initial approximation.
  • a word-of-error As a criterion for training a neural network, it is not differentiable (according to network parameters) and difficult to calculate during training. For this reason, other learning criteria are used, in particular, sequentially discriminative, indirectly aimed specifically at reducing the word error, but more accessible from a computational point of view. These criteria consider the best hypothesis about the sequence of recognized words in the decoder and thus strive to adjust the parameters of the neural network in order to bring it closer to the true sequence of words and to keep it as far as possible from all "competing" hypotheses.
  • the criterion of minimum average risk calculated by state (state-level Minimum Bayes Risk, sMBR) is only one of a number of well-known criteria of this class.
  • the weight matrix of the last hidden layer of the trained network is subjected to singular decomposition and its rank is reduced by discarding the smallest singular numbers.
  • the last layer of the original network is replaced by 2 layers, one of which is linear and contains fewer neurons compared to the input layer. This layer is called the bottleneck or small layer.
  • Part of the information when passing through a small-sized layer is irreversibly lost, but as a result, its most significant components are preserved.
  • Initial training without a small layer allows you to bring the weights of the remaining layers to values that are close enough to optimal, which facilitates retraining of the network after the introduction of a small layer, i.e.
  • the outputs of a deep neural network have good (qualitative) probability distributions of senons, which are already tuned according to the sequentially discriminative criterion. Since, as a result of a singular decomposition, the weight matrix of the last layer has undergone changes, the resulting deep neural network is no longer optimal from the point of view of the criterion of the previous training stage. Therefore, a deep neural network now with a small layer is once again retrained, using distributions from the previous training as target distributions.
  • the neural network is retrained according to the criterion of the minimum cross-entropy to convergence, which has already been used, which improves the quality of the extracted high-level small-sized features from the small-sized layer.
  • the high level of features is due to the fact that a deep neural network with a small layer, trained by the criterion of minimum cross-entropy, is able to provide almost as low values of cross-entropy as a deep neural network without a small layer, trained by the same criterion.
  • the features extracted from the outputs of the small-sized layer contain all the essential information from the speech signal contained in the initial low-level acoustic features and the i-vector.
  • the layers of the neural network located after the small-sized layer can be removed, which allows the trained deep neural network to become an “extractor” of new speaker-dependent small-sized high-level features, i.e. when a vector of low-level features extended (supplemented) by an i-vector is fed to the input of a neural network, as described previously, the output can be obtained activation values of a small-sized layer (layer of a narrow neck), which are a small-sized, speaker-dependent and high-level representation.
  • the proposed method can be applied to obtain multilingual speaker-dependent small-sized high-level acoustic features of speech.
  • low-level speech features of at least two different languages and the corresponding announcer information (i-vector) are supplied to the input of the neural network, while data from different languages is fed randomly to the input of the neural network.
  • the architecture of the neural network should be designed to multitasking training i.e. the neural network must have several hidden layers, the weights of which will be common for the data from the training set in all languages containing low-level speech features and announcer information, and many output layers, each of which processes data in one of the at least two languages.
  • the neural network is trained according to data in all available languages.
  • the process of learning a neural network is similar to that described above for one language, and upon completion of training, multilingual speaker-dependent small-sized features are extracted from the output of the small-sized layer, which are high-level features that contain information related to all languages of the training sample, and, as a result resistant to language changes in speech recognition.
  • training one multilingual acoustic model of a neural network may require less computation than training several multilingual acoustic models for each language individually.
  • a multilingual acoustic model can offer better accuracy compared to monolingual acoustic models obtained using limited data of the corresponding language.
  • FIG. Figure 3 shows the training of another neural network B for speech recognition, designated as block B (the left side of the circuit), to the input layer 4 of which high-level signs are received from the small-sized layer 2a of the trained neural network A trained by the proposed method and designated as block A (the left side of the circuit )
  • a vector is received, which is a union of vectors from the current frame (delay 0), as well as from frames located 5, 10, and 15 frames before the current and 5, 10, 15 frames after the current.
  • a vector of dimension 700 arrives at the input of the second network B.
  • the neural network B which is trained for speech recognition, contains an input layer 4 that receives this vector, hidden layers 5, the number of which is selected experimentally , and the output layer 6, which is the output of the neural network B.
  • Table 1 compares the values of the word-by-word recognition error (WER) of deep neural networks trained on speaker-dependent low-level high-level features obtained by the proposed method (speaker dependent bottleneck features - Deep Neural Network, SDBN-DNN) and deep neural networks trained on a speaker-adaptive method with using i-vectors (Deep Neural Network - i-vector, DNN-ivec).
  • WER word-by-word recognition error

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

The invention relates to the field of speech recognition, specifically to the obtaining of high-level acoustic speech attributes for the purpose of speech recognition in conditions of acoustic variability. A method is proposed for obtaining small high-level acoustic speech attributes, according to which method low-level speech attributes and speaker-specific information corresponding to said attributes are made available, then a neural network is trained using the low-level speech attributes, after which training of the neural network is completed using the low-level speech attributes, supplemented by the speaker-specific information. A small layer is introduced into the neural network and training of the neural network with the small layer is completed using low-level speech attributes, supplemented by speaker-specific information, then the small high-level acoustic speech attributes are extracted from the output of the small layer of the neural network.

Description

СПОСОБ ПОЛУЧЕНИЯ ДИКТОРОЗАВИСИМЫХ МАЛОРАЗМЕРНЫХ ВЫСОКОУРОВНЕВЫХ АКУСТИЧЕСКИХ ПРИЗНАКОВ РЕЧИ  METHOD FOR PRODUCING DICTOR-DEPENDENT SMALL-SIZED HIGH-LEVEL ACOUSTIC SPEECH SIGNS
ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY
Изобретение относится к области распознавания речи, в частности к получению высокоуровневых акустических признаков речи для распознавания речи в условиях акустической вариативности.  The invention relates to the field of speech recognition, in particular to obtaining high-level acoustic features of speech for speech recognition in terms of acoustic variability.
УРОВЕНЬ ТЕХНИКИ BACKGROUND
Известен способ получения диктороадаптивной акустической модели посредством нейронной сети с использованием i-вектора (US2015149165). Согласно известному способу, обеспечивают наличие акустической модели на основе глубокой нейронной сети, принимают аудиоданные, включающие одно или несколько высказываний диктора, извлекают множество признаков распознавания речи из указанных одного или нескольких высказываний диктора, создают идентификационный вектор диктора для этого диктора на основе извлеченных признаков распознавания речи и адаптируют акустическую модель глубокой нейронной сети для автоматического распознавания речи с использованием извлеченных признаков распознавания речи и идентификационного вектора диктора.  A known method of obtaining a speaker adaptive acoustic model through a neural network using the i-vector (US2015149165). According to the known method, an acoustic model based on a deep neural network is provided, audio data including one or more speaker statements is received, a plurality of speech recognition features are extracted from said one or more speaker statements, a speaker identification vector for this speaker is created based on the extracted speech recognition features and adapt the acoustic model of the deep neural network for automatic speech recognition using the extracted features p spoznavaniya speech and speaker identification vector.
Известен способ адаптации акустической модели на основе нейронной сети (US20170169815). В одном из вариантов реализации способа обученная акустическая нейронная сеть может быть адаптирована к диктору путём использования речевых данных, соответствующих множеству высказываний, произносимых диктором. Обученная нейронная сеть акустической модели может иметь входной слой, один или несколько скрытых слоев и выходной слой и может быть глубокой нейронной сетью. Входной слой может включать в себя набор входных узлов, которые содержат признаки речи, полученные из речевого высказывания, и другой набор входных узлов, которые содержат значения информации о дикторах, полученные из речевого высказывания. Признаки речи могут включать значения, используемые для сбора информации о содержании произносимого высказывания, включая, без ограничения, мел-частотные кепстральные коэффициенты (MFCCs) для одного или нескольких речевых кадров, производные первого порядка между MFCCs для последовательных речевых кадров (delta MFCCs) и производные второго порядка между MFCCs для последовательных кадров (delta-delta MFCCs). Кроме того, значения информации о дикторе могут включать вектор идентификации диктора (i-вектор). A known method of adapting an acoustic model based on a neural network (US20170169815). In one embodiment of the method, a trained acoustic neural network can be adapted to the speaker by using speech data corresponding to a variety of statements made by the speaker. A trained acoustic model neural network may have an input layer, one or more hidden layers and an output layer, and may be a deep neural network. The input layer may include a set of input nodes that contain speech features derived from a speech utterance, and another set of input nodes that contain speaker information values derived from a speech utterance. Signs of speech may include values used to collect information about the content of the utterance, including, without limitation, melf-frequency cepstral coefficients (MFCCs) for one or more speech frames, first-order derivatives between MFCCs for consecutive speech frames (delta MFCCs) and derivatives second order between MFCCs for consecutive frames (delta-delta MFCCs). In addition, the speaker information values may include a speaker identification vector (i-vector).
Общим недостатком известных способов (US2015149165 и US20170169815) является то, что они не обеспечивает получения акустической модели, которая бы обладала высокой устойчивостью к искажениям входных данных и позволяла бы с высокой точностью распознавать речь в условиях акустической вариативности.  A common disadvantage of the known methods (US2015149165 and US20170169815) is that they do not provide an acoustic model that would be highly resistant to distortion of the input data and would allow speech recognition with high accuracy under conditions of acoustic variability.
Известна многоязычная акустическая нейронная сеть (US9460711). В данном документе описывается система многозадачного обучения. Акустическая модель с многоязычной глубокой нейронной сетью может иметь нейронную сеть прямого распространения, имеющую несколько слоев с одним или несколькими узлами. Каждый узел данного слоя соединён соответствующими весами с каждым узлом последующего слоя, а несколько слоев с одним или несколькими узлами могут иметь один или несколько общих скрытых слоев узлов и языкозависимый выходной слой узлов, соответствующих каждому из двух или более языков.  Known multilingual acoustic neural network (US9460711). This document describes a multi-tasking learning system. An acoustic model with a multilingual deep neural network may have a direct distribution neural network having several layers with one or more nodes. Each node of this layer is connected by appropriate weights to each node of the subsequent layer, and several layers with one or more nodes can have one or more common hidden layers of nodes and a language-dependent output layer of nodes corresponding to each of two or more languages.
Недостатками известного изобретения является то, что раскрытый в нем способ не обеспечивает получение многоязычной акустической модели, которая бы обладала высокой устойчивостью к искажениям входных данных и позволяла бы с высокой точностью распознавать речь в условиях акустической вариативности.  The disadvantages of the known invention is that the method disclosed therein does not provide a multilingual acoustic model that would be highly resistant to distortion of the input data and would allow speech recognition with high accuracy under conditions of acoustic variability.
Известен способ распознавания речи с использованием нейронной сети с адаптацией к диктору (US9721561), согласно которому проводят обучение акустической модели на основе глубокой нейронной сети с узким горлом (с малоразмерным слоем), на вход которой поступают акустические признаки и дополнительная дикторская информация, благодаря чему осуществляется диктороосведомленное обучение. Согласно одному из вариантов осуществления способа, глубокая нейронная сеть имеет несколько скрытых слоев, малоразмерный слой и выходной слой, при этом её первый скрытый слой включает в себя первый набор узлов, обрабатывающий акустические признаки, и второй набор узлов, обрабатывающий дополнительную дикторскую информацию, входные акустические признаки умножаются на первую матрицу весовых коэффициентов, а дополнительная дикторская информация умножается на вторую матрицу весовых коэффициентов. Выходы малоразмерного слоя соединены со следующим слоем сети.  There is a method of speech recognition using a neural network with adaptation to the speaker (US9721561), according to which an acoustic model is trained based on a deep neural network with a narrow neck (with a small layer), the input of which receives acoustic signs and additional announcer information, due to which speaker-informed training. According to one embodiment of the method, a deep neural network has several hidden layers, a small layer and an output layer, while its first hidden layer includes a first set of nodes processing acoustic features, and a second set of nodes processing additional speaker information, input acoustic features are multiplied by the first matrix of weights, and additional announcer information is multiplied by a second matrix of weights. The outputs of the small layer are connected to the next network layer.
Недостатком известного способа является то, что обучение нейронной сети с узким горлом не обеспечивает получения качественных малоразмерных признаков и, как следствие, не может обеспечить получения акустической модели, которая бы позволяла с высокой точностью распознавать речь в условиях акустической вариативности. Известен способ пополнения данных, основанный на стохастическом преобразовании признаков для автоматического распознавания речи (US9721559), согласно которому обучают дикторозависимую акустическую модель целевого диктора для дальнейшего распознавания его речи, т.е. указанная модель призвана с наилучшим возможным качеством распознавать одного конкретного диктора. Ввиду недостаточности данных целевого диктора для обучения нейронной сети предлагается дополнять имеющиеся данные данными других дикторов из обучающей выборки, преобразованными с помощью стохастического преобразования признаков, а также возмущения длины голосового тракта. Параметры данных преобразований оцениваются на основе первой акустической модели, построенной только по данным целевого диктора. После дополнения выборки производится двухэтапное обучение: на первом этапе обучают глубокую нейронную сеть с узким горлом (с малоразмерным слоем) для получения признаков, которые извлекаются из малоразмерного слоя и используются во втором этапе обучения нейронной сети для получения результирующей дикторозависимой модели. The disadvantage of this method is that training a neural network with a narrow neck does not provide high-quality small-sized features and, as a result, cannot provide an acoustic model that would allow high-precision speech recognition under conditions of acoustic variability. A known method of data replenishment, based on the stochastic conversion of features for automatic speech recognition (US9721559), according to which a speaker-dependent acoustic model of the target speaker is taught for further recognition of his speech, i.e. this model is designed with the best possible quality to recognize one specific speaker. Due to the insufficient data of the target speaker for training the neural network, it is proposed to supplement the existing data with the data of other speakers from the training set, converted using stochastic feature conversion, as well as perturbations of the length of the voice path. The parameters of these transformations are estimated on the basis of the first acoustic model, built only according to the target speaker. After completing the sample, two-stage training is carried out: at the first stage, a deep neural network with a narrow neck (with a small size layer) is trained to obtain features that are extracted from the small size layer and are used in the second stage of training the neural network to obtain a resulting speaker-dependent model.
Недостатком известного способа является то, что малоразмерные признаки строятся для конкретного диктора и используются для обучения акустической модели, предназначенной исключительно для распознавания его речи. Полученные таким способом признаки не позволяют обучить акустическую модель, которая бы использовалась для распознавания речи произвольных дикторов. Кроме того, предложенный способ обучения нейронной сети с узким горлом не обеспечивает получения качественных малоразмерных признаков.  The disadvantage of this method is that small-sized features are built for a specific speaker and are used to train an acoustic model designed exclusively for recognizing his speech. The signs obtained in this way do not allow learning the acoustic model that would be used for speech recognition of arbitrary speakers. In addition, the proposed method for training a neural network with a narrow neck does not provide high-quality small-sized features.
Таким образом, известные способы не обеспечивают получения акустических признаков и акустических моделей, отвечающих высокому уровню качества, для последующего распознавания речи в условиях акустической вариативности различных дикторов. Кроме того, недостаточно проработана возможность получения многоязычных акустических признаков и/или многоязычной акустической модели, обладающих высокой устойчивостью к искажениям входных данных и отвечающих высокому уровню качества для последующего распознавания речи.  Thus, the known methods do not provide acoustic characteristics and acoustic models corresponding to a high level of quality for subsequent speech recognition in the conditions of acoustic variability of various speakers. In addition, the possibility of obtaining multilingual acoustic features and / or a multilingual acoustic model that is highly resistant to input data distortions and meets a high level of quality for subsequent speech recognition has not been sufficiently developed.
Ввиду имеющихся недостатков известных способов получения акустических признаков и/или акустических моделей технической проблемой настоящего изобретения является создание способа получения высокоуровневых акустических признаков, которые могут быть использованы для обучения акустической модели, характеризующейся низкой чувствительностью к акустической вариативности речевого сигнала и обеспечивающей высокую точность при распознавании речи. РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ Due to the disadvantages of the known methods for producing acoustic features and / or acoustic models, the technical problem of the present invention is to provide a method for producing high-level acoustic features that can be used to train an acoustic model characterized by low sensitivity to acoustic variability of a speech signal and providing high accuracy in speech recognition. SUMMARY OF THE INVENTION
Поставленная проблема решена благодаря тому, что, согласно предлагаемому способу получения малоразмерных высокоуровневых акустических признаков речи, обеспечивают наличие низкоуровневых признаков речи и соответствующей им дикторской информации, затем обучают нейронную сеть с использованием низкоуровневых признаков речи, после чего дообучают нейронную сеть с использованием низкоуровневых признаков речи, дополненных дикторской информацией. Далее, вводят малоразмерный слой в состав нейронной сети и дообучают нейронную сеть с малоразмерным слоем с использованием низкоуровневых признаков речи, дополненных дикторской информацией, затем извлекают с выхода малоразмерного слоя нейронной сети малоразмерные высокоуровневые акустические признаки речи. The posed problem is solved due to the fact that, according to the proposed method for obtaining small-sized high-level acoustic signs of speech, they provide the presence of low-level signs of speech and the corresponding speaker information, then they train the neural network using low-level signs of speech, after which they train the neural network using low-level signs of speech, supplemented by announcer information. Next, a small-sized layer is introduced into the composition of the neural network and a neural network with a small-sized layer is further trained using low-level features of speech supplemented by announcer information, then small-sized, high-level acoustic features of speech are extracted from the output of the small-sized layer of the neural network.
Предлагаемый способ позволяет достичь технического результата в виде повышения информативности высокоуровневых акустических признаков, что, в свою очередь, позволяет повысить точность систем распознавания речи различных (произвольных) дикторов в условиях акустической вариативности.  The proposed method allows to achieve a technical result in the form of increasing the information content of high-level acoustic features, which, in turn, improves the accuracy of speech recognition systems of various (arbitrary) speakers under conditions of acoustic variability.
Согласно предлагаемому способу, помимо низкоуровневых речевых признаков используют дополнительную дикторскую информацию (например, с использованием i- векторов), учитывающую информацию о дикторе, и/или канале, и/или окружении, которая позволяет получить так называемые дикторо-зависимые акустические признаки, обеспечивающие распознавание речи различных (произвольных) дикторов и в различных условиях. Реализация предлагаемого способа осуществляется на основе нейронных сетей, что позволяет повысить качество получаемых акустических признаков. В предлагаемом способе используют нейронную сеть с узким горлом, т.е. вводят в нейронную сеть малоразмерный слой, что понижает размерность входных данных. Кроме того, после обучения нейронной сети выходы этого слоя будут представлять собой малоразмерные высокоуровневые признаки, не только устойчивые к искажениям входных акустических признаков, но также аккумулирующие в себе информацию о дикторе, и/или канале, и/или окружении. Стоит отметить, что качество обучения нейронной сети напрямую влияет на качество получаемых в результате обучения дикторо-зависимых малоразмерных высокоуровневых акустических признаков.  According to the proposed method, in addition to low-level speech features, additional announcer information is used (for example, using i-vectors), taking into account information about the announcer, and / or channel, and / or surroundings, which allows obtaining so-called speaker-dependent acoustic features that provide recognition speeches of various (arbitrary) speakers and in various conditions. Implementation of the proposed method is based on neural networks, which improves the quality of the obtained acoustic signs. The proposed method uses a neural network with a narrow neck, i.e. a small-sized layer is introduced into the neural network, which reduces the dimension of the input data. In addition, after training the neural network, the outputs of this layer will be small high-level features that are not only resistant to distortion of the input acoustic features, but also accumulate information about the speaker, and / or channel, and / or environment. It is worth noting that the quality of training a neural network directly affects the quality of the resulting speaker-dependent small-sized high-level acoustic features.
В предлагаемом способе первоначальное обучение нейронной сети производят с использованием только низкоуровневых речевых признаков, а затем с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, без малоразмерного слоя, что позволяет привести веса остальных слоев к значениям, достаточно близким к оптимальным, что повышает качество обучения нейронной сети и облегчает дообучение сети после внедрения малоразмерного слоя. Дообучение нейронной сети с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, позволяет компенсировать изменения в матрице весов последнего слоя после ввода в нейронную сеть малоразмерного слоя, что повышает качество обучения нейронной сети и, как следствие, качество получаемых после обучения акустических признаков. Использование дикторо-зависимых малоразмерных высокоуровневых акустических признаков, полученных предложенным способом, для обучения нейронной сети распознаванию речи позволяет получить существенные приросты в точности распознавания речи. In the proposed method, the initial training of the neural network is performed using only low-level speech features, and then using low-level speech features, supplemented by speaker information, without small-sized layer, which allows you to bring the weights of the remaining layers to values that are close enough to optimal, which improves the quality of training the neural network and facilitates retraining of the network after the introduction of the small-sized layer. Additional training of the neural network using low-level speech features, supplemented by announcer information, allows you to compensate for changes in the weight matrix of the last layer after the small layer is inserted into the neural network, which improves the quality of training of the neural network and, as a result, the quality of acoustic characteristics obtained after training. The use of speaker-dependent small-sized high-level acoustic features obtained by the proposed method for training a neural network in speech recognition allows to obtain significant gains in the accuracy of speech recognition.
Согласно частному случаю реализации, после обучения нейронной сети с использованием низкоуровневых речевых признаков ее входной слой расширяют путем дополнения матрицы слоя нулевыми столбцами. Расширение входного слоя необходимо для обеспечения возможности дообучения нейронной сети с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, в противном случае размерность входного вектора, состоящего из низкоуровневых речевых признаков и соответствующей им дикторской информации, будет слишком велика для входного слоя нейронной сети. Кроме того, расширение путем дополнения матрицы входного слоя нулевыми столбцами после обучения нейронной сети с использованием низкоуровневых речевых признаков позволяет сохранить поведение сети, что улучшает качество обучения нейронной сети.  According to a special case of implementation, after training a neural network using low-level speech features, its input layer is expanded by supplementing the matrix of the layer with zero columns. Expansion of the input layer is necessary to enable the training of the neural network using low-level speech features supplemented by announcer information, otherwise the dimension of the input vector, consisting of low-level speech features and the corresponding speaker information, will be too large for the input layer of the neural network. In addition, expansion by supplementing the input layer matrix with zero columns after training the neural network using low-level speech features allows you to save the behavior of the network, which improves the quality of training the neural network.
Согласно частному случаю реализации, низкоуровневые речевые признаки имеют вид мел-частотных кепстральных коэффициентов либо логарифмов энергии в мел-частотных полосах. Представление низкоуровневых речевых признаков в предложенных видах позволяет обеспечить получение качественных высокоуровневых акустических признаков.  According to a special case of implementation, low-level speech features have the form of shallow-frequency cepstral coefficients or logarithms of energy in shallow-frequency bands. The presentation of low-level speech features in the proposed types allows to obtain high-quality high-level acoustic features.
Согласно частному случаю реализации, дикторская информация имеет вид малоразмерного i-вектора. 1-вектор представляет собой малоразмерный (порядка 100 элементов) вектор, который позволяет кодировать отклонение распределения акустических признаков фонограммы от распределения, оцененного по всей обучающей выборке, и аккумулировать в себе информацию о дикторе, а также, в некоторой степени, о канале и акустическом окружении. Таким образом, использование малоразмерного i-вектора совместно с низкоуровневыми речевыми признаками повышает точность обучения нейронной сети и, как следствие, получаемых в результате обучения высокоуровневых акустических признаков. According to a special case of implementation, the announcer's information has the form of a small-sized i-vector. The 1-vector is a small-sized (of the order of 100 elements) vector that allows you to encode the deviation of the distribution of acoustic phonogram signs from the distribution estimated over the entire training sample, and accumulate information about the speaker, as well as, to some extent, the channel and acoustic environment . Thus, the use of a small-sized i-vector together with low-level speech features increases the accuracy of training neural network and, as a result, resulting from the training of high-level acoustic features.
Согласно частному случаю реализации, обучение нейронной сети с использованием низкоуровневых речевых признаков проводят по критерию минимума кросс-энтропии. Кросс-энтропия показывает, насколько распределение вероятностей на выходе нейронной сети соответствует реально наблюдаемому на данном кадре сенону. Таким образом, использование данного критерия повышает точность обучения нейронной сети.  According to a special case of implementation, training a neural network using low-level speech features is carried out according to the criterion of minimum cross-entropy. Cross entropy shows how much the probability distribution at the output of the neural network corresponds to the senon actually observed in this frame. Thus, the use of this criterion increases the accuracy of training the neural network.
Согласно частному случаю реализации, дообучают нейронную сеть с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, по критерию минимума суммы кросс-энтропии и дополнительного регуляризирующего слагаемого. Дополнительное регуляризирующее слагаемое препятствует сильному отклонению весов от ранее обученных, что увеличивает качество (точность) обучения нейронной сети.  According to a special case of implementation, the neural network is retrained using low-level speech features, supplemented by announcer information, according to the criterion of the minimum amount of cross-entropy and an additional regularizing term. An additional regularizing term prevents a strong deviation of weights from previously trained ones, which increases the quality (accuracy) of training the neural network.
Согласно частному случаю реализации, нейронную сеть, обученную с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, по критерию минимума суммы кросс-энтропии и дополнительного регуляризирующего слагаемого дообучают по последовательно-дискриминативному критерию. Данный критерий повышает точность распознавания.  According to a special case of implementation, a neural network trained using low-level speech features, supplemented by announcer information, is retrained using the criterion of minimum cross-entropy sum and an additional regularizing term using the sequentially discriminative criterion. This criterion improves recognition accuracy.
Согласно частному случаю реализации, вводят малоразмерный слой путем низкоранговой факторизации матрицы весов последнего скрытого слоя, в частности путем сингулярного разложения. Сингулярное разложение позволяет снизить ранг матрицы весов последнего скрытого слоя нейронной сети путем отбрасывания наименьших сингулярных чисел, тем самым обеспечивая ввод в нейронную сеть малоразмерного слоя (малоразмерного линейного слоя).  According to a special case of implementation, a small-sized layer is introduced by low-ranking factorization of the weight matrix of the last hidden layer, in particular by singular decomposition. The singular decomposition allows to reduce the rank of the weight matrix of the last hidden layer of the neural network by discarding the smallest singular numbers, thereby ensuring the entry of a small-sized layer (small-sized linear layer) into the neural network.
Согласно частному случаю реализации, после завершения дообучения нейронной сети с малоразмерным слоем слои, находящиеся после малоразмерного слоя нейронной сети, удаляют. Удаление всех слоев после малоразмерного слоя позволит рассматривать обученную нейронную сеть как экстрактор малоразмерных высокоуровневых признаков.  According to a special case of implementation, after completion of retraining of a neural network with a small-sized layer, the layers located after the small-sized layer of the neural network are removed. Removing all layers after the small-sized layer will allow us to consider the trained neural network as an extractor of small-sized high-level features.
Согласно частному случаю реализации, подают низкоуровневые речевые признаки по меньшей мере двух различных языков и соответствующую им дикторскую информацию на вход нейронной сети и извлекают с выхода малоразмерного слоя нейронной сети многоязычные малоразмерные высокоуровневые акустические признаки речи. После обучения нейронной сети предложенным выше способом с использованием различных языков из обучающей выборки малоразмерный слой содержит в себе высокоуровневые признаки, относящиеся ко всем языкам обучающей выборки сразу. Полученные таким образом акустические признаки имеют высокую информативность и могут повысить устойчивость к изменению языка входных данных в системах распознавания речи. According to a special case of implementation, low-level speech features of at least two different languages and the corresponding speaker information are supplied to the input of the neural network, and multilingual small-sized high-level acoustic features of speech are extracted from the output of the small size layer of the neural network. After training the neural network by the method proposed above using various languages from the training set, the small-sized layer contains high-level features that apply to all languages of the training set at once. Received so In this way, acoustic features are highly informative and can increase resistance to changing the input language in speech recognition systems.
Согласно частному случаю реализации, количество выходных слоев нейронной сети равно количеству языков, при этом веса каждого из выходных слоев настраивают только по данным соответствующего языка, а веса всех скрытых слоев настраивают по данным всех из указанных по меньшей мере двух языков. Предложенная архитектура обеспечивает возможность многоязычного обучения нейронной сети.  According to a special case of implementation, the number of output layers of the neural network is equal to the number of languages, and the weights of each of the output layers are adjusted only according to the data of the corresponding language, and the weights of all hidden layers are adjusted according to the data of all of the indicated at least two languages. The proposed architecture provides the possibility of multilingual learning of a neural network.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ BRIEF DESCRIPTION OF THE DRAWINGS
Сущность изобретения более подробно поясняется на неограничительных примерах его осуществления со ссылкой на прилагаемые чертежи, среди которых:  The invention is explained in more detail on non-restrictive examples of its implementation with reference to the accompanying drawings, among which:
фиг. 1 - архитектура обучаемой нейронной сети без малоразмерного слоя, согласно одному из вариантов осуществления изобретения;  FIG. 1 - architecture of a trained neural network without a small layer, according to one embodiment of the invention;
фиг. 2 - архитектура обучаемой нейронной сети с малоразмерным слоем, согласно одному из вариантов осуществления изобретения;  FIG. 2 is an architecture of a trained neural network with a small layer, according to one embodiment of the invention;
фиг. 3 - схема обучения нейронной сети распознавания речи, согласно одному из вариантов осуществления изобретения.  FIG. 3 is a training diagram of a speech recognition neural network according to one embodiment of the invention.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ DETAILED DESCRIPTION OF THE INVENTION
Одной из наиболее сложных задач в области автоматического распознавания речи является проблема распознавания разговорной спонтанной речи различных (произвольных) дикторов. Сложность задачи обусловлена особенностями разговорной спонтанной речи различных (произвольных) дикторов: высокие канальная и дикторская вариативность, наличие аддитивных и нелинейных искажений, наличие акцентной и эмоциональной речи, разнообразная манера произнесения, вариативность темпа речи, редукция и вялая артикуляция. Одним из способов повышения качества распознавания спонтанной речи является снижение чувствительности системы распознавания к акустической вариативности речевого сигнала. Реализация данного способа возможна при применении адаптации акустических моделей на основе глубоких нейронных сетей с использованием дикторской информации, учитывающей информацию о дикторе, и/или канале, и/или окружении.  One of the most difficult tasks in the field of automatic speech recognition is the problem of recognition of spontaneous spoken speech of various (arbitrary) speakers. The complexity of the task is due to the peculiarities of spontaneous speech of various (arbitrary) speakers: high channel and speaker variability, the presence of additive and non-linear distortions, the presence of accent and emotional speech, a diverse manner of pronunciation, the variability of the tempo of speech, reduction and lingering articulation. One way to improve the quality of recognition of spontaneous speech is to reduce the sensitivity of the recognition system to the acoustic variability of the speech signal. The implementation of this method is possible when applying the adaptation of acoustic models based on deep neural networks using speaker information that takes into account information about the speaker and / or channel and / or environment.
Предложенный согласно различным вариантам реализации способ получения малоразмерных высокоуровневых акустических признаков речи позволяет получить акустические признаки, которые могут быть использованы для обучения адаптивной акустической модели, характеризующейся низкой чувствительностью к акустической вариативности речевого сигнала и обеспечивающей высокую точность при распознавании речи. The method of obtaining small-sized, high-level acoustic features of speech, proposed according to various embodiments, allows obtaining acoustic features that can be used for adaptive learning acoustic model, characterized by low sensitivity to acoustic variability of the speech signal and providing high accuracy in speech recognition.
Подробная последовательность операций способа получения малоразмерных дикторозависимых высокоуровневых признаков речи, согласно одному из вариантов реализации изобретения, раскрыта ниже.  A detailed sequence of operations of a method for producing small-sized speaker-dependent high-level features of speech, according to one embodiment of the invention, is disclosed below.
В настоящем описании под термином «дообучение» понимается обучение, начинающееся с настроенных параметров, полученных в ходе предыдущего обучения.  In the present description, the term "retraining" refers to training that begins with the configured parameters obtained during previous training.
Способ получения малоразмерных высокоуровневых акустических признаков речи в соответствии с настоящим изобретением может быть осуществлен с использованием, например, известных компьютерных или мультипроцессорных систем. В других вариантах реализации заявленный способ может быть реализован посредством специализированных программно-аппаратных средств.  The method of obtaining small-sized high-level acoustic features of speech in accordance with the present invention can be carried out using, for example, known computer or multiprocessor systems. In other embodiments, the claimed method can be implemented using specialized software and hardware.
Для получения дикторозависимых высокоуровневых признаков используют глубокую нейронную сеть прямого распространения. В других вариантах реализации могут быть использованы другие подходящие архитектуры для обучения нейронной сети, например сверточные нейронные сети, нейронные сети с задержкой по времени и т.д. Базовую глубокую нейронную сеть прямого распространения изначально инициализируют случайными весами, после чего подают на её вход обучающий пример и вычисляют активность сети, затем формируют представление об ошибке, то есть разность между тем, что должно быть на выходном слое, и что получилось у сети. Далее веса корректируют таким образом, чтобы уменьшить эту ошибку.  To obtain speaker-dependent high-level features, a deep direct distribution neural network is used. In other implementations, other suitable architectures can be used to train the neural network, for example convolutional neural networks, time-delayed neural networks, etc. The basic deep direct distribution neural network is initially initialized with random weights, after which a training example is fed to its input and the network activity is calculated, then an idea of the error is formed, that is, the difference between what should be on the output layer and what happened to the network. Further weights are adjusted in such a way as to reduce this error.
На фиг. 1 изображена глубокая нейронная сеть прямого распространения без малоразмерного слоя (без узкого горла). Предложенная нейронная сеть содержит входной слой 1 , на который подают низкоуровневые признаки речи и i-вектор. Также нейронная сеть содержит несколько скрытых слоев 2, которые обрабатывают признаки, полученные с входного слоя, и выходной слой 3, который выводит результат. Каждый слой содержит нейроны, которые получают информацию, производят вычисления и передают ее дальше. Между нейронами есть связи - синапсы, которые имеют параметр - вес, благодаря которому входная информация изменяется в процессе передачи от одного нейрона к другому, при этом совокупность весов нейронной сети образуют матрицу весов. В процессе обучения нейроны изменяют весовые коэффициенты; иными словами, весовые коэффициенты нейронов изменяются с учетом информации, поступающей на нейрон. Изначально обучение проводят посредством глубокой нейронной сети без узкого горла (без малоразмерного слоя), после обучения нейронной сети до необходимых пределов добавляют малоразмерный слой 2а (фиг. 2). In FIG. 1 depicts a deep neural network of direct distribution without a small layer (without a narrow throat). The proposed neural network contains an input layer 1, which serves low-level features of speech and i-vector. The neural network also contains several hidden layers 2, which process the signs obtained from the input layer, and the output layer 3, which outputs the result. Each layer contains neurons that receive information, perform calculations and pass it on. There are connections between neurons - synapses that have a parameter - weight, due to which the input information changes during the transfer from one neuron to another, while the set of weights of the neural network form a matrix of weights. In the learning process, neurons change weights; in other words, the weights of the neurons vary with the information coming into the neuron. Initially, training is carried out through a deep neural network without a narrow throat (without small layer), after training the neural network to the required limits add small layer 2A (Fig. 2).
Для получения дикторозависимых высокоуровневых признаков используют глубокую нейронную сеть прямого распространения, обучаемую для классификации единиц речи. На каждом кратковременном участке речи (кадре, обычно они следуют с частотой 100 Гц) классификация позволяет оценить, какими произнесенными «звуками» речи вероятнее всего был порождён наблюдаемый вектор акустических признаков. Под единицами речи могут пониматься фонемы. В настоящем описании термин «фонема» означает минимальную единицу звукового строя языка, не имеющую самостоятельного лексического или грамматического значения. Например, согласно различным фонологическим школам, русский язык содержит от 39 до 43 фонем. Также под единицами речи могут пониматься аллофоны или их части. В настоящем описании под термином «аллофон» понимается конкретная реализация фонемы в речи, обусловленная её фонетическим окружением. Аллофон, учитывающий по 1 фонеме перед и после данной, называют трифоном. Как правило, фонемы или трифоны моделируются скрытой марковской моделью с состояниями 1-3 (состояние 1 - вход в звук, переход с предыдущего, состояние 2 - стабильная часть, состояние 3 - выход из звука, переход в следующий), при этом состояния некоторых Трифонов «связываются» вместе, чтобы обеспечить достаточное количество данных для обучения редких Трифонов. Такие связанные состояния называют «сенонами», и именно им соответствуют выходы нейронной сети, т.е. нейронная сеть классифицирует векторы признаков речи на классы сенонов, оценивает вероятности каждого сенона при наблюдаемом векторе признаков.  To obtain speaker-dependent high-level features, a deep direct distribution neural network is used, trained to classify speech units. On each short-term part of speech (frame, they usually follow with a frequency of 100 Hz), the classification allows us to evaluate which pronounced "sounds" of speech most likely generated the observed vector of acoustic signs. Speech units can be understood as phonemes. In the present description, the term "phoneme" means the minimum unit of the sound system of a language that does not have an independent lexical or grammatical meaning. For example, according to various phonological schools, the Russian language contains from 39 to 43 phonemes. Also, speech units can be understood as allophones or their parts. In the present description, the term "allophone" refers to a specific implementation of the phoneme in speech, due to its phonetic environment. An allophone that takes into account 1 phoneme before and after this one is called a trifon. As a rule, phonemes or trifons are modeled by a hidden Markov model with states 1–3 (state 1 — entrance to sound, transition from the previous one, state 2 — stable part, state 3 — exit from sound, transition to the next), while some Trifon states “Bind” together to provide enough data to train rare Trifonov. Such bound states are called “senons”, and it is to them that the outputs of the neural network correspond, i.e. the neural network classifies speech feature vectors into classes of senons, estimates the probabilities of each senon with the observed feature vector.
В ходе экспериментов было выявлено, что в одном из вариантов реализации оптимальные результаты обеспечивает конфигурация глубокой нейронной сети, содержащая 6 скрытых слоев по 1536 нейронов с сигмоидами в каждом и выходной софтмакс-слой с 13000 нейронов, соответствующих сенонам акустической модели на основе гаусовых смесей. При этом оптимальная конфигурация зависит от объема обучающих данных.  During the experiments, it was revealed that in one implementation option the optimal configuration of a deep neural network provides 6 hidden layers of 1536 neurons each with sigmoid and output softmax layer with 13000 neurons corresponding to the senons of the acoustic model based on Gaussian mixtures. In this case, the optimal configuration depends on the amount of training data.
Обучающую выборку формируют из фонограмм различных дикторов. Фонограммы могут быть получены любым известным способом, например путем записи телефонных переговоров. В данном варианте осуществления дикторы говорят на одном языке. Для каждой фонограммы из обучающей выборки заранее вычисляют низкоуровневые акустические признаки (мел-частотные кепстральные коэффициенты, например размерности 12, либо логарифмы энергии в мел-частотных полосах, например размерности 23). Под низкоуровневыми акустическими признаками понимаются признаки, извлекаемые напрямую из речевого сигнала или его спектра методами цифровой обработки сигналов. Они несут в себе важную информацию о сигнале, но являются трудно интерпретируемыми с точки зрения классификации единиц речи. При этом в других вариантах реализации на вход нейронной сети можно подавать другие низкоуровневые акустические признаки, например коэффициенты перцептивного линейного предсказания (perceptual linear prediction, PLP), энергии выходов банка гамматонных фильтров (gammatone interbank, GTFB) и т.д. Предложенные низкоуровневые признаки мало отличаются по уровню информативности и могут быть использованы как по отдельности, так и в комбинации без ухудшения качества обучения нейронной сети. The training sample is formed from the phonograms of various speakers. Phonograms can be obtained by any known method, for example, by recording telephone conversations. In this embodiment, the speakers speak the same language. For each phonogram from the training sample, low-level acoustic features (mel-frequency cepstral coefficients, for example, dimension 12, or logarithms of energy in mel-frequency bands, for example, dimensions, are pre-calculated 23). By low-level acoustic features are meant features extracted directly from a speech signal or its spectrum by digital signal processing methods. They carry important information about the signal, but are difficult to interpret in terms of classifying speech units. In other embodiments, other low-level acoustic features, such as perceptual linear prediction (PLP) coefficients, output energies of the gammatone filter bank (gammatone interbank, GTFB), etc., can be fed to the input of the neural network. The proposed low-level features do not differ much in terms of information content and can be used both individually and in combination without impairing the quality of training of a neural network.
Кроме того, из каждой фонограммы извлекают малоразмерное представление дикторской информации, содержащейся в фонограмме, в частности извлекают i-вектора, например размерности 50. Извлечение i-векторов проводят, например, с использованием универсальной фоновой модели (Universal Background Model, UBM), которая была обучена заранее. 1-вектор аккумулирует в себе дикторскую информацию, и при этом в некоторых вариантах осуществления представляет собой малоразмерный вектор, кодирующий отклонение распределения акустических признаков фонограммы от распределения, оцененного по всей обучающей выборке. В других вариантах реализации, в которых требуется сравнительно меньшая точность обучения нейронных сетей, возможно извлечение дикторской информации в виде коэффициентов максимума правдоподобия линейной регрессии в пространстве признаков (feature space Maximum Likelihood Linear Regression, fMLLR).  In addition, from each phonogram, a small-sized representation of the announcer information contained in the phonogram is extracted, in particular, i-vectors, for example, dimension 50 are extracted. The extraction of i-vectors is carried out, for example, using the Universal Background Model (UBM), which was trained in advance. The 1-vector accumulates announcer information, and in some embodiments, it is a small-sized vector encoding the deviation of the distribution of the acoustic features of the phonogram from the distribution estimated over the entire training sample. In other implementations that require relatively less accurate training of neural networks, it is possible to extract announcer information in the form of maximum likelihood coefficients of linear regression in a feature space (feature space Maximum Likelihood Linear Regression, fMLLR).
На первом этапе глубокую нейронную сеть обучают предсказывать вероятности состояний сенонов, соответствующих отдельному кадру речи, с использованием только низкоуровневых акустических признаков по критерию минимума кросс-энтропии.  At the first stage, a deep neural network is trained to predict the probabilities of senon states corresponding to a separate speech frame, using only low-level acoustic signs according to the criterion of minimum cross-entropy.
Кросс-энтропия показывает, насколько распределение вероятностей на выходе нейронной сети соответствует реально наблюдаемому на данном кадре сенону. Чем ближе вероятность данного сенона к единице, а остальных сенонов к нулю, тем кросс-энтропия на данном кадре будет ниже. Таким образом, кросс-энтропия является мерой средней точности классификации отдельных кадров речи по всей обучающей выборки, и чем она меньше, чем точнее данная нейронная сеть способна предсказывать сеноны. Иными словами, минимизация кросс-энтропии эквивалентна снижению средней покадровой ошибки классификации. После того как обучение сошлось по критерию минимума кросс-энтропии, подают на вход глубокой нейронной сети исходные низкоуровневые акустически признаки, дополненные i-вектором, предварительно расширив входной слой глубокой нейронной сети на размерность дополнительных признаков путем дополнения матрицы слоя нулями, что позволит сохранить поведение сети за счет домножения нулей на компоненты i-вектора. Таким образом, на каждом кадре входной вектор состоит из 2 частей - первая часть (низкоуровневые акустические признаки) отличается от кадра к кадру, вторая (i-вектор) - одинакова для всех векторов одной фонограммы. При этом каждый голос диктора характеризуется набором особенностей, которые позволяют воспринимать его как голос именно этого диктора. Эти особенности можно трактовать как координаты в пространстве, поэтому каждый голос можно считать точкой в пространстве голосов, и если два голоса близки по каким-то параметрам, то соответственно точки также будут находиться близко в пространстве голосов и соответствующие им i-векторы также будут близко в пространстве голосов. Таким образом, за счет расширения входных векторов признаков i-вектором, характеризующим «расположение голоса диктора в пространстве голосов», обеспечивается распознавание речи различных (произвольных) дикторов. Это объясняется тем, что, поскольку в обучающей выборке дикторов обычно много, сеть приобретает способность использовать информацию о том, из какой области пространства голосов поступил входной i-вектор. Таким образом, во время распознавания произвольного диктора его i-вектор окажется в области пространства, где были i-векторы дикторов из обучающей выборки, благодаря чему нейронная сеть сможет с максимальной эффективностью учитывать эту информацию; другими словами, нейронная сеть уже будет представлять, как эту информацию следует обработать. Cross entropy shows how much the probability distribution at the output of the neural network corresponds to the senon actually observed in this frame. The closer the probability of a given cenon to unity, and the remaining cenons to zero, the cross-entropy in this frame will be lower. Thus, cross-entropy is a measure of the average accuracy of the classification of individual speech frames throughout the training sample, and the smaller it is, the more accurately a given neural network is able to predict senons. In other words, minimizing cross-entropy is equivalent to lowering the average frame-by-frame classification error. After the training has agreed on the criterion of minimum cross-entropy, the initial low-level acoustical features, supplemented by an i-vector, are fed to the input of a deep neural network, previously expanding the input layer of a deep neural network by the dimension of additional features by adding zeros to the layer matrix, which will allow preserving the network behavior due to the multiplication of zeros by the components of the i-vector. Thus, on each frame, the input vector consists of 2 parts - the first part (low-level acoustic features) differs from frame to frame, the second (i-vector) is the same for all vectors of the same phonogram. Moreover, each voice of the speaker is characterized by a set of features that allow him to be perceived as the voice of this particular speaker. These features can be interpreted as coordinates in space, so each voice can be considered a point in the voice space, and if two voices are close in some parameters, then the points will also be close in the voice space and the corresponding i-vectors will also be close in space of voices. Thus, by expanding the input feature vectors by an i-vector characterizing the “location of the speaker’s voice in the voice space”, speech recognition of various (arbitrary) speakers is provided. This is because, since there are usually a lot of speakers in the training sample, the network gains the ability to use information about which area of the voice space the input i-vector came from. Thus, during the recognition of an arbitrary speaker, its i-vector will appear in the region of space where there were i-vectors of speakers from the training set, so that the neural network will be able to take this information into account with maximum efficiency; in other words, the neural network will already represent how this information should be processed.
Обученную с использованием только низкоуровневых акустических признаков глубокую нейронную сеть дообучают по критерию минимума суммы кросс-энтропии, который позволяет комбинировать все величины, для одновременного их снижения, и дополнительного регуляризирующего слагаемого, которое контролирует отклонение весов обучаемой таким образом глубокой нейронной сети от весов глубокой нейронной сети, обученной с использованием только низкоуровневых акустических признаков, что позволяет избежать сильного изменения весов глубокой нейронной сети по сравнению с хорошим (качественным) начальным приближением.  Trained using only low-level acoustic features, a deep neural network is retrained according to the criterion of the minimum cross-entropy sum, which allows you to combine all values to simultaneously reduce them, and an additional regularizing term, which controls the deviation of the weights of the deep neural network trained in this way from the weights of the deep neural network trained using only low-level acoustic features, which avoids a strong change in the weights of a deep neural th network in comparison with good (quality) initial approximation.
Важно отметить, что минимизация кросс-энтропии эквивалентна снижению средней покадровой ошибки классификации (Frame Error Rate, FER), а целью распознавания речи является не получение результатов классификации отдельных кадров, как в случае использования критерия минимума кросс-энтропии, а получение последовательности произнесенных слов. И мерой ошибки системы распознавания является пословная ошибка (Word Error Rate, WER). Безусловно, пословная ошибка и покадровая ошибка сильно коррелируют, и снижение покадровой ошибки до нуля практически неизбежно ведет к идеально точному распознаванию (при условии использования качественного лексикона и языковой модели). Однако на практике снижение до нуля покадровой ошибки недостижимо. Пословную ошибку исключительно сложно использовать в качестве критерия обучения нейронной сети, т.к. она является не дифференцируемой (по параметрам сети) и трудно вычислимой в ходе обучения. По этой причине используют другие критерии обучения, в частности последовательно-дискриминативные, косвенно направленные именно на уменьшение пословной ошибки, но более доступные с вычислительной точки зрения. Эти критерии рассматривают лучшую гипотезу о последовательности распознанных слов в декодере и стремятся таким образом скорректировать параметры нейронной сети, чтобы одновременно приблизить ее к истинной последовательности слов и максимально отдалить от всех «конкурирующих» гипотез. Критерий минимума среднего риска, вычисляемого по состояниям (state-level Minimum Bayes Risk, sMBR), - лишь один из ряда известных критериев этого класса. Он показывает сравнимую с остальными подобными критериями точность, однако является более легким с вычислительной точки зрения. Таким образом, после дообучения глубокой нейронной сети по критерию минимума суммы кросс-энтропии и дополнительного регуляризирующего слагаемого ее дообучают по критерию минимума среднего риска, что дает существенный прирост в точности обучения нейронной сети. It is important to note that minimizing cross-entropy is equivalent to lowering the average frame error classification (Frame Error Rate, FER), and the purpose of speech recognition is not to obtain classification results for individual frames, as in the case using the criterion of minimum cross-entropy, and obtaining a sequence of spoken words. And a measure of recognition system error is the word error rate (Word Error Rate, WER). Of course, word-by-word error and frame-by-frame error are strongly correlated, and reducing frame-by-frame error to zero almost inevitably leads to perfectly accurate recognition (provided that you use a high-quality lexicon and language model). However, in practice, reducing to zero frame-by-frame error is unattainable. It is extremely difficult to use a word-of-error as a criterion for training a neural network, it is not differentiable (according to network parameters) and difficult to calculate during training. For this reason, other learning criteria are used, in particular, sequentially discriminative, indirectly aimed specifically at reducing the word error, but more accessible from a computational point of view. These criteria consider the best hypothesis about the sequence of recognized words in the decoder and thus strive to adjust the parameters of the neural network in order to bring it closer to the true sequence of words and to keep it as far as possible from all "competing" hypotheses. The criterion of minimum average risk calculated by state (state-level Minimum Bayes Risk, sMBR) is only one of a number of well-known criteria of this class. It shows accuracy comparable to other similar criteria, but it is easier from a computational point of view. Thus, after retraining a deep neural network by the criterion of minimum cross-entropy sums and an additional regularizing term, it is retrained by the criterion of minimum average risk, which gives a significant increase in the accuracy of training the neural network.
После того как обучение сошлось, матрицу весов последнего скрытого слоя обученной сети подвергают сингулярному разложению и снижают ее ранг путем отбрасывания наименьших сингулярных чисел. В результате такой операции последний слой исходной сети оказывается заменён на 2 слоя, один из которых - линейный и содержит меньше нейронов по сравнению с входным слоем. Этот слой называют слоем «узкого горла» (bottleneck), или малоразмерным слоем. Часть информации при прохождении через малоразмерный слой необратимо теряется, но в результате сохраняются наиболее существенные ее составляющие. Первоначальное обучение без малоразмерного слоя позволяет привести веса остальных слоев к значениям, достаточно близким к оптимальным, что облегчает дообучение сети после внедрения малоразмерного слоя, т.е. последовательное обучение сети сначала без малоразмерного слоя, а потом с ним позволяет двигаться путем последовательных улучшений, т.е. последовательной настройкой параметров (весов). Экспериментально было выяснено, что обучение нейронной сети, изначально имеющей малоразмерный слой, снижает качество и повышает сложность ее обучения. After the training has come together, the weight matrix of the last hidden layer of the trained network is subjected to singular decomposition and its rank is reduced by discarding the smallest singular numbers. As a result of this operation, the last layer of the original network is replaced by 2 layers, one of which is linear and contains fewer neurons compared to the input layer. This layer is called the bottleneck or small layer. Part of the information when passing through a small-sized layer is irreversibly lost, but as a result, its most significant components are preserved. Initial training without a small layer allows you to bring the weights of the remaining layers to values that are close enough to optimal, which facilitates retraining of the network after the introduction of a small layer, i.e. sequential training of the network, first without a small layer, and then with it allows you to move through successive improvements, i.e. sequential tuning parameters (weights). It was experimentally found that training a neural network, initially having a small layer, reduces the quality and increases the complexity of its training.
В результате предыдущего обучения выходы глубокой нейронной сети имеют хорошие (качественные) распределения вероятностей сенонов, которые уже настроены по последовательно-дискриминативному критерию. Поскольку в результате сингулярного разложения матрица весов последнего слоя претерпела изменения, полученная глубокая нейронная сеть уже не является оптимальной с точки зрения критерия предыдущего этапа обучения. Поэтому глубокую нейронную сеть теперь уже с малоразмерным слоем еще раз дообучают, используя распределения из предыдущего обучения в качестве целевых распределений. При этом дообучение нейронной сети происходит по использованному уже ранее критерию минимума кросс-энтропии до сходимости, что позволяет улучшить качество извлекаемых высокоуровневых малоразмерных признаков из малоразмерного слоя. Высокоуровневость признаков обусловлена тем, что глубокая нейронная сеть с малоразмерным слоем, обученная по критерию минимума кросс-энтропии, способна обеспечивать почти столь же низкие значения кросс-энтропии, что и глубокая нейронная сеть без малоразмерного слоя, обученная по тому же критерию. Таким образом, признаки, извлечённые с выходов малоразмерного слоя, содержат в себе всю существенную информацию из речевого сигнала, содержащуюся в исходных низкоуровневых акустических признаках и i-векторе.  As a result of previous training, the outputs of a deep neural network have good (qualitative) probability distributions of senons, which are already tuned according to the sequentially discriminative criterion. Since, as a result of a singular decomposition, the weight matrix of the last layer has undergone changes, the resulting deep neural network is no longer optimal from the point of view of the criterion of the previous training stage. Therefore, a deep neural network now with a small layer is once again retrained, using distributions from the previous training as target distributions. In this case, the neural network is retrained according to the criterion of the minimum cross-entropy to convergence, which has already been used, which improves the quality of the extracted high-level small-sized features from the small-sized layer. The high level of features is due to the fact that a deep neural network with a small layer, trained by the criterion of minimum cross-entropy, is able to provide almost as low values of cross-entropy as a deep neural network without a small layer, trained by the same criterion. Thus, the features extracted from the outputs of the small-sized layer contain all the essential information from the speech signal contained in the initial low-level acoustic features and the i-vector.
Кроме того, после того как глубокая нейронная сеть обучена до сходимости, слои нейронной сети, находящиеся после малоразмерного слоя, могут быть удалены, что позволит обученной глубокой нейронной сети стать «экстрактором» новых дикторозависимых малоразмерных высокоуровневых признаков, т.е. при подаче на вход нейронной сети вектора низкоуровневых признаков, расширенных (дополненных) i- вектором, как было описано ранее, на выходе могут быть получены значения активации малоразмерного слоя (слоя узкого горла), которые являются малоразмерным, дикторозависимым и высокоуровневым представлением.  In addition, after the deep neural network is trained to convergence, the layers of the neural network located after the small-sized layer can be removed, which allows the trained deep neural network to become an “extractor” of new speaker-dependent small-sized high-level features, i.e. when a vector of low-level features extended (supplemented) by an i-vector is fed to the input of a neural network, as described previously, the output can be obtained activation values of a small-sized layer (layer of a narrow neck), which are a small-sized, speaker-dependent and high-level representation.
Предложенный способ может быть применен для получения многоязычных дикторо- зависимых малоразмерных высокоуровневых акустических признаков речи. Для этого на вход нейронной сети подают низкоуровневые речевые признаки по меньшей мере двух различных языков и соответствующую им дикторскую информацию (i-вектор), при этом данные различных языков на вход нейронной сети подают вперемежку в случайном порядке. В данном случае архитектура нейронной сети должна быть предназначена для многозадачного обучения, т.е. нейронная сеть должна иметь несколько скрытых слоев, веса которых будут являться общими для данных из обучающего множества на всех языках, содержащих низкоуровневые речевые признаки и дикторскую информацию, и множество выходных слоев, каждый из которых обрабатывает данные на одном из указанных по меньшей мере двух языков. Таким образом, при обучении с использованием двух языков, например, если на вход нейронной сети подают данные, относящиеся к первому языку, то после прохождения скрытых слоев данные попадают на первый выходной слой, относящийся непосредственно к первому языку, где вычисляется ошибка, которая методом обратного распространения корректирует общие для двух языков веса скрытых слоев нейронной сети. Далее, если на вход нейронной сети подают данные, относящиеся ко второму языку, то они по тому же принципу попадают на соответствующий им второй выходной слой, где также вычисляется ошибка, с помощью которой также корректируют общие для двух языков веса скрытых слоев нейронной сети. Таким образом нейронная сеть обучается по данным на всех имеющихся языках. При этом процесс обучения нейронной сети аналогичен описанному выше в отношении одного языка, а по завершении обучения с выхода малоразмерного слоя извлекают многоязычные дикторозависимые малоразмерные признаки, которые представляют собой высокоуровневые признаки, содержащие в себе информацию, относящуюся ко всем языкам обучающей выборки, и, как следствие, устойчивые к изменению языка при распознавании речи. При этом обучение одной многоязычной акустической модели нейронной сети может потребовать меньше вычислений, чем обучение нескольких многоязычных акустических моделей для каждого языка в отдельности. Кроме того, при ограниченности данных того или иного языка, когда соответствующие данные для обучения недоступны или дорогостоящие в получении, многоязычная акустическая модель может предложить лучшую точность в сравнении с одноязычными акустическими моделями, полученными с использованием ограниченных данных соответствующего языка. The proposed method can be applied to obtain multilingual speaker-dependent small-sized high-level acoustic features of speech. To this end, low-level speech features of at least two different languages and the corresponding announcer information (i-vector) are supplied to the input of the neural network, while data from different languages is fed randomly to the input of the neural network. In this case, the architecture of the neural network should be designed to multitasking training i.e. the neural network must have several hidden layers, the weights of which will be common for the data from the training set in all languages containing low-level speech features and announcer information, and many output layers, each of which processes data in one of the at least two languages. Thus, when learning using two languages, for example, if the data related to the first language is supplied to the input of the neural network, then after passing through the hidden layers, the data goes to the first output layer that relates directly to the first language, where the error is calculated that is reversed distribution adjusts the common weights of the hidden layers of the neural network for two languages. Further, if data related to the second language is supplied to the input of the neural network, then they follow the same principle to the second output layer corresponding to them, where the error is also calculated, with the help of which the weights of the hidden layers of the neural network, common for two languages, are also corrected. Thus, the neural network is trained according to data in all available languages. At the same time, the process of learning a neural network is similar to that described above for one language, and upon completion of training, multilingual speaker-dependent small-sized features are extracted from the output of the small-sized layer, which are high-level features that contain information related to all languages of the training sample, and, as a result resistant to language changes in speech recognition. Moreover, training one multilingual acoustic model of a neural network may require less computation than training several multilingual acoustic models for each language individually. In addition, if the data of one or another language are limited, when the corresponding training data is not available or expensive to obtain, a multilingual acoustic model can offer better accuracy compared to monolingual acoustic models obtained using limited data of the corresponding language.
Экспериментально было выявлено, что именно предложенный порядок действий при обучении глубокой нейронной сети является наиболее подходящим для получения дикторозависимых малоразмерных высокоуровневых признаков, обладающих высокой информативностью и позволяющих обеспечить адаптацию акустической модели к акустической вариативности речевого сигнала и, как следствие, высокую точность распознавания речи такой моделью. Высокоуровневые признаки, извлекаемые с выхода малоразмерного слоя обученной нейронной сети, впоследствии могут быть использованы для обучения другой нейронной сети для распознавания речи. It was experimentally revealed that it is the proposed procedure for training a deep neural network that is most suitable for producing speaker-dependent low-level, high-level features that are highly informative and allow the adaptation of the acoustic model to the acoustic variability of the speech signal and, as a result, high accuracy of speech recognition by such a model. The high-level features extracted from the output of a small-sized layer of a trained neural network can subsequently be used to train another neural network for speech recognition.
На фиг. 3 изображено обучение другой нейронной сети Б для распознавания речи, обозначенной как блок Б (левая часть схемы), на входной слой 4 которой поступают высокоуровневые признаки с малоразмерного слоя 2а обученной нейронной сети А, обученной предложенным способом и обозначенной как блок А (левая часть схемы). На вход нейронной сети Б поступает вектор, являющийся объединением векторов с текущего кадра (задержка 0), а также с кадров, находящихся за 5, 10 и 15 кадров до текущего и через 5, 10, 15 кадров после текущего. В результате, при размерности малоразмерных признаков, например, 100, на вход второй сети Б поступает вектор размерностью 700. Нейронная сеть Б, которую обучают для распознавания речи, содержит входной слой 4, который принимает указанный вектор, скрытые слои 5, количество которых выбирается экспериментально, и выходной слой 6, являющийся выходом нейронной сети Б.  In FIG. Figure 3 shows the training of another neural network B for speech recognition, designated as block B (the left side of the circuit), to the input layer 4 of which high-level signs are received from the small-sized layer 2a of the trained neural network A trained by the proposed method and designated as block A (the left side of the circuit ) At the input of neural network B, a vector is received, which is a union of vectors from the current frame (delay 0), as well as from frames located 5, 10, and 15 frames before the current and 5, 10, 15 frames after the current. As a result, with a dimension of small-sized features, for example, 100, a vector of dimension 700 arrives at the input of the second network B. The neural network B, which is trained for speech recognition, contains an input layer 4 that receives this vector, hidden layers 5, the number of which is selected experimentally , and the output layer 6, which is the output of the neural network B.
В таблице 1 приведено сравнение значений пословной ошибки распознавания (WER) глубоких нейронных сетей, обученных на дикторозависимых малоразмерных высокоуровневых признаках, полученных предложенным способом (speaker dependent bottleneck features - Deep Neural Network, SDBN-DNN), и глубоких нейронных сетей, обученных диктороадаптивным способом с использованием i-векторов (Deep Neural Network - i-vector, DNN-ivec). Из таблицы видно, что использование SDBN-признаков обеспечивает снижение ошибки распознавания. При этом обучение глубокой нейронной сети по критерию минимума среднего риска (state-level Minimum Bayes Risk, sMBR) обеспечивает более низкую ошибку распознавания в сравнении с обучением глубокой нейронной сети только по критерию минимума кросс-энтропии (Cross-Entropy, СЕ).  Table 1 compares the values of the word-by-word recognition error (WER) of deep neural networks trained on speaker-dependent low-level high-level features obtained by the proposed method (speaker dependent bottleneck features - Deep Neural Network, SDBN-DNN) and deep neural networks trained on a speaker-adaptive method with using i-vectors (Deep Neural Network - i-vector, DNN-ivec). The table shows that the use of SDBN-signs provides a reduction in recognition errors. At the same time, training a deep neural network by the criterion of minimum average risk (state-level Minimum Bayes Risk, sMBR) provides a lower recognition error in comparison with training a deep neural network only by the criterion of minimum cross-entropy (Cross-Entropy, CE).
Таблица 1 - результаты распознавания речи. Table 1 - Speech Recognition Results.
Figure imgf000017_0001
Figure imgf000017_0001
Настоящее изобретение не ограничено конкретными вариантами реализации, раскрытыми в описании в иллюстративных целях, и охватывает все возможные модификации и альтернативы, входящие в объем настоящего изобретения, определенный формулой изобретения. The present invention is not limited to the specific embodiments disclosed in the description for illustrative purposes, and covers all possible modifications and alternatives included in the scope of the present invention defined by the claims.

Claims

Формула изобретения Claim
1. Способ получения малоразмерных высокоуровневых акустических признаков речи, согласно которому  1. The method of obtaining small-sized high-level acoustic signs of speech, according to which
обеспечивают наличие низкоуровневых признаков речи и соответствующей им дикторской информации;  provide the presence of low-level signs of speech and the corresponding speaker information;
обучают нейронную сеть с использованием низкоуровневых признаков речи;  train a neural network using low-level features of speech;
дообучают нейронную сеть с использованием низкоуровневых признаков речи, дополненных дикторской информацией;  train the neural network using low-level features of speech, supplemented by announcer information;
вводят малоразмерный слой в состав нейронной сети;  introduce a small layer into the composition of the neural network;
дообучают нейронную сеть с малоразмерным слоем с использованием низкоуровневых признаков речи, дополненных дикторской информацией;  train the neural network with a small layer using low-level features of speech, supplemented by announcer information;
извлекают с выхода малоразмерного слоя нейронной сети малоразмерные высокоуровневые акустические признаки речи.  low-level, high-level acoustic signs of speech are extracted from the output of the small-sized layer of the neural network.
2. Способ по п. 1, согласно которому после обучения нейронной сети с использованием низкоуровневых речевых признаков ее входной слой расширяют путем дополнения матрицы входного слоя нулевыми столбцами. 2. The method according to p. 1, according to which, after training a neural network using low-level speech features, its input layer is expanded by supplementing the input layer matrix with zero columns.
3. Способ по любому из пп. 1-2, согласно которым низкоуровневые речевые признаки имеют вид мел-частотных кепстральных коэффициентов. 3. The method according to any one of paragraphs. 1-2, according to which low-level speech features have the form of shallow-frequency cepstral coefficients.
4. Способ по любому из пп. 1-2, согласно которому низкоуровневые речевые признаки имеют вид логарифмов энергии в мел-частотных полосах. 4. The method according to any one of paragraphs. 1-2, according to which the low-level speech signs have the form of energy logarithms in the shallow frequency bands.
5. Способ по любому из пп. 1 -4, согласно которому дикторская информация имеет вид малоразмерного i-вектора. 5. The method according to any one of paragraphs. 1 -4, according to which the announcer information has the form of a small-sized i-vector.
6. Способ по любому из пп. 1-5, согласно которому обучение нейронной сети с использованием низкоуровневых речевых признаков проводят по критерию минимума кросс-энтропии. 6. The method according to any one of paragraphs. 1-5, according to which the training of a neural network using low-level speech features is carried out according to the criterion of minimum cross-entropy.
7. Способ по любому из пп. 1-6, согласно которому дообучают нейронную сеть с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, по критерию минимума суммы кросс-энтропии и дополнительного регуляризирующего слагаемого. 7. The method according to any one of paragraphs. 1-6, according to which the neural network is retrained using low-level speech features, supplemented by speaker information, according to the criterion of the minimum of the sum of cross-entropy and an additional regularizing term.
8. Способ по п. 7, согласно которому дообучают нейронную сеть с использованием низкоуровневых речевых признаков, дополненных дикторской информацией, по последовательно-дискриминативному критерию. 8. The method according to p. 7, according to which the neural network is trained using low-level speech features, supplemented by announcer information, according to a sequentially discriminative criterion.
9. Способ по любому из пп. 1-8, согласно которому вводят малоразмерный слой путем низкоранговой факторизации матрицы весов последнего скрытого слоя. 9. The method according to any one of paragraphs. 1-8, according to which a small-sized layer is introduced by low-ranking factorization of the weight matrix of the last hidden layer.
10. Способ по п. 9, согласно которому низкоранговую факторизацию матрицы весов последнего скрытого слоя обеспечивают сингулярным разложением. 10. The method according to p. 9, according to which the low-ranking factorization of the matrix of weights of the last hidden layer provide a singular decomposition.
11. Способ по любому из пп. 1-10, согласно которому после завершения дообучения нейронной сети с малоразмерным слоем слои, расположенные после малоразмерного слоя нейронной сети, удаляют. 11. The method according to any one of paragraphs. 1-10, according to which, after completing the training of the neural network with a small layer, the layers located after the small layer of the neural network are removed.
12. Способ по любому из пп. 1-11, согласно которому подают низкоуровневые речевые признаки по меньшей мере двух различных языков и соответствующую им дикторскую информацию на вход нейронной сети и извлекают с выхода малоразмерного слоя нейронной сети многоязычные малоразмерные высокоуровневые акустические признаки речи. 12. The method according to any one of paragraphs. 1-11, according to which low-level speech features of at least two different languages and the corresponding speaker information are supplied to the input of the neural network, and multilingual small-sized high-level acoustic features of speech are extracted from the output of the small size layer of the neural network.
13. Способ по п.12, согласно которому количество выходных слоев нейронной сети равно количеству языков, при этом веса каждого из выходных слоев настраивают только по данным соответствующего языка, а веса всех скрытых слоев настраивают по данным всех из указанных по меньшей мере двух языков. 13. The method according to p. 12, according to which the number of output layers of the neural network is equal to the number of languages, while the weights of each of the output layers are adjusted only according to the data of the corresponding language, and the weights of all hidden layers are adjusted according to the data of all of the indicated at least two languages.
PCT/RU2018/000286 2018-05-03 2018-05-03 Method for obtaining speaker-dependent small high-level acoustic speech attributes WO2019212375A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EA202092400A EA202092400A1 (en) 2018-05-03 2018-05-03 METHOD FOR OBTAINING VOICE-DEPENDENT SMALL-SIZED HIGH-LEVEL ACOUSTIC SPEECH FEATURES
PCT/RU2018/000286 WO2019212375A1 (en) 2018-05-03 2018-05-03 Method for obtaining speaker-dependent small high-level acoustic speech attributes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2018/000286 WO2019212375A1 (en) 2018-05-03 2018-05-03 Method for obtaining speaker-dependent small high-level acoustic speech attributes

Publications (1)

Publication Number Publication Date
WO2019212375A1 true WO2019212375A1 (en) 2019-11-07

Family

ID=68386452

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2018/000286 WO2019212375A1 (en) 2018-05-03 2018-05-03 Method for obtaining speaker-dependent small high-level acoustic speech attributes

Country Status (2)

Country Link
EA (1) EA202092400A1 (en)
WO (1) WO2019212375A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613204A (en) * 2020-04-29 2020-09-01 云知声智能科技股份有限公司 Quick-response neural speech synthesis system and method thereof
CN113035177A (en) * 2021-03-11 2021-06-25 平安科技(深圳)有限公司 Acoustic model training method and device
CN113808581A (en) * 2021-08-17 2021-12-17 山东大学 Chinese speech recognition method for acoustic and language model training and joint optimization

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017099936A1 (en) * 2015-12-10 2017-06-15 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
WO2017099936A1 (en) * 2015-12-10 2017-06-15 Nuance Communications, Inc. System and methods for adapting neural network acoustic models

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MEDENNIKOV I.P: "Metody, algoritmy i programmnye sredstva raspoznavaniya russkoi telefonnoi spontannoi rechi", DISSERTATSIYA NA SOISKANIE UCHENOI STEPENI KANDIDATA TEKHNICHESKIKH NAUK, 2016, Sankt-Peterburg *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613204A (en) * 2020-04-29 2020-09-01 云知声智能科技股份有限公司 Quick-response neural speech synthesis system and method thereof
CN113035177A (en) * 2021-03-11 2021-06-25 平安科技(深圳)有限公司 Acoustic model training method and device
CN113035177B (en) * 2021-03-11 2024-02-09 平安科技(深圳)有限公司 Acoustic model training method and device
CN113808581A (en) * 2021-08-17 2021-12-17 山东大学 Chinese speech recognition method for acoustic and language model training and joint optimization
CN113808581B (en) * 2021-08-17 2024-03-12 山东大学 Chinese voice recognition method based on acoustic and language model training and joint optimization

Also Published As

Publication number Publication date
EA202092400A1 (en) 2021-03-03

Similar Documents

Publication Publication Date Title
US11972753B2 (en) System and method for performing automatic speech recognition system parameter adjustment via machine learning
Wang et al. A joint training framework for robust automatic speech recognition
Ghai et al. Literature review on automatic speech recognition
US11183171B2 (en) Method and system for robust language identification
US8762142B2 (en) Multi-stage speech recognition apparatus and method
Liu et al. Towards unsupervised speech recognition and synthesis with quantized speech representation learning
Cai et al. From speaker verification to multispeaker speech synthesis, deep transfer with feedback constraint
Stolcke et al. Speaker recognition with session variability normalization based on MLLR adaptation transforms
EP1647970A1 (en) Hidden conditional random field models for phonetic classification and speech recognition
Ma et al. Incremental text-to-speech synthesis with prefix-to-prefix framework
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
WO2005096271A1 (en) Speech recognition device and speech recognition method
Grézl et al. Combination of multilingual and semi-supervised training for under-resourced languages
Karafiát et al. BUT neural network features for spontaneous Vietnamese in BABEL
WO2019212375A1 (en) Method for obtaining speaker-dependent small high-level acoustic speech attributes
Georgescu et al. SpeeD's DNN approach to Romanian speech recognition
Müller et al. Towards improving low-resource speech recognition using articulatory and language features
Tóth et al. Cross-lingual Portability of MLP-Based Tandem Features--A Case Study for English and Hungarian
CN112216270A (en) Method and system for recognizing speech phonemes, electronic equipment and storage medium
Kurian A review on technological development of automatic speech recognition
Dimitriadis et al. Use of micro-modulation features in large vocabulary continuous speech recognition tasks
Gehring et al. DNN acoustic modeling with modular multi-lingual feature extraction networks
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
JP5300000B2 (en) Articulation feature extraction device, articulation feature extraction method, and articulation feature extraction program
Chakroun et al. An improved approach for text-independent speaker recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18917168

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18917168

Country of ref document: EP

Kind code of ref document: A1