WO2021234904A1 - 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム - Google Patents
学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム Download PDFInfo
- Publication number
- WO2021234904A1 WO2021234904A1 PCT/JP2020/020105 JP2020020105W WO2021234904A1 WO 2021234904 A1 WO2021234904 A1 WO 2021234904A1 JP 2020020105 W JP2020020105 W JP 2020020105W WO 2021234904 A1 WO2021234904 A1 WO 2021234904A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- series
- learning
- feature quantity
- feature
- feature amount
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims description 45
- 238000006243 chemical reaction Methods 0.000 claims abstract description 36
- 230000005236 sound signal Effects 0.000 claims description 35
- 206010021403 Illusion Diseases 0.000 claims description 14
- 230000008447 perception Effects 0.000 abstract description 9
- 208000016621 Hearing disease Diseases 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 34
- 238000013434 data augmentation Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000007774 longterm Effects 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Definitions
- the present invention relates to a learning data generation device that generates learning data used when learning an acoustic model used in a speech recognition device, a model learning device that uses learning data, a learning data generation method, and a program.
- Patent Document 1 is a technique for adapting an acoustic model to a task to be recognized in order to ensure a practical level of speech recognition performance.
- Patent Document 1 is a technique for adapting an original acoustic model to a task having different acoustic characteristics such as a speaker, a noise type, and a way of speaking.
- the speech recognition performance has an aspect of increasing or decreasing depending on the amount of learning data of the task to be recognized and the acoustic coverage. Therefore, usually, desired learning data is collected by sufficiently collecting the voices of the tasks to be recognized and transcribing the voices.
- Data Augmentation is one of the solutions to such problems.
- Data expansion is to add some variation to the original training data, generate new training data, and inflate the training data. By data expansion, it is possible to reduce learning with the same learning data and obtain further generalization performance.
- Non-Patent Document 1 by converting the speaking speed to the original data, various speaker data are generated, and the generalization performance for a wider range of speakers is improved.
- Non-Patent Document 2 in order to improve noise immunity and recognition performance for reverberation sound, noise is superimposed on the original learning data, and the impulse response of a room with strong reverberation is convoluted to create a pseudo reverberation sound. Is generated, and the reverberation sound is superimposed on the original learning data to improve the generalization performance.
- the recurrent neural network (RNN) model is different from the multi-layer perceptron (MLP) model, and the model itself is devised to explicitly capture long-term information and handles time-series information such as voice recognition.
- the task has greatly improved accuracy.
- the speech recognition accuracy is improved by explicitly incorporating a linguistic long-time context into the end-to-end speech recognition model.
- the learning data itself is devised.
- learning data is generated by executing a Data Augmentation process using an auditory illusion.
- the audio data related to the auditory illusion is not used as it is, but the original audio data is used as a feature amount, and then the Data Augmentation process using the auditory illusion is executed.
- the present invention is a learning data generation device that generates learning data for learning an acoustic model that simulates the robustness of human speech perception, a model learning device that learns an acoustic model using the learning data, and a learning data generation method. , And the purpose of providing the program.
- the learning data generation device generates learning data used when learning an acoustic model used in a speech recognition device.
- the learning data generation device includes a feature amount conversion unit that converts the first feature amount series, which is an acoustic feature amount series obtained from the first learning voice signal, into the second feature amount series, and corresponds to the second feature amount series.
- the second learning audio signal is an audio signal that can cause illusion.
- the learning data generation device generates learning data used when learning an acoustic model used in a speech recognition device.
- the learning data generation device includes a feature amount conversion unit that converts a first feature amount series, which is an acoustic feature amount series obtained from the first learning voice signal, into a second feature amount series, and the feature amount conversion unit is a first feature amount conversion unit.
- the learning data generation device By deleting a segment with one feature quantity series and embedding noise having a value equal to or higher than the feature quantity values before and after the deleted segment, the first feature quantity series is converted into the second feature quantity series.
- the learning data generation device generates learning data used when learning an acoustic model used in a speech recognition device.
- the learning data generation device includes a feature amount conversion unit that converts a first feature amount series, which is an acoustic feature amount series obtained from the first learning voice signal, into a second feature amount series, and the feature amount conversion unit is a first feature amount conversion unit.
- One feature quantity series is divided into segments with a predetermined time length, the first feature quantity series divided in each segment is inverted in time, and the inverted feature quantity series are concatenated to connect the first feature quantity series. Is converted to the second feature series.
- the present invention has the effect of being able to learn an acoustic model that simulates the robustness of human speech perception.
- the functional block diagram of the model learning apparatus which concerns on 1st Embodiment The figure which shows the example of the processing flow of the model learning apparatus which concerns on 1st Embodiment.
- ⁇ Points of the first embodiment> in order to make the speech recognition device acquire the robustness of speech perception acquired by humans, a data augmentation process using auditory illusion is executed.
- the illusion is an illusion phenomenon in which the physically presented sound stimulus is not always perceived as it is due to the human auditory characteristics, and can be said to be an auditory version of the illusion.
- an acoustic model is learned using a voice signal that can produce such a continuous listening effect or a voice signal that becomes a time-reversed voice, it is naturally more than a deleted or masked part or a segment when inverting.
- the acoustic model will be learned in consideration of a long time interval, and the acoustic model will incorporate information for a long time, and will acquire the robustness of speech perception acquired by humans.
- the data augmentation process using the above-mentioned illusion is not executed for the voice waveform, but the data augmentation process is executed on the feature space to convert the training data into long-time information. It will be possible to build a robust speech recognition device. If the Data Augmentation process is executed for the voice waveform, the amount of training data is simply doubled, and when the data is stored, double the capacity is required in consideration of the original data. However, by executing the Data Augmentation process on the feature amount space, it is possible to convert the feature amount to be the learning data during the learning, so that the data capacity is only the original data.
- the speech recognition device With the continuous length effect, it becomes possible for the speech recognition device to acquire the robustness of a human being who can perceive speech even when a part is missing, and as a result, a speech recognition device that is robust to long-term information is constructed.
- similar expressions are possible in the feature space. For example, by deleting a certain segment on the time axis in the feature amount and embedding a value larger than the size of the feature amount before and after the segment in the segment, the expression equivalent to the continuous length effect can be obtained.
- the speech recognition device With time-reversed speech, it becomes possible for the speech recognition device to acquire the robustness of humans who can perceive speech even when the time series is locally inverted (destroyed), and as a result, speech recognition that is robust to long-term information.
- the device is built.
- the feature series is inverted in each segment on the time axis on the feature, and all the data are reconcatenated to expand the data. Used as.
- FIG. 1 shows a functional block diagram of the model learning device according to the first embodiment
- FIG. 2 shows a processing flow thereof.
- the model learning device 100 includes a voice signal acquisition unit 110, a voice digital signal storage unit 120, a feature amount analysis unit 130, a feature amount storage unit 140, a feature amount conversion unit 150, and a learning unit 160.
- the model learning device is, for example, a special program configured by loading a special program into a publicly known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a device.
- the model learning device executes each process under the control of the central processing unit, for example.
- the data input to the model learning device and the data obtained by each process are stored in the main storage device, for example, and the data stored in the main storage device is read out to the central processing unit as needed. It is used for processing.
- At least a part of each processing unit of the model learning device may be configured by hardware such as an integrated circuit.
- Each storage unit included in the model learning device is, for example, a main storage device such as RAM (RandomAccessMemory), an auxiliary storage device composed of a hard disk, an optical disk, or a semiconductor memory element such as a flash memory (FlashMemory), or a relational device. It can be configured by middleware such as database and key value store.
- RAM RandomAccessMemory
- FlashMemory flash memory
- middleware such as database and key value store.
- the model learning device inputs an analog audio signal x (k) for learning and a corresponding correct answer label r (j), learns an acoustic model based on this information, and outputs a trained acoustic model f. do.
- k is an index indicating the time.
- the correct label is, for example, a phoneme label
- j is an index indicating the order of phonemes.
- Information indicating from where to where the correct answer label (sound element label) corresponds to the analog audio signal shall be included in the training data in advance, and the audio digital signal and feature amount described below are also linked in the same manner. It is assumed that it has been done.
- the feature amount analysis unit 130 takes out the voice digital signal x (t) for each utterance p from the voice digital signal storage unit 120, divides the voice digital signal x (t) into frame units, and has an acoustic feature amount for each frame. Extraction is performed, and the (acoustic) feature quantity series X (p) for each utterance p is acquired.
- D the m-th voice digital signal x (t) in the n-p- th frame of a certain utterance p can be expressed as x (D (n p -1) + m).
- the subscript subscript p indicates that the value corresponds to the utterance p.
- the features to be extracted include, for example, 1 to 12 dimensions of MFCC (Mel-Frequenct Cepstrum Coefficient) based on short-time frame analysis of voice signals, dynamic parameters such as ⁇ MFCC and ⁇ MFCC, which are the dynamic features, and dynamic parameters such as ⁇ MFCC and ⁇ MFCC. Power, ⁇ power, ⁇ power, etc. are used. Further, CMN (cepstrum average normalization) processing may be performed on the MFCC.
- the feature amount is not limited to MFCC and power, and parameters used for identifying special utterances (for example, autocorrelation peak value and group delay) may be used.
- ⁇ Feature amount storage unit 140> Input: Feature series X (p) Processing: Accumulation of feature quantity series The feature quantity storage unit 140 accumulates the feature quantity series X (p) analyzed by the feature quantity analysis unit 130 (S140).
- the feature quantity conversion unit 150 executes Data Augmentation processing on the feature quantity series X (p) and converts the feature quantity series X (p) into the feature quantity series R (p) (S150). ..
- a feature sequence X (p') when learning using a feature sequence X (p') corresponding to a certain utterance p'(p'is one of 1, 2, ..., P) This means that the Data Augmentation process is executed and the feature series X (p') is converted to the feature series R (p').
- P represents the total number of utterances contained in the analog audio signal x (k) for learning. Since the inflated learning data is used only during learning and does not need to be stored, the amount of learning data to be stored can be reduced. Since the input is a feature quantity series, all the data augmentation processing is performed on the feature quantity space, and it is not necessary to perform the data augmentation processing on the audio digital signal.
- the Data Augmentation process in this embodiment converts the feature quantity series X (p) into the feature quantity series R (p) based on a certain conversion rule. By this conversion, pseudo inflated learning data is generated.
- a conversion rule is adopted so that the audio signal corresponding to the converted feature sequence R (p) becomes an audio signal that can cause an auditory illusion.
- processing is performed on the audio waveform, but in the present embodiment, conversion processing is performed on the feature quantity series.
- the audio signal corresponding to the converted feature quantity series R (p) becomes an audio signal that can cause illusion
- the audio signal that can obtain the continuous listening effect as described above is obtained.
- the feature quantity conversion unit 150 When converting to a feature quantity series corresponding to a voice signal that can obtain a continuous listening effect, the feature quantity conversion unit 150 deletes a segment having the feature quantity sequence X (p), and before and after the deleted segment.
- the feature quantity series X (p) is converted into the feature quantity series R (p) by embedding the feature quantity having a value equal to or higher than the feature quantity value of.
- the segment length is a length that can cause an auditory illusion.
- the deletion process and the embedding process are performed at intervals that may cause an auditory illusion.
- the feature amount to be embedded is a feature amount corresponding to noise, and the noise is, for example, white noise. Prior to the processing S150, a feature amount corresponding to noise is prepared in advance.
- the values of X (1 n ), X (2 n ), X (3 n ) should be greater than or equal to the values of the front feature X (s + 2 p ) and the back feature X (s + 6 p). Set to. For example, this process is performed every 20 frames.
- the feature quantity conversion unit 150 divides the feature quantity sequence X (p) into segments having a predetermined time length, and each segment.
- the feature series X (p) is converted into the feature series R (p) by reversing the feature series divided in the process in time and concatenating the inverted feature series.
- the segment length is a length that can cause an auditory illusion.
- the feature amount conversion unit 150 has a feature amount series ..., X (s + 1 p ), X (s + 2 p ), X (s + 3 p ), X (s + 4 p ), X (s +).
- ⁇ Learning Department 160> Input: Feature series X (p), feature series R (p), correct label r (j)
- the acoustic model f is a model that inputs a feature sequence and outputs a phoneme label.
- GMM-HMM and DNN-HMM are often used as the acoustic model in speech recognition, and in recent years, the End-to-End speech recognition model is also used.
- the correct label r (j) corresponds to the analog audio signal x (k) for learning, and is a feature quantity sequence X (p) obtained from the audio signal x (k) and a feature quantity sequence. It also corresponds to the feature series R (p) obtained by converting X (p).
- a configuration that does not include the learning unit 160 of the model learning device 100 is also referred to as a learning data generation device. That is, the learning data generation device includes an audio signal acquisition unit 110, an audio digital signal storage unit 120, a feature amount analysis unit 130, a feature amount storage unit 140, and a feature amount conversion unit 150.
- the learning data generator takes an analog audio signal x (k) for learning and a correct answer label r (j) as inputs, and from the audio signal x (k), the feature quantity sequence X (p) and the feature quantity sequence R (p). ) And is generated, and the combination of the feature sequence X (p), the feature sequence R (p), and the correct answer label r (j) is output as training data.
- the audio signal corresponding to the feature sequence R (p) is an audio signal that can cause an auditory illusion, but as a result of an experiment, it is an audio signal that cannot cause an auditory illusion. However, it was found that the same effect can be obtained.
- the feature amount conversion unit 150 deletes a segment having the feature amount series X (p), and the value is equal to or greater than the value of the feature amount before and after the deleted segment.
- the feature quantity series X (p) is converted into the feature quantity series R (p).
- the segment length of the segment to be deleted or embedded may be so long that the continuous listening effect cannot be produced.
- the interval between the deletion process and the embedding process may be so short that the continuous listening effect cannot be produced. Even when such data expansion is executed, it is possible to learn an acoustic model having the same accuracy as that of the first embodiment.
- the feature quantity conversion unit 150 divides the feature quantity sequence X (p) into segments having a predetermined time length in order to convert the feature quantity sequence X (p) into a voice signal that becomes a time-reversed voice.
- the feature quantity series X (p) is converted into the feature quantity series R (p) by inverting the feature quantity series divided in each segment in time and concatenating the inverted feature quantity series.
- the segment length may be long enough to prevent an auditory illusion. Even when such data expansion is executed, it is possible to learn an acoustic model having the same accuracy as that of the first embodiment.
- the program that describes this processing content can be recorded on a computer-readable recording medium.
- the recording medium that can be read by a computer may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
- the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
- a computer that executes such a program first, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
- ASP Application Service Provider
- the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
- the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized in terms of hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習するための学習データを生成する学習データ生成装置等を提供する。学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である。
Description
本発明は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置、学習データを用いるモデル学習装置、学習データ生成方法、およびプログラムに関する。
音響モデルを用いた音声認識装置において、特許文献1は、実用レベルの音声認識性能を担保するために、認識対象とするタスクに対して音響モデルを適応させていく技術である。言い換えると、特許文献1は、話者や、雑音タイプ、喋り方などの音響的特徴が異なるタスクに対して元々の音響モデルを適応させていく技術である。一般的に、音声認識性能は、認識対象とするタスクの学習データ量や、音響的な網羅性に依存して上下する側面を持つ。そこで通常は、認識対象とするタスクの音声を十分に集め、その音声を書き起こしすることで、所望の学習データを収集する。
しかしながら、従来技術では、莫大な金銭的・時間的コストを要するという課題がある。
このような課題に対する解決技術の一つとしてData Augmentation(データ拡張)がある。データ拡張とは、オリジナルの学習データに対して何かしらの変動を加え、新しい学習データを生成し、学習データを水増しすることである。データ拡張により、同じ学習データで学習することを少なくし、一層の汎化性能を獲得することができる。
例えば、非特許文献1では、話速をオリジナルデータに対して変換することで、様々な話者データを生成し、より広範な話者に対する汎化性能を向上させる。
また、非特許文献2では、雑音耐性や残響音声に対する認識性能を改善するために、オリジナルの学習データに対し雑音を重畳させ、更に残響の強い部屋のインパルス応答を畳み込むことで擬似的な残響音声を生成し、オリジナルの学習データに対し残響音声を重畳させ、汎化性能を向上させる。
T. Ko, V. Peddinti, D. Povey and S. Khudanpur: "Audio augmentation for speech recognition", In Proc. Annual Con- ference of the International Speech Communication Associ- ation (INTERSPEECH), pp. 3586-3589 (2015).
R. Hsiao, J. Ma, W. Hartmann, M. Karafiat, F. Grezl, L. Burget, I. Szoke, J. H. Cernocky, S. Watanabe, Z. Chen, S. H. Mallidi, H. Hermansky, S. Tsakalidis and R. Schwartz: "Robust speech recognition in unknown reverberant and noisy conditions", In Proc. Workshop on Automatic Speech Recognition and Understanding (ASRU), pp. 533-538 (2015).
ここでは、音声認識装置に対し、長時間情報を捉えるためのData Augmentationを考える。まず、音声認識装置と長時間情報について説明する。長時間情報を音声認識装置に組み込むことで、様々な音響事象に頑健になり、音声認識精度が改善されるといった報告が多数存在している。
例えば、recurrent neural network(RNN)モデルは、multi-layer perceptron(MLP)モデルなどとは異なり、長時間情報を陽に取り込むためにモデル自体に工夫をし、音声認識のような時系列情報を扱うタスクでは大きく精度改善した。
また、参考文献1では、End-to-End音声認識モデルに言語的な長時間コンテキストを陽に組み込むことで、音声認識精度を改善している。
(参考文献1)R. Masumura, T. Tanaka, T. Moriya, Y. Shinohara, T. Oba and Y. Aono, "Large Context End-to-end Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-decoder Models", ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 5661-5665.
上述のように、モデルを工夫することで長時間情報を音声認識装置に組み込む手法は様々ある。しかしながら、学習データ自体を工夫することで長時間情報を組み込んだ音声認識装置を獲得するようなアプローチはこれまでに存在しない。
上述のように、モデルを工夫することで長時間情報を音声認識装置に組み込む手法は様々ある。しかしながら、学習データ自体を工夫することで長時間情報を組み込んだ音声認識装置を獲得するようなアプローチはこれまでに存在しない。
本発明では、学習データ自体に工夫を施す。本発明に係る学習データ生成装置で生成した学習データを用いて音響モデルを学習することで、ヒトが先天的また後天的に獲得するような音声知覚に対する頑健性を獲得することができる。本実施形態では、錯聴を利用してData Augmentation処理を実行することで、学習データを生成する。
更に、本発明では、錯聴に係る音声データをそのまま用いるのではなく、オリジナルの音声データを特徴量にしたあとで、錯聴を利用したData Augmentation処理を実行する。
本発明は、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習するための学習データを生成する学習データ生成装置、その学習データを用いて音響モデルを学習するモデル学習装置、学習データ生成方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、特徴量変換部は、第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、第一特徴量系列を第二特徴量系列に変換する。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、特徴量変換部は、第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、第一特徴量系列を第二特徴量系列に変換する。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、特徴量変換部は、第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、第一特徴量系列を第二特徴量系列に変換する。
上記の課題を解決するために、本発明の他の態様によれば、学習データ生成装置は、音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する。学習データ生成装置は、第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、特徴量変換部は、第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、第一特徴量系列を第二特徴量系列に変換する。
本発明により、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習することができるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、ヒトが獲得している音声知覚の頑健性を音声認識装置に獲得させるために、錯聴を利用したData Augmentation処理を実行する。
本実施形態では、ヒトが獲得している音声知覚の頑健性を音声認識装置に獲得させるために、錯聴を利用したData Augmentation処理を実行する。
錯聴とは、ヒトの聴覚特性により、物理的に提示された音刺激に対して必ずしもその通り知覚されないような錯覚現象であり、錯視の聴覚版といえる。
例えば、連続聴効果(continuity illusion)では、周波数変化する純音や音声等の一部分を削除し、その削除された部分に、元の音を十分にマスキングするだけのノイズを重畳することで、物理的には削除されているはずの音区間が補完されて知覚される現象である(参考文献2参照)。
(参考文献2)R. M. Warren: "Perceptual restoration of missing speech sounds", Science, 167, pp. 392-393 (1970).
また、時間反転音声(Locally Time-reversed Speech)は、ある一定の短い時間セグメントごとに音声波形を切り分け、それぞれのセグメントにおいてその波形を時間軸上で反転させた後、その反転させた各セグメントを再度連結させた音声である(参考文献3参照)。
また、時間反転音声(Locally Time-reversed Speech)は、ある一定の短い時間セグメントごとに音声波形を切り分け、それぞれのセグメントにおいてその波形を時間軸上で反転させた後、その反転させた各セグメントを再度連結させた音声である(参考文献3参照)。
(参考文献3)K. Saberi and D. R. Perrott, "Cognitive restoration of reversed speech", Nature, 398, 6730, pp. 760-760 (1999).
ヒトがこのような時間反転音声を聴取した場合、その音声知覚の明瞭度はそのセグメント長が比較的短い場合、例えば25ms程度であれば、十分高いまま維持される。しかしながら、セグメント長が長くなればなるほどその明瞭度はシグモイド関数的に低下していき、100ms程度でほぼ音声知覚が困難になることが実験的に示されている。つまりある程度までの局所的な時系列の破壊であれば、ヒトの音声知覚には影響を与えない(頑健である)ことが分かる。
ヒトがこのような時間反転音声を聴取した場合、その音声知覚の明瞭度はそのセグメント長が比較的短い場合、例えば25ms程度であれば、十分高いまま維持される。しかしながら、セグメント長が長くなればなるほどその明瞭度はシグモイド関数的に低下していき、100ms程度でほぼ音声知覚が困難になることが実験的に示されている。つまりある程度までの局所的な時系列の破壊であれば、ヒトの音声知覚には影響を与えない(頑健である)ことが分かる。
このような連続聴効果を生じ得るような音声信号や時間反転音声となるような音声信号を用いて、音響モデルを学習すれば、自ずと、削除またはマスキングした部分や、反転させる際のセグメントよりも長い時間間隔を考慮して音響モデルを学習することとなり、音響モデルは長時間情報を組み込んだものとなり、ヒトが獲得している音声知覚の頑健性を獲得したものとなる。
本実施形態では、上述のような錯聴を利用したData Augmentation処理を音声波形に対して実行するのではなく、特徴量空間上でData Augmentation処理を実行することで、学習データから長時間情報に頑健な音声認識装置を構築することが可能になる。もし音声波形に対してData Augmentation処理を実行する場合、学習データ量が単純に2倍になってしまい、そのデータを保管する場合、オリジナルデータ分も考慮して2倍の容量が必要になる。しかしながら、特徴量空間上でData Augmentation処理を実行することで、学習の最中に、その学習データとなる特徴量を変換処理することが可能になるため、データ容量もオリジナルデータ分だけで済む。
錯聴の中でも特徴量空間上で処理することが可能な例として、本実施形態では上述した連続長効果と時間反転音声を挙げる。
連続長効果では、一部分が欠如した状態でも音声知覚出来るヒトの頑健性を音声認識装置に獲得させることが可能になるため、結果として長時間情報に頑健な音声認識装置が構築される。また、特徴量空間上でも同様に似たような表現が可能である。例えば、特徴量において時間軸上のあるセグメントを削除し、そこにそのセグメントの前後の特徴量の大きさ以上の値を代わりに埋め込むことで連続長効果と同等の表現となる。
時間反転音声では、局所的に時系列が反転(破壊)された状態でも音声知覚出来るヒトの頑健性を音声認識装置に獲得させることが可能になるため、結果として長時間情報に頑健な音声認識装置が構築される。こちらも同様に、特徴量空間上で似たような表現にするために、特徴量上の時間軸上における各セグメント内で特徴量系列を反転させ、それを全て再連結させたデータを拡張データとして用いる。
<第一実施形態>
図1は第一実施形態に係るモデル学習装置の機能ブロック図を、図2はその処理フローを示す。
図1は第一実施形態に係るモデル学習装置の機能ブロック図を、図2はその処理フローを示す。
モデル学習装置100は、音声信号取得部110と音声ディジタル信号蓄積部120と特徴量分析部130と特徴量蓄積部140と特徴量変換部150と学習部160とを含む。
モデル学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。モデル学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
モデル学習装置は、学習用のアナログの音声信号x(k)と、対応する正解ラベルr(j)とを入力とし、これらの情報に基づき音響モデルを学習し、学習済みの音響モデルfを出力する。なお、kは時刻を示すインデックスである。正解ラベルは例えば音素ラベルであり、jは音素の順番を示すインデックスである。なお、正解ラベル(音素ラベル)がアナログの音声信号のどこからどこまでに対応するかを示す情報は、予め学習データに含まれるものとし、以下で説明する音声ディジタル信号、特徴量についても同様に紐付けられているものとする。
以下、各部の処理内容について説明する。
<音声信号取得部110>
入力:音声信号x(k)
出力:音声ディジタル信号x(t)
処理:AD変換
音声信号取得部110は、アナログの音声信号x(k)を取得し、ディジタルの音声ディジタル信号x(t)に変換する(S110)。なお、tは音声ディジタル信号のサンプル番号を示すインデックスである。
入力:音声信号x(k)
出力:音声ディジタル信号x(t)
処理:AD変換
音声信号取得部110は、アナログの音声信号x(k)を取得し、ディジタルの音声ディジタル信号x(t)に変換する(S110)。なお、tは音声ディジタル信号のサンプル番号を示すインデックスである。
<音声ディジタル信号蓄積部120>
入力:音声ディジタル信号x(t)
処理:音声ディジタル信号の蓄積
音声ディジタル信号蓄積部120は、音声ディジタル信号x(t)を蓄積する(S120)。
入力:音声ディジタル信号x(t)
処理:音声ディジタル信号の蓄積
音声ディジタル信号蓄積部120は、音声ディジタル信号x(t)を蓄積する(S120)。
<特徴量分析部130>
入力:音声ディジタル信号x(t)
出力:特徴量系列X(p)
処理:特徴量分析
特徴量分析部130は、音声ディジタル信号x(t)に対して特徴量分析を行い、特徴量系列X(p)を得る。
入力:音声ディジタル信号x(t)
出力:特徴量系列X(p)
処理:特徴量分析
特徴量分析部130は、音声ディジタル信号x(t)に対して特徴量分析を行い、特徴量系列X(p)を得る。
例えば、特徴量分析部130は、音声ディジタル信号蓄積部120から発話p毎の音声ディジタル信号x(t)を取り出し、音声ディジタル信号x(t)をフレーム単位に分割し、フレーム毎に音響特徴量抽出を行い、発話p毎の(音響)特徴量系列X(p)を取得する。
例えば、ある発話pに含まれるフレーム総数をNpとし、np=1p,2p,…,Npとし、フレーム長をMとし、m=1,2,…,Mとし、シフト幅をDとすると、ある発話pのnp番目のフレームのm番目の音声ディジタル信号x(t)は、x(D(np-1)+m)と表すことができる。ただし、下付き添え字pは、発話pに対応する値であることを示す。特徴量分析部130は、フレームnp毎に音声ディジタル信号x(D(np-1)+1),x(D(np-1)+2),…,x(D(np-1)+M)に対して、音響特徴量抽出を行い、特徴量X(np)を取得する。特徴量分析部130は、発話pに含まれる全てのフレーム1p,2p,…,Npに対して処理を行い、発話p毎の特徴量系列X(p)={X(1p),X(2p),…,X(Np)}を取得する。
抽出する特徴量としては、例えば、音声信号の短時間フレーム分析に基づくMFCC(Mel-Frequenct Cepstrum Coefficient)の1~12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはCMN(ケプストラム平均正規化)処理を行っても良い。特徴量は、MFCCやパワーに限定したものでは無く、特殊発話の識別に用いられるパラメータ(例えば、自己相関ピーク値や群遅延など)を用いても良い。
<特徴量蓄積部140>
入力: 特徴量系列X(p)
処理:特徴量系列の蓄積
特徴量蓄積部140は、特徴量分析部130で分析した特徴量系列X(p)を蓄積する(S140)。
入力: 特徴量系列X(p)
処理:特徴量系列の蓄積
特徴量蓄積部140は、特徴量分析部130で分析した特徴量系列X(p)を蓄積する(S140)。
<特徴量変換部150>
入力:特徴量系列X(p)
出力:特徴量系列R(p)
処理:Data Augmentation処理
特徴量変換部150は、特徴量系列X(p)に対してData Augmentation処理を実行し、特徴量系列X(p)を特徴量系列R(p)に変換する(S150)。
入力:特徴量系列X(p)
出力:特徴量系列R(p)
処理:Data Augmentation処理
特徴量変換部150は、特徴量系列X(p)に対してData Augmentation処理を実行し、特徴量系列X(p)を特徴量系列R(p)に変換する(S150)。
なお、Data Augmentation処理は、後述する学習部160で学習する際に同時にオンラインで実行される。より詳しく説明すると、後述する学習部160で用いる全ての発話p(ここではp=1,2,…,P)に対応する特徴量系列X(p)に対して予めData Augmentation処理を行うのではなく、ある発話p'(p'は1,2,…,Pの何れか)に対応する特徴量系列X(p')を用いて学習する際にある特徴量系列X(p')に対してData Augmentation処理を実行し、特徴量系列X(p')を特徴量系列R(p')に変換することを意味する。ただし、Pは、学習用のアナログの音声信号x(k)に含まれる発話の総数を表す。水増しした学習データは、学習時のみ利用し、保管する必要がないため、保管する学習データ量を減らすことができる。なお、入力は特徴量系列となるため、全て特徴量空間上でData Augmentation処理をすることになり、音声ディジタル信号に対してData Augmentation処理を行う必要がなくなる。
本実施形態におけるData Augmentation処理は、特徴量系列X(p)をある変換ルールに基づいて特徴量系列R(p)に変換する。この変換により、擬似的な水増し学習データを生成する。
本実施形態では、変換後の特徴量系列R(p)に対応する音声信号が錯聴を生じ得る音声信号となるような変換ルールが採用される。なお、一般的に錯聴を生じ得る音声信号を生成する場合には音声波形に対して処理を行うが、本実施形態では特徴量系列上で変換処理を行う。
変換後の特徴量系列R(p)に対応する音声信号が錯聴を生じ得る音声信号となるような変換ルールとして、本実施形態では、上述したような連続聴効果が得られるような音声信号や時間反転音声となるような音声信号に対応する特徴量系列に変換する変換ルールを採用する。
(i)連続聴効果が得られるような音声信号に対応する特徴量系列に変換する場合、特徴量変換部150は、特徴量系列X(p)のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つ特徴量を削除した部分に埋め込むことで、特徴量系列X(p)を特徴量系列R(p)に変換する。セグメント長は、錯聴を生じ得る長さである。また、削除処理および埋め込み処理は、錯聴を生じ得る間隔で行う。また、埋め込む特徴量はノイズに対応する特徴量であり、ノイズは例えばホワイトノイズである。なお、処理S150に先立ちノイズに対応する特徴量を予め用意しておく。例えば、特徴量系列…,X(s+1p),X(s+2p),X(s+3p),X(s+4p),X(s+5p),X(s+6p),X(s+7p),X(s+8p),X(s+9p),X(s+10p),…のうち、3つの特徴量X(s+3p),X(s+4p),X(s+5p)を削除し、ノイズに対応する3つの特徴量X(1n),X(2n),X(3n)を埋め込む処理を行う(図3参照)。X(1n),X(2n),X(3n)の値は、前の特徴量X(s+2p)と後ろの特徴量X(s+6p)の値以上となるように設定する。例えば、この処理を、20フレーム毎に行う。
(ii)時間反転音声となるような音声信号に対応する特徴量系列に変換する場合、特徴量変換部150は、特徴量系列X(p)を所定の時間長のセグメントに分割し、各セグメント内で分割した特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、特徴量系列X(p)を特徴量系列R(p)に変換する。セグメント長は、錯聴を生じ得る長さである。例えば、特徴量変換部150は、特徴量系列…,X(s+1p),X(s+2p),X(s+3p),X(s+4p),X(s+5p),X(s+6p),X(s+7p),X(s+8p),X(s+9p),X(s+10p),…を5フレーム分の時間長のセグメント…、s(1)={X(s+1p),X(s+2p),X(s+3p),X(s+4p),X(s+5p)}、s(2)={X(s+6p),X(s+7p),X(s+8p),X(s+9p),X(s+10p)}、…に分割する。さらに、特徴量変換部150は、各セグメント内の特徴量系列を時間的に反転させ、…、s'(1)={X(s+5p),X(s+4p),X(s+3p),X(s+2p),X(s+1p)}、s'(2)={X(s+10p),X(s+9p),X(s+8p),X(s+7p),X(s+6p)}、…とし、…、s'(1)、s'(2)、…の順番で連結する(図4参照)。
<学習部160>
入力:特徴量系列X(p)、特徴量系列R(p)、正解ラベルr(j)
出力:学習済み音響モデルf
処理:モデル学習
学習部160は、特徴量系列X(p)、特徴量系列R(p)、正解ラベルr(j)を用いて、音響モデルfを学習する(S160)。音響モデルfは、特徴量系列を入力とし、音素ラベルを出力するモデルである。音声認識における音響モデルとしては、例えばGMM-HMMやDNN-HMMなどがしばしば用いられており、近年ではEnd-to-End音声認識モデルも用いられているが、本実施形態では、特に学習対象の音声認識モデルに制約はないため、GMM/DNN-HMMであってもEnd-to-End音声認識モデルであってもよい。なお、正解ラベルr(j)は、学習用のアナログの音声信号x(k)に対応するものであり、音声信号x(k)から得られる特徴量系列X(p)、および、特徴量系列X(p)を変換して得られる特徴量系列R(p)にも対応する。
入力:特徴量系列X(p)、特徴量系列R(p)、正解ラベルr(j)
出力:学習済み音響モデルf
処理:モデル学習
学習部160は、特徴量系列X(p)、特徴量系列R(p)、正解ラベルr(j)を用いて、音響モデルfを学習する(S160)。音響モデルfは、特徴量系列を入力とし、音素ラベルを出力するモデルである。音声認識における音響モデルとしては、例えばGMM-HMMやDNN-HMMなどがしばしば用いられており、近年ではEnd-to-End音声認識モデルも用いられているが、本実施形態では、特に学習対象の音声認識モデルに制約はないため、GMM/DNN-HMMであってもEnd-to-End音声認識モデルであってもよい。なお、正解ラベルr(j)は、学習用のアナログの音声信号x(k)に対応するものであり、音声信号x(k)から得られる特徴量系列X(p)、および、特徴量系列X(p)を変換して得られる特徴量系列R(p)にも対応する。
<効果>
以上の構成により、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習することができる。また、金銭的・時間的コストを低減することができる。さらに、Data Augmentation処理を音声波形に対して行うのではなく、特徴量空間上で行うことで、水増しした学習データに対する処理S110~S140を削減することができる。また、Data Augmentation処理を学習時に同時に行うことで、学習データの記憶容量を削減することができる。
以上の構成により、ヒトの音声知覚に対する頑健性を模擬した音響モデルを学習することができる。また、金銭的・時間的コストを低減することができる。さらに、Data Augmentation処理を音声波形に対して行うのではなく、特徴量空間上で行うことで、水増しした学習データに対する処理S110~S140を削減することができる。また、Data Augmentation処理を学習時に同時に行うことで、学習データの記憶容量を削減することができる。
<変形例>
モデル学習装置100の学習部160を含まない構成を、学習データ生成装置ともいう。つまり、学習データ生成装置は、音声信号取得部110と音声ディジタル信号蓄積部120と特徴量分析部130と特徴量蓄積部140と特徴量変換部150とを含む。学習データ生成装置は、学習用のアナログの音声信号x(k)と正解ラベルr(j)とを入力とし、音声信号x(k)から特徴量系列X(p)と特徴量系列R(p)とを生成し、特徴量系列X(p)、特徴量系列R(p)および正解ラベルr(j)の組合せを学習データとして出力する。
モデル学習装置100の学習部160を含まない構成を、学習データ生成装置ともいう。つまり、学習データ生成装置は、音声信号取得部110と音声ディジタル信号蓄積部120と特徴量分析部130と特徴量蓄積部140と特徴量変換部150とを含む。学習データ生成装置は、学習用のアナログの音声信号x(k)と正解ラベルr(j)とを入力とし、音声信号x(k)から特徴量系列X(p)と特徴量系列R(p)とを生成し、特徴量系列X(p)、特徴量系列R(p)および正解ラベルr(j)の組合せを学習データとして出力する。
第一実施形態では、特徴量系列R(p)に対応する音声信号は、錯聴を生じ得る音声信号であることを前提としているが、実験の結果、錯聴を生じ得ない音声信号であっても同様の効果を得ることができることが分かった。
例えば、第一実施形態では、連続聴効果を得るために、特徴量変換部150は、特徴量系列X(p)のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つ特徴量を削除した部分に埋め込むことで、特徴量系列X(p)を特徴量系列R(p)に変換する。このとき、削除する、または、埋め込むセグメントのセグメント長は、連続聴効果を生じ得ないほど長くともよい。また、削除処理および埋め込み処理の間隔は、連続聴効果を生じ得ないほど短くともよい。このようなデータ拡張を実行した場合であっても、第一実施形態と同様の精度を持つ音響モデルを学習することができる。
また、例えば、第一実施形態では、時間反転音声となるような音声信号に変換するために、特徴量変換部150は、特徴量系列X(p)を所定の時間長のセグメントに分割し、各セグメント内で分割した特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、特徴量系列X(p)を特徴量系列R(p)に変換する。このとき、セグメント長は、錯聴を生じ得ないほど長くともよい。このようなデータ拡張を実行した場合であっても、第一実施形態と同様の精度を持つ音響モデルを学習することができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上述の各種の処理は、図5に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
上述の各種の処理は、図5に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置であって、
第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、
前記第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である、
学習データ生成装置。 - 音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置であって、
第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、
前記特徴量変換部は、前記第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、前記第一特徴量系列を前記第二特徴量系列に変換する、
学習データ生成装置。 - 音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成装置であって、
第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換部を含み、
前記特徴量変換部は、前記第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、前記第一特徴量系列を前記第二特徴量系列に変換する、
学習データ生成装置。 - 請求項1から請求項3の何れかの学習データ生成装置を含むモデル学習装置であって、
前記第一特徴量系列と、前記第二特徴量系列と、前記第一の学習用音声信号に対応する正解ラベルとを用いて、音響モデルを学習する学習部を含み、
前記特徴量変換部は、前記音響モデルの学習中に前記第一特徴量系列を前記第二特徴量系列に変換する、
モデル学習装置。 - 音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成方法であって、
第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換ステップを含み、
前記第二特徴量系列に対応する第二の学習用音声信号は、錯聴を生じ得る音声信号である、
学習データ生成方法。 - 音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成方法であって、
第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換ステップを含み、
前記特徴量変換ステップにおいて、前記第一特徴量系列のあるセグメントを削除し、削除したセグメントの前後の特徴量の値以上の値を持つノイズを埋め込むことで、前記第一特徴量系列を前記第二特徴量系列に変換する、
学習データ生成方法。 - 音声認識装置において用いる音響モデルを学習する際に用いる学習データを生成する学習データ生成方法であって、
第一の学習用音声信号から得られる音響特徴量系列である第一特徴量系列を第二特徴量系列に変換する特徴量変換ステップを含み、
前記特徴量変換ステップにおいて、前記第一特徴量系列を所定の時間長のセグメントに分割し、各セグメント内で分割した第一特徴量系列を時間的に反転させ、反転させた特徴量系列を連結することで、前記第一特徴量系列を前記第二特徴量系列に変換する、
学習データ生成方法。 - 請求項1から請求項3の何れかの学習データ生成装置、または、請求項4のモデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/020105 WO2021234904A1 (ja) | 2020-05-21 | 2020-05-21 | 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/020105 WO2021234904A1 (ja) | 2020-05-21 | 2020-05-21 | 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021234904A1 true WO2021234904A1 (ja) | 2021-11-25 |
Family
ID=78707858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/020105 WO2021234904A1 (ja) | 2020-05-21 | 2020-05-21 | 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2021234904A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016161823A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社日立製作所 | 音響モデル学習支援装置、音響モデル学習支援方法 |
-
2020
- 2020-05-21 WO PCT/JP2020/020105 patent/WO2021234904A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016161823A (ja) * | 2015-03-03 | 2016-09-05 | 株式会社日立製作所 | 音響モデル学習支援装置、音響モデル学習支援方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11848002B2 (en) | Synthesis of speech from text in a voice of a target speaker using neural networks | |
JP7243760B2 (ja) | 音声特徴補償装置、方法およびプログラム | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
JP7490894B2 (ja) | 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽 | |
CN112863489B (zh) | 语音识别方法、装置、设备及介质 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
Li et al. | A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
Liu et al. | A robust acoustic feature extraction approach based on stacked denoising autoencoder | |
CN117612545A (zh) | 语音转换方法、装置、设备及计算机可读介质 | |
Xu et al. | Speaker Recognition Based on Long Short-Term Memory Networks | |
WO2021234904A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム | |
WO2021234905A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム | |
WO2021245771A1 (ja) | 学習データ生成装置、モデル学習装置、学習データ生成方法、モデル学習方法、およびプログラム | |
CN116959474A (zh) | 音频数据处理方法、装置、设备和存储介质 | |
JP7028311B2 (ja) | 学習用音声データ生成装置、その方法、およびプログラム | |
Zhao et al. | Time Domain Speech Enhancement using self-attention-based subspace projection | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Song et al. | Speaker-adaptive neural vocoders for parametric speech synthesis systems | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
WO2022082607A1 (en) | Vocal track removal by convolutional neural network embedded voice finger printing on standard arm embedded platform | |
WO2023157207A1 (ja) | 信号解析システム、信号解析方法及びプログラム | |
US20240265932A1 (en) | Device and method for automatically removing a background sound source of a video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20936453 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20936453 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |