WO2023132018A1 - 学習装置、信号処理装置、学習方法及び学習プログラム - Google Patents

学習装置、信号処理装置、学習方法及び学習プログラム Download PDF

Info

Publication number
WO2023132018A1
WO2023132018A1 PCT/JP2022/000149 JP2022000149W WO2023132018A1 WO 2023132018 A1 WO2023132018 A1 WO 2023132018A1 JP 2022000149 W JP2022000149 W JP 2022000149W WO 2023132018 A1 WO2023132018 A1 WO 2023132018A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
learning
loss function
error
model
Prior art date
Application number
PCT/JP2022/000149
Other languages
English (en)
French (fr)
Inventor
翼 落合
マーク デルクロア
林太郎 池下
宏 佐藤
章子 荒木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/000149 priority Critical patent/WO2023132018A1/ja
Publication of WO2023132018A1 publication Critical patent/WO2023132018A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to a learning device, a signal processing device, a learning method and a learning program.
  • the present invention has been made in view of the above, and it is an object of the present invention to provide a learning device, a signal processing device, a learning method, and a learning program that make it possible to improve speech recognition performance through speech enhancement.
  • the learning device uses a model that generates an enhanced signal that emphasizes the speaker's voice, from the input observation signal for learning, the speaker's speech.
  • a model that generates an enhanced signal that emphasizes the speaker's voice, from the input observation signal for learning, the speaker's speech.
  • a speech enhancement unit that generates an enhanced signal that emphasizes the speaker's voice from an input observed signal using a model that solves the above-described problems and generates an enhanced signal that emphasizes the speaker's voice;
  • the model includes a reference signal corresponding to the estimated target target sound source signal of the observed signal for learning, an enhanced signal generated by the model from the observed signal for learning, It is a model whose parameters are updated using a loss function defined to preferentially reduce the artifact error out of the noise error and the artifact error contained in the enhanced signal as a loss function for calculating the similarity of It is characterized by
  • FIG. 1 is a diagram for explaining signal decomposition of an enhanced signal by orthogonal projection.
  • FIG. 2 is a diagram showing the word error rate (WER) with respect to the evaluation-emphasized signal.
  • FIG. 3 is a diagram schematically showing an example of the configuration of the learning device according to the embodiment;
  • FIG. 4 is a flow chart showing the processing procedure of the learning method according to the embodiment.
  • FIG. 5 is a diagram schematically showing an example of the configuration of the signal processing device according to the embodiment.
  • FIG. 6 is a flow chart showing the processing procedure of the signal processing method according to the modified embodiment.
  • FIG. 7 is a diagram illustrating an example of a computer that implements a signal processing device by executing a program.
  • y ⁇ R T denotes the T long-time domain waveform of the observed signal.
  • the observed signal y is modeled as equation (1).
  • s ⁇ R T denotes the sound source signal.
  • n ⁇ R T denotes the background noise signal.
  • SE aims to reduce the noise signal n from the observed signal y.
  • SE(•) denotes SE processing performed by, for example, a neural network.
  • FIG. 1 is a diagram for explaining signal decomposition of an enhanced signal by orthogonal projection.
  • s target denotes an estimated target target sound source signal (hereinafter referred to as a target sound source signal)
  • e noise ⁇ R T denotes noise error
  • e artif ⁇ R T denotes artifact error.
  • the estimation error in the SE is decomposed into a noise error e noise and an artifact error e artif by error decomposition by orthogonal projection.
  • Ps ⁇ R T ⁇ T represents an orthogonal projection matrix on the subspace spanned by the sound source signal (equation (3)).
  • P s,n ⁇ R T ⁇ T indicates an orthogonal projection matrix on the subspace spanned by the source signal and the noise signal (equation (4)).
  • L-1 is the number of allowable maximum delays.
  • Equation (2) The decomposition term of Equation (2) is obtained using the projection matrices of Equations (7), (8), and (9).
  • noise error e noise consists of a linear combination of a speech signal and a noise signal, it is expected to be an observable signal in the real world. These are called natural signals. This natural signal may have limited impact on speech recognition performance, since similar noise errors e noise naturally appear in training samples.
  • the artifact error e artif is an artificial/unnatural signal composed of a signal that cannot be represented by a linear combination of a speech signal and a noise signal (see FIG. 1).
  • This unnatural signal can be very diverse and rarely appear in the training samples. Therefore, we hypothesize that speech recognition is more sensitive to artifact errors e artif than to noise errors e noise .
  • SDR Signal to distortion ratio
  • SNR signal to noise ratio
  • SAR signal to artifact ratio
  • SAR signal to Artifact Ratio
  • the enhanced signal ⁇ s ⁇ ⁇ R T was synthesized.
  • ⁇ noise is a parameter that controls the amount of noise error e noise
  • ⁇ nartif is a parameter that controls the amount of artifact error e artif .
  • FIG. 2 is a diagram showing the WER with respect to the evaluation weighted signal.
  • FIG. 2(a) is a 3D plot showing speech recognition results for an evaluation-enhanced signal with a modified ratio of noise error e noise /artifact error e artif .
  • FIG. 2(b) is the corresponding 2D plot obtained by changing only one of the weights of ⁇ noise and ⁇ artif .
  • the baseline (obs.) in FIG. 2(b) represents the baseline WER score of the observed signal, and the square symbols represent the WER score of the original enhanced signal without modification.
  • the original enhanced signal actually degrades the speech recognition performance compared to the observed signal. It has been observed that a significant improvement in speech recognition performance is possible by reducing the artifact error e artif , as shown in FIG. On the other hand, the speech recognition performance was not significantly affected by increasing or decreasing the noise error e noise . From these results, it was confirmed that, of the noise error e noise and the artifact error e artif , the artifact error e artif has a greater influence on the deterioration of the speech recognition performance.
  • the present embodiment proposes a learning method and a signal processing method for improving speech recognition performance.
  • a method of reducing the artifact error e artif included in the enhancement signal ⁇ s input to the speech recognition system is examined.
  • the speech enhancement when generating the enhanced signal ⁇ s from the observed signal y , the speech enhancement carry out part of the study.
  • the noise error e noise included in the enhanced signal ⁇ s and the artifact error which is an unnatural signal, are used as the loss function for obtaining the similarity between the enhanced signal ⁇ s and the reference signal s.
  • a model in the speech enhancement unit is trained using a loss function defined to preferentially reduce the artifact error e artif among e artif .
  • the loss function L 1 defined in equation (14) is used to train the model in the speech enhancement section.
  • the loss function L 1 includes a loss function L noise (first loss function) and a loss function L artif (second loss function), and the loss function L artif is a weighted function.
  • the loss function Lnoise in equation (14) is a loss function defined to reduce the noise error.
  • SDR see formula (15)
  • Classical_SNR see formula (16)
  • SNR see formula (11)
  • the loss function L artif is a loss function defined to reduce the artifact error e artif .
  • SAR see formula (11)
  • is a weight added to the loss function L artif , that is, a weighting coefficient (hyperparameter) that determines the priority of the artifact error e artif . good.
  • a loss function L 1 ' (see formula (17)) in which the sum of the weight added to the loss function L noise and the weight ⁇ added to the loss function L artif is 1 may be used.
  • which is a weighting factor that determines the priority of the artifact error e artif , has a value of 0-1.
  • the loss function L2 defined in equation (18) is used to train the model in the speech enhancement unit.
  • the loss function L2 is expressed by a logarithmic function with a value obtained by dividing the target sound source signal s target by the sum of the noise error e noise and the artifact error e artif weighted by the weight ⁇ .
  • the weight ⁇ is a weighting coefficient (hyperparameter) that determines the priority of the artifact error e artif .
  • FIG. 3 is a diagram schematically showing an example of the configuration of the learning device according to the embodiment.
  • the learning device 10 for example, a computer or the like including ROM (Read Only Memory), RAM (Random Access Memory), CPU (Central Processing Unit), etc. is loaded with a predetermined program, and the CPU executes a predetermined program. It is realized by executing the program.
  • the learning device 10 also has a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like.
  • the learning device 10 has a speech enhancement section 11 and an update section 12 .
  • a learning observation signal yt recorded in a single channel is input to the learning device 10 .
  • the learning device 10 trains the model used by the speech enhancement unit 11 using the reference signal s corresponding to the target sound source signal of the learning observation signal yt .
  • the speech enhancement unit 11 receives an input of a learning observation signal yt recorded in a single channel.
  • the speech enhancement unit 11 generates an enhanced signal ⁇ s that emphasizes the speaker's speech from the input learning observation signal yt using a model that generates an enhanced signal that emphasizes the speaker's speech.
  • a model is constructed by, for example, a neural network.
  • the update unit 12 uses the loss function L 1 , the loss function L 1 ′, or the loss function Update the model parameters based on L2 .
  • FIG. 4 is a flow chart showing the processing procedure of the learning method according to the embodiment.
  • the speech enhancement unit 11 when the learning apparatus 10 receives an input of the learning observation signal yt , the speech enhancement unit 11 generates an enhanced signal obtained by enhancing the speaker's voice from the input learning observation signal yt . Speech enhancement processing for generating ⁇ s is performed (step S11).
  • the updating unit 12 updates the parameters of the model based on the loss function L 1 , loss function L 1 ′ , or loss function L 2 (step S12).
  • the learning device 10 determines whether or not a predetermined termination condition is satisfied (step S13).
  • the end conditions are, for example, when the loss becomes equal to or less than a predetermined threshold, when the number of parameter updates reaches a predetermined number, or when the parameter update amount becomes equal to or less than a predetermined threshold.
  • step S13: No the learning device 10 returns to step S11.
  • the learning device 10 repeats the speech enhancement process and the parameter update process until a predetermined end condition is satisfied. If the predetermined end condition is satisfied (step S13: Yes), the learning device 10 ends the learning process.
  • the learning device 10 outputs the model (including model parameters) of the speech enhancement unit 11 to the signal processing device 20 (described later).
  • FIG. 5 is a diagram schematically showing an example of the configuration of the signal processing device according to the embodiment.
  • the signal processing device 20 for example, a computer including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), etc. is loaded with a predetermined program, and the CPU executes a predetermined program. It is realized by executing the program of The signal processing device 20 also has a communication interface for transmitting and receiving various information to and from other devices connected via a network or the like. As shown in FIG. 5 , the signal processing device 20 has a speech enhancement section 21 and a speech recognition section 22 . The signal processing device 20 receives an observation signal y recorded in a single channel, and outputs, for example, a speech recognition result obtained by converting the message signal into text.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • CPU Central Processing Unit
  • the speech enhancement unit 21 receives an input of an observed signal y recorded in a single channel.
  • a speech enhancement unit 21 generates an enhanced signal ⁇ s that emphasizes the speaker's voice from the observed signal y.
  • the speech enhancement unit 21 uses the model trained by the learning device 10 to perform speech enhancement processing.
  • the model can be based on the loss function L 1 , loss function L 1 ′ or loss function L 2 described above and is a model with updated parameters.
  • the speech recognition unit 22 performs speech recognition on the emphasized signal ⁇ s.
  • the speech recognition unit 22 outputs a speech recognition result obtained by converting a message signal into text, for example.
  • the speech recognition unit 22 performs speech recognition processing using, for example, a trained deep learning model.
  • FIG. 6 is a flow chart showing the processing procedure of the signal processing method according to the embodiment.
  • the speech enhancement unit 21 uses the model trained by the learning device 10 to emphasize the speaker's speech from the observation signal y.
  • a speech enhancement process is performed to generate the enhanced signal ⁇ s (step S21).
  • the speech recognition unit 22 performs speech recognition processing on the emphasized signal ⁇ s (step S22), and outputs the speech recognition result.
  • Equations (11), (15) and (16) were used.
  • the loss function for obtaining the similarity between the enhanced signal ⁇ s and the reference signal s is used.
  • Train the model in the speech enhancement part which can be based on loss function L 1 , loss function L 1 ' or loss function L 2 defined to preferentially reduce the error e artif .
  • This loss function L 1 , loss function L 1 ′, or loss function L 2 weights the artifact error e artif to preferentially reduce the artifact error e artif out of the noise error e noise and the artifact error e artif . Induce learning to do.
  • a neural network-based time-domain denoising network (Denoising-TasNet) is used as the speech enhancement unit 21 .
  • a deep neural network hidden Markov model (DNN-HMM) hybrid ASR (Automatic Speech Recognition) system based on Kaldi's standard recipe was adopted.
  • Table 1 is a table showing SAR and WER for the enhanced signal ⁇ s generated by the speech enhancement unit 21.
  • Table 1 shows the SAR and WER when the model trained using the loss function L2 is used to generate the enhanced signal ⁇ s (this embodiment). Table 1 shows the cases where ⁇ is 2.0 and 3.0. For comparison, Table 1 shows SAR and WER when an enhanced signal is generated using a model trained with ⁇ set to 1.0, that is, a model related to the conventional method trained without weighting the artifact error e artif .
  • the magnitude of the artifact error e artif can be generated by reducing the emphasis signal. Therefore, according to the embodiment, it is possible to reduce the artifact error e artif included in the enhancement signal ⁇ s input to the speech recognition system, and improve speech recognition performance by speech enhancement.
  • Each component of the learning device 10 and the signal processing device 20 is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific form of distributing and integrating the functions of the learning device 10 and the signal processing device 20 is not limited to the illustrated one, and all or part of them can be implemented in arbitrary units according to various loads and usage conditions. It can be functionally or physically distributed or integrated.
  • each process performed in the learning device 10 and the signal processing device 20 is realized by a CPU, a GPU (Graphics Processing Unit), and a program that is analyzed and executed by the CPU and GPU. good too.
  • each process performed in the learning device 10 and the signal processing device 20 may be implemented as hardware based on wired logic.
  • FIG. 7 is a diagram showing an example of a computer that implements the learning device 10 and the signal processing device 20 by executing a program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores an OS (Operating System) 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, a program that defines each process of the learning device 10 and the signal processing device 20 is implemented as a program module 1093 in which code executable by the computer 1000 is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configurations of the learning device 10 and the signal processing device 20 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

学習装置(10)は、話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する音声強調部(11)と、学習用観測信号の推定目標目的音源信号に対応する参照信号と、モデルが学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、モデルのパラメータを更新する更新部(12)と、を有する。

Description

学習装置、信号処理装置、学習方法及び学習プログラム
 本発明は、学習装置、信号処理装置、学習方法及び学習プログラムに関する。
 背景雑音や残響などの音響干渉に対して頑健な音声認識システムを構築することは音声処理において課題となっている。ここで、複数のマイクを使用するマルチチャネルでの音声強調技術(ビームフォーマー)が音声認識性能を大きく向上させることが確認されている。
Szu-Jui Chen, Aswin Shanmugam Subramanian, Hainan Xu, and Shinji Watanabe, "Building state-of-the-art distant speech recognition using the chime-4 challenge with a setup of speech enhancement baseline", in Interspeech, 2018, pp. 1571-1575.
 一方、単一のマイクを使用するシングルチャネルでの音声強調技術は、雑音を除去した強調信号を用いても、雑音あり観測信号よりもむしろ音声認識性能が劣化する場合もあり、音声認識性能向上への効果は限定的であった。
 実際には、単一のマイクロホンしか備えていないデバイスも多い。したがって、頑強な音声認識システムを実現するためには、マルチチャネルでの音声強調技術とともに、シングルチャネルに対しても音声強調技術を開発することが重要である。
 本発明は、上記に鑑みてなされたものであって、音声強調による音声認識性能の向上を可能とする学習装置、信号処理装置、学習方法及び学習プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、学習用観測信号の推定目標目的音源信号に対応する参照信号と、モデルが学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、モデルのパラメータを更新する更新部と、を有することを特徴とする。
 上述した課題を解決し、話者の音声を強調した強調信号を生成するモデルを用いて、入力された観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、強調信号に対して、音声認識を行う音声認識部と、を有し、モデルは、学習用観測信号の推定目標目的音源信号に対応する参照信号と、モデルが学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、パラメータが更新されたモデルであることを特徴とする。
 本発明によれば、音声強調による音声認識性能の向上を可能とする。
図1は、直交投影による強調信号の信号分解を説明する図である。 図2は、評価強調信号に対する単語誤り率(Word Error Rate:WER)を示す図である。 図3は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。 図4は、実施の形態に係る学習方法の処理手順を示すフローチャートである。 図5は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。 図6は、変実施の形態に係る信号処理方法の処理手順を示すフローチャートである。 図7は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトルまたは行列であるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同じであるとする。
[実施の形態]
 本実施の形態では、一例として、シングルチャネル音声強調(Speech Enhancement:SE)による強調信号が、音声認識性能を劣化される要因を分析した分析結果を基に、音声認識性能を向上させることが可能であるモデルの学習を実行する学習方法と、そのモデルを用いる信号処理方法を提案する。なお、本実施の形態では、単一のマイクロホン(シングルチャネル)で録音された音声信号(観測信号)に対する信号処理方法について説明するが、シングルチャネルに限らず、複数のマイクロホン(マルチチャネル)で録音された音声信号にも適用可能である。
[強調信号の分析]
 まず、シングルチャネルSEによる強調信号に対して、音声認識性能を劣化させる要因を分析した。
 通常、シングルチャネルSEによって生じる処理歪みが音声認識性能低下の原因であると想定されることが多い。しかしながら、こうした歪み、特に、音声認識への影響について系統的な詳しい分析や解明はこれまでされてこなかった。音声認識に対するシングルチャネルSE推定誤差の影響について解明していくことがSEフロントエンド設計を改良する上で欠かせないと考える。
 ここで、シングルチャネルSEタスクに焦点を当てる。y∈RTは、観測信号のT長時間領域波形を示す。観測信号yは、式(1)としてモデル化される。s∈RTは、音源信号を示す。n∈RTは、背景の雑音信号を示す。
Figure JPOXMLDOC01-appb-M000001
 SEは、観測信号yから雑音信号nを減らすことを目的とする。観測信号yが入力された場合、強調信号^s∈RTは、^s=SE(y)と推定される。SE(・)は、例えば、ニューラルネットワークによって行われるSE処理を示す。
 続いて、SE推定誤差が音声認識性能に与える影響を分析するため、直交投影を用いてSE推定誤差分解を検討した。図1は、直交投影による強調信号の信号分解を説明する図である。
 強調信号^sは、推定処理を行うことで取得されるものであるため、推定誤差を含むことは避けられない。強調信号^sを式(2)のように直交投影を用いて分解する。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、stargetは、推定目標目的音源信号(以降、目的音源信号とする。)を示し、enoise∈RTは、雑音誤差を示し、eartif∈RTは、アーティファクト誤差を示す(図1参照)。
 具体的には、直交投影による誤差分解により、SEにおける推定誤差を雑音誤差enoiseとアーティファクト誤差eartifとに分解する。この2つの要素は、SE誤差を、音声/雑音信号に張る音声/雑音部分空間、及び、音声/雑音部分空間に直交する部分空間に射影することにより得られる。Ps∈RT×Tは、音源信号(式(3))が張る部分空間上の直交投影行列を示す。同様にPs,n∈RT×Tは、音源信号と雑音信号(式(4))が張る部分空間上の直交投影行列を示す。なお、L-1は、許容最大遅延の数である。これらの行列は、式(5)、式(6)によって求められる。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 式(2)の分解項は、式(7)、式(8)、式(9)の投影行列を用いて求められる。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 雑音誤差enoiseは、音声信号と雑音信号との線形結合で構成されるため、実世界の信号として観測可能な信号であると期待される。これらを自然信号と呼ぶ。訓練サンプルには類似する雑音誤差enoiseが自然に現れるため、この自然信号が音声認識性能に与える影響は限定的である可能性がある。
 一方、アーティファクト誤差eartifは、音声信号と雑音信号との線形結合では表すことのできない信号で構成され(図1参照)、人工的/不自然な信号である。この不自然な信号は、非常に多様であり、訓練サンプルに現れることはほとんどない可能性がある。したがって、音声認識は、雑音誤差enoiseよりもアーティファクト誤差eartifに対して感度が高いという仮説を立てる。
 SE評価指標として、信号対歪比(Signal to Distortion Ratio:SDR)(式(10))、信号対雑音比(Signal to Noise Ratio:SNR)(式(11))、信号対アーティファクト比(Signal to Artifact Ratio:SAR)(式(12))を使用する。SDRは、式(2)を適用することで、式(10)のように導出される。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 次に、アーティファクト誤差eartifの音声認識性能への誤差要素の影響を調べる実験を行った。実験では、アーティファクト誤差eartif及び雑音誤差enoiseの音声認識性能への影響を測定するため、誤差要素の大きさを変えることにより強調信号を変更し、変更強調信号を入力として音声認識を行った。
 具体的には、直交投影を用いて強調信号^sを分解した後、アーティファクト誤差eartif及び雑音誤差enoiseを、式(13)のように増減することにより、強調信号^sω∈RTを合成した。
Figure JPOXMLDOC01-appb-M000013
 ωnoiseは、雑音誤差enoiseの量を制御するパラメータであり、ωnartifは、アーティファクト誤差eartifの量を制御するパラメータである。今回の実験では、雑音誤差enoiseやアーティファクト誤差eartifの割合が異なる多様な強調信号^sωを得るため、ωnoiseとωartifとの値を変更した。これにより、SNRとSARの値を制御しつつ同じ目的音源信号stargetを保持することができる。このような変更済みの強調信号を評価強調信号として音声認識システムに入力することにより、各誤差要素が音声認識性能に与える影響を直接測定した。
 図2は、評価強調信号に対するWERを示す図である。図2の(a)は、雑音誤差enoise/アーティファクト誤差eartifの比率を変更された評価強調信号に対する音声認識結果を示す3Dプロットである。図2の(b)は、ωnoiseとωartifの重みのうち1つのみを変更することによって得られる対応する2Dプロットである。図2の(b)のbaseline(obs.)は、観測信号の基準WERスコアを表し、四角記号は、変更なしの元の強調信号のWERスコアを表す。
 図2に示すように、元の強調信号は、観測信号と比して、音声認識性能を実際には低下させるということが確認できる。図2に示すように、アーティファクト誤差eartifを減らすことによって、音声認識性能の大幅な向上が可能であることが観測された。一方、音声認識性能は、雑音誤差enoiseを増減してもそれほど影響を受けなかった。これらの結果により、雑音誤差enoiseとアーティファクト誤差eartifとのうち、アーティファクト誤差eartifの方が音声認識性能の低下に大きな影響を及ぼすということが確認できた。
 そこで、この知見に基づいて、本実施の形態では、音声認識性能を向上させる学習方法及び信号処理方法を提案する。本実施の形態では、アーティファクト誤差eartifの影響を減らすアプローチとして、音声認識システムに入力される強調信号^sに含まれるアーティファクト誤差eartifを減らす方法を検討した。
 実施の形態では、観測信号yから強調信号^sを生成する際に、強調信号^sに含まれるアーティファクト誤差eartifの大きさをより重点的に小さくした強調信号を生成できるように、音声強調部の学習を実行する。
 具体的には、本実施の形態では、強調信号^sと参照信号sとの類似度を取得する損失関数として、強調信号^sに含まれる雑音誤差enoiseと不自然な信号であるアーティファクト誤差eartifとのうち、アーティファクト誤差eartifを優先的に小さくするよう定義された損失関数を用いて、音声強調部におけるモデルを訓練する。
 例えば、実施の形態では、式(14)に定義する損失関数L1を用いて、音声強調部におけるモデルを訓練する。損失関数L1は、損失関数Lnoise(第1の損失関数)と、損失関数Lartif(第2の損失関数)とを含み、損失関数Lartifが重み付けされる関数である。
Figure JPOXMLDOC01-appb-M000014
 式(14)の損失関数Lnoiseは、雑音誤差を小さくするように定義された損失関数である。例えば、損失関数Lnoiseとして、SDR(式(15)参照)、Classical_SNR(式(16)参照)、SNR(式(11)参照)を用いることができる。
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
 また、損失関数Lartifは、アーティファクト誤差eartifを小さくするよう定義された損失関数である。例えば、損失関数Lartifとして、SAR(式(11)参照)を用いることができる。αは、損失関数Lartifに付加する重み、すなわち、アーティファクト誤差eartifの優先度を決める重み係数(ハイパーパラメータ)であり、ネットワークの構成や、観測信号等のデータに合わせて、適宜変更すればよい。
 なお、損失関数として、損失関数Lnoiseに付加する重みと、損失関数Lartifに付加する重みβとの和が1となる損失関数L1´(式(17)参照)を用いてもよい。この場合、アーティファクト誤差eartifの優先度を決める重み係数であるβは、0~1の値となる。
Figure JPOXMLDOC01-appb-M000017
 また、実施の形態では、式(18)に定義する損失関数Lを用いて、音声強調部におけるモデルを訓練する。損失関数Lは、目的音源信号stargetを、雑音誤差enoiseと、重みγで重み付けしたアーティファクト誤差eartifとの和で除した値を真数とする対数関数で表現される。重みγは、アーティファクト誤差eartifの優先度を決める重み係数(ハイパーパラメータ)である。
Figure JPOXMLDOC01-appb-M000018
[学習装置]
 次に、実施の形態に係る学習装置について説明する。図3は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。
 実施の形態に係る学習装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、学習装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。
 図3に示すように、学習装置10は、音声強調部11及び更新部12を有する。学習装置10には、シングルチャネルで録音された学習用観測信号ytが入力される。学習装置10は、学習用観測信号ytの目的音源信号に対応する参照信号sを用いて、音声強調部11が使用するモデルの訓練を行う。
 音声強調部11は、シングルチャネルで録音された学習用観測信号ytの入力を受け付ける。音声強調部11は、話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号ytから、話者の音声を強調した強調信号^sを生成する。モデルは、例えば、ニューラルネットワークによって構成される。
 更新部12は、参照信号sと、モデルが学習用観測信号から生成した強調信号^sと、の類似度を算出する損失関数として、前述した損失関数L1、損失関数L1´または損失関数L2に基づいて、モデルのパラメータを更新する。
[学習処理]
 次に、学習装置10が実行する学習方法処理手順について説明する。図4は、実施の形態に係る学習方法の処理手順を示すフローチャートである。
 図4に示すように、学習装置10は、学習用観測信号ytの入力を受け付けると、音声強調部11が、入力された学習用観測信号ytから、話者の音声を強調した強調信号^sを生成する音声強調処理を行う(ステップS11)。
 そして、更新部12は、損失関数L1、損失関数L1´または損失関数L2に基づいて、モデルのパラメータを更新する(ステップS12)。学習装置10は、所定の終了条件を満たすか否かを判定する(ステップS13)。終了条件は、例えば、損失が所定の閾値以下となった場合、パラメータの更新回数が所定の回数に到達した場合、パラメータ更新量が所定の閾値以下となった場合などである。
 所定の終了条件を満たしていない場合(ステップS13:No)、学習装置10は、ステップS11に戻る。学習装置10は、音声強調処理とパラメータの更新処理とを所定の終了条件を満たすまで繰り返す。所定の終了条件を満たした場合(ステップS13:Yes)、学習装置10は、学習処理を終了する。学習装置10は、音声強調部11のモデル(モデルパラメータを含む)を、信号処理装置20(後述)に出力する。
[信号処理装置]
 次に、実施の形態に係る信号処理装置について説明する。図5は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。
 実施の形態に係る信号処理装置20は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、信号処理装置20は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。図5に示すように、信号処理装置20は、音声強調部21及び音声認識部22を有する。信号処理装置20には、シングルチャネルで録音された観測信号yが入力され、例えば、音信信号をテキストに変換した音声認識結果を出力する。
 音声強調部21は、シングルチャネルで録音され観測信号yの入力を受け付ける。音声強調部21は、観測信号yから、話者の音声を強調した強調信号^sを生成する。音声強調部21は、学習装置10が訓練したモデルを用いて、音声強調処理を行う。モデルは、前述した損失関数L1、損失関数L1´または損失関数L2に基づい得て、パラメータが更新されたモデルである。
 音声認識部22は、強調信号^sに対して、音声認識を行う。音声認識部22は、例えば、音信信号をテキストに変換した音声認識結果を出力する。音声認識部22は、例えば、学習済みの深層学習モデルを用いて、音声認識処理を行う。
[信号処理方法]
 次に、信号処理装置20が実行する信号処理方法について説明する。図6は、実施の形態に係る信号処理方法の処理手順を示すフローチャートである。
 図6に示すように、信号処理装置20は、観測信号yの入力を受け付けると、音声強調部21が、学習装置10が訓練したモデルを用いて、観測信号yから、話者の音声を強調した強調信号^sを生成する音声強調処理を行う(ステップS21)。音声認識部22は、強調信号^sに対して、音声認識処理を行い(ステップS22)、音声認識結果を出力する。
[実施の形態の効果]
 従来の音声強調部の学習では、強調音声における推定誤差が、アーティファクト誤差eartifと雑音誤差enoiseとを含むことを考慮することなく、推定誤差全体を小さくするような損失関数を用いていた。すなわち、従来の音声強調部の学習では、アーティファクト誤差eartifと雑音誤差enoiseとを等しく小さするように定義された損失関数を用いていた。
 例えば、従来の音声強調部の学習では、アーティファクト誤差eartifと雑音誤差enoiseとの違いを考慮せず、アーティファクト誤差eartifと雑音誤差enoiseとに対して等しく重み付けをした損失関数(例えば、式(11)、式(15)、式(16)参照)を用いていた。
 これに対し、本実施の形態では、強調信号^sと参照信号sとの類似度を取得する損失関数として、強調信号^sに含まれる雑音誤差enoiseとアーティファクト誤差eartifとのうち、アーティファクト誤差eartifを優先的に小さくするよう定義された損失関数L1、損失関数L1´または損失関数L2に基づい得て、音声強調部におけるモデルを訓練する。
 この損失関数L1、損失関数L1´または損失関数L2は、アーティファクト誤差eartifを重み付けすることで、雑音誤差enoiseとアーティファクト誤差eartifとのうち、アーティファクト誤差eartifを優先的に小さくするように学習を誘導する。
 実際に、信号処理装置20の音声認識精度を評価した。音声強調部21として、ニューラルネットワーク基盤の時間領域雑音除去ネットワーク(Denoising-TasNet)を採用した。音声認識部22として、Kaldiの標準的なレシピに基づくディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)ハイブリッドASR(Automatic Speech Recognition)システムを採用した。
 音声音源のWall Street Journal(WSJ0)コーパスと雑音音源のCHiME-3コーパスから残響雑音下音声信号のデータセットを生成し、訓練セット、開発セット及び評価セットとした。音声強調部21が使用するモデルは、学習装置10において、損失関数L2を用いて訓練されたものである。
 表1は、音声強調部21が生成した強調信号^sに対するSAR及びWERを示す表である。
Figure JPOXMLDOC01-appb-T000019
 表1では、損失関数L2を用いて訓練したモデルを用いて強調信号^sを生成した場合(本実施の形態)におけるSAR及びWERを示す。表1では、γが2.0及び3.0の場合について示す。なお、表1には、比較のため、γを1.0として訓練したモデル、すなわち、アーティファクト誤差eartifを重み付けせず訓練した従来手法に関するモデルを用いて強調信号を生成した場合におけるSAR及びWERを示す。
 表1に示すように、γを2.0及び3.0として、損失関数L2のアーティファクト誤差eartifを重み付けし、モデルを訓練することで、従来手法と比して、SAR値を上げることができた。したがって、実施の形態におけるモデルを用いることで、従来手法で訓練されたモデルと比して、強調信号^sに含まれるアーティファクト誤差eartifの比率を小さくすることができる。
 表1に示すように、γを2.0及び3.0として、損失関数L2のアーティファクト誤差eartifを重み付けし、モデルを訓練することで、従来手法で訓練されたモデルと比して、WERを向上させることができた。このように、実施の形態に係る学習装置10において訓練されたモデルを用いることで、従来手法で訓練されたモデルと比して、音声認識性能が向上することが実証された。
 このように、実施の形態では、損失関数L1、損失関数L1´または損失関数L2を採用して、音声強調部11,21のモデルを訓練することによって、アーティファクト誤差eartifの大きさをより重点的に小さくした強調信号を生成することができる。このため、実施の形態によれば、音声認識システムに入力される強調信号^sに含まれるアーティファクト誤差eartifを減らすことを可能とし、音声強調による音声認識性能の向上を図ることができる。
[実施の形態のシステム構成について]
 学習装置10及び信号処理装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、学習装置10及び信号処理装置20の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
 また、学習装置10及び信号処理装置20においておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、学習装置10及び信号処理装置20においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図7は、プログラムが実行されることにより、学習装置10及び信号処理装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10及び信号処理装置20の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10及び信号処理装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 10 学習装置
 11,21 音声強調部
 12 更新部
 20 信号処理装置
 22 音声認識部

Claims (8)

  1.  話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、
     前記学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、前記モデルのパラメータを更新する更新部と、
     を有することを特徴とする学習装置。
  2.  前記更新部は、前記損失関数として、前記雑音誤差を小さくするよう定義された第1の損失関数と、前記アーティファクト誤差を小さくするよう定義された第2の損失関数とを含み、前記第2の損失関数が重み付けされた損失関数を用いることを特徴とする請求項1に記載の学習装置。
  3.  前記更新部は、前記損失関数として、前記推定目標目的音源信号を、前記雑音誤差と、重み付けした前記アーティファクト誤差との和で除した値を真数とする対数関数で表現された損失関数を用いることを特徴とする請求項1に記載の学習装置。
  4.  前記学習用観測信号は、単一のマイクロホンで録音された音声信号であることを特徴とする請求項1に記載の学習装置。
  5.  話者の音声を強調した強調信号を生成するモデルを用いて、入力された観測信号から、話者の音声を強調した強調信号を生成する音声強調部と、
     前記強調信号に対して、音声認識を行う音声認識部と、
     を有し、
     前記モデルは、学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、パラメータが更新されたモデルであることを特徴とする信号処理装置。
  6.  前記観測信号及び前記学習用観測信号は、単一のマイクロホンで録音された音声信号であることを特徴とする請求項5に記載の信号処理装置。
  7.  学習装置が実行する学習方法であって、
     話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成する工程と、
     前記学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、前記モデルのパラメータを更新する工程と、
     を含んだことを特徴とする学習方法。
  8.  話者の音声を強調した強調信号を生成するモデルを用いて、入力された学習用観測信号から、話者の音声を強調した強調信号を生成するステップと、
     前記学習用観測信号の推定目標目的音源信号に対応する参照信号と、前記モデルが前記学習用観測信号から生成した強調信号と、の類似度を算出する損失関数として、前記強調信号に含まれる雑音誤差とアーティファクト誤差とのうち、前記アーティファクト誤差を優先的に小さくするよう定義された損失関数を用いて、前記モデルのパラメータを更新するステップと、
     をコンピュータに実行させるための学習プログラム。
PCT/JP2022/000149 2022-01-05 2022-01-05 学習装置、信号処理装置、学習方法及び学習プログラム WO2023132018A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000149 WO2023132018A1 (ja) 2022-01-05 2022-01-05 学習装置、信号処理装置、学習方法及び学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000149 WO2023132018A1 (ja) 2022-01-05 2022-01-05 学習装置、信号処理装置、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
WO2023132018A1 true WO2023132018A1 (ja) 2023-07-13

Family

ID=87073479

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000149 WO2023132018A1 (ja) 2022-01-05 2022-01-05 学習装置、信号処理装置、学習方法及び学習プログラム

Country Status (1)

Country Link
WO (1) WO2023132018A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020012980A (ja) * 2018-07-18 2020-01-23 沖電気工業株式会社 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
JP2021507312A (ja) * 2018-04-13 2021-02-22 三菱電機株式会社 音声認識システム及び音声認識システムを用いる方法
JP2021086154A (ja) * 2019-11-25 2021-06-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20210343305A1 (en) * 2020-04-30 2021-11-04 Adobe Inc. Using a predictive model to automatically enhance audio having various audio quality issues
WO2021229643A1 (ja) * 2020-05-11 2021-11-18 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021507312A (ja) * 2018-04-13 2021-02-22 三菱電機株式会社 音声認識システム及び音声認識システムを用いる方法
JP2020012980A (ja) * 2018-07-18 2020-01-23 沖電気工業株式会社 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
JP2021086154A (ja) * 2019-11-25 2021-06-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
US20210343305A1 (en) * 2020-04-30 2021-11-04 Adobe Inc. Using a predictive model to automatically enhance audio having various audio quality issues
WO2021229643A1 (ja) * 2020-05-11 2021-11-18 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Similar Documents

Publication Publication Date Title
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
JPWO2007100137A1 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
JP2008058900A (ja) 残響除去における低コストのフィルタ係数決定法
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
Elshamy et al. Instantaneous a priori SNR estimation by cepstral excitation manipulation
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
Tran et al. Nonparametric uncertainty estimation and propagation for noise robust ASR
CN104637493A (zh) 改进噪声抑制性能的语音概率存在修改器
CN114121029A (zh) 语音增强模型的训练方法和装置以及语音增强方法和装置
CN104637490A (zh) 基于mmse语音概率存在的准确正向snr估计
CN101322183B (zh) 信号失真消除装置、方法
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
BR112014009647B1 (pt) Aparelho de atenuação do ruído e método de atenuação do ruído
WO2023132018A1 (ja) 学習装置、信号処理装置、学習方法及び学習プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
WO2023100374A1 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
Nisa et al. The speech signal enhancement approach with multiple sub-frames analysis for complex magnitude and phase spectrum recompense
JP2011164335A (ja) 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム
CN116935879A (zh) 一种基于深度学习的两阶段网络降噪和去混响方法
CN113571076A (zh) 信号处理方法、装置、电子设备和存储介质
JP7159928B2 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
WO2023209993A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法、信号処理プログラム及び学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22918607

Country of ref document: EP

Kind code of ref document: A1