WO2020071351A1 - 信号分離装置、信号分離方法、及びプログラム - Google Patents

信号分離装置、信号分離方法、及びプログラム

Info

Publication number
WO2020071351A1
WO2020071351A1 PCT/JP2019/038714 JP2019038714W WO2020071351A1 WO 2020071351 A1 WO2020071351 A1 WO 2020071351A1 JP 2019038714 W JP2019038714 W JP 2019038714W WO 2020071351 A1 WO2020071351 A1 WO 2020071351A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
separation
database
separation matrix
power spectrum
Prior art date
Application number
PCT/JP2019/038714
Other languages
English (en)
French (fr)
Inventor
澤田 宏
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/276,256 priority Critical patent/US11922966B2/en
Publication of WO2020071351A1 publication Critical patent/WO2020071351A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Definitions

  • the present invention belongs to the technical field of signal processing.
  • the present invention relates to a technology of blind signal separation for accurately extracting a target source signal from a mixed signal observed by a plurality of sensors in a situation where there is no information on how the source signals are mixed.
  • the type of the signal is not particularly limited, and is, for example, a voice, a wireless signal, or the like.
  • Kitamura Daichi, et al. DeterminedDeblind source separation unifying independent vector analysis nonnegative matrix factorization. '' IEEE / ACM Transactions on Audio, Speech and Language Processing (TASLP) 24.9TAS (2016)
  • Independent vector analysis and independent low rank matrix analysis are effective if there is an observation signal of sufficient time (for example, about 6 seconds or more), but if the length of the observation signal is short, statistical information for each source signal is obtained. May not learn enough and may not work effectively.
  • the present invention has been made in view of the above points, and has as its object to provide a technique for effectively achieving signal separation even for a short observation signal.
  • a signal separation device for acquiring a source signal from a mixed signal observed by a plurality of sensors, A database for storing characteristic information of the clean signal; A parameter used as an objective function for optimizing the separation matrix based on the separation signal obtained by multiplying the mixed signal converted into the time-frequency expression by the separation matrix and the feature information stored in the database.
  • a separation matrix calculation unit that repeatedly executes a process of calculating a separation matrix for minimizing the objective function using the parameter, Output means for outputting a separation signal calculated using the optimized separation matrix obtained by the separation matrix calculation means.
  • signal separation can be effectively achieved even for a short observation signal of, for example, about 0.5 to 1 second.
  • FIG. 2 is a functional configuration diagram of the signal separation device according to the embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of a signal separation device.
  • 6 is a flowchart illustrating an operation procedure of the signal separation device.
  • the type of signal to be subjected to signal separation is not particularly limited, and may be any signal.
  • an audio signal, a radio signal, and the like are targeted.
  • FIG. 1 is a functional configuration diagram of a signal separation device 100 according to an embodiment of the present invention.
  • the signal separating apparatus 100 includes a frequency domain transforming section 110, a linear transforming section 120, a matrix optimizing section 130, a variance calculating section 140, a time domain transforming section 150, and a database 160.
  • a frequency domain transforming section 110 includes a frequency domain transforming section 110, a linear transforming section 120, a matrix optimizing section 130, a variance calculating section 140, a time domain transforming section 150, and a database 160.
  • the database 160 and other functional units may be physically separated from each other, and may be connected via a network. Further, the configuration may be such that the database 160 is provided outside the signal separation device 100.
  • a part including the linear conversion unit 120, the matrix optimization unit 130, and the variance calculation unit 140 may be referred to as a separation matrix calculation unit. The detailed operation of each functional unit will be described later.
  • the signal separation device 100 can be realized by executing a program corresponding to processing performed by the signal separation device 100 using hardware resources such as a CPU and a memory built in the computer.
  • the above-mentioned program can be recorded on a computer-readable recording medium (a portable memory or the like) and can be stored or distributed. Further, the above program can be provided through a network such as the Internet or electronic mail.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of the computer.
  • the computer in FIG. 2 includes a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, and the like, which are interconnected by a bus B.
  • the program for realizing the processing in the computer is provided by a recording medium 1001 such as a CD-ROM or a memory card.
  • a recording medium 1001 such as a CD-ROM or a memory card.
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000.
  • the program need not always be installed from the recording medium 1001, and may be downloaded from another computer via a network.
  • the auxiliary storage device 1002 stores installed programs and also stores necessary files and data.
  • the memory device 1003 reads the program from the auxiliary storage device 1002 and stores it when there is an instruction to start the program.
  • the CPU 1004 implements functions related to the signal separation device 100 according to a program stored in the memory device 1003.
  • the interface device 1005 is used as an interface for connecting to a network, and functions as an input unit and an output unit via the network.
  • the display device 1006 displays a GUI (Graphical User Interface) or the like by a program.
  • the display device 1006 is also an example of an output unit.
  • the input device 1007 includes a keyboard, a mouse, buttons, a touch panel, and the like, and is used to input various operation instructions.
  • the database 160 is a large-scale database device that expresses characteristics of a source signal, and stores characteristic information of unmixed clean signals. For example, when performing signal separation for audio, a large amount of features of clean audio are stored in the database 160 in advance.
  • the target source signal does not need to exist in the database 160, and another signal having similar frequency characteristics may exist in the database 160.
  • the result of converting each into a time-frequency expression is represented by s ijl .
  • i 1,.
  • the data set is used as an entry of the database 160.
  • v ijn s i * .
  • Termination condition for example, it has reached the number of times the number of repetitions predetermined, or the value of W i converges (eg variation in over W i on the number of times is equal to or less than a minute value) is at.
  • Wi is an N ⁇ M matrix.
  • the variance calculation unit 140 performs a neighborhood search on the database 160, and calculates a variance parameter v ijn used in Expression (3) representing an objective function (negative log likelihood).
  • Steps S103 to S105 are repeated, and if the determination in S106 is Yes, in S107, the time domain transform unit 150 performs an inverse transform of the short-time Fourier transform on y ij obtained from the optimized separation matrix W i. By doing so, a separated signal (source signal) in the time domain is output.
  • the signal separating apparatus 100 may output y ij itself obtained in W i where the determination in S106 becomes Yes as the separation signal.
  • the variance calculation unit 140 executes the following processing for each signal n and time j.
  • neighborhood search is performed using the Itakura-Saito divergence as a reference.
  • v ijn ⁇ [s * ] i
  • [S * ] i is an element of the frequency i of the vector s * .
  • the matrix optimizing unit 130 calculates a matrix for each frequency (mixed system) i
  • a signal separation device for acquiring a source signal from a mixed signal observed by a plurality of sensors, a database storing characteristic information of a clean signal, and a time frequency Based on the separated signal obtained by multiplying the mixed signal converted into the expression by the separating matrix and the feature information stored in the database, calculate a parameter used for an objective function for optimizing the separating matrix.
  • a separating matrix calculating unit that repeatedly executes a process of calculating a separating matrix for minimizing the objective function using the parameter, and an optimized separating matrix obtained by the separating matrix calculating unit.
  • Output means for outputting the calculated separated signal.
  • the characteristic information stored in the database is, for example, a power spectrum of the clean signal for each discrete time.
  • the separation matrix calculation unit searches the database to identify a power spectrum of a clean signal that is closest to a power spectrum of the separated signal at each discrete time, and determines an element of the power spectrum of the identified clean signal.
  • the parameter may be set using the parameter.
  • Reference Signs List 100 signal separation device 110 frequency domain conversion unit 120 linear conversion unit 130 matrix optimization unit 140 dispersion calculation unit 150 time domain conversion unit 160 database 1000 drive device 1001 recording medium 1002 auxiliary storage device 1003 memory device 1004 CPU 1005 Interface device 1006 Display device 1007 Input device

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

複数のセンサで観測された混合信号から源信号を取得するための信号分離装置において、クリーン信号の特徴情報を格納するデータベースと、時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段とを備える。

Description

信号分離装置、信号分離方法、及びプログラム
 本発明は、信号処理の技術分野に属する。特に、源信号がどのように混合したかという情報が無い状況で、複数のセンサで観測される混合信号から、目的となる源信号を精度良く取り出すブラインド信号分離の技術に関する。信号の種類は特に問わないが、例えば、音声、無線信号などである。
 まず、従来の信号分離方法について説明する。
 j=1,...,Jで離散時間、i=1,...,Iで離散周波数を表す。各時間周波数(i,j)毎にM個のセンサで観測信号xijm,m=1,...,Mを得るものとする。M個をまとめてベクトル表現xij=[xij1,...,xijMする。信号分離の目的は、観測信号のみから周波数i毎にN×Mの分離行列Wを求め、できるだけ源信号に近い分離信号yijn=[yij,n=1,...,Nを
         yij=Wij        (1)
により計算することである。
 分離信号yijnが複素数の時変ガウス分布に従うと仮定すると、確率密度関数は
Figure JPOXMLDOC01-appb-M000001
となり、負の対数尤度
Figure JPOXMLDOC01-appb-M000002
を目的関数とし、これを最小化するものとして分離行列を求める方法が知られている。しかし、すべての時間j、周波数i、信号nについて分散vijnをパラメータとするこの方法は自由度が高すぎて、各周波数で分離信号の順序が入れ替わる可能性がある。すなわち、いわゆるパーミュテーション問題が起こる可能性がある。
 その問題を解決する従来法として時変ガウス分布に基づく独立ベクトル分析(IVA: Independent Vector Analysis)が知られている。ここでは、下記の式(4)に示されるように、分散パラメータvjnを、時間jと信号nのみに依存し、周波数iには依存しないものとする。
Figure JPOXMLDOC01-appb-M000003
 本従来法では、周波数に関わらず同じ分散パラメータを持つため、音声など低周波数に大きな分散を持ち高周波数では小さな分散となるような特徴を正しく反映しているとは言い難い。
 そこで、下記の式(5)に示すように、この分散を低ランク行列で表現する独立低ランク行列分析(ILRMA:Independent Low-Rank Matrix Analysis)が後に提案された(非特許文献1参照)。
Figure JPOXMLDOC01-appb-M000004
ここで低ランク行列は信号n毎に推定され、それぞれI×Jの大きさで要素Σ k=1iknjknを持ち、Kが行列のランクとなる。
Kitamura Daichi, et al. "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization." IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 24.9 (2016): 1622-1637.
 独立ベクトル分析及び独立低ランク行列分析は、十分な時間の観測信号(例えば6秒程度以上)があれば効果的であるが、観測信号の長さが短いと、源信号毎の統計的な情報を十分学習することが出来ず、効果的に動作しないことがある。
 本発明は上記の点に鑑みてなされたものであり、短い観測信号に対しても効果的に信号分離を達成する技術を提供することを目的とする。
 開示の技術によれば、複数のセンサで観測された混合信号から源信号を取得するための信号分離装置であって、
 クリーン信号の特徴情報を格納するデータベースと、
 時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、
 前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段と
 を備える信号分離装置が提供される。
 開示の技術によれば、例えば0.5秒から1秒程度の短い観測信号に対しても効果的に信号分離を達成することが可能となる。
本発明の実施の形態における信号分離装置の機能構成図である。 信号分離装置のハードウェア構成例を示す図である。 信号分離装置の動作手順を示すフローチャートである。
 以下、図面を参照して本発明の実施の形態を説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施の形態に限られるわけではない。また、以下で信号分離の対象とする信号の種類には特に限定はなく、どのような信号でもよいが、例えば音声信号、無線信号などが対象とされる。
 (装置構成例)
 図1は、本発明の実施の形態における信号分離装置100の機能構成図である。図1に示すように、本実施の形態における信号分離装置100は、周波数領域変換部110、線形変換部120、行列最適化部130、分散計算部140、時間領域変換部150、及びデータベース160を有する。
 なお、データベース160とその他の機能部とが物理的に離れていて、これらがネットワークで接続される構成であってもよい。また、データベース160が信号分離装置100の外部に備えられる構成であってもよい。また、線形変換部120、行列最適化部130、分散計算部140からなる部分を分離行列算出手段と称してもよい。各機能部の詳細動作等については後述する。
 信号分離装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、信号分離装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図2は、上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、信号分離装置100に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられ、ネットワークを介した入力手段及び出力手段として機能する。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。表示装置1006は出力手段の例でもある。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
 以下、信号分離装置100の動作等について詳細に説明する。
 (データベース160について)
 まず、本発明に係る技術のポイントとなるデータベース160について説明する。データベース160は、源信号の特徴を表現する大規模なデータベース装置であり、混合されていないクリーンな信号の特徴情報が格納される。例えば音声を対象とした信号分離の際には、大量のクリーン音声の特徴が予めデータベース160に格納される。
 実際に本発明に係る技術により信号分離を行う際に対象となる源信号がデータベース160に存在する必要はなく、似たような周波数特徴を持つ別の信号がデータベース160に存在すれば良い。
 データベース160が格納対象とする信号がL個の信号l=1,...,Lであるとする。それぞれを時間周波数表現に変換した結果をsijlで表現する。また、j=1,...,Jで離散時間、i=1,...,Iで離散周波数を表す。この時間周波数表現を自乗してパワースペクトルとし、すべての周波数をまとめてベクトル表現
  sjl=[|s1jl,...,|sIjl      (6)
にしたものをデータベース160のエントリとする。このエントリがデータベース160にはΣ l=1個格納されることになる。つまり、各信号の離散時間数は、Jであり、そのL個分の合計のエントリ数になる。
 信号分離装置100が、式(3)で表現される負の対数尤度を最小化するにあたり、分散vijnを自由なパラメータとして設定するのではなく、データベース160のΣ l=1個のエントリから適切なものを1つ選び出して設定する。すなわち、現状の分離信号のパワースペクトルrjn=[|y1jn,...,|yIjnになるべく近いデータベース160のエントリsを特定し、そのベクトルの要素を分散パラメータに設定する。つまり、例えばvijn=si*とする。
 なお、クリーンな信号の量や長さが増えるに従いデータベース160のエントリ数が増加することは、分散パラメータを精度良く推定できる利点があるが、なるべく近いエントリを特定するための処理時間が増大するという問題が起こる。その問題を解決するために本実施の形態では高速類似探索技術を用いる。
 (信号分離装置100の動作)
 以下、図1に示す構成を備える信号分離装置100の動作を、図3に示すフローチャートの手順に沿って説明する。以下で説明する"S101"などは、図3のフローチャートのステップを示す。以下の説明において、j=1,...,Jで離散時間、i=1,...,Iで離散周波数を表す。
 まず、S101において、線形変換部120と行列最適化部130が共有する行列W,i=1,...,Iを、単位行列として初期化する。
 M個のセンサにおける時間領域の観測信号が信号分離装置100に入力されると、S102において、周波数領域変換部110は、短時間フーリエ変換により観測信号を時間周波数表現xij,i=1,...,I,j=1,...,Jに変換する。
 その後、下記で説明するS103~S105に処理を、終了条件を満足するまで(S106がYesとなるまで)繰り返す。終了条件は、例えば、繰り返し回数が予め定めた回数に達したこと、あるいは、Wの値が収束する(例:数回に渡りWの変化量が微小値以下となる)ことである。なお、前述したとおり、WはN×Mの行列である。
 S103において、線形変換部120は、式(1)に従って時間周波数表現yij,i=1,...,I,j=1,...,Jを計算する。
 続いて、S104において、分散計算部140が、データベース160に対して近傍探索を行い、目的関数(負の対数尤度)を表す式(3)で用いる分散パラメータvijnを計算する。
 S105において、行列最適化部130は、式(3)を最小化するための分離行列W,i=1,...,Iを計算する。
 S103~S105が繰り返され、S106の判定がYesになると、S107において、時間領域変換部150は、最適化された分離行列Wから得られたyijに対して短時間フーリエ変換の逆変換を行うことにより、時間領域の分離信号(源信号)を出力する。なお、信号分離装置100は、S106の判定がYesになるWで得られたyijそのものを分離信号として出力することとしてもよい。
 以下、分散計算部140と行列最適化部130の詳細を説明する。
 [分散計算部140]
 分散計算部140は、信号n及び時間j毎に下記の処理を実行する。本実施の形態では板倉斎藤擬距離(Itakura-Saito divergence)を基準として用いて近傍探索を行う。
 2つのI次元ベクトルr=[r,...,rとs=[s,...,sの板倉斎藤擬距離を
Figure JPOXMLDOC01-appb-M000005
と定義する。現状の分離信号のパワースペクトル(ベクトル)rjnに対してスケールの自由度αを考慮した上で最も近傍となるデータベースのエントリのベクトルs
   s=argminj,lIS(rjn,αsjl
として探索する。なお、DIS(r,αs)を最小化するαは
Figure JPOXMLDOC01-appb-M000006
として求まる。そして、分散vijn
    vijn=α[s
と設定する。[sは、ベクトルsの周波数iの要素である。
 [行列最適化部130]
 行列最適化部130は、周波数(混合系)i毎に行列
Figure JPOXMLDOC01-appb-M000007
を下記の手順で更新する。まず、観測信号の相関行列の重み付き平均
Figure JPOXMLDOC01-appb-M000008
をすべての信号n=1,...,Nに関して計算する。これらN個の行列Uinをハイブリッド同時対角化(HEAD:Hybrid Exact-Approximate Joint Diagonalization)する行列としてWを更新する。その方法の例として、下記の式(9)、式(10)を計算する方法がある。すなわち、
Figure JPOXMLDOC01-appb-M000009
を計算し(ここでeはn番目の要素のみが1でそれ以外がすべて0であるベクトル)、スケールを
Figure JPOXMLDOC01-appb-M000010
により正規化する。なお、本実施の形態に記載したHEADを用いる方法以外にも、目的関数である式(3)のWに関する微分
Figure JPOXMLDOC01-appb-M000011
を計算して行う勾配降下法や、式(11)にW を右からかけたものを用いる自然勾配法を用いて最適化することも可能である。また、これら以外の方法でWを最適化することとしてもよい。
 (実施の形態の効果)
 本実施の形態に係る技術では、目的関数において用いるパラメータvijnの取得のために離散時間毎にデータベース160のエントリを特定すればよいので、統計的な情報を学習する必要がない。従って、例えば0.5秒から1秒程度の短い観測信号に対しても効果的に信号分離を達成することができる。
 (実施の形態のまとめ)
 以上、説明したように、本実施の形態により、複数のセンサで観測された混合信号から源信号を取得するための信号分離装置であって、クリーン信号の特徴情報を格納するデータベースと、時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段とを備える信号分離装置が提供される。
 前記データベースに格納された特徴情報は、例えば、前記クリーン信号の離散時間毎のパワースペクトルである。
 前記分離行列算出手段は、前記データベースを探索することにより、離散時間毎に分離信号のパワースペクトルに対して最も近傍となるクリーン信号のパワースペクトルを特定し、特定したクリーン信号のパワースペクトルの要素を用いて前記パラメータを設定することとしてもよい。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 信号分離装置
110 周波数領域変換部
120 線形変換部
130 行列最適化部
140 分散計算部
150 時間領域変換部
160 データベース
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インターフェース装置
1006 表示装置
1007 入力装置

Claims (7)

  1.  複数のセンサで観測された混合信号から源信号を取得するための信号分離装置であって、
     クリーン信号の特徴情報を格納するデータベースと、
     時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出手段と、
     前記分離行列算出手段により得られた最適化された分離行列を用いて算出された分離信号を出力する出力手段と
     を備える信号分離装置。
  2.  前記データベースに格納された特徴情報は、前記クリーン信号の離散時間毎のパワースペクトルである
     請求項1に記載の信号分離装置。
  3.  前記分離行列算出手段は、前記データベースを探索することにより、離散時間毎に分離信号のパワースペクトルに対して最も近傍となるクリーン信号のパワースペクトルを特定し、特定したクリーン信号のパワースペクトルの要素を用いて前記パラメータを設定する
     請求項2に記載の信号分離装置。
  4.  複数のセンサで観測された混合信号から源信号を取得するための信号分離装置が実行する信号分離方法であって、
     前記信号分離装置は、クリーン信号の特徴情報を格納するデータベースを備えており、
     時間周波数表現に変換された混合信号に分離行列を乗算することにより得られた分離信号と、前記データベースに格納された特徴情報とに基づいて、分離行列を最適化するための目的関数に用いるパラメータを算出し、当該パラメータを用いた当該目的関数を最小化するための分離行列を算出する処理を繰り返し実行する分離行列算出ステップと、
     前記分離行列算出ステップにより得られた最適化された分離行列を用いて算出された分離信号を出力する出力ステップと
     を備える信号分離方法。
  5.  前記データベースに格納された特徴情報は、前記クリーン信号の離散時間毎のパワースペクトルである
     請求項4に記載の信号分離方法。
  6.  前記分離行列算出ステップにおいて、前記信号分離装置は、前記データベースを探索することにより、離散時間毎に分離信号のパワースペクトルに対して最も近傍となるクリーン信号のパワースペクトルを特定し、特定したクリーン信号のパワースペクトルの要素を用いて前記パラメータを設定する
     請求項5に記載の信号分離方法。
  7.  コンピュータを、請求項1ないし3のうちいずれか1項に記載の信号分離装置における各手段として機能させるためのプログラム。
PCT/JP2019/038714 2018-10-03 2019-10-01 信号分離装置、信号分離方法、及びプログラム WO2020071351A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/276,256 US11922966B2 (en) 2018-10-03 2019-10-01 Signal separation apparatus, signal separation method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-188392 2018-10-03
JP2018188392A JP2020056939A (ja) 2018-10-03 2018-10-03 信号分離装置、信号分離方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2020071351A1 true WO2020071351A1 (ja) 2020-04-09

Family

ID=70055542

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/038714 WO2020071351A1 (ja) 2018-10-03 2019-10-01 信号分離装置、信号分離方法、及びプログラム

Country Status (3)

Country Link
US (1) US11922966B2 (ja)
JP (1) JP2020056939A (ja)
WO (1) WO2020071351A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045221A (ja) * 2014-08-19 2016-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP2017520784A (ja) * 2014-05-15 2017-07-27 トムソン ライセンシングThomson Licensing オンザフライの音源分離の方法及びシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4791654A (en) * 1987-06-05 1988-12-13 American Telephone And Telegraph Company, At&T Bell Laboratories Resisting the effects of channel noise in digital transmission of information
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
CN103124245B (zh) * 2012-12-26 2016-08-10 燕山大学 基于峭度的变步长自适应盲源分离方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017520784A (ja) * 2014-05-15 2017-07-27 トムソン ライセンシングThomson Licensing オンザフライの音源分離の方法及びシステム
JP2016045221A (ja) * 2014-08-19 2016-04-04 日本電信電話株式会社 信号解析装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2020056939A (ja) 2020-04-09
US11922966B2 (en) 2024-03-05
US20220028408A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
EP3166105B1 (en) Neural network training apparatus and method
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
US10762901B2 (en) Artificial intelligence based method and apparatus for classifying voice-recognized text
WO2021000408A1 (zh) 面试评分方法、装置、设备及存储介质
US9437208B2 (en) General sound decomposition models
US20140201630A1 (en) Sound Decomposition Techniques and User Interfaces
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US11183180B2 (en) Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise
KR20220064940A (ko) 음성 생성 방법, 장치, 전자기기 및 저장매체
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
US20200395037A1 (en) Mask estimation apparatus, model learning apparatus, sound source separation apparatus, mask estimation method, model learning method, sound source separation method, and program
CN111061877A (zh) 文本主题提取方法和装置
JP6923089B2 (ja) 情報処理装置、方法およびプログラム
US11977602B2 (en) Domain generalized margin via meta-learning for deep face recognition
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
CN112116922B (zh) 一种噪声盲源信号分离方法、终端设备及存储介质
WO2020071351A1 (ja) 信号分離装置、信号分離方法、及びプログラム
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
KR20190080437A (ko) 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP2019074621A (ja) 信号分離装置、信号分離方法及びプログラム
JP2007317132A (ja) 概念ベクトル推定方法及び装置及びプログラム
CN114171043A (zh) 回声的确定方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19869344

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19869344

Country of ref document: EP

Kind code of ref document: A1