WO2022130445A1 - 音源信号生成装置、音源信号生成方法、プログラム - Google Patents
音源信号生成装置、音源信号生成方法、プログラム Download PDFInfo
- Publication number
- WO2022130445A1 WO2022130445A1 PCT/JP2020/046508 JP2020046508W WO2022130445A1 WO 2022130445 A1 WO2022130445 A1 WO 2022130445A1 JP 2020046508 W JP2020046508 W JP 2020046508W WO 2022130445 A1 WO2022130445 A1 WO 2022130445A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sound source
- separation filter
- source signal
- separation
- matrix
- Prior art date
Links
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims description 25
- 238000000926 separation method Methods 0.000 claims abstract description 107
- 230000006870 function Effects 0.000 claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000005457 optimization Methods 0.000 claims abstract description 31
- 238000012546 transfer Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 26
- 238000000605 extraction Methods 0.000 abstract description 21
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Definitions
- the present invention relates to a technique for extracting a signal from each sound source included in a mixed acoustic signal observed using a plurality of microphones.
- the sound source extraction technology that estimates the signal from each sound source before mixing from the mixed acoustic signal observed using multiple microphones (hereinafter, also simply referred to as the observation signal) is widely used for preprocessing such as voice recognition.
- a sound source extraction technique for example, an independent vector extraction (IVE: Independent Vector Extraction) described in Non-Patent Document 1 is known.
- the conventional independent vector extraction has a problem that the processing time required for sound source extraction increases as the number of microphones increases.
- an object of the present invention is to provide a sound source signal generation technique based on an optimization algorithm that enables high-speed processing of sound source extraction.
- T is an index representing a time frame) is an observation signal of mixed sounds from K sound sources observed using M microphones
- Uses the noise signal separation filter) as the separation matrix, V i (f) (i 1,..., K) as the auxiliary function of the noise signal separation filter)
- the initialization part that initializes the matrix W (f) and the auxiliary function V Z (f), and the optimization part that optimizes the separation matrix W (f) using the observation signal x (f, t), and the separation.
- a sound source signal generator including a sound source signal generator that generates an i-th sound source signal x i (f, t) from an observed signal x (f, t) using a matrix W (f), wherein the optimization
- ⁇ (Caret) represents a superscript.
- x y ⁇ z means that y z is a superscript for x
- x y ⁇ z means that y z is a subscript for x
- _ (underscore) represents a subscript.
- x y_z means that y z is a superscript for x
- x y_z means that y z is a subscript for x.
- C be a set of complex numbers, d, d'be an integer of 1 or more, I d ⁇ C d ⁇ d be a d-dimensional identity matrix, and O d, d' ⁇ C d ⁇ d' be a d ⁇ d'zero matrix. show. Also, e j (d) represents a d-dimensional unit vector in which the jth element is 1 and the other elements are 0.
- v T and A T represent the transposed vector of vector v and the transposed matrix of matrix A, respectively.
- v h and A h represent the complex conjugate transpose vector of the vector v and the complex conjugate transpose matrix of the matrix A, respectively.
- a z (f) ⁇ C M ⁇ (MK) is the noise M. It is an acoustic transfer function up to several microphones.
- BSE problem The blind sound source extraction problem (hereinafter referred to as BSE problem) and the semi-blind sound source extraction problem (hereinafter referred to as Semi-BSE problem) are formulated as follows.
- the matrix A (f) ⁇ C M ⁇ M is defined by the following equation.
- W Z (f) ⁇ C M ⁇ (MK) is the separation filter for the noise signal
- the matrix W. (f) is called a separation matrix.
- (Assumption 2) Random variables ⁇ s i (t), z (f, t) ⁇ i, f, t are assumed to be independent of each other. That is, it is assumed that the following equation holds.
- (Assumption 3) It is assumed that the vector s i (t) follows a circularly symmetric super Gaussian distribution. That is, it is assumed that the following equation holds.
- G (r) is a differentialable function from a set R ⁇ 0 of real numbers greater than or equal to 0 to a set R of real numbers, and the function G'(r) / r (G'represents a differential function of G). Suppose that is non-increasing with respect to r> 0.
- Algorithm 1 can be broadly divided into initialization processing, optimization processing, and sound source extraction processing. In the optimization process, any one of algorithm 2, algorithm 3, and algorithm 4 is used.
- W (f) instead of optimizing the separation matrix W (f), only the separation filter w 1 (f) corresponding to the first sound source is optimized to realize high-speed sound source extraction.
- Algorithm 3 is for solving the BSE problem when K> 1.
- W (f) instead of optimizing the separation matrix W (f), only the separation filters w 1 (f),..., w K (f) corresponding to K sound sources are optimized for high-speed sound source extraction. Has been realized.
- Algorithm 4 is for solving the Semi-BSE problem.
- the separation filters w 1 (f),..., w L (f) for L sound sources with known acoustic transfer functions the LCMV (Linear Constrained Minimum Variance) beamformer optimization algorithm is used, while
- the separation filters w L + 1 (f),..., w K (f) corresponding to the remaining KL sound sources high-speed sound source extraction can be achieved by optimizing in the same way as Algorithm 2 or Algorithm 3. It has been realized.
- ⁇ is a predetermined constant
- --W (f) [ --w L + 1 (f),... , --w K (f), --W Z (f)] (however , --w i (f) ⁇ C (ML)
- i L + 1,..., K) be the separation filter for the i-th sound source signal
- --W Z (f) ⁇ C (ML) ⁇ (MK) be the noise signal separation filter).
- K and M are integers that satisfy 1 ⁇ K ⁇ M.
- FIG. 1 is a block diagram showing a configuration of a sound source signal generation device 100.
- FIG. 2 is a flowchart showing the operation of the sound source signal generation device 100.
- the sound source signal generation device 100 includes an initialization unit 110, an optimization unit 120, a sound source signal generation unit 130, and a recording unit 190.
- the recording unit 190 is a component unit that appropriately records information necessary for processing of the sound source signal generation device 100.
- the initialization unit 110 initializes the separation matrix W (f) and the auxiliary function V Z (f) and outputs them.
- the separation matrix W (f) and the auxiliary function V Z (f) may be initialized, for example, by the processes 1 to 5 of Algorithm 1 described in ⁇ Technical Background>.
- the optimization unit 120 takes the observation signal x (f, t) as an input, optimizes the separation matrix W (f) using the observation signal x (f, t), and outputs it.
- FIG. 3 is a block diagram showing the configuration of the optimization unit 120.
- FIG. 4 is a flowchart showing the operation of the optimization unit 120.
- the optimization unit 120 includes an auxiliary function calculation unit 121, a first separation filter calculation unit 122, a convergence condition determination unit 123, and a second separation filter calculation unit 124.
- the auxiliary function calculation unit 121 may further perform processing for stabilizing the numerical calculation as described in the algorithm 1.
- I MK is the (MK) dimension unit matrix
- K 1, the separation filter w 1 (f) is calculated by the following equation.
- a condition can be used as to whether or not the value is below (or less than) the threshold value.
- the sound source signal generation unit 130 takes the observation signal x (f, t) and the separation matrix W (f) output in S120 as inputs, and uses the separation matrix W (f) to observe the observation signal x (f).
- the i-th sound source signal x i (f, t) is generated from, t) and output.
- the i-th sound source signal x i (f, t) may be calculated by, for example, the following equation. According to the embodiment of the present invention, the sound source extraction process can be executed at high speed.
- K and M are integers that satisfy 1 ⁇ K ⁇ M.
- L is an integer that satisfies 1 ⁇ L ⁇ K
- a 1 (f) [ a 1 (f),..., a L (f)].
- FIG. 1 is a block diagram showing a configuration of a sound source signal generation device 200.
- FIG. 2 is a flowchart showing the operation of the sound source signal generation device 200.
- the sound source signal generation device 200 includes an initialization unit 210, an optimization unit 220, a sound source signal generation unit 130, and a recording unit 190.
- the recording unit 190 is a component unit that appropriately records information necessary for processing of the sound source signal generation device 200.
- the initialization unit 210 initializes the separation matrix W (f) and the auxiliary function V Z (f) and outputs them.
- the separation matrix W (f) and the auxiliary function V Z (f) may be initialized, for example, by processing 1 to 2 and 6 to 10 of algorithm 1 described in ⁇ Technical background>.
- the optimization unit 220 takes the observation signal x (f, t) as an input, optimizes the separation matrix W (f) using the observation signal x (f, t), and outputs it.
- FIG. 3 is a block diagram showing the configuration of the optimization unit 220.
- FIG. 4 is a flowchart showing the operation of the optimization unit 220.
- the optimization unit 220 includes an auxiliary function calculation unit 121, a first separation filter calculation unit 222, a convergence condition determination unit 123, and a second separation filter calculation unit 224.
- the auxiliary function calculation unit 121 may calculate using the formula used by the auxiliary function calculation unit 121 of the first embodiment.
- I MK is the (MK) identity matrix
- the sound source signal generation unit 130 takes the observation signal x (f, t) and the separation matrix W (f) output in S120 as inputs, and uses the separation matrix W (f) to observe the observation signal x (f).
- the i-th sound source signal x i (f, t) is generated from, t) and output.
- the sound source extraction process can be executed at high speed.
- FIG. 5 is a diagram showing an example of a functional configuration of a computer 2000 that realizes each of the above-mentioned devices.
- the processing in each of the above-mentioned devices can be carried out by having the recording unit 2020 read a program for making the computer 2000 function as each of the above-mentioned devices, and operating the control unit 2010, the input unit 2030, the output unit 2040, and the like.
- the device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
- Communication unit CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these.
- CPU, RAM, ROM has a bus connecting so that data can be exchanged between external storage devices.
- a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity.
- a physical entity equipped with such hardware resources there is a general-purpose computer or the like.
- the external storage device of the hardware entity stores a program required to realize the above-mentioned functions and data required for processing of this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
- each program stored in the external storage device (or ROM, etc.) and the data required for processing of each program are read into the memory as needed, and are appropriately interpreted and executed and processed by the CPU. ..
- the CPU realizes a predetermined function (each component represented by the above, ... section, ... means, etc.).
- the present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually depending on the processing capacity of the device that executes the processes or if necessary. ..
- the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by the computer, the processing content of the function that the hardware entity should have is described by the program. Then, by executing this program on the computer, the processing function in the above hardware entity is realized on the computer.
- the program that describes this processing content can be recorded on a computer-readable recording medium.
- the recording medium that can be read by a computer may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
- a hard disk device, a flexible disk, a magnetic tape, etc. as a magnetic recording device
- a DVD DigitalVersatileDisc
- DVD-RAM RandomAccessMemory
- CD-ROM CompactDiscReadOnly
- Memory CD-R (Recordable) / RW (ReWritable), etc.
- MO Magnetto-Optical disc
- EEP-ROM Electrically Erasable and Programmable-Read Only Memory
- EEP-ROM Electrically Erasable and Programmable-Read Only Memory
- the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
- a computer that executes such a program first, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
- the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
- the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
- Complex Calculations (AREA)
Abstract
Description
Cを複素数の集合、d, d’を1以上の整数とし、Id∈Cd×dはd次元単位行列を、Od,d’∈Cd×d’はd×d’零行列を表す。また、ej (d)は第j要素が1、それ以外の要素は0のd次元単位ベクトルを表す。
(1:問題の定式化)
以下、音源抽出技術を短時間フーリエ変換領域における音源抽出として扱う。
ここで、si(f, t)∈C(i=1, …, K)は第i音源のSTFT係数、z(f, t)∈CM-Kは雑音のSTFT係数である。また、ai(f)∈CM(i=1, …, K)は第i音源からM個のマイクロホンまでの音響伝達関数、Az(f)∈CM×(M-K)は雑音のM個のマイクロホンまでの音響伝達関数である。
音源の数K、観測信号x(f, t)(f=1, …, F, t=1, …, T)を入力とし、第i音源の推定信号である第i音源信号xi(f, t)∈CM(i=1, …, K, f=1, …, F, t=1, …, T)を得る問題である。
(Semi-BSE問題)
音源の数K、観測信号x(f, t)(f=1, …, F, t=1, …, T)、音響伝達関数ai(f)(i=1, …, L、ただし、Lは1≦L≦Kを満たす整数である)を入力とし、第i音源の推定信号である第i音源信号xi(f, t)(i=1, …, K, f=1, …, F, t=1, …, T)を得る問題である。なお、L=Kの場合、Semi-BSE問題はビームフォーミング問題と呼ばれる。
また、ベクトルsi(t)∈CFを次式で定義する。
(仮定1)
行列A(f)∈CM×Mに対して、W(f)hA(f)=IMを満たす行列W(f)∈CM×Mが存在するものと仮定する。ここで、
である。ここで、wi(f)∈CM(i=1, …, K)を第i音源信号の分離フィルタ、WZ(f)∈CM×(M-K)を雑音信号の分離フィルタ、行列W(f)を分離行列という。
(仮定2)
確率変数{si(t), z(f, t)}i,f,tは互いに独立であるものと仮定する。つまり、次式が成り立つものとする。
(仮定3)
ベクトルsi(t)は巡回対称超ガウス分布に従うものと仮定する。つまり、次式が成り立つものとする。
ここで、G(r)は0以上の実数の集合R≧0から実数の集合Rへの微分可能な関数であり、関数G’(r)/r(G’はGの微分関数を表す)はr>0に関して非増加であるものとする。
雑音のSTFT係数z(f, t)∈CM-Kは平均が零行列0M-K、分散が単位行列IM-Kである複素ガウス分布に従うものと仮定する。z(f, t)~CN(0M-K, IM-K)、すなわち、
が成り立つものとする。
ここでは、本発明の各実施形態で用いる分離行列W(f)を求めるアルゴリズムについて説明する。本アルゴリズムは上界最小化アプローチ(Majorization-minimization (MM) aproach)に基づくものであり、アルゴリズム1、アルゴリズム2、アルゴリズム3、アルゴリズム4から構成される。
(ただし、βは所定の定数である)
ここで、-W(f)=[-wL+1(f),…, -wK(f), -WZ(f)](ただし、-wi(f)∈C(M-L)(i=L+1, …, K)は第i音源信号の分離フィルタ、-WZ(f)∈C(M-L)×(M-K)は雑音信号の分離フィルタとする)とする。(アルゴリズム1)
------------------------------------------------------------------
/* Initialization */
1:
2:
3: if using アルゴリズム2or アルゴリズム3 then
4: 次式により、分離フィルタWz(f)を更新する。
(ただし、Ws(f)=[w1(f), …, wK(f)], Es=[e1 (M), …, eK (M)], Ez=[eK+1 (M), …, eM (M)]である)
5: end if
6: if using アルゴリズム4then
7:
(ただし、A1(f)=[a1(f), …, aL(f)], E2=[eL+1 (M), …, eM (M)]である)
8:
9: 次式により、分離フィルタWz(f)を更新する。
(ただし、-Ws(f)=[-wL+1(f), …, -wK(f)], -Es=[e1 (M-L), …, eK-L (M-L)], -Ez=[eK-L+1 (M-L), …, eM-L (M-L)]である)
10: end if
/* Start optimization */
11: repeat
12: for i=1, …, K do
13:
14:
15:
16:
17:
// for numerical stability
18:
19:
// for numerical stability
20: end for
21: アルゴリズム2、アルゴリズム3、アルゴリズム4のいずれかを用いて各周波数ビンfに対して分離行列W(f)を更新する。
22: until convergence
23: if using アルゴリズム2 or アルゴリズム3 then
24: 次式により、分離フィルタWz(f)を更新する。
25: end if
26: if using アルゴリズム4 then
27: 次式により、分離フィルタWz(f)を更新する。
28: end if
29:
------------------------------------------------------------------
次に、アルゴリズム2を示す。
------------------------------------------------------------------
1: 次式を解くことにより、最大固有値λmaxに対応するベクトルuを得る。
2:
------------------------------------------------------------------
次に、アルゴリズム3を示す。
------------------------------------------------------------------
1: for i=1, …, K do
2: for k∈{i, z} do
3:
4:
5: end for
6: 次式を解くことにより、最大固有値λmaxに対応するベクトルbを得る。
7:
8: end for
------------------------------------------------------------------
最後に、アルゴリズム4を示す。
------------------------------------------------------------------
/* LCMV beamforming */
1: for i=1, …, L do
2:
3: end for
4: if L=K then
5: return
6: end if
/* BCD */
7: for i=L+1, …, K do
8:
9: end for
10: if L=K-1 then
11: 次式を解くことにより、最大固有値λmaxに対応するベクトル-uを得る。
12:
13: else
14: for i=L+1, …, K do
15: for k∈{i, z} do
16:
17:
18: end for
19: 次式を解くことにより、最大固有値λmaxに対応するベクトル-bを得る。
20:
21: end for
22: end if
------------------------------------------------------------------
<第1実施形態>
本実施形態では、BSE問題を解くための形態について説明する。
(ここで、si(t)=[si(1, t),…, si(F, t)]T)
(ただし、βは所定の定数とする)
なお、補助関数計算部121は、アルゴリズム1にあるように、数値計算を安定させるための処理をさらに行うようにしてもよい。
K=1の場合、次式により、分離フィルタw1(f)を計算し、
(ただし、ベクトルuはVz(f)u=λmaxV1(f)uを満たす最大固有値λmaxに対応するベクトルである)
K>1の場合、次式により、分離フィルタwi(f)(i=1, …, K)を計算する。
(ただし、ベクトルbはGi(f)b=λmaxGz(f)bを満たす最大固有値λmaxに対応するベクトルである)
S123において、収束条件判定部123は、所定の収束条件が満たされたか否かを判定し、当該収束条件が満たされた場合には分離フィルタwi(f)(i=1, …, K)を出力し、S124の処理に移行する一方、当該収束条件が満たされない場合にはS121の処理に戻り、S121~S123の処理を繰り返す。所定の収束条件として、例えば、予め定めた繰り返し回数に到達したか否かという条件、各パラメータ(例えば、分離フィルタwi(f)(i=1, …, K))の更新量が所定の閾値以下(または未満)となったか否かという条件を用いることができる。
(ただし、Ws(f)=[w1(f), …, wK(f)]とする)
S130において、音源信号生成部130は、観測信号x(f, t)とS120で出力された分離行列W(f)とを入力とし、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号xi(f, t)を生成し、出力する。第i音源信号xi(f, t)は、例えば、次式により計算すればよい。
本発明の実施形態によれば、高速に音源抽出処理を実行することが可能となる。
本実施形態では、Semi-BSE問題を解くための形態について説明する。
L=Kの場合、次式により、分離フィルタwi(f)(i=1, …, K)を計算し、
L=K-1の場合、次式により、分離フィルタwi(f)(i=1, …, K-1)を計算し、
次式により、分離フィルタwK(f)を計算し、
(ただし、ベクトル-uは-Vz(f)-u=λmax -Vk(f)-uを満たす最大固有値λmaxに対応するベクトルである)
L<K-1の場合、次式により、分離フィルタwi(f)(i=1, …, L)を計算し、
次式により、分離フィルタwi(f)(i=L+1, …, K)を計算する。
(ただし、ベクトル-bは-Gi(f)-b=λmax -Gz(f)-bを満たす最大固有値λmaxに対応するベクトルである)
S123において、収束条件判定部123は、所定の収束条件が満たされたか否かを判定し、当該収束条件が満たされた場合には分離フィルタwi(f)(i=1, …, K)を出力し、S224の処理に移行する一方、当該収束条件が満たされない場合にはS121の処理に戻り、S121~S123の処理を繰り返す。
(ただし、-Ws(f)=[-wL+l(f), …, -wK(f)]である)
S130において、音源信号生成部130は、観測信号x(f, t)とS120で出力された分離行列W(f)とを入力とし、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号xi(f, t)を生成し、出力する。
図5は、上述の各装置を実現するコンピュータ2000の機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータ2000を上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
Claims (5)
- K, Mを1≦K<Mを満たす整数、x(f, t)(f=1, …, F, t=1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックスとする)をM個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、xi(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を第i音源の推定信号である第i音源信号、W(f)=[w1(f),…, wK(f), WZ(f)](ただし、wi(f)∈CM(i=1, …, K)は第i音源信号の分離フィルタ、WZ(f)∈CM×(M-K)は雑音信号の分離フィルタとする)を分離行列、Vi(f)(i=1, …, K)を第i音源信号の補助関数、VZ(f)を雑音信号の補助関数とし、
分離行列W(f)、補助関数VZ(f)を初期化する初期化部と、
観測信号x(f, t)を用いて、分離行列W(f)を最適化する最適化部と、
分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号xi(f, t)を生成する音源信号生成部とを含む音源信号生成装置であって、
前記最適化部は、
次式により、補助関数Vi(f)(i=1, …, K)を計算する補助関数計算部と、
(ここで、si(t)=[si(1, t),…, si(F, t)]T)
(ただし、βは所定の定数とする)
補助関数Vi(f)(i=1, …, K), Vz(f)を用いて、分離フィルタwi(f)(i=1, …, K)を計算する第1分離フィルタ計算部と、
収束条件を満たした場合、所定の式により分離フィルタWZ(f)を計算する第2分離フィルタ計算部と、
を含む音源信号生成装置。 - 請求項1に記載の音源信号生成装置であって、
IM-Kを(M-K)次元単位行列、ej (M) (j=1, …, M)を第j要素が1、それ以外の要素は0のM次元単位ベクトル、Es=[e1 (M), …, eK (M)], Ez=[eK+1 (M), …, eM (M)]とし、
前記第1分離フィルタ計算部は、
K=1の場合、次式により、分離フィルタw1(f)を計算し、
(ただし、ベクトルuはVz(f)u=λmaxV1(f)uを満たす最大固有値λmaxに対応するベクトルである)
K>1の場合、次式により、分離フィルタwi(f)(i=1, …, K)を計算するものであり、
(ただし、ベクトルbはGi(f)b=λmaxGz(f)bを満たす最大固有値λmaxに対応するベクトルである)
前記第2分離フィルタ計算部が用いる所定の式は、次式である
(ただし、Ws(f)=[w1(f), …, wK(f)]とする)
ことを特徴とする音源信号生成装置。 - 請求項1に記載の音源信号生成装置であって、
Lを1≦L≦Kを満たす整数、ai(f)∈CM(i=1, …, L)を第i音源からM個のマイクロホンまでの音響伝達関数、A1(f)=[a1(f), …, aL(f)]とし、
IM-Kを(M-K)次元単位行列、ej (d) (j=1, …, d)を第j要素が1、それ以外の要素は0のd次元単位ベクトル、E2=[eL+1 (M), …, eM (M)], W2’(f)=[A1(f), E2]-hE2, -Vz(f)=W2’(f)hVz(f)W2’(f), -W(f)=[-wL+1(f),…, -wK(f), -WZ(f)](ただし、-wi(f)∈C(M-L)(i=L+1, …, K)は第i音源信号の分離フィルタ、-WZ(f)∈C(M-L)×(M-K)は雑音信号の分離フィルタとする), -Es=[e1 (M-L), …, eK-L (M-L)], -Ez=[eK-L+1 (M-L), …, eM-L (M-L)]とし、
前記第1分離フィルタ計算部は、
L=Kの場合、次式により、分離フィルタwi(f)(i=1, …, K)を計算し、
L=K-1の場合、次式により、分離フィルタwi(f)(i=1, …, K-1)を計算し、
次式により、分離フィルタwK(f)を計算し、
(ただし、ベクトル-uは-Vz(f)-u=λmax -Vk(f)-uを満たす最大固有値λmaxに対応するベクトルである)
L<K-1の場合、次式により、分離フィルタwi(f)(i=1, …, L)を計算し、
次式により、分離フィルタwi(f)(i=L+1, …, K)を計算するものであり、
(ただし、ベクトル-bは-Gi(f)-b=λmax -Gz(f)-bを満たす最大固有値λmaxに対応するベクトルである)
前記第2分離フィルタ計算部が用いる所定の式は、次式である
(ただし、-Ws(f)=[-wL+l(f), …, -wK(f)]である)
ことを特徴とする音源信号生成装置。 - K, Mを1≦K<Mを満たす整数、x(f, t)(f=1, …, F, t=1, …, T)(ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックスとする)をM個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、xi(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を第i音源の推定信号である第i音源信号、W(f)=[w1(f),…, wK(f), WZ(f)](ただし、wi(f)∈CM(i=1, …, K)は第i音源信号の分離フィルタ、WZ(f)∈CM×(M-K)は雑音信号の分離フィルタとする)を分離行列、Vi(f)(i=1, …, K)を第i音源信号の補助関数、VZ(f)を雑音信号の補助関数とし、
音源信号生成装置が、分離行列W(f)、補助関数VZ(f)を初期化する初期化ステップと、
前記音源信号生成装置が、分観測信号x(f, t)を用いて、分離行列W(f)を最適化する最適化ステップと、
前記音源信号生成装置が、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号xi(f, t)を生成する音源信号生成ステップとを含む音源信号生成方法であって、
前記最適化ステップは、
次式により、補助関数Vi(f)(i=1, …, K)を計算する補助関数計算ステップと、
(ここで、si(t)=[si(1, t),…, si(F, t)]T)
(ただし、βは所定の定数とする)
補助関数Vi(f)(i=1, …, K), Vz(f)を用いて、分離フィルタwi(f)(i=1, …, K)を計算する第1分離フィルタ計算ステップと、
収束条件を満たした場合、所定の式により分離フィルタWZ(f)を計算する第2分離フィルタ計算ステップと、
を含む音源信号生成方法。 - 請求項1ないし3のいずれか1項に記載の音源信号生成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/265,909 US20240038253A1 (en) | 2020-12-14 | 2020-12-14 | Target source signal generation apparatus, target source signal generation method, and program |
PCT/JP2020/046508 WO2022130445A1 (ja) | 2020-12-14 | 2020-12-14 | 音源信号生成装置、音源信号生成方法、プログラム |
JP2022569322A JP7487795B2 (ja) | 2020-12-14 | 2020-12-14 | 音源信号生成装置、音源信号生成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/046508 WO2022130445A1 (ja) | 2020-12-14 | 2020-12-14 | 音源信号生成装置、音源信号生成方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022130445A1 true WO2022130445A1 (ja) | 2022-06-23 |
Family
ID=82057492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/046508 WO2022130445A1 (ja) | 2020-12-14 | 2020-12-14 | 音源信号生成装置、音源信号生成方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240038253A1 (ja) |
JP (1) | JP7487795B2 (ja) |
WO (1) | WO2022130445A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017141542A1 (ja) * | 2016-02-16 | 2017-08-24 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法及びマスク推定プログラム |
JP2019074625A (ja) * | 2017-10-16 | 2019-05-16 | 株式会社日立製作所 | 音源分離方法および音源分離装置 |
-
2020
- 2020-12-14 US US18/265,909 patent/US20240038253A1/en active Pending
- 2020-12-14 JP JP2022569322A patent/JP7487795B2/ja active Active
- 2020-12-14 WO PCT/JP2020/046508 patent/WO2022130445A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017141542A1 (ja) * | 2016-02-16 | 2017-08-24 | 日本電信電話株式会社 | マスク推定装置、マスク推定方法及びマスク推定プログラム |
JP2019074625A (ja) * | 2017-10-16 | 2019-05-16 | 株式会社日立製作所 | 音源分離方法および音源分離装置 |
Non-Patent Citations (2)
Title |
---|
BRENDEL ANDREAS; HAUBNER THOMAS; KELLERMANN WALTER: "A Unified Probabilistic View on Spatially Informed Source Separation and Extraction Based on Independent Vector Analysis", IEEE TRANSACTIONS ON SIGNAL PROCESSING, vol. 68, 5 June 2020 (2020-06-05), USA, pages 3545 - 3558, XP011795439, ISSN: 1053-587X, DOI: 10.1109/TSP.2020.3000199 * |
SCHEIBLER ROBIN; ONO NOBUTAKA: "Independent Vector Analysis with More Microphones Than Sources", 2019 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA), IEEE, 20 October 2019 (2019-10-20), pages 185 - 189, XP033677283, DOI: 10.1109/WASPAA.2019.8937080 * |
Also Published As
Publication number | Publication date |
---|---|
JP7487795B2 (ja) | 2024-05-21 |
JPWO2022130445A1 (ja) | 2022-06-23 |
US20240038253A1 (en) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022130445A1 (ja) | 音源信号生成装置、音源信号生成方法、プログラム | |
JP7114497B2 (ja) | 変数最適化装置、変数最適化方法、プログラム | |
WO2021255925A1 (ja) | 目的音信号生成装置、目的音信号生成方法、プログラム | |
JP6567478B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 | |
JP7036054B2 (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP7351401B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
WO2021171532A1 (ja) | フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム | |
JP2009047929A (ja) | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 | |
WO2020255299A1 (ja) | 異常度推定装置、異常度推定方法、プログラム | |
WO2021171533A1 (ja) | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム | |
WO2021024474A1 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
WO2022269854A1 (ja) | フィルタ生成装置、フィルタ生成方法、プログラム | |
WO2021100136A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム | |
WO2021024475A1 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
WO2022254689A1 (ja) | 分散学習方法、分散学習システム、サーバ、プログラム | |
WO2022038673A1 (ja) | 収音装置、収音方法、プログラム | |
WO2024042605A1 (ja) | イジングモデル生成装置、イジングモデル生成方法、プログラム | |
JP3006095B2 (ja) | 楽音波形発生装置 | |
Adema et al. | Unemployment Forecasts: Room for Improvement? | |
JP7026358B2 (ja) | 回帰関数学習装置、回帰関数学習方法、プログラム | |
JP7207539B2 (ja) | 学習データ拡張装置、学習データ拡張方法、およびプログラム | |
JP7057564B2 (ja) | 分類器生成装置、仮説検定装置、分類器生成方法、仮説検定方法、プログラム | |
JP6852167B2 (ja) | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム | |
JP6716512B2 (ja) | 音信号生成装置、音信号生成方法、プログラム | |
WO2021053781A1 (ja) | 変数最適化装置、変数最適化方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20965833 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022569322 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18265909 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20965833 Country of ref document: EP Kind code of ref document: A1 |