WO2021100215A1 - 音源信号推定装置、音源信号推定方法、プログラム - Google Patents

音源信号推定装置、音源信号推定方法、プログラム Download PDF

Info

Publication number
WO2021100215A1
WO2021100215A1 PCT/JP2020/006968 JP2020006968W WO2021100215A1 WO 2021100215 A1 WO2021100215 A1 WO 2021100215A1 JP 2020006968 W JP2020006968 W JP 2020006968W WO 2021100215 A1 WO2021100215 A1 WO 2021100215A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
signal
source signal
mth
nth
Prior art date
Application number
PCT/JP2020/006968
Other languages
English (en)
French (fr)
Inventor
江村 暁
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2021100215A1 publication Critical patent/WO2021100215A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to a technique for estimating a sound source signal.
  • y n (k) (where k represents the time).
  • h n and m are mixing coefficients.
  • the mixing coefficients h n and m are scalars.
  • the signal from the mth sound source is separated into sound sources by multiplying the nth sound source signal y n (k) by the separation coefficients w m and n and taking the sum, as shown in the following equation.
  • the separation coefficients w m and n are updated so that each sound source signal is statistically more independent.
  • Natural Gradient method and FastICA are known as such update methods.
  • y n (k) (where k represents the time).
  • h n, m (p) is the impulse response of the acoustic path from the mth sound source to the nth microphone
  • P is the length of the impulse response of the acoustic path.
  • Q is the filter length of the FIR filter.
  • the filter length Q of the FIR filter is also several thousand. Therefore, the calculation of BSS in the convolution mixed model is much more difficult than that of BSS in the instantaneous mixed model.
  • the frequency domain processing approach is usually applied to BSS in the convolution mixed model.
  • a Short-Time Fourier Transform STFT
  • STFT Short-Time Fourier Transform
  • f is the frame number when the signal is framed by STFT
  • is the frequency
  • S m (f, ⁇ ) is the mth sound source signal obtained by converting sm (k) into the frequency domain
  • H n, m ( ⁇ ) is the impulse response of the acoustic path from the mth sound source to the nth microphone, which is obtained by converting h n, m (p) in the frequency domain
  • Y n (f, ⁇ ) is
  • Y n (k) is the nth sound pickup signal obtained by frequency domain conversion.
  • ⁇ T represents transpose.
  • the separation filter W ( ⁇ ) can be updated by applying the above-mentioned Natural Gradient method and FastICA as they are at each frequency. Therefore, such an approach is called frequency domain ICA (Frequency-Domain ICA; FDICA).
  • each frequency is processed individually, so there are two problems.
  • the first problem is called a scaling problem, in which each sound source signal is estimated with a different gain at each frequency.
  • the second problem is called the permutation problem, in which the sound sources are estimated in a different order at each frequency.
  • the scaling problem is solved by a method of recovering the sound source signal component at the position of the microphone, focusing on the transmission characteristics between the estimated sound source signal and the sound collection signal by the microphone, and the permutation problem is solved. , It is solved by the method by clustering the activity sequence obtained from the estimated sound source signal (see Non-Patent Document 1).
  • the mth element ⁇ S m (f, ⁇ ) of the sound source signal vector ⁇ s (f, ⁇ ) is called the mth separated sound source signal. Also, for the sake of simplicity, ⁇ will be omitted.
  • the crosstalk component of a signal from another sound source is mixed in the separated sound source signal, and the influence becomes large when the reverberation time is not short.
  • the crosstalk component of a signal from another sound source is the reverberation of a signal from another sound source or a signal from another sound source.
  • Non-Patent Document 2 As a method of suppressing this crosstalk component, there are the methods described in Non-Patent Document 2 and Non-Patent Document 3. In these methods, for example, a model such as the following equation is used in which a small amount of signal derived from the second sound source is mixed in the first separated sound source signal ⁇ S 1 (f).
  • ⁇ 1 and 2 are coefficients indicating the degree to which the crosstalk component of the signal from the second sound source is mixed in the first separated sound source signal ⁇ S 1 (f).
  • ⁇ * represents the complex conjugate.
  • ⁇ 1 and 2 are
  • E [ ⁇ ] represents the expected value
  • the first estimated sound source signal ⁇ S 1 (f) in which the crosstalk component is suppressed can be obtained by the following equation using the Wiener filter ⁇ 1.
  • the first estimated sound source signal ⁇ S 1 (f) in which the crosstalk component is suppressed can be obtained by the following equation using the Wiener filter ⁇ 1 (f).
  • ⁇ (0 ⁇ ⁇ 1) is a forgetting constant for smoothing.
  • Non-Patent Document 2 and Non-Patent Document 3 targets only the amplitude component at each frequency, the phase component related to the crosstalk component is ignored, and musical tones are likely to occur and the sound quality is high. Has the problem of being prone to deterioration.
  • an object of the present invention is to provide a sound source signal estimation technique capable of suppressing sound quality deterioration by removing a crosstalk component in consideration of both an amplitude component and a phase component.
  • the mth separated sound source signal ⁇ S m (f, ⁇ ) (m 1), which is a signal obtained by separating the mth sound source signal S m (f, ⁇ ), which is a signal in the frequency region of the mth sound source signal s m (k).
  • m' ⁇ m) is a coefficient indicating the degree to which the crosstalk component of the signal from the m'thound source is mixed in the mth separated sound source signal ⁇ S m (f, ⁇ ). Optimization problem for pairs of m and m'that satisfy ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m
  • the mth separated sound source signal ⁇ S m (f, ⁇ ) (m 1), which is a signal obtained by separating the mth sound source signal S m (f, ⁇ ), which is a signal in the frequency region of the mth sound source signal s m (k).
  • a sound source signal estimator including a crosstalk component remover that generates (m 1, ..., M), where D is an integer greater than or equal to 1, ⁇ m, m', d ( ⁇ ) (1 ⁇ m).
  • the signal in the frequency region of the nth pick-up signal y n (k) hereinafter referred to as the n-th pick-up signal)
  • the n-th pick-up signal the signal in the frequency region of the nth pick-up signal
  • a sound source signal estimator including a crosstalk component remover that generates (m 1, ..., M), where D is an integer greater than or equal to 1, ⁇ m, m', d ( ⁇ ) (1 ⁇ m).
  • _S m is a matrix ⁇ S m' (1 ⁇ m' ⁇ M, m' ⁇ m) arranged horizontally
  • _b m is a vector b.
  • S 1 / 2 ⁇ ( ⁇ ) is a soft threshold holding operator defined using a predetermined number ⁇
  • the value of the vector _b m at the counter k + 1 _b m (k + 1) according to the following equation.
  • the first auxiliary vector updater that calculates the value q m (k + 1) of the auxiliary vector q m at the counter k + 1.
  • the second auxiliary vector updater that calculates the value u m (k + 1) of the auxiliary vector u m at the counter k + 1 by the following equation,
  • the value of the vector _b m at that time is the coefficient ⁇ m, m', d ( ⁇ ) (1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m, 0.
  • ⁇ d ⁇ D the coefficient ⁇ m, m', d ( ⁇ ) (1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m, 0.
  • the present invention it is possible to suppress deterioration of sound quality by removing the crosstalk component in consideration of both the amplitude component and the phase component and estimating the sound source signal.
  • (Caret) represents a superscript.
  • x y ⁇ z means that y z is a superscript for x
  • x y ⁇ z means that y z is a subscript for x
  • _ (underscore) represents a subscript.
  • x y_z means that y z is a superscript for x
  • x y_z means that y z is a subscript for x.
  • Step 1 STFT transform
  • Step 2 Sound source separation
  • Step 3 Removal of crosstalk components
  • ⁇ 1 , 2 ( ⁇ ) is a coefficient indicating the degree to which the crosstalk component of the signal from the second sound source is mixed in the first separated sound source signal ⁇ S 1 (f, ⁇ ).
  • the estimation accuracy is obtained. That is, the first estimated sound source signal ⁇ S 1 (f, ⁇ ) is obtained by the following equation.
  • the second estimated sound source signal ⁇ S 2 (f, ⁇ ) can also be obtained.
  • the mth estimated sound source signal ⁇ S m (f, ⁇ ) shall be calculated by the following equation.
  • the solution can be obtained by using, for example, Alternating Direction Method of Multipliers (ADMM).
  • ADMM Alternating Direction Method of Multipliers
  • the mth estimated sound source signal ⁇ S m (f, ⁇ ) from which the crosstalk component is removed can be obtained at each frequency.
  • Step 4 Reverse STFT
  • the m estimated source signal ⁇ S m (f, ⁇ ) and is converted to the m estimated source signal ⁇ s m is the signal in the time domain using an inverse STFT transform (k) (1 ⁇ m ⁇ M).
  • the crosstalk component is removed by using only one past frame in step 3, but it may be removed by using two or more past frames.
  • the mth estimated sound source signal ⁇ S m (f, ⁇ ) shall be calculated by the following equation.
  • ⁇ S m (f, ⁇ ) (1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m, 0 ⁇ d ⁇ D) is the mth separated sound source signal ⁇ S m (f, ⁇ ) is a coefficient indicating the degree to which the crosstalk component of the signal from the m'sound source before the d frame is mixed), so that the mth estimated sound source signal ⁇ S m (f, ⁇ ) becomes more sparse as a signal.
  • _S m is a matrix in which the matrix ⁇ S m' (1 ⁇ m' ⁇ M, m' ⁇ m) is arranged in the horizontal direction
  • _b m is the vector b m, m' (1 ⁇ m' ⁇ M, m). It is a vector in which' ⁇ m) are arranged vertically.
  • matrix _S m For m satisfying 1 ⁇ m ⁇ M, matrix _S m, vector _b m are each as follows.
  • matrix _S m, vector _b m are each matrix ⁇ S m, is noted that it does not contain a vector b m, m.
  • ⁇ c (p) is a function that projects the vector p onto the subspace C.
  • Equation (1) can be transformed as follows by using the soft thresholding operator S 1 / 2 ⁇ ( ⁇ ) in Section 4.4.3 of Reference Non-Patent Document 1.
  • the function [pi c (p) of the formula (2) is a vector _b m that minimizes the distance vector p m (k + 1) + u m (k) and the vector ⁇ s m -_S m _b m Respond to the request. That is, the optimization problem argmin
  • ⁇ H Hermitian transpose
  • FIG. 1 is a block diagram showing a configuration of a sound source signal estimation device 100.
  • FIG. 2 is a flowchart showing the operation of the sound source signal estimation device 100.
  • the sound source signal estimation device 100 includes a frequency domain conversion unit 110, a sound source separation unit 120, a crosstalk component removal unit 130, a time domain conversion unit 140, and a recording unit 190.
  • the recording unit 190 is a component unit that appropriately records information necessary for processing of the sound source signal estimation device 100.
  • the sound source signal estimation device 100 receives signals picked up by M microphones installed in a sound field having M sound sources (M is an integer of 2 or more) as an input, and estimates signals from the M sound sources. And output.
  • M an integer of 2 or more
  • the frequency domain conversion for example, STFT conversion can be used.
  • a signal obtained by separating the mth sound source signal S m (f, ⁇ ), which is a signal in the frequency region of the mth sound source signal s m (k), from (n 1, ..., M) by a predetermined sound source separation method.
  • Generates and outputs a certain mth separated sound source signal ⁇ S m (f, ⁇ ) (m 1,..., M).
  • the sound source separation method for example, the blind sound source separation method in the frequency domain described in Non-Patent Document 1 can be used.
  • FIG. 3 is a block diagram showing the configuration of the crosstalk component removing unit 130.
  • FIG. 4 is a flowchart showing the operation of the crosstalk component removing unit 130.
  • the crosstalk component removing unit 130 includes a coefficient calculation unit 132 and a crosstalk component removing signal calculation unit 134.
  • the coefficient calculation unit 132 has an optimization problem for a set of m and m'that satisfies 1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m.
  • the coefficients ⁇ m, m' ( ⁇ ) are calculated by solving (L is a predetermined positive integer representing the number of frames).
  • ⁇ m, m' ( ⁇ ) (1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m) is the mth separated sound source signal ⁇ S m (f, ⁇ ) from the m'sound source. It is a coefficient indicating the degree to which the crosstalk component of the signal of is mixed.
  • L may be an integer of about several tens.
  • the crosstalk component removing unit 130 may calculate based on a model that considers the crosstalk components of a plurality of frames in the past.
  • description will be given according to FIG.
  • the coefficient calculation unit 132 is a set of m, m'and d satisfying 1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m, 0 ⁇ d ⁇ D (D is an integer of 1 or more). Optimization problem for
  • the coefficients ⁇ m, m', d ( ⁇ ) are calculated by solving (L is a predetermined positive integer representing the number of frames).
  • ⁇ m, m', d ( ⁇ ) (1 ⁇ m ⁇ M, 1 ⁇ m' ⁇ M, m' ⁇ m, 0 ⁇ d ⁇ D) is the mth separated sound source signal ⁇ S m (f, It is a coefficient indicating the degree to which the crosstalk component of the signal from the m'sound source before the d frame is mixed in ⁇ ).
  • an inverse STFT conversion can be used for the time domain conversion.
  • the embodiment of the present invention it is possible to suppress the deterioration of sound quality by removing the crosstalk component in consideration of both the amplitude component and the phase component and estimating the sound source signal.
  • the degree of crosstalk components of signals from other sound sources is estimated using the sparsity of the sound source signal as an evaluation standard. This makes it possible to improve the estimation accuracy of the sound source signal.
  • FIG. 1 is a block diagram showing a configuration of a sound source signal estimation device 200.
  • FIG. 2 is a flowchart showing the operation of the sound source signal estimation device 200.
  • the sound source signal estimation device 200 includes a frequency domain conversion unit 110, a sound source separation unit 120, a crosstalk component removal unit 230, a time domain conversion unit 140, and a recording unit 190. That is, the sound source signal estimation device 200 is different from the sound source signal estimation device 100 only in that the crosstalk component removing unit 230 is included instead of the crosstalk component removing unit 130.
  • FIG. 3 is a block diagram showing the configuration of the crosstalk component removing unit 230.
  • FIG. 4 is a flowchart showing the operation of the crosstalk component removing unit 230.
  • the crosstalk component removing unit 230 includes a coefficient calculation unit 232 and a crosstalk component removing signal calculation unit 134. That is, the crosstalk component removing unit 230 is different from the crosstalk component removing unit 130 only in that the coefficient calculating unit 232 is included instead of the coefficient calculating unit 132.
  • FIG. 5 is a block diagram showing the configuration of the coefficient calculation unit 232.
  • FIG. 6 is a flowchart showing the operation of the coefficient calculation unit 232. As shown in FIG.
  • the coefficient calculation unit 232 includes an initialization unit 2321, a vector update unit 2322, a first auxiliary vector update unit 2323, a second auxiliary vector update unit 2324, a counter update unit 2325, and an end condition.
  • the determination unit 2326 is included.
  • L is a predetermined positive integer representing the number of frames
  • _S m is a matrix in which the matrix ⁇ S m' (1 ⁇ m' ⁇ M, m' ⁇ m) is arranged in the horizontal direction
  • _b m is a vector b m, m' (1 ⁇ m' ⁇ M, m'. Let ⁇ m) be a vertically arranged vector.
  • the initialization unit 2321 performs the initialization processing required for the processing after S2322.
  • the vector update unit 2322 calculates the value p m (k + 1) of the vector p m at the counter k + 1 by the following equation.
  • the first auxiliary vector updating unit 2323 by the following formula, the value of the auxiliary vector q m values of the vector _b m in the counter k + 1 _b m and (k + 1) in the counter k + 1 q m ( Calculate k + 1).
  • the second auxiliary vector update unit 2324 calculates the value u m (k + 1) of the auxiliary vector u m at the counter k + 1 by the following equation.
  • the counter update unit 123 increments the counter k by 1. Specifically, k ⁇ k + 1.
  • the value of the vector _b m at that time is set to the coefficient ⁇ m, m', d ( ⁇ ) (1 ⁇ m ⁇ M, 1 ⁇ m'. Output as ⁇ M, m' ⁇ m, 0 ⁇ d ⁇ D), otherwise the calculations S2322 to S2326 are repeated.
  • the predetermined termination condition can be, for example, the condition described in Section 3.3.1 of Reference Non-Patent Document 1.
  • the embodiment of the present invention it is possible to suppress the deterioration of sound quality by removing the crosstalk component in consideration of both the amplitude component and the phase component and estimating the sound source signal.
  • the degree of crosstalk components of signals from other sound sources is estimated using the sparsity of the sound source signal as an evaluation standard. This makes it possible to improve the estimation accuracy of the sound source signal.
  • FIG. 7 is a diagram showing an example of a functional configuration of a computer that realizes each of the above-mentioned devices.
  • the processing in each of the above-mentioned devices can be carried out by causing the recording unit 2020 to read a program for causing the computer to function as each of the above-mentioned devices, and operating the control unit 2010, the input unit 2030, the output unit 2040, and the like.
  • the device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
  • Communication unit CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these , CPU, RAM, ROM, has a connecting bus so that data can be exchanged between external storage devices.
  • a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity.
  • a physical entity equipped with such hardware resources includes a general-purpose computer and the like.
  • the external storage device of the hardware entity stores the program required to realize the above-mentioned functions and the data required for processing this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in the external storage device (or ROM, etc.) and the data necessary for processing each program are read into the memory as needed, and are appropriately interpreted, executed, and processed by the CPU. ..
  • the CPU realizes a predetermined function (each component represented by the above, ..., ... means, etc.).
  • the present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. ..
  • the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by a computer
  • the processing content of the function that the hardware entity should have is described by a program.
  • the processing function in the above hardware entity is realized on the computer.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • a hard disk device, a flexible disk, a magnetic tape, or the like as a magnetic recording device is used as an optical disk
  • a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), or a CD-ROM (Compact Disc Read Only) is used as an optical disk.
  • Memory CD-R (Recordable) / RW (ReWritable), etc.
  • MO Magnetto-Optical disc
  • EP-ROM Electroically Erasable and Programmable-Read Only Memory
  • semiconductor memory can be used.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

振幅成分と位相成分の両方を考慮してクロストーク成分を除去することにより音質劣化を抑制することができる音源信号推定技術を提供する。βm,m'(ω) (1≦m≦M, 1≦m'≦M, m'≠m)を第m分離音源信号^Sm(f, ω)に第m'音源からの信号のクロストーク成分が混入する程度を示す係数とし、クロストーク成分除去部は、1≦m≦M, 1≦m'≦M, m'≠mを満たすmとm'の組に対する所定の最適化問題を解くことにより、係数βm,m'(ω)を計算する係数計算部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、係数βm,m'(ω)を用いて第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部とを含む。

Description

音源信号推定装置、音源信号推定方法、プログラム
 本発明は、音源信号を推定する技術に関する。
 複数のマイクロホンを音場に設置して取得したマルチチャネルの収音信号に含まれる複数の音源からの信号(以下、音源信号という)を個々の音源信号に分離する技術が近年盛んに研究開発されている。そのような方法の一例として、独立成分解析(Independent Component Analysis; ICA)に基づくブラインド音源分離(Blind Source Separation; BSS)がよく知られている。
 以下、BSSの例について説明する。はじめに、M個の音源がある音場にM個のセンサが設置されている場合を考える。M個の音源のそれぞれを第m音源(m=1, …, M)といい、第m音源からの信号(以下、第m音源信号という)(m=1, …, M)をsm(k)(ただし、kは時刻を表す)と表す。また、M個のセンサのそれぞれを第nセンサ(n=1, …, M)といい、第nセンサにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)(n=1, …, M)をyn(k)(ただし、kは時刻を表す)と表す。このとき、第n収音信号yn(k) (n=1,…, M)が、次式により記述されるモデル(瞬時混合モデル)を考える。
Figure JPOXMLDOC01-appb-M000025
 ここで、hn,mは混合係数である。なお、混合係数hn,mはスカラーである。
 ICAに基づくBSSでは、次式のように、分離係数wm,nを第n収音信号yn(k)に掛けて和をとることで、第m音源からの信号を音源分離し、第m分離音源信号^sm(k) (m=1,…, M)を得る。
Figure JPOXMLDOC01-appb-M000026
 このとき、分離係数wm,nは、各音源信号が統計的により独立になるように更新される。このような更新方法として、Natural Gradient法やFastICAが知られている。
 次に、センサの代わりにマイクロホンが音場に設置されている場合を考える。つまり、M個の音源がある音場にM個のマイクロホンが設置されている場合を考える。M個のマイクロホンのそれぞれを第nマイクロホン(n=1, …, M)といい、第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)(n=1, …, M)をyn(k)(ただし、kは時刻を表す)と表す。このとき、第n収音信号yn(k) (n=1,…, M)が、畳み込みを用いた次式により記述されるモデル(畳み込み混合モデル)を考える。
Figure JPOXMLDOC01-appb-M000027
 ここで、hn,m(p)は第m音源から第nマイクロホンまでの音響経路のインパルス応答、Pは音響経路のインパルス応答の長さである。
 BSSでは、FIRフィルタwm,n(q)を用いた次式により、第m音源からの信号を音源分離し、第m分離音源信号^sm(k) (m=1,…, M)を得る。
Figure JPOXMLDOC01-appb-M000028
 ここで、QはFIRフィルタのフィルタ長である。
 音響経路のインパルス応答の長さPは、通常の残響時間T60=400ms程度で16kHzサンプリングのとき、数千タップになるため、FIRフィルタのフィルタ長Qも数千になる。そのため、畳み込み混合モデルにおけるBSSの計算は、瞬時混合モデルにおけるBSSのそれと比べて遥かに困難なものとなる。
 そこで、畳み込み混合モデルにおけるBSSに対しては、通常、周波数領域処理のアプローチが適用される。このアプローチでは、短時間フーリエ変換(Short-Time Fourier Transform; STFT)を第n収音信号yn(k)に適用して周波数領域へ変換する。これにより、畳み込み混合モデルは、次式のような、周波数ごとの瞬時混合モデルの集まりに変換される。
Figure JPOXMLDOC01-appb-M000029
Figure JPOXMLDOC01-appb-I000030
Figure JPOXMLDOC01-appb-I000031
Figure JPOXMLDOC01-appb-I000032
 ここで、fはSTFTで信号をフレーム化する際のフレーム番号、ωは周波数であり、Sm(f, ω)は、sm(k)を周波数領域変換することにより得られる第m音源信号、Hn,m(ω)は、hn,m(p)を周波数領域変換することにより得られる、第m音源から第nマイクロホンまでの音響経路のインパルス応答、Yn(f, ω)は、yn(k)を周波数領域変換することにより得られる第n収音信号である。また、・Tは転置を表す。
 このとき、分離フィルタW(ω)は、次式により与えられる。
Figure JPOXMLDOC01-appb-M000033
Figure JPOXMLDOC01-appb-I000034
Figure JPOXMLDOC01-appb-I000035
 分離フィルタW(ω)は、各周波数において、先述のNatural Gradient法やFastICA をそのまま適用することで、更新することができる。そのため、このようなアプローチは周波数領域ICA(Frequency-Domain ICA; FDICA)と呼ばれる。
 このFDICAでは、各周波数を個別に処理するため、2つの問題が生じる。1つ目の問題は、スケーリング問題と呼ばれるものであり、各周波数において各音源信号が別々のゲインで推定されてしまうという問題である。2つ目の問題は、パーミュテーション問題と呼ばれるものであり、各周波数において音源が別々の順番で推定されてしまうという問題である。
 スケーリング問題については、推定された音源信号とマイクロホンによる収音信号との間の伝達特性に着目して、マイクロホンの位置における音源信号成分を回復する手法により解決されており、パーミュテーション問題については、推定された音源信号から求めたアクティビティシーケンスのクラスタリングによる方法により解決されている(非特許文献1参照)。
 以下、音源分離した音源信号ベクトルs’(f, ω)に対してスケーリング問題およびパーミュテーション問題を解決した音源信号ベクトル^s(f, ω)を
Figure JPOXMLDOC01-appb-M000036
とする。なお、音源信号ベクトル^s(f, ω)の第m要素^Sm(f, ω)を第m分離音源信号という。また、簡単のため、ωを省略して記載することとする。
 FDICAによる音源分離を行うと、ある音源からの信号を音源分離した分離音源信号を得ることができるが、分離性能が不十分となることも多い。これは、分離音源信号に他の音源からの信号のクロストーク成分が混入しているためであり、残響時間が短くない場合にはその影響は大きくなる。ここで、他の音源からの信号のクロストーク成分とは、他の音源からの信号や他の音源からの信号の残響のことである。
 このクロストーク成分を抑圧する方法として、非特許文献2、非特許文献3に記載の方法がある。これらの方法では、例えば、第1分離音源信号^S1(f)の中に第2音源に由来する微量の信号が混入しているという、次式のようなモデルを用いる。
Figure JPOXMLDOC01-appb-M000037
 ここで、α1,2は第1分離音源信号^S1(f)に第2音源からの信号のクロストーク成分が混入する程度を示す係数である。
 このモデルに対して相関を用いると、
Figure JPOXMLDOC01-appb-M000038
となる。ここで、・*は複素共役を表す。α1,2
Figure JPOXMLDOC01-appb-M000039
として求めることができる。ここで、E[・]は期待値を表す。
 この結果から、本来の信号である第1音源信号S1(f)の振幅|S1(f)|は、次式を満たすと考える。
Figure JPOXMLDOC01-appb-M000040
 したがって、クロストーク成分を抑圧した第1推定音源信号~S1(f)は、ウィーナーフィルタρ1を用いて、次式により得られる。
Figure JPOXMLDOC01-appb-M000041
 あるいは、クロストーク成分を抑圧した第1推定音源信号~S1(f)は、ウィーナーフィルタρ1(f)を用いて、次式により得られる。
Figure JPOXMLDOC01-appb-M000042
 ここで、λ(0<λ<1)は平滑化用の忘却定数である。
H. Sawada, S. Araki, S. Makino, "MLSP 2007 Data Analysis Competition: Frequency-Domain Blind Source Separation for Convolutive Mixtures of Speech/Audio Signals," IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2007), pp.45-50, Aug. 2007. R. Mukai, S. Araki, H. Sawada, and S. Makino, "Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction," in Proc. ICASSP, vol.2, pp.1789-1792, May 2002. R. Aichner, M. Zourub, H. Buchner, and W. Kellermann, "Post-processing for convolutive blind source separation," in Proc. ICASSP, vol.5, pp.37-41, May 2006.
 しかし、非特許文献2や非特許文献3のクロストーク成分抑圧方法では、各周波数において振幅成分のみを対象としているため、クロストーク成分に関する位相成分が無視される結果となり、ミュージカルトーンが生じやすく音質が劣化しやすいという問題がある。
 そこで本発明では、振幅成分と位相成分の両方を考慮してクロストーク成分を除去することにより音質劣化を抑制することができる音源信号推定技術を提供することを目的とする。
 本発明の一態様は、Mを2以上の整数、sm(k)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)(m=1, …, M)、yn(k)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)(n=1, …, M)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、を含む音源信号推定装置であって、βm,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)を第m分離音源信号^Sm(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、前記クロストーク成分除去部は、1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題
Figure JPOXMLDOC01-appb-M000043
を解くことにより、係数βm,m’(ω)を計算する係数計算部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、
Figure JPOXMLDOC01-appb-M000044
を含む。
 本発明の一態様は、Mを2以上の整数、sm(k)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)(m=1, …, M)、yn(k)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)(n=1, …, M)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、を含む音源信号推定装置であって、Dを1以上の整数、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、前記クロストーク成分除去部は、1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦Dを満たすmとm’とdの組に対する最適化問題
Figure JPOXMLDOC01-appb-M000045
を解くことにより、係数βm,m’,d(ω)を計算する係数計算部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、
Figure JPOXMLDOC01-appb-M000046
を含む。
 本発明の一態様は、Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、を含む音源信号推定装置であって、Dを1以上の整数、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、前記クロストーク成分除去部は、第m分離音源信号^Sm(f, ω) (m=1, …, M)を用いて、係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する係数計算部と、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、
Figure JPOXMLDOC01-appb-M000047
を含み、1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^sm, 行列^Sm’, ベクトルbm,m’をそれぞれ次式で定義し、
Figure JPOXMLDOC01-appb-M000048
Figure JPOXMLDOC01-appb-I000049
Figure JPOXMLDOC01-appb-I000050
(ただし、Lはフレーム数を表す所定の正の整数)、_Smを行列^Sm’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_bmをベクトルbm,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとし、前記係数計算部は、次式により、カウンタk+1におけるベクトルpmの値pm (k+1)を計算するベクトル更新部と、
Figure JPOXMLDOC01-appb-M000051
(ただし、S1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ)、次式により、カウンタk+1におけるベクトル_bmの値_bm (k+1)とカウンタk+1における補助ベクトルqmの値qm (k+1)とを計算する第1補助ベクトル更新部と、
Figure JPOXMLDOC01-appb-M000052
Figure JPOXMLDOC01-appb-I000053
次式により、カウンタk+1における補助ベクトルumの値um (k+1)を計算する第2補助ベクトル更新部と、
Figure JPOXMLDOC01-appb-M000054
所定の終了条件を満たした場合、そのときのベクトル_bmの値を係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力する終了条件判定部と、を含む。
 本発明によれば、振幅成分と位相成分の両方を考慮してクロストーク成分を除去し、音源信号を推定することで、音質劣化を抑制することが可能となる。
音源信号推定装置100/200の構成を示すブロック図である。 音源信号推定装置100/200の動作を示すフローチャートである。 クロストーク成分除去部130/230の構成を示すブロック図である。 クロストーク成分除去部130/230の動作を示すフローチャートである。 係数計算部232の構成を示すブロック図である。 係数計算部232の動作を示すフローチャートである。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 各実施形態の説明に先立って、この明細書における表記方法について説明する。
 ^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
 ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。また、ある文字xに対する_xのような下付き添え字の”_”は、本来”x”の真下に記載されるべきであるが、明細書の記載表記の制約上、_xと記載しているものである。
<技術的背景>
ここでは、本発明の実施形態における音源信号の推定手順について説明する。
《音源信号推定手順》
(ステップ1:STFT変換)
 第n収音信号yn(k) (n=1,…, M)を、STFTを用いて周波数領域における信号である第n収音信号Yn(f, ω) (n=1,…, M)に変換する。
(ステップ2:音源分離)
 第n収音信号Yn(f, ω) (n=1,…, M)に対して、従来の周波数領域のブラインド音源分離(例えば、非特許文献1に記載の方法)を適用することで、周波数領域において各音源からの信号を分離した第m分離音源信号^Sm(f, ω) (m=1, …, M)を得る。
(ステップ3:クロストーク成分除去) 
 はじめに、音源が2つの場合を例に説明する。ここでは、第1分離音源信号^S1(f, ω)には、第2音源からの信号のクロストーク成分が含まれるという、次式のモデルを用いる。
Figure JPOXMLDOC01-appb-M000055
 ここで、β1,2(ω)は第1分離音源信号^S1(f, ω)に第2音源からの信号のクロストーク成分が混入する程度を示す係数である。
 そして、第1分離音源信号^S1(f, ω)から、1フレーム前の、すなわちf-1フレームの第2分離音源信号^S2(f, ω)の成分を差し引くことで、推定精度を向上させた第1推定音源信号~S1(f, ω)を得る。つまり、第1推定音源信号~S1(f, ω)は次式により得られる。
Figure JPOXMLDOC01-appb-M000056
 その際、係数β1,2(ω)を求める必要があるが、係数β1,2(ω)は、第1推定音源信号~S1(f, ω)が信号としてよりスパースになるように、第1推定音源信号~S1(f, ω)に関する次式の最適化問題
Figure JPOXMLDOC01-appb-M000057
(Lはフレーム数を表す所定の正の整数)を解いて、求める。なお、第1推定音源信号~S1(f, ω)に関するベクトル[^S1(1, ω), …, ^S 1(L-1, ω)]T1,2(ω)[^S2(0, ω), …, ^S 2(L-2, ω)]TのL1ノルムのことをコスト関数という。
 同様に、第2推定音源信号~S2(f, ω)についても求めることができる。
 一般に、音源がM個ある場合には、第m推定音源信号~Sm(f, ω)は次式により計算されるものとし、
Figure JPOXMLDOC01-appb-M000058
(ただし、βm,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)は第m分離音源信号^Sm(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数である)、第m推定音源信号~Sm(f, ω)が信号としてよりスパースになるように、第m推定音源信号~Sm(f, ω)に関する次式の最適化問題
Figure JPOXMLDOC01-appb-M000059
(Lはフレーム数を表す所定の正の整数)を解いて、係数βm,m’を求めればよい。
 この最適化問題は凸問題であるため、唯一の解が存在する。その解は、例えば、Alternating Direction Method of Multipliers(ADMM)等を用いることで求めることができる。
 以上まとめると、各周波数においてクロストーク成分を除去した第m推定音源信号~Sm(f,ω)が得られる。
(ステップ4:逆STFT)
 第m推定音源信号~Sm(f,ω)を、逆STFT変換を用いて時間領域における信号である第m推定音源信号~sm(k)(1≦m≦M)に変換する。
《変形例》
 上記音源信号推定手順では、ステップ3において過去のフレームを1つだけ用いてクロストーク成分を除去したが、2以上の過去のフレームを用いて除去するようにしてもよい。
 D個(Dは1以上の整数)の過去のフレームを用いる場合は、第m推定音源信号~Sm(f, ω)は次式により計算されるものとし、
Figure JPOXMLDOC01-appb-M000060
(ただし、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)は第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数である)、第m推定音源信号~Sm(f, ω)が信号としてよりスパースになるように、第m推定音源信号~Sm(f, ω)に関する次式の最適化問題
Figure JPOXMLDOC01-appb-M000061
(Lはフレーム数を表す所定の正の整数)を解いて、係数βm,m’,d(ω)を求めればよい。この最適化問題も凸問題であるので唯一の解を持ち、ADMM等を用いて求めることができる。
 以下、具体的解法について説明する。上記最適化問題は、ベクトル^sm, 行列^Sm’, ベクトルbm,m’(1≦m≦M, 1≦m’≦M, m’≠m) を用いると、以下のように書き換えることができる。
Figure JPOXMLDOC01-appb-M000062
 ここで、ベクトル^sm, 行列^Sm’, ベクトルbm,m’はそれぞれ次式で与えられる。
Figure JPOXMLDOC01-appb-M000063
Figure JPOXMLDOC01-appb-I000064
Figure JPOXMLDOC01-appb-I000065
(ただし、Lはフレーム数を表す所定の正の整数)
 上記書き換えた最適化問題をADMMにより解くために、関数f(pm)=||pm||1を用いてさらに以下のように書き換える。
Figure JPOXMLDOC01-appb-M000066
Figure JPOXMLDOC01-appb-I000067
 ここで、_Smは行列^Sm’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_bmはベクトルbm,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルである。
 したがって、1<m<Mを満たすmに対して、行列_Sm、ベクトル_bmは、それぞれ以下のようになる。
Figure JPOXMLDOC01-appb-M000068
Figure JPOXMLDOC01-appb-I000069
 ここで、行列_Sm、ベクトル_bmは、それぞれ行列^Sm、ベクトルbm,mを含んでいないことに留意する。
 参考非特許文献1の5章に従い、インディケータ関数g(qm)=IC(qm)を用いると、上記最適化問題は、次式のように書き換えることができる。
Figure JPOXMLDOC01-appb-M000070
Figure JPOXMLDOC01-appb-I000071
 ここで、関数IC(qm)は、ベクトルqmを^sm-_Sm_bmで表現されるベクトルに限定するものであり、具体的には、結合係数を_bmとするベクトル^smと行列_Smの列ベクトルとの線形結合として与えられる。なお、関数ICの添え字のCはベクトル^smと行列_Smの列ベクトルとの線形結合を用いて定義される部分空間を表す。
(参考非特許文献1:S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein, “Distributed optimization and statistical learining via the alternate direction method of multipliers,” Found. Trends Math. Learn., vol.3, no.1, pp.1-122, Jan 2011.)
 この最適化問題は、以下の3式で表される更新処理を繰り返すことで解くことができる。
Figure JPOXMLDOC01-appb-M000072
Figure JPOXMLDOC01-appb-I000073
Figure JPOXMLDOC01-appb-I000074
 ここで、Πc(p)は、ベクトルpを部分空間Cに射影する関数である。
 式(1)は、参考非特許文献1の4.4.3節にあるソフトスレシュホールディングオペレータ(soft thresholding operator) S1/2ρ(・)を用いると、以下のように変形できる。
Figure JPOXMLDOC01-appb-M000075
 また、式(2)の関数Πc(p)は、ベクトルpm (k+1)+um (k)とベクトル^sm-_Sm_bmの距離を最小にするベクトル_bmを求めることに対応する。すなわち、最適化問題argmin||^sm-_Sm_bm-( pm (k+1)+um (k))||2 2の解として求めることができ、以下の更新式を用いて得ることができる。
Figure JPOXMLDOC01-appb-M000076
Figure JPOXMLDOC01-appb-I000077
 ここで、・Hはエルミート転置を表す。
 なお、参考非特許文献2、参考非特許文献3によると、関数fに基づいて厳密に式(1)を解く代わりに、関数fに近い特性を持つ関数を用いて近似的に解くことが可能である。具体的には、次式を用いてベクトルpmを更新するとよい。
Figure JPOXMLDOC01-appb-M000078
Figure JPOXMLDOC01-appb-I000079
 上記更新処理では、複素数の実部と虚部をそれぞれ別個に簡略的に計算している。そのため、推定精度をほとんど落とすことなく、処理速度を向上させることができる。
(参考非特許文献2:S. Venkatakrishnan, C. Bouman, and B. Wohlerg, “Plug-and-play priors for model based reconstruction,” in Proc. IEEE Global Conf. Signal Inf. Process., pp.945-948, 2013.)
(参考非特許文献3:S. Chan, X. Wang, and O. A. Elgendy, “Plug-and-play ADMM for image restoration: Fixed-point convergence and applications,” IEEE Trans. Comput. Imag., vol.3, no.1, pp.1323-1327, Mar 2017.)
<第1実施形態>
 以下、図1~図2を参照して音源信号推定装置100を説明する。図1は、音源信号推定装置100の構成を示すブロック図である。図2は、音源信号推定装置100の動作を示すフローチャートである。図1に示すように音源信号推定装置100は、周波数領域変換部110と、音源分離部120と、クロストーク成分除去部130と、時間領域変換部140と、記録部190を含む。記録部190は、音源信号推定装置100の処理に必要な情報を適宜記録する構成部である。
 音源信号推定装置100は、M個(Mを2以上の整数)の音源がある音場に設置されたM個のマイクロホンで収音した信号を入力とし、当該M個の音源からの信号を推定し、出力する。以下、sm(k)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)(m=1, …, M)、yn(k)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)(n=1, …, M)とする。
 図2に従い音源信号推定装置100の動作について説明する。
 S110において、周波数領域変換部110は、第n収音信号yn(k) (n=1, …, M)を入力とし、第n収音信号yn(k) (n=1, …, M)から、所定の周波数領域変換により、周波数領域における信号である第n収音信号Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を生成し、出力する。周波数領域変換には、例えば、STFT変換を用いることができる。
 S120において、音源分離部120は、S110で生成した第n収音信号Yn(f, ω) (n=1, …, M)を入力とし、第n収音信号Yn(f, ω) (n=1, …, M)から、所定の音源分離手法により、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成し、出力する。音源分離手法には、例えば、非特許文献1に記載の、周波数領域のブラインド音源分離手法を用いることができる。
 S130において、クロストーク成分除去部130は、S120で生成した第m分離音源信号^Sm(f, ω) (m=1, …, M)を入力とし、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成し、出力する。
 以下、図3~図4を参照してクロストーク成分除去部130について説明する。図3は、クロストーク成分除去部130の構成を示すブロック図である。図4は、クロストーク成分除去部130の動作を示すフローチャートである。図3に示すようにクロストーク成分除去部130は、係数計算部132と、クロストーク成分除去信号計算部134を含む。
 図4に従いクロストーク成分除去部130の動作について説明する。
 S132において、係数計算部132は、1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題
Figure JPOXMLDOC01-appb-M000080
(Lはフレーム数を表す所定の正の整数)を解くことにより、係数βm,m’(ω)を計算する。ここで、βm,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)は第m分離音源信号^Sm(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数である。また、Lは数十程度の整数とすればよい。
 S134において、クロストーク成分除去信号計算部134は、第m分離音源信号^Sm(f, ω) (m=1, …, M)とS132で計算した係数βm,m’(ω)とから、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算する。
Figure JPOXMLDOC01-appb-M000081
(変形例)
 クロストーク成分除去部130は、<技術的背景>で説明したように、過去の複数フレームのクロストーク成分を考慮するモデルに基づいて計算するようにしてもよい。以下、図4に従い説明する。
 S132において、係数計算部132は、1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D(Dは1以上の整数)を満たすmとm’とdの組に対する最適化問題
Figure JPOXMLDOC01-appb-M000082
(Lはフレーム数を表す所定の正の整数)を解くことにより、係数βm,m’,d(ω)を計算する。ここで、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)は第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数である。
 S134において、クロストーク成分除去信号計算部134は、第m分離音源信号^Sm(f, ω) (m=1, …, M) とS132で計算した係数βm,m’,d(ω)とから、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算する。
Figure JPOXMLDOC01-appb-M000083
 S140において、時間領域変換部140は、S130で生成した第m推定音源信号~Sm(f, ω) (m=1, …, M)を入力とし、第m推定音源信号~Sm(f, ω) (m=1, …, M)から、所定の時間領域変換により、時間領域における信号である第m推定音源信号~sm(k) (m=1, …, M)を生成し、出力する。時間領域変換には、例えば、逆STFT変換を用いることができる。
 本発明の実施形態によれば、振幅成分と位相成分の両方を考慮してクロストーク成分を除去し、音源信号を推定することで、音質劣化を抑制することが可能となる。その際、音源信号のスパース性を評価基準として他の音源からの信号のクロストーク成分が混入する程度を推定する。これにより、音源信号の推定精度を向上させることが可能となる。
<第2実施形態>
 以下、図1~図2を参照して音源信号推定装置200を説明する。図1は、音源信号推定装置200の構成を示すブロック図である。図2は、音源信号推定装置200の動作を示すフローチャートである。図1に示すように音源信号推定装置200は、周波数領域変換部110と、音源分離部120と、クロストーク成分除去部230と、時間領域変換部140と、記録部190を含む。つまり、音源信号推定装置200は、クロストーク成分除去部130の代わりにクロストーク成分除去部230を含む点においてのみ、音源信号推定装置100と異なる。
 そこで、以下、図3~図4を参照してクロストーク成分除去部230について説明する。図3は、クロストーク成分除去部230の構成を示すブロック図である。図4は、クロストーク成分除去部230の動作を示すフローチャートである。図3に示すようにクロストーク成分除去部230は、係数計算部232と、クロストーク成分除去信号計算部134を含む。つまり、クロストーク成分除去部230は、係数計算部132の代わりに係数計算部232を含む点においてのみ、クロストーク成分除去部130と異なる。
 係数計算部232は、第m分離音源信号^Sm(f, ω) (m=1, …, M)を用いて、係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する構成部である。以下、図5~図6を参照して係数計算部232について説明する。図5は、係数計算部232の構成を示すブロック図である。図6は、係数計算部232の動作を示すフローチャートである。図5に示すように係数計算部232は、初期化部2321と、ベクトル更新部2322と、第1補助ベクトル更新部2323と、第2補助ベクトル更新部2324と、カウンタ更新部2325と、終了条件判定部2326を含む。
 図6に従い係数計算部232の動作について説明する。ここで、説明に必要になるベクトルや行列についていくつか定義を与える。
 1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^sm, 行列^Sm’, ベクトルbm,m’をそれぞれ次式で定義する。
Figure JPOXMLDOC01-appb-M000084
Figure JPOXMLDOC01-appb-I000085
Figure JPOXMLDOC01-appb-I000086
(ただし、Lはフレーム数を表す所定の正の整数)
 また、_Smを行列^Sm’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_bmをベクトルbm,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとする。
 S2321において、初期化部2321は、S2322以降の処理に必要になる初期化処理を行う。初期化部2321は、例えば、カウンタkを初期化する。具体的には、初期化部2321は、k=0により、カウンタkを初期化する。なお、カウンタkのとり得る範囲を表す集合τをτ={0, 1, …, K-1}(ただし、Kは1以上の整数)とする。また、初期化部2321は、例えば、補助ベクトルqm、補助ベクトルumを初期化する。すなわち、初期化部2321は、カウンタ0における補助ベクトルqmの値qm (0)、補助ベクトルumの値um (0)を設定する。
 S2322において、ベクトル更新部2322は、次式により、カウンタk+1におけるベクトルpmの値pm (k+1)を計算する。
Figure JPOXMLDOC01-appb-M000087
(ただし、S1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ)
 S2323において、第1補助ベクトル更新部2323は、次式により、カウンタk+1におけるベクトル_bmの値_bm (k+1)とカウンタk+1における補助ベクトルqmの値qm (k+1)とを計算する。
Figure JPOXMLDOC01-appb-M000088
Figure JPOXMLDOC01-appb-I000089
 S2324において、第2補助ベクトル更新部2324は、次式により、カウンタk+1における補助ベクトルumの値um (k+1)を計算する。
Figure JPOXMLDOC01-appb-M000090
 S2325において、カウンタ更新部123は、カウンタkを1だけインクリメントする。具体的には、k←k+1とする。
 S2326において、終了条件判定部2326は、所定の終了条件を満たした場合は、そのときのベクトル_bmの値_bm (K)を係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力し、処理を終了する。終了条件判定部2326は、それ以外の場合、S2322の処理に戻る。つまり、係数計算部232は、所定の終了条件を満たした場合は、そのときのベクトル_bmの値を係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力し、それ以外の場合は、S2322~S2326の計算を繰り返す。所定の終了条件は、例えば、参考非特許文献1の3.3.1節に記載された条件とすることができる。
 本発明の実施形態によれば、振幅成分と位相成分の両方を考慮してクロストーク成分を除去し、音源信号を推定することで、音質劣化を抑制することが可能となる。その際、音源信号のスパース性を評価基準として他の音源からの信号のクロストーク成分が混入する程度を推定する。これにより、音源信号の推定精度を向上させることが可能となる。
<補記>
 図7は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (7)

  1.  Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、
     第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離部と、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、
     を含む音源信号推定装置であって、
     βm,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)を第m分離音源信号^Sm(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
     前記クロストーク成分除去部は、
     1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題
    Figure JPOXMLDOC01-appb-M000001

    を解くことにより、係数βm,m’(ω)を計算する係数計算部と、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、
    Figure JPOXMLDOC01-appb-M000002

     を含む音源信号推定装置。
  2.  Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、
     第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離部と、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、
     を含む音源信号推定装置であって、
     Dを1以上の整数、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
     前記クロストーク成分除去部は、
     1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦Dを満たすmとm’とdの組に対する最適化問題
    Figure JPOXMLDOC01-appb-M000003

    を解くことにより、係数βm,m’,d(ω)を計算する係数計算部と、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、
    Figure JPOXMLDOC01-appb-M000004

     を含む音源信号推定装置。
  3.  Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、
     第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離部と、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、
     を含む音源信号推定装置であって、
     Dを1以上の整数、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
     前記クロストーク成分除去部は、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)を用いて、係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する係数計算部と、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、
    Figure JPOXMLDOC01-appb-M000005

     を含み、
     1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^sm, 行列^Sm’, ベクトルbm,m’をそれぞれ次式で定義し、
    Figure JPOXMLDOC01-appb-M000006
    Figure JPOXMLDOC01-appb-I000007
    Figure JPOXMLDOC01-appb-I000008

    (ただし、Lはフレーム数を表す所定の正の整数)
     _Smを行列^Sm’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_bmをベクトルbm,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとし、
     前記係数計算部は、
     次式により、カウンタk+1におけるベクトルpmの値pm (k+1)を計算するベクトル更新部と、
    Figure JPOXMLDOC01-appb-M000009

    (ただし、S1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ)
     次式により、カウンタk+1におけるベクトル_bmの値_bm (k+1)とカウンタk+1における補助ベクトルqmの値qm (k+1)とを計算する第1補助ベクトル更新部と、
    Figure JPOXMLDOC01-appb-M000010
    Figure JPOXMLDOC01-appb-I000011

     次式により、カウンタk+1における補助ベクトルumの値um (k+1)を計算する第2補助ベクトル更新部と、
    Figure JPOXMLDOC01-appb-M000012

     所定の終了条件を満たした場合、そのときのベクトル_bmの値を係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力する終了条件判定部と、
     を含む音源信号推定装置。
  4.  Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、
     音源信号推定装置が、第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離ステップと、
     前記音源信号推定装置が、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去ステップと
     を含む音源信号推定方法であって、
     βm,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)を第m分離音源信号^Sm(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
     前記クロストーク成分除去ステップは、
     1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題
    Figure JPOXMLDOC01-appb-M000013

    を解くことにより、係数βm,m’(ω)を計算する係数計算ステップと、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算ステップと、
    Figure JPOXMLDOC01-appb-M000014

     を含む音源信号推定方法。
  5.  Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、
     音源信号推定装置が、第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離ステップと、
     前記音源信号推定装置が、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去ステップと
     を含む音源信号推定方法であって、
     Dを1以上の整数、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
     前記クロストーク成分除去ステップは、
     1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦Dを満たすmとm’とdの組に対する最適化問題
    Figure JPOXMLDOC01-appb-M000015

    を解くことにより、係数βm,m’,d(ω)を計算する係数計算ステップと、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算ステップと、
    Figure JPOXMLDOC01-appb-M000016

     を含む音源信号推定方法。
  6.  Mを2以上の整数、sm(k) (m=1, …, M)(ただし、kは時刻を表す)を第m音源からの信号(以下、第m音源信号という)、yn(k) (n=1, …, M)(ただし、kは時刻を表す)を第nマイクロホンにより第1音源信号s1(k), …, 第M音源信号sM(k)を収音した信号(以下、第n収音信号という)、Yn(f, ω) (n=1, …, M)(ただし、fはフレーム番号、ωは周波数を表す)を第n収音信号yn(k)の周波数領域における信号(以下、第n収音信号という)とし、
     音源信号推定装置が、第n収音信号Yn(f, ω) (n=1, …, M)から、第m音源信号sm(k)の周波数領域における信号である第m音源信号Sm(f, ω)を分離した信号である第m分離音源信号^Sm(f, ω) (m=1, …, M)を生成する音源分離ステップと、
     前記音源信号推定装置が、第m分離音源信号^Sm(f, ω) (m=1, …, M)から、第m推定音源信号~Sm(f, ω) (m=1, …, M)を生成するクロストーク成分除去ステップと、
     を含む音源信号推定方法であって、
     Dを1以上の整数、βm,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^Sm(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
     前記クロストーク成分除去ステップは、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)を用いて、係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する係数計算ステップと、
     第m分離音源信号^Sm(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~Sm(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算ステップと、
    Figure JPOXMLDOC01-appb-M000017

     を含み、
     1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^sm, 行列^Sm’, ベクトルbm,m’をそれぞれ次式で定義し、
    Figure JPOXMLDOC01-appb-M000018
    Figure JPOXMLDOC01-appb-I000019
    Figure JPOXMLDOC01-appb-I000020

    (ただし、Lはフレーム数を表す所定の正の整数)
     _Smを行列^Sm’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_bmをベクトルbm,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとし、
     前記係数計算ステップは、
     次式により、カウンタk+1におけるベクトルpmの値pm (k+1)を計算するベクトル更新ステップと、
    Figure JPOXMLDOC01-appb-M000021

    (ただし、S1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ)
     次式により、カウンタk+1におけるベクトル_bmの値_bm (k+1)とカウンタk+1における補助ベクトルqmの値qm (k+1)とを計算する第1補助ベクトル更新ステップと、
    Figure JPOXMLDOC01-appb-M000022
    Figure JPOXMLDOC01-appb-I000023

     次式により、カウンタk+1における補助ベクトルumの値um (k+1)を計算する第2補助ベクトル更新ステップと、
    Figure JPOXMLDOC01-appb-M000024

     所定の終了条件を満たした場合、そのときのベクトル_bmの値を係数βm,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力する終了条件判定ステップと、
     を含む音源信号推定方法。
  7.  請求項1ないし3のいずれか1項に記載の音源信号推定装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/006968 2019-11-18 2020-02-21 音源信号推定装置、音源信号推定方法、プログラム WO2021100215A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/JP2019/045120 WO2021100094A1 (ja) 2019-11-18 2019-11-18 音源信号推定装置、音源信号推定方法、プログラム
JPPCT/JP2019/045120 2019-11-18

Publications (1)

Publication Number Publication Date
WO2021100215A1 true WO2021100215A1 (ja) 2021-05-27

Family

ID=75981519

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2019/045120 WO2021100094A1 (ja) 2019-11-18 2019-11-18 音源信号推定装置、音源信号推定方法、プログラム
PCT/JP2020/006968 WO2021100215A1 (ja) 2019-11-18 2020-02-21 音源信号推定装置、音源信号推定方法、プログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/045120 WO2021100094A1 (ja) 2019-11-18 2019-11-18 音源信号推定装置、音源信号推定方法、プログラム

Country Status (1)

Country Link
WO (2) WO2021100094A1 (ja)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AICHNER, ROBERT ET AL.: "POST-PROCESSING FOR CONVOLUTIVE BLIND SOURCE SEPARATION", PROC. ICASSP, vol. 5, May 2006 (2006-05-01), pages 37 - 41, XP010931283, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1661206> [retrieved on 20200406] *
MUKAI, RYO ET AL.: "REMOVAL OF RESIDUAL CROSS-TALK COMPONENTS IN BLIND SOURCE SEPARATION USING TIME-DELAYED SUBTRACTION", PROC. ICASSP, vol. 2, May 2002 (2002-05-01), pages 1789 - 1792, XP032015145, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5744970> [retrieved on 20200406] *
SAWADA, HIROSHI ET AL.: "MLSP 2007 DATA ANALYSIS COMPETITION: FREQUENCY- DOMAIN BLIND SOURCE SEPARATION FOR CONVOLUTIVE MIXTURES OF SPEECH/AUDIO SIGNALS", IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING (MLSP 2007, August 2007 (2007-08-01), pages 45 - 50, XP031199060, Retrieved from the Internet <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=4414280> [retrieved on 20200406] *

Also Published As

Publication number Publication date
WO2021100094A1 (ja) 2021-05-27

Similar Documents

Publication Publication Date Title
CN102084667B (zh) 回响去除装置、回响去除方法、回响去除程序、以及记录介质
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
JP2019078864A (ja) 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
WO2021100215A1 (ja) 音源信号推定装置、音源信号推定方法、プログラム
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
WO2021255925A1 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP6912780B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP7156064B2 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
US10872619B2 (en) Using images and residues of reference signals to deflate data signals
US20210219048A1 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
WO2021100136A1 (ja) 音源信号推定装置、音源信号推定方法、プログラム
US11922964B2 (en) PSD optimization apparatus, PSD optimization method, and program
JP2018191255A (ja) 収音装置、その方法、及びプログラム
JP7026358B2 (ja) 回帰関数学習装置、回帰関数学習方法、プログラム
JP7218810B2 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
WO2024038522A1 (ja) 信号処理装置、信号処理方法、プログラム
US11758324B2 (en) PSD optimization apparatus, PSD optimization method, and program
US20230052111A1 (en) Speech enhancement apparatus, learning apparatus, method and program thereof
US20180211672A1 (en) Method for performing audio restauration, and apparatus for performing audio restauration
US20240127841A1 (en) Acoustic signal enhancement apparatus, method and program
JP5325134B2 (ja) 反響消去方法、反響消去装置、そのプログラムおよび記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20889182

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20889182

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP