WO2005024788A1 - 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 - Google Patents

信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 Download PDF

Info

Publication number
WO2005024788A1
WO2005024788A1 PCT/JP2004/012629 JP2004012629W WO2005024788A1 WO 2005024788 A1 WO2005024788 A1 WO 2005024788A1 JP 2004012629 W JP2004012629 W JP 2004012629W WO 2005024788 A1 WO2005024788 A1 WO 2005024788A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
value
vector
mask
observed
Prior art date
Application number
PCT/JP2004/012629
Other languages
English (en)
French (fr)
Other versions
WO2005024788A9 (ja
Inventor
Shoko Araki
Hiroshi Sawada
Shoji Makino
Ryo Mukai
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to DE602004022175T priority Critical patent/DE602004022175D1/de
Priority to JP2005513646A priority patent/JP3949150B2/ja
Priority to EP04772585A priority patent/EP1662485B1/en
Priority to US10/539,609 priority patent/US7496482B2/en
Publication of WO2005024788A1 publication Critical patent/WO2005024788A1/ja
Publication of WO2005024788A9 publication Critical patent/WO2005024788A9/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21347Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations

Definitions

  • the present invention relates to a signal separation method, a signal separation device, a signal separation program, and a recording medium.
  • the present invention relates to the technical field of signal processing, and in particular, it is difficult to directly observe only a necessary source signal (target signal) but to observe another signal superimposed on the target signal.
  • the present invention relates to a signal separation method, a signal separation device, a signal separation program, and a recording medium storing the same, for estimating a target signal in a situation.
  • a mixed signal obtained by mixing a plurality of source signals (such as audio signals) is used to separate and extract a source signal before mixing without using knowledge of the source signal and the mixing process.
  • Blind Source Separation technology is known.
  • FIG. 27A is a block diagram conceptually illustrating this blind signal separation technique.
  • the process in which the source signals s emitted from the signal source 701 are mixed and observed by the sensor 702 is called a “mixing process”, and the process of extracting a separated signal from the observation result of the sensor 702 is referred to as a “separation process”. Process ".
  • N is the number of signal sources 701
  • M is the number of sensors 702
  • s is the i-th signal source 701 (signal source i)
  • the output signal source signal
  • h is the j-th sensor 702
  • the impulse response up to the sensor is defined as the signal X observed by the sensor j is the convolutional mixture of the source signal s and the impulse response h
  • [Number 1] Is modeled by Here, “convolution” means that a signal is delayed in a signal propagation process, multiplied by a predetermined coefficient, and then added. In addition, all signals are sampled at a certain sampling frequency and are represented discretely.
  • P indicates the impulse response length
  • t indicates the sampling time
  • p indicates the variable for sweeping (operation of applying different coefficients to each sample value of the time-shifted signal). ing. It is assumed that the N signal sources 701 are statistically independent of each other, and that each signal is sufficiently sparse. Also, "sparse” indicates that the signal is almost always 0 in ijt, and this sparseness is confirmed by, for example, an audio signal.
  • the purpose of the BSS is to estimate the separation system (W) 703 from only the observed signal X without knowing the source signal s and the impulse response h to obtain a separated signal y.
  • f the frequency
  • m the time of the frame used for DFT.
  • W (f, m) be an (NX M) matrix having, in its jk element, a frequency k frequency response W (f, m) from the observation signal at sensor j to the separation signal y.
  • This W (f, m) is called the separation matrix.
  • the separated signal is in the time-frequency domain
  • Y (f, m) W (f, m) X (f, m) It becomes.
  • Y (f, m) [Y (f, m), ⁇ , Y (f, m)] T is the time-frequency
  • the separated signal y is subjected to a short-time inverse discrete Fourier transform (IDFT) to obtain a separated signal y which is an estimation result of the source signal.
  • IDFT short-time inverse discrete Fourier transform
  • Y (f, m) is a vector.
  • the separation matrix W (f, m) is estimated only from the observed signals.
  • Conventional methods for estimating the separated signal Y (f, m) include (a) a method using independent component analysis, (b) a method using signal sparsity, and (c) estimating a mixing matrix using sparsity.
  • the method is known. Hereinafter, each will be described.
  • a separation matrix W (f, m) at each frequency W (f, m) at each frequency.
  • the ICA separation matrix estimator 705 for example,
  • AW (f) is obtained by the learning rule.
  • [ ⁇ ] ⁇ denotes the conjugate transpose of ⁇ .
  • I is a unit matrix
  • ⁇ > is a time average
  • is a certain nonlinear function
  • / is an update coefficient.
  • the separation system required by ICA is a time-invariant linear system.
  • Various ICA algorithms such as those described in Non-Patent Document 1, are introduced.
  • permutation solution Is such that the separated signal components corresponding to the same source signal ⁇ are separated signals Y (f, m) having the same subscript i at all frequencies.
  • the estimated arrival direction of the signal obtained using the inverse matrix of the separation matrix in the case of N ⁇ M, the Moore-Penrose type pseudo-reverse system IJ is verified, and the estimation corresponding to the i-th separated signal is performed.
  • the permutation / scaling solution unit 706 is, for example, a regression system 1J of the separation matrix W (f, m) obtained after the permutation solution (in the case of N ⁇ M, a Moore-Penrose-type pseudoregression system IJ) W— ⁇ f, m), and for each row w (f, m) of the separation matrix W (f, m)
  • Etc. can be used. Further, as described above, as the permutation solution, for example, any one of a signal arrival direction estimation method and a method using the frequency similarity of the frequency of a separated signal, or a method combining both can be used. The details are described in Patent Literature 1 and Non-Patent Literature 2. In addition, ICA requires that the number of signal sources N and the number of sensors M have a relationship of M ⁇ N.
  • Non-Patent Document 3 As a separation method when the number N of signal sources and the number M of sensors have a relation of M ⁇ N, there is a method based on sparsity of signals (for example, Non-Patent Document 3).
  • a signal binary mask that estimates the signal observed at each time from which signal source is generated by some method and extracts only the signal at that time is used as the separation system W ( f, m), it is possible to separate the signals. This is a method based on S-sparity.
  • FIG. 28 (conventional method 2) is a block diagram for explaining the method using the sparsity.
  • the following method is generally used for estimating the signal source at each time. That is, assuming that the respective signal sources are spatially separated, a phase difference and an amplitude ratio are generated between the signals observed by the plurality of sensors, depending on the relative positions of the respective signal sources and the sensors. Based on the assumption that the observed signal at each time contains at most one signal, the phase difference and amplitude ratio of the observed signal at each time are the phase and amplitude of one signal included in the observed signal at that time. Therefore, the phase difference and the amplitude ratio of the observed signal in each sample can be clustered, and each source signal can be estimated by reconstructing the signal at the time belonging to each class.
  • the arrival direction of the signal obtained from the phase difference other than the phase difference itself may be set as the relative value z (f, m).
  • FIG. 29 illustrates this distribution.
  • a representative value calculation section 753 calculates representative values (peak, average value, median value, etc.) of these N classes. For the sake of convenience, a, a,.
  • j is an arbitrary sensor number.
  • FIG. 28 (conventional method 3) is a block diagram for explaining a method of estimating the mixed-system IJ based on the sparsity.
  • the mixed signal X (f, m) is calculated using the mixing matrix H (f).
  • X (f, m) M k (f, m) X (f, m) is obtained.
  • the observation signals X (f, m) of all sensors (X (f, m), ..., X (f, m)
  • the separated signal X '"(f, mi) obtained in this way is sent to the mixing process calculation unit 756, where
  • H (f) is estimated by calculating Where ⁇ [ ⁇ ] is the mean for m.
  • the tr (f) obtained in this way is sent to the inverse matrix calculator 757, where the inverse matrix tr (f) -1 is obtained. Then, the signal separation unit 758 performs the calculation of the above equation (7), whereby the separation signal Y (f, m) can be estimated.
  • Patent Document 1 JP 2004-145172 A
  • Non-Patent Document 1 A. Hyvaermen and J. Karhunen and E. Oja, Independent Component Analysis, John Wiley & Sons, 2001, ISBN 0-471-40540
  • Non-Patent Document 2 H. Sawada, R. Mukai, S. Araki and S. Makino, "A Robust and Precise Method for Solving the Permutation Problem of Frequency-Domain Blind Source Separation", in Pro the 4th International Symposium on Independent Component Analysis and Blind Signal Separation (ICA 2003), 2003, pp. 505-510
  • Non-Patent Document 3 S. Rickard, R. Balan, and J. Rosea, ⁇ Real-Time Time-Frequency Based Blind Source Separation, ⁇ rd International Conference on Independent Component Analysis and Blind Source Separation (ICA2001), San Diego,
  • Non-Patent Document 4 F. Abrard, Y. Deville, P. White, From blind source separation to blind source cancellation in the underdetermined case: a new approach based on time-frequency analysis, "Proceedings of the 3rd International Conference on Independent Component Analysis and Signal Separation (ICA'2001), pp. 734-739, San Diego, California, Dec. 2001.
  • ICA'2001 Independent Component Analysis and Signal Separation
  • Non-Patent Document 5 Y. Deville, "Temporal and time-frquency correlation-based blind source separation methods," in Proc., ICASSP2003, Apr. 2003, pp. 1059-1064.
  • the parsing property is not perfect, there may be two or more observation signals of the same frequency at a certain time.
  • the relative value z (f, m) at this time is a value that is far from the representative value a,..., A that should originally correspond, and depending on the value of ⁇ ,
  • the observation signal corresponding to this sample is treated as 0, and the 0 component is packed into the separated signal. Since the proportion of the excluded sample is larger as the value of ⁇ is smaller, the amount of the zero component packed becomes larger as the value of ⁇ is smaller. If a large number of 0 components are packed in each separated signal, this causes the distortion of the separated signal to increase, resulting in an unpleasant audible noise called Musical Noise. On the other hand, when the ⁇ of the binary mask is increased, the Musical Noise is a power that reduces the amount of noise, but on the other hand, the separation performance deteriorates.
  • the present invention has been made in view of such a point, and it is possible to separate a mixed signal with high quality even when the number N of signal sources and the number M of sensors have a power SN> M.
  • the aim is to provide possible technologies.
  • the first invention solves the above problem as follows.
  • the value of the observed signal which is a mixture of N (N ⁇ 2) signals observed by the M sensors, is converted into a frequency domain value, and the relative values of the observed values between the sensors are converted using the frequency domain value.
  • the value (including the mapping of the relative value) is calculated at each frequency.
  • these relative values are clustered into N classes, and a representative value of each class is calculated.
  • a mask is created to extract the value of the signal generated by V (V ⁇ M) signal sources in the frequency domain, and using the generated mask, The value of the limited signal consisting of the emitted signal is extracted.
  • V ⁇ 2 the limited signal is a mixed signal composed of the V signal source powers and the generated signal powers. Therefore, the limited signal is further separated to obtain the value of each separated signal.
  • the source signal can be extracted with high quality.
  • this alone can extract only V source signals. Therefore, for example, all the source signals are extracted by using a plurality of types of masks and repeating the same processing while changing the combination of the signals to be extracted.
  • the second invention solves the above problem as described below.
  • the observed signal values X (t),..., X (t) are converted to frequency domain values X (f, m),.
  • the third invention solves the above problem as follows.
  • the observed signal values X (t),..., X (t) are transformed into frequency domain values X (f, m),.
  • Cluster T into N clusters C) (i l,..., N) for each frequency f. If the source signal is sparse, even if the number of sensors is insufficient (N> M), it can be clustered into N clusters C (f), and the N representative vectors a (f) are It can also be calculated.
  • the separation matrix W (f, m) is time-dependent, so that if the discrete time m is different, the obtained combination of separated signals may be different. Therefore, all separated signals can be obtained by obtaining separated signals for a plurality of discrete times m.
  • FIG. 1 is a block diagram illustrating an overall configuration of a signal separation device according to a first embodiment.
  • FIG. 2 is a block diagram illustrating details of a representative value generation unit, a mask control unit, a limited signal creation unit, and a limited signal separation unit in FIG. 1.
  • FIG. 3 is a block diagram illustrating details of a mask creation unit in FIGS. 1 and 2;
  • FIG. 4 is a flowchart for explaining processing of the signal separation device according to the first embodiment.
  • FIG. 5 is an example of a histogram created by a clustering unit.
  • FIG. 6 is a diagram for explaining how to take an estimated arrival direction ⁇ of a signal used when generating a mask having a smooth shape in the first embodiment.
  • FIG. 7 is an example of a mask according to the first embodiment.
  • FIG. 8 is a block diagram illustrating one system of a signal separation device according to a second embodiment.
  • FIG. 9 is a block diagram illustrating one system of a signal separation device according to a third embodiment.
  • FIG. 10 shows an example of a mask according to the third embodiment.
  • FIG. 11 is a block diagram illustrating a configuration of a mask creation unit according to a fourth embodiment.
  • A is an example of a binary mask according to the sixth embodiment
  • B is an example of a binary mask according to the seventh embodiment.
  • FIG. 13 is a block diagram illustrating a configuration of a representative value generation unit, a mask control unit, and a limited signal generation unit according to an eighth embodiment.
  • FIG. 14 is a flowchart illustrating signal separation processing according to the eighth embodiment.
  • FIG. 15 is a block diagram illustrating a configuration of a signal separation device according to a ninth embodiment.
  • FIG. 16 is a flowchart illustrating a process performed by the signal separation device according to the ninth embodiment.
  • FIG. 17 is a flowchart for explaining separation matrix generation processing when the number of sensors is insufficient (M ⁇ N).
  • FIG. 24 is a flowchart for explaining a separation matrix generation process applicable regardless of whether the number of sensors is sufficient for the number of signal sources.
  • FIG. 25 A part of a block diagram illustrating a configuration for performing signal integration in the wavenumber domain and then converting to the time domain.
  • FIG. 26 is an example of a signal separation device in which each embodiment is configured by a computer.
  • FIG. 27 A is a block diagram conceptually illustrating a conventional blind signal separation technology, and B is an IC.
  • FIG. 28 is a block diagram for explaining a method using sparsity and a method for estimating a mixing matrix using sparsity.
  • FIG. 29 An example of the distribution of relative values.
  • This embodiment is an embodiment according to the first present invention, in which a mask having a smooth shape using the directional characteristics of a blind spot beamformer is used, and V (2 ⁇ V ⁇ M”
  • V 2 ⁇ V ⁇ M
  • FIG. 1 is a block diagram illustrating an overall configuration of a signal separation device 1 of the present embodiment.
  • FIG. 4 is a block diagram illustrating details of the embodiment.
  • FIG. 3 is a block diagram illustrating details of the mask creating unit 51_k in FIGS. 1 and 2.
  • the arrows in these figures indicate the flow of data, and the flow of data to and from the force control unit 10 and the temporary storage unit 90 is omitted. That is, even when the data passes through the control unit 10 or the temporary storage unit 90, the process of passing the data is omitted.
  • FIG. 4 is a flowchart for explaining the processing of the signal separation device 1 in the present embodiment.
  • the configuration and processing of the signal separation device 1 of this example will be described with reference to these drawings.
  • the signal separation device 1 of the present embodiment includes a storage unit 2 and a signal separation processor 3 electrically connected to the storage unit 2 by wire or wirelessly.
  • the storage unit 2 includes, for example, a magnetic recording device such as a hard disk device, a flexible disk, and a magnetic tape, a DVD-RAM (Random Access Memory), and a CD-R (Recordable) / R Optical disk devices such as W (Rewritable), magneto-optical recording devices such as MO (Magneto-Optical disc), semiconductor memories such as EEP-ROM (Electronically Erasable and Programmable Dle-Read Only Memory), and flash memory . Further, the storage unit 2 may be present in the same housing as the signal separation processor 3 or may be configured in a separate housing.
  • the signal separation processor 3 of this example is, for example, hardware constituted by a processor, a RAM, and the like, and has each processing block described below.
  • the signals emitted from the N signal sources are statistically independent of each other, and that each signal is sufficiently sparse.
  • “sparse” is a property that a signal rarely takes 0 or a large value close to 0 at most of the time t. This sparsity is confirmed, for example, by an audio signal.
  • a non-white signal such as an audio signal is subjected to a short-time discrete Fourier transform or the like to form a time series for each frequency, so that the number of times closer to 0 increases and the sparseness is emphasized.
  • a Gaussian distribution is often used as a model for a signal, but a signal having sparseness is modeled by a Laplace distribution instead of a Gaussian distribution.
  • the M observation signal values X (t) are converted into frequency domain observation signals by the frequency domain transformation unit 20.
  • the representative value generator 30 calculates N representative values a, a,..., A corresponding to each source signal.
  • the mask control unit 40 sets V (2 ⁇ V ⁇ M) of the representative values a, a,.
  • the limited signal generator 50-k selects V source signals from the observed signal value X (f, m).
  • a separation system for obtaining V separated signals is provided.
  • M limited signal values X (f, m) are input, and V separated signal values Y (f, m) are output.
  • V ⁇ M for the number of inputs M and the number of outputs V of the separation system, V ⁇ M, so that [Conventional method 1] or [Conventional method 3] can be used to estimate the separation system here. is there.
  • the time domain conversion unit 70-k converts the separated signal value Y (f, m) obtained in the time frequency domain into a signal value in the time domain.
  • V separated signals With only the above processing, only V separated signals can be obtained. Therefore, in order to obtain other separated signals, the configuration of the V representative values selected by the mask control unit 40 is changed, and the processing from the limited signal generation unit 50-k to the time domain conversion unit 70-k is performed by multiple systems (u system) Finally, the signal integrating unit 80 integrates the outputs from the respective systems to obtain all N separated signals.
  • the source signal is separated and extracted from the observed signals. is there .
  • the signal in this example is a signal that can assume sparsity such as a voice signal, and the number N of sound sources is known or can be estimated.
  • the sensor of this example is a microphone or the like that can observe this signal, and it is assumed that they are arranged on a straight line.
  • the signal separation processor 3 accesses the storage unit 2 and derives each observed signal value X (t) therefrom.
  • the data is sequentially read and sent to the frequency domain conversion unit 20 (Step Sl).
  • the frequency domain transforming unit 20 sequentially converts these signal values into time-domain observed signal values X (f, m) by a short-time discrete Fourier transform or the like, and stores them in the temporary storage unit 90 (step S2). ).
  • the observed signal value X (f, m) in the frequency domain stored in the storage unit 90 is sent to the representative value generation unit 30.
  • the relative value calculation unit 31 of the representative value generation unit 30 sends the relative value z (f, m) of the observation value between the sensors using the transmitted observation signal value X (f, m) in the frequency domain. , For each frequency (Step S3).
  • At least one of them may be used, or a mapping (for example, an arrival direction of a signal obtained from the phase difference) which is not a phase difference itself may be used.
  • V is the signal speed and d is the distance between sensor jl and sensor j2.
  • the stirrer 32 sequentially reads the relative values z (f, m) from the temporary memory 90, and
  • the value z (f, m) is clustered into N classes (step S4).
  • the cluster is clustered into N classes.
  • the cluster is clustered into N classes.
  • the ring unit 32 creates a histogram from the transmitted relative values z (f, m).
  • FIG. 5 is an example of a histogram created in this way.
  • the clustering information (clusters C 1, C 2,..., C) generated by the clustering unit 32 is
  • the representative value calculation unit 33 reads them and calculates representative values a, a,..., A of the N clusters C 1, C 2,..., C (step S5). Specifically, for example,
  • the peak of each class in the histogram may be used as a representative value, or the average value of each class may be used as a representative value.
  • the N representative values are referred to as a, a,..., A from the smaller value (for convenience) (see FIG. 5). Note that these representative values a, a, ..., a are the arrival of each of the N signals.
  • the mask control unit 40 generates a set G having the representative values a, a,.
  • the data specifying 1 2 N 0 is assigned to a variable SG, and the variable SG is stored in the temporary storage unit 90.
  • the mask control unit 40 sets a value obtained by adding 1 to the variable k stored in the temporary storage unit 90 as a new variable k and stores it in the temporary storage unit 90 again (step S7).
  • the mask control unit 40 calls the variables SG and SG from the temporary storage unit 90. Then, the mask control unit 40
  • the set G of appropriate V ( ⁇ Micromax) number of representative values, including the original indicating the complement of G c)) and k selected, substitutes the data specifying the set G into a variable SG, this variable SG It is stored in the temporary storage kkk storage unit 90 (step S8).
  • the mask generation unit 51-k of the limited signal generation unit 50-k reads the variable SG stored in the temporary storage unit 90, and outputs a signal kkk of a class having a set G specified by the variable SG as a representative value
  • a “smooth-shaped mask” for extracting a signal is created (step S9).
  • the “smooth-shaped mask” is defined as a high-level value relative to a relative value within a predetermined range (limited range) including V (2 ⁇ V ⁇ M) representative values. Take a low level value for a representative value that is not within the limited range, and change from the high level value to the low level value with a change in the relative value. Denotes a function that is continuous.
  • “high level value” means a numerical value sufficiently larger than 0 (for example, 1 or more), and “low level value” means a value sufficiently close to 0 (for example, 60 dB for the high level value). Force, etc.)
  • the value is not particularly limited.
  • a “sliding force and an appropriately shaped mask” are created using the directional characteristics of a blind spot beamformer formed by N-V + 1 sensors.
  • This mask has sufficient sensitivity in the direction (G) of the V signals included in the limited signal, and N—V signals to be removed
  • the variables SG, SG, and SG e are read from the mask creation unit 51—k force temporary storage unit 90.
  • the mask creation unit 51-k calculates the elements of the set G indicated by the variable SG (within the limited range)
  • the mask creation unit 51—k is a variable
  • the mask creating unit 51-k stores ⁇ and ⁇ in the temporary storage unit 90.
  • d is the distance between sensor 1 and sensor j (d is 0)
  • f is a variable of frequency
  • V is the speed of the signal.
  • the phase difference is obtained from the phase difference z (f, m) between the observation signals of the two sensors.
  • the angle formed by the line segment connecting the signal source and the line segment connecting the origin and the first sensor 10 is ⁇ ⁇ corresponding to the Banme signal source.
  • the generated delay matrix H (f) is converted from the temporary storage unit 90 (Fig. 1) to the NBF creation unit 51b-k (Fig.
  • This NBF system IjW (f) is stored in the temporary storage unit 90 (FIG. 1).
  • the directivity calculating unit 51c-1k sequentially stores the elements W (f), d, and v in the first row of the NBF matrix W (f) from the temporary storage unit 90.
  • the generated directional characteristic function F (f, ⁇ ) is sent to mask configuration units 51d-k.
  • the mask configuration unit 51d-k uses this directional characteristic function F (f, ⁇ ) and the relative value z (f, m) (z (f, m) in this example) read from the temporary storage unit 90. , Generate a smooth-shaped mask M (f, m)
  • the mask M (f, m) to be generated for example, the directional characteristic F (f
  • the entire area of the value z (f, m) is called a limited signal area. Also, if G contains a or a
  • the entire area is called a removal signal area. Also, if it contains a or a in G n G e, 0 ° ⁇ z
  • a region that does not belong to either the constant signal region or the removal signal region is called a transient region.
  • a is used, for example, a value sufficiently larger than 0, such as the maximum value of IF (f, ⁇ ) I in the removal signal region
  • b is used, for example, a small value such as the minimum value of the gain of the directional characteristic.
  • the mask M (f, m) generated by the mask generation unit 51-k as described above is stored in the temporary storage unit 90
  • Limited signal extraction section 52-k further reads frequency domain observation signal value X (f, m) from temporary storage section 90. Then, the limited signal extraction unit 52—k (FIG. 2) uses the mask M (f, m) and the observed signal value X (f,
  • the limited signal value X "(f, m) is stored in the temporary storage unit 90, and the limited signal separating unit 60—kk
  • Source power is approximated to be the value of the mixed signal constituted by the emitted signals. Therefore, the method using independent component analysis described in [Conventional method 1] can be used to estimate the separation matrix. That is, as the input of the independent component analysis, the limited signal value X "(f, m) is used instead of the observed signal value X, and separation is performed using, for example, the equation (2) described in [Conventional method 1].
  • the separation by ICA in the present embodiment, first, in the ICA separation matrix estimating section 61-k, the limited matrix value X (f, m) is used, and the separation matrix W is determined in accordance with the learning rule of the above-mentioned equation (2). (f, m)
  • this separation matrix W (f, m) is stored in the temporary storage unit 90.
  • the separation matrix W (f, m) for example, the feedback of the output value Y (f, m) from the following permutation 'scaling solution unit 62_k is used.
  • the generated separation matrix W (f, m) is
  • Permutation 'scaling solution unit 62-k for example, outputs the separated signal value Y (f, m
  • this tag ⁇ is represented as a superscript nkq of the separated signal value Y.
  • the permutation 'scaling solution unit 62-k force temporary storage unit 90 force The inverse matrix of the extracted separation matrix W (f) (in the case of N ⁇ M, the Moore-Penrose pseudo Inverse matrix)
  • the solution unit 62—k assigns a tag ⁇ indicating the representative value a to the separated signal Y (pair
  • the scaling problem of the ICA is solved, and the separation matrix W (f) after the scaling problem is solved is stored in the temporary storage unit 90.
  • Each separated signal value Y to which the tag ⁇ is added is sent to the time domain transform unit 70-k.
  • the inter-domain transform unit 70-k converts each separated signal value Y obtained in the time-frequency domain into a signal value in the time domain by, for example, short-time inverse discrete Fourier transform or the like, and converts the converted value.
  • the time domain transforming unit 70-k extracts the tag ⁇ ⁇ ⁇ ⁇ associated with the signal value Y in the frequency domain from the temporary storage unit 90 for each frequency.
  • Band conversion section 70-k determines whether or not the tags ⁇ ⁇ at each frequency are all equal. This
  • the tag ⁇ ⁇ associated with the signal value Y of the area is associated. On the other hand, these are all
  • the tag of the signal value y in the time domain is determined by majority vote.
  • the mask control unit 40 extracts the variables SG and SG from the temporary storage unit 90,
  • variable SG is stored in the temporary storage unit 90 (step S14). Also, the mask control unit 40 reads the variables SG and SG from the temporary storage unit 90, and this new set G is equal to the set G.
  • step S15 It is determined whether it is 0 0 or not (step S15). Here, if not G2 G, go to step S7
  • the selection / integration is performed to obtain all N separated signals (step S16). More specifically, for example, first, the signal integration unit 80 first reads each of the separated signals y (t).
  • the signal integration unit 80 determines that all the separated signal values y (t)
  • the signal integration unit 80 appropriately selects one of the separated signal values having the same tag, and Output as a separated signal value y ⁇ t) ⁇ The average of separated signal values having the same tag is calculated, and this is used as an output signal (step S17).
  • one of the separated signal values y (t) is appropriately selected, and the final separated signal value y (t).
  • the signal integration unit 80 outputs, for example, a signal having the maximum power among the separated signal values y (t) having the same tag a as the final separated signal value y (t). .
  • the average of the separated signal values with the same tag is output as the final separated signal value y (t).
  • the signal integration unit 80 In the case of processing, the signal integration unit 80
  • N signals are separated with little distortion.
  • a mixed signal (limited signal) composed of two or more and M or less original signals is extracted by a mask having a smooth shape. Therefore, signals (samples) for a wide range of relative values z (f, m) can be extracted as limited signals, compared to the binary mask of [Conventional method 2] that extracts only one signal value.
  • the signals are separated and extracted using a mask having a smooth shape.
  • the mask having the smooth shape has a shape in which the edge portion is smoothly spread. Therefore, if this smooth mask is used, even if there are two or more observation signals of the same frequency at a certain time and the sample value deviates from the representative values a,.
  • the mask for the position may have a value other than 0, more signals can be extracted than a binary mask whose value changes sharply. As a result, it is possible to suppress quality deterioration due to discontinuous packing of the 0 component in the separated signal.
  • audio signals from three speakers are used as source signals, and a mixed signal in an environment without reverberation is observed with two omnidirectional microphones. Is simulating.
  • the SIR in the table is the signal to interference ratio (dB), which is an index indicating the separation performance.
  • the SDR is the signal-to-distortion ratio (Signal to distortion ratio) (dB), which is an index indicating the degree of signal distortion. In both cases, higher values indicate better performance.
  • SIR1 and SDR1 correspond to speaker 1
  • SIR2 and SDR2 correspond to speaker 2
  • SIR3 and SDR3 correspond to speaker 3.
  • This embodiment is also an embodiment according to the first invention.
  • a “mask having a smooth shape” is used in the limited signal generation unit, and a separation method based on the mixing matrix estimation is used in the limited signal separation unit. Note that in this embodiment, descriptions of items common to the first embodiment will be omitted.
  • FIG. 8 is a block diagram illustrating only one system for obtaining V separated signal values in the signal separating device according to the present embodiment.
  • the same components as those in the first embodiment are denoted by the same reference numerals as those in the first embodiment.
  • the difference between the signal separation device 1 of the first embodiment and the signal separation device of the present embodiment in the configuration is that the limited signal generation unit 50-k is limited to the limited signal generation unit 150-k. And the limited signal separating section 60-k is replaced by the limited signal separating section 160-k.
  • the representative value generation unit 30 extracts, from the temporary storage unit 90, the observed signal value X (f, m) in the frequency domain generated by the frequency domain conversion unit 20 (FIG. 1).
  • the representative value generator 30 extracts, from the temporary storage unit 90, the observed signal value X (f, m) in the frequency domain generated by the frequency domain conversion unit 20 (FIG. 1).
  • FIG. 8 shows a case where the relative value calculating unit 31 calculates the relative value z (f, m) of the observed value, performs clustering in the clustering unit 32, and calculates the representative value, as in the first embodiment.
  • representative values a, a, ..., a are calculated.
  • the relative value z (f, m) is i
  • This is a mask for extracting the value X (f, m) of the limited signal in which V ( M) signals corresponding to the table values are mixed, and has the smooth shape mask shown in the first embodiment.
  • the other is a binary mask M (f, m) that extracts signals containing only one signal, and k
  • the limited signal extraction unit 152—k obtains a smooth-shaped mask M (f, m) from the temporary storage unit 90 (FIG. 1) and the observed signal value X (f, m). And limited
  • the signal extraction unit 152—k (FIG. 8) converts the mask M (f, m) to the observed signal value X (f
  • the mixture matrix is sent to the inverse matrix calculation unit 163-k, and the inverse matrix calculation unit 163-k first drops the rank of the mixture matrix H '. That is, in the mixing matrix H ′, V columns corresponding to the limited signal X (f, m) composed of V signals (that is, corresponding to the V representative values a included in G)
  • the inverse matrix calculation unit 163 calculates the inverse matrix H ′ 1 (f) of the created square matrix H ′.
  • This embodiment is also an embodiment according to the first invention.
  • a “smooth mask” is used, and only signals composed of signals emitted from any one signal source from the observed signal (this is called “limited signal” in this embodiment) Is extracted, and the extracted limited signal is used as a separated signal.
  • the limited signal this is called “limited signal” in this embodiment
  • items common to the first embodiment are described. Explanation is omitted.
  • FIG. 9 is a block diagram illustrating only one system part for obtaining one separated signal in the signal separating device of the present embodiment. Note that, in FIG. 9, the same reference numerals as in the first embodiment denote the same components as those in the first embodiment.
  • the difference between the signal separation device 1 of the first embodiment and the signal separation device of the present embodiment in the configuration is that the limited signal generation units 50-k are limited signal generation units. 250-k, and the point that the limited signal separator 60-k does not exist in the signal separator of the present embodiment.
  • the configuration and processing of the present embodiment will be described.
  • the representative value generation unit 30 also extracts the frequency domain observation signal value X (f, m) generated by the frequency domain conversion unit 20 as a temporary storage unit 90 (FIG. 1).
  • Representative value generator 30 (Fig. 9)
  • the relative value calculator 31 calculates the relative value z (f, m) of the observed value, performs clustering in the clustering unit 32, and performs the representative value calculation in the representative value calculator 33. Calculate a, a, ..., a.
  • the relative value z (f, m) is the phase difference and the amplitude ratio.
  • At least one of them, or its mapping (for example, the direction of arrival of a signal obtained from the phase difference) can be used.
  • the phase difference force between observation signals is obtained.
  • the 250-k mask generator 251-k (Fig. 9) reads these representative values a, a, ..., a,
  • This function is a function that takes a low-level Venore value for the value and the transition from the high-level value to the low-level value with a change in the relative value is continuous.
  • the mask creation unit 251-k generates a (NXN) delay matrix H (f).
  • the mask creation unit 251—k is configured to store the representative values a, a,.
  • H (f) exp (j2 f ⁇ )
  • mask creation section 251-k uses this delay matrix H (f) to generate a blind spot beamformer.
  • the mask creation unit 251-k sequentially extracts the elements W (f), d, and v of the first row of the NBF matrix W (f) from the temporary storage unit 90,
  • the directional characteristic function F (f, ⁇ ) shown in the above equation (10) is generated. Then, the mask creation unit 25 l_k uses this directional characteristic function F (f, ⁇ ) to generate a smooth-shaped mask M (f, m).
  • a mask represented by the formula (11) in the first embodiment (referred to as “mask 7”) or a mask represented by the formula (12) (referred to as “mask 8”) ) Is generated as a smooth-shaped mask M (f, m) in this embodiment.
  • a [smoothly-shaped mask] having a characteristic of uniformly reducing the gain of the removal signal region as described below may be generated.
  • MDC ( f , m)
  • is an estimated value of the direction of arrival of the signal not to be removed (N ⁇ 1 representative values other than the representative value a to be extracted) among the estimated values of the direction of arrival of the N ⁇ 1 signals to be removed (extraction value). It is the closest to the representative value a).
  • Mask generator 251 The smooth-shaped mask M (f, m) generated by k
  • the signal separation device returns the obtained separated signal Y (f, m) to a time-domain signal in the time-domain conversion unit, and outputs the signal as it is through the signal integration unit.
  • audio signals from three speakers are used as source signals, and a mixed signal in an environment without reverberation is observed with two omnidirectional microphones. Is simulating.
  • This example is a simulation result when the way of mixing signals (specifically, the position of the speaker) is changed in the situation shown in Table 2.
  • the method of this embodiment it is possible to obtain a much higher SDR than in the conventional method 2 with almost no decrease in the separation performance SIR. This indicates that the signal is separated with little distortion. From this, it can be seen that the method of the present embodiment is effective for separating signals with low distortion when the number N of signal sources is larger than the number M of sensors.
  • This embodiment is also an embodiment according to the first invention.
  • a smooth-shaped mask is generated by convolving a smooth-shaped function with the inari mask.
  • the processing in the mask generation unit corresponding to the mask generation unit 51-k in FIG. 1 will be described.
  • the phase difference z (f, m), the amplitude ratio z (f, m), and the phase difference described in the first embodiment are used.
  • the arrival direction z (f, m) of the signal obtained from the phase difference z (f, m) is used as the relative value z (f, m).
  • FIG. 11 is a block diagram illustrating the configuration of the mask creation unit 300-k according to the present embodiment.
  • the binary mask creating unit 301-k takes a high level value for a relative value within a predetermined range including V representative values, and Take a low level value for a relative value that is not within the range, and generate a binary mask whose transition from the high level value to the low level value as the relative value changes is a discontinuous function.
  • the mask generator 300-k is a binary mask for extracting a signal in which V signals are mixed.
  • a and a are calculated by the following processing.
  • the calculated variance value ⁇ is stored in the temporary storage unit 90 (FIG. 1), and then the mask creation unit 30 1-k (FIG. 11) stores the variance value ⁇ 2 and the representative value stored in the temporary storage unit 90. Read the value a (in this example, the average of cluster C) and use them to
  • the binary mask F (z) generated as described above is stored in the temporary storage unit 90 (FIG. 1).
  • a unimodal function generator 302—k (FIG. 11) generates a unimodal function g (z) whose value continuously changes with the change of z, and stores the data in the temporary storage unit 90 (FIG. 1). ).
  • the unimodal function g (z) is, for example, Gaussian
  • means the standard deviation of g (z).
  • ⁇ ( ⁇ , ⁇ ) k + v + 1 k k + v + 1.
  • ⁇ and ⁇ are those of Expression (22). Also, min (hi,)
  • the convolution mixing unit 303-k (FIG. 11) reads the binary mask F (z) and the unimodal function g (z) from the temporary storage unit 90 (FIG. 1), and F (z) is a unimodal function g (bb
  • the mask construction unit 304-k (FIG. 11) reads the relative value z (f, m) and the function F (z) from the temporary storage unit 90 (FIG. 1), and stores them in the function F (z).
  • Mask to which relative value z (f, m) is assigned M (f, m) F (z (f, m))
  • the function of a smooth shape may be defined as F (z) and the mask of Expression (24) may be obtained.
  • the representative value a in this example, the average value of the cluster C
  • the variance values ⁇ 2 and a and a obtained as shown in Expressions (22) and (23) are used as the mask component 304—k ( Figure 11) reads, average a (f), variance
  • gi (z) is normalized by g (z) / gi ( ai ), and the value at ai is normalized to 1.
  • [gk + V a max ⁇ z may be calculated to obtain the mask of Expression (24).
  • This embodiment is also an embodiment according to the first invention.
  • a mask having a smooth shape is generated from the difference between the odd functions.
  • the processing in the mask creation unit corresponding to the mask generation unit 51-1k in FIG. 1 will be described.
  • the other configurations and processes are the same as those of the first to third embodiments.
  • the mask creation unit according to the present embodiment is configured such that the relative value is 0 when the relative value is the lower limit value a of the limited range.
  • the relative value z (f, m) includes at least one of the phase difference Zi (f, m) and the amplitude ratio z (f, m) shown in the first embodiment or the like, or a mapping thereof (for example, From the phase difference
  • This embodiment is also an embodiment according to the first invention.
  • the mask of the present embodiment is created in the mask creating section 51-k in FIGS. 1 and 2, takes a high level value for a relative value within a predetermined range including V representative values, It is a function (binary mask) that takes a low-level value for a representative value that is not within the range and has a discontinuous transition from a high-level value to a low-level value.
  • V ⁇ M that is, for example,
  • BCf.m ⁇ mul ma ⁇ (25)
  • A, a are set in the range of a a a a a a, a a a a a a
  • a and a are generated by, for example, the same procedure as the method described in the fourth embodiment. Also in this embodiment, the phase difference z (f, m), the amplitude ratio z (f, m), the phase mm max 1 2
  • the number of relative values z (f, m) included in the range of a force a is 2 or more and M or less
  • the number M of sensors preferably the number M of sensors.
  • a plurality of types of binary masks B (f, m) are created in this embodiment.
  • the mask control unit 40 (Figs. 1 and 2) reads the representative values a, a, ..., a from the temporary memory unit 90, and reads these representative values a, a,. .., data that identifies the set G with elements a
  • variable SG is assigned to the variable SG, and the variable SG is stored in the temporary storage unit 90. Also, mask control
  • the mask control unit 40 sets a value obtained by adding 1 to the variable k stored in the temporary storage unit 90 as a new variable k and stores it again in the temporary storage unit 90 (FIG. 4: step S7).
  • the mask control unit 40 calls the variables SG and SG from the temporary storage unit 90.
  • the mask control unit 40 determines from the set G specified by the variable SG
  • the mask creation unit 51 — k reads the variable SG stored in the temporary storage unit 90, and
  • FIG. 12A is an example of a binary mask according to the present embodiment. This example assigns a high-level value (eg, 1) to a relative value z (f, m) within a predetermined range including two representative values a, a.
  • a high-level value eg, 1
  • z (f, m) e.g. 1
  • the high level value is flat, and the high level value and the low level value are discontinuous.
  • a binary mask B (f, m) is used instead of the smooth-shaped mask M (f, m) used in the first and second embodiments, and the signal value in the frequency domain is used.
  • a mixed signal in this embodiment, this is called a "limited signal" composed of signals emitted from the signal sources is extracted, and the processing of the first or second embodiment is executed.
  • a sample value located between 1 2 and 1 2 can also be extracted. Also, for example, a position between a and a
  • Such a sample is highly likely to be the sample corresponding to the representative value a or a.
  • the signal power degradation due to the binary mask B (f, m) of the present embodiment is caused by the limited signal being s
  • a limited signal is extracted using the binary mask of the present embodiment, and ICA is provided to the limited signal to perform signal separation.
  • audio signals from three speakers are used as the original signal, and a mixed signal in a reverberation-free environment is observed with two omnidirectional microphones. Simulating the situation.
  • the method of this embodiment can obtain a much higher SDR than the conventional method 2 with almost no decrease in the separation performance SIR. This indicates that the method of this embodiment performs signal separation with much lower distortion.
  • This embodiment is also an embodiment according to the first invention, and is a modification of the above-described sixth embodiment.
  • the present embodiment is also an embodiment in which the limited signal is extracted using the binary mask when 2 ⁇ V ⁇ M, but there is a difference in the method of creating the binary mask B (f, m) and the process of calculating the limited signal. .
  • the method of creating the binary mask B (f, m) and the process of calculating the limited signal will be described, and other processes and functional configurations will be described in the first embodiment or the second embodiment. Since this is the same as the embodiment, the description is omitted.
  • the hard mask B (f, m) of this mode is for extracting an observation signal component other than the above-described limited signal.
  • the binary mask B (f, m) created by the mask creation unit of this embodiment has a low-level value with respect to a relative value within a predetermined range including V representative values (this set is defined as G). To a high value for a representative value (G c ) that is not within this predetermined range.
  • the transition from a high level value to a low level value is a discontinuous function. However, 2 ⁇ V ⁇ M.
  • the mask generating unit 51- k in this embodiment for example, with the representative values included in the G e
  • phase difference z (f, m) the amplitude ratio z (f, m), the direction of arrival z (f, m) of the signal obtained from the phase difference z (f, m), and the like are given.
  • FIG. 12B is an example of the binary mask B (f, m) of the present embodiment.
  • V two representative values a, a within a given range containing a.
  • a high level value for example, 1
  • the high level value of the binary mask of this example is flat, and the high level value and the low level value are discontinuous.
  • the limited signal extraction unit of this embodiment converts the signal value X (f, m) in the frequency domain
  • the binary mask M (f, m) in the above equation (3) is a binary mask that takes a high-level value for only one representative value, and a high-level for two or more representative values.
  • the processing of this embodiment may be performed using a binary mask that takes a value. Also, the processing of the present embodiment may be performed using the above-described smooth-shaped mask instead of the binary mask.
  • the limited signal X (f, m) is calculated, the same limited signal separation, time domain conversion, and signal integration processing as in the first embodiment or the second embodiment is performed.
  • This embodiment is an example according to the second embodiment of the present invention, in which a signal is observed by M sensors. Then, the observation values are clustered in the M-dimensional domain, and a mask is defined.
  • a description will be given focusing on differences from the first embodiment, and a description of items common to the first embodiment will be omitted.
  • FIG. 13 is a block diagram illustrating a configuration of the representative value generation unit 430, the mask control unit 40, and the limited signal generation unit 450-k in the present embodiment. This figure shows only one system for obtaining V separated signals. In this embodiment, 1 ⁇ V ⁇ M.
  • the structural difference between the signal separation device of the present embodiment and the signal separation device 1 of the first embodiment is a representative value generation unit and a limited signal generation unit. That is, a representative value generation unit 430 (FIG. 13) is provided instead of the representative value generation unit 30 (FIG. 1) of the signal separation device 1 of the first embodiment, and the limited signal generation unit 50 of the signal separation device 1 is provided. Limited signal generator 450-k (FIG. 13) is provided instead of -k (FIG. 1). Other configurations are the same as those of the first embodiment.
  • FIG. 14 is a flowchart for explaining signal separation processing in the present embodiment. Hereinafter, the signal separation processing of the present embodiment will be described with reference to this flowchart.
  • the signal separation processor 3 executes the following processing under the control of the control unit 10.
  • the signal separation processor 3 accesses the storage unit 2 under the control of the control unit 10, sequentially reads each observation signal value X (t) therefrom, and sends it to the frequency domain conversion unit 20 (step S21).
  • the frequency domain transform unit 20 sequentially converts these signal values into time-domain observed signal values X (f, m) by a short-time discrete Fourier transform or the like, and stores them in the temporary storage unit 90.
  • the clustering unit 432 calculates the observed signal values X (f, m),..., X (f, m) in the frequency domain stored in the temporary storage unit 90 (FIG. 1). ) Is read. And the clustering part 4
  • X (f, m) [X (f, m),..., X (f, m)]
  • the purpose of clustering is to classify samples (observed signal vector X (f, m)) in which the same signal source is dominant (having a main component) into the same cluster.
  • the obtained N clusters C (f),..., C (f) need not necessarily be disjoint (c i (f) n c j (f) is an empty set, i ⁇ j).
  • the clustering unit 432 in this example performs each clustering so that the clustering can be performed properly, that is, the samples in which the same signal source is dominant (the observed signal vector X (f, m)) are classified into the same cluster. Clustering is performed after normalizing Sampnore.
  • the observed signal vector X (f, m) is read from the normalization unit 432a (FIG. 13) and the temporary storage unit 90 (FIG. 1).
  • the normalization unit 432a in this example performs the normalization of Expressions (28) and (29), and further performs
  • the cluster generation unit 4 3 2 b performs clustering on the normalized result.
  • is the norm of X (f, m).
  • L k (X (f 5 m)) (L norm ⁇ X (f, m) ⁇ ⁇ i, m) defined by ( ⁇ ⁇ 3 ⁇ 4
  • clustering performed by the cluster generation unit 432b
  • a method described in many textbooks such as hierarchical clustering or k-means clustering can be used (for example, See “Translation of Patterns” by Morio Onoe, New Technology Communications, ISBN 4-915851-24-9, Chapter 10.).
  • the clustering method of the displacement is also defined as the distance between the two samples X (f, m) and X '(f, m), and the closeness between the samples is measured in accordance with the distance.
  • the class is set so that is included in the same cluster.
  • the cluster generation unit 432b uses the cosine distance between the two normalized observation signal vectors X (f, m) as a distance scale. Perform clustering using Note that the cosine distance between the two samples X (f, m) and X '(f, m) is
  • the cluster generation unit 432b calculates the difference (X (f, m) between the two normalized observation signal vectors. -X '(f, m)) L norm ⁇ X (f, m) — X, (f, m) ⁇ , m) — norm
  • clustering is performed using the cosine distance (Equation (32)) as a distance measure (end of the description of [Details of processing in clustering section 432]).
  • the representative value calculation unit 433 sequentially sorts each class C (f) stored in the temporary storage unit 90 (FIG. 1).
  • the representative vector (corresponding to the “second vector”) (f) representing each class C f (f) is calculated (step S24).
  • the representative vector generation unit 433a (FIG. 13) of the representative value calculation unit 433 sequentially extracts each class C (f) stored in the temporary storage unit 90 (FIG. 1), and assigns each class C (f) to each cluster C (f). Average value of the sample value X (f, m) to which it belongs
  • the sample X (f, m) belonging to each cluster C (f) is appropriately quantized, the most probable value is obtained, and this is represented by the representative vector a (and
  • the representative vector a (f) obtained in this manner is stored in the temporary storage unit 90 (FIG. 1).
  • the reordering unit 433b (FIG. 13) reads out these representative vectors a (f),..., A (f) from the temporary storage unit 90 (FIG. 1), and Each source signal of each representative vector a (f),..., A (f)
  • each representative vector a (f) ki is changed so that the correspondence with s (t) is the same at all frequencies f (step S25).
  • the reordering unit 433b uses the read representative vector a (f) of each frequency f,
  • d is the position of the sensor j
  • V is the speed of the signal
  • a (f) is the i-th element of the representative vector a (f)
  • d and V are stored in the temporary storage unit 90 in advance, for example. The data that has been used will be used.
  • the calculated estimated values ⁇ (f) are stored in the temporary storage unit 90 (FIG. 1), for example, in correspondence with the representative vector a (f) used for the calculation.
  • the sorting unit 433b Fig. 13
  • each estimated value ⁇ . (F) is read from the temporary storage unit 90, and these are rearranged in a predetermined order (for example, ascending order, descending order, etc.) for each frequency f.
  • This rearrangement is performed by, for example, a known rearrangement algorithm.
  • the rearranging unit 433b reads this order information j ′ (f, a (f)) from the temporary storage unit 90, and stores the order information j, (f, a (f ))
  • each representative vector and i is changed to correspond to the symbol (replace the subscript i in a (f)). Then, each of the representative vectors a (f) with the subscript i replaced is stored in the temporary storage unit 90 (FIG. 1).
  • the mask control unit 40 specifies a set G having the respective representative vectors a (f) as elements.
  • the data to be i 0 is substituted for a variable SG, and the variable SG is stored in the temporary storage unit 90. Also,
  • the mask control unit 40 sets a value obtained by adding 1 to the variable k stored in the temporary storage unit 90 as a new variable k and stores it again in the temporary storage unit 90 (step S27).
  • the mask control unit 40 calls the variables SG and SG from the temporary storage unit 90 (FIG. 1).
  • V ( ⁇ M) representative vectors a (f) (p l, 7) including elements of the complement of the specified set G (G e ( ⁇ e indicates the complement of hi)) , V) (corresponding to the “third vector”).
  • step S28 the mask control unit 40 sets each representative vector a (f
  • the variables SG, SG and the observation signal vector X (f, m) are obtained from the mask generation unit 451-k (FIG. 13) and the temporary storage unit 90 (FIG. 1) of the limited signal generation unit 450-k. Reading k 0
  • step S29 To generate the following mask M (f, m) (step S29).
  • D (X (f, m), ai (f)) is the Mahalanobis square distance between the vector X (f, m) and a; (f).
  • the mask M (f, m) is stored in the temporary storage unit 90 (Fig. 1), and the limited signal extraction unit 452-k
  • FIG. 13 reads the mask M (f, m) and the observed signal vector X (f, m) from the temporary storage unit 90.
  • the limited signal separating unit 60-k uses the limited signal value X (f, m) to obtain k
  • the limited signal is separated (step S31).
  • the limited signal value X ′ (f, m) is V k (l
  • the permutation 'scaling solution unit 62-k force temporary storage unit 90 force The inverse matrix of the extracted separation matrix W (f) (in the case of N ⁇ M, the Moore-Penrose pseudo Inverse matrix)
  • the station 'scaling solver 62-k generates a representative value a for the separated signal Y.
  • the separation matrix W (f) is extracted from the permutation 'scaling solution section 62-k force temporary storage section 90, and each row w (f) is extracted.
  • the scaling problem of the ICA is solved, and the separation matrix W (f) after the scaling problem is solved is stored in the temporary storage unit 90.
  • Each separated signal value Y to which the tag ⁇ is added is sent to the time domain transform unit 70-k.
  • the inter-domain transform unit 70-k converts each separated signal value Y obtained in the time-frequency domain into a signal value in the time domain by, for example, short-time inverse discrete Fourier transform or the like, and converts the converted value.
  • the time domain transforming unit 70-k extracts the tag ⁇ ⁇ ⁇ ⁇ associated with the signal value Y in the frequency domain from the temporary storage unit 90 for each frequency and time.
  • the time domain conversion unit 70-k determines whether or not the tags ⁇ at each frequency and time are all equal. Here, if all these are equal, the tag of the time-domain signal value y k is associated with the tag q associated with the frequency-domain signal value Y q kq kq
  • the tag of the signal value y kq in the time domain is determined by majority decision.
  • the mask control unit 40 extracts the variables SG and SG from the temporary storage unit 90,
  • variable SG is stored in the temporary storage section 90 (step S34). Also, the mask control unit 40 reads the variables SG and SG from the temporary storage unit 90, and this new set G is equal to the set G.
  • step S35 It is determined whether it is 0 0 or not (step S35). Here, if G is not G, the process of step S27
  • the selection / integration is performed to obtain all N separated signals (step S36). Specifically For example, first, the signal integration unit 80 firstly reads each separated signal y (t
  • the signal integration unit 80 determines that all the separated signal values y (t)
  • the signal integration unit 80 appropriately selects one of the separated signal values having the same tag, and determines the final value. Power to be output as the target separated signal value y (t) ⁇ The average of separated signal values having the same tag is calculated and used as the output signal (step S37).
  • one of the separated signal values y (t) is appropriately selected, and the final separated signal value y (t) is selected.
  • the signal integration unit 80 outputs, for example, a signal having the maximum power among the separated signal values y (t) having the same tag a as the final separated signal value y (t). .
  • the signal integration unit 80 in the case of a process of outputting the average of the separated signal values having the same tag as the final separated signal value y (t), the signal integration unit 80
  • N signals are separated with little distortion.
  • the mask M (f, m) is not generated
  • a limited signal value may be directly generated. That is, for example, the limited signal generation unit 450-1 k calculates the observed signal vector X (f, m)
  • Equation 39 max a p (f) eG k D (X (f, m), a p (f)) ⁇ min a q (f) eGC D (X (f, m), a q (f) ) Is determined, and the observed signal level X (f, m) determined to be satisfied is determined by the signal source. Alternatively, it may be extracted as a value of a signal emitted therefrom.
  • This embodiment is an embodiment according to the third invention.
  • FIG. 15 is a block diagram illustrating the configuration of a brand signal separation device 500 according to the present embodiment.
  • the arrows in this figure indicate the flow of data, and the flow of data to and from the force control unit 521 and the temporary storage unit 522 is omitted. That is, even when data passes through the control unit 521 or the temporary storage unit 522, the process of passing the data is omitted.
  • the signal separation device 500 of the present embodiment includes a storage unit 501 and a signal separation processor 502 electrically connected to the storage unit 501 by wire or wirelessly.
  • the storage unit 501 includes, for example, a magnetic recording device such as a hard disk device, a flexible disk, and a magnetic tape; an optical disk device such as a DVD-RAM (Random Access Memory) and a CD-R (Recordable) / RW (Rewritable); and an MO (Magneto- Examples include magneto-optical recording devices such as an optical disc, semiconductor memories such as an EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), and a flash memory. Further, storage unit 501 may be present in the same housing as signal separation processor 502, or may be configured in a separate housing.
  • the signal separation processor 502 in this example is hardware constituted by, for example, a processor, a RAM, and the like, and includes a frequency domain transforming section 511, a mixing matrix estimating section 512, a permutation problem solving section 513, and a scaling problem solving section. It has a section 514, a column selection section 516, a matrix generation section 517, a separation matrix generation section 518, a separation signal generation section 519, a time domain conversion section 520, a control section 521, and a temporary storage section 522.
  • the mixing matrix estimating unit 512 of this example includes a clustering unit 512a, a representative vector calculation unit 512b, and a vector integration unit 512c. Further, the clustering unit 512a has a normalization unit 512aa and a cluster generation unit 512ab.
  • FIG. 16 is a flowchart for explaining the entire processing of the signal separation device 500 in the present embodiment. It is one chart. Hereinafter, the processing of the signal separation device 500 will be described with reference to FIGS. In the following, a case will be described where signals emitted from N (N ⁇ 2) signal sources are mixed and observed by M sensors.
  • the signal separation device 500 executes the following processing under the control of the control unit 521. First, the values X (t) and X of the observed signals observed by the M sensors are written as
  • the frequency domain converter 511 converts these observed signal values X (t) and X (t) into a short-time discrete Fourier transform.
  • the generated estimated mixing matrix A (f) is stored in the temporary storage unit 522.
  • the permutation problem solving unit 513 reads the estimated mixing matrix A (f) from the temporary storage unit 522, and sorts the columns of the estimated mixing matrix A (f) to solve the permutation problem ( Step S55). In this process, the value Y (f
  • ⁇ , m can be used as feedback, in which case the permutation problem can be solved more accurately.
  • the scaling problem solving unit 514 normalizes the columns of the estimated mixing matrix A (f) to solve the scaling problem (step S56), and then uses this estimated mixing matrix A (f) to
  • the separation matrix generation unit 518 generates a separation matrix W (f, m) (step S57).
  • the separated matrix W (f, m) is separated therefrom.
  • a signal vector Y (f, m) [Y (f, m),..., Y (f, 111)] is calculated (step 358).
  • the output separated signal values Y (f, m), ..., ⁇ (f, m) are stored in the temporary storage
  • the time domain transform unit 520 converts the separated signal values Y (f, m),.
  • step S59 a separated signal value y (t) in the time domain is obtained.
  • the clustering unit 512a puts together the observation signal components X (f, m),..., X (f, m) of all the sensors read from the temporary storage unit 522, and combines these with the observation signal vector X (f, m).
  • the number N of clusters C (f) equal to the number of signal sources are generated by clustering, and these are stored in the temporary storage unit 522 (step S52).
  • the purpose of clustering is to classify samples (observed signal vectors X (f, m)) in which the same signal source is dominant (having a main component) into the same cluster. Note that the obtained N clusters C (f),..., C (f) are
  • n c (f) is an empty set, i ⁇ j) and that do not belong to a cluster
  • representative vector calculation section 512b reads each cluster C (f) from temporary storage section 522, and calculates the average value of sample X (f, m) belonging to each cluster C (f).
  • ai (m) ⁇ X ( f, m) eCi (f) X (f 'm) /
  • Ci to (f) l is calculated as a representative vector a ⁇ f) for each signal source (step S53).
  • the sample X (f, m) belonging to each cluster C (f) may be appropriately quantized, the most probable value may be obtained, and this may be used as the representative vector a (f).
  • Mixing matrix A (f) [a (f),..., a (f)]
  • the estimated mixing matrix A (f) includes the arbitrariness of the order of each vector (arbitrary of permutation) and the arbitrariness of the size of each vector (arbitrary of scaling). That is, the representative vector a (f) is
  • is a permutation expressing the arbitraryness of permutation.
  • the clustering unit 512a in this example uses the same signal source as the dominant sample (observed signal vector X (f, m)) so that the clustering can be performed properly. Clustering is performed after normalizing each sample by the normalizing unit 512aa.
  • the normalization unit 512aa in this example further includes:
  • Clustering is performed after normalization of.
  • is the norm of X (f, m).
  • clustering method for example, a method described in many textbooks such as hierarchical clustering or k-means clustering is used (for example, "Translation by Morio Onoe")
  • each clustering method the distance between two samples X (f, m) and X '(f, m) is defined, and the closeness between samples is measured according to the distance.
  • the class is ringed so as to be included in the same cluster.
  • the clustering unit 512a uses the cosine distance between the two normalized observation signal vectors X (f, m) as a distance measure. To perform clustering.
  • the cosine distance between the two samples X (f, m) and X '(f, m) is
  • the clustering unit 512a causes the cluster generation unit 512ab to calculate the distance between the two normalized observation signal vectors.
  • the representative vector a (f) of each cluster C is estimated as the mixed vector h (f) (large
  • cluster C only a certain source signal S is dominant and the other source signals are close to zero.
  • the observed signal vector X (f, m) normalized by equation (36) is represented by a straight line of a vector obtained by multiplying the mixed vector h (f) by sign * (H (f)). You can see that they get together.
  • the position on the straight line depends on the size of the signal source I S (f, m)
  • the columns of the estimated mixing matrix A (f) calculated at each frequency f are rearranged, and all the representative vectors a (f) for the same signal source s (t) are obtained.
  • step S55 Make the same at frequency f (step S55). That is, the subscript i is added so that the correspondence between each separated signal Y (f, m), ..., Y (f, m) and each signal source is the same at each frequency f.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Indication And Recording Devices For Special Purposes And Tariff Metering Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

 信号源の数Nとセンサの数MがN>Mの関係にある場合に、混合信号を高い品質で分離する。  まず、センサにおいて観測された観測信号の値を周波数領域の信号値に変換し、周波数領域の信号値を用い、センサ間における観測値の相対値を、各周波数において算出する。次に各相対値をN個のクラスにクラスタリングし、各クラスの代表値を算出する。そして、これらの代表値を用い、周波数領域の信号値から、V(1≦V≦M)個の信号源から発せられた信号の値を抽出するためのマスクを作成し、このマスクを用い、前記周波数領域の信号値から、V個の信号源から発せられた信号の値を抽出する。その後、V=1であれば限定信号をそのまま分離信号として出力し、V≧2であればこの限定信号にICA等を適用し、分離信号を得る。

Description

明 細 書
信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 技術分野
[0001] 本発明は、信号処理の技術分野に関し、特に、必要である源信号(目的信号)のみ を直接観測することができず、 目的信号に他の信号が重畳されて観測されるという状 況において目的信号を推定する信号分離方法、信号分離装置、信号分離プロダラ ム及びそれを格納した記録媒体に関する。
^景技術
[0002] 従来から、複数の源信号 (音声信号等)が混合された混合信号を用い、源信号や 混合過程の知識を用いることなぐ混合前の源信号を分離 ·抽出するブラインド信号 分離(BSS: Blind Source Separation)技術が知られている。
図 27Aは、このブラインド信号分離技術を概念的に例示したブロック図である。 この図に例示するように、ブラインド信号分離では、複数 (この例では N個)の信号 源 701から発せられた源信号 s (i= l , · · · , N)が混合し、複数 (この例では M個)のセ ンサ 702で観測される状況下において、その観測信号 x (j = l ,…, M)のみから、源 信号と推測される分離信号 y (k= l,…, N)を取り出す。ここで、信号源 701から発 せられた源信号 sが混合し、センサ 702で観測されるまでの過程を「混合過程」と呼 び、センサ 702の観測結果から分離信号を取り出す過程を「分離過程」と呼ぶ。
[0003] はじめに、観測される信号及び分離問題を定式化する。
〔実環境での混合信号 (観測信号)のモデル〕
まず、混合過程についてモデル化する。
Nを信号源 701の個数、 Mをセンサ 702の個数、 sを i番目の信号源 701 (信号源 i) 力 発せられた信号 (源信号)、 hを信号源 iから j番目のセンサ 702 (センサ までの インパルス応答とする。この場合、センサ jで観測される信号 Xは、これら源信号 sとィ ンパルス応答 hの畳み込み混合
[数 1]
Figure imgf000003_0001
でモデル化される。ここで「畳み込み」とは、信号の伝搬過程で、信号が遅延され、所 定の係数が乗算された後、加算されることをいう。また、すべての信号はあるサンプリ ング周波数でサンプリングされ、離散的に表現されるものとする。そして、式(1)にお ける Pはインパルス応答長を、 tはサンプリング時刻を、 pは掃引(時間シフトした信号 のサンプル値それぞれに異なる係数を作用させる操作)のための変数を、それぞれ 示している。なお、 N個の信号源 701は統計的に互いに独立であり、それぞれの信 号は十分スパースであると仮定する。また、「スパース」とは、信号が殆どの時亥 ijtにお いて 0であることを指し、このスパース性は、例えば音声信号で確認される。
[0004] BSSの目的は、源信号 sやインパルス応答 hを知らずに、観測信号 Xのみから、分 離システム (W) 703を推定し分離信号 yを得ることである。
k
また、畳み込み混合の問題は扱いが繁雑であること、さらに、スパース性の仮定は 時間一周波数領域でよりょく成立することから、上述の式(1)に短時間離散フーリエ 変換(DFT: Discrete Fourier Transform)を施して、信号を時間 周波数領域に変換 した上で問題を扱うことが有効である。時間 周波数領域では、上述の式(1)は、
X(f, m)=H(f)S(f, m)
となる。ここで、 fは周波数、 mは DFTに用いるフレームの時刻を表す。また、 H(f)は
、その ij要素に信号源 iからセンサ jまでの周波数応答 H (f)を持つ(MX N)行列であ n
り、以後これを混合行列と呼ぶ。また、 S(f, m) = [S (f, m), ···, S (f, m)]T、X(f
1 N
, m) = [X (f, m), ···, X (f, m)]Tはそれぞれ、源信号と観測信号の DFT結果で
1 M
ある。なお、記号 [ α ]τは αの転置行列を表す。また、 S (f, m)及び X(f, m)はべタト ルである。
[0005] 以降、時間一周波数領域で説明を行う。
<分離過程のモデル >
次に、分離過程についてモデル化する。
まず、 W(f, m)を、その jk要素にセンサ jでの観測信号から分離信号 yまでの周波 k 数応答 W (f, m)を持つ(NX M)行列であるとする。この W(f, m)を分離行列と呼 ぶ。分離行列を用いると、分離信号は時間 -周波数領域で、
Y(f, m)=W(f, m)X(f, m) となる。ここで Y(f, m) = [Y (f, m), ···, Y (f, m)]Tは、時間一周波数領域での分
1 N
離信号であり、これを短時間逆離散フーリエ変換(IDFT: Inverse Discrete Fourier Transform)することで、源信号の推定結果である分離信号 yを得る。なお、分離され
k
た分離信号 yの順序は、源信号 sの順序と必ずしも一致しない。すなわち、 k=iとは
k i
限らない。また、 Y(f, m)はベクトルである。
[0006] <分離行列 W (f , m)の推定 >
BSSでは、観測信号のみから分離行列 W(f, m)を推定する。
分離信号 Y(f, m)の推定のための従来手法には、(a)独立成分分析による方法、 ( b)信号のスパース性を利用した方法、 (c)スパース性により混合行列を推定する方 法が知られている。以下、それぞれについて説明を行う。
[従来法 1:独立成分分析による方法]
前述の式(1)のように線形混合された信号を、信号の統計的独立性に基づいて分 離する技 亍は、独立成分分析 (ICA: Independent Component Analysis)と呼ばれる。 N = M = 2の場合について、この ICAによる分離過程のブロック図を、図 27Bに示す。 時間-周波数領域の ICAでは、出力信号 Y(f, m)の各要素が互いに独立となるよう、 学習則 W(f) =W(f) + AW(f)により逐次的に学習を行レ、、各周波数における分離 行列 W(f, m)を求める。ここでは、 ICA分離行列推定部 705が、例えば、
△ W= μ [I—く φ (Y(f, m))Y(f, m)H>コ… (2)
という学習則により AW(f)を求める。但し [α]Ηは αの共役転置を示す。なお、 Iは単 位行列、 <·>は時間平均、 Φはある非線形関数、 / は更新係数を、それぞれ表す 。また、 ICAで求められる分離システムは、時不変線形システムとなる。なお、 ICAの アルゴリズムは、非特許文献 1に記載されているものなど、様々なものが紹介されてい る。
[0007] ICAでは信号の独立性に着目して分離を行うため、この分離行列 W(f, m)を用い 、 Y, (f, m) =W(f, m)X(f, m)によって得られる Y' (f, m) = [Y,(f, m) ,…, Y '
1 N
(f, m)]Tには、順序の任意性と大きさの任意性とがある。これは、順序や大きさが変 わっても分離信号間の独立性が保たれるからである。
順序の任意性を解くことをパーミュテーシヨン(permutation)の解決と呼ぶが、これ は、同じ源信号 ^に対応する分離信号成分が、すべての周波数で同じ添字 iを持つ 分離信号 Y (f, m)になるようにするものである。その方法としては、分離行列の逆行 列(N≠Mの場合は Moore-Penrose型擬似逆行歹 IJ)を用いて得られる信号の推定到 来方向を検証し、 i番目の分離信号に対応する推定到来方向が各周波数において すべて同じとなるように分離行列 W(f, m)の行を入れ換える方法や、周波数間で i番 目の分離信号の絶対値 I Y(f, m) Iの相関が最も高くなるように分離行列 W(f, m )の行を入れ換える方法などがある。なお、この例のパーミュテーシヨン/スケーリング 解決部 706は、分離信号 Y (f, m)をフィードバックしつつ、このパーミュテーシヨンの i
解決を行う。
[0008] また、大きさの任意性を解くことをスケーリング (scaling)の解決と呼ぶ。パーミュテ一 シヨン/スケーリング解決部 706は、例えば、 permutation解決後に得られている分離 行列 W(f, m)の逆行歹 1J(N≠Mの場合は Moore-Penrose型擬似逆行歹 IJ)W— ^f, m) を計算し、分離行列 W(f, m)の各行 w (f, m)について
i
w (f, m)^[W_1(f, m)] w (f, m)
i ji i
とし、このスケーリングの解決を行う。
そして、順序と大きさの任意性を解決した分離行列 W(f, m)を用い、 Y(f, m) =W (f, m)X(f, m)により各周波数での分離信号を得る。
[0009] なお、上述の学習則については、例えば、式(2)における非線形関数として、 φ (Y) = φ ( I Y I ) -exp(j-Z (Y))
Φ (Xノ =sign (x
などを用いることができる。また、上述のように、 permutation解決法としては、例えば、 信号到来方向推定法や分離信号の周波数の周波数類似度を利用した方法の何れ か、若しくは、両者を組み合わせた方法を用いることができ、それについては特許文 献 1や非特許文献 2に詳しい。さらに、 ICAでは、信号源の数 Nとセンサ数 Mが M≥ Nの関係にある必要がある。
[0010] [従来法 2:スパース性による方法]
信号源の数 Nとセンサ数 Mが M≤Nの関係にある場合の分離手法として、信号の スパース性による方法がある(例えば、非特許文献 3)。 信号のスパース性と相互独立性を仮定することで、複数の信号が同時に存在して レ、ても、サンプルレベルでは、同時刻に互いに重なり合って観測される確率が低いと レ、うことを仮定できる。すなわち、各時刻における観測信号には、高々 1個の信号し 力、含まれないということを仮定できる。従って、それぞれの時刻で観測された信号が、 どの信号源から発せられた信号であるかを何らかの方法で推定し、その時刻の信号 のみを抽出するような関数 (バイナリマスク)を分離システム W (f, m)として用いること で、信号を分離することが可能である。これ力 Sスパース性による方法である。
[0011] 図 28 (従来法 2)は、このスパース性による方法を説明するためのブロック図である。
各時刻での信号源の推定には、以下の方法を用いるのが一般的である。すなわち 、それぞれの信号源が空間的に離れて配置されているとすると、複数のセンサで観 測される信号間に、各信号源とセンサの相対位置によって決まる位相差や振幅比が 発生する。各時刻における観測信号には高々 1つの信号しか含まれないという仮定 から、各時刻における観測信号の位相差や振幅比は、その時刻の観測信号に含ま れる 1つの信号の位相や振幅となる。従って、各サンプルにおける観測信号の位相 差や振幅比をクラスタリングすることができ、それぞれのクラスに属する時刻の信号を 再構成することで各源信号を推定することができる。
[0012] より具体的に述べる。はじめに観測信号相対値計算部 751において、観測信号 X(f , m)間の
[数 2]
Xi(f,m)|
位相差 (f, m) = Xj (l , m) (i≠ j)及び振幅比 z2 (f , m) = (i≠j) Xj(f,m) Xj(f,m) の少なくとも一方を計算し、それを相対値 z (f, m)とする。また、或いは位相差そのも のではなぐ位相差から求められる信号の到来方向を相対値 z (f, m)としてもよい。
[0013] そして、クラスタリング部 752で相対値 z (f, m)の分布を調べると、 N個のクラスを持 つ分布となる。図 29に、この分布を例示する。なお、この例は、 3信号の混合信号 (N = 3)をセンサ 1 (j = 1)及びセンサ 2 (j = 2)で観測した場合の例であり、図 29Aは位 相差又は振幅比のみを用いて分布を求めた例、図 29Bは位相差と振幅比とを用い て分布を求めた例である。この図に示すように、スパース性により、これらの分布は、 それぞれ N = 3個のクラス 801— 803或いは 811— 813に分類できることが分かる。
[0014] 次に、代表値算出部 753において、これら N個のクラスの代表値(ピーク'平均値 · 中央値など)を求める。以降記載の便宜上、値の小さい方から a ,a ,···,&とする(図 2
1 2 N
9の場合は a,a,a )。
1 2 3
そして、バイナリマスク作成部 754において、
[数 3] Mk(f,m)=
Figure imgf000008_0001
l,...,N),--(3)
0 otherwise というバイナリマスク M (f, m)を作成する。ここで εはバイナリマスクの幅を決めるパ
k
ラメタである。次に、信号抽出部 755において Y (f,m)=M (f,m)X(f,m)の演算を行レ、、 k k k j
番目の分離信号を得る。なお、 jは任意のセンサ番号である。
即ち、この例のスパース性による方法では、分離行列 W(f, m)は時変であり、 W (f, m) =M (f, m) for ]≡{1, M}
jk k
W (f, m) =0 for l≠j(l=l, ···, M)
kl
という非線型システムとなる。
[0015] [従来法 3:スパース性により混合行列を推定する方法]
信号源の数 Nとセンサ数 Mが M = Nの関係にある場合の信号分離手法として、信 号のスパース性を用いて混合行列 H(f)を推定し、その逆行列を用いて信号を分離 する方法がある (例えば、非特許文献 4や非特許文献 5参照。)。
図 28 (従来法 3)は、このスパース性により混合行歹 IJを推定する方法を説明するた めのブロック図である。
混合信号 X(f, m)は、混合行列 H(f)を用いて
[数 4]
Figure imgf000009_0001
≡H(f)S(f,m) · · · (6)
と表される。 そのため、 H(f)を推定できれば、
Y(f , m) = S(f, m) = H(f)"1 X(f , m) · · -(7) により、 分離信号 Y(f , m)を推定できる。 以下に、 この fi(f)の推定から 分離信号 Y(f , m)を得るまでの流れを説明する。 なお、 以下において、
Λ
α Λは、 αを示す。 はじめに、 [従来法 2]と同様な手順により、観測信号相対値計算部 751、クラスタリ ング部 752、代表値算出部 753、バイナリマスク作成部 754及び信号抽出部 755に おいて、 1つの信号しか存在しない時刻の信号
[数 5]
X(f,m) = Mk(f,m)X(f,m) を得る。ここでは、すべてのセンサの観測信号 X(f, m) = [X (f, m), ···, X (f, m)
1 M
]Tについてバイナリマスク M (f, m)を適用する。このとき例えば、源信号 S(f, m)の
k i
みがアクティブな時刻 mの観測信号は、
[数 6] Xj(f5mi) = Mi(f,mi)Xj(fimi) «Hji(f)Si(f,mi) -(8) となる。
このように求められた分離信号 X ' 』 ( f , m i ) は混合過程計算部 7 5 6に送られ、 そこで
Figure imgf000010_0002
Figure imgf000010_0001
を計算することにより H (f)が推定される。ここで、 Ε[ · ]は、 mに関する平均である。
i
このように求められた tr (f)は、逆行列計算部 757に送られ、そこでその逆行列 tr ( f)—1が求められる。そして、信号分離部 758において、上述の式(7)の演算を行うこと により、分離信号 Y(f, m)の推定ができる。
なお、この手法は、 H (f)の逆行列を用いるため、信号源の数 Nとセンサ数 Mが M =Nの関係にある場合にしか適用できない。
特許文献 1 :特開 2004 - 145172号公報
非特許文献 1: A. Hyvaermen and J. Karhunen and E. Oja, Independent Component Analysis, John Wiley & Sons, 2001, ISBN 0-471-40540
非特許文献 2 : H. Sawada, R. Mukai, S. Araki and S. Makino, "A Robust and Precise Method for Solving the Permutation Problem of Frequency-Domain Blind Source Separation", in Pro the 4th International Symposium on Independent Component Analysis and Blind Signal Separation (ICA 2003), 2003, pp. 505—510
非特許文献 3 : S. Rickard, R. Balan, and J. Rosea, ^Real-Time Time-Frequency Based Blind Source Separation, ^rd International Conference on Independent Component Analysis and Blind Source Separation (ICA2001), San Diego,
December, 2001, pp. 651 - 656
非特許文献 4 : F. Abrard, Y. Deville, P. White, From blind source separation to blind source cancellation in the underdetermined case: a new approach based on time-frequency analysis," Proceedings of the 3rd International Conference on Independent Component Analysis and Signal Separation (ICA'2001), pp. 734-739, San Diego, California, Dec. 2001.
非特許文献 5 : Y. Deville, "Temporal and time-frquency correlation-based blind source separation methods, " in Proc. , ICASSP2003, Apr. 2003, pp. 1059-1064 発明の開示
発明が解決しょうとする課題
従来の信号分離方法では、信号源の数 Nとセンサの数 Mが N > Mの関係にある場 合に、混合信号を高い品質で分離することは困難であった。
つまり、前述のように、信号源の数 Nとセンサの数 Mが N > Mの関係にある場合、独 立成分分析による方法、及びスパース性により混合行列を推定する方法は使用でき ない。
また、信号のスパース性を利用した方法は使用できるが、この方法では、分離性能 力 ぐなおかつ歪みが小さい信号分離を行うことが困難である。つまり、上述の式(3 )で示されるバイナリマスクの作成時、 εを十分小さくすると良い分離性能を得ること ができるが、その反面、このバイナリマスクによって排除されるサンプルの数が増加し 、分離信号が劣化する。すなわち、信号のスパース性が完全なのであれば、各時刻 の観測信号には高々 1個の信号しか含まれず、各時刻における各相対値 z (f, m)は 、何れかの代表値 a , a の近傍に収まるはずである。しかし、実際には信号のス
1 N
パース性は完全ではないため、ある時刻において、同一周波数の観測信号が 2個以 上存在する場合もある。この場合、この時刻における相対値 z (f, m)は、本来対応す べき代表値 a , · · · , a 力 離れた値となり、 εの値によってはバイナリマスクによって
1 Ν
排除されてしまう。その結果、このサンプルに対応する観測信号が 0として取り扱われ 、分離信号に 0成分が詰め込まれることになる。そして、この排除されるサンプルの割 合は εの値が小さいほど大きいため、この 0成分が詰め込まれる量も εの値が小さい ほど大きくなる。そして、各分離信号に多くの 0成分が詰めこまれた場合、これが原因 となって、分離信号の歪みが大きくなり、 Musical Noiseと呼ばれる聴感上不快なノィ ズが発生する。一方、バイナリマスクの εを大きくすると、分離信号に詰められる 0成 分が少なくなり Musical Noiseは減少する力 その反面、分離性能が劣化する。
[0018] 本発明はこのような点に鑑みてなされたものであり、信号源の数 Nとセンサの数 M 力 SN >Mの関係にある場合でも、混合信号を高い品質で分離することが可能な技術 を提供することを目的とする。
課題を解決するための手段
[0019] 第 1の本発明では、以下のように上記課題を解決する。
まず、 M個のセンサで観測された N (N≥ 2)個の信号の混合である観測信号の値 を周波数領域値に変換し、その周波数領域値を用い、センサ間における観測値の相 対値 (相対値の写像も含む)を、各周波数において算出する。そして、これらの相対 値を N個のクラスにクラスタリングし、それらの各クラスの代表値を算出する。その後、 それらの代表値を用い、周波数領域値力も V (V≤M)個の信号源力 発せられた信 号の値を抽出するためのマスクを作成し、生成したマスクを用い、当該 V個の信号源 力 発せられた信号から成る限定信号の値を抽出する。そして、 V≥ 2の場合には、 この限定信号は V個の信号源力 発せられた信号力 成る混合信号となるため、この 限定信号をさらに分離して各分離信号の値を得る。一方、 V= lの場合には、この限 定信号の値を分離信号の値とする。
[0020] ここで抽出された V個の信号源から発せられた信号からなる限定信号の分離には、 例えば独立成分分析による方法ゃスパース性により混合行歹を推定する方法等を適 用できる。そのため N >Mの場合でも高い品質で源信号を抽出することができる。た だし、これだけでは V個の源信号しか抽出できない。そこで、例えば、複数種類のマ スクを用レ、、抽出する信号の組合せを変化させながら同様な処理を繰り返すことによ り、すべての源信号を抽出する。
また、第 2の本発明では、以下のように上記課題を解決する。
[0021] まず観測信号値 X (t) , . . . , X (t)を周波数領域値 X (f, m), . . ., X (f, m)
1 M 1 M
に変換する。そして、周波数領域値 X (f, m) , · · · , X (f, m)からなる第 1のべタト
1 M
ノレ X (f, m) = [X (f, m), . . .,X (f, m) ]を、周波数 fごとに N個ずつのクラスタ C
1 M i
(f) (i= l , · · · , N)にクラスタリングし、各クラスタ Cf (f)を代表する第 2のベクトル a f )を算出し、そこから V (V≤M)個の第 3のベクトル a (f) (p = l , . . . , V)を抽出する 。その後、第 3のベクトル a (f)の集合を Gとし、 G eを Gの補集合とし、 Ό ( α , )を
p k k k
ベクトル αと βとのマハラノビス平方距離とした場合における、
[数 7]
、 i1 max (f)eGk D(X(f,m),ap(f))く min D(X(f,m),aq(f)) M(f,m) = ^ p ' aq^^e°k
[θ otherwise で示されるマスク M (f, m)を生成し、マスク M (f, m)と第 1のベクトル X (f, m)との積 を演算して、 V個の信号源から発せられた信号力 なる限定信号の値を抽出する。
[0022] ここで抽出された V個の信号源力も発せられた信号力 なる限定信号の分離には、 例えば独立成分分析による方法ゃスパース性により混合行歹 IJを推定する方法等を適 用できる。そのため N > Mの場合でも高い品質で源信号を抽出することができる。た だし、これだけでは V個の源信号しか抽出できない。そこで、例えば、複数種類の集 合 Gに対する複数種類のマスクを用い、抽出する信号の組合せを変化させながら同 k
様な処理を繰り返す。これにより、すべての源信号を抽出する。
[0023] また、第 3の本発明では、以下のように上記課題を解決する。
まず、観測信号値 X (t), · · ·, X (t)を、周波数領域値 X (f, m) , . . · , X (f,
1 M 1 M m)に変換し、それらからなる第 1のベクトル X (f, m) = [X (f, m), . . ., X (f, m) ]
1 M
Tを、周波数 fごとに N個ずつのクラスタ C ) (i= l, . . ., N)にクラスタリングする。な お、源信号がスパースであれば、たとえセンサの数が不十分(N > M)の状況でも、 N 個のクラスタ C (f)にクラスタリングでき、それら N個の代表ベクトル a (f)を算出するこ とも可能である。
[0024] そして、それらの各クラスタ C (f)を代表する第 2のベクトル a (f)を算出し、 N個の第
2のベクトル a (f)の中の 0個以上の当該第 2のベクトルを 0ベクトルに置換した M行 N 列の行列 A'のムーア'ペンローズ(Moore-Penrose)型擬似逆行歹 1J (A' + (f): N = M の場合は逆行列 A'—1 (f)に一致)である N行 M列の分離行列 W (f, m)を算出する。 なお、ここで生成される分離行列 W (f, m)は、センサの数が不十分(N > M)である 場合には時間 mに依存する行列となり、センサの数が十分 (N≤M)である場合には 時間 mに依存しなレ、行列となる。
[0025] その後、 Y (f, m) =W (f, m) X (f, m)の演算により、分離信号ベクトル Y (f, m) = [ Y (f, m) , · · · , Y (f, m) ]Tを算出し、時間領域の信号値 y (t) ,…, y (t)に変換
I N I N
する。
ここで、源信号のスパース性により、たとえ信号源の数 Nがセンサの数 Mよりも多レ、( N >M)場合であっても、離散時間 mごとに見れば、観測結果に影響を及ぼす値をと る信号源の数は M個以下である可能性が高レ、。そのため、離散時間 mごとに見れば 、上述のように生成された分離行列 W (f, m)によって、これら M個以下の信号を分 離することは可能である。そして、 N >Mである場合、分離行列 W (f, m)は時間依存 となるのだから、離散時間 mが相違すれば、得られる分離信号の組合せも相違しうる 。そのため、複数の離散時間 mについて分離信号を求めていくことにより、すべての 分離信号を得ることもできる。
発明の効果
[0026] 以上のように、本発明では、信号源の数 Nとセンサの数 Mが N >Mの関係にある場 合でも、混合信号を高い品質で分離することができる。
図面の簡単な説明
[0027] [図 1]第 1の実施の形態における信号分離装置の全体構成を例示したブロック図。
[図 2]図 1における代表値生成部、マスク制御部、限定信号作成部及び限定信号分 離部の詳細を例示したブロック図。
[図 3]図 1及び図 2のマスク作成部の詳細を例示したブロック図。
[図 4]第 1の実施の形態における信号分離装置の処理を説明するためのフローチヤ ート。
[図 5]クラスタリング部により作成されたヒストグラムの例示。
[図 6]第 1の実施の形態における滑らかな形状のマスクを生成する際使用する信号の 推定到来方向 Θ のとり方を説明するための図。
[図 7]第 1の実施の形態におけるマスクの例示。
[図 8]第 2の実施の形態の信号分離装置の 1系統を例示したブロック図。
[図 9]第 3の実施の形態の信号分離装置の 1系統を例示したブロック図。
[図 10]第 3の実施の形態におけるマスクの例示。
[図 11]第 4の実施の形態におけるマスク作成部の構成を例示したブロック図。 [図 12]Aは、第 6の実施の形態におけるバイナリマスクの例示、 Bは、第 7の実施の形 態におけるバイナリマスクの例示。
[図 13]第 8の実施の形態における代表値生成部、マスク制御部及び限定信号作成 部の構成を例示したブロック図。
[図 14]第 8の実施の形態における信号分離処理を説明するためのフローチャート。
[図 15]第 9の実施の形態の信号分離装置の構成を例示したブロック図。
[図 16]第 9の実施の形態の信号分離装置の処理を説明するためのフローチャート。
[図 17]センサの数が不十分な場合 (Mく N)における分離行列生成処理を説明する ためのフローチャート。
[図 18] 1音源の場合の正規化していない観測信号ベクトル X (f, m)のプロット。
[図 19]1音源の場合において、式(36)により正規化した観測信号ベクトル X (f, m)の プロット。
[図 20]1音源の場合において、式(37)により正規化した観測信号ベクトル X (f, m)の プロット。
[図 21]2音源の場合の正規化していない観測信号ベクトル X (f, m)のプロット。
[図 22]2音源の場合において、式(36)により正規化した観測信号ベクトル X (f, m)の プロット。
[図 23]2音源の場合において、式(37)により正規化した観測信号ベクトル X (f, m)の プロット。
[図 24]センサの数が信号源の数に対して十分であるか否かに係わらず適用できる分 離行列生成処理を説明するためのフローチャート。
[図 25调波数領域で信号統合を行ってから時間領域に変換する際の構成を例示し たブロック図の一部。
[図 26]各実施の形態をコンピュータで構成した信号分離装置の例。
[図 27]Aは、従来のブラインド信号分離技術を概念的に例示したブロック図、 Bは、 IC
Aによる分離過程のブロック図。
[図 28]スパース性による方法及びスパース性により混合行列を推定する方法を説明 するためのブロック図。 [図 29]相対値の分布の例示。
符号の説明
[0028] 1 , 500 信号分離装置
2, 501 記憶咅 B
3, 502 信号分離プロセッサ
発明を実施するための最良の形態
[0029] 以下、本発明の実施の形態を図面を参照して説明する。
〔第 1の実施の形態〕
本形態は、第 1の本発明に係る実施の形態であり、死角型ビームフォーマの指向特 性を用いた滑らかな形状のマスクを用レ、、観測信号値から、 V (2≤V≤M)個の信号 源力 発せられた信号力も成る混合信号 (本形態ではこれを「限定信号」と呼ぶ)の 値を抽出し、抽出した限定信号値を ICAによって信号分離する例である。
図 1は、本形態の信号分離装置 1の全体構成を例示したブロック図である。また、図 2は、図 1における代表値生成部 30、マスク制御部 40、限定信号作成部 50— k (k = 1 , u、但し uは後述する系統数)及び限定信号分離部 60 - kの詳細を例示したブ ロック図である。また、図 3は、図 1及び図 2のマスク作成部 51_kの詳細を例示したブ ロック図である。なお、これらの図における矢印はデータの流れを示す力 制御部 10 や一時記憶部 90に出入りするデータの流れは省略してある。すなわち、データが制 御部 10や一時記憶部 90を経由する場合であっても、その経由の過程は省略してあ る。また、図 4は、本形態における信号分離装置 1の処理を説明するためのフローチ ヤートである。以下、これらの図を用いて、この例の信号分離装置 1の構成及び処理 を説明していく。
[0030] <全体構成 >
まず、本形態の信号分離装置の全体構成について説明する。
図 1に例示するように、本形態の信号分離装置 1は、記憶部 2とこれに有線或いは 無線で電気的に接続された信号分離プロセッサ 3とを有している。
記憶部 2は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等の 磁気記録装置、 DVD-RAM (Random Access Memory)、 CD-R (Recordable) /R W (Rewritable)等の光ディスク装置、 MO (Magneto-Optical disc)等の光磁気記録 装置、 EEP— ROM (Electronically Erasable and ProgrammaDle—Read Only Memory) 、フラッシュメモリ(flash memory)等の半導体メモリ等である。また、記憶部 2は、信号 分離プロセッサ 3と同一の筐体内に存在してもよいし、別個の筐体に構成されてもよ レ、。
[0031] またこの例の信号分離プロセッサ 3は、例えば、プロセッサや RAM等によって構成 されるハードウェアであり、以下に述べる各処理ブロックを有する。
ぐ信号分離処理の概略 >
次に、信号分離装置 1が行う信号分離処理の概略について説明する。
本形態では、 N個の信号源から発せられた信号は統計的に互いに独立であり、そ れぞれの信号は十分スパースであると仮定する。ここで「スパース」とは、信号が殆ど の時刻 tにおいて 0又は 0に近ぐ大きな値をとることは稀であるという性質である。こ のスパース性は、例えば音声信号で確認される。なお、音声信号など白色でない信 号は、短時間離散フーリエ変換等を施して周波数ごとの時間系列とすることで、より 0 に近い時刻が増えてスパース性が強調される。また、一般には信号のモデルィヒにガ ウス分布が用いられることが多いが、スパース性を持つ信号はガウス分布ではなくラ プラス分布などでモデルィ匕される。
[0032] まず M個の観測信号値 X (t)を周波数領域変換部 20にて周波数領域の観測信号
J
値 X (f, m)に変換した後、代表値生成部 30において、各源信号に対応する N個の 代表値 a, a, · · ·, a を算出する。
1 2 N
次に、マスク制御部 40にて代表値 a , a , . . . , a のうち V (2≤V≤M)個を適当
1 2 N
に選び、限定信号作成部 50-kにおいて、観測信号値 X (f, m)から V個の源信号の
J
みから構成される限定信号の値 X (f, m)を推定する。なお、 V= lの場合には、後 述する [第 3の実施の形態]の方法を用いる。ここでは、マスク作成部 51— kにおいて V個の信号を取りだすような滑らかな形状のマスクを作成し、限定信号抽出部 52— k でこのマスクを観測信号値 X (f, m)に作用させることで、限定信号値 X (f, m)を推
J
定する。
[0033] 次に限定信号分離部 60-kにおいて、 V個の分離信号を得るための分離システムを 推定する。ここでは、 M個の限定信号値 X (f, m)を入力とし、 V個の分離信号値 Y ( f, m)を出力する。ここで、分離システムの入力数 Mと出力数 Vについて、 V≤Mであ るので、ここでの分離システムの推定には、 [従来法 1]や [従来法 3]を用いることが 可能である。
[0034] 最後に時間領域変換部 70— kにおいて、時間周波数領域で得られている分離信号 値 Y(f, m)を時間領域の信号値に変換する。
し力 以上の処理だけでは V個の分離信号しか得られない。よって、その他の分離 信号を得るために、マスク制御部 40で選択する V個の代表値の構成を変え、限定信 号作成部 50— kから時間領域変換部 70— kまでの処理を複数系統 (u系統)行う。 そして最後に、信号統合部 80にて、各系統からの出力を統合し、 N個全ての分離 信号を得る。
[0035] く構成及び処理の詳細 >
次に、この例の構成及び処理の詳細について説明する。
この例は、 N (N≥ 2)個の信号源から発せられた信号が混合し、 M個のセンサにお レ、て観測される状況において、その観測信号から源信号を分離抽出するものである 。なお、上述のようにこの例の信号は音声信号等のスパース性を仮定できる信号であ り、その音源数 Nは既知或いは推定可能とする。また、この例のセンサは、この信号 を観測できるマイクロホン等であり、それらは直線上に配置されるものとする。
[0036] まず、前処理として、各センサにぉレ、て観測された時間領域の各観測信号 X (t) (j
J
= 1 ,…, M)を記憶部 2に格納しておく。そして、信号分離処理が開始されると、信号 分離プロセッサ 3は、制御部 10の制御のもと以下の処理を実行する。
まず信号分離プロセッサ 3は、記憶部 2にアクセスし、そこから各観測信号値 X (t)を
J
順次読み込み、周波数領域変換部 20に送る (ステップ Sl)。周波数領域変換部 20 は、短時間離散フーリエ変換等によって、これらの信号値を時間ごとの周波数領域の 観測信号値 X (f, m)に順次変換し、一時記憶部 90に格納する (ステップ S2)。一時
J
記憶部 90に格納された周波数領域の観測信号値 X (f, m)は、代表値生成部 30に
J
送られ、代表値生成部 30の相対値算出部 31は、送られた周波数領域の観測信号 値 X (f, m)を用い、各センサ間における観測値の相対値 z (f, m)を、各周波数にお いて算出する(ステップ S3)。
[0037] なお、相対値 z (f, m)としては、例えば、
Figure imgf000019_0001
の少なくとも一方を用いてもよぐまた、或いは位相差そのものではなぐその写像(例 えば、位相差から求められる信号の到来方向)を用いてもよい。
この例では、 j l番目と j2番目の任意の 2つのセンサにおける観測信号間位相差 z (
1 f, m)から得られる信号の到来方向
[数 9]
Figure imgf000019_0002
をこの相対値 z (f, m)として利用し、相対値算出部 31は、この z (f, m)を算出するも
3
のとする。ここで Vは信号の早さ、 dはセンサ j lとセンサ j2との間隔である。
このように算出された相対値 z (f, m)は、一時記憶部 90に格納される。次に、クラ
3
スタリング部 32は、一時記憶部 90から相対値 z (f, m)を順次読み込み、これら相対
3
値 z (f, m)を N個のクラスにクラスタリングする(ステップ S4)。この例の場合、クラスタ
3
リング部 32は、送られた相対値 z (f, m)からヒストグラムを作成する。
3
[0038] 図 5は、このように作成されたヒストグラムの例示である。なお、この例は源信号の数 N = 3のものである。
この図に例示するように、この例のヒストグラムは、 N ( = 3)個のピークを持つ分布に なる。この例のクラスタリング部 32は、この分布を N ( = 3)個のクラス(この例ではクラ スタ 91一 93)にクラスタリングする。これは、例えば、適当な閾値を設定してクラスタリ ングしてもょレ、し、 k- means法や階層的クラスタリング等の多くの教科書で説明され ている方法を用いてもよい(例えば、「尾上守夫 監訳"パターン識別",新技術コミュ 二ケーシヨンズ, ISBN 4-915851-24-9,第 10章」等参照。)。ここでクラスタリン グされた各クラスタ C (i= l , 2, ..., N)は、相対値 z (f, m)の集合であり、離散時間
i 3
の集合 Tを用いて C (f) = {z (f, m) | mET }である。
i i 3 i [0039] クラスタリング部 32で生成されたクラスタリングの情報(クラスタ C ,C ,...,C )は、
1 2 N 一 時記憶部 90に格納される。代表値計算部 33は、これらを読み込み、 N個の各クラス タ C ,C ,...,C の代表値 a,a ,...,a を算出する(ステップ S5)。具体的には、例えば、
1 2 N 1 2 N
ヒストグラムの各クラスのピークを代表値としてもよぐまた、各クラスの平均値を代表 値としてもよレ、。そして、例えばこの N個の代表値を、(便宜上)値の小さい方から a,a ,...,a とする(図 5参照)。なお、これらの代表値 a ,a,...,a は、 N個の各信号の到来
2 N 1 2 N
方向の推定値になっている。
[0040] この例の代表値 a ,a,...,a の情報は、一時記憶部 90に格納された後、マスク制御
1 2 N
部 40に送られる。マスク制御部 40は、これら代表値 a,a ,...,a を要素に持つ集合 G
1 2 N 0 を特定するデータを変数 SGに代入し、この変数 SGを一時記憶部 90に格納する。
0 0
また、マスク制御部 40は、集合 Gを特定する変数 SGを G= φ (空集合)に初期化し、 変数 kを 0とし、それらを一時記憶部 90に格納する(ステップ S6)。
次に、マスク制御部 40での制御のもと、 N個すベての分離信号が得られるまで、限 定信号作成部 50 - k (k= l, ..., u) ,限定信号分離部 60 - k及び時間領域変換部 70 一 kの複数系統 (u系統)による処理が行われる。
[0041] まず、マスク制御部 40は、一時記憶部 90に格納された変数 kに 1をカ卩えた値を新た な変数 kとし、再び一時記憶部 90に格納する(ステップ S7)。次に、マスク制御部 40 は、一時記憶部 90から変数 SG及び SGを呼び出す。そして、マスク制御部 40は、
0
変数 SGによって特定される集合 Gから、 SGによって特定される集合 Gの補集合(
0 0
Gc の補集合を示す) )の元を含む適当な V (≤ Μ)個の代表値の集合 Gを k 選択し、この集合 Gを特定するデータを変数 SGに代入し、この変数 SGを一時記 k k k 憶部 90に格納する (ステップ S8)。
[0042] 限定信号作成部 50— kのマスク作成部 51— kは、一時記憶部 90に格納された変数 SGを読み出し、この変数 SGによって特定される集合 Gを代表値に持つクラスの信 k k k
号を抽出する「滑らかな形状のマスク」を作成する(ステップ S9)。ここで、「滑らかな形 状のマスク」とは、 V (2≤V≤M)個の代表値を含む所定の範囲(限定範囲)内にある 相対値に対してハイレベル値をとり、この限定範囲内にない代表値に対してローレべ ル値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推移 が連続的である関数を意味する。なお、この例の「ハイレベル値」とは、 0より十分大き な数値 (例えば 1以上)を意味し、「ローレベル値」とは 0に十分近い値 (例えば、ハイ レベル値に対して 60dB以下等)を意味する力 特にその値に限定はない。
[0043] 本形態では、 N-V+ 1個のセンサにより形成される死角型ビームフォーマの指向 特性を利用して「滑ら力、な形状のマスク」を作成する。このマスクは、限定信号に含ま れる V個の信号の方向(G )へは十分な感度を持ち、除去されるべき N— V個の信号
k
の方向(G n G e)へは感度の低い特性(死角)を持つ、なめらかな形状のマスクであ
0 k
る。
以下に、本形態の「滑らかな形状のマスク」の生成手順について説明する。 まず、マスク作成部 51— k力 一時記憶部 90から変数 SG、 SG及び SG eを読み
k 0 k
出す。次に、マスク作成部 51— kは、変数 SGが示す集合 Gの要素(限定範囲内の
k k
代表値)の何れか一つを抽出し、これを Θ とする。また、マスク作成部 51— kは、変数
SG及び SG eによって特定される G fl G eの要素(限定範囲内にない代表値)すべ
O k O k
てを抽出し、これらを θ . (ί = 2, .. ·, N-V+ 1)とする。そして、マスク作成部 51-kは、 Θ 及び Θを一時記憶部 90に格納する。次に、マスク作成部 51-kは、一時記憶部 9 0から Θ 及び Θを順次抽出し、 τ = (d /v) cos 0 (j = l , …, N— V+ l)を順次算 丄
出する。さらに、マスク作成部 51— kは、遅延行列 H (f)の ji要素 H (f) = exp (j
NBF NBFji
2 π f τ )を算出して一時記憶部 90に順次格納する。なお、 dはセンサ 1とセンサ jとの 距離 (dは 0)であり、 fは周波数の変数、 Vは信号の速さである。これらのパラメータは
1
、例えば事前に一時記憶部 90に格納され、順次呼び出されて使用される。以上の処 理により、 ( _¥+ 1) ^_¥+ 1) )の遅延行列11 (f)が生成される(図 3 : 51a-
NBF
k)。
[0044] なお、本形態では、 2つのセンサにおける観測信号間位相差 z (f, m)から得られる
1
信号の到来方向 z (f, m)を相対値としているため、上述の Θ は限定範囲内の代表
3 1
値に対応する信号の到来方向を示し、 Θ は、限定範囲内にない代表値に対応する 信号の到来方向を示している。また、この Θ (i= l, 2, ... , N— V+ l)のとり方は図 6
i
のようになる。まず、直線上に配置された M個のセンサの中央を原点とする(1番目の センサと原点との距離 L =原点と M番目のセンサとの距離 L )。この原点と i番目の
1 2 信号源とを結ぶ線分と、原点と 1番目のセンサ 10とを結ぶ線分とがなす角度が、潘 目の信号源に対応する Θである。
[0045] 生成された遅延行列 H (f)は、一時記憶部 90 (図 1)から NBF作成部 51b— k (図
NBF
3)に送られ、 NBF作成部 51b— kは、この遅延行列 H (f)を用レ、、死角ビームフォ
NBF
一マ(NBF)の特性を持つ NBF行列 W (f)を作成する。これは、遅延行列 H (f)の
NBF
逆行列 W(f) =H 1 (f)を算出することで得られる。
NBF
この NBF行歹 IjW (f)は、一時記憶部 90 (図 1)に格納される。指向特性計算部 51c 一 kは、この NBF行列 W (f)の 1行目の要素 W (f)、 d及び vを一時記憶部 90から順
lk k
次抽出し、 Θを信号の到来方向の変数とした場合における、指向特性関数
[数 10]
N-V+1
F(f, 6) = ∑Wlk (f)expQ2nfdk cos0/ v) ー(10)
k=l を生成する。なお、 Θの取り方は上述の Θ と同じである。
i
[0046] 生成された指向特性関数 F (f, Θ )は、マスク構成部 51d— kに送られる。マスク構成 部 51d— kは、この指向特性関数 F (f, Θ )と、一時記憶部 90から読み出した相対値 z ( f, m) (この例では z (f, m) )とを用レ、、滑らかな形状のマスク M (f, m)を生成する
3 DC
[0047] 生成するマスク M (f, m)としては、例えば、この指向特性 F (f
DC , Θ )自身
[マスク 1] M (f
DC , m) =F (f,z (f
3 , m) ) 〜(11)
を用いたものを例示できる。
また、指向特性 F (f, Θ )の絶対値
[マスク 2] M (f, m) =
DC I F (f,z (f, m) ) | 〜(12)
3
を用いたものをマスク M (f, m)としてもよい。
DC
図 7Aは、 [マスク 2]の例(信号数 N = 3、センサ数 M = 2の場合)を示している。この 例の「滑らかな形状のマスク」は、信号除去数 N_M= 1のものであり、一方向 aへ小
1 さいゲインを持つものである。なお、この「滑らかな形状のマスク」は、 M (=V) = 2個 の信号 (ここでは a及び a方向より到来する 2個の信号)を限定信号として抽出するた
2 3
めのものである(後述の図 7B, Cも同様), [0048] また、例えば以下のように、指向特性 F (f, Θ )を変形したものをマスク M (f, m)と
DC
してもよレ、。なお以下では、 Gの要素の中の互いに隣り合う 2つの aに挟まれる相対
k i
値 z (f, m)の領域すベてを限定信号領域と呼ぶ。また、 Gに aや a が含まれる場合
3 k 1 N
、 0° ≤z (f, m)≤a、 180° ≥z (f, m)≥aも限定信号領域に含むものとする。さ
3 1 3 N
らに、 G n G cの要素の中の互いに隣り合う 2つの aに挟まれる相対値 z (f, m)の領
O k i 3
域すベてを除去信号領域と呼ぶ。また、 G n G eに aや a が含まれる場合、 0° ≤z
0 k 1 N 3
(f, m)≤a、 180° ≥z (f, m)≥aも除去信号領域に含むものとする。そして、限
1 3 N
定信号領域、除去信号領域のどちらにも属さない領域を過渡領域と呼ぶ。
[0049] [数 11]
[マスク 3 ]
/r. pF( ,z3(f,m)) z3(f,m) e除去信号領域以外の領域 , ヽ MDC (f,m) = |F(fA) Z3 (f,m) e除去信号領域 ,··(13)
[マスク 4 ]
J| F(f,z3(f,m)) | z3(f,m) e除去信号領域以外の領域
MDC(f ,m) = ^ ¾ ΘΓ ) | Z3 (fm) £除去信号領域
(14) これらは、除去信号領域のゲインを一様に小さくする特性を持つマスクをマスク M
DC
(f, m)としたものである。ここで Θ は、除去信号領域の端点のうち、隣り合う限定信号 領域の端点と最も近レ、ものを意味する。図 7Bに、この [マスク 4]の例 (信号数 N = 3、 センサ数 M = 2の場合)を示す。
[0050] また、例えば、
[数 12]
[マスク 5 ]
a z3(f,m) e限定信号領域
MDC(f,m) = < b z3(f,m) e除去信号領域…(15)
F(f , ζ3 (f , m)) ζ3 (f , m) e過渡領域
のように、 限定信号領域の指向特性を一様にしたマスク MD C ( f , m) を 用いることも可能である。 また、
[マスク 6 ]
a z3(f,m) e限定信号領域
MDC(f5m) = < b z3(f,m) e除去信号領域…(16)
[| F(f,z3(f,m)) I z3(f,m) e過渡領域 のように、限定信号領域の指向特性を一様にしたマスクの絶対値を用いることもでき る。
ここで aとしては例えば、除去信号領域の I F (f, θ ) Iの最大値などの 0より十分大 きい値を用い、 bとしては例えば、指向特性のゲインの最小値などの小さな値を用い る。図 7Cに [マスク 6]の例(信号数 N = 3、センサ数 M = 2の場合)を示す(マスク作 成部 51_k/ステップ S9の説明終わり)。
[0051] 以上のようにマスク作成部 51-kで生成されたマスク M (f, m)は、一時記憶部 90
DC
に格納された後、限定信号抽出部 52— kに送られる。限定信号抽出部 52— kは、さら に一時記憶部 90から周波数領域の観測信号値 X (f, m)を読み出す。そして、限定 信号抽出部 52— k (図 2)は、このマスク M (f, m)と周波数領域の観測信号値 X (f,
DC
m)とを用い、 X " (f, m) =M (f, m) X (f, m)の積演算により、限定信号値 X ' (f , k DC k m)を生成する(ステップ S 10)。
[0052] この限定信号値 X " (f, m)は、一時記憶部 90に格納され、限定信号分離部 60— k k
は、この限定信号値 X (f, m)を読み出し、限定信号の信号分離を行う(ステップ S1 k
1)。ここで、限定信号値 X " (f, m) =M (f, m) X (f, m)は、 V (2≤V≤M)個の信 k DC
号源力 発せられた信号によって構成された混合信号の値であると近似される。よつ て、その分離行列の推定には [従来法 1]で述べた独立成分分析による方法を利用 できる。すなわち独立成分分析の入力として、観測信号値 Xの代わりに限定信号値 X " (f, m)を用い、例えば [従来法 1]で述べた式 (2)を用いて分離を行う。 [0053] 本実施例における ICAによる分離では、まず、 ICA分離行列推定部 61-kにおい て、限定信号値 X (f, m)を用い、前述の式(2)の学習則に従い分離行列 W (f, m)
k
を生成し、この分離行列 W(f, m)を一時記憶部 90に格納する。なお、この分離行列 W(f, m)の生成には、例えば、以下のパーミュテーシヨン'スケーリング解決部 62_k からの出力値 Y (f, m)のフィードバックを用いる。生成された分離行列 W(f, m)は
k
パーミュテーシヨン'スケーリング解決部 62_kに送られる。パーミュテーシヨン'スケー リング解決部 62— kは、この分離行列 W (f, m)と限定信号値 X (f, m)を用い、 Y (f
k k
, m) =W(f, m) X " (f, m)の演算を行い、それぞれの分離信号値 Y (f, m) = [Y
k k kl nkl (f, m) , ·.., Y nkv (f, m) ]Tを生成し、それを一時記憶部 90に格納する。そして
kV
、パーミュテーシヨン'スケーリング解決部 62— kは、例えば、この分離信号値 Y (f, m
k
)をフィードバックし、 [従来法 1]で述べた方法で Permutation問題を解決する。
Permutation問題の解決後、パーミュテーシヨン'スケーリング解決部 62_kは、さらに 、分離信号値 Y (q= l, ...V)がどの源信号に対応するのかを示すタグ Π を、分離
kq kq 信号値 Y (q= l, ...V)に付与し、これらを対応付けて一時記憶部 90に格納する。こ
kq
こでは、このタグ Π を分離信号値 Y の上付添字 nkqとして表記する。
kq kq
[0054] 具体的には、例えば、パーミュテーシヨン'スケーリング解決部 62-k力 一時記憶 部 90力 抽出した分離行列 W (f)の逆行列(N≠Mの場合は Moore-Penrose型擬似 逆行列)を用い、
[数 13] ft argCtW^J/tW^1]) 、
θη = arccos ~ - ~― ~ --- (17)
q 2πίν-1ά
[0055] (但し νは信号の速さ、 dはセンサ jとセンサ j 'との間隔)
の演算によって得られる信号の推定到来方向 Θ と、一時記憶部 90から抽出した変 数 SGが示す集合 Gに含まれる代表値とを比較し、 Θ に最も近い代表値 aを q番目 k k q i の分離信号 Y に対応付ける(ステップ SI 2)。つまり、パーミュテーシヨン'スケーリン
kq
グ解決部 62— kは、この分離信号 Y に対し、代表値 aを示すタグ Π を付与する(対
kq kq
応付ける)。
[0056] また、この後、パーミュテーシヨン.スケーリング解決部 62— kが、一時記憶部 90から 分離行列 W(f)を抽出し、その各行 w (f)を
w (f)— [W—丄( ] w (f)
q jq q
とすることにより、 ICAのスケーリング問題を解決し、スケーリング問題解決後の分離行 列 W(f)を一時記憶部 90に格納する。なお、後の信号統合部 80における処理のた め、この処理ではすべての系列 kにおいて同じ jを用いることが望ましい。
[0057] タグ Π が付与された各分離信号値 Y は、時間領域変換部 70-kに送られる。時
kq kq
間領域変換部 70 - kは、例えば、短時間逆離散フーリエ変換等により、時間周波数 領域で得られている各分離信号値 Y を時間領域の信号値に変換し、その変換値を
kq
一時記憶部 90に格納する。 (ステップ S13)。なお、これら時間領域の信号値 y (t)
k
= [y nkl (t) , y nkv (t) ]Tにも上述のタグ Π が関連付けられる。この関連付け kl kV kq
を行う場合、まず、時間領域変換部 70 - kが、一時記憶部 90から、周波数領域の信 号値 Y に対応付けられているタグ Π を各周波数について抽出する。次に、時間領 kq kq
域変換部 70— kは、各周波数におけるタグ Π がすべて等しいか否かを判断する。こ
kq
こでこれらがすべて等しかった場合には、時間領域の信号値 y のタグとして、周波数
kq
領域の信号値 Y に対応付けられているタグ Π を対応付ける。一方、これらがすべ
kq kq
て等しくなかった場合には、多数決にて時間領域の信号値 y のタグを決定する。
[0058] 次に、マスク制御部 40において、一時記憶部 90から変数 SGと SGとを抽出し、これ
k
らが示す Gと Gとの和集合 GUGを新たな集合 Gとし、この集合 Gを変数 SGに代入し
k k
、この変数 SGを一時記憶部 90に格納する(ステップ S14)。また、マスク制御部 40は 、一時記憶部 90から変数 SGと SGとを読み出し、この新たな集合 Gが集合 Gと等し
0 0 いか否かを判断する(ステップ S15)。ここで、 G二 Gでなければステップ S7の処理に
0
[0059] 一方、 G = Gであれば、信号統合部 80において、一時記憶部 90から各系統 k (時
0
間領域変換部 70— k/k= l, u)から出力された分離信号 y (t)を読み出し、こ
kp
れらの選択/統合を行い、 N個すベての分離信号を得る (ステップ S16)。具体的に は、例えば、まず信号統合部 80は、一時記憶部 90から読み出した各分離信号 y (t
kp
)のタグ Π を比較する。ここで、複数の系統 kにおレ、て同じタグを持つ分離信号値 y
kq k
(t)が存在しないと判断された場合、信号統合部 80は、すべての分離信号値 y (t)
P kq を最終的な分離信号値 y^t) (i= l , . ·· , N)として出力する (ステップ S 17)。一方、複 数の系統において同じタグを持つ分離信号値が存在すると判断された場合、信号統 合部 80は、これらのタグが等しい分離信号値のどれ力 1つを適当に選択し、最終的 な分離信号値 y^t)として出力する力 \同じタグを持つ分離信号値の平均を計算し、 それを出力信号とする(ステップ S 17)。
[0060] ここで、どれか 1つの分離信号値 y (t)を適当に選択し、最終的な分離信号値 y (t
kq i
)として出力する処理の場合、信号統合部 80は、例えば、同じタグ aを持つ分離信号 値 y (t)の中で最大パワーを持つものを最終的な分離信号値 y (t)として出力する。
kq 1
また、同じタグを持つ分離信号値の平均を最終的な分離信号値 y (t)として出力する
i
処理の場合、信号統合部 80は、例えば、
[0061] [数 14]
4∑1¾= )
(Kは同じタグ aを持つ分離信号の個数)
とする。以上により、 N個の信号が少ない歪で分離される。
[0062] ぐ本形態の特徴 >
従来の「従来法 2:信号のスパース性を利用した方法」で分離性能を上げた際に分 離信号の歪が大きくなるのは、分離性能を上げるために上述の式 (3)の εを十分小 さくすると、このバイナリマスクによって取り出される信号成分が制限され、本来原信 号の成分として取り出されるべきサンプルの多くが取り出されなレ、からである。つまり、 この場合、各分離信号に多くの 0成分が詰めこまれ、各分離信号を不連続とし、 Musical Noiseを発生させることになる。
[0063] これに対し、この形態では、滑らかな形状を持つマスクによって、 2個以上 M個以下 の原信号からなる混合信号(限定信号)を抽出する。そのため、 1個のみの信号の値 を抽出する [従来法 2]のバイナリマスクよりも、広い範囲の相対値 z (f, m)に対する信 号 (サンプル)を限定信号と抽出できる。
そのため、ある時刻において同一周波数の観測信号が 2個以上存在し、サンプル 値力 本来対応すべき代表値から離れてしまった場合であっても、このようなサンプ ル値を抽出できる可能性は高くなる。その結果、分離信号に不連続に 0成分が詰め こまれることによる品質劣ィ匕(Musical Noiseの発生)を抑制できる。
[0064] また、本形態では N (N≥ 2)個の信号が混合し、 M個のセンサで観測される状況に おいて、滑らかな形状を持つマスクを用いて信号の分離抽出を行った。この滑らかな 形状を持つマスクは、 [従来法 2]によるマスク(0或いは 1の値をとるバイナリマスク)と 異なり、そのエッジ部分が滑らかに広がった形状を有する。そのため、この滑らかな 形状のマスクを用いれば、ある時刻において同一周波数の観測信号が 2個以上存在 し、サンプノレ値が、本来対応すべき代表値 a ,…, aから離れた場合であっても、こ
1 N
の位置に対するマスクが 0以外の値を持つ場合もあるため、急峻に値が変化するバイ ナリマスクよりも、多くの信号を抽出することができる。その結果、分離信号に不連続 に 0成分が詰めこまれることによる品質劣化を抑制できる。
[0065] また、滑らかな形状のマスクはエッジ部分に近づくほど値が小さくなるため、従来の バイナリマスクにおいて単に εを大きくした場合に比べ、分離性能の劣化も少ない。 さらに、抽出される限定信号は、 V (≤M)個の源信号のみからなると考えられるた め、分離問題が簡単になっている。従って、限定信号については、 [従来法 1]や [従 来法 3]を用いて容易に信号の分離ができる。また、後述の第 3の実施の形態で説明 するように、 V= lの場合には、 [従来法 1]や [従来法 3]の方法を用いる必要もない。
[0066] <性能比較 >
以下は、 [従来法 2]で信号分離を行った場合と、本形態の方法で [マスク 2]を用い て信号分離を行った場合との性能を比較した表である。
[表 1]
Figure imgf000028_0001
この例では、源信号として、 3人の話者 (男性 2名 ·女性 1名)による音声信号を用い 、残響の無い環境でのこれらの混合信号を、 2つの無指向性マイクで観測する状況 をシミュレートしている。なお、表中の SIRは信号対妨害音比(Signal to interference ratio) (dB)であり、分離性能を示す指標である。また、 SDRは信号対歪比(Signal to distortion ratio) (dB)であり、信号の歪の程度を示す指標である。双方とも値が大き い方が性能が良いことを示している。また、 SIR1及び SDR1は話者 1に、 SIR2及び SDR2は話者 2に、 SIR3及び SDR3は話者 3に、それぞれ対応している。また、本形 態のデータは縦 2段になっている力 S、これは k= lの系統の分離結果と、 k= 2の系統 の分離結果にそれぞれ対応するものである。
[0067] この表に示すように、この形態の方法では、分離性能 SIRをほとんど落すことなぐ 従来法 2に比べ格段に高い SDRを得ることができている。これは信号の歪が少ない 分離ができていることを示している。これより、本形態の方法は、信号源の数 Nがセン サの数 Mより多い場合に信号を低歪で分離するために有効であることが分かる。 〔第 2の実施の形態〕
本形態も第 1の本発明に係る実施の形態である。本形態では、限定信号作成部で 「滑らかな形状のマスク」を用い、限定信号分離部で混合行列推定による分離方法を 用いる例を示す。なお、本形態において第 1の実施の形態と共通する事項について は説明を省略する。
[0068] 図 8は、本形態の信号分離装置のうち、 V個の分離信号値を得る 1系統のみを例示 したブロック図である。
なお、図 8において第 1の実施の形態と共通する構成については、第 1の実施の形 態と同じ符号を付した。図 8に例示するように、第 1の実施の形態の信号分離装置 1と 本形態の信号分離装置と構成上の相違点は、限定信号作成部 50 - kが限定信号作 成部 150 - kに置き換わり、限定信号分離部 60 - kが限定信号分離部 160 - kに置き 換わる点である。また、マスク作成部 151— kが 2種類のマスクを作成する点、 V=M に限定される点も異なる。以下、本形態の構成及び処理について説明する。
[0069] まず、代表値生成部 30 (図 8)は、周波数領域変換部 20 (図 1)が生成した周波数 領域の観測信号値 X (f, m)を一時記憶部 90から抽出する。次に、代表値生成部 30
J
(図 8)は、第 1の実施の形態と同様に、相対値算出部 31において観測値の相対値 z (f, m)を算出し、クラスタリング部 32においてクラスタリングを行レ、、代表値算出部 33 において代表値 a ,a ,...,a を算出する。なお、本形態では、相対値 z (f, m)として、 i
1 2 N
番目と j番目の任意の 2つのセンサにおける観測信号間位相差 z (f, m)から得られる 信号の到来方向
[数 15]
" 、 _i Zj(f,m)v
z,it,m) = cos ― ― を用いるのが望ましい。
[0070] これらの代表値 a ,a ,...,a は、一時記憶部 90 (図 1)に格納された後、マスク制御
1 2 N
部 40 (図 8)を介し、限定信号作成部 150— kのマスク作成部 151— kに送られ、マスク 作成部 151-kは、 2種類のマスクを作成する。 1つは、 Gに含まれる V ( = M)個の代 k
表値に対応する V ( = M)個の信号が混合した限定信号の値 X (f, m)を抽出するた めのマスクであり、第 1の実施の形態に示した滑らかな形状のマスク M (f, m)であ
DC
る。もう 1つは、 1個の信号のみを含む信号を抽出するバイナリマスク M (f, m)であり k
、 [従来法 2]で示したものと同様のマスク
[数 16]
「1 ak _ε≤ζ(Τ,ι )≤& + ε ,— 、τ、 , 、
Mk(f,m) = <^ k 、 , ノ k (k = l,.."N)〜(18)
[0 otherwise である。これらのマスクは一時記憶部 90 (図 1)に格納される。
[0071] 次に、限定信号抽出部 152— k (図 8)は、一時記憶部 90 (図 1)から滑らかな形状の マスク M (f, m)と周波数領域の観測信号値 X (f, m)とを読み出す。そして、限定
DC
信号抽出部 152— k (図 8)は、このマスク M (f, m)を周波数領域の観測信号値 X (f
DC
, m)に掛けた限定信号値 X" (f, m) =M (f, m) X (f, m)を算出し、これを一時記
DC
憶部 90 (図 1)に格納する。ここで、この限定信号値 X (f, m)は、 V個の信号が混合 したものと近似されるので、限定信号分離部 160-kにおける信号の分離には [従来 法 3]で述べた混合行列推定法が応用できる。
[0072] そこでまず、限定信号分離部 160— kの積演算部 161— k (図 8)において、一時記 憶部 90 (図 1)からバイナリマスク M (f, m)と周波数領域の観測信号値 X (f, m)とを k
読み出す。そして、積演算部 161— k (図 8)は、 X " (f, m) =M (f, m) X (f, m)の演 k k
算を行い、 1個の信号のみを含む分離信号の値 X (f, m)を求め、これを一時記憶 k
部 90 (図 1)に格納する。次に、混合過程推定部 162-k (図 8)力 一時記憶部 90 (図 1)から X ' (f, m)を読み出し、 [従来法 3]と同様
[数 17]
Figure imgf000031_0002
Figure imgf000031_0001
によって推定された混合行列 trを算出する。なお、この混合行列 trのサイズは Ν χ Mとなっている。なお、この混合行列は全ての系列 kで求める必要はなぐある系列で 推定した H'を一時記憶部 90に格納し、逐次読み出して用いてもよい。
[0073] この混合行列 ΗΊま逆行列計算部 163— kに送られ、逆行列計算部 163— kは、まず この混合行列 H'ランクを落す。すなわち、混合行列 H'のうち、 V個の信号からなる 限定信号 X (f, m)に対応する V列(すなわち、 Gに含まれる V個の代表値 aに対応
k i する列)のみを取り出し、 V X Vの正方行列 IT を作成する。これは、 V個の信号の混
Μ
合と近似される限定信号 X~ (f, m)の分離を行うためである。
[0074] 次に逆行列計算部 163— kは、作成した正方行列 H' の逆行列 H' 1 (f)を計算し
M M
、これを一時記憶部 90 (図 1)に格納する。積演算部 164-k (図 8)は、限定信号値 X " (f, m)と逆行列 tT f)とを一時記憶部 90 (図 1)から読み出し、 Y (f, m) =H'
M M
_1 (f) X" (f, m)の演算により、 V個の分離信号値の推定値 Y (f, m) = [Y nkl (f, m n
) ,…, Y (f, m) ]Tを算出する。なお、分離信号 Y (q= l , ...V)がどの源信号 に対応するのかを示すタグ情報の付与は、前述の式(17)において、 W—1の代わりに H" を用いて信号の推定到来方向を求め、その方向がどの代表値 aに近いかを判
M i
断して行う。
[0075] 〔第 3の実施の形態〕
本形態も第 1の本発明に係る実施の形態である。本形態では、「滑らかな形状のマ スク」を用い、観測信号から、何れか 1個の信号源から発せられた信号によって構成 される信号 (本形態ではこれを「限定信号」と呼ぶ)のみを抽出し、抽出した限定信号 を分離信号とする。なお、本形態において第 1の実施の形態と共通する事項につい ては説明を省略する。
図 9は、本形態の信号分離装置のうち、 1個の分離信号を得る 1系統部分のみを例 示したブロック図である。なお、図 9において第 1の実施の形態と共通する構成につ いては、第 1の実施の形態と同じ符号を付した。
[0076] 図 9に例示するように、第 1の実施の形態の信号分離装置 1と、本形態の信号分離 装置と構成上の相違点は、限定信号作成部 50 - kが限定信号作成部 250 - kに置き 換わる点、及び本形態の信号分離装置には限定信号分離部 60— kが存在しない点 である。以下、本形態の構成及び処理について説明する。
まず、代表値生成部 30 (図 9)は、周波数領域変換部 20が生成した周波数領域の 観測信号値 X (f, m)を一時記憶部 90 (図 1)力も抽出する。代表値生成部 30 (図 9)
J
は、第 1の実施の形態と同様、相対値算出部 31において観測値の相対値 z (f, m)を 算出し、クラスタリング部 32においてクラスタリングを行レ、、代表値算出部 33において 代表値 a ,a ,...,a を算出する。なお、相対値 z (f, m)としては、位相差及び振幅比の
1 2 N
少なくとも一方、或いはその写像 (例えば、位相差から求められる信号の到来方向) 等を用いることができるが、本形態では、観測信号間位相差力 求められる信号の到 来方向
[数 18] ζ,Γι,ιη) = cos ― し を相対値とする。
[0077] これらの代表値 a ,a,...,a は、一時記憶部 90 (図 1)に格納され、限定信号作成部
1 2 N
250-kのマスク作成部 251-k (図 9)は、これらの代表値 a,a,...,a を読み出し、何
1 2 N
れかの一つの代表値 aを抽出するための [滑らかな形状のマスク]を生成する。なお、 本形態の「滑らかな形状のマスク」は、 V (V= 1)個の代表値を含む限定範囲内にあ る相対値に対してハイレベル値をとり、この限定範囲内にない代表値に対してローレ ベノレ値をとり、相対値の変化に伴う当該ハイレベル値から当該ローレベル値への推 移が連続的である関数である。
[0078] 以下に、本形態の「滑らかな形状のマスク」の生成手順について説明する。 まず、マスク作成部 251— kは、 (N X N)の遅延行列 H (f)を生成する。すなわち
NBF
、マスク作成部 251— kは、一時記憶部 90 (図 1)に格納された代表値 a,a ,... ,a うち
1 2 N の一つ(抽出する信号の到来方向の推定値)を抽出し、これを Θ とする。また、マスク 作成部 251— kは、それ以外の N— 1個の代表値 (抽出しない信号の到来方向の推定 値)を一時記憶部 90 (図 1)力 抽出し、それらを θ ^ = 2,…, Ν)とする。これらの Θ 及び Θ は一時記憶部 90 (図 1)に格納される。マスク作成部 251— kは、一時記憶部 90から Θ 及び Θを順次抽出し、 τ = (d /v) cos 0 (j = l , N)を算出し、遅延 行列 H (f)の ji要素 H (f) = exp (j2 f τ )を算出して一時記憶部 90に順次
NBF NBFji ji
格納する。なお、 dはセンサ 1とセンサ jとの距離(dは 0)であり、 fは周波数の変数、 V
J 1
は信号の速さである。これらのパラメータは、例えば事前に一時記憶部 90に格納さ れ、順次呼び出されて使用される。以上の処理により、(N X N)の遅延行列H (f)
NBF
が生成される。
[0079] 次に、マスク作成部 251— kは、この遅延行列 H (f)を用い、死角ビームフォーマ
NBF
(NBF)の特性を持つ NBF行列 W (f)を作成する。これは、遅延行列 H (f)の逆行
NBF
列 W (f) =H — 1 (f)を算出することで得られる。この逆行列 W (f) =H — 1 (f)は
NBF NBF 一 時記憶部 90に格納される。そして、マスク作成部 251— kは、一時記憶部 90からこの NBF行列 W (f)の 1行目の要素 W (f)、 d及び vを一時記憶部 90から順次抽出し、
lk k
前述の式(10)に示した指向特性関数 F (f, Θ )を生成する。その後、マスク作成部 25 l_kは、この指向特性関数 F (f, Θ )を用レ、、滑らかな形状のマスク M (f, m)を生成
DC
する。
[0080] 具体的には、例えば、第 1の実施の形態における式(11)で示されるマスク([マスク 7]とする)や、式(12)で示されるマスク([マスク 8]とする)を、本形態の滑らかな形状 のマスク M (f, m)として生成する。
DC
また、例えば、以下のように除去信号領域のゲインを一様に小さくする特性を持つ [ 滑らかな形状のマスク]を生成することとしてもよい。
[数 19] [マスク 9 ]
A/r ,, 、 jF(f,z3(f5m)) z3(f,m)e除去信号以外の領域
MDC(f,m) = F(f ) Z3(f,m)e除去信号領域 "'(19)
[マスク 1 0 ]
、 J|F(f,z3(f,m))| z3(f,m)e除去信号以外の領域
MDC(f,m) =†| F(fA)| Z3(f,m) e除去信号の領域 … 0)
[0081] Θ は、除去する N - 1個の信号の到来方向の推定値 (抽出する代表値 a以外の N- 1個の代表値)のうち、除去しない信号の到来方向の推定値 (抽出する代表値 a)に 一番近いものである。
また、例えば、
[数 20]
[マスク 1 1]
z3(f,m) e除去信号以外の領域
MDC(f,m) = | F(f,6r)| z3(f,m)e除去信号領域 …( )
Fff.z3(f,m)) z3(f,m)e過渡領域 のように、取り出す方向についての指向特性を均一にしたマスク M (f, m)を用いる
DC
ことも可能である。また、過渡領域では M (f, m)= I F(f, z (f, m)) |を用レ、ること
DC 3
もできる([マスク 12])。
[0082] 図 10に、上述の [マスク 8] [マスク 12]の例を示す。これらは、信号数 N = 3、センサ 数 M = 2の場合に、 aの方向から到来する信号を抽出し、 a及び aの方向から到来
1 2 3
する信号を抑圧する「滑らかな形状のマスク」の例である。
マスク生成部 251— kで生成された滑らかな形状のマスク M (f, m)は、限定信号
DC
抽出部 252— kに送られ、限定信号抽出部 252— kは、 Y (f, m) =M (f, m)X (f,
k DC j m)により分離信号 Y (f, m)を抽出する。 以上の処理はすべての分離信号が抽出
k
されるまで複数の系統で実施され、最終的にすべての分離信号 Y(f, m)が得られる 。そして、信号分離装置は、得られた分離信号 Y(f, m)を、時間領域変換部におい て時間領域の信号に戻し、信号統合部をそのまま通過して出力する。
[0083] <性能比較 >
以下は、 [従来法 2]で信号分離を行った場合と、本形態の方法で [マスク 8] [マスク 11]を用いて信号分離を行った場合との性能を比較した表である c
[表 2]
Figure imgf000035_0001
この例では、源信号として、 3人の話者 (男性 2名 ·女性 1名)による音声信号を用い 、残響の無い環境でのこれらの混合信号を、 2つの無指向性マイクで観測する状況 をシミュレートしている。
[表 3]
Figure imgf000035_0002
この例は、表 2の状況において信号の混合の仕方(具体的には話者の位置配置) を変えた場合のシミュレート結果である。
[表 4]
Figure imgf000035_0003
この例は、表 2の状況において話者の組合せ(男性 3名)を変えた場合の例である。
[0084] これらの表に示すように、この形態の方法では、分離性能 SIRをほとんど落すことな ぐ従来法 2に比べ格段に高い SDRを得ることができている。これは信号の歪が少な い分離ができていることを示している。これより、本形態の方法は、信号源の数 Nがセ ンサの数 Mより多い場合に信号を低歪で分離するために有効であることが分かる。
[0085] 〔第 4の実施の形態〕
本形態も第 1の本発明に係る実施の形態である。本形態では、ノくイナリマスクに滑 らかな形状の関数を畳み込んで、滑らかな形状のマスクを生成する。以下ではマスク 作成部(図 1におけるマスク生成部 51— kに相当)における処理のみを説明する。な お、その他の構成や処理については、第 1から第 3の実施の形態と同様である。また 、本形態では、第 1の実施の形態で説明した位相差 z (f, m)、振幅比 z (f, m)、位
1 2
相差 z (f, m)から得られる信号の到来方向 z (f, m)等を、相対値 z (f, m)として使
1 3
用すること力 sできる。
[0086] 図 11は、本形態におけるマスク作成部 300-kの構成を例示したブロック図である。
マスク作成部 300— kの処理が開始されると、まず、バイナリマスク作成部 301— kは 、 V個の代表値を含む所定の範囲内にある相対値に対してハイレベル値をとり、この 範囲内にない相対値に対してローレベル値をとり、相対値の変化に伴う当該ハイレ ベル値から当該ローレベル値への推移が不連続な関数であるバイナリマスクを生成 する。例えば、マスク作成部 300-kは、 V個の信号が混合した信号を抽出するため のバイナリマスク
[数 21]
F' , ヽ 11 ^min— 一 dmax
1 0 otherwise を生成する。
[0087] なお、 a 力 a の V個の代表値を含む信号を抽出する場合、 a 、a は、例え
k+ 1 k+V mm max
ば aく a く a , a く a く a の範囲で設定する。これらは適当に設定して k min k+ 1 k + V max k + V+ 1
も良いが、より具体的には、例えば、以下の処理によって a 、a を算出する。
min max
[0088] まず、マスク作成部 300— kは、一時記憶部 90 (図 1)に格納されている相対値 z (f, m)、クラスタ C及び代表値 a (i= l , . ··, N) (第 1の実施の形態ステップ S3— 5参照) を読み込み、各クラスタ Cの分散値を
[数 22] a2 (f)i = (1/ |)∑„^ ( ,111) - ( )2 (22) の演算によって算出する。なお、 | C Iとは、クラスタ Cに属する相対値 z (f, m)の数 である。また、この分散値の算出を、例えば、 EMアルゴリズム(例えば、「尾上守夫 監訳"パターン識別",新技術コミュニケーションズ, ISBN 4-915851-24-9,第 1 0章」等参照。)などを用い、データにガウシアンモデルのあてはめを行って求めても よい。
算出された分散値 σ は一時記憶部 90(図 1)に格納され、次に、マスク作成部 30 1-k (図 11)は、一時記憶部 90に格納されている分散値 σ 2及び代表値 a (この例で はクラスタ Cの平均値)を読み込み、これらを用いて、
[数 23] ak+l "ak +<7k "ak+l
amm一 ,
CTk+l+ak 2 1 < 11 .. … )
一 °k+V · ak+V+l + g一k σ z+V+l ' ak+V
3 max 2
ak+V + ak+V+l を算出する (a 、a の具体的な算出例の説明終わり)。
mm max
[0089] 以上のように生成されたバイナリマスク F (z)は一時記憶部 90 (図 1)に格納される。
b
次に、単峰性関数生成部 302— k (図 11)が、 zの変化に伴って値が連続的に変化 する単峰性関数 g(z)を生成し、一時記憶部 90 (図 1)に格納する。なお、単峰性関 数 g(z)としては、例えば、ガウシアン
[数 24] g(z) = 等の滑らかな形状の関数を例示できる。なお、 σは g(z)の標準偏差を意味する。例 えば、 a — a を取り出す場合、 σとしては、 a — σ >a + σ 、 a + σく a
k+l k + v min k k max k + v+1
-σ となるように適当に設定するのが望ましぐ例えば、 σ =πιίη(σ ,σ ) k+v+1 k k+v+1 とできる。なお、 σ 及び σ は式(22)のものである。また、 min (ひ, )はひ及び
k k+v+1
βのうち小さい方を取り出す操作を意味する。
[0090] 次に、畳み込み混合部 303— k (図 11)が、一時記憶部 90 (図 1)から、バイナリマス ク F (z)及び単峰性関数 g(z)を読み込み、このバイナリマスク F (z)に単峰性関数 g( b b
z)を畳み込んだ関数 F (z) =F (z) * g (z)を計算し、これを一時記憶部 90 (図 1)に
b
格納する。ここで *は zに関する畳み込み演算子である。
そして、次に、マスク構成部 304-k (図 11)が、一時記憶部 90 (図 1)から、相対値 z (f, m)及び関数 F(z)を読み込み、関数 F(z)に相対値 z(f, m)を代入したマスク M (f, m)=F(z(f, m)) ·'·(24)
DC
を生成し、一時記憶部 90 (図 1)に格納する。
[0091] なお、その他、バイナリマスク F (z)の両端に、ある傾きを直線(曲線)を付加した形
b
状のマスクを滑らかな形状の関数を F(z)とし、式(24)のマスクを求めてもよい。
[0092] また、代表値 a (この例ではクラスタ Cの平均値)と、式(22) (23)のように求めた分 散値 σ2及び a 、 a とをマスク構成部 304— k (図 11)が読み込み、平均 a (f)、分散
[数 25]
Figure imgf000038_0001
を算出し、 さらに g i ( z ) を g ( z ) / g i (a i) にて、 a iにおける 値を 1に正規化し、
「gk(z) amin >z
F(z) amin― Z—"max
[gk+V amaxく z を算出し、式(24)のマスクを求めてもよい。
[0093] 〔第 5の実施の形態〕
本形態も第 1の本発明に係る実施の形態である。本形態は、奇関数の差から滑ら 力、な形状のマスクを生成する。以下ではマスク作成部(図 1におけるマスク生成部 51 一 kに相当)における処理のみを説明する。なお、その他の構成や処理については、 第 1から第 3の実施の形態と同様である。
本形態のマスク作成部は、相対値が限定範囲の下限値 a である場合に 0をとる第
mm
1の奇関数と、相対値が限定範囲の上限値 a である場合に 0をとる第 2の奇関数と
max
の差の写像から得られる単峰性の関数を、滑らかな形状のマスクとして生成する。例 えば、
M (f, m) = {tanh(z(f, m)-a )_tanh(z(f, m)— a )}αを「滑らかな形状の
DC min max
マスク」とする。なお、相対値 z(f, m)には、第 1の実施の形態等で示した位相差 Zi(f , m)及び振幅比 z (f, m)の少なくとも一方、或いはその写像(例えば、位相差から
2 求められる信号の到来方向 z (f, m) )等を用いる。また、 αは任意の正の数であり、 a
3
、 a は第 4の実施の形態と同様に求められたものである。また、必要に応じて、 mm max
M (f, m) = M (f, m) /max (M (f, m) )
DC DC DC
などの正規化を施してもょレ、。
[0094] 〔第 6の実施の形態〕
本形態も第 1の本発明に係る実施の形態である。本形態のマスクは、図 1及び図 2 のマスク作成部 51— kにおいて作成され、 V個の代表値を含む所定の範囲内にある 相対値に対してハイレベル値をとり、この所定の範囲内にない代表値に対してローレ ベル値をとり、ハイレベル値からローレベル値への推移が不連続な関数(バイナリマ スク)である。ただし、 2≤V≤Mである。すなわち、例えば、
[数 26]
「1 a≤z(f,m)≤am!r)r ,
BCf.m) = ^ mul ma 〜(25)
[0 otherwise をバイナリマスクとして作成する。なお、 a から a の V個の代表値を含む信号を抽
k+ 1 k+V
出する場合、 a 、 a は、例えば aく a く a , a く a く a の範囲で設
min max k min k+ 1 k + V max k + V+ 1
定する。より具体的には、例えば第 4の実施の形態で述べた方法と同様な手順により 、 a 、 a を生成する。また、本形態でも、位相差 z (f, m)、振幅比 z (f, m)、位相 mm max 1 2
差 z (f, m)から得られる信号の到来方向 z (f, m)等を、相対値 z (f, m)として使用
1 3
すること力 sできる。
[0095] また、 a 力 a の範囲に含まれる相対値 z (f, m)の数は、センサの数 2以上 M以
min max
下であり、好ましくは、センサの数 Mである。さらに、第 1の実施の形態と同様、本形 態では複数通りのバイナリマスク B (f,m)を作成する。
[0096] 具体的には、例えば、マスク制御部 40 (図 1 ,図 2)がー時記憶部 90から代表値 a, a , ... ,a を読み出し、これら代表値 a ,a ,... ,a を要素に持つ集合 Gを特定するデー
2 N 1 2 N 0
タを変数 SGに代入し、この変数 SGを一時記憶部 90に格納する。また、マスク制御
0 0
部 40は、集合 Gを特定する変数 SGを G = φ (空集合)に初期化し、変数 kを 0とし、 それらを一時記憶部 90に格納する(図 4 :ステップ S6)。次に、マスク制御部 40での 制御のもと、 N個すベての分離信号が得られるまで、限定信号作成部 50— k (k= l , ..., u),限定信号分離部 60 - k及び時間領域変換部 70 - kの複数系統 (u系統)によ る処理が行われる。まず、マスク制御部 40は、一時記憶部 90に格納された変数 kに 1をカ卩えた値を新たな変数 kとし、再び一時記憶部 90に格納する(図 4 :ステップ S7) 。次に、マスク制御部 40は、一時記憶部 90から変数 SG及び SGを呼び出す。そし
0
て、マスク制御部 40は、変数 SGによって特定される集合 Gから、 SGによって特定
0 0
される集合 Gの補集合 (Ge (ひ eはひの補集合を示す))の元を含む適当な V (≤ M)個 の代表値の集合 Gを選択し、この集合 Gを特定するデータを変数 SGに代入し、こ k k k
の変数 SGを一時記憶部 90に格納する(図 4 :ステップ S8)。限定信号作成部 50-k k
のマスク作成部 51— kは、一時記憶部 90に格納された変数 SGを読み出し、この変 k
数 SGによって特定される集合 Gを代表値に持つクラスの信号を抽出するバイナリ k k
マスクを作成する(図 4:ステップ S9)。
[0097] 図 12Aは、本形態におけるバイナリマスクの例示である。この例は、 2個の代表値 a , aを含む所定の範囲内にある相対値 z (f, m)に対してハイレベル値(例えば 1)を
2 3
とり、この所定の範囲内にない代表値 aに対してローレベル値(例えば 0)をとるバイ
3
ナリマスクの例である。この図の縦軸はバイナリマスクのゲインを示し、横軸は相対値 z (f, m) (信号の到来方向(deg.) )。この図に示すように、この例のバイナリマスクの
3
ハイレベル値はフラットであり、このハイレベル値とローレベル値とは不連続である。
[0098] なお、その他の構成や処理については、第 1及び第 2の実施の形態と同様である。
すなわち、本形態では、第 1及び第 2の実施の形態で使用した滑ら力な形状のマスク M (f, m)の換わりにバイナリマスク B (f, m)を用い、周波数領域の信号値から、 V
DC
個の信号源から発せられた信号からなる混合信号 (本形態ではこれを「限定信号」と 呼ぶ)の値を抽出し、第 1或いは第 2の実施の形態の処理を実行する。
また、バイナリマスク B (f, m)を用い、周波数領域の信号値から、 V個の信号源から 発せられた信号からなる混合信号の値を抽出する処理は、周波数領域の観測信号 値 X (f,m)にバイナリマスク B (f,m)を乗じることにより行う(X f ,m)=B (f,m) X (f ,m) ) j
[0099] ぐ本形態の特徴 >
従来の「従来法 2:信号のスパース性を利用した方法」で分離性能を上げた際に分 離信号の歪が大きくなるのは、分離性能を上げるために上述の式(3)の εを十分小 さくすると、このバイナリマスクによって取り出される信号成分が制限され、本来原信 号の成分として取り出されるべきサンプルの多くが取り出されなレ、からである。つまり、 この場合、各分離信号に多くの 0成分が詰めこまれ、各分離信号を不連続とし、 Musical Noiseを発生させることになる。
[0100] これに対し、この形態では、バイナリマスク B (f, m)によって、 2個以上 M個以下の 原信号からなる混合信号(限定信号)を抽出する。そのため、 1個のみの信号の値を 抽出する [従来法 2]のバイナリマスクよりも、広い範囲の相対値 z (f, m)に対する信 号 (サンプル)を限定信号として抽出できる。例えば、図 12Aの例の場合、相対値 z (f
, m)が代表値 aや aの近傍となるサンプル値のみではなぐ相対値 z (f, m)が aと a
1 2 1 2 との間に位置するようなサンプノレ値も抽出できる。また、例えば、 aと aとの間に位置
1 2
するようなサンプルは、代表値 a或いは aに対応するサンプルである可能性が高い。
1 2
[0101] そのため、ある時刻において同一周波数の観測信号が 2個以上存在し、サンプル 値力 本来対応すべき代表値から離れてしまった場合であっても、このようなサンプ ル値を抽出できる可能性は高くなる。その結果、分離信号に不連続に 0成分が詰め こまれることによる品質劣ィ匕(Musical Noiseの発生)を抑制できる。
[0102] <バイナリマスクによる 0詰めの影響の検証 >
以下に、 3人の話者による音声信号 s、 s、 s力 2つの無指向性マイクで観測され
1 2 3
た場合 (N = 3, M = 2の場合)について、バイナリマスクによる 0詰めの影響を議論す る。
バイナリマスクによって 0が詰められ失われた信号のパワーの比率を、
[数 27]
Figure imgf000041_0001
と定義すると、従来の「信号のスパース性を利用した方法 (従来法 2)」では、 s : 17%
1
、s : 14%, s : 23%もの信号のパワーがバイナリマスクにより失われた。
2 3
[0103] 一方、本形態のバイナリマスク B (f , m)による信号のパワー劣化は、限定信号を sと
1 sの 2つの信号の混合とした場合には s : 2. 5%、 s : 5. 7%であり、 sと sの 2つの信
2 1 2 2 3 号の混合とした場合には s : 8. 1%、 s : 0. 7%であった。
すなわち、この形態では、バイナリマスク B (f, m)による信号の劣化が従来法に比 ベて少ないことが分かる。これは、この形態では、 Musical Noiseが発生しにくいことを 示している。
[0104] <性能比較 >
以下に、本形態のシミュレーション結果を示す。
[表 5]
Figure imgf000042_0001
この例は、本形態のバイナリマスクで限定信号を抽出し、その限定信号に ICAを提 供して信号分離を行った例である。またこの例では、原信号として、 3人の話者 (男性 2名 ·女性 1名)による音声信号を用い、残響の無い環境でのこれらの混合信号を、 2 つの無指向性マイクで観測する状況をシミュレートしている。この表に示すように、こ の形態の方法では、分離性能 SIRをほとんど落すことなぐ従来法 2に比べ格段に高 い SDRを得ることができる。これは、この形態の方法が、格段に低い歪で信号の分離 を行っていることを示している。
[0105] 〔第 7の実施の形態〕
本形態も第 1の本発明に係る実施の形態であり、上述の第 6の実施の変形例である 。すなわち、本形態も 2≤V≤Mの場合にバイナリマスクを用いて限定信号を抽出す る形態であるが、バイナリマスク B(f,m)の作成方法及び限定信号の算出処理に違い がある。以下では、このバイナリマスク B(f,m)の作成方法、及び限定信号の算出処理 にのみについて説明を行い、その他の処理及び機能構成については、第 1の実施の 形態或いは第 2の実施の形態と同一であるため、説明を省略する。
[0106] この形態のノくイナリマスク B(f,m)は、上述の限定信号以外の観測信号成分を抽出 するためのものである。すなわち、この形態のマスク作成部が作成するバイナリマスク B(f,m)は、 V個の代表値 (この集合を Gとする)を含む所定の範囲内にある相対値に 対してローレベル値をとり、この所定の範囲内にない代表値(G c)に対してハイレ ル値をとり、ハイレベル値からローレベル値への推移が不連続な関数である。ただし 、 2≤V≤Mである。
[0107] すなわち、この形態のマスク作成部 51— kは、例えば、 G eに含まれる代表値につい
k
て、上述の式(3)で示されるバイナリマスクを生成する。また、本形態でも、位相差 z ( f, m)、振幅比 z (f, m)、位相差 z (f, m)から得られる信号の到来方向 z (f, m)等
2 1 3
を、相対値 z (f, m)として使用することができる。図 12Bは、本形態のバイナリマスク B (f,m)の例示である。この例は、 V = 2個の代表値 a, aを含む所定の範囲内にある相
1 2
対値 z (f, m)に対してローレベル値(例えば 0)をとり、この所定の範囲内にない代表
3
値 aに対してハイレベル値(例えば 1)をとるバイナリマスクの例である。この図の縦軸
3
はバイナリマスクのゲインを示し、横軸は相対値 z (f, m) (信号の到来方向(deg.) )
3
。この図に示すように、この例のバイナリマスクのハイレベル値はフラットであり、この ハイレベル値とローレベル値とは不連続である。
[0108] また、この形態の限定信号抽出部は、周波数領域の信号値 X (f,m)にこのノくイナリ
J
マスク B(f,m)を乗じた値を、周波数領域の信号値 X (f,m)力 減算し、限定信号値 X"(
J
f,m)を抽出する。例えば、上述の式 (3)で示されるバイナリマスク M (f,m)を集合 G
i k Ίこ 含まれる N-M個の代表値について作成し、
[数 28]
X(f , m) = X(f , m) -∑{Mi (f, m)X(f, m)}… (27) を計算することで、 M個の原信号のみからなる限定信号の値 X (f,m)を算出する。な お、上述の式 (3)のバイナリマスク M (f,m)は、それぞれ 1つの代表値のみに対してハ ィレベル値をとるバイナリマスクである力 2つ以上の代表値に対してハイレベル値を とるバイナリマスクを用いて本形態の処理を実行してもよレ、。また、バイナリマスクの変 わりに上述した滑らかな形状のマスクを用いて本形態の処理を実行してもよレ、。
限定信号 X (f,m)が算出されると、以後第 1の実施の形態或いは第 2の実施の形態 と同様な限定信号分離、時間領域変換、信号統合の処理が行われる。
[0109] 〔第 8の実施の形態〕
本形態は、第 2の本発明に係る例であり、 M個のセンサで信号が観測される状況に おいて、観測値を M次元領域でクラスタリングし、マスクを定義する。なお、以下では 第 1の実施の形態との相違点を中心に説明し、第 1の実施の形態と共通する事項に ついては説明を省略する。
図 13は、本形態における代表値生成部 430、マスク制御部 40及び限定信号作成 部 450— kの構成を例示したブロック図である。なお、この図は V個の分離信号を得る 1系統のみを示している。なお、本形態では 1≤V≤Mである。
[0110] 本形態の信号分離装置と第 1の実施の形態の信号分離装置 1との構造上の相違 点は代表値生成部及び限定信号作成部である。すなわち、第 1の実施の形態の信 号分離装置 1の代表値生成部 30 (図 1)の換わりに代表値生成部 430 (図 13)が設け られ、信号分離装置 1の限定信号作成部 50-k (図 1)の換わりに限定信号作成部 45 0— k (図 13)が設けられる。その他の構成については第 1の実施の形態と同様である 図 14は、本形態における信号分離処理を説明するためのフローチャートである。以 下、このフローチャートに添って、本形態の信号分離処理について説明する。
[0111] まず、前処理として、各センサにおいて観測された時間領域の各観測信号 X (t) (j
J
= 1 ,…, M)を記憶部 2 (図 1)に格納しておく。そして、信号分離処理が開始されると 、信号分離プロセッサ 3は制御部 10の制御のもと以下の処理を実行する。
まず信号分離プロセッサ 3は、制御部 10の制御のもと記憶部 2にアクセスし、そこか ら各観測信号値 X (t)を順次読み込み、周波数領域変換部 20に送る(ステップ S21)
J
。周波数領域変換部 20は、短時間離散フーリエ変換等によって、これらの信号値を 時間ごとの周波数領域の観測信号値 X (f, m)に順次変換し、一時記憶部 90に格納
J
する(ステップ S 22)。
[0112] 次に、クラスタリング部 432 (図 13)が、一時記憶部 90 (図 1)に格納された周波数領 域の観測信号値 X (f, m) , . . . , X (f, m)を読み出す。そして、クラスタリング部 4
1 M
32 (図 13)は、これら周波数領域の信号値 X (f, m) , . . . , X (f, m)からなる観測
1 M
信号ベクトル(「第 1のベクトル」に相当) X (f, m) = [X (f, m) , . . ., X (f, m) ]を、
1 M
周波数 fごとに N個ずつのクラスタ C (f) (i= l, . . ., N)にクラスタリングし、信号源
1
数 Nと等しい N個のクラスタ C (i= l, 2,…, N)を生成する(ステップ S23)。なお生成 された N個のクラスタ は、一時記憶部 90 (図 1)に格納される。
[0113] ここで本形態におけるクラスタとは、観測信号ベクトル X (f, m)の集合であり、離散 時間 mの集合 Tを用いて C (f) = {X (f, m) I m eT }と表記される。また、クラスタリ ングの目的は、同じ信号源が支配的である (主な成分を持つ)サンプル (観測信号べ タトル X (f, m) )を同じクラスタに分類することである。なお、得られる N個のクラスタ C (f) , ···, c (f)は、必ずしも、互いに素(c i (f) n c j (f)が空集合, i≠j)である必要は
N
なぐまたクラスタに属さない要素
[数 29]
X(f5m)iUSiCi
が存在してもよい。
[0114] [クラスタリング部 432での処理の詳細]
ここでクラスタリング部 432の処理をさらに詳細に説明する。
この例のクラスタリング部 432は、クラスタリングを適切に実行できるように、すなわち 同じ信号源が支配的であるサンプル (観測信号ベクトル X (f, m) )が同じクラスタに分 類されるように、各サンプノレの正規化を行ってからクラスタリングを行う。
具体的には、例えばまず正規化部 432a (図 13) 、一時記憶部 90 (図 1)から観測 信号ベクトル X (f, m)を読み込み、
[数 30]
Figure imgf000045_0001
を算出し、
p (f,m)/Sign(Xj(f,m)) (| Xj(f,m)|≠0)
(29)
(,m) †x(f,m) (I Xj(f,m)|= 0) · の正規化を行い、クラスタ生成部 432bが、この正規化結果のクラスタリングを行う。
[0115] また、さらに必要であれば、この例の正規化部 432aは、式(28) (29)の正規化を 行った後、さらに、
[数 31] X(f,m) {X(f,m)/ li X(f,m)li (II ( 5m) IM 0)
[X(f,m) (|| X(f,m)||= 0)
の正規化を行い、 クラスタ生成部 4 3 2 bが、 この正規化結果のクラスタ リングを行う。 ただし、 べク トルの長さ || X(f,m) ||は X(f,m)のノルムであ り、具体的には、例えば、
[数 32]
/ k ヽ 1/k
Lk(X(f5m)) = (^∑¾|xj| (f,m)J (31) で定義される Lノルム■ X (f, m) ■ ^ i, m) )を用いる。
2 2
[0116] また、クラスタ生成部 432bが行うクラスタリングの方法としては、例えば、階層的クラ スタリングや k-meansクラスタリング等の多くの教科書で説明されている方法を用い ること力 Sできる(例えば、「尾上守夫 監訳"パターン識別",新技術コミュニケーション ズ, ISBN 4-915851-24-9,第 10章」等参照。)。なお、レヽずれのクラスタリング 方法も、 2つのサンプル X (f, m)と X' (f, m)の距離が定義され、それに従ってサンプ ル間の近さが測られ、なるべく距離の近いサンプノレ同士が同じクラスタに含まれるよう にクラス夕リングするものである。
[0117] 例えば、上述の式(29)のみによってサンプルが正規化された場合、クラスタ生成 部 432bは、正規化された 2つの観測信号ベクトル X (f, m)間のコサイン距離を距離 尺度として用いてクラスタリングを行う。なお、 2つのサンプル X (f, m)と X' (f, m)の コサイン距離は、
1-XH (f , m) ·Χ,(f , m) / (■ X (f , m) ■ ·■ X,(f , m) ■ ) · · -(32)
によって定義される。
[0118] また、上述の式(29)と式(30)によってサンプノレが正規化された場合、クラスタ生成 部 432bは、正規化された 2つの観測信号ベクトル間の差 (X (f, m)-X' (f, m) )の L ノルム■ X (f, m)— X,(f, m) ■ , m)— ノルム
2 ¾ X,(f, m) )や、任意の kによる L
k
、或いはコサイン距離 (式 (32) )を距離尺度として用いてクラスタリングを行う( [クラス タリング部 432での処理の詳細]の説明終わり)。
次に、代表値計算部 433が、一時記憶部 90 (図 1)に格納された各クラス C (f)を順 次抽出し、各クラス Cf (f)を代表する代表ベクトル(「第 2のベクトル」に相当) (f)を算 出する(ステップ S 24)。
[0119] [代表値計算部 433での処理の詳細]
例えば、まず代表値計算部 433の代表ベクトル生成部 433a (図 13)が、一時記憶 部 90 (図 1)に格納された各クラス C (f)を順次抽出し、各クラスタ C (f)に属するサン プルの値 X (f, m)の平均値
[数 33] ai(f) =∑x(f,m)eci(f)X(f'm)/ l Ci(f) l を各信号源に関する代表ベクトル a (f)として算出する。或いは、各クラスタ C (f)に属 するサンプル X (f, m)を適度に量子化し、最瀕値を求めてこれを代表ベクトル a ( と
i してもよレ、。このように求められた代表ベクトル a (f)は一時記憶部 90 (図 1)に格納さ れる。
[0120] 次に、並び替え部 433b (図 13)が、一時記憶部 90 (図 1)から、これらの代表べタト ル a (f) , .··, a (f)を読み出し、これらの各代表ベクトル a (f ) , .··, a (f)の各源信号
1 N 1 N
s (t)との対応が、すべての周波数 fにおいて等しくなるように、各代表ベクトル a (f) k i の添字 iを付け替える(ステップ S25)。
具体的には、例えばまず、並び替え部 433b (図 13)が、読み出した各周波数 fの代 表ベクトル a (f)を用い、
[数 34] arg a^ /a^Cf))
6i(f) = arccos J——— -—— - . . . (33)
I fv-1 ll dj - dj, )! の演算によって、各周波数 fに対する源信号 iの到来方向の推定値 Θ ωを算出する
。なお、 dはセンサ jの位置、 Vは信号の速さ、 a (f)は代表ベクトル a (f)の i番目の要 素であり、 d及び Vは、例えば、予め一時記憶部 90に格納されているデータを用いる こととする。
[0121] 算出された各推定値 Θ (f)は、例えば、その算出に用いた代表ベクトル a (f)に対 応付けられて一時記憶部 90 (図 1)に格納される。次に、並び替え部 433b (図 13)は 、例えば、一時記憶部 90から各推定値 Θ . (f)を読み込み、これらを各周波数 fごとに 所定の順序 (例えば、昇順、降順等)で並び替える。なお、この並び替えは、例えば 公知の並び替えアルゴリズムによって行われる。そして、この並び替え後の各 fにおけ る各代表ベクトル a (f)の順番を示す情報 (Γ (f, a (f) ) = l , 2,…, N)が、一時記憶 部 90 (図 1)に格納される。そして、並び替え部 433b (図 13)は、例えば、この順序情 報 j ' (f, a (f) )を一時記憶部 90から読み込み、当該 a (f)が j, (f, a (f) )番目の源信
i
号に対応するとして、各代表ベクトルと iとの対応付けを変更する(a (f)の添字 iを付け 替える)。そして、この添字 iが付け替えられた各代表ベクトル a (f)は、一時記憶部 90 (図 1)に格納される。
[0122] 次に、マスク制御部 40は、これら各代表ベクトル a (f)を要素に持つ集合 Gを特定
i 0 するデータを変数 SGに代入し、この変数 SGを一時記憶部 90に格納する。また、
0 0
マスク制御部 40は、集合 Gを特定する変数 SGを G= φ (空集合)に初期化し、変数 k を 0とし、それらを一時記憶部 90に格納する (ステップ S26)。
次に、マスク制御部 40での制御のもと、 N個すベての分離信号が得られるまで、限 定信号作成部 50 - k (k= l, ..., u) ,限定信号分離部 60 - k及び時間領域変換部 70 一 kの複数系統 (u系統)による処理が行われる。
[0123] まず、マスク制御部 40は、一時記憶部 90に格納された変数 kに 1をカ卩えた値を新た な変数 kとし、再び一時記憶部 90に格納する(ステップ S27)。
次に、マスク制御部 40は、一時記憶部 90 (図 1)から変数 SG及び SGを呼び出す
0
。そして、マスク制御部 40は、変数 SGによって特定される集合 Gから、 SGによって
0 0
特定される集合 Gの補集合 (Ge ( α eはひの補集合を示す) )の元を含む適当な V (≤ M)個の代表ベクトル a (f) (p = l, ···, V) (「第 3のベクトル」に相当)の集合 Gを選
P k 択し、この集合 Gを特定するデータを変数 SGに代入し、この変数 SGを一時記憶
k k k
部 90に格納する(ステップ S28)。すなわち、マスク制御部 40は、各代表ベクトル a (f
1
) ,…, a (f)の中から、限定信号として取り出す V個の信号に対応する V個の代表べ
N
タトル a (f) (p = l , ·.., V)を抽出する。
P
[0124] 本形態では、この集合 Gに含まれる代表ベクトル a (f)に近いサンプル値 X (f, m)
k P
を抽出し、集合 Gに含まれない代表ベクトル (集合 G eの要素、 * eは *の補集合を 示す)に近いサンプノレ値 X(f, m)を抽出しないことで、 V個の信号が混合した限定信 号 X' (f , m)を作成する。
そのために、本形態では、限定信号作成部 450— kのマスク作成部 451— k (図 13) 、一時記憶部 90 (図 1)から変数 SG、 SG及び観測信号ベクトル X(f, m)を読み k 0
込み、以下のマスク M (f, m)を生成する(ステップ S29)。
k
[0125] [数 35]
. max (f)eG D(X(f,m),a (f))<min c D(X(f,m),a (f))
(f,m) = p、 ' K ' aq(i)edk
Figure imgf000049_0001
otherwise
なお、 D (X ( f , m), a i ( f )) は、 ベク トル X ( f , m) と a ; ( f ) とのマハラノビス平方距離
D(X(f,m),ai(f)) = (X(f,m)-ai(f))H∑"1(X(f,m)-ai(f))を示し、 ∑はクラスタ C iの共分散行列∑ - ai(f))(X(f,m)-ai(f))H
Figure imgf000049_0002
を示し、 I c Iは、クラスタ cに属するサンプル数を示す。また、源信号の大きさがほ ぼ同じであることが分かっている場合、共分散行列∑ =ι(単位行列)としてもよい。
[0126] このマスク M (f, m)は、一時記憶部 90 (図 1)に格納され、限定信号抽出部 452- k
k (図 13)は、一時記憶部 90からマスク M (f, m)と観測信号ベクトル X(f, m)とを読 k
み込み、マスク M (f, m)と観測信号ベクトル X(f, m)との積
k
X '(f, m)=M (f, m) -X(f, m)
k k
を演算し、 V個の信号源から発せられた限定信号値 X " (f, m)を抽出する (ステップ k
S30)。
[0127] この限定信号値 X '(f, m)は、一時記憶部 90 (図 1)に格納された後、限定信号分 k
離部 60-kに送られ、限定信号分離部 60-kは、この限定信号値 X (f, m)を用い、 k
限定信号の信号分離を行う (ステップ S31)。ここで、限定信号値 X ' (f, m)は、 V k (l
≤V≤M)個の信号源から発せられた信号によって構成された混合信号の値である と近似される。よって、その分離行列の推定には [従来法 1]で述べた独立成分分析 による方法を利用できる。すなわち独立成分分析の入力として、観測信号値 Xの代わ りに限定信号値 X (f, m)を用い、例えば [従来法 1]で述べた式 (2)を用いて分離 を行う。なお、 V= lの場合は、ステップ S31の処理は不要である。
[0128] 本実施例における ICAによる分離では、まず、 ICA分離行列推定部 61— k (図 2)に おいて、限定信号値 X ' (f, m)を用い、前述の式(2)の学習則に従い分離行列 W(f
k
, m)を生成し、この分離行列 W (f, m)を一時記憶部 90に格納する。なお、この分離 行列 W(f, m)の生成には、例えば、以下のパーミュテーシヨン'スケーリング解決部 6 2-kからの出力値 Y (f, m)のフィードバックを用いる。生成された分離行列 W(f, m
k
)はパーミュテーシヨン'スケーリング解決部 62— kに送られる。パーミュテーシヨン'ス ケーリング解決部 62— kは、この分離行列 W (f, m)と限定信号値 X (f, m)を用い、
k
Y (f, m) =W (f, m) X " (f, m)の演算を行レ、、それぞれの分離信号値 Y (f, m) = k k k
[Y nkl (f, m), ···, Y nkv(f, m) ]Tを生成し、それを一時記憶部 90に格納する。そ kl kV
して、パーミュテーシヨン'スケーリング解決部 62— kは、例えば、この分離信号値 Y (f
k
, m)をフィードバックし、 [従来法 1]で述べた方法で Permutation問題を解決する。 Permutation問題の解決後、パーミュテーシヨン'スケーリング解決部 62_kは、さらに 、分離信号値 Y (q= l , ...V)がどの源信号に対応するのかを示すタグ Π を、分離
kq kq
信号値 Y (q= l , ...V)に付与し、これらを対応付けて一時記憶部 90に格納する。こ こでは、このタグ Π を分離信号値 Y の上付添字 Π として表記する。
kq kq kq
[0129] 具体的には、例えば、パーミュテーシヨン'スケーリング解決部 62-k力 一時記憶 部 90力 抽出した分離行列 W (f)の逆行列(N≠Mの場合は Moore-Penrose型擬似 逆行列)を用い、
[数 36] θ。 a誦 ([W¾MW^f)]) (34)
2n^-1||dj -dj,
(ここで vは信号の速さ、 dはセンサ jの位置)
j
の演算によって得られる信号の推定到来方向 Θ (f)と、一時記憶部 90から抽出した 変数 SGが示す集合 Gに含まれる代表ベクトル a (f)とを比較し、 Θ に最も近い代表 k k p q ベクトル a (f)を q番目の分離信号 Y に対応付ける (ステップ S32)。つまり、パーミュ
P kq
テーシヨン 'スケーリング解決部 62— kは、この分離信号 Y に対し、代表値 aを示すタ
kq i グ π を付与する (対応付ける)。
[0130] この後、パーミュテーシヨン'スケーリング解決部 62-k力 一時記憶部 90から分離 行列 W(f)を抽出し、その各行 w (f)を
w (f)— [W—丄 )] w (f)
q jq q
とすることにより、 ICAのスケーリング問題を解決し、スケーリング問題解決後の分離行 列 W(f)を一時記憶部 90に格納する。なお、後の信号統合部 80における処理のた め、この処理ではすべての系列 kにおいて同じ jを用いることが望ましい。
タグ Π が付与された各分離信号値 Y は、時間領域変換部 70-kに送られる。時 kq kq
間領域変換部 70 - kは、例えば、短時間逆離散フーリエ変換等により、時間周波数 領域で得られている各分離信号値 Y を時間領域の信号値に変換し、その変換値を
kq
一時記憶部 90に格納する。 (ステップ S33)。なお、これら時間領域の信号値 y (t) k
= [y nkl (t) , y nw (t) ]Tにも上述のタグ Π が関連付けられる。この関連付け kl kV kq
を行う場合、まず、時間領域変換部 70 - kが、一時記憶部 90から、周波数領域の信 号値 Y に対応付けられているタグ Π を各周波数及び時間について抽出する。次 kq kq
に、時間領域変換部 70— kは、各周波数及び時間におけるタグ Π がすべて等しい か否かを判断する。ここでこれらがすべて等しかった場合には、時間領域の信号値 y k のタグとして、周波数領域の信号値 Y に対応付けられているタグ Π を対応付ける q kq kq
。一方、これらがすべて等しくなかった場合には、多数決にて時間領域の信号値 y kq のタグを決定する。
[0131] 次に、マスク制御部 40において、一時記憶部 90から変数 SGと SGとを抽出し、これ
k
らが示す Gと Gとの和集合 GUGを新たな集合 Gとし、この集合 Gを変数 SGに代入し
k k
、この変数 SGを一時記憶部 90に格納する(ステップ S34)。また、マスク制御部 40は 、一時記憶部 90から変数 SGと SGとを読み出し、この新たな集合 Gが集合 Gと等し
0 0 いか否かを判断する(ステップ S35)。ここで、 G = Gでなければステップ S27の処理
0
に戻る。
[0132] 一方、 G = Gであれば、信号統合部 80において、一時記憶部 90から各系統 k (時
0
間領域変換部 70— k/k= l, u)から出力された分離信号 y (t)を読み出し、こ
kp
れらの選択/統合を行い、 N個すベての分離信号を得る (ステップ S36)。具体的に は、例えば、まず信号統合部 80は、一時記憶部 90から読み出した各分離信号 y (t
kp
)のタグ Π を比較する。ここで、複数の系統 kにおレ、て同じタグを持つ分離信号値 y
kq k
(t)が存在しないと判断された場合、信号統合部 80は、すべての分離信号値 y (t)
P kq を最終的な分離信号値 y^t) (i= l , ..., Ν)として出力する (ステップ S37)。一方、複 数の系統において同じタグを持つ分離信号値が存在すると判断された場合、信号統 合部 80は、これらのタグが等しい分離信号値のどれ力、 1つを適当に選択し、最終的 な分離信号値 y (t)として出力する力 \同じタグを持つ分離信号値の平均を計算し、 それを出力信号とする(ステップ S37)。
[0133] ここで、どれか 1つの分離信号値 y (t)を適当に選択し、最終的な分離信号値 y (t
kq i
)として出力する処理の場合、信号統合部 80は、例えば、同じタグ aを持つ分離信号 値 y (t)の中で最大パワーを持つものを最終的な分離信号値 y (t)として出力する。
kq
また、同じタグを持つ分離信号値の平均を最終的な分離信号値 y (t)として出力する 処理の場合、信号統合部 80は、例えば、
[数 37]
= り
(Kは同じタグ aを持つ分離信号の個数)
とする。以上により、 N個の信号が少ない歪で分離される。
[0134] なお、本形態の変形として、マスク M (f, m)を生成せず、
[数 38]
; fX(f,m) max (f)eGk D(X(f,m),ap(f)) < min D(X(f,m),aq(f))
[0 otherwise として、直接限定信号値を生成してもよい。すなわち、例えば、限定信号作成部 450 一 kが、観測信号ベクトル X (f, m)に対し、
[数 39] maxap(f)eGk D(X(f,m),ap(f)) < minaq(f)eGC D(X(f,m),aq(f)) を満たすか否力、を判断し、満たすと判断した観測信号べ外ル X (f, m)を、信号源か ら発せられた信号の値として抽出することとしてもよい。
[0135] 〔第 9の実施の形態〕
本形態は、第 3の本発明に係る実施の形態である。
ぐ構成 >
図 15は、本形態におけるブランド信号分離装置 500の構成を例示したブロック図 である。なお、この図における矢印はデータの流れを示す力 制御部 521や一時記 憶部 522に出入りするデータの流れは省略してある。すなわち、データが制御部 52 1や一時記憶部 522を経由する場合であつても、その経由の過程は省略してある。
[0136] まず、この図を用いて、本形態の構成について説明する。
図 15に例示するように、本形態の信号分離装置 500は、記憶部 501とこれに有線 或いは無線で電気的に接続された信号分離プロセッサ 502とを有している。
記憶部 501は、例えば、ハードディスク装置、フレキシブルディスク、磁気テープ等 の磁気記録装置、 DVD-RAM (Random Access Memory) , CD-R (Recordable) / RW (Rewritable)等の光ディスク装置、 MO (Magneto-Optical disc)等の光磁気記録 装置、 EEP— ROM (Electronically Erasable and Programmable-Read Only Memory) 、フラッシュメモリ(flash memory)等の半導体メモリ等である。また、記憶部 501は、信 号分離プロセッサ 502と同一の筐体内に存在してもよいし、別個の筐体に構成され てもよい。
[0137] またこの例の信号分離プロセッサ 502は、例えばプロセッサや RAM等によって構 成されるハードウェアであり、周波数領域変換部 511、混合行列推定部 512、パーミ ュテーシヨン問題解決部 513、スケーリング問題解決部 514、列選択部 516、行列生 成部 517、分離行列生成部 518、分離信号生成部 519、時間領域変換部 520、制 御部 521及び一時記憶部 522を有している。また、この例の混合行列推定部 512は 、クラスタリング部 512a、代表べクトノレ計算部 512b及びべクトノレ統合部 512cを有し ている。さらに、クラスタリング部 512aは、正規化部 512aa及びクラスタ生成部 512ab を有している。
[0138] <処理 >
図 16は、本形態における信号分離装置 500の処理の全体を説明するためのフロ 一チャートである。以下、図 15及び図 16を用いて、信号分離装置 500の処理を説明 していく。なお、以下では N (N≥ 2)個の信号源から発せられた信号が混合され、 M 個のセンサで観測された場合について説明する。
[0139] [処理の全体]
信号分離装置 500は、制御部 521の制御のもと、以下の処理を実行する。 まず、 M個のセンサで観測された観測信号の値 X (t), X が、記
1 …, (t) (tは時間)
M
憶部 501から読み込まれ、周波数領域変換部 51 1に入力される(図 15)。周波数領 域変換部 51 1は、これらの観測信号値 X (t) , X (t)を、短時間離散フーリエ変
1 M
換等により、周波数領域の信号値 (周波数 fごとの時系列データ) X (f
1 , m),…, X (
M
f, m) (mは離散時間)に変換する (ステップ S51)。これら周波数領域の信号値 X (f , m) , · · ·, X (f, m)は、一時記憶部 522に格納され、混合行列推定部 512のクラス
M
タリング部 512aによって読み込まれる。クラスタリング部 512aは、これらによって構成 される観測信号ベクトル X (f, m) = [X (f ),
1 , m …, X (f
M , m) ] Tを、周波数 fごとに N 個ずつのクラスタ C (f) (i= l , N)にクラスタリングする (ステップ S52)。各クラスタ
i
C (f)は、代表ベクトル計算部 512bに送られ、代表ベクトル計算部 512bは、各クラス タ C (f)の代表ベクトル a (f)を算出する(ステップ S53)。各代表ベクトル a (f)は、一 時記憶部 522に格納され、ベクトル統合部 512cは、これらを順次抽出し、各代表べ タトル a (f)を列とする推定混合行列 A (f) = [a (f) , . · · , a (f) ]を生成する(ステップ i 1 N
S54)。生成された推定混合行列 A (f)は、一時記憶部 522に格納される。
[0140] パーミュテーシヨン問題解決部 513は、推定混合行列 A (f)を一時記憶部 522から 読み込み、推定混合行列 A (f)の列を並び替えてパーミュテーシヨン問題を解決する (ステップ S55)。なお、この処理には、後述する分離信号の値 Y (f
1 , m) , Y (f
Ν , m)をフィードバックして用いることも可能であり、その場合、より正確にパーミュテーシ ヨン問題を解決できる。
[0141] 次に、スケーリング問題解決部 514において推定混合行列 A (f)の列を正規化して スケーリング問題を解決した後(ステップ S 56)、この推定混合行列 A (f)を用いて、分 離行列生成部 518が分離行列 W (f, m)を生成する(ステップ S57)。生成された分 離行列 W (f, m)は、一時記憶部 522に格納された後、そこから分離信号生成部 519 に送られ、分離信号生成部 519は、一時記憶部 522から周波数領域の信号値 X^f , m) , ···, X (f, m)を読み込み、 Y (f, m) =W(f, m) X (f, m)の演算により、分離
M
信号ベクトル Y (f, m) = [Y (f, m) , .··, Y (f, 111) ] を算出する(ステップ358)。算
1 N
出された分離信号値 Y (f, m) , ..., Υ (f, m)は、一時記憶部 522に格納され、パー
1 N
ミュテーシヨン問題解決部 513にフィードバックされる他、時間領域変換部 520にも送 られる。そして、時間領域変換部 520は、分離信号値 Y (f, m) , ···, Y (f, m)を、
1 N
添字 iごとの短時間逆フーリエ変換等により時間領域の信号値 y (t), ..., y (t)に変
1 Ν
換し (ステップ S59)、時間領域での分離信号値 y (t)が得られる。
[0142] [混合行列推定部 512での処理の詳細]
次に、混合行列推定部 512での処理の詳細について説明する。なお、以下の処理 は、周波数ごとに適用されるものである。
まず、クラスタリング部 512aは、一時記憶部 522から読み込んだすべてのセンサの 観測信号成分 X (f, m),…, X (f, m)をまとめ、これらを観測信号ベクトル X (f, m)
1 M
= [X (f, m) , ..·, X (f, m) ]Tとして関連付ける。そして、クラスタリング部 512aは、
1 M
クラスタリングによって信号源と等しい数 N個のクラスタ C (f)を生成し、これらを一時 記憶部 522に格納する(ステップ S 52)。
[0143] ここでクラスタとは、観測信号ベクトル X (f, m)の集合であり、離散時間 mの集合 T を用いて C (f) = {X (f, m) I meT }と表記する。また、クラスタリングの目的は、同じ 信号源が支配的である (主な成分を持つ)サンプル (観測信号ベクトル X (f , m) )を同 じクラスタに分類することである。なお、得られる N個のクラスタ C (f) , ···, C (f)は、
N
必ずしも、互いに素(c (f) n c (f)が空集合, i≠j)である必要はなぐまたクラスタに 属さない要素
[数 40]
が存在してもよい。
[0144] 次に、代表ベクトル計算部 512bは、一時記憶部 522から各クラスタ C (f)を読み込 み、各クラスタ C (f)に属するサンプル X (f, m)の平均値
[数 41] ai (m) =∑X(f,m)eCi(f)X(f'm)/ | Ci(f) l を各信号源に関する代表ベクトル a^f)として算出する(ステップ S53)。或いは、各ク ラスタ C (f)に属するサンプル X (f, m)を適度に量子化し、最瀕値を求めてこれを代 表ベクトル a (f)としてもよい。
[0145] 最後に、ベクトル統合部 12cで N個の代表ベクトル a (f)をまとめて、混合行列 H (f) = [h (f) ,…, h (f) ]の推定行列である推定混合行列 A (f) = [a (f) ,…, a (f) ]を
I N I N
生成して出力する(ステップ S54)。なお、推定混合行列 A (f)は、各ベクトルの順序 に関する任意性 (パーミュテーシヨンの任意性)と、各ベクトルの大きさの任意性 (スケ 一リングの任意性)を含んでいる。すなわち、代表ベクトル a (f)は、 h (f)に任意の
ί π ω
複素数を掛けたものとして推定される。ここで、 Πは、パーミュテーシヨンの任意性を 表現する順列である。
[0146] [クラスタリング部 512aでの処理の詳細]
次にクラスタリング部 512aの処理をさらに詳細に説明する。
この例のクラスタリング部 512aは、クラスタリングを適切に実行できるように、すなわ ち同じ信号源が支配的であるサンプル (観測信号ベクトル X (f, m) )が同じクラスタに 分類されるように、正規化部 512aaで各サンプルの正規化を行ってからクラスタリング を行う。
[0147] 具体的には、この例の正規化部 512aaは、
[数 42] … )
Figure imgf000056_0001
) の正規化を行った後にクラスタリングを行う。
また、さらに必要であれば、この例の正規化部 512aaは、さらに、
[数 43]
Figure imgf000057_0001
の正規化を行った後にクラスタリングを行う。 ただし、 ベク トルの長さ || X(f,m) ||は X(f,m)のノルムであり、 具体的には、 例えば、
[数 44]
ヽ l/k
m) •(38)
Figure imgf000057_0002
で定義される Lノルム■ X (f, m) ■ ¾if, m) )を用いる。
2 2
[0148] また、クラスタリングの方法としては、例えば、階層的クラスタリングや k- meansクラス タリング等の多くの教科書で説明されている方法を用いる (例えば、「尾上守夫 監訳
"パターン識別",新技術コミュニケーションズ, ISBN 4-915851-24-9,第 10章 」等参照。)。なお、いずれのクラスタリング方法も、 2つのサンプル X (f, m)と X' (f, m)の距離が定義され、それに従ってサンプノレ間の近さが測られ、なるべく距離の近 いサンプル同士が同じクラスタに含まれるようにクラス夕リングするものである。
[0149] 例えば、上述の式(36)のみによってサンプルが正規化された場合、クラスタリング 部 512aは、正規化された 2つの観測信号ベクトル X (f, m)間のコサイン距離を距離 尺度として用いてクラスタリングを行う。なお、 2つのサンプル X (f, m)と X' (f, m)の コサイン距離は、
1— XH (f, m) ·Χ,(f , m) / (■ X (f , m) ■ .■ X,(f, m) ■ ) · "(39)
によって定義される。
[0150] また、上述の式(36)と式(37)によってサンプノレが正規化された場合、クラスタリン グ部 512aは、クラスタ生成部 512abにおいて、上記の正規化された 2つの観測信号 ベクトル間の差(X (f, m)-X' (f, m) )の Lノルム■ X (f, m) -X' (f, m) ■ ^ i,
2 2
m)— X' (f, m) )や、任意の kによる Lノルム、或いはコサイン距離 (式(39) )を距離
k
尺度として用いてクラスタリングを行う。
以上の操作により、各クラスタ Cの代表ベクトル a (f)が混合ベクトル h (f)の推定 (大
i i k
きさの任意性を含む)となる理由を説明する。
[0151] クラスタ Cには、ある源信号 Sのみが支配的で他の源信号は 0に近いような観測信
i k 号ベクトル X(f, m)が集められている。この状況は、
X(f, m)=h (f)S (f, m)---(40)
k k
と近似できる。
そしてこの関係と式 (36)の正規化により、
X— X/sign(X) =h S /sign(H S )=sign*(H ) | S | h ー(41) j k k jk k jk k k
となる。なおここでは、 sign (H S )=sign(H )sign(S ), l/sign(H )=sign*( jk k jk k jk
H ) (·*は複素数の共役をとる操作),及び S /sign(S )= I S Iなる関係を用い jk k k k
た。また、これらの記載において f, mは省略してある。
[0152] また、式(37)の正規化と式 (40)により、
X— X/■ X■ H …
Figure imgf000058_0001
(42)
となる。なおここでは、 ■ sig¾H ) | S | h " = | $ - -Hなる関係を用いた。また
jk k k k k
、これらの記載においても f, mは省略してある。
ここで、式 (41)により、式(36)によって正規化された観測信号ベクトル X(f, m)は 、混合ベクトル h (f)を sign*(H (f))倍したベクトルの直線上に集まることがわかる。
k jk
そして、直線上のどこに乗るかは、信号源の大きさ I S (f, m)
k Iによる。また、式 (42
)により、式(37)によって正規化された観測信号ベクトル X(f, m)は、複素空間での 1点 sign*(H (f))h (f)/■ If) ■に集まることがわかる。これらは、正規化された観
jk k k
測信号ベクトル X(f, m)の平均として算出した代表ベクトル a (f)が、大きさの任意性 を含む混合ベクトル h (f)の推定となっていることを示している。
k
[0153] [パーミュテーシヨン問題解決部 513での処理の詳細]
次に、パーミュテーシヨン問題解決部 513での処理の詳細について説明する。 パーミュテーシヨン問題解決部 513では、各周波数 fで算出された推定混合行列 A (f)の列の並べ替えを行レ、、同じ信号源 s (t)に関する代表ベクトル a (f)がすべての
k i
周波数 fで同じになるようにする(ステップ S55)。すなわち、各分離信号 Y (f, m), …, Y (f, m)と各信号源との対応が各周波数 fにおいて同一となるように添字 iを付
N
け替える。そのために、例えば、従来の技術と同様、非特許文献 2の手順に基づいて 2種類の情報を用いる。 [0154] 1つ目の情報は、信号源の到来方向などの位置情報である。従来の ICAを用いた 方法では、分離行列 Wを ICAにより求めて、そのムーア'ペンローズ(Moore-Penrose )型擬似逆行列 W+ (M = Nの場合は逆行列 W—1に一致)から位置情報を得てレ、た。 ここで、このムーア'ペンローズ型擬似逆行列 W+は、混合行列の推定 A (f)とみなせ る。そのため、本形態では従来の ICAを用いた方法とは異なり、推定混合行列 A (f) そのものをムーア ·ペンローズ型擬似逆行列 W+とみなし、その各列から直接位置情 報を得ることができる。具体的には、例えば、
[数 45]
Figure imgf000059_0001
によって位置情報を得ることができる。ここで、 Θは、センサ jとセンサ j 'とを結ぶ直線 と、センサ jとセンサ j 'との中心点と信号源 iを結ぶ直線とのなす角度である。また、 d
J
はセンサ jの位置を示すベクトルである。そして、例えば、各添字 iと Θとの対応が各 周波数 fにおいて同一となるように推定混合行列 A (f)の列の並び替えを行レ、、パー ミュテーシヨン問題の解決を図る。
[0155] 2つ目の情報は、従来の ICAを用いた方法と同様、分離信号成分の絶対値 I Y (f
1
, m) Iの周波数間での相関である。すなわち、例えば、異なる周波数 flと f2におい て、同じ添字 iに対する分離信号成分の絶対値の相関
[数 46] . - - (44)
Figure imgf000059_0002
(ただし、 vf m
Figure imgf000059_0003
く '〉 mは時間 mに関する 「 ·」 の平均値を示す。) が最大化されるように推定混合行列 A (f)の列の並び替えを行い、パーミュテーシヨン 問題の解決を図る。
なお、これらの処理に使用する分離信号は、分離信号生成部 519の出力 Y (f, m) , .··, Y (f, m)をフィードバックすることで得られる。
N [0156] [スケーリング問題解決部 514での処理の詳細]
次に、スケーリング問題解決部 514での処理の詳細を説明する。
パーミュテーシヨン問題解決部 513から推定混合行列 A (f)を受け取ったスケーリン グ問題解決部 514は、各列の大きさの任意性を解決するために、まず推定混合行列 A (f)の各列(代表ベクトル) a (f)に対し、正規化
a (f) ^a (f) /a (f)
を行う(ステップ S56)。なお、 aは、代表ベクトル a (f)の j行目の要素である。また、 j は各代表ベクトル a (f)ごとに違うものを選んでもよいが、同じ iに対してはすべての各 周波数 fにおいて同じ jを用いる必要がある。
[0157] [分離信号生成処理の詳細]
次に、分離信号生成処理の詳細について説明する。
本形態の場合、センサの数が信号源の数に対して十分であるか否かによって分離 信号の生成手順が異なる。
まず、センサの数が十分な場合 (M≥N)は、簡単に分離信号を生成できる。すな わち、分離行列生成部 518がスケーリング問題解決部 514から推定混合行列 A (f) を受け取り、そのムーア'ペンローズ型擬似逆行列 A (f) + (M = Nの場合は逆行列 A (f)— 1に一致)を分離行列 W(f)として生成する (ステップ S57)。生成された分離行列 W(f)は、一時記憶部 522に格納される。分離信号生成部 519は、この分離行列 W ( f)と観測信号ベクトル X (f, m)とを一時記憶部 522から読み込み、これらを用い Y (f , m) =W(f) X (f, m)の演算により、分離信号成分 Y (f, m) , ··., Y (f, m)を生成
1 N
する(ステップ S 58)。
[0158] 一方、センサの数が不十分な場合 (Mく N)は、推定混合行列 A (f)と観測信号べ タトル X (f, m)とに対し、分離信号 Y (f, m)は一意には定まらない。
[数 47]
X(f, m) = A(f ) Y(f , m) =∑^3i (f)^ (f, m) … (45) を満たす Y (f, m)が無数に存在するからである。源信号カ^パース性を持つことに 着目すると、無数の解のうち Lノルム: [数 48]
L1(Y(f,m)) =∑^1| Yi(f,m) | ー(46) を最小にする解 Y (f, m)が最も正確な分離信号成分となることが知られている(甘利 俊一, 「総論一一人と機械はどのように見分け,聞き分けるの力 一」,電子情報通信学 会誌, VOL. 87, No. 3, pp. 167, 2004年 3月)。このような最小化基準で分離を行 う場合は、分離のための行列 W (f, m)が時変となり、分離行列生成部 518は、時間 mごとに観測信号べ外ル X (f, m)と推定混合行列 A (f)とから時間依存の分離行列 W(f, m)を算出し (ステップ S57)、分離信号生成部 519が、 Y (f, m) =W (f, m) X ( f, m)として分離信号成分 Y (f, m), ···, Y (f, m)を計算する (ステップ S58)。
1 N
[0159] しかし、 L (Y (f, m) )の最小化を厳密に行うのは計算量が大きいため、本形態で は近似解法を用いて分離行列 W(f, m)の生成を行う。この解法は、観測信号べタト ノレ X (f, m) (或いはある時点での残差ベクトル e)に最も方向が近い推定混合行列 A ( f)の歹' J (代表ベクトル) a (f)を順次選択していき、それらが M個選択されるまで繰り返 すというものである。
図 17は、本形態の近似解法を説明するためのフローチャートである。以下、このフ ローチャートに沿って近似解法を用いて分離行列 W (f, m)を算出する処理を説明す る。
[0160] まず、列選択部 516が、一時記憶部 522から推定混合行列 A (f)及び観測信号べ タトル X (f, m)を読み込み(ステップ S61)、残差ベクトル eを観測信号ベクトル X (f, m)で初期化し、変数 kに 1を代入し (ステップ S62)、これらの情報を一時記憶部 522 に格納する。
次に、列選択部 516は、一時記憶部 522内の変数 kを参照し、 k≤Mであるか否か を判断する (ステップ S63)。ここで、 k≤Mである場合、列選択部 516は、
q (k) =argmax | a (f) H- e | /■ ) ■ · ' ·(47)
i i i
となる q (k)を選択し、その選択結果を一時記憶部 522に格納する (ステップ S64)。こ こで、式 (47)は、長さが正規化された列 I a (f) H I / -ω ■と残差ベクトル eの内積 の絶対値を最大化するもの、すなわち残差ベクトル eに最も方向が近い代表べクトノレ af(f)を選択する演算を示している。残差ベクトル eに方向が最も近い代表ベクトル f)を選択する理由は、次の繰り返しでの残差ベクトル eがより小さくなることで、以降の 各 Y (f, m)が小さくなり、最終的に式 (46)で定義される Y(f, m)の Lノルムも小さく i 1 なると期待できるからである。
[0161] 次に、列選択部 516は、一時記憶部 522に格納されている選択済みのすべての代 表ベクトル a (f),…, a (f)によって張られる部分空間を示す行列 Q= [a (f) q(l) q(k) q(l)
,■·-, a (f)]を設定し (ステップ S65)、 P = Q(QHQ)— 1"を算出する(ステップ S66 q(k)
)。そして、列選択部 516は、
e=X(f, m)-P-X(f, m)
の演算によって残差ベクトル eを更新して一時記憶部 522に格納する(ステップ S67)
[0162] ここで、 P'X(f, m)は、観測信号ベクトル X(f, m)を部分空間 Qに射影したもの、す なわち観測信号ベクトル X(f, m)のうち、これまで選択された代表ベクトル a (f) , q(l)
···, a (f)の線形和によって実現されるものである。残りの e=X(f, m)-P-X(f, m q(k)
)は、他のベクトルによって実現され、具体的には以降のループ処理で選択される列
(代表ベクトル) a によって実現される。
q(i)
その後、順次、次の列を選択するため、列選択部 516は、一時記憶部 522の変数 k に 1を加えて新たな kとし、ステップ S63に戻る(ステップ S68)。なお、残差ベクトル e には、これまでに選択された代表ベクトル a と直交する成分し力含まれていないた
q(i)
め、既に選択された代表ベクトルが、内積の絶対値 I ai(f)H'e の最大化 基準のもと(ステップ S64)で再び選択されることはない。
[0163] そして、ステップ S63で、列選択部 516が k≤Mと判断すると(min(M, N)個の代 表ベクトル a (f)を選択したことに相当)、列選択部 516はステップ S64 68のループ 処理を終了させる。この時点では、選択済みの M個の代表ベクトル a が全空間を
q(i)
張ることになるため、残差ベクトル eは 0となる。ステップ S64 68のループ処理が終 了すると、行列生成部 517は、これまで選択された M個の代表ベクトル a を一時記
q(i)
憶部 522から読み込み、ステップ S63— 68の処理で選択されなかった推定混合行 列 A (f)の N—M個の代表ベクトル(列ベクトル) a (f)を 0とした、 [数 49] ία;(0 i e {q(l),...,q(M)}
a: (f,m) = <^ …(48)
[0 i g {q(l),...,q(M)} とレヽぅ歹 IJベクトル a ' (f, m)を生成する(ステップ S69)。さらに、行列生成部 517は、
i
式(48)の列べクトノレ a,(f, m)を列とする行列 A, (f, m) = [a, (f, m) , ···, a, (f, i 1 N m) ] (「選択された min (M, N)個の代表ベクトル a (f)と max (N_M, 0)個の 0ベタト ルとを列とした行列 A' (f, m)」に相当)を算出し、一時記憶部 522に格納する (ステツ プ S70)。なお、このように算出された行列 A' (f, m)は、 N X M行列である力 そのう ち N_M個の行は 0ベクトルである。
[0164] 分離行列生成部 518は、このような行列 A' (f, m)を一時記憶部 522から読み出し 、そのムーア.ペンローズ型擬似逆行列 A' (f, m) +を分離行列 W (f, m)として生成 する(ステップ S71)。これは、 N個の代表ベクトル a (f)の中の 0個以上の当該代表べ タトルを 0ベクトルに置換した M行 N列の行列のムーア'ペンローズ型擬似逆行列で ある N行 M列の分離行列 W(f, m)に相当する。
[0165] 生成された分離行列 W (f, m)は、一時記憶部 522に格納される。分離信号生成部
519は、この分離行列 W (f, m)と、観測信号ベクトル X (f, m)と一時記憶部 522から 読み込み、 Y (f, m) =W (f, m) X (f, m)として分離信号成分 Y (f, m) , ···, Υ (f,
1 Ν m)を生成し、一時記憶部 522に格納する(ステップ S58)。なお、このように生成され た分離信号成分 Y (f
1 , m), .··, Y (f, m)のうち N— M個の要素は必ず 0になる。す
N
なわち、ある離散時間 mのみについてステップ S61 S71の処理を行っただけでは 、最大 M個の分離信号成分しか知ることができない。そのため、本形態では、これま で説明した M個の代表ベクトル a (f)の選択、行列 A' (f,m)の生成、分離行列 W (f, i
m)の算出、分離信号ベクトル Y (f, m)の算出、及び時間領域の信号値 y (t) ,…, y
1
(t)への変換の処理を、離散時間 mごとに行う。これにより、すべの分離信号成分を
N
失口ること力 sできる。
[0166] <本形態の効果 >
[N >Mでのブラインド信号分離]
以上説明した通り本形態では、センサ数が少ない(N >M)状況でも、源信号がス パース性を備えていればブラインド信号分離が達成できる。その結果、センサの数を 低減でき装置のコスト低減にも貢献できる。
[正規化の効果]
図 18— 23は、正規化部 512aaで行われた正規化の効果を例示したプロットである 。これらの例は、残響時間 130msの部屋で 1つ或いは 2つの音声を 2つのマイクで観 測した場合の 2773Hzにおける観測信号べクトノレ X (f, m)のプロットである。なお、こ れらは 2個のマイクで観測した例であるが、観測信号ベクトル X (f, m)は周波数領域 における複素ベクトルであるため、実数では 4次元空間でのベクトルとなる。そのため 、図 4一 9ではその 4次元を 4つの 2次元空間に射影して表示した。なお、これらの図 の「imag」は各観測信号の虚数項を示し、「real」は実数項を示す。また、 Xは第 1の マイクで観測された観測信号に係るデータを示し、 Xは第 2のマイクで観測された観
2
測信号に係るデータを示している。
[0167] まず、 1音源の場合における正規化の効果を図 18— 20に示す。
図 18は、正規化していない観測信号ベクトル X (f, m)のプロットである。この例では 、原点を中心にクラスタが形成されているが、そのクラスタから源信号 1に関する代表 ベクトル a (f)についで有益な情報は得られない。一方、図 19は、式(36)により正規 化した観測信号ベクトル X (f, m)のプロットである。この例では、原点からある特定の 方向にサンプルが散布されている。この方向が推定すべき代表ベクトル a (f)に対応
1 する。これは代表ベクトル a (f)を決定するうえでの有益な情報となる。また、図 20は 、式(37)により正規化した観測信号ベクトル X (f, m)のプロットである。この例では、 原点から離れた箇所にクラスタが形成されている。このクラスタの中心と原点を結ぶ ベクトルが推定すべき代表ベクトル a (f)に対応する。
[0168] 次に、 2音源の場合における正規化の効果を図 21— 23に示す。
図 21は、正規化していない観測信号べクトノレ X (f, m)のプロットである。この例の場 合も、 1音源の場合と同様に、 2つの源信号に関して有益な情報は得られない。図 22 は、式(36)により正規化した観測信号ベクトル X (f, m)のプロットである。この例の場 合、原点から 2つの方向にサンプルが散布している。そして、これら方向が推定すベ き代表ベクトル a (f) , a (f)に対応する。図 23は、式 (37)により正規化した観測信号
1 2 ベクトル X (f, m)のプロットである。この例では、原点から離れた箇所に 2個のクラスタ を形成されていることがわかる。そして、このクラスタの中心と原点を結ぶベクトルが推 定すべき代表ベクトル a (f) , a (f)に対応する。
[0169] [近似解法を用いた分解行列生成の効果]
前述したように、 ^^ > 1^の場合の分離行列 , m)の生成において最小化を厳密 に行った場合、その計算量は膨大なものとなってしまう。例えば、 N個の代表べクトノレ a (f) ,…, a (f)から M個を選択する組合せは C 個あるため、厳密に Lノルム(式(
46) )を極小化する組合せをみつけようとすれば、 C 個の組についての並び替えの 処理等が必要となる。しかし、図 17に示した近似解法では、センサの数 Mに相当す る回数のループを繰り返せばよぐ計算量は少なく済む。
[0170] なお、本形態では、センサの数が信号源の数に対して十分であるか否力、、すなわち N≤Mであるか否かによって、分離行列 W (f, m)の生成手順を相違させることとした 。しかし、センサの数が信号源の数に対して十分であるか否かに係わらず同じルーチ ンを用いて分離行列 W (f , m)を生成することとしてもよレ、。
図 24は、このような例を説明するためのフローチャートである。
この変形例の場合、 N≤Mであるか否かに係わらず、まず、列選択部 516が、一時 記憶部 522から推定混合行列 A (f)及び観測信号ベクトル X (f, m)を読み込み (ステ ップ S81)、残差ベクトル eを観測信号ベクトル X (f, m)で初期化し、変数 kに 1を代入 する(ステップ S82)。そして、列選択部 516が、 k≤min (M, N)であるか否かを判断 し(ステップ S83)、 k≤min (M, N)であれば、 | a (f) H' e | /■ a (f) ■ (¾ま α の共役転置行列)を最大にする列 a (f)を選択し (ステップ S84)、選択済みのすべ ての列 a (u= l,…, k)によって張られる部分空間を示す行列 Q = [a (f ) , ·■· , a (f) ]を設定し (ステップ S85)、 P = Q (QHQ)— Q11を算出し (ステップ S86)、 X (f, m) -P -X (f, m)の演算結果によって残差ベクトル eを更新し (ステップ S87)、変数 k に 1を加えた値を新たな kとして (ステップ S88)、ステップ S83に戻る。すなわち、ステ ップ S83 88の処理を min (M, N)回繰り返す。なお、 min (M, N)とは、 M及び N の何れか小さい方の値を意味し、 max (N_M, 0)とは、 N—M及び 0の何れか大きレヽ 方の値を意味する。 [0171] その後、列選択部 516は、これまで選択した min (M, N)個の代表ベクトル a を一 q (i) 時記憶部 522に格納する。
次に、行列生成部 517は、一時記憶部 522からこれら min (M, N)個の代表べタト ノレ a を読み込み、
q (i)
[数 50] ai-(f,m) Jai (f) i e {q(l),...,q(min(M,N))} …
[0 i {q(l),...,q(min(M,N))} とレヽぅ歹 [Jベクトノレ a ' (f, m)を生成し (ステップ S89)、ステップ S83 88で選択された
i
min (M, N)個の代表ベクトル a (f)と、 max (N_M, 0)個の 0ベクトルとを列とした行 列 A, (f, m) = [a , (f, m) , ···, a , (f, m) ]を生成する(ステップ S90)。このように生
1 N
成された行列 A' (f, m)は一時記憶部 522に格納された後、分離行列生成部 518に 読み込まれ、分離行列生成部 518は、そのムーア'ペンローズ型擬似逆行列 A (f, m ) + (M = Nの場合は逆行列W—1にー致)を分離行列 W (f, m)として生成する (ステツ プ S91)。なお、これは N個の上記代表ベクトル a (f)の中の 0個以上の当該代表べク トルを 0ベクトルに置換した M行 N列の行列のムーア.ペンローズ型擬似逆行列であ る N行 M列の分離行列 W (f, m)に相当する。
[0172] 〔変形例等〕
なお、本発明は上述の各実施の形態に限定されるものではない。例えば、第 1の実 施の形態から第 8の実施の形態では、抽出信号を時間領域に戻してから統合を行う こととしていたが、ノイナリマスクを用いる場合には、周波数領域で信号統合を行って 力 時間領域に変換してもよい。
図 25は、周波数領域で信号統合を行って力も時間領域に変換する際の構成を例 示したブロック図の一部である。この図の構成は、図 1における限定信号分離部 60— k、時間領域変換部 70— k及び信号統合部 80の換わりに設けられる構成である。
[0173] この例では、すべての系列 1の限定信号分離部 601-kから出力された周波数領域 の信号値 Y nkq (f, m)について、信号統合部 602が周波数領域にて信号の統合を 行った後に、時間領域変換部 603が時間領域へ変換する。ここで、信号統合部 602 は、ある周波数 fにおいて、同じタグ aを持つ分離信号 Y nkq (f, m)がーつしかない
i kq 場合、
Y (f, m) =Y nkq (f
i kq ,m)
として分離信号値を求める。また、ある周波数 fにおいて、同じタグ ^を持つ分離信号
Y nkq (f, m)が二つ以上ある場合、 Y (f, m)は、例えば同じタグ aを持つ分離信号 kq 1 1
Y nkq (f, m)の平均として
[数 51]
(Kは同じタグ aを持つ分離信号の個数)
として求められる。
[0174] そして最後に、時間領域変換部 603が、例えば短時間逆フーリエ変換などにより、 周波数領域で統合された出力信号値 Y (f
1 , m)を時間領域 y (t)に変換する。
1
また、第 1の実施の形態から第 8の実施の形態では、各分離信号にタグを付与して 信号の統合処理を行うこととしたが、各分離信号にタグを付けるのではなぐ各系統 k において分離される信号に対応する V個の代表値の集合 Gを一時記憶部 90に保持
k
しておき、出力信号の統合を行うこととしてもよい。
[0175] 具体的には、例えば、複数の系統において Gが同じ代表値を含むことがない場合
k
は、すべての分離信号 y (t)を最終的な分離信号 y (t) (i= l,…, N)として出力す
kq i
る。また周波数領域におけるすべての分離信号 Y (f, m)を周波数領域における最
kq
終的な分離信号 Y (f, m) (i= l , ..., Ν)とし、時間領域の信号に変換しても良い。
[0176] また、複数の系統において Gが同じ代表値を Κ個(Κ≥ 2)含む場合は、 k系統の分
k
離信号 y (t) (q= l , ..., V /Vは Gの個数)と k'系統の分離信号 y (t) (r= l , kq k k k k' r
..·, V )についてのすべての組合せで信号の相関を計算し、相関の高いもの K個に k'
ついて y (t)と y (t)の平均をとる。これを、同じ代表値を含む複数の系統について kq k'r
繰り返し、信号を統合する。また、同じ操作を周波数領域におけるすべての分離信号 について行うことで、周波数領域で信号を統合し、その後で時間領域の信号に変換 してもよい。
[0177] さらに、上述の第 1から第 9の各実施の形態を複合したシステムによって信号分離 を行ってもよい。
例えば、 [第 8の実施の形態]の方法で代表ベクトルを求め、その後 [第 2の実施の 形態」の方法で限定信号を分離することとしてもよい。具体的には、例えば、代表値 計算部 430 (図 13)で求めた代表ベクトルを用レ、、 [第 2の実施の形態]における(18 )式のかわりに
[数 52]
Mk(f m) = I1 D(X(f,m),ak(f)) < mink≠j D(X(f ,m),aj(f ))
' [0 otherwise
として M k ( f , m) を、
il maxa ({)eG D(X(f , m), aD (f )) < min "、 c D(X(f,m),a。(f)) MDC(f,m) = ^ ap(f)eGk p }> f)e 、 い h q K )} θ otherwise として M (f , m)を求め(M (f, m), M (f, m)は、図 8参照。)、あとは [第 2の実
DC k DC
施の形態]の限定信号分離部 160 - kと同じ手順で限定信号を分離する。
二で、上述の M (f, m) , M (f, m)を求めず、直接
k DC
[数 53]
) = jX(f,m) D(X(f,m),ak(f)) < mink≠j D(X(f,m),aj(f))
' 0 otherwise にて Xk(f,m) = MkX (マスク作成部 1 5 1—k及び積演算部 1 6 1 — k (図 8 ) の処理に対応) を求め、
max (f)eGk D(X(f,m),ap(f)) < min D(X(f,m),aq(f))
Xk(f,m) = p 。 り s k
Figure imgf000068_0001
otherwise にて限定信号値を生成してもよレ、(マスク作成部 151-k及び限定信号抽出部 152— k (図 8)の処理に対応)。
また、マスク作成部 151— k (図 8)にて M (f, m)を作成せず、かわりに、混合過程 k
推定部 162— k (図 8)にて、代表値計算部 430 (図 13)にて求めた代表ベクトル [a ,
1
…, a ] (aは縦ベクトル)をまとめて Hとし、これを推定混合行列としてもよい。
N 1
また、上述の各実施の形態ではフーリエ変換 Z逆フーリエ変換によって時間領域一 周波数領域間の変換を行うこととした力 wavelet変換、 DFTフィルタバンク、ポリフヱ ィズフィルタバンクなどを用レ、、この変換を行うこととしてもよい(例えば、「R. E.
Crochiere, L. R. RaDiner, Multirate Digital Signal Processing. Eaglewood Cliffs, NJ: Printice- Hall, 1983 (ISBN 0-13-605162-6) )。
[0179] また、上述の第 1から第 9の各実施の形態をコンピュータで構成する場合は以下の ようになる。
図 26は、各実施の形態をコンピュータで構成した信号分離装置 610の例である。 この例の信号分離装置 610は、 CPU (Central processing Unit:中央処理装置) 62 0、 RAM (Random Access Memory) 630、 ROM (Read Only Memory) 640、外部記 憶装置 650、入力部 660、インタフェース 670及びバス 680を有している。
[0180] CPU620は、例えば、演算部 621、制御部 622及びレジスタ 623を有する CISC (Complex Instruction ¾et Computer)方式、 RISし (Reduced Instruction ¾et
Computer)方式等の中央処理装置である。また、レジスタ 623は、例えば DRAM ( Dynamic Random Access Memory)、 SR^ (Static Random Access Memoryノ等の 動作が高速なメモリである。
また、 RAM630は、例えば、 DRAM, SRAM,フラッシュメモリ、 NV (Nonvolatile) RAM等の読書き可能な半導体メモリである。また ROM640は、例えば、 MROM ( Mask Read Only Memory)等の読み出し専用の半導体メモリであり、各種プログラム やデータ等が記憶されてレ、る。
[0181] 外部記憶装置 650は、例えば、ハードディスク装置、フレキシブルディスク、磁気テ ープ等の磁気記録装置、 DVD-RAM (Random Access Memory)、 CD_R ( Recordable) /RW (Rewritable)等の光ディスク装置、 MO (Magneto-Optical disc) 等の光磁気記録装置、 EEP-ROM (Electronically Erasable and
Programmable-Read Only Memory)、フラッシュメモリ (flash memory)等の半導体メモ リ等である。
また、入力部 660は、例えば、キーボード、マウス、ジョイスティック等の入力デバィ スである。また、インタフェースは、例えば、データの入力、出力、或いはその双方を 行う入力 Z出力ポートであり、例えば、センサ、通信ボード、記憶装置等の各種装置 が接続可能となっている。 [0182] さらに、ノくス 680は、例えば、データバス、アドレスバス、コントロールバス等によって 構成され、 CPU620、 RAM630、 ROM640、外部記憶装置 650、入力部 660及び インタフェース 670でのデータのやり取りが可能なようにこれらを電気的に接続する。 また、信号分離装置 610における処理の内容は、例えば、信号分離プログラムに記 述され、このような信号分離プログラムは、例えば、コンピュータで読み取り可能な記 録媒体に記録される。コンピュータで読み取り可能な記録媒体としては、例えば、磁 気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが 、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディ スク、磁気テープ等を、光ディスクとして、 DVD (Digital Versatile Disc)、 DVD-RA M (Random Access Memory)、 CD— OM (Compact Disc Read unly Memory)、し D _R (Recordable) /RW (Rewritable)等を、光磁気記録媒体として、 MO (
Magneto-Optical disc)等を、半導体メモリとして EEP—ROM (Electronically Erasable and Programmable-Read Only Memory)等を用レヽること; 0、できる。
[0183] また、この信号分離プログラムの流通は、例えば、そのプログラムを記録した DVD、
CD— ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに
、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介し て、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、 このプログラムを流通させる構成としてもよレ、。
信号分離装置 610において処理を実行する場合、例えばまず、可搬型記録媒体 に記録された信号分離プログラムもしくはサーバコンピュータから転送された信号分 離プログラムを、外部記憶装置 650のプログラム領域 651にダウンロードする。
[0184] また、各センサにおいて観測された時間領域の各観測信号 X (t) (j = l,…, M)も、
J
事前に外部記憶装置 650のデータ領域 652に格納される。この各観測信号 X (t)の
J
格納は、センサから送られた各観測信号 X (t)をインタフェース 670に入力し、バス 68
J
0を通じて外部記憶装置 650に格納することとしてもよぐ事前に別の装置で各観測 信号 X (t)を外部記憶装置 650に格納しておき、この外部記憶装置 650をバス 680
J
に接続する構成としてもょレヽ。
次に、例えば、 CPU620の制御部 622の制御のもと、外部記憶装置 650のプログ ラム領域 651から信号分離プログラムが順次読み出され、 RAM630のプログラム領 域 631に格納される。 RAM630に格納された信号分離プログラムは、 CPU620に 読み込まれ、 CPU620の制御部 622は、この信号分離プログラムの内容に従い、デ ータの入出力、演算部 621での演算、レジスタ 623へのデータ格納等の各処理を実 行する。
[0185] CPU620による処理が開始されると、 CPU620は、例えば外部記憶装置 650のデ ータ領域 652の各観測信号 X (t)を読み出し、例えば RAM630のデータ領域 632に
J
書き込む。その後 CPU620は、制御部 622の制御のもと、 RAM630のプログラム領 域 631の信号分離プログラム、及びデータ領域 632の信号分離プログラムを順次抽 出しつつ、上述の各処理を実行する。なお、例えば RAM630或いは外部記憶装置 650力 第 1から第 9の実施の形態における記憶部 2, 501として機能し、 RAM630 或いはレジスタ 623が、第 1から第 9の実施の形態における一次記憶部 90, 522とし て機能する。
[0186] また、このプログラムの別の実行形態として、 CPU620が可搬型記録媒体から直接 プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよぐさら に、この CPU620にサーバコンピュータからプログラムが転送されるたびに、逐次、 受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンビュ ータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取 得のみによって処理機能を実現する、いわゆる ASP (Application Service Provider) 型のサービスによって、上述の処理を実行する構成としてもよい。
[0187] さらに、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理 を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行さ れてもよレ、。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることは レ、うまでもない。
産業上の利用可能性
[0188] 本発明により、例えば、様々なノイズ ·妨害信号が存在する環境下においても、 目 的信号を精度よく分離抽出することが可能となる。例えば、オーディオ分野に応用し た場合、音声認識機の入力マイクロホンと話者が離れた位置にあり、マイクロホンが 目的話者音声以外の音まで集音してしまうような状況でも、 目的音声を分離抽出する ことにより、認識率の高い音声認識系を構築することができる。

Claims

請求の範囲
[1] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値を周波数領域の信号値に変換する手 順と、
前記周波数領域の信号値を用い、前記センサ間における観測値の相対値 (相対値 の写像も含む)を、各周波数において算出する手順と、
前記相対値を N個のクラスにクラスタリングする手順と、
前記の各クラスの代表値を算出する手順と、
前記代表値を用い、前記周波数領域の信号値から、 V (2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成する手順と、 前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手 順と、
前記混合信号の値から V個の信号の値を分離抽出する手順と、
を有することを特徴とする信号分離方法。
[2] 請求項 1記載の信号分離方法であって、
前記マスクは、
V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値を とり、前記所定の範囲内にない前記代表値に対してローレベル値をとる関数であり、 前記マスクを用い、前記周波数領域の信号値力 前記混合信号の値を抽出する手 順は、
前記周波数領域の信号値に前記マスクを乗じる手順である、
ことを特徴とする信号分離方法。
[3] 請求項 1記載の信号分離方法であって、
前記マスクは、
V個の前記代表値を含む所定の範囲内にある前記相対値に対してローレベル値を とり、前記所定の範囲内にない前記代表値に対してハイレベル値をとる関数であり、 前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手 順は、
前記周波数領域の信号値に前記マスクを乗じた値を、前記周波数領域の信号の 値力 減算する手順である、
ことを特徴とする信号分離方法。
[4] 請求項 2記載の信号分離方法であって、
前記マスクは、
前記相対値の変化に伴う前記ハイレベル値から前記ローレベル値への推移が連続 的な関数である、
ことを特徴とする信号分離方法。
[5] 請求項 1記載の信号分離方法であって、
前記代表値を用い、前記周波数領域の信号値から、 V(2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成する手順は 死角型ビームフォーマ (NBF)の指向特性を利用して前記マスクを作成する手順で める、
ことを特徴とする信号分離装置。
[6] 請求項 1記載の信号分離方法であって、
前記代表値を用い、前記周波数領域の信号値から、 V(2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成する手順は fを周波数の変数とし、 Θ を V個の前記代表値に対応する信号源の推定方向の何 れか 1つとし、 Θ (i = 2, ..., N— V+1)を前記 V個の代表値以外の前記代表値に対 応する各信号源の推定方向とし、 j = l,…, N-V+1とし、 dをセンサ 1とセンサ jとの
j
距離とし、 Vを信号の速さとし、 τ = (d/v)cos 0 とした場合における、 ji要素が exp
(j2 π f τ )である(N—V+ 1) (N—V+ 1)の遅延行列 Η (f)を生成する手順と、 ji NBF
遅延行列 H (f)の逆行列 W(f) =H 1 (f)を NBF行列 W(f)として算出する手
NBF NBF
順と、
前記 NBF行列 W(f)の 1行目の要素を W (f)とし、 Θを信号の到来方向の変数と した場合における、指向特性関数
[数 54]
N-V+I
F(f, θ) = ∑ Wlk (f) exp(j2nfdk cos Θ I v)
k=l を生成する手順と、
前記指向特性関数 F (f, Θ )を用いて前記マスクを生成する手順と、
を具備することを特徴とする信号分離方法。
[7] 請求項 1記載の信号分離方法であって、
前記代表値を用い、前記周波数領域の信号値から、 V (2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成する手順は
V個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値を とり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、相対値の変 化に伴う当該ハイレベル値から当該ローレベル値への推移が不連続な関数であるバ イナリマスクに単峰性関数を畳み込んだ関数を生成する手順と、
前記バイナリマスクに単峰性関数を畳み込んだ関数に前記相対値を代入した関数 を前記マスクとして生成する手順と、
を具備することを特徴とする信号分離方法。
[8] 請求項 1記載の信号分離方法であって、
前記代表値を用い、前記周波数領域の信号値から、 V (2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成する手順は 前記相対値が V個の前記代表値を含む所定の範囲内の下限値 a である場合に 0
mm
をとる第 1の奇関数と、前記相対値が前記所定の範囲内の上限値 a である場合に
max
0をとる第 2の奇関数との差の写像から得られる単峰性の関数を、前記マスクとして生 成する手順である、
ことを特徴とする信号分離方法。
[9] 請求項 2或いは 3に記載の信号分離方法であって、 前記マスクは、
前記ハイレベル値から前記ローレベル値への推移が不連続な関数である、 ことを特徴とする信号分離方法。
[10] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値を周波数領域の信号値に変換する手 順と、
前記周波数領域の信号値を用い、前記センサ間における観測値の相対値 (相対値 の写像も含む)を各周波数において算出する手順と、
前記相対値を N個のクラスにクラスタリングする手順と、
前記の各クラスの代表値を算出する手順と、
1個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値を とり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値 の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数で あるマスクを作成する手順と、
前記周波数領域の信号値に前記マスクを乗じ、 1個の信号源から発せられた信号 の値を抽出する手順と、
を有することを特徴とする信号分離方法。
[11] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値 X (t), · 波数領域の信
1 · ·, X (t)を周
M
号値 X (f, m), . . ., X (f, m)に変換する手順と、
1 M
前記周波数領域の信号値 X (f, m), . . ., X (f, m)からなる第 1のベクトル X (f,
1 M
m) = [X (f, m), . . ., X (f, m) ]を、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1 , . . ., N)にクラスタリングする手順と、
前記各クラスタ C (f)を代表する第 2のベクトル a (f)を算出する手順と、 前記第 2のベクトル a (f)から V (1≤V≤M)個の第 3のベクトル a (f) (p= l , . . . , i Ρ
V)を抽出する手順と、 前記第 3のベクトル a (f)の集合を Gとし、 G ¾Gの補集合とし、 D ( α, β)をべク
p k k k
トル αと とのマハラノビス平方距離とした場合における、
[数 55]
、 I1 max (f)eGkD(X(f,m),ap(f》<min D(X(f,m),aq(f))
[0 otherwise で示されるマスク M(f, m)を生成する手順と、
前記マスク M(f, m)と前記第 1のベクトル X(f, m)との積を演算し、 V個の前記信 号源から発せられた信号の値を抽出する手順と、
を有することを特徴とする信号分離方法。
[12] N(N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値 X (t), · 周波数領域の信
1 · ·, X (t)を
M
号値 X (f, m), · · ·, X (f, m)に変換する手順と、
1 M
前記周波数領域の信号値 X (f, m), · · ·, X (f, m)からなる第 1のベクトル X(f,
1 M
m) = [X (f, m), . · · , X (f, m)]を、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1, · . · , N)にクラスタリングする手順と、
前記各クラスタ〇i(f)を代表する第 2のベクトル ( を算出する手順と、 前記第 2のベクトル a (f)から V(1≤V≤M)個の第 3のベクトル a (f) (p=l, ... , i Ρ
V)を抽出する手順と、
前記第 1のベクトル X(f, m)に対し、前記第 3のベクトル a (f )の集合を Gとし、 G c p k k を Gの補集合とし、 D (ひ, β)をべクトノレ αと βとのマハラノビス平方距離とした場合 k
における、
[数 56] maxap(f)eGk D(X(f,m),ap(f))<minati(f)eGC D(X(f,m),aq(f)) を満たすか否かを判断し、満たすと判断した前記第 1のベクトル X(f, m)を、 V個の 前記信号源から発せられた信号の値として抽出する手順と、
を有することを特徴とする信号分離方法。 [13] 請求項 11或いは 12記載の信号分離方法であって、
前記クラスタリングする手順は、
[数 57]
. " 、、
Slgn(Xj(fm))
Figure imgf000078_0001
を算出し、
. . JX(f5m)/sign(Xj(f,m)) (|Xj(f,m)|0)
(,m) †x(f,m) (|Xj(f,m)|=0) の演算を行った後に行われる、
ことを特徴とする信号分離方法。
[14] 請求項 13記載の信号分離方法であって、
前記クラスタリングする手順は、前記の
[数 58]
Figure imgf000078_0002
を演算を行った後、 さらに
fX(f5m)/||X(f,m)|| (||X(f,m)||≠0)
(t,m) <
X(f,m) (||X(f,m)||=0) (ただし、 II X(f ,m) IIは X(f,m)のノルム) の演算を行った後に行われる、
ことを特徴とする信号分離方法。
[15] N(N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離方法であって、
前記センサにおいて観測された観測信号値 X (t), . . . (t)を、周波数領域の
1 , X
M
信号値 X (f, m), ...
1 , X (f
M , m)に変換する手順と、
前記周波数領域の信号値 X (f, m), ..., X (f, m)からなる第 1のベクトル X(f
1 M , m) = [X (f, m), . · · , X (f, m)]Tを、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i 1 ,…, Ν)にクラスタリングする手順と、
前記各クラスタ〇i (f)を代表する第 2のベクトル ( を算出する手順と、
N個の前記第 2のベクトル a^f)の中の 0個以上の当該第 2のベクトルを 0ベクトルに 置換した M行 N列の行列のムーア.ペンローズ型擬似逆行列である N行 M列の分離 行列 W(f, m)を算出する手順と、
Y (f, m) =W (f, m) X (f, m)の演算により、分離信号ベクトル Y (f, m) = [Y (f, m), . . ., Y (f, m) ]Tを算出する手順と、
N
を有することを特徴とする信号分離方法。
[16] 請求項 15記載の信号分離方法であって、
前記分離行列 W (f, m)を算出する手順は、
min (M, N)個の前記第 2のベクトル a (f)を選択し、選択した min (M, N)個の前 記第 2のベクトル a (f)と max (N—M, 0)個の 0ベクトルとを列とした行列 A' (f, m)を 生成し、前記行列 A' (f, m)のムーア'ペンローズ型擬似逆行列を前記分離行列 W ( f, m)として算出する手順である、
ことを特徴とする信号分離方法。
[17] 請求項 15記載の信号分離方法であって、
N >Mである場合における前記分離行列 W (f, m)を算出する手順は、 離散時間 mごとに、 M個の前記第 2のベクトル a (f)を選択し、前記選択した M個の 前記第 2のベクトル a (f)と N— M個の 0ベクトルとを列とした行列 A' (f, m)を生成し、 前記行列 A' (f, m)のムーア'ペンローズ型擬似逆行列を、時間依存の前記分離行 列 W(f, m)として算出する手順であり、
N≤Mである場合における前記分離行列 W (f, m)を算出する手順は、 前記各クラスタ C (f)の N個の前記第 2のベクトル a (f)力、らなる行列のムーア'ペン ローズ型擬似逆行列を、時不変の前記分離行列 W (f, m)として算出する手順である ことを特徴とする信号分離方法。
[18] 請求項 15記載の信号分離方法であって、
前記クラスタリングする手順は、 [数 59]
. /v f 、、 JXj(f5m)/|Xj(f,m)| (|Xj(f,m)|0)
Slgn(Xj(fm))<" o (|Xj(f,m)|=0)
を算出し、
iX(f,m)/sign(Xj(f,m)) (|Xj(f,m)|≠0)
( ,m) †x(f,m) (|Xj(f,m)|=0) の演算を行った後に行われる、
ことを特徴とする信号分離方法。
[19] 請求項 18記載の信号分離方法であって、
前記クラスタリングする手順は、前記の
[数 60] (f,m)/Sign(Xj(f,m))
Figure imgf000080_0001
( )、 †x(f,m) ,m)|=0)
を演算を行った後、 さらに
Y , iX(f,m)/||X(f,m)|| (||X(f,m)||≠0)
[X(f5m) (||X(f,m)||=0)
(ただし、 II X(f , m) 11は X(f, m)のノルム) の演算を行った後に行われる、
ことを特徴とする信号分離方法。
[20] 請求項 16記載の信号分離方法であって、
前記 min(M, N)個の前記第 2のベクトル a (f)を選択する手順は、
1
第 4のベクトル eを前記第 1のベクトル X(f, m)で初期化した後、 a (ί) / ' a (f) ■ q (u) q (u) と前記第 4のベクトル eの内積の絶対値を最大化する前記第 2のベクトル a (f)を選
q(u
択し、選択済みのすべての前記第 2のべクトノレ a (u=l, · · . , k)によって張られ
q(u)
る部分空間を示す行列 Q= [a (f), · · ·, a (f)]を設定し、 P = Q(QHQ)_1QH q(l) q(k)
を算出し、 e = X(f, m)_P'X(f, m)の演算結果によって第 4のベクトル eを更新する 処理を min(M, N)回繰り返す手順である、 ことを特徴とする信号分離方法。
[21] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値を周波数領域の信号値に変換し、
前記周波数領域の信号値を用い、前記センサ間における観測値の相対値 (相対値 の写像も含む)を、各周波数において算出し、
前記相対値を N個のクラスにクラスタリングし、
前記の各クラスの代表値を算出し、
前記代表値を用い、前記周波数領域の信号値から、 V (2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成し、 前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出し、 前記混合信号の値から V個の信号の値を分離抽出する、処理を実行するプロセッ サと、
を有することを特徴とする信号分離装置。
[22] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値を格納する記憶部と、
前記記憶部に接続され、
前記観測信号値を周波数領域の信号値に変換し、
前記周波数領域の信号値を用い、センサ間における観測値の相対値 (相対値の写 像も含む)を各周波数において算出し、
前記相対値を N個のクラスにクラスタリングし、
前記の各クラスの代表値を算出し、
1個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値を とり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値 の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数で あるマスクを作成し、
前記周波数領域の信号値に前記マスクを乗じ、 1個の信号源から発せられた信号 の値を抽出する、処理を実行するプロセッサと、
を有することを特徴とする信号分離装置。
[23] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値 X (t), . . ., X (t)を格納する記憶部
1 M
と、
前記記憶部に接続され、
前記観測信号値 X (t) , . . . , X (t)を周波数領域の信号値 X (f, m) , . . ., X (
1 M 1 M ί, m)に変換し、
前記周波数領域の信号値 X (f, m), . . ., X (f, m)からなる第 1のベクトル X (f,
1 M
m) = [X (f, m) , . · · , X (f, m) ]を、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1 , · · · , N)にクラスタリングし、
前記各クラスタ C (f)を代表する第 2のベクトル a (f)を算出し、前記第 2のベクトル a
(f)から V ( 1≤V≤M)個の第 3のベクトル a (f) (p = l , · · · , V)を抽出し、
Ρ
前記第 3のベクトル a (f)の集合を Gとし、 G ¾Gの補集合とし、 D ( a , β )をべク
p k k k
トル αと とのマハラノビス平方距離とした場合における、
[数 61]
M(f m) = j1 maxap(f).Gk D(X(f,m),ap(f)) < minaq (f)eG, D(X(f)m),aq(f))
[0 otherwise で示されるマスク M (f, m)を生成し、
前記マスク M (f, m)と前記第 1のベクトル X (f, m)との積を演算し、 V個の前記信 号源から発せられた信号の値を抽出する、処理を実行するプロセッサと、
を有することを特徴とする信号分離装置。
[24] N (N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値 X (t), . . ., X (t)を格納する記憶部
1 M と、
前記記憶部に接続され、
前記観測信号値 X (t), .. ·, X (t)を周波数領域の信号値 X (f, m), · · ·, X (
1 M 1 M ί, m)に変換し、
前記周波数領域の信号値 X (f, m), ..., X (f, m)からなる第 1のベクトル X(f,
1 M
m) = [X (f, m), ..., X (f, m)]を、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1, ..., N)にクラスタリングし、
前記各クラスタ C (f)を代表する第 2のベクトル a (f)を算出し、
前記第 2のベクトル a (f)から V(1≤V≤M)個の第 3のベクトル a (f) (p=l, ... , i Ρ
V)を抽出し、
前記第 1のベクトル X(f, m)に対し、前記第 3のベクトル a (f )の集合を Gとし、 G c p k k を Gの補集合とし、 D (ひ, β)をべクトノレ αと βとのマハラノビス平方距離とした場合 k
における、
[数 62]
maxap(f)eGk D(X(f,m),ap(f))<minaq(f)eGC D(X(f,m),aq(f)) を満たすか否かを判断し、満たすと判断した前記第 1のベクトル X(f, m)を、 V個の 前記信号源から発せられた信号の値として抽出する、処理を実行するプロセッサと、 を有することを特徴とする信号分離装置。
[25] N(N≥2)個の信号が混合し、 M個のセンサで観測された状況において信号の分 離抽出を行う信号分離装置であって、
前記センサにおいて観測された観測信号値 X (t), . . ., X (t)を格納する記憶部
1 M
と、
前記記憶部に接続され、
前記観測信号値 X (t) , · · ·, X (t)を、周波数領域の信号値 X (f, m), ... , X
1 M 1
(f, m)に変換し、
M
前記周波数領域の信号値 X (f, m), · · ·, X (f, m)からなる第 1のベクトル X(f,
1 M
m) = [X (f, m), . · · , X (f, m)]Tを、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i 1 ,…, N)
前記各クラスタ〇i (f)を代表する第 2のベクトル a^f)を算出し、
N個の前記第 2のベクトル a (f)の中の 0個以上の当該第 2のベクトルを 0ベクトルに 置換した M行 N列の行列のムーア.ペンローズ型擬似逆行列である N行 M列の分離 行列 W(f, m)を算出し、
Y (f, m) =W (f, m) X (f, m)の演算により、分離信号ベクトル Y (f, m) = [Y (f, m), . . ., Y (f, m) ]Tを算出する、処理を実行するプロセッサと、
N
を有することを特徴とする信号分離装置。
[26] M個のセンサで観測された N (N≥ 2)個の信号の混合である観測信号の値を周波 数領域の信号値に変換する手順と、
前記周波数領域の信号値を用い、前記センサ間における観測値の相対値 (相対値 の写像も含む)を、各周波数において算出する手順と、
前記相対値を N個のクラスにクラスタリングする手順と、
前記の各クラスの代表値を算出する手順と、
前記代表値を用い、前記周波数領域の信号値から、 V (2≤V≤M)個の信号源か ら発せられた信号力 成る混合信号の値を抽出するためのマスクを作成する手順と、 前記マスクを用い、前記周波数領域の信号値から前記混合信号の値を抽出する手 順と、
前記混合信号の値から、 V個の信号の値を分離抽出する手順と、
をコンピュータに実行させるための信号分離プログラム。
[27] M個のセンサで観測された N (N≥ 2)個の信号の混合である観測信号の値を周波 数領域の信号値に変換する手順と、
前記周波数領域の信号値を用い、センサ間における観測値の相対値 (相対値の写 像も含む)を各周波数において算出する手順と、
前記相対値を N個のクラスにクラスタリングする手順と、
前記の各クラスの代表値を算出する手順と、
1個の前記代表値を含む所定の範囲内にある前記相対値に対してハイレベル値を とり、前記所定の範囲内にない前記代表値に対してローレベル値をとり、前記相対値 の変化に伴う当該ハイレベル値から当該ローレベル値への推移が連続的な関数で あるマスクを作成する手順と、
前記周波数領域の信号値に前記マスクを乗じ、 1個の信号源から発せられた信号 の値を抽出する手順と、
をコンピュータに実行させるための信号分離プログラム。
[28] M個のセンサで観測された N (N≥ 2)個の信号の混合である観測信号の値 X (t),
. . . , X (t)を周波数領域の信号値 X (f, m), . . ., X (f, m)に変換する手順と、
M 1 M
前記周波数領域の信号値 X (f, m), . . ., X (f, m)からなる第 1のベクトル X (f,
1 M
m) = [X (f, m), . . ., X (f, m) ]を、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1 ,…, N)にクラスタリングする手順と、
前記各クラスタ C (f)を代表する第 2のベクトル a (f)を算出する手順と、 前記第 2のベクトル a (f)から V (1≤V≤M)個の第 3のベクトル a (f) (p= l , . . . , i Ρ
V)を抽出する手順と、
前記第 3のベクトル a (f)の集合を Gとし、 G ¾Gの補集合とし、 D ( α, β )をべク
p k k k
トル αと とのマハラノビス平方距離とした場合における、
[数 63]
M(f,m) = ί1 maxap(f)eGk D(X(f,m)5ap(f)) < minaq(f)eG, D(X(f,m),aq(f)) θ otherwise で示されるマスク M (f, m)を生成する手順と、
前記マスク M (f, m)と前記第 1のベクトル X (f, m)との積を演算し、 V個の前記信 号源から発せられた信号の値を抽出する手順と、
をコンピュータに実行させるための信号分離プログラム。
[29] M個のセンサで観測された N (N≥ 2)個の信号の混合である観測信号の値 X (t) , • · ·, X (t)を周波数領域の信号値 X (f, m), · · ·, X (f, m)に変換する手順と、
M 1 M
前記周波数領域の信号値 X (f, m), · · ·, X (f, m)からなる第 1のベクトル X (f,
1 M
m) = [X (f, m) , . · · , X (f, m) ]を、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1 ,…, N)にクラスタリングする手順と、
前記各クラスタ C (f)を代表する第 2のベクトル a (f)を算出する手順と、 前記第 2のベクトル a (f)から V (1≤V≤M)個の第 3のベクトル a (f) (p= l , . . . , i ρ
V)を抽出する手順と、
前記第 1のベクトル X (f, m)に対し、前記第 3のベクトル a (f )の集合を Gとし、 G c p k k を Gの補集合とし、 D (ひ, β )をべクトノレ αと βとのマハラノビス平方距離とした場合 k
における、
[数 64] maxap(f)eGk D(X(f,m),ap(f)) <minaci(f)^c D(X(f,m),aq(f)) を満たすか否かを判断し、満たすと判断した前記第 1のベクトル X (f, m)を、 V個の 前記信号源から発せられた信号の値として抽出する手順と、
をコンピュータに実行させるための信号分離プログラム。
[30] M個のセンサで観測された N (N≥ 2)個の信号の混合である観測信号の値 X (t),
. . . , X (t)を、周波数領域の信号値 X (f, m) , . . ., X (f, m)に変換する手順と
M 1 M 前記周波数領域の信号値 X (f, m), . . ., X (f, m)からなる第 1のベクトル X (f,
1 M
m) = [X (f, m), . . ., X (f, m) ]Tを、周波数 fごとに N個ずつのクラスタ C (f) (i=
1 M i
1 ,…, N)にクラスタリングする手順と、
前記各クラスタ C (f)を代表する第 2のベクトル a (f)を算出する手順と、
N個の前記第 2のベクトル a (f)の中の 0個以上の当該第 2のベクトルを 0ベクトルに 置換した M行 N列の行列のムーア.ペンローズ型擬似逆行列である N行 M列の分離 行列 W(f, m)を算出する手順と、
Y (f, m) =W (f, m) X (f, m)の演算により、分離信号ベクトル Y (f, m) = [Y (f, m), · · ·, Y (f, m) ]Tを算出する手順と、
N
をコンピュータに実行させるための信号分離プログラム。
[31] 請求項 26から 30の何れかに記載の信号分離プログラムを格納したコンピュータ読 み取り可能な記録媒体。
PCT/JP2004/012629 2003-09-02 2004-09-01 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 WO2005024788A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE602004022175T DE602004022175D1 (de) 2003-09-02 2004-09-01 Signaltrennverfahren, signaltrenneinrichtung,signaltrennprogramm und aufzeichnungsmedium
JP2005513646A JP3949150B2 (ja) 2003-09-02 2004-09-01 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
EP04772585A EP1662485B1 (en) 2003-09-02 2004-09-01 Signal separation method, signal separation device, signal separation program, and recording medium
US10/539,609 US7496482B2 (en) 2003-09-02 2004-09-01 Signal separation method, signal separation device and recording medium

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2003-309720 2003-09-02
JP2003309720 2003-09-02
JP2004-195818 2004-07-01
JP2004195818 2004-07-01
JP2004195867 2004-07-01
JP2004-195867 2004-07-01

Publications (2)

Publication Number Publication Date
WO2005024788A1 true WO2005024788A1 (ja) 2005-03-17
WO2005024788A9 WO2005024788A9 (ja) 2007-05-18

Family

ID=34279554

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/012629 WO2005024788A1 (ja) 2003-09-02 2004-09-01 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体

Country Status (5)

Country Link
US (1) US7496482B2 (ja)
EP (2) EP1662485B1 (ja)
JP (1) JP3949150B2 (ja)
DE (2) DE602004022175D1 (ja)
WO (1) WO2005024788A1 (ja)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090589A1 (ja) * 2005-02-25 2006-08-31 Pioneer Corporation 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
JP2006330687A (ja) * 2005-04-28 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
WO2007083814A1 (ja) * 2006-01-23 2007-07-26 Kabushiki Kaisha Kobe Seiko Sho 音源分離装置及び音源分離方法
JP2007243326A (ja) * 2006-03-06 2007-09-20 Mitsubishi Electric Corp 信号分離方法およびその方法を使用した信号分離装置
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
JP2008052117A (ja) * 2006-08-25 2008-03-06 Oki Electric Ind Co Ltd 雑音除去装置、方法及びプログラム
JP2008134298A (ja) * 2006-11-27 2008-06-12 Megachips System Solutions Inc 信号処理装置、信号処理方法およびプログラム
WO2008072566A1 (ja) * 2006-12-12 2008-06-19 Nec Corporation 信号分離再生装置および信号分離再生方法
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2008203474A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> 多信号強調装置、方法、プログラム及びその記録媒体
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008227916A (ja) * 2007-03-13 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム、記録媒体
JPWO2006132249A1 (ja) * 2005-06-06 2009-01-08 国立大学法人佐賀大学 信号分離装置
WO2010005050A1 (ja) * 2008-07-11 2010-01-14 日本電気株式会社 信号分析装置、信号制御装置及びその方法と、プログラム
WO2010092913A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2010092915A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP2010217773A (ja) * 2009-03-18 2010-09-30 Yamaha Corp 信号処理装置およびプログラム
JP2011027825A (ja) * 2009-07-22 2011-02-10 Sony Corp 音声処理装置、音声処理方法およびプログラム
JP2011107602A (ja) * 2009-11-20 2011-06-02 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
US20110164567A1 (en) * 2006-04-27 2011-07-07 Interdigital Technology Corporation Method and apparatus for performing blind signal separation in an ofdm mimo system
JP2012507049A (ja) * 2008-10-24 2012-03-22 クゥアルコム・インコーポレイテッド コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
WO2012105386A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2012105385A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP2013504283A (ja) * 2009-09-07 2013-02-04 クゥアルコム・インコーポレイテッド マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013070395A (ja) * 2008-01-29 2013-04-18 Qualcomm Inc 高度に相関する混合のための強調ブラインド信号源分離アルゴリズム
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP2014077899A (ja) * 2012-10-11 2014-05-01 Institute Of National Colleges Of Technology Japan 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
CN110491410A (zh) * 2019-04-12 2019-11-22 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN115810364A (zh) * 2023-02-07 2023-03-17 海纳科德(湖北)科技有限公司 混音环境中的端到端目标声信号提取方法及系统

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1942932B (zh) * 2005-02-08 2010-07-28 日本电信电话株式会社 信号分离装置和信号分离方法
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
US7472041B2 (en) * 2005-08-26 2008-12-30 Step Communications Corporation Method and apparatus for accommodating device and/or signal mismatch in a sensor array
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US8130940B2 (en) * 2005-12-05 2012-03-06 Telefonaktiebolaget L M Ericsson (Publ) Echo detection
US8898056B2 (en) * 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US8131542B2 (en) * 2007-06-08 2012-03-06 Honda Motor Co., Ltd. Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8755469B1 (en) * 2008-04-15 2014-06-17 The United States Of America, As Represented By The Secretary Of The Army Method of spectrum mapping and exploitation using distributed sensors
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
EP2350926A2 (en) * 2008-11-24 2011-08-03 Institut Ruder Boskovic Method of and system for blind extraction of more than two pure components out of spectroscopic or spectrometric measurements of only two mixtures by means of sparse component analysis
EP2476008B1 (en) * 2009-09-10 2015-04-29 Rudjer Boskovic Institute Underdetermined blind extraction of components from mixtures in 1d and 2d nmr spectroscopy and mass spectrometry by means of combined sparse component analysis and detection of single component points
KR101612704B1 (ko) * 2009-10-30 2016-04-18 삼성전자 주식회사 다중음원 위치 추적장치 및 그 방법
KR101419377B1 (ko) * 2009-12-18 2014-07-15 배재대학교 산학협력단 암묵신호 분리 방법 및 이를 수행하는 장치
US8521477B2 (en) * 2009-12-18 2013-08-27 Electronics And Telecommunications Research Institute Method for separating blind signal and apparatus for performing the same
US8897455B2 (en) * 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
JP5726790B2 (ja) * 2012-03-09 2015-06-03 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
JP6059072B2 (ja) * 2013-04-24 2017-01-11 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
JP2015135318A (ja) * 2013-12-17 2015-07-27 キヤノン株式会社 データ処理装置、データ表示システム、試料データ取得システム、及びデータ処理方法
DE102015203003A1 (de) * 2015-02-19 2016-08-25 Robert Bosch Gmbh Batteriespeichersystem mit unterschiedlichen Zelltypen
US10991362B2 (en) * 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US10725174B2 (en) * 2015-08-24 2020-07-28 Hifi Engineering Inc. Method and system for determining the distance to an acoustically reflective object in a conduit
CN105352998B (zh) * 2015-11-17 2017-12-26 电子科技大学 脉冲涡流红外热图像的独立成分个数确定方法
CN109285557B (zh) * 2017-07-19 2022-11-01 杭州海康威视数字技术股份有限公司 一种定向拾音方法、装置及电子设备
US20190278551A1 (en) * 2018-03-06 2019-09-12 Silicon Video Systems, Inc. Variable layout module

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3480477B2 (ja) * 1995-07-26 2003-12-22 ソニー株式会社 動き検出回路および動き検出方法、並びに輝度・色信号分離装置
JPH1084284A (ja) * 1996-09-06 1998-03-31 Sony Corp 信号再生方法および装置
US6954494B2 (en) 2001-10-25 2005-10-11 Siemens Corporate Research, Inc. Online blind source separation
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARAKI S. ET AL.: "Jikan shuhasu masking to ICA no heiyo ni yoru ongensu > microphone-su no baai no blind ongen bunri", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2003 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU -I-, 17 September 2003 (2003-09-17), pages 587 - 588, XP002985749 *
RICKARD S. ET AL.: "On the approximative W-disjoint orthogonality of speech", PROC. ICASSP, vol. 1, 2002, pages 529 - 532, XP002985747 *
SARUWATARI H.: "Onsei.onkyo shingo o taisho toshita blind ongen bunri", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU UTSUSHIN HOSHIKI], vol. 101, no. 669, 25 February 2002 (2002-02-25), pages 59 - 66, XP002985748 *
See also references of EP1662485A4 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006090589A1 (ja) * 2005-02-25 2006-08-31 Pioneer Corporation 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
JP2006330687A (ja) * 2005-04-28 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
JP4653674B2 (ja) * 2005-04-28 2011-03-16 日本電信電話株式会社 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
JPWO2006132249A1 (ja) * 2005-06-06 2009-01-08 国立大学法人佐賀大学 信号分離装置
WO2007083814A1 (ja) * 2006-01-23 2007-07-26 Kabushiki Kaisha Kobe Seiko Sho 音源分離装置及び音源分離方法
JP2007219479A (ja) * 2006-01-23 2007-08-30 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
JP2007243326A (ja) * 2006-03-06 2007-09-20 Mitsubishi Electric Corp 信号分離方法およびその方法を使用した信号分離装置
JP4650891B2 (ja) * 2006-03-06 2011-03-16 三菱電機株式会社 信号分離方法およびその方法を使用した信号分離装置
JP2007295085A (ja) * 2006-04-21 2007-11-08 Kobe Steel Ltd 音源分離装置及び音源分離方法
US8634499B2 (en) * 2006-04-27 2014-01-21 Interdigital Technology Corporation Method and apparatus for performing blind signal separation in an OFDM MIMO system
US20110164567A1 (en) * 2006-04-27 2011-07-07 Interdigital Technology Corporation Method and apparatus for performing blind signal separation in an ofdm mimo system
JP2008052117A (ja) * 2006-08-25 2008-03-06 Oki Electric Ind Co Ltd 雑音除去装置、方法及びプログラム
JP2008134298A (ja) * 2006-11-27 2008-06-12 Megachips System Solutions Inc 信号処理装置、信号処理方法およびプログラム
WO2008072566A1 (ja) * 2006-12-12 2008-06-19 Nec Corporation 信号分離再生装置および信号分離再生方法
JP5131596B2 (ja) * 2006-12-12 2013-01-30 日本電気株式会社 信号分離再生装置および信号分離再生方法
US8345884B2 (en) 2006-12-12 2013-01-01 Nec Corporation Signal separation reproduction device and signal separation reproduction method
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2008203474A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> 多信号強調装置、方法、プログラム及びその記録媒体
JP2008219458A (ja) * 2007-03-05 2008-09-18 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008227916A (ja) * 2007-03-13 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム、記録媒体
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
JP2013070395A (ja) * 2008-01-29 2013-04-18 Qualcomm Inc 高度に相関する混合のための強調ブラインド信号源分離アルゴリズム
WO2010005050A1 (ja) * 2008-07-11 2010-01-14 日本電気株式会社 信号分析装置、信号制御装置及びその方法と、プログラム
JPWO2010005050A1 (ja) * 2008-07-11 2012-01-05 日本電気株式会社 信号分析装置、信号制御装置及びその方法と、プログラム
JP2012507049A (ja) * 2008-10-24 2012-03-22 クゥアルコム・インコーポレイテッド コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8954323B2 (en) 2009-02-13 2015-02-10 Nec Corporation Method for processing multichannel acoustic signal, system thereof, and program
WO2010092913A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2010092915A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
US9064499B2 (en) 2009-02-13 2015-06-23 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program
JP2010217773A (ja) * 2009-03-18 2010-09-30 Yamaha Corp 信号処理装置およびプログラム
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP2011027825A (ja) * 2009-07-22 2011-02-10 Sony Corp 音声処理装置、音声処理方法およびプログラム
JP2013504283A (ja) * 2009-09-07 2013-02-04 クゥアルコム・インコーポレイテッド マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2011107602A (ja) * 2009-11-20 2011-06-02 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
WO2012105385A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
WO2012105386A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
US9245539B2 (en) 2011-02-01 2016-01-26 Nec Corporation Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program
JP5994639B2 (ja) * 2011-02-01 2016-09-21 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
US9530435B2 (en) 2011-02-01 2016-12-27 Nec Corporation Voiced sound interval classification device, voiced sound interval classification method and voiced sound interval classification program
JP2014077899A (ja) * 2012-10-11 2014-05-01 Institute Of National Colleges Of Technology Japan 信号処理方法、装置、プログラム、およびプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
CN110491410A (zh) * 2019-04-12 2019-11-22 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN115810364A (zh) * 2023-02-07 2023-03-17 海纳科德(湖北)科技有限公司 混音环境中的端到端目标声信号提取方法及系统

Also Published As

Publication number Publication date
JPWO2005024788A1 (ja) 2006-11-09
EP2068308B1 (en) 2010-06-16
DE602004022175D1 (de) 2009-09-03
EP2068308A3 (en) 2009-07-08
DE602004027774D1 (de) 2010-07-29
JP3949150B2 (ja) 2007-07-25
US7496482B2 (en) 2009-02-24
EP1662485A1 (en) 2006-05-31
EP1662485A4 (en) 2008-01-23
US20060058983A1 (en) 2006-03-16
EP1662485B1 (en) 2009-07-22
EP2068308A2 (en) 2009-06-10
WO2005024788A9 (ja) 2007-05-18

Similar Documents

Publication Publication Date Title
WO2005024788A1 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
EP3479377B1 (en) Speech recognition
CN109661705B (zh) 声源分离装置和方法以及程序
US10176826B2 (en) Separating audio sources
JP4406428B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
US20140078867A1 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
US20180070170A1 (en) Sound processing apparatus and sound processing method
JP6345327B1 (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
JP6992873B2 (ja) 音源分離装置、音源分離方法およびプログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP4769238B2 (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体
JP2019049685A (ja) 音声抽出装置、音声抽出方法および音声抽出プログラム
JP2013167698A (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
WO2021112066A1 (ja) 音響解析装置、音響解析方法及び音響解析プログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP2019035851A (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
Wei et al. Underdetermined Blind Source Separation Based on Spatial Estimation and Compressed Sensing
Selouani et al. Evolutionary Algorithms and Speech Recognition

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2005513646

Country of ref document: JP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 20048015707

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2004772585

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2006058983

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10539609

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10539609

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2004772585

Country of ref document: EP