WO2023127057A1 - 信号フィルタリング装置、信号フィルタリング方法及びプログラム - Google Patents

信号フィルタリング装置、信号フィルタリング方法及びプログラム Download PDF

Info

Publication number
WO2023127057A1
WO2023127057A1 PCT/JP2021/048688 JP2021048688W WO2023127057A1 WO 2023127057 A1 WO2023127057 A1 WO 2023127057A1 JP 2021048688 W JP2021048688 W JP 2021048688W WO 2023127057 A1 WO2023127057 A1 WO 2023127057A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
information
concept
mixed
speech
Prior art date
Application number
PCT/JP2021/048688
Other languages
English (en)
French (fr)
Inventor
康智 大石
マーク デルクロア
翼 落合
章子 荒木
大起 竹内
大輔 仁泉
昭悟 木村
邦夫 柏野
登 原田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/048688 priority Critical patent/WO2023127057A1/ja
Publication of WO2023127057A1 publication Critical patent/WO2023127057A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • the present invention relates to a signal filtering device, signal filtering method and program.
  • the voices of those speakers may be mixed.
  • the effect of being able to hear the selected speaker's speech from the mixed speech is known as the cocktail party effect. Realization of this cocktail party effect by a signal filtering device has been investigated.
  • the audio signal may be a signal corresponding to a spoken language, or a signal (acoustic signal) corresponding to the sound of a musical instrument or the like.
  • the signal filtering device extracts or removes from the audio signal a specific part or element in the audio signal input to the signal filtering device by filtering the audio signal. That is, the signal filtering device extracts or removes the audio signal intended for extraction (hereinafter referred to as the "target audio signal") from the mixed audio signal.
  • the signal filtering device disclosed in Non-Patent Document 1 executes filtering processing based on the physical characteristics of the target audio signal.
  • the physical properties are the direction of the sound source, the harmonic structure of the frequency components of the speech, the statistical independence of the speech signal, and the timbre proximity or matching of the target speaker.
  • the present invention provides a signal filtering device and signal filtering method capable of improving the accuracy of extracting a target audio signal from an audio signal in which an audio signal other than the target audio signal is mixed with the target audio signal. and programs.
  • an information generation unit that generates feature information related to a target signal
  • a signal filtering device comprising: an extraction unit for extracting mask information from a mixed signal including the target signal based on the feature information; and a mask processing unit for estimating the target signal from the mixed signal using the mask information.
  • One aspect of the present invention is a signal filtering method performed by a signal filtering device, comprising the steps of: generating feature information of relevant information of a target signal; and estimating the target signal from the mixed signal using the mask information.
  • One aspect of the present invention is a program for causing a computer to function as the above signal filtering device.
  • the present invention it is possible to improve the accuracy of extracting a target audio signal from an audio signal in which an audio signal other than the target audio signal is mixed with the target audio signal.
  • FIG. 4 is a flowchart showing an operation example of the signal filtering device in the first embodiment; It is a figure which shows the structural example of the signal filtering apparatus in 2nd Embodiment.
  • FIG. 11 is a diagram showing an example of a similarity outline in the second embodiment;
  • FIG. 9 is a flow chart showing an operation example of the signal filtering device in the second embodiment;
  • It is a figure which shows the structural example of the signal filtering apparatus in 3rd Embodiment.
  • FIG. 4 shows an example of signal-to-distortion ratio scores averaged for a target audio signal in the first and second embodiments; 3 shows an example of extraction of a target audio signal in the second embodiment.
  • FIG. 11 shows an example of signal-to-distortion ratio scores for each overlap ratio in the second embodiment and the third embodiment;
  • FIG. It is a figure which shows the hardware structural example of the signal filtering apparatus in each embodiment.
  • an audio signal in which an audio signal other than the target audio signal is mixed with the target audio signal is referred to as a "mixed audio signal”.
  • a function for extracting a target audio signal from a mixed audio signal based on a concept designated by a predetermined method is referred to as "ConceptBeam”.
  • the predetermined method is not limited to a specific method, but is, for example, a method of specifying using an audio signal, a still image signal, a moving image signal (video signal), or a text signal (description signal).
  • the target audio signal is a particular portion or element in the mixed audio signal.
  • a mixed speech signal of multiple speakers talking about different topics is input to the signal filtering device.
  • a signal for designating a concept targeted for extraction (hereinafter referred to as a "concept designating signal”) is input to the signal filtering device.
  • the signal filtering device extracts semantic information in multidimensional vector format, that is, conceptual information in multidimensional vector format (hereinafter referred to as "concept embedding vector") from the concept designation signal.
  • Spoken language associated with the concept (latent semantic information) specified using this concept specification signal may be included in the mixed speech signal.
  • the mixed audio signal may include waveform data (phonetic language) for the word "bicycle" associated with a bicycle image in a frame of still images as the concept-designating signal.
  • a signal filtering device extracts from the mixed speech signal the intended speech signal by the speaker speaking about the concept intended for extraction. For example, if an image signal of a bicycle is input to the signal filtering device, the signal filtering device extracts from the mixed speech signal a target speech signal by a speaker speaking about the concept "bicycle" targeted for extraction. do.
  • the signal filtering device uses cross-modal representation learning (Reference 1: D. Harwath, A. Recasens, D. Suris, G. Chuang, A. Torralba, and J. Glass, “Jointly discovering visual objects and spoken words from raw sensory input,” International Journal of Computer Vision, 2019.).
  • the signal filtering device expresses the concept specified using the concept specifying signal using a concept embedding vector (concept vector).
  • the signal filtering device uses a technique for extracting a target speaker (Reference 2: M. Delcroix, K. Zmolikova, T. Ochiai, K. Kinoshita, and T. Nakatani, “Speaker activity driven neural speech extraction,” in Proc. ICASSP, 2021.).
  • the signal filtering device extracts the target speech signal from the mixed speech signal based on the concept expressed using the concept embedding vector.
  • the signal filtering device uses a technique for separating sound sources (Reference 3: M. Kolbak, D. Yu, Z.-H. Tan, and J. Jensen, “Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks,” IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 25, no. 10, pp. 1901-1913, 2017.).
  • the signal filtering device thereby extracts the target audio signal from the mixed audio signal.
  • FIG. 1 is a diagram showing a configuration example of a signal filtering device 1a in the first embodiment.
  • the signal filtering device 1a is a device for extracting a target speech signal from a mixed speech signal.
  • the signal filtering device 1a extracts the target audio signal from the mixed audio signal by filtering the mixed audio signal containing the target audio signal and audio signals other than the target audio signal.
  • the signal filtering device 1a mixes a concept embedding vector (image embedding vector) obtained using an audiovisual (image and audio) embedding network (neural network) with a target audio signal. Use it as a clue to extract from the audio signal.
  • the signal filtering device 1a includes an acquisition unit 11, an information generation unit 12a, an extraction unit 13, and a mask processing unit 14.
  • the information generating unit 12a has an encoding unit 121a and a linear transforming unit 122 .
  • the extraction unit 13 has a first extraction layer 131, a joint processing unit 132, and a second extraction layer 133a.
  • ⁇ Learning stage> An image embedding vector and an audio embedding vector are obtained based on a large amount of image-descriptive audio pair data.
  • the encoding unit 121a performs deep distance learning such that the image embedding vector and the audio embedding vector are arranged close to each other in the latent space (audiovisual embedding space). .
  • Equation (1) The process of extracting a target speech signal corresponding to the speech of a speaker speaking about a concept targeted for extraction (the content of a still image as a concept designation signal) is extracted from the mixed speech signal by Equation (1). is formulated as
  • Y ⁇ C T ⁇ F represents the mixed speech signal (input signal) in the short-time Fourier transform domain.
  • T represents the number of frames per time in the mixed speech signal.
  • F represents the number of frequency bins of the mixed audio signal.
  • ⁇ X k ⁇ C T ⁇ F represents the target speech signal of the k-th speaker.
  • f( ⁇ ) is a function representing a process (ConceptBeam) for conceptually extracting the target speech signal “ ⁇ X k ” from the mixed speech signal “Y”.
  • the parameters of the encoding unit 121a and the parameters of the extraction unit 13 may be learned simultaneously, but are learned independently so as to be stable.
  • X k represents the reference speech signal associated with the k-th speaker's target speech signal.
  • C k represents a concept-designating signal (eg, still image).
  • K represents the total number of speakers associated with the mixed speech signal.
  • the information generation unit 12a has an audiovisual embedded network (see Reference 1, for example).
  • the information generator 12a generates an image feature vector (image feature information) based on the concept designation signal (still image) input to the audiovisual embedded network.
  • the information generator 12a generates a concept embedding vector based on the image feature vector.
  • the encoding unit 121a uses an audiovisual embedding network to generate time intervals (segments) of the audio signal in which the name or appearance (concept targeted for extraction) representing the object in the frame of the image is described in a spoken language. and its object by unsupervised learning.
  • the globally pooled image feature vector “( ⁇ )I” as visual information obtained from the image encoder that encodes the image “C k ” in the encoding unit 121a is the conceptual embedding vector “e ” is used as
  • the linear transformation unit 122 performs linear transformation on the globally pooled image feature vector “( ⁇ )I”.
  • the linear transformation unit 122 generates the d′-dimensional vector obtained by the linear transformation as the concept embedding vector “e”.
  • the information generation unit 12a may express a concept that crosses both image (visual) and audio (auditory) modalities using a concept embedding vector. That is, a cross-modal embedding vector may be used as the concept embedding vector.
  • the cross-modal embedding vectors may be, for example, image and audio embedding vectors.
  • the Acquisition unit 11 acquires a mixed audio signal (input signal).
  • the extraction unit 13 generates mask information based on the mixed speech signal and the concept embedding vector.
  • the mask processing unit 14 estimates the target audio signal " ⁇ X k " based on the mixed audio signal and the mask information.
  • the loss function in deep distance learning is a function that expresses the mean squared error between the estimated target speech signal 'X k ' and the reference speech signal 'X k ' as a loss.
  • ⁇ Estimation stage> The parameters of the information generator 12a (audiovisual embedding network) learned in the learning stage are fixed in the estimation stage. Also, the parameters of the extraction unit 13 (each extraction layer) learned in the learning stage are fixed in the estimation stage.
  • the acquisition unit 11 acquires the mixed audio signal (input signal).
  • the encoding unit 121a acquires the concept designation signal.
  • the encoding unit 121a generates an image feature vector from the concept designation signal using an audiovisual embedding network (see Reference 1, for example).
  • the encoding unit 121a may convert information of different modalities (image and audio) into vectors of embedding spaces (hereinafter referred to as "shared embedding spaces") capable of expressing features of different modalities. For example, when the concept designating signal is a still image or a moving image, the encoding unit 121a encodes the input concept designating signal into an image feature vector. For example, when the concept designating signal is speech, the encoding unit 121a encodes the input concept designating signal into a speech feature vector (speech feature information).
  • I ⁇ R H ⁇ W ⁇ d represents an image feature map output from the image encoder of the encoding unit 121a.
  • a ⁇ R T′ ⁇ d represents the speech feature map output from the speech encoder of the encoding unit 121a.
  • (-)I shown in Equation (2) represents an image feature vector globally pooled in the spatial direction.
  • (-)I represents an image feature vector globally pooled in the spatial or temporal direction.
  • I h,w,: represents a d-dimensional vector (image feature vector) indicating coordinates (h, w) in the image feature map.
  • H represents the height of the image downsampled by the image encoder.
  • W represents the width of the image downsampled by the image encoder.
  • (-)A” shown in Equation (3) represents a speech feature vector globally pooled in the time direction.
  • a t', : " represents a d-dimensional vector (audio feature vector) indicating the t'-th frame in the audio feature map.
  • 'T'' represents the number of time frames of the speech signal downsampled by the speech encoder.
  • the extraction unit 13 uses conceptual embedding vectors derived based on these feature vectors in the shared embedding space for filtering the mixed speech signal.
  • the extraction unit 13 extracts a desired element or region from the mixed speech signal based on the concept embedding vector generated according to the concept designating signal (target concept designator).
  • the extraction unit 13 has an extraction network (a neural network for extraction).
  • the extraction unit 13 extracts a “time-frequency mask” representing a desired element or region based on the mixed speech signal “Y” input to the extraction network and the concept embedding vector “e”, and the mask information “M k ⁇ R T ⁇ F ”.
  • the first extraction layer 131 is the first Bidirectional Long Short-Term Memory (BLSTM) layer (hidden layer) of the extraction network.
  • the connection processing unit 132 multiplies the output of the first extraction layer 131 by the concept embedding vector “e” element by element.
  • the extraction result of the first extraction layer 131 and the concept embedding vector “e” are multiplied and combined (see Reference 2).
  • the second extraction layer 133a extracts mask information from the result of multiplication and combination by the combination processing unit 132.
  • the mask processing unit 14 multiplies the mask information “M k ” extracted by the second extraction layer 133a by the mixed audio signal “Y” element by element. Thereby, the mask processing unit 14 estimates the target audio signal " ⁇ X k ".
  • FIG. 2 is a flow chart showing an operation example of the signal filtering device 1a in the first embodiment.
  • the encoding unit 121a encodes the concept designation signal into an image feature vector (d-dimensional vector) (step S101).
  • the linear transformation unit 122 generates a linear transformation result of the image feature vector as a concept embedding vector (step S102).
  • the extraction unit 13 extracts mask information from the mixed audio signal including the target audio signal based on the concept embedding vector (step S103).
  • the mask processing unit 14 uses the mask information to estimate the target audio signal from the mixed audio signal (step S104).
  • the information generation unit 12a generates the concept embedding vector (feature information) of the concept designation signal (related information) of the target audio signal (target signal).
  • the extraction unit 13 extracts mask information from a mixed audio signal (mixed signal) containing the target audio signal based on the concept embedding vector.
  • the mask processing unit 14 uses the mask information to estimate the target audio signal from the mixed audio signal.
  • the information generation unit 12a encodes the concept designation signal (related information) into a d-dimensional vector (multidimensional vector).
  • the information generator 12a generates a linear transformation result of the d-dimensional vector as a concept embedding vector (feature information).
  • the second embodiment differs from the first embodiment in that mask information is extracted from the mixed speech signal using concept activity information.
  • differences from the first embodiment will be mainly described.
  • FIG. 3 is a diagram showing a configuration example of the signal filtering device 1b in the second embodiment.
  • the signal filtering device 1b is a device for extracting a target speech signal from a mixed speech signal.
  • the signal filtering device 1b extracts the target audio signal from the mixed audio signal by filtering the mixed audio signal containing the target audio signal and audio signals other than the target audio signal.
  • the signal filtering device 1b includes an acquisition unit 11, an information generation unit 12b, an extraction unit 13, and a mask processing unit 14.
  • the information generating unit 12b has an encoding unit 121b, a similarity deriving unit 123, an auxiliary unit 124, and a weighted sum unit 125.
  • the extraction unit 13 has a first extraction layer 131, a joint processing unit 132, and a second extraction layer 133b.
  • the information generation unit 12b generates a similarity profile for the concept designation signal.
  • the similarity outline is information representing audio-visual correspondence.
  • the similarity outline is information representing the similarity between the image feature and the audio feature in time series.
  • the similarity contour is expressed as the inner product of the image feature vector "I" and the audio feature vector "A", as shown in Equation (4).
  • the information generation unit 12b generates concept activity information based on the similarity outline.
  • the concept activity information is generated based on the similarity contours and thus represents the time interval during which the concept targeted for extraction appeared in the mixed speech signal.
  • the concept activity information is information representing time intervals in the mixed speech signal that include the spoken language "bicycle” uttered for the concept "bicycle” targeted for extraction.
  • the information generation unit 12b generates a concept embedding vector based on the concept activity information.
  • the extraction unit 13 extracts mask information from the mixed speech signal based on the concept embedding vector.
  • ⁇ Learning stage> Instead of using mixed audio signals for training, for example Oracle concept activity information is used for training.
  • the oracle conceptual activity information is information obtained as an output of the embedded audiovisual network by inputting the reference audio signal of the target audio signal into the embedded audiovisual network (see Reference 1, for example).
  • the extraction unit 13 By using the Oracle concept activity information (time-series data) to generate concept embedding vectors, it is expected that the extraction unit 13 will accurately extract the features of specific concepts in the target speech signal.
  • Supervised learning of extracting a target speech signal from a mixed speech signal produces a concept embedding vector that approximates the vector representing the speaker of the target speech signal.
  • FIG. 4 is a diagram showing an example of a similarity contour in the second embodiment. Audiovisual correspondences are used to generate concept embedding vectors. The similarity contour “s t′ ” is used to identify regions (segments) of the audio signal in which words related to the concept represented in the image are spoken (see reference 1).
  • the similarity outline represents the degree of similarity between the content of the concept-designating signal 100 and the content of the speaker's speech.
  • Concept designation signal 100 illustrated in FIG. 4 includes, for example, an image of a bicycle. For this reason, the similarity outline for a time interval in which the speaker's speech includes the word "bicycle", for example, is relatively is high.
  • the information generator 12b derives a similarity outline based on the concept designation signal 100 and the mixed speech signal.
  • the encoding unit 121b generates an image feature map of the concept designation signal 100.
  • FIG. The encoding unit 121b may generate an image feature vector in the image feature map of the concept designation signal 100.
  • FIG. The encoding unit 121b may generate an audio feature vector in an audio feature map of the mixed audio signal.
  • the similarity deriving unit 123 derives the outline of the degree of similarity between the image feature vector in the image feature map and the audio feature vector in the audio feature map as shown in Equation (4). Further, the similarity deriving unit 123 scale-transforms the similarity contour to a value that varies between 0 and 1 using a sigmoid function as in Equation (5).
  • Equation (5) is concept activity information. That is, the similarity outline scaled to a value that varies between 0 and 1 is the concept activity information.
  • Auxiliary unit 124 has an auxiliary network.
  • the auxiliary unit 124 acquires the mixed audio signal “y t ” from the acquisition unit 11 .
  • the weighted sum unit 125 derives the weighted sum (weighting result) of the output “h(y t )” of the auxiliary unit 124 and the concept activity information as a concept embedding vector.
  • a concept embedding vector is expressed as in Equation (6).
  • h(.) represents an auxiliary network.
  • An auxiliary network synchronizes the conceptual activity information to the mixed speech signal so that the conceptual embedding vector is derived from the mixed speech signal.
  • " yt " represents the tth frame in the mixed speech signal "Y”.
  • a relationship of "T' ⁇ T” holds between the sequence length "T'” of the concept activity information "p t' " and the sequence length "T” of the t-th frame "y t ".
  • Auxiliary unit 124 linearly interpolates the concept activity information “p t′ ”.
  • the weighted sum unit 125 derives a sequence of concept activity information “p t ” of length “T” based on the linearly interpolated concept activity information.
  • the weighted sum unit 125 is associated with an activity-driven extraction network (ADEnet) (see reference 2). This activity-driven extraction network utilizes information representing the time spans spoken by the speaker to extract the target speech signal.
  • ADnet activity-driven extraction network
  • weighted sum unit 125 uses the similarity outline exemplified in Equation (4) instead of using the time-series data of the concept activity information exemplified in Equation (4), as illustrated in Equation (6). may derive concept embedding vectors.
  • FIG. 5 is a flow chart showing an operation example of the signal filtering device in the second embodiment.
  • the encoding unit 121b encodes the concept designation signal into an image feature vector (step S201).
  • the encoding unit 121b encodes the mixed speech signal into a speech feature vector (step S202).
  • the similarity deriving unit 123 derives a similarity contour between the image feature vector and the audio feature vector (step S203).
  • the auxiliary unit 124 outputs the mixed audio signal to the weighted sum unit 125 (step S204).
  • the weighted sum unit 125 generates the weighted sum result of the similarity outline and the mixed speech signal as a concept embedding vector (step S205).
  • the extraction unit 13 extracts mask information from the mixed audio signal including the target audio signal based on the concept embedding vector (step S206).
  • the mask processing unit 14 uses the mask information to estimate the target audio signal from the mixed audio signal (step S207).
  • the information generation unit 12b generates the concept embedding vector (feature information) of the concept designation signal (related information) of the target audio signal (target signal).
  • the extraction unit 13 extracts mask information from a mixed audio signal (mixed signal) containing the target audio signal based on the concept embedding vector.
  • the mask processing unit 14 uses the mask information to estimate the target audio signal from the mixed audio signal.
  • the information generation unit 12b encodes the concept designation signal (related information) into an image feature vector (first multidimensional vector).
  • the information generator 12b encodes the mixed speech signal (mixed signal) into a speech feature vector (second multidimensional vector).
  • the information generator 12b derives a similarity outline (time-series similarity) between the image feature vector and the audio feature vector.
  • the information generation unit 12b generates a weighted sum result of the similarity outline and the mixed speech signal (mixed signal) as a concept embedding vector.
  • the third embodiment differs from the first and second embodiments in that the audio signals in the mixed audio signal are separated for each speaker (sound source). In the third embodiment, differences from the first and second embodiments will be mainly described.
  • FIG. 6 is a diagram showing a configuration example of the signal filtering device 1c in the third embodiment.
  • the signal filtering device 1c is a device for extracting a target speech signal from a mixed speech signal.
  • the signal filtering device 1c extracts the target audio signal from the mixed audio signal by filtering the mixed audio signal containing the target audio signal and audio signals other than the target audio signal.
  • the signal filtering device 1c includes a separation unit 15, an encoding unit 121c, and a selection unit 126.
  • the separating section 15 has a first extraction layer 131 and a second extraction layer 133c.
  • the encoding unit 121c or the selection unit 126 has an audiovisual embedding network (see Reference 1, for example).
  • the architecture of the separation network provided in separation section 15 is similar to the extraction network provided in extraction section 13 . If the number of speakers (the number of sound sources) of the speech signals in the mixed speech signal is known, the speech signals can be separated for each speaker (sound source). In the third embodiment, there are L sound sources.
  • the L speech signals in the mixed speech signal are denoted as ⁇ ( ⁇ )X 1 ,...,( ⁇ )X L ⁇ .
  • the second extraction layer 133c (output layer) separates the speech signal in the mixed speech signal into each speaker's speech signal "(-) X l ".
  • the second extraction layer 133c uses a technique such as PIT (Permutation Invariant Training) to separate speech signals in the mixed speech signal for each speaker.
  • PIT Permutation Invariant Training
  • a still image “C k ” as a concept designating signal is input to the encoding unit 121c.
  • the speech signal of each speaker is input from the second extraction layer 133c to the encoding unit 121c.
  • the encoding unit 121c derives an image feature vector “( ⁇ )I k ” of the still image “C k ” using an audiovisual embedding network.
  • the encoding unit 121c uses an audiovisual embedding network to derive a speech feature vector “( ⁇ )A 1 ” of the speech signal of each speaker.
  • the encoding unit 121c generates the globally pooled image feature vector “( ⁇ )I k ”, the globally pooled audio feature vector “( ⁇ )A” of the audio signal of each speaker, and the audio signal of each speaker. “( ⁇ )X l ” is output to the selection unit 126 .
  • the selector 126 selects a globally pooled image feature vector “( ⁇ )I k ” based on the concept designating signal “C k ” and a globally pooled audio feature vector “( ⁇ )A l of the audio signal of each speaker. ” and the degree of similarity “( ⁇ )I k ⁇ ( ⁇ )A l ” is derived.
  • the selection unit 126 receives the speech signal “( ⁇ )X l ” of each speaker from the separation unit 15 or the encoding unit 121c.
  • the selection unit 126 selects the audio signal "( ⁇ ) X l " having the highest similarity among the audio signals "( ⁇ ) X l " of each speaker as the target audio signal " ⁇ X k ", and uses Equation (7 ).
  • FIG. 7 is a flow chart showing an operation example of the signal filtering device in the third embodiment.
  • the separating unit 15 separates L candidates for the target speech signal from the mixed speech signal (step S301).
  • the encoding unit 121c encodes the concept designation signal into an image feature vector (step S302).
  • the encoding unit 121c encodes the L candidates for the target speech signal into L speech feature vectors (step S303).
  • the selection unit 126 derives the degree of similarity (inner product) between the globally pooled image feature vector and the globally pooled audio feature vector for each target audio signal candidate (step S304). The selection unit 126 selects the target speech signal with the highest degree of similarity from among the L candidates for the target speech signal (step S305).
  • the separation unit 15 separates L (predetermined number) candidates (candidate signals) of the target speech signal from the mixed speech signal (mixed signal) as candidates of the target speech signal to be selected.
  • the L candidates for the target speech signal are speech signals associated with L predetermined sound sources (for example, speakers).
  • the separation unit 15 separates target speech signal candidates in the mixed speech signal for each sound source using a technique such as PIT.
  • the encoding unit 121c encodes the concept designation signal (related information) related to the target audio signal into an image feature vector (first feature vector).
  • the encoding unit 121c encodes the L candidates (candidate signals) of the target speech signal into L speech feature vectors (second feature vectors).
  • the selection unit 126 derives the degree of similarity between the globally pooled image feature vector and the globally pooled audio feature vector for each target audio signal candidate (candidate signal). The selection unit 126 derives the inner product of the image feature vector and the audio feature vector as the degree of similarity. The selection unit 126 selects the target audio signal (candidate signal) with the highest degree of similarity from among the L candidates for the target audio signal as the final target audio signal (target signal).
  • An image dataset containing images of various scenes and locations with voice captions (Places spoken caption dataset) was used as training data to create a mixed speech signal of two speakers.
  • This audio caption data set consists of an image data set and audio captions in English and Japanese.
  • the images in the image dataset are classified into 205 different scene classes.
  • pairs of images and audio captions (97,555 pairs) were extracted from each language dataset. Only Japanese audio captions are labeled with the gender of the speaker.
  • the signal filtering device In order to evaluate the effectiveness of the signal filtering device in both languages, it was divided into a training set of 90,000 pairs, a validation set of 4,000 pairs, and an evaluation set of 3,555 pairs for each language. The training set was then used to pretrain the audiovisual embedding network (deep distance learning).
  • the training set has 90,000 mixed speech signals.
  • the validation set has 4,000 mixed speech signals.
  • the evaluation set has 3,555 mixed speech signals. Computational and memory costs were reduced by downsampling the frequency of the audio captions to 8 kHz.
  • a 258-dimensional vector combining the real and imaginary parts of the complex spectrum was used as the feature of the input speech.
  • This complex spectrum was obtained from a short-time Fourier transform with a window length of 32 ms and a window shift length of 8 ms.
  • the image dimensions were resized so that the minimum image dimensions were 256 pixels.
  • a 224 ⁇ 224 center crop was performed on the resized image.
  • the pixels of the center-cropped image were normalized according to the global pixel mean and variance.
  • the image encoder is "ResNet 50".
  • the image encoder outputs a “7 ⁇ 7 ⁇ 1,024” image feature map when a “224 ⁇ 224 ⁇ 3” image is input.
  • the height "H” and width "W” of the image feature map are both seven.
  • the audio encoder is "ResDAVEnet”.
  • the speech encoder outputs a “T′ ⁇ 1,024” speech feature map when a 40-dimensional log-mel filterbank spectrogram is input. This filterbank spectrogram was computed from the input speech features. The dimension “d” is 1,024. The time resolution "T'" finally becomes "T/16".
  • the auxiliary section 124 (auxiliary network) illustrated in FIG. 3 has two fully connected layers. These two fully connected layers have 200 hidden units, 896 hidden units, and a ReLU (Rectified Linear Unit) activation function. Therefore, the dimension of the concept embedding vector is 896.
  • the extraction network of the extraction unit 13 and the separation network of the separation unit 15 each have four bidirectional long-term and short-term memory layers consisting of 896 units.
  • the extraction network of extraction unit 13 and the separation network of separation unit 15 have a linear mapping layer of 896 units after each bidirectional long-term short-term memory layer. This linear mapping layer combines the forward output of the LSTM (Long Short Term Memory) and the backward output of the LSTM.
  • connection processing unit 132 connected the output of the first bidirectional long-term short-term memory layer in the extraction unit 13 (extraction network) and the concept embedding vector.
  • the number of sound sources “L” is two. Also, the total number of speakers “K” is two. The initial learning rate is 0.0001. 'Adam' was used as the learning optimization method and gradient clipping was performed.
  • the target speech signal extracted by the signal filtering device was evaluated using the signal-to-distortion ratio (SDR).
  • SDR signal-to-distortion ratio
  • the signal-to-distortion ratio represents the performance of extracting the target speech signal of each speaker from the mixed speech signal.
  • SDR Signal-to-distortion ratio
  • FIG. 8 shows an example of signal-to-distortion ratio (SDR) scores (dB) averaged for the target audio signal in the first and second embodiments.
  • SDR signal-to-distortion ratio
  • the values in the column "Mixed Speech of the opposite sex” column indicate the signal-to-distortion ratio score for the mixed speech signal of the opposite sex.
  • the values in the column “Homosexual Mixed Speech” column indicate signal-to-distortion ratio scores for same-sex mixed speech signals.
  • the values in the column “Mixed Heterosexual and Homosexual Speech” column indicate the signal-to-distortion ratio scores for mixed heterosexual and homosexual speech signals.
  • the item “image feature vector” indicates the signal-to-distortion ratio score in the signal filtering device 1a of the first embodiment.
  • the item “similarity outline” indicates the signal-to-distortion ratio score when the similarity outline is output to the weighted sum unit 125 by the similarity derivation unit 123 of the signal filtering device 1b of the second embodiment.
  • the item “conceptual activity information” indicates the signal-to-distortion ratio score when the similarity deriving unit 123 of the signal filtering device 1b of the second embodiment outputs the conceptual activity information to the weighted sum unit 125.
  • the extraction performance of the target speech signal was the highest when the concept embedding vector generated using the concept activity information was used for extraction.
  • the concept embedding vector is generated using the concept activity information.
  • FIG. 9 shows an example of extraction of a target audio signal in the second embodiment (extraction method).
  • Concept designation signal 101 is an image of a scene in which a man wearing glasses is playing a guitar in a bookstore.
  • the concept designation signal 102 is an image of a blue pillar and a night view of a roller coaster.
  • a first speaker (not shown) is talking about the concept designation signal 101 as a topic.
  • the first target audio signal is the audio signal of the first speaker.
  • a second speaker (not shown) is talking about the concept designation signal 102 .
  • the second target audio signal is the audio signal of the second speaker.
  • the signal filtering device 1b extracts the first target speech signal and the second target speech signal even in a time segment in which the speech of the first speaker and the speech of the second speaker overlap in the mixed speech signal. It is possible to In particular, each time when the value of the "concept activity information" becomes 1, for example, a concept (for example, speech language “glasses” and spoken language “man”, etc.). The same applies to the image of the concept designation signal 102 .
  • a concept embedding vector is derived using each time at which a concept appears in the concept designation signal as a clue. Conceptual embedding vectors are used to generate mask information for extracting the target speech signal from the mixed speech signal.
  • the extraction performance (SDR score) of the first target audio signal is 17.7 dB.
  • the extraction performance (SDR score) of the second target audio signal is 17.0 dB.
  • FIG. 10 shows an example of the signal-to-distortion ratio score for each overlap rate in the second embodiment (extraction method) and the third embodiment (separation method).
  • Mixed speech signals of two speakers are used to compare the extraction performance of the signal filtering device 1b (extraction method using concept activity information) and the extraction performance of the signal filtering device 1c (separation method).
  • the speaker's mixed audio signal was obtained by mixing Japanese audio captions with five different overlapping rates.
  • the extraction performance of the signal filtering device 1b and the extraction performance of the signal filtering device 1c are more likely to be comparable as the duplication rate is lower.
  • the extraction performance of the signal filtering device 1b and the extraction performance of the signal filtering device 1c both decrease as the overlap rate increases.
  • the extraction performance of the signal filtering device 1c is 10 dB or more even if the duplication rate is 100%. However, it is necessary for the signal filtering device 1c to acquire in advance information indicating the number of speakers (the number of sound sources) of the target audio signal included in the mixed audio signal. It is effective to selectively use the signal filtering device 1b and the signal filtering device 1c depending on whether or not the number of speakers is known and the overlapping rate of the target speech signals.
  • each assumed use scene As a first usage scene, a situation is assumed in which a presenter explains the contents of a poster (a concept for which extraction is intended) at a poster venue booth at an academic conference, an exhibition, or the like. Unrelated speech and noise make it difficult to hear the intended presenter's voice (the intended speech signal).
  • the signal filtering device of each of the above embodiments utilizes the content of the poster (image) as a concept specifying signal (auxiliary information).
  • the signal filtering device of each of the above embodiments extracts the speech of the presenter from speech in which various sounds are mixed. This makes it possible to make it easier to hear the voice of the presenter.
  • the signal filtering device of each of the embodiments described above utilizes still images and moving images including images representing concepts to be searched (concepts targeted for extraction) as concept specifying signals (auxiliary information).
  • the signal filtering device utilizes still and moving images, including images representing a searched bicycle, as concept-specific signals.
  • a signal filtering device extracts a target audio signal that describes a searched concept from a mixed audio signal associated with a large amount of video content.
  • the signal filtering device extracts a target audio signal "bicycle" describing a bicycle from a mixed audio signal associated with a large amount of video content containing a video of a bicycle. This makes it possible to search for target video content (for example, a video of a bicycle) associated with the extracted mixed audio signal.
  • the instruction content is content that uses still images and moving images to explain the concept that is the object of extraction.
  • the signal filtering device of each of the embodiments described above utilizes a still image and a moving image for explaining a concept to be explained as a concept specifying signal (auxiliary information). The speech recognition performance is improved by extracting the speaker's target speech signal.
  • a mixed audio signal in which an audio signal other than the audio signal targeted for extraction is mixed with the audio signal targeted for extraction will be referred to as a "mixed audio signal”.
  • an acoustic signal in which sounds of multiple types of musical instruments are mixed may be input to the signal filtering device as the mixed audio signal of each of the above embodiments.
  • a signal filtering device utilizes a still or moving image containing an image of the target musical instrument as a concept-designating signal (auxiliary information). The acoustic signal extracted as the sound of the target musical instrument is easier to hear.
  • a mixed acoustic signal is, for example, an acoustic signal recorded by a microphone installed outdoors (for example, a monitoring microphone).
  • the mixed sound signal includes ambient sounds such as car sounds.
  • Still images and moving images associated with concepts targeted for extraction are used as concept designation signals (auxiliary information).
  • the concept designating signal may be an audio signal.
  • the signal filtering device may extract from the mixed speech signal the target speech signal of a speaker speaking about content (concept) close to the topical content (concept). If a first English-speaking speaker and a second Japanese-speaking speaker are talking about the same concept (e.g., the same image content), the signal filtering device is used in the target speech signal.
  • One of the first speaker's English speech signal and the second speaker's Japanese speech signal may be extracted from the mixed speech signal by using the language of interest as the concept designation signal.
  • the signal filtering device utilizes the language used in the target speech signal or the language not used in the target speech signal as the concept-designating signal, thereby dividing the English speech signal of the first speaker and the English speech signal of the second speaker.
  • One of the Japanese speech signal and the Japanese speech signal may be removed from the mixed speech signal.
  • FIG. 11 is a diagram showing a hardware configuration example of the signal filtering device 1 in each embodiment.
  • the signal filtering device 1 corresponds to each of the signal filtering device 1a, the signal filtering device 1b, and the signal filtering device 1c.
  • Some or all of the functional units of the signal filtering device 1 are configured by a processor 111 such as a CPU (Central Processing Unit) configured by a storage device 112 having a non-volatile recording medium (non-temporary recording medium) and a memory 113. It is implemented as software by executing a program stored in the .
  • the program may be recorded on a computer-readable non-transitory recording medium.
  • a computer-readable non-temporary recording medium is, for example, a portable medium such as a flexible disk, a magneto-optical disk, a ROM (Read Only Memory), a CD-ROM (Compact Disc Read Only Memory), or a hard disk built into a computer system. It is a non-temporary recording medium such as a storage device such as The communication unit 114 executes predetermined communication processing. The communication unit 114 may acquire data and programs.
  • LSI Large Scale Integrated circuit
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the present invention is applicable to systems that filter signals.
  • Concept designation signal 111 Processor 112 Storage device 113 Memory 114 Communication unit 121a, 121b Encoding unit 123 Similarity deriving unit 124 Auxiliary unit 125 Weighting Sum section 126 Selection section 131 First extraction layer 132 Combination processing section 133a, 133b, 133c Second extraction layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

信号フィルタリング装置は、目的信号の関連情報の特徴情報を生成する情報生成部と、目的信号を含む混合信号から、マスク情報を特徴情報に基づいて抽出する抽出部と、マスク情報を用いて、目的信号を混合信号から推定するマスク処理部とを備える。情報生成部は、関連情報を多次元ベクトルに符号化し、多次元ベクトルの線形変換結果を、特徴情報として生成してもよい。情報生成部は、関連情報を第1多次元ベクトルに符号化し、混合信号を第2多次元ベクトルに符号化し、第1多次元ベクトルと第2多次元ベクトルとの時系列の類似度を導出し、時系列の類似度と混合信号との加重和の結果を、特徴情報として生成してもよい。

Description

信号フィルタリング装置、信号フィルタリング方法及びプログラム
 本発明は、信号フィルタリング装置、信号フィルタリング方法及びプログラムに関する。
 複数の話者が話をすることによって、それらの話者の音声が混合されることがある。混合された音声から選択された話者の音声を聴くことができるという効果は、カクテルパーティ効果として知られている。このカクテルパーティ効果を信号フィルタリング装置によって実現することが研究されている。
 以下では、音声信号は、音声言語に応じた信号でもよいし、楽器等の音響に応じた信号(音響信号)でもよい。信号フィルタリング装置は、音声信号に対するフィルタリング処理によって、信号フィルタリング装置に入力された音声信号における特定の部分若しくは要素を、その音声信号から抽出又は除去する。すなわち、信号フィルタリング装置は、抽出の目的とされた音声信号(以下「目的音声信号」という。)を、混合された音声信号から抽出又は除去する。
 非特許文献1に開示された信号フィルタリング装置は、目的音声信号の物理的特性に基づいて、フィルタリング処理を実行する。物理的特性とは、音源の方向と、音声の周波数成分の調波構造と、音声信号の統計的な独立性と、目標話者の音色近接性又は整合性とである。
K. Zmolikova, M. Delcroix, K. Kinoshita, T. Ochiai, T. Nakatani, L. Burget, and J. Cernocky, "SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures", IEEE Journal of Selected Topics in Signal Processing, vol.13, no.4, pp.800-814, 2019.
 しかしながら、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号から目的音声信号を抽出する精度を向上させることができないという問題がある。
 上記事情に鑑み、本発明は、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号から目的音声信号を抽出する精度を向上させることが可能である信号フィルタリング装置、信号フィルタリング方法及びプログラムを提供することを目的としている。
 本発明の一態様は、目的信号の関連情報の特徴情報を生成する情報生成部と、
 前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出する抽出部と、前記マスク情報を用いて、前記目的信号を前記混合信号から推定するマスク処理部とを備える信号フィルタリング装置である。
 本発明の一態様は、信号フィルタリング装置が実行する信号フィルタリング方法であって、目的信号の関連情報の特徴情報を生成するステップと、前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出するステップと、前記マスク情報を用いて、前記目的信号を前記混合信号から推定するステップとを含む信号フィルタリング方法である。
 本発明の一態様は、上記の信号フィルタリング装置としてコンピュータを機能させるためのプログラムである。
 本発明により、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号から目的音声信号を抽出する精度を向上させることが可能である。
第1実施形態における、信号フィルタリング装置の構成例を示す図である。 第1実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。 第2実施形態における、信号フィルタリング装置の構成例を示す図である。 第2実施形態における、類似度外形の例を示す図である。 第2実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。 第3実施形態における、信号フィルタリング装置の構成例を示す図である。 第3実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。 第1実施形態及び第2実施形態における、目的音声信号について平均化された信号対歪み比スコアの例を示す。 第2実施形態における、目的音声信号の抽出例を示す。 第2実施形態及び第3実施形態における、重複率ごとの信号対歪み比スコアの例を示す。 各実施形態における、信号フィルタリング装置のハードウェア構成例を示す図である。
 (概要)
 以下、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号を、「混合音声信号」という。以下、所定の方法で指定された概念(Concept)に基づいて目的音声信号を混合音声信号から抽出する機能を、「コンセプトビーム」(ConceptBeam)という。所定の方法とは、特定の方法に限定されないが、例えば、音声信号、静止画信号、動画信号(映像信号)又はテキスト信号(説明文信号)を用いて指定する方法である。また、目的音声信号は、混合音声信号における特定の部分又は要素である。
 例えば、異なる話題について話をしている複数の話者による混合音声信号が、信号フィルタリング装置に入力される。また、抽出の目的とされた概念を指定するための信号(以下「概念指定信号」という。)が、信号フィルタリング装置に入力される。
 信号フィルタリング装置は、多次元ベクトル形式の意味情報、すなわち、多次元ベクトル形式の概念情報(以下「概念埋め込みベクトル」という。)を、概念指定信号から抽出する。この概念指定信号を用いて指定された概念(潜在的意味情報)に関連する音声言語が、混合音声信号に含まれている場合がある。例えば、概念指定信号としての静止画のフレーム内の自転車画像に関連する単語「自転車」の波形データ(音声言語)が、混合音声信号に含まれている場合がある。
 信号フィルタリング装置は、抽出の目的とされた概念について話をしている話者による目的音声信号を、混合音声信号から抽出する。例えば、自転車の画像信号が信号フィルタリング装置に入力された場合、信号フィルタリング装置は、抽出の目的とされた概念「自転車」について話をしている話者による目的音声信号を、混合音声信号から抽出する。
 以下において説明される第1実施形態及び第2実施形態では、信号フィルタリング装置は、クロスモーダルの表現の学習(参考文献1:D. Harwath, A. Recasens, D. Suris, G. Chuang, A. Torralba, and J. Glass, “Jointly discovering visual objects and spoken words from raw sensory input,” International Journal of Computer Vision, 2019.)を応用する。これによって、信号フィルタリング装置は、概念指定信号を用いて指定された概念を、概念埋め込みベクトル(概念ベクトル)を用いて表現する。
 以下において説明される第1実施形態及び第2実施形態では、信号フィルタリング装置は、目的の話者を抽出する手法(参考文献2:M. Delcroix, K. Zmolikova, T. Ochiai, K. Kinoshita, and T. Nakatani, “Speaker activity driven neural speech extraction,” in Proc. ICASSP, 2021.)を応用する。これによって、信号フィルタリング装置は、概念埋め込みベクトルを用いて表現された概念に基づいて、目的音声信号を混合音声信号から抽出する。
 以下において説明される第3実施形態では、信号フィルタリング装置は、音源を分離する手法(参考文献3:M. Kolbak, D. Yu, Z.-H. Tan, and J. Jensen, “Multi-talker Speech Separation with Utterance-level Permutation Invariant Training of Deep Recurrent Neural Networks,” IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 25, no. 10, pp. 1901-1913, 2017.)を応用する。これによって、信号フィルタリング装置は、目的音声信号を混合音声信号から抽出する。
 本発明の実施形態について、図面を参照して詳細に説明する。
 以下では、数式において文字の上に付されている記号は、その文字の直前に記載される。例えば、数式において文字「X」の上に付されている記号「^」は、「^X」のように文字「X」の直前に記載される。例えば、数式において文字「I」の上に付されている記号「-」は、「(-)I」のように文字「I」の直前に記載される。
 (第1実施形態)
 図1は、第1実施形態における、信号フィルタリング装置1aの構成例を示す図である。信号フィルタリング装置1aは、目的音声信号を混合音声信号から抽出する装置である。信号フィルタリング装置1aは、目的音声信号以外の音声信号と目的音声信号とを含む混合音声信号に対するフィルタリング処理によって、目的音声信号を混合音声信号から抽出する。第1実施形態では、信号フィルタリング装置1aは、一例として、視聴覚(画像及び音声)の埋め込みネットワーク(ニューラルネットワーク)を用いて得られた概念埋め込みベクトル(画像の埋め込みベクトル)を、目的音声信号を混合音声信号から抽出するための手がかりとして利用する。
 信号フィルタリング装置1aは、取得部11と、情報生成部12aと、抽出部13と、マスク処理部14とを備える。情報生成部12aは、符号化部121aと、線形変換部122とを有する。抽出部13は、第1抽出層131と、結合処理部132と、第2抽出層133aとを有する。
 <学習段階>
 画像の埋め込みベクトルと、音声の埋め込みベクトルとが、画像とその画像の内容を説明する音声との大量のペアデータに基づいて得られる。推定段階の前における学習段階において、符号化部121aは、画像の埋め込みベクトルと音声の埋め込みベクトルとが潜在空間(視聴覚の埋め込み空間)において互いに近くに配置されるように、深層距離学習を実行する。
 抽出の目的とされた概念(概念指定信号としての静止画の内容)について話をしている話者の音声に応じた目的音声信号が混合音声信号から抽出されるという処理は、式(1)のように定式化される。
Figure JPOXMLDOC01-appb-M000001
 ここで、「Y∈CT×F」は、短時間フーリエ変換領域における、混合音声信号(入力信号)を表す。「T」は、混合音声信号における、時間当たりのフレームの枚数を表す。「F」は、混合音声信号の周波数ビン数を表す。「^X∈CT×F」は、k番目の話者の目的音声信号を表す。「f(・)」は、概念に基づいて目的音声信号「^X」を混合音声信号「Y」から抽出する処理(ConceptBeam)を表す関数である。
 符号化部121aのパラメータと抽出部13のパラメータとは、同時に学習されてもよいが、安定するように独立に学習される。情報生成部12a及び抽出部13が深層学習を実行するためには、短時間フーリエ変換領域における、混合音声信号と参照音声信号とを含む集合「{Y,X,C k=1」が必要とされる。ここで、「X」は、k番目の話者の目的音声信号に対応付けられた参照音声信号を表す。「C」は、概念指定信号(例えば、静止画)を表す。「K」は、混合音声信号に対応付けられた話者の総数を表す。
 情報生成部12aは、視聴覚の埋め込みネットワーク(例えば、参考文献1参照)を有する。情報生成部12aは、視聴覚の埋め込みネットワークに入力された概念指定信号(静止画)に基づいて、画像特徴ベクトル(画像特徴情報)を生成する。情報生成部12aは、画像特徴ベクトルに基づいて、概念埋め込みベクトルを生成する。
 符号化部121aは、視聴覚の埋め込みネットワークを用いて、画像のフレーム内のオブジェクトを表す名称又は様子(抽出の目的とされた概念)が音声言語で説明されている音声信号の時間区間(セグメント)と、そのオブジェクトとを、教師なし学習で対応付ける。
 第1実施形態では、符号化部121aにおいて画像「C」を符号化する画像エンコーダから得られた視覚情報としてのグローバルプーリングされた画像特徴ベクトル「(-)I」が、概念埋め込みベクトル「e」として使用される。ここで、線形変換部122は、グローバルプーリングされた画像特徴ベクトル「(-)I」に対して、線形変換を実行する。線形変換部122は、線形変換によって得られたd’次元ベクトルを、概念埋め込みベクトル「e」として生成する。
 なお、情報生成部12aは、画像(視覚)と音声(聴覚)との両方のモダリティを横断する概念を、概念埋め込みベクトルを用いて表現してもよい。すなわち、クロスモーダルの埋め込みベクトルが、概念埋め込みベクトルとして使用されてもよい。クロスモーダルの埋め込みベクトルは、例えば、画像及び音声の埋め込みベクトルでもよい。
 取得部11は、混合音声信号(入力信号)を取得する。抽出部13は、混合音声信号と概念埋め込みベクトルとに基づいて、マスク情報を生成する。マスク処理部14は、混合音声信号とマスク情報とに基づいて、目的音声信号「^X」を推定する。深層距離学習における損失関数は、推定された目的音声信号「^X」と参照音声信号「X」との間の平均二乗誤差を損失として表す関数である。
 <推定段階>
 学習段階において学習された情報生成部12a(視聴覚の埋め込みネットワーク)のパラメータは、推定段階において固定される。また、学習段階において学習された抽出部13(各抽出層)のパラメータは、推定段階において固定される。
 取得部11は、混合音声信号(入力信号)を取得する。符号化部121aは、概念指定信号を取得する。符号化部121aは、視聴覚の埋め込みネットワーク(例えば、参考文献1参照)を用いて、画像特徴ベクトルを概念指定信号から生成する。
 符号化部121aは、異なるモダリティ(画像及び音声)の情報を、異なるモダリティの特徴を表現することが可能な埋め込み空間(以下「共有埋め込み空間」という。)のベクトルに変換してもよい。例えば、符号化部121aは、概念指定信号が静止画又は動画である場合、入力された概念指定信号を、画像特徴ベクトルに符号化する。例えば、符号化部121aは、概念指定信号が音声である場合、入力された概念指定信号を、音声特徴ベクトル(音声特徴情報)に符号化する。
 「I∈RH×W×d」は、符号化部121aの画像エンコーダから出力された画像特徴マップを表す。「A∈RT’×d」は、符号化部121aの音声エンコーダから出力された音声特徴マップを表す。概念指定信号が静止画である場合、式(2)に示された「(-)I」は、空間方向にグローバルプーリングされた画像特徴ベクトルを表す。なお、概念指定信号が動画である場合、「(-)I」は、空間方向又は時間方向にグローバルプーリングされた画像特徴ベクトルを表す。
Figure JPOXMLDOC01-appb-M000002
 ここで、「Ih,w,:」は、画像特徴マップにおける座標(h,w)を示すd次元ベクトル(画像特徴ベクトル)を表す。「H」は、画像エンコーダによってダウンサンプリングされた画像の高さを表す。「W」は、画像エンコーダによってダウンサンプリングされた画像の幅を表す。式(3)に示された「(-)A」は、時間方向にグローバルプーリングされた音声特徴ベクトルを表す。
Figure JPOXMLDOC01-appb-M000003
 ここで、「At’,:」は、音声特徴マップにおけるt’番目のフレームを示すd次元ベクトル(音声特徴ベクトル)を表す。「T’」は、音声エンコーダによってダウンサンプリングされた音声信号の時間フレームの数を表す。
 抽出部13は、共有埋め込み空間における、これらの特徴ベクトルに基づいて導出された概念埋め込みベクトルを、混合音声信号に対するフィルタリング処理に使用する。
 抽出部13は、概念指定信号(目的概念指定子)に応じて生成された概念埋め込みベクトルに基づいて、所望の要素又は領域を混合音声信号から抽出する。抽出部13は、抽出ネットワーク(抽出用のニューラルネットワーク)を有する。抽出部13は、抽出ネットワークに入力された混合音声信号「Y」と概念埋め込みベクトル「e」とに基づいて、所望の要素又は領域を表す「時間-周波数マスク」を、マスク情報「M∈RT×F」として生成する。
 マスク情報の形成は、例えば、「M=g(Y,e)」である。ここで、「g(・)」は、抽出ネットワークを表す。第1抽出層131は、抽出ネットワークの最初の双方向長期短期記憶(BLSTM : Bidirectional Long Short-Term Memory)層(隠れ層)である。結合処理部132は、第1抽出層131の出力と概念埋め込みベクトル「e」とを、要素ごとに乗算する。これによって、第1抽出層131による抽出結果と概念埋め込みベクトル「e」とが、乗算結合(参考文献2参照)される。第2抽出層133aは、結合処理部132による乗算結合の結果から、マスク情報を抽出する。
 マスク処理部14は、第2抽出層133aによって抽出されたマスク情報「M」と混合音声信号「Y」との乗算を、要素ごとに実行する。これによって、マスク処理部14は、目的音声信号「^X」を推定する。
 次に、信号フィルタリング装置1aの動作例を説明する。
 図2は、第1実施形態における、信号フィルタリング装置1aの動作例を示すフローチャートである。符号化部121aは、概念指定信号を画像特徴ベクトル(d次元ベクトル)に符号化する(ステップS101)。線形変換部122は、画像特徴ベクトルの線形変換結果を、概念埋め込みベクトルとして生成する(ステップS102)。抽出部13は、目的音声信号を含む混合音声信号から、マスク情報を概念埋め込みベクトルに基づいて抽出する(ステップS103)。マスク処理部14は、マスク情報を用いて、目的音声信号を混合音声信号から推定する(ステップS104)。
 以上のように、情報生成部12aは、目的音声信号(目的信号)の概念指定信号(関連情報)の概念埋め込みベクトル(特徴情報)を生成する。抽出部13は、目的音声信号を含む混合音声信号(混合信号)から、マスク情報を概念埋め込みベクトルに基づいて抽出する。マスク処理部14は、マスク情報を用いて、目的音声信号を混合音声信号から推定する。
 ここで、情報生成部12aは、概念指定信号(関連情報)をd次元ベクトル(多次元ベクトル)に符号化する。情報生成部12aは、d次元ベクトルの線形変換結果を、概念埋め込みベクトル(特徴情報)として生成する。
 これによって、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号(混合音声信号)から目的音声信号を抽出する精度を向上させることが可能である。
 (第2実施形態)
 第2実施形態では、概念活動(Concept activity)情報を用いてマスク情報が混合音声信号から抽出される点が、第1実施形態との差分である。第2実施形態では第1実施形態との差分を中心に説明する。
 図3は、第2実施形態における、信号フィルタリング装置1bの構成例を示す図である。信号フィルタリング装置1bは、目的音声信号を混合音声信号から抽出する装置である。信号フィルタリング装置1bは、目的音声信号以外の音声信号と目的音声信号とを含む混合音声信号に対するフィルタリング処理によって、目的音声信号を混合音声信号から抽出する。
 信号フィルタリング装置1bは、取得部11と、情報生成部12bと、抽出部13と、マスク処理部14とを備える。情報生成部12bは、符号化部121bと、類似度導出部123と、補助部124と、加重和部125とを有する。抽出部13は、第1抽出層131と、結合処理部132と、第2抽出層133bを有する。
 情報生成部12bは、概念指定信号について、類似度外形(Similarity profile)を生成する。類似度外形は、視聴覚の対応関係を表す情報である。例えば、類似度外形は、画像特徴と音声特徴との類似度を時系列で表す情報である。類似度外形は、式(4)のように、画像特徴ベクトル「I」と音声特徴ベクトル「A」との内積として表される。
Figure JPOXMLDOC01-appb-M000004
 情報生成部12bは、類似度外形に基づいて、概念活動情報を生成する。概念活動情報は、類似度外形に基づいて生成されるので、抽出の目的とされた概念が混合音声信号に発現した時間区間を表す。例えば、概念活動情報は、混合音声信号において、抽出の目的とされた概念「自転車」について発話された音声言語「自転車」を含む時間区間を表す情報である。
 情報生成部12bは、概念活動情報に基づいて、概念埋め込みベクトルを生成する。抽出部13は、概念埋め込みベクトルに基づいて、マスク情報を混合音声信号から抽出する。
 <学習段階>
 混合音声信号が学習に用いられる代わりに、例えば、オラクル概念活動(Oracle concept activity)情報が学習に用いられる。オラクル概念活動情報は、目的音声信号の参照音声信号が視聴覚の埋め込みネットワーク(例えば、参考文献1参照)に入力されることによって、視聴覚の埋め込みネットワークの出力として得られる情報である。
 オラクル概念活動情報(時系列データ)が概念埋め込みベクトルの生成に用いられることによって、目的音声信号における特定の概念の特徴を抽出部13が精度よく抽出することが期待される。目的音声信号を混合音声信号から抽出するという教師付き学習では、目的音声信号の話者を示すベクトルに近い概念埋め込みベクトルが生成される。
 <推定段階>
 図4は、第2実施形態における、類似度外形の例を示す図である。概念埋め込みベクトルの生成に、視聴覚の対応関係が用いられる。類似度外形「st’」が利用されることによって、画像中に表現された概念に関連する単語が発話されている音声信号の領域(セグメント)が特定される(参考文献1参照)。
 類似度外形は、例えば、概念指定信号100(静止画)について話者が話をしている場合、概念指定信号100の内容と話者の音声の内容との類似度を表す。図4に例示された概念指定信号100には、例えば、自転車の画像が含まれている。このため、話者の音声に例えば「自転車」という単語が含まれている時間区間の類似度外形は、「自転車」という単語が含まれていない時間区間の類似度外形と比較して、相対的に高くなっている。
 以下では、混合音声信号における各話者の音声区間の一部が重複していることが想定される。情報生成部12bは、概念指定信号100と混合音声信号とに基づいて、類似度外形を導出する。例えば、符号化部121bは、概念指定信号100の画像特徴マップを生成する。符号化部121bは、概念指定信号100の画像特徴マップにおける画像特徴ベクトルを生成してもよい。符号化部121bは、混合音声信号の音声特徴マップにおける音声特徴ベクトルを生成してもよい。
 類似度導出部123は、画像特徴マップにおける画像特徴ベクトルと音声特徴マップにおける音声特徴ベクトルとの類似度外形を、式(4)のように導出する。また、類似度導出部123は、式(5)のようにシグモイド関数を用いて、0から1までの間で変化する値に類似度外形をスケール変換する。
Figure JPOXMLDOC01-appb-M000005
 ここで、「b」は、学習可能な所定パラメータである。式(5)に例示された「pt’」の時系列が、概念活動情報である。すなわち、0から1までの間で変化する値にスケール変換された類似度外形が、概念活動情報である。
 補助部124は、補助ネットワークを有する。補助部124は、混合音声信号「y」を取得部11から取得する。加重和部125は、補助部124の出力「h(y)」と概念活動情報との加重和(重み付けの結果)を、概念埋め込みベクトルとして導出する。概念埋め込みベクトルは、式(6)のように表される。
Figure JPOXMLDOC01-appb-M000006
 ここで、「h(・)」は、補助ネットワーク(Auxiliary network)を表す。概念埋め込みベクトルが混合音声信号から導出されるようにするため、補助ネットワークは、概念活動情報を混合音声信号に同期させる。「y」は、混合音声信号「Y」におけるt番目のフレームを表す。概念活動情報「pt’」の系列の長さ「T’」と、t番目のフレーム「y」の系列の長さ「T」とには、「T’<T」の関係が成り立つ。補助部124が、概念活動情報「pt’」を線形補間する。加重和部125は、線形補間された概念活動情報に基づいて、長さ「T」の系列の概念活動情報「p」を導出する。加重和部125は、活動駆動型の抽出ネットワーク(ADEnet)に関連する(参考文献2参照)。この活動駆動型の抽出ネットワークは、目的音声信号を抽出するために話者が発話した時間区間を表す情報を利用する。
 なお、加重和部125は、式(4)に例示された概念活動情報の時系列データを用いる代わりに、式(4)に例示された類似度外形を用いて、式(6)に例示された概念埋込みベクトルを導出してもよい。
 次に、信号フィルタリング装置1bの動作例を説明する。
 図5は、第2実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。符号化部121bは、概念指定信号を画像特徴ベクトルに符号化する(ステップS201)。符号化部121bは、混合音声信号を音声特徴ベクトルに符号化する(ステップS202)。類似度導出部123は、画像特徴ベクトルと音声特徴ベクトルとの類似度外形を導出する(ステップS203)。
 補助部124は、混合音声信号を加重和部125に出力する(ステップS204)。加重和部125は、類似度外形と混合音声信号との加重和の結果を、概念埋め込みベクトルとして生成する(ステップS205)。抽出部13は、目的音声信号を含む混合音声信号から、マスク情報を概念埋め込みベクトルに基づいて抽出する(ステップS206)。マスク処理部14は、マスク情報を用いて、目的音声信号を混合音声信号から推定する(ステップS207)。
 以上のように、情報生成部12bは、目的音声信号(目的信号)の概念指定信号(関連情報)の概念埋め込みベクトル(特徴情報)を生成する。抽出部13は、目的音声信号を含む混合音声信号(混合信号)から、マスク情報を概念埋め込みベクトルに基づいて抽出する。マスク処理部14は、マスク情報を用いて、目的音声信号を混合音声信号から推定する。
 ここで、情報生成部12bは、概念指定信号(関連情報)を、画像特徴ベクトル(第1多次元ベクトル)に符号化する。情報生成部12bは、混合音声信号(混合信号)を、音声特徴ベクトル(第2多次元ベクトル)に符号化する。情報生成部12bは、画像特徴ベクトルと音声特徴ベクトルとの類似度外形(時系列の類似度)を導出する。情報生成部12bは、類似度外形と混合音声信号(混合信号)との加重和の結果を、概念埋め込みベクトルとして生成する。
 これによって、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号(混合音声信号)から目的音声信号を抽出する精度を向上させることが可能である。
 (第3実施形態)
 第3実施形態では、混合音声信号における音声信号が話者(音源)ごとに分離される点が、第1実施形態及び第2実施形態との差分である。第3実施形態では第1実施形態及び第2実施形態との差分を中心に説明する。
 図6は、第3実施形態における、信号フィルタリング装置1cの構成例を示す図である。信号フィルタリング装置1cは、目的音声信号を混合音声信号から抽出する装置である。信号フィルタリング装置1cは、目的音声信号以外の音声信号と目的音声信号とを含む混合音声信号に対するフィルタリング処理によって、目的音声信号を混合音声信号から抽出する。
 信号フィルタリング装置1cは、分離部15と、符号化部121cと、選択部126とを備える。分離部15は、第1抽出層131と、第2抽出層133cとを有する。符号化部121c又は選択部126は、視聴覚の埋め込みネットワーク(例えば、参考文献1参照)を有する。
 分離部15に備えられた分離ネットワークのアーキテクチャは、抽出部13に備えられた抽出ネットワークと同様である。混合音声信号における音声信号の話者の人数(音源の個数)が既知である場合、話者(音源)ごとに、音声信号は分離可能である。第3実施形態では、音源の個数はL個である。混合音声信号におけるL個の音声信号は、{(~)X,…,(~)X}と表記される。
 第2抽出層133c(出力層)は、混合音声信号における音声信号を、話者の音声信号「(~)X」ごとに分離する。第2抽出層133cは、例えば、PIT(Permutation Invariant Training)等の手法を用いて、混合音声信号における音声信号を話者ごとに分離する。第2抽出層133cは、各話者の音声信号を符号化部121cに出力する。
 符号化部121cには、概念指定信号としての静止画「C」が入力される。符号化部121cには、各話者の音声信号が、第2抽出層133cから入力される。符号化部121cは、視聴覚の埋め込みネットワークを用いて、静止画「C」の画像特徴ベクトル「(-)I」を導出する。符号化部121cは、視聴覚の埋め込みネットワークを用いて、各話者の音声信号の音声特徴ベクトル「(-)A」を導出する。
 符号化部121cは、グローバルプーリングされた画像特徴ベクトル「(-)I」と、各話者の音声信号のグローバルプーリングされた音声特徴ベクトル「(-)A」と、各話者の音声信号「(~)X」とを、選択部126に出力する。
 選択部126は、概念指定信号「C」に基づくグローバルプーリングされた画像特徴ベクトル「(-)I」と、各話者の音声信号のグローバルプーリングされた音声特徴ベクトル「(-)A」との類似度「(-)I・(-)A」を導出する。選択部126には、各話者の音声信号「(~)X」が、分離部15又は符号化部121cから入力される。選択部126は、各話者の音声信号「(~)X」のうちから、類似度が最も高い音声信号「(~)X」を、目的音声信号「^X」として式(7)のように選択する。
Figure JPOXMLDOC01-appb-M000007
 次に、信号フィルタリング装置1cの動作例を説明する。
 図7は、第3実施形態における、信号フィルタリング装置の動作例を示すフローチャートである。分離部15は、目的音声信号のL個の候補を、混合音声信号から分離する(ステップS301)。符号化部121cは、概念指定信号を画像特徴ベクトルに符号化する(ステップS302)。符号化部121cは、目的音声信号のL個の候補を、L個の音声特徴ベクトルに符号化する(ステップS303)。
 選択部126は、グローバルプーリングされた画像特徴ベクトルとグローバルプーリングされた音声特徴ベクトルとの類似度(内積)を、目的音声信号の候補ごとに導出する(ステップS304)。選択部126は、目的音声信号のL個の候補のうちから、最も高い類似度の目的音声信号を選択する(ステップS305)。
 以上のように、分離部15は、目的音声信号のL個(所定個数)の候補(候補信号)を、選択される目的音声信号の候補として混合音声信号(混合信号)から分離する。目的音声信号のL個の候補は、予め定められたL個の音源(例えば、話者)に対応付けられた音声信号である。分離部15は、PIT等の手法を用いて、混合音声信号における目的音声信号の候補を音源ごとに分離する。
 符号化部121cは、目的音声信号に関連する概念指定信号(関連情報)を、画像特徴ベクトル(第1特徴ベクトル)に符号化する。符号化部121cは、目的音声信号のL個の候補(候補信号)を、L個の音声特徴ベクトル(第2特徴ベクトル)に符号化する。
 選択部126は、グローバルプーリングされた画像特徴ベクトルとグローバルプーリングされた音声特徴ベクトルとの類似度を、目的音声信号の候補(候補信号)ごとに導出する。選択部126は、画像特徴ベクトルと音声特徴ベクトルとの内積を、類似度として導出する。選択部126は、目的音声信号のL個の候補のうちから、最も高い類似度の目的音声信号(候補信号)を、最終的な目的音声信号(目的信号)として選択する。
 これによって、目的音声信号以外の音声信号と目的音声信号とが混合された音声信号(混合音声信号)から目的音声信号を抽出する精度を向上させることが可能である。
 (効果の例)
 上記の信号フィルタリング装置が目的音声信号を抽出する性能について、評価結果の例を以下に説明する。
 撮影された様々なシーン及び場所の画像群を含む画像データセットに音声キャプションが付与されたデータセット(Places spoken caption dataset)が学習データとして利用され、2名の話者の混合音声信号が作成された。この音声キャプションデータセットは、画像データセットと、英語及び日本語の音声キャプションとで構成されている。画像データセットの画像群は、205種類の異なるシーンクラスに分類されている。また、画像と音声キャプションとのペア(97,555組)が、各言語のデータセットから抜粋された。日本語の音声キャプションのみ、話者の性別がラベル付けされている。
 両言語における信号フィルタリング装置の有効性を評価するため、言語ごとに90,000ペアの学習セット、4,000ペアの検証セット、3,555ペアの評価セットに分割された。その後、学習セットを利用して、視聴覚の埋め込みネットワークの事前学習(深層距離学習)が実行された。
 異なる画像クラスに属する「画像-音声キャプションのペア」が選択され、0から5dBまでの信号対雑音比で音声キャプションが混合されることによって、2名の話者の混合音声信号が作成された。その結果、学習セットは、90,000本の混合音声信号を有する。検証セットは、4,000本の混合音声信号を有する。評価セットは、3,555本の混合音声信号を有する。音声キャプションの周波数が8kHzにダウンサンプリングされることによって、計算コストとメモリコストが削減された。
 複素スペクトルの実部及び虚部が結合された258次元のベクトルが、入力される音声の特徴として用いられた。この複素スペクトルは、32msの窓長と8msの窓シフト長とによる短時間フーリエ変換から得られた。
 画像の前処理として、画像の最小寸法が256ピクセルとなるように、画像の寸法がリサイズされた。リサイズされた画像には、224×224の中央トリミングが実行された。中央トリミングが実行された画像のピクセルは、グローバルピクセル平均及び分散に従って正規化された。
 視聴覚の埋め込みネットワークとして、「ResNet-ResDAVEnet」(参考文献1参照)が採用された。画像エンコーダは、「ResNet 50」である。画像エンコーダは、「224×224×3」の画像が入力された場合、「7×7×1,024」の画像特徴マップを出力する。ここで、画像特徴マップの高さ「H」と幅「W」は、いずれも7である。
 音声エンコーダは、「ResDAVEnet」である。音声エンコーダは、40次元対数メル・フィルタバンク・スペクトログラムが入力された場合、「T’×1,024」の音声特徴マップを出力する。このフィルタバンク・スペクトログラムは、入力された音声特徴から計算された。次元「d」は、1,024である。時間分解能「T’」は、最終的には「T/16」となる。
 図1に例示された線形変換部122は、896ユニット(d’=896)を有する全結合層(Fully Connected Layer)を有する。図3に例示された補助部124(補助ネットワーク)は、2個の全結合層を有する。これら2個の全結合層は、200個の隠れユニットと、896個の隠れユニットと、ReLU(Rectified Linear Unit)活性化関数とを有する。このため、概念埋め込みベクトルの次元は、896である。
 抽出部13の抽出ネットワークと、分離部15の分離ネットワークとは、896ユニットから成る4個の双方向長期短期記憶層を、それぞれ有する。抽出部13の抽出ネットワークと、分離部15の分離ネットワークとは、各双方向長期短期記憶層の後に、896ユニットの線形写像層を有する。この線形写像層は、LSTM(Long Short Term Memory)の順方向の出力と、LSTMの逆方向の出力とを結合する。
 抽出部13がマスク情報(時間-周波数マスク)を推定するために、1層の全結合層とReLU活性化関数とが用いられた。結合処理部132は、抽出部13(抽出ネットワーク)における最初の双方向長期短期記憶層の出力と、概念埋め込みベクトルとを結合した。
 分離部15の分離ネットワークの学習では、音源の個数「L」は、2である。また、話者の総数「K」は、2である。初期学習率は、0.0001である。学習の最適化手法として「Adam」が用いられ、勾配クリッピングが実行された。
信号フィルタリング装置によって抽出された目的音声信号は、信号対歪み比(SDR)を用いて評価された。信号対歪み比は、各話者の目的音声信号を混合音声信号から抽出する性能を表す。信号対歪み比(SDR)のスコアは、全ての実験結果において平均化された。
 図8は、第1実施形態及び第2実施形態における、目的音声信号について平均化された信号対歪み比(SDR)スコア(dB)の例を示す。項目「異性の混合音声」の列の値は、異性の混合音声信号に関する信号対歪み比スコアを示す。項目「同性の混合音声」の列の値は、同性の混合音声信号に関する信号対歪み比スコアを示す。項目「異性及び同性の混合音声」の列の値は、異性及び同性の混合音声信号に関する信号対歪み比スコアを示す。
 項目「画像特徴ベクトル」は、第1実施形態の信号フィルタリング装置1aにおける、信号対歪み比スコアを示す。項目「類似度外形」は、第2実施形態の信号フィルタリング装置1bの類似度導出部123が類似度外形を加重和部125に出力した場合における、信号対歪み比スコアを示す。項目「概念活動情報」は、第2実施形態の信号フィルタリング装置1bの類似度導出部123が概念活動情報を加重和部125に出力した場合における、信号対歪み比スコアを示す。
 概念埋め込みベクトルを生成するための構成として、画像特徴ベクトルと類似度外形と概念活動情報とのうちのいずれが最良であるかを確認する目的で、時間区間に重複のない2名の話者の混合音声が、信号フィルタリング装置1aと信号フィルタリング装置1bとの各評価に利用された。
 各評価の結果、概念活動情報を利用して生成された概念埋め込みベクトルが抽出に利用された場合、目的音声信号の抽出の性能が最も高くなった。以下では、目的音声信号の抽出方式において、概念埋め込みベクトルは、概念活動情報を利用して生成される。
 図9は、第2実施形態(抽出方式)における、目的音声信号の抽出例を示す。
概念指定信号101は、メガネをかけた男性が書店内でギターを演奏している風景の画像である。概念指定信号102は、青い柱とローラーコースタの夜景の画像である。第1の話者(不図示)は、概念指定信号101を話題として話をしている。第1の目的音声信号は、第1の話者の音声信号である。第2の話者(不図示)は、概念指定信号102を話題として話をしている。第2の目的音声信号は、第2の話者の音声信号である。
 混合音声信号において第1の話者の音声と第2の話者の音声とが重複している時間区間でも、第1の目的音声信号と第2の目的音声信号とを信号フィルタリング装置1bが抽出することが可能である。特に、「概念活動情報」の値が1となった各時刻は、例えば概念指定信号101の画像において顕著な対象物(例えば、メガネをかけた男性)に対応付けられた概念(例えば、音声言語「glasses」、及び、音声言語「man」等)に対応している。概念指定信号102の画像についても同様である。概念指定信号において概念が発現した各時刻が手がかりとなり、概念埋め込みベクトルが導出される。概念埋め込みベクトルは、目的音声信号を混合音声信号から抽出するためのマスク情報の生成に用いられる。
 第1の目的音声信号の抽出性能(SDRスコア)は、17.7dBである。第2の目的音声信号の抽出性能(SDRスコア)は、17.0dBである。これらのように、2名の話者による音声を混合音声から良好に抽出することが可能である。
 図10は、第2実施形態(抽出方式)及び第3実施形態(分離方式)における、重複率ごとの信号対歪み比スコアの例を示す。2名の話者の混合音声信号を使用して、信号フィルタリング装置1b(概念活動情報を用いる抽出方式)の抽出性能と信号フィルタリング装置1c(分離方式)の抽出性能とが比較される。話者の混合音声信号は、5種類の異なる重複率で日本語の音声キャプションを混合して得られた。
 信号フィルタリング装置1bの抽出性能と信号フィルタリング装置1cの抽出性能とは、重複率が低いほど同程度となり易い。信号フィルタリング装置1bの抽出性能と信号フィルタリング装置1cの抽出性能とは、重複率が高いほど、それぞれ低下する。
 信号フィルタリング装置1cの抽出性能は、重複率が100%であっても、10dB以上である。ただし、混合音声信号に含まれている目的音声信号の話者の人数(音源の個数)を表す情報を、信号フィルタリング装置1cは予め取得する必要がある。話者の人数が既知であるか否かと目的音声信号同士の重複率とに応じて、信号フィルタリング装置1bと信号フィルタリング装置1cとが使い分けらえることが有効である。
 次に、想定される各利用シーンの例について説明する。
 第1の利用シーンとして、学会又は展示会等のポスター会場のブースで、ポスターの内容(抽出の目的とされた概念)を発表者が説明しているという状況が、想定される。関係のない音声と雑音とによって、目的の発表者の声(目的音声信号)は聞きづらい状況となる。が、上記の各実施形態の信号フィルタリング装置は、ポスター(画像)の内容を概念指定信号(補助情報)として活用する。上記の各実施形態の信号フィルタリング装置は、様々な音が混合された音声から、発表者の音声を抽出する。これによって、発表者の音声を聞きやすくすることが可能になる。
 第2の利用シーンとして、目的の動画コンテンツ(抽出の目的とされた概念)をテレビ放送及び動画配信等における大量の動画コンテンツから探索するという状況が想定される。上記の各実施形態の信号フィルタリング装置は、探索対象とされた概念(抽出の目的とされた概念)を表す画像を含む静止画及び動画を、概念指定信号(補助情報)として活用する。例えば、信号フィルタリング装置は、探索対象とされた自転車を表す画像を含む静止画及び動画を、概念指定信号として活用する。信号フィルタリング装置は、探索対象とされた概念を説明する目的音声信号を、大量の動画コンテンツに対応付けられた混合音声信号から抽出する。例えば、信号フィルタリング装置は、自転車を説明する目的音声信号「自転車」を、自転車の動画を含む大量の動画コンテンツに対応付けられた混合音声信号から抽出する。これによって、抽出された混合音声信号に対応付けられた目的の動画コンテンツ(例えば、自転車の動画)を探索することが可能である。
 第3の利用シーンとして、目的音声に対する音声認識が実行されて、テレビ放送及び動画配信におけるインストラクションコンテンツに字幕が付与されるという状況が想定される。インストラクションコンテンツは、抽出の目的とされた概念を静止画及び動画を使って説明するコンテンツであり、例えば、料理を説明する動画、工作方法を説明する動画、教材の動画である。インストラクションコンテンツでは、背景音及び雑音に目的音声が埋もれてしまうことによって、目的音声に対する音声認識の実行が難しいことが多い。上記の各実施形態の信号フィルタリング装置は、説明対象とされた概念を説明する静止画及び動画を、概念指定信号(補助情報)として活用する。話者の目的音声信号が抽出されることによって、音声認識の性能が向上する。
 第4の利用シーンとして、音楽に活用される状況が想定される。以下、混合音声信号であって、抽出の目的とされた音響信号以外の音響信号と、抽出の目的とされた音響信号とが混合された音響信号を、「混合音響信号」という。例えば、複数種類の楽器の音が混合された音響信号が、上記の各実施形態の混合音声信号として、信号フィルタリング装置に入力されてもよい。信号フィルタリング装置は、目的の楽器の画像を含む静止画又は動画を、概念指定信号(補助情報)として活用する。目的の楽器の音として抽出された音響信号は、聴こえ易くなる。
 第5の利用シーンとして、抽出の目的とされた概念に対応付けられた音響信号が混合音響信号から探索されるという状況が想定される。混合音響信号は、例えば、屋外に設置されたマイク(例えば、監視用マイク)によって収録された音響信号である。混合音響信号には、例えば、車の音等の環境音が含まれている。抽出の目的とされた概念に対応付けられた静止画及び動画は、概念指定信号(補助情報)として使用される。
 第6の利用シーンとして、概念指定信号(補助情報)が画像信号である代わりに、概念指定信号は音声信号でもよい。概念指定信号が音声信号である場合、信号フィルタリング装置は、話題の内容(概念)に近い内容について話をしている話者の目的音声信号を、混合音声信号から抽出してもよい。英語を話す第1の話者と日本語を話す第2の話者とが、同じ概念(例えば、同じ画像の内容)について話をしている場合、信号フィルタリング装置は、目的音声信号で用いられている言語を概念指定信号として利用することで、第1の話者の英語音声信号と第2の話者の日本語音声信号とのうちの一方を、混合音声信号から抽出してもよい。信号フィルタリング装置は、目的音声信号で用いられている言語又は目的音声信号で用いられていない言語を概念指定信号として利用することで、第1の話者の英語音声信号と第2の話者の日本語音声信号とのうちの一方を、混合音声信号から除去してもよい。
 (ハードウェア構成例)
 図11は、各実施形態における、信号フィルタリング装置1のハードウェア構成例を示す図である。信号フィルタリング装置1は、信号フィルタリング装置1aと、信号フィルタリング装置1bと、信号フィルタリング装置1cとのそれぞれに相当する。信号フィルタリング装置1の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ111が、不揮発性の記録媒体(非一時的記録媒体)を有する記憶装置112とメモリ113とに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な非一時的記録媒体に記録されてもよい。コンピュータ読み取り可能な非一時的記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的記録媒体である。通信部114は、所定の通信処理を実行する。通信部114は、データとプログラムとを取得してもよい。
 信号フィルタリング装置1の各機能部の一部又は全部は、例えば、LSI(Large Scale Integrated circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、信号をフィルタリングするシステムに適用可能である。
1,1a,1b,1c…信号フィルタリング装置、11…取得部、12a,12b…情報生成部、13…抽出部、14…マスク処理部、15…分離部、100…概念指定信号、101…概念指定信号、102…概念指定信号、111…プロセッサ、112…記憶装置、113…メモリ、114…通信部、121a,121b…符号化部、123…類似度導出部、124…補助部、125…加重和部、126…選択部、131…第1抽出層、132…結合処理部、133a,133b,133c…第2抽出層

Claims (5)

  1.  目的信号の関連情報の特徴情報を生成する情報生成部と、
     前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出する抽出部と、
     前記マスク情報を用いて、前記目的信号を前記混合信号から推定するマスク処理部と
     を備える信号フィルタリング装置。
  2.  前記情報生成部は、前記関連情報を多次元ベクトルに符号化し、前記多次元ベクトルの線形変換結果を、前記特徴情報として生成する、
     請求項1に記載の信号フィルタリング装置。
  3.  前記情報生成部は、前記関連情報を第1多次元ベクトルに符号化し、前記混合信号を第2多次元ベクトルに符号化し、前記第1多次元ベクトルと前記第2多次元ベクトルとの時系列の類似度を導出し、前記時系列の類似度と前記混合信号との加重和の結果を、前記特徴情報として生成する、
     請求項1に記載の信号フィルタリング装置。
  4.  信号フィルタリング装置が実行する信号フィルタリング方法であって、
     目的信号の関連情報の特徴情報を生成するステップと、
     前記目的信号を含む混合信号から、マスク情報を前記特徴情報に基づいて抽出するステップと、
     前記マスク情報を用いて、前記目的信号を前記混合信号から推定するステップと
     を含む信号フィルタリング方法。
  5.  請求項1から請求項3のいずれか一項に記載の信号フィルタリング装置としてコンピュータを機能させるためのプログラム。
PCT/JP2021/048688 2021-12-27 2021-12-27 信号フィルタリング装置、信号フィルタリング方法及びプログラム WO2023127057A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048688 WO2023127057A1 (ja) 2021-12-27 2021-12-27 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048688 WO2023127057A1 (ja) 2021-12-27 2021-12-27 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2023127057A1 true WO2023127057A1 (ja) 2023-07-06

Family

ID=86998376

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048688 WO2023127057A1 (ja) 2021-12-27 2021-12-27 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2023127057A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018502319A (ja) * 2015-07-07 2018-01-25 三菱電機株式会社 信号の1つ又は複数の成分を区別する方法
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP2019144467A (ja) * 2018-02-22 2019-08-29 日本電信電話株式会社 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP2020134657A (ja) * 2019-02-18 2020-08-31 日本電信電話株式会社 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP2020134567A (ja) * 2019-02-13 2020-08-31 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
US20200335119A1 (en) * 2019-04-16 2020-10-22 Microsoft Technology Licensing, Llc Speech extraction using attention network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018502319A (ja) * 2015-07-07 2018-01-25 三菱電機株式会社 信号の1つ又は複数の成分を区別する方法
WO2019017403A1 (ja) * 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP2019144467A (ja) * 2018-02-22 2019-08-29 日本電信電話株式会社 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP2020134567A (ja) * 2019-02-13 2020-08-31 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
JP2020134657A (ja) * 2019-02-18 2020-08-31 日本電信電話株式会社 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
US20200335119A1 (en) * 2019-04-16 2020-10-22 Microsoft Technology Licensing, Llc Speech extraction using attention network

Similar Documents

Publication Publication Date Title
Zhao et al. The sound of motions
Gao et al. Visualvoice: Audio-visual speech separation with cross-modal consistency
Žmolíková et al. Speakerbeam: Speaker aware neural network for target speaker extraction in speech mixtures
CN110709924B (zh) 视听语音分离
Owens et al. Audio-visual scene analysis with self-supervised multisensory features
Kumar et al. Deep learning based assistive technology on audio visual speech recognition for hearing impaired
Zmolikova et al. Neural target speech extraction: An overview
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
JP2007507784A (ja) オーディオビジュアルコンテント合成システム及び方法
Pan et al. Selective listening by synchronizing speech with lips
JP2002014692A (ja) 音響モデル作成装置及びその方法
Gogate et al. Visual Speech In Real Noisy Environments (VISION): A Novel Benchmark Dataset and Deep Learning-Based Baseline System.
Takahashi et al. Improving voice separation by incorporating end-to-end speech recognition
Ivanko et al. Multimodal speech recognition: increasing accuracy using high speed video data
EP3392882A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
Haridas et al. A novel approach to improve the speech intelligibility using fractional delta-amplitude modulation spectrogram
WO2023127058A1 (ja) 信号フィルタリング装置、信号フィルタリング方法及びプログラム
Shahnawazuddin et al. Improvements in IITG Assamese spoken query system: Background noise suppression and alternate acoustic modeling
Li et al. Target sound extraction with variable cross-modality clues
Yu et al. Improved monaural speech segregation based on computational auditory scene analysis
WO2023127057A1 (ja) 信号フィルタリング装置、信号フィルタリング方法及びプログラム
Sudo et al. Multi-channel environmental sound segmentation
Sun et al. An attention based speaker-independent audio-visual deep learning model for speech enhancement
Dahy et al. A speech separation system in video sequence using dilated inception network and U-Net
Radha et al. Improving recognition of speech system using multimodal approach

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969941

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023570544

Country of ref document: JP

Kind code of ref document: A