WO2022034675A1 - 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム - Google Patents

信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム Download PDF

Info

Publication number
WO2022034675A1
WO2022034675A1 PCT/JP2020/030808 JP2020030808W WO2022034675A1 WO 2022034675 A1 WO2022034675 A1 WO 2022034675A1 JP 2020030808 W JP2020030808 W JP 2020030808W WO 2022034675 A1 WO2022034675 A1 WO 2022034675A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
signal
mixed
class
acoustic signal
Prior art date
Application number
PCT/JP2020/030808
Other languages
English (en)
French (fr)
Inventor
翼 落合
マーク デルクロア
悠馬 小泉
弘章 伊藤
慶介 木下
章子 荒木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US18/020,084 priority Critical patent/US20240038254A1/en
Priority to PCT/JP2020/030808 priority patent/WO2022034675A1/ja
Priority to JP2022542555A priority patent/JP7485050B2/ja
Publication of WO2022034675A1 publication Critical patent/WO2022034675A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present invention relates to a signal processing device, a signal processing method, a signal processing program, a learning device, a learning method, and a learning program.
  • an acoustic event for separating a mixed acoustic signal in which various acoustic classes are mixed and a technique for identifying an acoustic class have been proposed (1).
  • a technique for extracting only the voice of a specific speaker from a mixed voice signal in which the voices of a plurality of people are mixed is also being studied (2).
  • there is a technique (2) of extracting the speaker's voice from the mixed voice using the pre-registered speaker's voice and a technique (1) of detecting an event from each of the sounds separated for each sound source.
  • both of the above techniques (1) and (2) have a problem that the amount of calculation increases as the number of acoustic classes to be extracted increases. For example, in the case of a technique for extracting the voice of the speaker from the mixed voice using the voice of the speaker registered in advance, the calculation amount increases in proportion to the number of speakers to be extracted. Further, in the case of the technique of detecting an event from each sound source separated for each sound source, the amount of calculation increases in proportion to the number of events to be detected.
  • the present invention to extend the acoustic signal extraction technology, which has conventionally been compatible only with human voice, to acoustic signals other than human voice. Further, in the present invention, when extracting an acoustic signal of an acoustic class desired by a user from a mixed acoustic signal including acoustic signals of a plurality of acoustic classes, a constant calculation is performed without depending on the number of acoustic classes to be extracted. The challenge is to be able to extract by quantity.
  • the present invention receives an input of extraction target information indicating which acoustic class acoustic signal is to be extracted from a mixed acoustic signal in which acoustic signals of a plurality of acoustic classes are mixed.
  • a signal processing unit that outputs the extraction result of the acoustic class acoustic signal indicated by the extraction target information from the mixed acoustic signal by a neural network using the feature amount of the mixed acoustic signal and the extraction target information. It is characterized by having and.
  • the acoustic signal extraction technology which has conventionally been compatible only with human voice, can be extended to acoustic signals other than human voice.
  • an acoustic signal of an acoustic class desired by a user is extracted from a mixed acoustic signal including acoustic signals of a plurality of acoustic classes, it does not depend on the number of acoustic classes to be extracted and is constant. It can be extracted with the calculation amount of.
  • FIG. 1 is a diagram showing a configuration example of a signal processing device.
  • FIG. 2 is a flowchart showing an example of a processing procedure of the signal processing apparatus shown in FIG.
  • FIG. 3 is a flowchart illustrating the process of S3 in FIG. 2 in detail.
  • FIG. 4 is a diagram showing a configuration example of the learning device.
  • FIG. 5 is a flowchart showing an example of the processing procedure of the learning device of FIG.
  • FIG. 6 is a diagram showing the experimental results.
  • FIG. 7 is a diagram showing the experimental results.
  • FIG. 8 is a diagram showing a configuration example of a computer that executes a program.
  • the signal processing device has a predetermined acoustic class (for example, keyboard, meow, telephone, knock shown in FIG. 7) from a mixed acoustic signal (Mixture) in which acoustic signals of a plurality of acoustic classes are mixed by a neural network in advance.
  • the model is trained so as to extract the acoustic signal of.
  • the signal processing device learns the model in advance so as to extract the acoustic signal of the acoustic class of keyboard, meow, telephone, and knock.
  • the signal processing device directly estimates the time domain waveform of the acoustic class x to be extracted by, for example, the sound extraction network represented by the following equation (1), using the model after learning.
  • y is a mixed acoustic signal
  • o is a target class vector indicating the acoustic class to be extracted.
  • the signal processing device changes the mixed acoustic signal shown by reference numeral 701 to reference numeral 703 as a time domain waveform of telephone and knock. Extract the time domain waveform shown.
  • the signal processing device selects the keyboard, meow, telephone and knock from the mixed acoustic signal indicated by reference numeral 701.
  • the time domain waveform shown by reference numeral 705 is extracted as the time domain waveform.
  • the extraction of an acoustic signal is performed by an acoustic signal other than the human voice (for example, the above-mentioned keyboard, meow, telephone, and knock acoustic signals. )
  • an acoustic signal other than the human voice for example, the above-mentioned keyboard, meow, telephone, and knock acoustic signals.
  • an acoustic signal of an acoustic class desired by a user from a mixed acoustic signal it is extracted with a fixed amount of calculation regardless of the number of acoustic classes to be extracted. can do.
  • the signal processing device 10 includes an input unit 11, an auxiliary NN 12, a main NN 13, and model information 14.
  • the input unit 11 receives input of extraction target information indicating which acoustic class acoustic signal is to be extracted from the mixed acoustic signal in which acoustic signals of a plurality of acoustic classes are mixed.
  • This extraction target information is represented by, for example, a target class vector o indicating which acoustic class of the acoustic signal is to be extracted from the mixed acoustic signal.
  • the target class vector o shown in FIG. 1 indicates that the acoustic signals of the acoustic classes of knock and telephone are to be extracted.
  • the auxiliary NN12 is a neural network that performs the above-mentioned embedding process of the target class vector o and outputs the target class embedding (c) to the main NN13.
  • the auxiliary NN 12 includes an embedding unit 121 that performs an embedding process of the target class vector o.
  • the embedding unit 121 calculates, for example, the target class embedding c in which the target class vector o is embedded based on the following equation (2).
  • W [e 1 , ..., e N ] is a group of weight parameters obtained by learning, and e n is the embedding of the nth acoustic class.
  • This W [e 1 , ..., e N ] is stored in the model information 14, for example.
  • the neural network used in the auxiliary NN12 is referred to as a first neural network.
  • the main NN13 is a neural network for extracting the acoustic signal of the acoustic class to be extracted from the mixed acoustic signal based on the target class embedded c received from the auxiliary NN12.
  • the model information 14 is information indicating parameters such as weights and biases of each neural network.
  • the specific values of the parameters in the model information 14 are, for example, information obtained by pre-learning with a learning device or a learning method described later.
  • the model information 14 is stored in a predetermined area of a storage device (not shown) of the signal processing device 10.
  • the main NN13 includes a first conversion unit 131, an integration unit 132, and a second conversion unit 133.
  • the encoder is a neural network that maps an acoustic signal to a predetermined feature space, that is, converts the acoustic signal into a feature amount vector.
  • a convolution block is a set of layers for one-dimensional convolution, normalization, and the like.
  • the decoder is a neural network that maps a feature amount on a predetermined feature space to the space of an acoustic signal, that is, converts a feature amount vector into an acoustic signal.
  • the neural network used in the first conversion unit 131 is referred to as a second neural network.
  • the second neural network is part of the main NN13.
  • the second neural network comprises an encoder and a convolution block.
  • the integration unit 122 is realized as a layer in the neural network. As shown in FIG. 1, when looking at the entire main NN13, the layer is inserted between the first convolution block and the second convolution block following the encoder.
  • the second conversion unit 123 converts the second feature amount output from the integration unit 122 into information for output (extraction result) by the neural network.
  • the information for output is information corresponding to an acoustic signal of a specified acoustic class in the input mixed voice, may be the acoustic signal itself, or is data in a predetermined format from which the acoustic signal can be derived. May be.
  • the neural network used in the second conversion unit 133 will be referred to as a third neural network.
  • This neural network is also part of the main NN13.
  • the third neural network comprises one or more convolution blocks and a decoder.
  • the input unit 11 of the signal processing device 10 accepts the input of the target class vector o indicating the acoustic class to be extracted and the input of the mixed acoustic signal (S1).
  • the signal processing device 10 executes the auxiliary NN 12 and performs the embedding process of the target class vector o (S2).
  • the signal processing device 10 executes the processing by the main NN 13 (S3).
  • the signal processing device 10 may execute the auxiliary NN 12 and the main NN 13 in parallel. However, since the output of the auxiliary NN 12 is used for the main NN 13, the execution of the main NN 13 is not completed until the execution of the auxiliary NN 12 is completed.
  • the first conversion unit 131 of the main NN 13 converts the input mixed acoustic signal in the time domain into the first feature quantity H (S31).
  • the integration unit 132 integrates the target class embedding c generated by the process of S2 in FIG. 4 with the first feature amount H to generate a second feature amount (S32).
  • the second conversion unit 133 converts the second feature amount generated in S32 into an acoustic signal and outputs it (S33).
  • the user can specify the acoustic class to be extracted from the mixed acoustic signal by the target class vector o. Further, when the signal processing device 10 extracts an acoustic signal of an acoustic class specified by the user from the mixed acoustic signal, it does not depend on the number of acoustic classes to be extracted and extracts it with a constant calculation amount. Can be done.
  • the learning device 20 executes the auxiliary NN 12 and the main NN 13 with respect to the learning data, similarly to the signal processing device 10 of the first embodiment.
  • x n ⁇ R T is the acoustic signal corresponding to the nth acoustic class.
  • the main NN13 and the auxiliary NN12 perform the same processing as in the first embodiment.
  • the update unit 15 is a first neural network so that the extraction result of the acoustic class of the acoustic class indicated by the target class vector o by the main NN 13 approaches the acoustic signal of the acoustic class corresponding to the target class vector o. Update the parameters of the second neural network and the third neural network.
  • the update unit 24 updates the parameters of each neural network stored in the model information 25, for example, by the error back propagation method.
  • the update unit 24 dynamically generates a target class vector o (a candidate for a target class vector o that may be input by the user).
  • the update unit 15 comprehensively generates a target class vector o in which one or a plurality of elements are 1 and the others are 0. Further, the update unit 15 generates an acoustic signal of an acoustic class corresponding to the generated target class vector o based on the following equation (3).
  • the update unit 15 updates the parameters of each neural network so that the loss of x generated by the above equation (3) becomes as small as possible.
  • the update unit 15 updates the parameters of each neural network so that the loss L of the signal-to-noise ratio (SNR) shown in the following equation (4) is optimized.
  • SNR signal-to-noise ratio
  • x ⁇ in the equation (4) indicates the estimation result of the acoustic signal of the acoustic class to be extracted, which is calculated from y and o.
  • the logarithmic mean squared error (Mean Squared Error; MSE) is used for the calculation of the loss L, but the loss L may be calculated by another method.
  • the learning device 20 executes the following processing for each of the target class vectors generated in S11. For example, the learning device 20 performs the embedding process of the target class vector generated in S11 by the auxiliary NN 12 (S15), and executes the process by the main NN 13 (S16).
  • the update unit 15 updates the model information 14 using the processing result of S16 (S17). For example, the update unit 15 updates the model information 14 so that the loss calculated by the above equation (4) is optimized. Then, when the predetermined condition is satisfied by the update, the learning device 20 determines that the learning device 20 has converged (Yes in S18), and ends the process. On the other hand, if the predetermined condition is not satisfied even after the update, it is determined that the learning device 20 has not converged (No in S18), and the process returns to S11.
  • the above-mentioned predetermined conditions are, for example, that the model information 14 has been updated a predetermined number of times, that the loss value is equal to or less than a predetermined threshold value, and that the parameter update amount (differential value of the loss function value, etc.). Is less than or equal to a predetermined threshold value.
  • the main NN13 and the auxiliary NN12 can extract the acoustic signal of the acoustic class of the target class vector o.
  • the signal processing device 10 and the learning device 20 may remove an acoustic signal of a designated acoustic class from the mixed acoustic signal.
  • x Sel. Represents an estimation by the Sound Selector.
  • the dimension of the embedded layer D (auxiliary NN12) was set to 256.
  • the integration section 132 integration layer
  • product-based integration for each element was adopted and inserted after the first stacked convolution block.
  • the Adam algorithm was adopted to optimize the initial learning rate of the signal processing device 10 and the learning device 20 to 0.0005, and gradient clipping was used. Then, after 200 epochs, the learning process was stopped.
  • BSSEval's Signal-to-Distortion Ratio was used as a measure of evaluation.
  • SDR Signal-to-Distortion Ratio
  • two acoustic classes and three multi-class selections were evaluated.
  • three acoustic classes ⁇ n 1 , n 2 , n 3 ⁇ were predetermined.
  • I represents the number of target acoustic classes. That is, in this experiment, I ⁇ ⁇ 1,2,3 ⁇ .
  • a mixed acoustic signal a data set (Mix3-5) in which 3 to 5 acoustic classes were mixed (Mix) was used based on the FreeSound Dataset Kaggle 2018 corpus (FSD corpus).
  • FSD corpus FreeSound Dataset Kaggle 2018 corpus
  • stationary background noise was added to the mixed acoustic signal using a noise sample from the REVERB Challenge Corpus (REVERB). Then, by randomly extracting 6 1.5 to 3 second audio clips from the FSD corpus and adding the extracted audio clips to random time positions above the 6 second background noise, a 6 second mix is generated. did.
  • FIG. 6 shows the amount of improvement in SDR of the Iterative (repetitive) extraction method and the Simultaneous (simultaneous) extraction method.
  • the Iterative extraction method is a conventional method, and is a method of extracting acoustic classes to be extracted one by one.
  • the Simultaneous extraction method corresponds to the method of this embodiment.
  • "#Class for Sel.” Indicates the number of acoustic classes to be extracted.
  • # class for in Mix Indicates the number of acoustic classes included in the mixed acoustic signal.
  • the improvement amount of SDR of about 6 dB was performed in both the direct estimation method and the indirect estimation method described above. Was confirmed.
  • FIG. 7 shows the experimental results of the generalization performance of the method of this embodiment.
  • There are 4 classes (I 4).
  • “Ref” in FIG. 7 is a reference signal
  • “Est” indicates an estimated signal (extracted signal) obtained by the method of this embodiment.
  • the acoustic signals of these acoustic classes can be obtained without any problem. It was confirmed that it could be extracted.
  • the average value of the improvement in SRD of the above set was 8.5 dB in the case of 2 classes and 5.3 dB in the case of 4 classes. This result suggests that the method of the present embodiment can be generalized to a mixed acoustic signal including an arbitrary number of acoustic classes and an arbitrary number of extraction target classes.
  • each component of each of the illustrated devices is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of them may be functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Further, each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program that is analyzed and executed by the CPU, or hardware by wired logic. Can be realized as.
  • CPU Central Processing Unit
  • the signal processing device 10 and the learning device 20 described above can be implemented by installing the above program as package software or online software on a desired computer.
  • the information processing device can function as the signal processing device 10 and the learning device 20.
  • the information processing device referred to here includes a desktop type or notebook type personal computer.
  • information processing devices include smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDAs (Personal Digital Assistants).
  • the signal processing device 10 and the learning device 20 can be implemented as a server device in which the terminal device used by the user is a client and the service related to the above processing is provided to the client.
  • the server device may be implemented as a Web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
  • FIG. 8 is a diagram showing an example of a computer that executes a program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1090 stores, for example, OS1091, application program 1092, program module 1093, and program data 1094. That is, the program that defines each process of the signal processing device 10 and the learning device 20 is implemented as a program module 1093 in which a code that can be executed by a computer is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1090.
  • a program module 1093 for executing processing similar to the functional configuration in the signal processing device 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD.
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, a memory 1010 or a hard disk drive 1090. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 into the RAM 1012 and executes them as needed.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read from another computer by the CPU 1020 via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

信号処理装置(10)は、複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した対象クラスベクトルの入力を受け付ける。そして、信号処理装置(10)は、ニューラルネットワークを用いて、対象クラスベクトルの埋め込み処理を行う。その後、信号処理装置(10)は、混合音響信号の特徴量と、埋め込み処理後の対象クラスベクトルとを統合した特徴量を用いて、ニューラルネットワークにより、混合音響信号から、対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する。

Description

信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム
 本発明は、信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラムに関する。
 従来、音響イベントと呼ばれる多様な音響クラスが混ざった混合音響信号を分離する技術や、音響クラスを識別する技術が提案されている(1)。また、複数の人の音声が混ざった混合音声信号から特定の話者の音声のみを抽出する技術も検討されている(2)。例えば、事前登録した話者の音声を用いて、混合音声から当該話者の音声を抽出する技術(2)や、音源ごとに分離した音響それぞれからイベントを検出する技術(1)が存在する。
Katerina Zmolikova, et. al. "SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 13, NO. 4, p.800-814. 、[2020年7月7日検索]、インターネット<URL:https://www.fit.vutbr.cz/research/groups/speech/publi/2019/zmolikova_IEEEjournal2019_08736286.pdf> Ilya Kavalerov, et. al. "UNIVERSAL SOUND SEPARATION"、[2020年7月7日検索]、インターネット<URL:https://arxiv.org/pdf/1905.03330.pdf>
 しかし、上記の(1)および(2)の技術において、人の音声以外の音響(例えば、環境音等)の音響クラスの信号が複数混ざった混合音声信号の中から、ユーザが望む複数の音響クラスの音響信号を抽出する技術は検討されていない。また、上記の(1)および(2)の技術はいずれも、抽出対象の音響クラスの数が多くなるほど、計算量が増加するという問題がある。例えば、事前登録した話者の音声を用いて、混合音声から当該話者の音声を抽出する技術の場合、抽出対象の話者の数に比例して、計算量が増加する。また、音源ごとに分離した音響それぞれからイベントを検出する技術の場合、検出対象のイベントの数に比例して、計算量が増加する。
 そこで、本発明は、従来、人の音声にしか対応していなかった音響信号の抽出技術を、人の音声以外の音響信号にも拡張することを課題とする。また、本発明は、複数の音響クラスの音響信号を含む混合音響信号の中から、ユーザが望む音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出できるようにすることを課題とする。
 前記した課題を解決するため、本発明は、複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示す抽出対象情報の入力を受け付ける入力部と、前記混合音響信号の特徴量と、前記抽出対象情報とを用いて、ニューラルネットワークにより、前記混合音響信号から、前記抽出対象情報の示す音響クラスの音響信号の抽出結果を出力する信号処理部と、を備えることを特徴とする。
 本発明によれば、従来、人の音声にしか対応していなかった音響信号の抽出技術を、人の音声以外の音響信号にも拡張することができる。また、本発明によれば、複数の音響クラスの音響信号を含む混合音響信号の中から、ユーザが望む音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出できる。
図1は、信号処理装置の構成例を示す図である。 図2は、図1に示す信号処理装置の処理手順の例を示すフローチャートである。 図3は、図2のS3の処理を詳細に説明するフローチャートである。 図4は、学習装置の構成例を示す図である。 図5は、図4の学習装置の処理手順の例を示すフローチャートである。 図6は、実験結果を示す図である。 図7は、実験結果を示す図である。 図8は、プログラムを実行するコンピュータの構成例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態]
[概要]
 図7を参照しながら、第1の実施形態の信号処理装置の動作概要を説明する。信号処理装置は、事前に、ニューラルネットワークにより、複数の音響クラスの音響信号が混合した混合音響信号(Mixture)から、所定の音響クラス(例えば、図7に示す、keyboard、meow、telephone、knock)の音響信号を抽出するよう、モデルの学習をしておく。例えば、信号処理装置は、事前に、keyboard、meow、telephone、knockの音響クラスの音響信号を抽出するよう、モデルの学習しておく。その後、信号処理装置は、学習後のモデルを用いて、抽出対象の音響クラスxの時間領域波形を、例えば、以下の式(1)に示す音抽出ネットワークによって直接推定する。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)において、yは混合音響信号であり、o:抽出対象の音響クラスを示す対象クラスベクトルである。
 例えば、抽出対象の音響クラスとして、図7の符号702に示すtelephoneおよびknockが指定された場合、信号処理装置は、符号701に示す混合音響信号から、telephoneおよびknockの時間領域波形として符号703に示す時間領域波形を抽出する。また、例えば、抽出対象の音響クラスとして、符号704に示すkeyboard、meow、telephoneおよびknockが指定された場合、信号処理装置は、符号701に示す混合音響信号から、keyboard、meow、telephoneおよびknockの時間領域波形として符号705に示す時間領域波形を抽出する。
 このような信号処理装置によれば、従来、人の音声にしか対応していなかった音響信号の抽出を、人の音声以外の音響信号(例えば、上記のkeyboard、meow、telephoneおよびknockの音響信号)の抽出にも適用することができる。また、このような信号処理装置によれば、混合音響信号の中から、ユーザが望む音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出することができる。
[構成例]
 図1を用いて、信号処理装置10の構成例を説明する。図1に示すように、信号処理装置10は、入力部11と、補助NN12と、メインNN13と、モデル情報14とを備える。
 入力部11は、複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した抽出対象情報の入力を受け付ける。この抽出対象情報は、例えば、混合音響信号から、どの音響クラスの音響信号を抽出対象とするかをベクトルで示した対象クラスベクトルoにより表される。対象クラスベクトルoは、例えば、n-hotベクトルであり、抽出対象の音響クラスに対応する要素をon=1とし、その他の要素は0としたベクトルである。例えば、図1示す対象クラスベクトルoは、knockおよびtelephoneの音響クラスの音響信号を抽出対象とすることを示す。
 補助NN12は、上記の対象クラスベクトルoの埋め込み処理を行い、対象クラス埋め込み(c)をメインNN13へ出力するニューラルネットワークである。例えば、補助NN12は、上記の対象クラスベクトルoの埋め込み処理を行う埋め込み部121を備える。埋め込み部121は、例えば、対象クラスベクトルoを埋め込んだ対象クラス埋め込みcを、以下の式(2)に基づき計算する。
Figure JPOXMLDOC01-appb-M000002
 ここで、W=[e1,…,eN]は、学習により得られる重みパラメータ群であり、enはn番目の音響クラスの埋め込みである。このW=[e1,…,eN]は、例えば、モデル情報14に記憶される。なお、以降の説明では、補助NN12で用いられるニューラルネットワークを第1のニューラルネットワークと呼ぶ。
 メインNN13は、補助NN12から受け取った対象クラス埋め込みcに基づき、混合音響信号から、抽出対象の音響クラスの音響信号を抽出するためのニューラルネットワークである。また、モデル情報14は、各ニューラルネットワークの重み、バイアス等のパラメータを示した情報である。ここでモデル情報14におけるパラメータの具体的な値は、例えば、後述の学習装置または学習方法において予め学習させることで求めた情報である。このモデル情報14は、信号処理装置10の記憶装置(図示省略)の所定領域に記憶される。
 メインNN13は、第1変換部131と、統合部132と、第2変換部133とを備える。
 ここで、エンコーダは、音響信号を所定の特徴空間にマッピング、すなわち音響信号を特徴量ベクトルに変換するニューラルネットワークである。畳み込みブロックは、1次元の畳み込み及び正規化等を行うための層の集合である。また、デコーダは、所定の特徴空間上の特徴量を音響信号の空間にマッピングする、すなわち特徴量ベクトルを音響信号に変換するニューラルネットワークである。
 畳み込みブロック(1-D Conv)、エンコーダ及びデコーダの構成は、文献1(Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation”, IEEE/ACM Trans. ASLP, vol. 27, no. 8, pp. 1256-1266, 2019.)に記載の構成と同様であってもよい。また、時間領域の音響信号は、文献1に記載の方法により得られたものであってもよい。また、以降の説明における各特徴量は、ベクトルで表されるものとする。
 第1変換部131は、混合音響信号を、ニューラルネットワークにより、第1の特徴量に変換する。例えば、第1変換部131は、ニューラルネットワークにより、混合音響信号を、H={h1,…,hF}に変換する。ここで、hf∈RD×1はf番目のフレームにおける特徴を示し、Fはフレームの総数であり、Dは特徴空間の次元である。
 以降の説明では、第1変換部131で用いられるニューラルネットワークを第2のニューラルネットワークと呼ぶ。第2のニューラルネットワークは、メインNN13の一部である。図1の例では、第2のニューラルネットワークは、エンコーダおよび畳み込みブロックを備える。なお、エンコーダは、上記のH={h1,…,hF}の中間特徴量を第2変換部133へ出力する。
 統合部132は、混合音響信号の特徴量(第1の特徴量、上記のHに相当)と、対象クラス埋め込みcと統合し、第2の特徴量を生成する。例えば、統合部132は、いずれも同じ次元数のベクトルである第1の特徴量と対象クラス埋め込みcとの、要素ごとの積(element-wise product)を計算することにより、上記の第2特徴量(Z={z1,…,zF})を生成する。
 ここで、統合部122は、ニューラルネットワークにおける層として実現される。図1に示すように、メインNN13全体を見ると、当該層は、エンコーダに続く1番目の畳み込みブロックと2番目の畳み込みブロックとの間に挿入される。
 第2変換部123は、統合部122から出力された第2の特徴量を、ニューラルネットワークにより、出力用の情報(抽出結果)に変換する。出力用の情報は、入力された混合音声中の、指定された音響クラスの音響信号に対応する情報であり、音響信号そのものであってもよいし、音響信号を導出可能な所定の形式のデータであってもよい。
 なお、以降の説明では、第2変換部133で用いられるニューラルネットワークを第3のニューラルネットワークと呼ぶ。このニューラルネットワークも、メインNN13の一部である。図1に示す例では、第3のニューラルネットワークは、1つ以上の畳み込みブロックおよびデコーダを備える。
 第2変換部133は、第1変換部131のエンコーダから出力されたH={h1,…,hF}の中間特徴量と、第2変換部133の畳み込みブロックから出力された中間特徴量とを用いて、対象クラスベクトルoに対応する音響クラスの音響信号の抽出結果を得る。
[処理手順の例]
 次に、図2を用いて、信号処理装置10の処理手順の例を説明する。信号処理装置10の入力部11は、抽出対象の音響クラスを示す対象クラスベクトルoの入力と混合音響信号の入力とを受け付ける(S1)。次に、信号処理装置10は、補助NN12を実行し、対象クラスベクトルoの埋め込み処理を行う(S2)。また、信号処理装置10は、メインNN13による処理を実行する(S3)。ここで、信号処理装置10は、補助NN12とメインNN13を並行して実行してもよい。ただし、メインNN13には補助NN12の出力が使用されるため、補助NN12の実行が完了するまでは、メインNN13の実行は完了しない。
 次に、図3を用いて、図2のS3の処理を詳細に説明する。まず、メインNN13の第1変換部131は、入力された時間領域の混合音響信号を第1の特徴量Hに変換する(S31)。次に、統合部132は、図4のS2の処理により生成された対象クラス埋め込みcと、第1の特徴量Hとを統合し、第2の特徴量を生成する(S32)。そして、第2変換部133は、S32で生成された第2の特徴量を音響信号に変換し出力する(S33)。
 このような信号処理装置10によれば、ユーザが混合音響信号の中から抽出対象としたい音響クラスを対象クラスベクトルoにより指定することができる。また、信号処理装置10は、混合音響信号の中から、ユーザから指定された音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出することができる。
[第2の実施形態]
 第2の実施形態では、第1の実施形態の信号処理装置10のモデル情報14を生成するための学習処理を行う学習装置について説明する。第1の実施形態と同じ構成は同じ符号を付して説明を省略する。
[構成例]
 図4に示すように、学習装置20は、第1の実施形態の信号処理装置10と同様に、学習用データに対し、補助NN12およびメインNN13を実行する。例えば、学習用データは、混合音響信号y、対象クラスベクトルo、および、対象クラスベクトルoに対応する音響クラスの音響信号{xnN n=1({y,o,{xnN n=1})である。ここで、xn∈RTは、n番目の音響クラスに対応する音響信号である。
 メインNN13、補助NN12は、第1の実施形態と同様の処理を行う。また、更新部15は、メインNN13による当該対象クラスベクトルoの示す音響クラスの音響信号の抽出結果が、当該対象クラスベクトルoに対応する音響クラスの音響信号に近づくよう、第1のニューラルネットワーク、第2のニューラルネットワークおよび第3のニューラルネットワークのパラメータを更新する。
 更新部24は、例えば、誤差逆伝播法により、モデル情報25に記憶される、各ニューラルネットワークのパラメータを更新していく。
 例えば、更新部24は、対象クラスベクトルo(ユーザから入力される可能性のある対象クラスベクトルoの候補)を動的に生成する。例えば、更新部15は、1つまたは複数の要素が1であり、その他は0となる対象クラスベクトルoを網羅的に生成する。また、更新部15は、生成した対象クラスベクトルoに対応する音響クラスの音響信号を、以下の式(3)に基づき生成する。
Figure JPOXMLDOC01-appb-M000003
 そして、更新部15は、上記の式(3)により生成されるxの損失ができるだけ小さくなるように、各ニューラルネットワークのパラメータの更新を行う。例えば、更新部15は、以下の式(4)に示す信号対雑音比(Signal-to-Noise Ratio;SNR)の損失Lが最適化されるように各ニューラルネットワークのパラメータの更新を行う。
Figure JPOXMLDOC01-appb-M000004
 なお、式(4)におけるx^は、yとoから算出された、抽出対象の音響クラスの音響信号の推定結果を示す。また、ここでは、損失Lの計算に、対数平均二乗誤差(Mean Squared Error;MSE)を用いているが、これ以外の方法で損失Lを計算してもよい。
[処理手順の例]
 次に、図5を用いて、学習装置20の処理手順の例を説明する。なお、混合音響信号yと、各音響クラスに対応する音響信号{xnN n=1は既に用意されているものとする。
 図5に示すように、更新部15は、対象クラスベクトルを動的に生成する(S11)。そして、音響信号{xnN n=1を用いて、S11で生成した対応クラスベクトルに対応する音響信号を生成する(S12)。また、メインNN13は、混合音響信号の入力を受け付ける(S13)。
 そして、学習装置20は、S11で生成した対象クラスベクトルそれぞれについて以下の処理を実行する。例えば、学習装置20は、補助NN12により、S11で生成した対象クラスベクトルの埋め込み処理を行い(S15)、メインNN13による処理を実行する(S16)。
 そして、更新部15は、S16による処理結果を用いて、モデル情報14を更新する(S17)。例えば、更新部15は、前記した式(4)により計算される損失が最適化されるようにモデル情報14を更新する。そして、更新により、所定の条件が満たされている場合、学習装置20は、収束したと判定し(S18でYes)、処理を終了する。一方、更新後も所定の条件が満たされていない場合、学習装置20が収束していないと判定し(S18でNo)、S11に戻る。上記の所定の条件は、例えば、モデル情報14の更新が所定の回数に到達したことや、損失の値が所定の閾値以下となったこと、パラメータの更新量(損失関数値の微分値等)が所定の閾値以下となったこと等である。
 学習装置20が以上の処理を行うことで、様々な対象クラスベクトルoに対応する音響クラスの音響信号の学習を行うことができる。その結果、メインNN13および補助NN12は、ユーザから抽出対象の音響クラスを示す対象クラスベクトルoを受け付けると、当該対象クラスベクトルoの音響クラスの音響信号を抽出することができる。
[その他の実施形態]
 なお、信号処理装置10および学習装置20は、混合音響信号から、指定された音響クラスの音響信号を除去してもよい。この場合、信号処理装置10および学習装置20は、例えば、前記した式(3)の参照信号(音響信号{xnN n=1)を、除去対象の音響信号x=y-ΣN n=1onxnに変更することによって音除去ネットワークを構築すればよい(直接推定方式)。また、信号処理装置10および学習装置20は、Sound Selectorを使用して、混合音響信号から音響信号を抽出して軽減し、x=y-xSel.を生成してもよい(間接推定方式)。ここで、xSel.はSound Selectorによる推定を表す。
[実験結果]
 ここで、本実施形態で述べた手法と従来の手法とを比較するために行った実験の結果を説明する。
 信号処理装置10、学習装置20として、積層させたdilated convolutionブロックからなるConv-TasNetベースのネットワークアーキテクチャを採用した。以下の文献2の表記に従い、ハイパーパラメータを次のように設定した。N=256、L=20、B=256、H=512、P=3、X=8、R=4。
 文献2:Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing(TASLP), vol. 27, no. 8, pp. 1256-1266, 2019.
 また、埋め込み層D(補助NN12)の次元を256に設定した。統合部132(統合層)については、要素ごとのプロダクトベース統合を採用し、最初に積層した畳み込みブロックの後に挿入した。さらに、信号処理装置10、学習装置20の初期学習率(initial learning rate)を0.0005に最適化するためにAdamアルゴリズムを採用し、gradient clippingを使用した。そして、200エポック後に学習処理を停止した。
 評価の測定基準として、BSSEvalのスケール不変信号対ひずみ比(Signal-to-Distortion Ratio; SDR)を使用した。実験では、2つの音響クラスおよび3つの音響クラスの選択(multi-class selection)について、評価を行った。なお、混合音響信号ごとに、3つの音響クラス{n1,n2,n3}をあらかじめ定めた。また、音響クラスの選択タスクでは、SDRの算出のための参照信号はx=ΣI i=1xniとされ、Iは対象音響クラスの数を表す。すなわち、この実験では、I∈{1,2,3}である。
 また、混合音響信号として、FreeSound Dataset Kaggle 2018コーパス(FSDコーパス)に基づいて、3~5の音響クラスを混合(Mix)したデータセット(Mix3-5)を用いた。また、REVERBチャレンジコーパス(REVERB)のノイズサンプルを用いて、混合音響信号に定常背景ノイズを加えた。そして、FSDコーパスからランダムに1.5~3秒の音声クリップを6つ抽出し、抽出した音声クリップを、6秒の背景ノイズの上のランダムな時間位置に追加することにより、6秒間の混合を生成した。
 Mix3-5タスクに対して複数の音響クラスの音響信号の抽出タスクの評価を行った。図6は、Iterative(反復)抽出方式およびSimultaneous(同時)抽出方式のSDRの改善量を示す。ここで、Iterative(反復)抽出方式は、従来の手法であり、抽出対象の音響クラスを1つ1つ抽出する方式である。Simultaneous(同時)抽出方式は、本実施形態の手法に相当する。「# class for Sel.」は、抽出対象の音響クラスの数を示す。また、「# class for in Mix.」は、混合音響信号に含まれる音響クラスの数を示す。
 図6に示すように、Simultaneous(同時)は、Iterative(反復)よりも計算コストが低いにもかかわらず、SDRの改善量がIterative(反復)とほぼ同じ、または、Iterative(反復)よりも大きいことが確認できた。このことから、本実施形態の手法はIterative(反復)に比べ良好に機能することが分かる。
 また、図示を省略しているが、本実施形態において、指定された音響信号の除去についても実験を行ったところ、前記した直接推定方式および間接推定方式の両方において、約6dBのSDRの改善量が確認された。
 また、本実施形態の手法の汎化性能の実験結果を図7に示す。ここでは、7つの音響クラスを含む10秒間の200のホームオフィスのような混合(200 home office-like mixtures)からなる追加のテストセットを作成した。対象とする音響クラスは、ノック(knock)および電話(telephone)の2クラス(I=2)と、ノック(knock)、電話(telephone)、キーボード(keyboard)、および、猫の鳴き声(meow)の4クラス(I=4)である。
 図7における「Ref」は参照信号であり、「Est」は本実施形態の手法で得られた推定信号(抽出された信号)を示す。本実験により、本実施形態の手法において、学習段階に、7つの音響クラスが混合した音響信号および4つの音響クラスの同時抽出が含まれなかったとしても、これらの音響クラスの音響信号を問題なく抽出できることが確認できた。また、図示を省略しているが、上記のセットのSRDの改善量の平均値は、2クラスの場合は8.5dBであり、4クラスの場合は5.3dBであった。この結果は、任意の数の音響クラスを含む混合音響信号、また、任意の数の抽出対象クラスにも本実施形態の手法が汎化され得ることを示唆している。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した信号処理装置10および学習装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記のプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の信号処理プログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置10および学習装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、信号処理装置10および学習装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図8は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置10および学習装置20の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 信号処理装置
 11 入力部
 12 補助NN
 13 メインNN
 14 モデル情報
 15 更新部
 20 学習装置
 131 第1変換部
 132 統合部
 133 第2変換部

Claims (8)

  1.  複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示す抽出対象情報の入力を受け付ける入力部と、
     前記混合音響信号の特徴量と、前記抽出対象情報とを用いて、ニューラルネットワークにより、前記混合音響信号から、前記抽出対象情報の示す音響クラスの音響信号の抽出結果を出力する信号処理部と、
     を備えることを特徴とする信号処理装置。
  2.  前記抽出対象情報は、
     前記混合音響信号から、どの音響クラスの音響信号を抽出対象とするかをベクトルで示した対象クラスベクトルであり、
     前記信号処理装置は、さらに、
     ニューラルネットワークを用いて、前記対象クラスベクトルの埋め込み処理を行う埋め込み部を備え、
     前記信号処理部は、
     前記混合音響信号の特徴量と、前記埋め込み処理後の対象クラスベクトルとを統合した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する
     ことを特徴とする請求項1に記載の信号処理装置。
  3.  前記入力部は、
     複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を除去対象とするかをベクトルで示した対象クラスベクトルの入力を受け付け、
     前記信号処理部は、
     前記混合音響信号の特徴量に、前記埋め込み処理後の対象クラスベクトルを適用した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の除去結果を出力する
     ことを特徴とする請求項1に記載の信号処理装置。
  4.  信号処理装置により実行される信号処理方法であって、
     複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示す抽出対象情報の入力を受け付ける工程と、
     前記混合音響信号の特徴量と、前記抽出対象情報とを用いて、ニューラルネットワークにより、前記混合音響信号から、前記抽出対象情報の示す音響クラスの音響信号の抽出結果を出力する工程と、
     を含むことを特徴とする信号処理方法。
  5.  コンピュータを、請求項1から請求項3のいずれか1項に記載の信号処理装置として機能させるための信号処理プログラム。
  6.  複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した対象クラスベクトルの入力を受け付ける入力部と、
     ニューラルネットワークを用いて、前記対象クラスベクトルの埋め込み処理を行う埋め込み部と、
     前記混合音響信号の特徴量と、前記埋め込み処理後の対象クラスベクトルを適用した特徴量とを統合した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する信号処理部と、
     動的に生成された前記対象クラスベクトルの候補と、当該対象クラスベクトルの候補に対応する音響クラスの音響信号とを学習データとして用いて、前記信号処理部による当該対象クラスベクトルの候補の示す音響クラスの音響信号の抽出結果が、当該対象クラスベクトルの候補に対応する音響クラスの音響信号に近づくよう、前記埋め込み部で用いられるニューラルネットワークおよび前記信号処理部で用いられるニューラルネットワークそれぞれのパラメータを更新する更新部と、
     を有することを特徴とする学習装置。
  7.  学習装置により実行される学習方法であって、
     複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した対象クラスベクトルの入力を受け付ける入力工程と、
     ニューラルネットワークを用いて、前記対象クラスベクトルの埋め込み処理を行う埋め込み工程と、
     前記混合音響信号の特徴量と、前記埋め込み処理後の対象クラスベクトルとを統合した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する信号処理工程と、
     動的に生成された前記対象クラスベクトルの候補と、当該対象クラスベクトルの候補に対応する音響クラスの音響信号とを学習データとして用いて、前記信号処理工程による当該対象クラスベクトルの候補の示す音響クラスの音響信号の抽出結果が、当該対象クラスベクトルの候補に対応する音響クラスの音響信号に近づくよう、前記埋め込み工程で用いられるニューラルネットワークおよび前記信号処理工程で用いられるニューラルネットワークそれぞれのパラメータを更新する更新工程と、
     を含むことを特徴とする学習方法。
  8.  コンピュータを、請求項6に記載の学習装置として機能させるための学習プログラム。
PCT/JP2020/030808 2020-08-13 2020-08-13 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム WO2022034675A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/020,084 US20240038254A1 (en) 2020-08-13 2020-08-13 Signal processing device, signal processing method, signal processing program, learning device, learning method, and learning program
PCT/JP2020/030808 WO2022034675A1 (ja) 2020-08-13 2020-08-13 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム
JP2022542555A JP7485050B2 (ja) 2020-08-13 2020-08-13 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/030808 WO2022034675A1 (ja) 2020-08-13 2020-08-13 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム

Publications (1)

Publication Number Publication Date
WO2022034675A1 true WO2022034675A1 (ja) 2022-02-17

Family

ID=80247110

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/030808 WO2022034675A1 (ja) 2020-08-13 2020-08-13 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム

Country Status (3)

Country Link
US (1) US20240038254A1 (ja)
JP (1) JP7485050B2 (ja)
WO (1) WO2022034675A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020022055A1 (ja) * 2018-07-24 2020-01-30 ソニー株式会社 情報処理装置および方法、並びにプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
JP2010054802A (ja) 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
CN108615532B (zh) * 2018-05-03 2021-12-07 张晓雷 一种应用于声场景的分类方法及装置
CN109359636B (zh) * 2018-12-14 2023-04-28 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN111061909B (zh) * 2019-11-22 2023-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏分类方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020022055A1 (ja) * 2018-07-24 2020-01-30 ソニー株式会社 情報処理装置および方法、並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARC DELCROIX, KATERINA ZMOLIKOVA: "SpeakerBeam: Computational deep learning for selective extraction of a target speaker. Characteristics of speakerbeam, improvments with speakerbeam in sound quality and voice recognition", NTT GIJUTSU JOURNAL, vol. 30, no. 9, 1 September 2018 (2018-09-01), JP , pages 12 - 15, XP055735037, ISSN: 0915-2318 *
ZMOLIKOVA KATERINA; DELCROIX MARC; KINOSHITA KEISUKE; OCHIAI TSUBASA; NAKATANI TOMOHIRO; BURGET LUKAS; CERNOCKY JAN: "SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, IEEE, US, vol. 13, no. 4, 1 August 2019 (2019-08-01), US , pages 800 - 814, XP011736178, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2019.2922820 *

Also Published As

Publication number Publication date
JP7485050B2 (ja) 2024-05-16
US20240038254A1 (en) 2024-02-01
JPWO2022034675A1 (ja) 2022-02-17

Similar Documents

Publication Publication Date Title
JP6764028B2 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6652519B2 (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
JP6711789B2 (ja) 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
JP2018028618A (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP2020134567A (ja) 信号処理装置、信号処理方法及び信号処理プログラム
WO2022034675A1 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP7376896B2 (ja) 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
US11996086B2 (en) Estimation device, estimation method, and estimation program
US20240062771A1 (en) Extraction device, extraction method, training device, training method, and program
JP2021039216A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2023013081A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム
JP7605698B2 (ja) 抽出装置、抽出方法、学習装置、学習方法及びプログラム
JP7574760B2 (ja) 目的信号抽出装置、目的信号抽出方法、学習装置、学習方法及びプログラム
WO2022153504A1 (ja) 学習方法、学習システム及び学習プログラム
JP7376895B2 (ja) 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
WO2023047475A1 (ja) 推定装置、推定方法、および、推定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20949537

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022542555

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18020084

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20949537

Country of ref document: EP

Kind code of ref document: A1