WO2022014359A1 - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
WO2022014359A1
WO2022014359A1 PCT/JP2021/025070 JP2021025070W WO2022014359A1 WO 2022014359 A1 WO2022014359 A1 WO 2022014359A1 JP 2021025070 W JP2021025070 W JP 2021025070W WO 2022014359 A1 WO2022014359 A1 WO 2022014359A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
signal processing
perturbation
processing
predetermined
Prior art date
Application number
PCT/JP2021/025070
Other languages
English (en)
French (fr)
Inventor
直也 高橋
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022014359A1 publication Critical patent/WO2022014359A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Definitions

  • the present disclosure relates to signal processing devices, signal processing methods and programs.
  • One of the purposes of the present disclosure is to provide a signal processing device, a signal processing method and a program for generating a voice signal that makes voice cloning difficult.
  • the present disclosure is, for example, It is a signal processing device having an audio signal processing unit that obtains a perturbation that interferes with processing by a predetermined processing function for an input audio signal and generates an output audio signal based on the perturbation.
  • the present disclosure is, for example, This is a signal processing method in which an audio signal processing unit obtains a perturbation that interferes with processing by a predetermined processing function for an input audio signal, and generates an output audio signal based on the perturbation.
  • the present disclosure is, for example, This is a program in which the audio signal processing unit requests a perturbation that interferes with processing by a predetermined processing function for an input audio signal, and causes a computer to execute a signal processing method for generating an output audio signal based on the perturbation.
  • FIG. 1 is a diagram for explaining a configuration example of a signal processing device according to an embodiment.
  • 2A and 2B are diagrams referred to when a description of the processing performed by the sound source separation nuisance sound generation unit according to the embodiment is given.
  • FIG. 3 is a diagram referred to when the processing performed by the sound source separation nuisance sound generation unit according to the embodiment is explained.
  • FIG. 4 is a diagram showing a configuration example of a device that performs speech synthesis based on the characteristics of speaker.
  • FIG. 5 is a diagram showing a configuration example of a device that performs voice quality conversion based on the characteristics of speaker.
  • the characteristics of the speaker are extracted from the voice of the speaker to be imitated, and a speech synthesizer or a voice quality converter that imitates the characteristics is designed.
  • the voice includes a sound other than the speaker to be imitated, it becomes difficult to extract the characteristics of the speaker and it becomes difficult to perform voice cloning. Therefore, the effect of interfering with speech cloning can be expected by mixing some disturbing sound into the speech.
  • the disturbing sound needs to be designed so as not to lack the clarity of the voice or to make the listener uncomfortable. For example, environmental sounds, music, and other noises can be used as disturbing sounds.
  • Such disturbing sounds may be removed by using a sound source separation technique (for example, the technique described in International Application No. PCT / JP2017 / 030631). Further, if the volume of the disturbing sound is increased, it is generally difficult to separate the sound, but in this case, the clarity of the sound is greatly impaired. Therefore, it is desired to design a disturbing sound that is difficult to separate by the sound source separation technology and does not impair the clarity of the target voice. Further, it is desired to design a disturbing sound that misrepresents a speaker discriminator (speaker embedding generator) and does not lose auditory clarity.
  • a speaker discriminator speaker embedding generator
  • FIG. 1 is a diagram showing a configuration example of a signal processing device (signal processing device 10) according to an embodiment.
  • the signal processing device 10 is incorporated in, for example, a telephone or at least a transmitting application device in network distribution.
  • the signal processing device 10 has an audio signal processing unit that obtains an input audio signal for a perturbation that interferes with processing by a predetermined processing function and generates an output audio signal based on the perturbation.
  • the signal processing device 10 has, for example, a sound source separation disturbing sound generation unit 1 and a speaker feature quantity extraction disturbing sound generation unit 2 as an example of the audio signal processing unit.
  • One of the sound source separation obstruction sound generation unit 1 and the speaker characteristic amount extraction obstruction sound generation unit 2 may correspond to the audio signal processing unit.
  • Examples of the predetermined processing function include sound source separation processing and processing for extracting speaker characteristics.
  • the sound source separation disturbing sound generation unit 1 generates a disturbing sound signal that is difficult to separate by the sound source separation technology and does not impair the clarity of the target voice. Then, the sound source separation obstruction sound generation unit 1 adds an obstruction audio signal to the original audio signal and outputs it.
  • the speaker characteristic amount extraction disturbing sound generation unit 2 generates a disturbing sound signal that impersonates a speaker discriminator (speaker embedding generator) and does not lose auditory clarity. Then, the speaker characteristic amount extraction obstruction sound generation unit 2 adds and outputs the original audio signal or the obstruction sound signal from the sound source separation obstruction sound generation unit 1. For example, the speaker characteristic amount extraction disturbing sound generation unit 2 has a filter unit 2A.
  • the audio signal is s (hereinafter, appropriately referred to as audio s), and the mixed source sound signal is m (hereinafter, appropriately referred to as mixed source sound m).
  • the mixed source sound m a sound such as an environmental sound or music that humans do not feel uncomfortable when listening to the sound itself can be used.
  • the mixing coefficient ⁇ of the voice s and the mixed source sound m is determined by the following equation (1).
  • ⁇ () in the equation (1) PESQ (Perceptual Evaluation of Speech Quality), SNR (Signal-to-Noise Ratio), and MOS value (Mean Opinion Score) of subjective evaluation are used as evaluation functions having a correlation with clarity. be able to.
  • ⁇ in the equation (1) is a threshold value for clarity, and is appropriately set according to the purpose of the voice. As shown in the equation (1), the mixing coefficient ⁇ is set so as to exceed the threshold value indicating clarity.
  • the processing function of the sound source separation device that separates the sound sources (hereinafter, also appropriately referred to as the sound source separation function) is f ()
  • the disturbing sound j is defined by the following equation (2).
  • ⁇ in equation (2) is a perturbation to make it robust against sound source separation.
  • the disturbing sound j according to this example is obtained by multiplying the mixed source sound m different from the input voice signal voice s by a predetermined mixing coefficient ⁇ , and adding the perturbation ⁇ . Is generated by.
  • An output voice signal is generated by adding the disturbing sound j to the voice s.
  • the perturbation ⁇ is obtained by minimizing the loss function L represented by the following equation (3).
  • is the regularization coefficient of the constant
  • g ( ⁇ ) is the regularization term
  • the voice s, the mixed source sound m, the perturbation ⁇ , the sound source separation function f (), and the regularization term g () may be defined for the time signal or the frequency domain signal.
  • time signals And in the case of frequency domain signals, for the short-time Fourier transform Or for that amplitude frequency Is.
  • C is the number of channels
  • T is the time length or the time frame length
  • F is the number of frequency bins.
  • the update equation of the gradient method can be expressed as the following equation (7) using the gradient of the loss function L with respect to ⁇ .
  • ⁇ > 0 is a learning coefficient.
  • a stochastic gradient descent method or an optimization method called adam can be applied.
  • the regularization coefficient ⁇ can be determined, for example, as follows. However, ⁇ ⁇ 'in Eq. (8) is a perturbation obtained by using the regularization coefficient ⁇ '.
  • the basic function as a regularization term is to use the power for perturbation expressed by the following equation (9).
  • the power of perturbation is too weak to obtain a sufficient disturbing effect on sound source separation because the regularization is too strong, or the voice is voiced by perturbation by weakening the regularization.
  • the clarity of s may be extremely reduced or an unpleasant voice may be produced. Therefore, it is important to design a perturbation that allows sufficient power perturbation, does not impair clarity, and does not increase discomfort.
  • the effect of auditory masking can be used.
  • the regularization term considering auditory masking can be defined as in equation (10) below.
  • Maxpool k is a max pooling of k for both kernel size and stride.
  • An example of using the effect of auditory masking as a regularization term will be specifically described with reference to FIGS. 2A and 2B. As shown in FIG. 2B, a perturbation ⁇ is added to the j-th bin in the band (window) of Maxpool (1) shown in FIG. 2A. In this case, since the i-th component is strong, it is masked.
  • a coefficient considering the auditory characteristics may be multiplied. For example, as shown in FIG. 3, by multiplying the frequency bin argmax (xb) having the maximum amplitude in Maxpool by a coefficient proportional to the inverse characteristic of masking, and then calculating the max pooling of the equation (10). The masking effect can be added accurately.
  • the sound source separation function f () can be evaluated, but if the gradient information cannot be used, the sound source separation function can use the gradient information. Is approximated to the sound source separation function f () using distillation. for example, Is learned using the following equation (16). However, in equation (16), Is the parameter of f'(), E is the expected value, X is the voiced data set with mixed sound, and it is not necessary to be a specific speaker or correct answer data after separation, so a large amount of data can be easily secured. It is possible.
  • the sound source separation function f () is a neural network and the network structure is known but the parameters are unknown, It is good to make learning with the same structure.
  • the speaker feature vector extraction unit 21 extracts the speaker feature amount from the target speaker voice.
  • the extracted speaker features are input to the voice synthesis unit 22 (see FIG. 4) and the voice quality conversion unit 23 (see FIG. 5) so that the desired speaker's voice (in this embodiment, spoofing voice) can be obtained.
  • the speaker feature quantity include a vector and a speaker embedding vector learned during learning of speech synthesis / speech quality conversion.
  • learning is performed so as to suppress the change in speaker characteristics or the decrease in clarity to an allowable value or less while maximizing the error of the speaker feature amount in the audio signal to which the disturbing sound is added.
  • Audio in the frequency domain Perturbation A voice filter (for example, a characteristic of the filter unit 2A and a specific example of the filter coefficient) And.
  • the speaker feature amount is changed by performing the filter processing by the filter unit 2A.
  • the processing function of the device for extracting the speaker feature amount (for example, the speaker feature vector extraction unit 21 described above) is h ()
  • the loss function L for obtaining ⁇ and W is Can be.
  • ⁇ and W can be obtained by minimizing the loss function L represented by the equation (24).
  • the regularization term is Can be.
  • ⁇ 1 and ⁇ 2 are regularization constants and can be obtained by the following equation (28).
  • the perturbation ⁇ and the filtered voice Ws can be obtained in consideration of auditory masking in the same manner as the processing by the sound source separation disturbing sound generation unit 1. It is also possible to change the intensity of regularization according to the frequency band. For example, the strength of regularization can be weakened in a band that is insensitive to hearing.
  • the loss function of the equation (28) can be obtained by using the gradient method. Asked in this way Using Is the output signal.
  • the processes in the sound source separation disturbance sound generation unit 1 and the speaker characteristic quantity extraction disturbance sound generation unit 2 can be applied in order, and the loss function L (W, ⁇ ) shown in the following equation (33) can be applied. It can also be used to simultaneously optimize disturbing sounds.
  • Equation 33 since the perturbation and the filter are designed to maximize the error of sound source separation and the error of speaker feature extraction under the condition of regularization, more disturbing effect on speech cloning can be expected. ..
  • the processing by the predetermined processing function may be a processing other than the sound source separation processing and the processing for extracting the speaker.
  • the processing by the sound source separation disturbance sound generation unit and the speaker feature amount extraction disturbance sound generation unit is performed, but only one of the processing may be performed.
  • the device to which the signal processing device is applied may be other than a device that distributes content or the like via a telephone or a network. Further, the process described in one embodiment may be a device on the cloud such as a server device.
  • the present disclosure may also adopt the following configuration.
  • a signal processing device having an audio signal processing unit that obtains a perturbation that interferes with processing by a predetermined processing function for an input audio signal and generates an output audio signal based on the perturbation.
  • the signal processing apparatus according to (1) wherein the processing by the predetermined processing function is a sound source separation processing.
  • the audio signal processing unit obtains an interfering audio signal based on the perturbation, and generates the output audio signal by adding the interfering audio signal to the input audio signal in any of (1) to (3).
  • the signal processing apparatus according to (8), wherein the regularization term is determined based on a differentiable function for intelligibility.
  • the audio signal processing unit generates the output audio signal by adding the disturbing audio signal based on the perturbation and the audio signal filtered by a predetermined filter unit to the input audio signal (1).
  • the signal processing apparatus according to any one of (10) to (10).
  • (12) The signal processing apparatus according to (11), wherein the perturbation and the characteristics of the filter unit are obtained by minimizing a predetermined loss function.
  • the loss function includes a regularization term.
  • the signal processing apparatus according to (12), wherein the regularization term is determined according to the auditory characteristics.
  • the loss function includes a regularization term.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

例えば、音声クローニングに対する耐性を有する音声信号を生成する。 入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する音声信号処理部を有する信号処理装置である。

Description

信号処理装置、信号処理方法およびプログラム
 本開示は、信号処理装置、信号処理方法およびプログラムに関する。
 近年、音声合成、声質変換技術の向上に伴って、本物の音声と見分けがつかないような偽の音声を機械的(信号処理的)に生成することが可能になってきている(以下、機械的により生成された音声を合成音声と適宜、称する。)。また、合成音声の話者性として、ある話者の任意の発話の録音からその話者性を模倣し、再現する音声クローニングという技術も提案されている。音声クローニングによれば、何気ない電話の録音や動画配信している中の音声から、その話者の話者性を模倣した合成音声を生成し、任意の発話をできるようにする、または、音声のなりすましが可能になってしまう虞がある。
 これまで、音声合成による音声を判別するために、音声合成された音声であることを識別するための情報を音声信号に情報を埋め込む技術(特許文献1に記載の技術)や、音声が合成音であるかを判別する技術(例えば、特許文献2に記載の技術)が存在する。
特開2002-297199号公報
特開2010-237364号公報
 特許文献1に記載の技術では、音声合成された音声であることを識別するための情報を音声信号に埋め込まなければ識別することができない。通常、悪意ある音声信号を生成する生成者が係る情報を音声信号に埋め込むことは考えにくい。また、特許文献2に記載の技術は、音声クローニングにより生成された合成音声を高精度に判別することができず、また合成音声を後から判別する技術であるため、音声クローニングそのものを防ぐことはできないこのように、特許文献1、2に記載の技術では、音声クローンニングを防止することができなかった。
 本開示は、音声クローニングを困難にする音声信号を生成する信号処理装置、信号処理方法およびプログラムを提供することを目的の一つとする。
 本開示は、例えば、
 入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する音声信号処理部を有する
 信号処理装置である。
 本開示は、例えば、
 音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する
 信号処理方法である。
 本開示は、例えば、
 音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する
 信号処理方法をコンピュータに実行させるプログラムである。
図1は、一実施形態にかかる信号処理装置の構成例を説明するための図である。 図2Aおよび図2Bは、一実施形態に係る音源分離妨害音生成部により行われる処理の説明がなされる際に参照される図である。 図3は、一実施形態に係る音源分離妨害音生成部により行われる処理の説明がなされる際に参照される図である。 図4は、話者性の特徴に基づいて音声合成を行う装置の構成例を示す図である。 図5は、話者性の特徴に基づいて声質変換を行う装置の構成例を示す図である。
 以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<本開示で考慮すべき問題>
<一実施形態>
<変形例>
 以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。
<本開示で考慮すべき問題>
 始めに、本開示の理解を容易とするために、本開示において考慮すべき問題について説明する。上述した背景に鑑み、音声クローニングを困難にする音声信号を生成することが望まれる。ここで、一つの方法として音楽などの妨害音を単純に音声信号に混合することによりし、音声クローニングを行いにくくすることができる。しかしながら、音源分離に係る技術により除去可能であったり、元の音声信号に対応する音の明瞭性を阻害してしまう。また、声質をボイスチェンジャなどで発信することは、話者が誰であるのか不明になってしまう等、好ましくない状況は多い。
 例えば、電話や動画配信など、録音音声に妨害音を混合し、音声クローニングを困難にすることを考える。通常、音声クローニングでは、模倣したい話者の音声から話者の特徴を抽出し、その特徴を模倣した音声合成機や声質変換機を設計する。ここで音声に模倣対象の話者以外の音が含まれる場合、話者の特徴の抽出が困難となり、音声クローニングが困難となる。そこで何らかの妨害音を音声に混入することで音声クローニングを妨害する効果が期待できる。ここで妨害音は、音声の明瞭性を欠いたり、受聴者が不快にならないように設計する必要がある。例えば、環境音や音楽、その他のノイズなどを妨害音として用いることができる。しかしながら、このような妨害音は音源分離技術(例えば、国際出願番号PCT/JP2017/030631に記載の技術)を用いることで除去できてしまう虞がある。また、妨害音の音量が大きくなれば一般的に分離は難しくなるが、この場合は音声の明瞭性も大きく損なわれてしまうこととなる。そこで、音源分離技術では分離されにくく、かつ目的の音声の明瞭性を損なわない妨害音の設計が望まれる。また、話者判別機(話者エンベディング生成器)を詐称し且つ聴覚的に明瞭性を失わない妨害音の設計が望まれる。以下、係る観点を考慮しつつ、一実施形態について説明する。
<一実施形態>
[信号処理装置の構成例]
 図1は、一実施形態に係る信号処理装置(信号処理装置10)の構成例を示す図である。信号処理装置10は、例えば、電話機やネットワーク配信における少なくとも送信側のアプリケーション機器に組み込まれる。
 信号処理装置10は、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する音声信号処理部を有する。本実施形態では、信号処理装置10は、音声信号処理部の一例として、例えば、音源分離妨害音生成部1と、話者性特徴量抽出妨害音生成部2とを有する。音源分離妨害音生成部1および話者性特徴量抽出妨害音生成部2の一方が音声信号処理部に対応していてもよい。所定の処理関数としては、例えば、音源分離処理、および、話者性を抽出する処理が挙げられる。
 音源分離妨害音生成部1は、音源分離技術では分離されにくく、かつ目的の音声の明瞭性を損なわない妨害音信号を生成する。そして、音源分離妨害音生成部1は、元の音声信号に妨害音声信号を付加して出力する。
 話者性特徴量抽出妨害音生成部2は、話者判別機(話者エンベディング生成器)を詐称し且つ聴覚的に明瞭性を失わない妨害音信号を生成する。そして、話者性特徴量抽出妨害音生成部2は、元の音声信号または音源分離妨害音生成部1からの妨害音信号を付加して出力する。例えば、話者性特徴量抽出妨害音生成部2は、フィルタ部2Aを有する。
[音声信号処理部で行われる処理]
(音源分離妨害音生成部で行われる処理)
 次に、音声信号処理部3で行われる処理の具体例について説明する。始めに、音源分離妨害音生成部1により行われる処理の具体例について説明する。
 音声信号をs(以下、音声sと適宜、称する)、混合源音信号をm(以下、混合源音mと適宜、称する)とする。混合源音mとしては、環境音や音楽など、人間がその音自体単独で聞いても不快に感じない音を利用することができる。音声sと混合源音mの混合係数αを下記式(1)のように決定する。
Figure JPOXMLDOC01-appb-I000001
 式(1)におけるφ()は、明瞭性に相関のある評価関数でPESQ(Perceptual Evaluation of Speech Quality)、SNR(Signal-to-Noise Ratio)、主観評価のMOS値(Mean Opinion Score)を用いることができる。また、式(1)におけるθは、明瞭性に関する閾値であり、音声の目的に応じて適切に設定される。式(1)に示すように、混合係数αは、明瞭性を示す閾値を上回るように設定される。
 音源分離を行う音源分離装置の処理関数(以下、音源分離関数とも適宜、称する)をf()とすると妨害音jは下記の式(2)のように規定される。
Figure JPOXMLDOC01-appb-I000002
 式(2)におけるεは音源分離に対して頑健にするための摂動である。式(2)に示すように、本例に係る妨害音jは、入力音声信号である音声sとは異なる混合源音mに対して所定の混合係数αを乗算したものに摂動εを加算することにより生成される。係る妨害音jを音声sに加算することにより出力音声信号が生成される。
 摂動εは、下記の式(3)で示されるの損失関数Lを最小化することで求められる。
Figure JPOXMLDOC01-appb-I000003
 式(3)におけるλは定数の正則化係数、g(ε)は正則化項である。
 音声s、混合源音m、摂動ε、音源分離関数f()、正則化項g()は時間信号に対して定義されても、周波数ドメイン信号に定義されてもよい。時間信号の場合、
Figure JPOXMLDOC01-appb-I000004
であり、周波数ドメイン信号の場合は、短時間フーリエ変換にたいして
Figure JPOXMLDOC01-appb-I000005
または、その振幅周波数に対して
Figure JPOXMLDOC01-appb-I000006
である。但し、式(4)から(6)におけるCはチャンネル数、Tは時間長または時間フレーム長、Fは周波数ビン数である。音源分離関数f()がニューラルネットワークなどの、入力信号に対して微分可能な関数である場合、式(3)の損失関数Lは勾配法を用いて求めることができる。勾配法の更新式は損失関数Lのεに対する勾配を用いて下記の式(7)の通り表すことができる。
Figure JPOXMLDOC01-appb-I000007
但し、η>0は学習係数である。この他、確率的勾配法、adamと称される最適化手法を適用することもできる。
 正則化係数λは、例えば以下のように決定することができる。
Figure JPOXMLDOC01-appb-I000008
 但し、式(8)におけるελ’は正則化係数λ’を用いて求められた摂動である。
 正則化項として基本的な関数は、下記の式(9)で示される、摂動に対するパワーを用いることである。
Figure JPOXMLDOC01-appb-I000009
 しかしながら、単純にパワーのみを正則化として利用する場合、正則化が強すぎるために摂動のパワーが弱く十分に音源分離に対する妨害効果を得られない、または、正則化を弱くすることで摂動により音声sの明瞭性が極端に下がる、または、不快な音声が生成されることがある。そこで、十分なパワーの摂動を許容しつつ、明瞭性を損なわず、不快感を増加させない摂動の設計が重要となる。そのための正則化項として以下に複数の例を挙げる。
 正則化項として、聴覚マスキングの効果を利用することができる。簡単のため、信号が振幅周波数ドメインで定義されている場合、聴覚マスキングを考慮した正則化項は下記の式(10)のように定義できる。
Figure JPOXMLDOC01-appb-I000010
 ここでMaxpoolはカーネルサイズ、ストライド共にkのマックスプーリングである。正則化項として聴覚マスキングの効果を利用した例を図2Aおよび図2Bを参照して具体的に説明する。図2Aに示すMaxpool(1)のバンド(ウィンドウ)に、図2Bに示すようにj番目のビンに摂動εが加わっている。この場合、i番目の成分が強いためマスキングされる。これは、マックスプーリングでj番目のビンが無視されることから損失関数Lの第二項が0になることにより反映されている。一方、図2Aに示すMaxpool(2)のバンドには、図2Bに示すようにn番目のビンに摂動εが加わっている。この例では、摂動εは、バンド内で最も大きいl番目のビンよりも大きいため、マスキングされない。この効果はマックスプーリングで摂動ありの信号x+εに関してはn番目が、現信号xに関してはl番目が選択され、損失が0にならないことから反映されている。
 なお、マックスプーリング処理の前に、聴覚特性を考慮した係数を乗算してもよい。例えば図3のように、Maxpool内で最大振幅を持つ周波数ビンargmax(xb)周りにマスキングの逆特性に比例する係数を乗算してから、式(10)のマックスプーリングを計算することにより、より正確にマスキング効果を加味することができる。
 また、この他にも明瞭度を図る微分可能な処理関数h()を用いた下記の数式(11)を用いて正則化項を規定することも可能である。
Figure JPOXMLDOC01-appb-I000011
 この他に、混合源音mの代わりに物理モデルを用いて妨害音を設計することも可能である。例えば、微分可能な物理楽器の音生成モデル
Figure JPOXMLDOC01-appb-I000012
を用いて妨害音を生成する。この場合の損失関数は、下記の式(13)により表すことができる。
Figure JPOXMLDOC01-appb-I000013
式(13)におけるg’は上記同様、正則化項であり、λは正則化係数である。
 以上の説明では、音源分離関数f()が既知で、勾配情報が利用可能であると仮定しているが、音源分離関数f()が未知の場合にも以下のように対応できる。
 まず、音源分離関数f()は評価可能であるが、勾配情報を利用できない場合、勾配情報が利用可能な音源分離関数
Figure JPOXMLDOC01-appb-I000014
を、蒸留を用いて音源分離関数f()に近似させる。例えば、
Figure JPOXMLDOC01-appb-I000015
を、以下に示す式(16)を用いて学習する。
Figure JPOXMLDOC01-appb-I000016
 但し、式(16)において、
Figure JPOXMLDOC01-appb-I000017
は、f’()のパラメータ、Eは期待値、Xは混合音有音声データセットであり、特定の話者である必要や、分離後の正解データが必要ないため容易に大量のデータを確保可能である。
 音源分離関数f()がニューラルネットワークで、ネットワーク構造が分かっているが、パラメータが分からないような場合には、
Figure JPOXMLDOC01-appb-I000018
を同様の構造にして学習させるとよい。
 音源分離関数f()が評価不可能な場合は
Figure JPOXMLDOC01-appb-I000019
を通常の音源分離として学習させ、この
Figure JPOXMLDOC01-appb-I000020
に対して上述した妨害音生成処理を行う。
(話者性特徴量抽出部で行われる処理)
 音声合成や声質変換では、図4や図5に示すように、話者特徴ベクトル抽出部21が目的話者音声から話者特徴量を抽出する。抽出された話者特徴量は、音声合成部22(図4参照)や声質変換部23(図5参照)に入力されることで所望の話者の音声(本実施形態では、なりすまし音声)が生成される。話者特徴量としては、d-vectorや音声合成・声質変換の学習時に学習された話者エンベディングベクトルなどが挙げられる。
 本実施形態では、妨害音を加えた音声信号における話者特徴量の誤差を最大化しつつ、話者性の変化、または、明瞭性の低下を許容値以下に抑えるように学習を行う。
 周波数ドメインで音声を
Figure JPOXMLDOC01-appb-I000021
摂動を
Figure JPOXMLDOC01-appb-I000022
音声フィルタ(例えば、フィルタ部2Aの特性であり具体例としてフィルタ係数)を
Figure JPOXMLDOC01-appb-I000023
とする。本実施形態では、フィルタ部2Aによるフィルタ処理を行うことにより、話者特徴量を変化させる。
 また、話者特徴量を抽出する装置(例えば、上述した話者特徴ベクトル抽出部21)の処理関数をh()とするとδ、Wを求める損失関数Lは、
Figure JPOXMLDOC01-appb-I000024
とすることができる。
δ、Wは、式(24)で示される損失関数Lを最小化することで求めることができる。
 但し、式(24)における
Figure JPOXMLDOC01-appb-I000025
はすべての要素が1のテンソルであり、
Figure JPOXMLDOC01-appb-I000026
は正則化項であり、λは正則化定数である。
 正則化項は、
Figure JPOXMLDOC01-appb-I000027
とすることができる。
 但し、λ、λは正則化定数であり、下記の式(28)により求めることができる。
Figure JPOXMLDOC01-appb-I000028
 但し、式(28)における
Figure JPOXMLDOC01-appb-I000029
は、それぞれ
Figure JPOXMLDOC01-appb-I000030
を用いて求められた音声フィルタと摂動である。ここで、摂動と音声フィルタはどちらか片方を用いるのでもよい。
 摂動δおよびフィルタ後の音声Wsについては、音源分離妨害音生成部1による処理と同様に聴覚マスキングを考慮して求めることもできる。また、周波数帯域に応じて正則化の強度を変えることも可能である。例えば、聴感上鈍感な帯域には正則化の強度を弱めることができる。
 処理関数h()がニューラルネットワークなどの、入力信号対して微分可能な関数である場合、式(28)の損失関数は勾配法を用いて求めることができる。このようにして求められた
Figure JPOXMLDOC01-appb-I000031
を用いて
Figure JPOXMLDOC01-appb-I000032
を出力信号とする。
 音源分離妨害音生成部1および話者性特徴量抽出妨害音生成部2における処理は順番に適用することも可能であるし、下記の式(33)に示す損失関数L(W,δ)を用いて妨害音を同時最適化することも可能である。
Figure JPOXMLDOC01-appb-I000033
 式33に示す場合、摂動およびフィルタは音源分離の誤差、および話者特徴量抽出の誤差を正則化の条件のもと最大化するように設計されるため、より音声クローニングに対する妨害効果が期待できる。
 以上、説明した本実施形態によれば、音声クローニングに耐性を有する出力音声信号を生成することができる。
<変形例>
 以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。
 所定の処理関数による処理は、音源分離処理および話者性を抽出する処理以外の処理であってもよい。上述した一実施形態では、音源分離妨害音生成部および話者特徴量抽出妨害音生成部による処理が行われたが、何れか一方の処理のみが行われるようにしてもよい。信号処理装置が適用される機器は、電話機やネットワークを介してコンテンツ等を配信する機器以外であってもよい。また、一実施形態で説明した処理が、サーバ装置等のクラウド上の機器であってもよい。
 上述の実施形態および変形例において挙げた構成、方法、工程、形状、材料および数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料および数値などを用いてもよく、公知のもので置き換えることも可能である。また、実施形態および変形例における構成、方法、工程、形状、材料および数値などは、技術的な矛盾が生じない範囲において、互いに組み合わせることが可能である。
 なお、本明細書中で例示された効果により本開示の内容が限定して解釈されるものではない。
 本開示は、以下の構成も採ることができる。
(1)
 入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する音声信号処理部を有する
 信号処理装置。
(2)
 前記所定の処理関数による処理は、音源分離処理である
 (1)に記載の信号処理装置。
(3)
 前記所定の処理関数による処理は、話者性を抽出する処理である
 (1)または(2)に記載の信号処理装置。
(4)
 前記音声信号処理部は、前記摂動に基づく妨害音声信号を求め、前記入力音声信号に前記妨害音声信号を加算することにより前記出力音声信号を生成する
 (1)から(3)までの何れかに記載の信号処理装置。
(5)
 前記妨害音声信号は、前記入力音声信号とは異なる混合源音信号に対して所定の混合係数を乗算したものに前記摂動を加算することにより生成される
 (4)に記載の信号処理装置。
(6)
 前記混合係数は、明瞭性を示す閾値を上回るように設定される
 (5)に記載の信号処理装置。
(7)
 前記摂動は、所定の損失関数を最小化することにより得られる
 (4)から(6)までの何れかに記載の信号処理装置。
(8)
 前記所定の損失関数は、前記正則化項を含む
 (7)に記載の信号処理装置。
(9)
 前記正則化項は、聴覚特性に応じて決定される
 (8)に記載の信号処理装置。
(10)
 前記正則化項は、明瞭度を図る微分可能な関数に基づいて決定される
 (8)に記載の信号処理装置。
(11)
 前記音声信号処理部は、前記摂動に基づく妨害音声信号と、前記入力音声信号に所定のフィルタ部によるフィルタ処理が行われた音声信号とを加算することにより前記出力音声信号を生成する
 (1)から(10)までの何れかに記載の信号処理装置。
(12)
 前記摂動および前記フィルタ部の特性が所定の損失関数を最小化することにより得られる
 (11)に記載の信号処理装置。
(13)
 前記損失関数は、正則化項を含み、
 聴覚特性に応じて前記正則化項が決定される
 (12)に記載の信号処理装置。
(14)
 前記損失関数は、正則化項を含み、
 周波数帯域に応じて正則化の強度が変更される
 (12)に記載の信号処理装置。
(15)
 音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
 信号処理方法。
(16)
 音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
 信号処理方法をコンピュータに実行させるプログラム。
1・・・音源分離妨害音生成部
2・・・話者特徴量抽出妨害音生成部2
3・・・音声信号処理部
10・・・信号処理装置

Claims (16)

  1.  入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する音声信号処理部を有する
     信号処理装置。
  2.  前記所定の処理関数による処理は、音源分離処理である
     請求項1に記載の信号処理装置。
  3.  前記所定の処理関数による処理は、話者性を抽出する処理である
     請求項1に記載の信号処理装置。
  4.  前記音声信号処理部は、前記摂動に基づく妨害音声信号を求め、前記入力音声信号に前記妨害音声信号を加算することにより前記出力音声信号を生成する
     請求項1に記載の信号処理装置。
  5.  前記妨害音声信号は、前記入力音声信号とは異なる混合源音信号に対して所定の混合係数を乗算したものに前記摂動を加算することにより生成される
     請求項4に記載の信号処理装置。
  6.  前記混合係数は、明瞭性を示す閾値を上回るように設定される
     請求項5に記載の信号処理装置。
  7.  前記摂動は、所定の損失関数を最小化することにより得られる
     請求項4に記載の信号処理装置。
  8.  前記所定の損失関数は、前記正則化項を含む
     請求項7に記載の信号処理装置。
  9.  前記正則化項は、聴覚特性に応じて決定される
     請求項8に記載の信号処理装置。
  10.  前記正則化項は、明瞭度を図る微分可能な関数に基づいて決定される
     請求項8に記載の信号処理装置。
  11.  前記音声信号処理部は、前記摂動に基づく妨害音声信号と、前記入力音声信号に所定のフィルタ部によるフィルタ処理が行われた音声信号とを加算することにより前記出力音声信号を生成する
     請求項1に記載の信号処理装置。
  12.  前記摂動および前記フィルタ部の特性が所定の損失関数を最小化することにより得られる
     請求項11に記載の信号処理装置。
  13.  前記損失関数は、正則化項を含み、
     聴覚特性に応じて前記正則化項が決定される
     請求項12に記載の信号処理装置。
  14.  前記損失関数は、正則化項を含み、
     周波数帯域に応じて正則化の強度が変更される
     請求項12に記載の信号処理装置。
  15.  音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
     信号処理方法。
  16.  音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
     信号処理方法をコンピュータに実行させるプログラム。
PCT/JP2021/025070 2020-07-14 2021-07-02 信号処理装置、信号処理方法およびプログラム WO2022014359A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-120587 2020-07-14
JP2020120587 2020-07-14

Publications (1)

Publication Number Publication Date
WO2022014359A1 true WO2022014359A1 (ja) 2022-01-20

Family

ID=79555312

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025070 WO2022014359A1 (ja) 2020-07-14 2021-07-02 信号処理装置、信号処理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2022014359A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019116889A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、学習装置および方法、並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019116889A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、学習装置および方法、並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KREUK FELIX; ADI YOSSI; CISSE MOUSTAPHA; KESHET JOSEPH: "Fooling End-To-End Speaker Verification With Adversarial Examples", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 15 April 2018 (2018-04-15), pages 1962 - 1966, XP033402004, DOI: 10.1109/ICASSP.2018.8462693 *
SUBAKAN Y. CEM; SMARAGDIS PARIS: "Generative Adversarial Source Separation", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 15 April 2018 (2018-04-15), pages 26 - 30, XP033400949, DOI: 10.1109/ICASSP.2018.8461671 *

Similar Documents

Publication Publication Date Title
Goehring et al. Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants
Mack et al. Deep filtering: Signal extraction and reconstruction using complex time-frequency filters
Avila et al. Non-intrusive speech quality assessment using neural networks
Braun et al. Data augmentation and loss normalization for deep noise suppression
Zhao et al. Robust speaker identification in noisy and reverberant conditions
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
EP2210427B1 (en) Apparatus, method and computer program for extracting an ambient signal
Chi et al. Multiresolution spectrotemporal analysis of complex sounds
Zhao et al. A deep learning based segregation algorithm to increase speech intelligibility for hearing-impaired listeners in reverberant-noisy conditions
Monaghan et al. Auditory inspired machine learning techniques can improve speech intelligibility and quality for hearing-impaired listeners
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
Li et al. Ideal Ratio Mask Estimation Using Deep Neural Networks for Monaural Speech Segregation in Noisy Reverberant Conditions.
Deroche et al. Voice segregation by difference in fundamental frequency: Evidence for harmonic cancellation
Li et al. The contribution of obstruent consonants and acoustic landmarks to speech recognition in noise
Keshavarzi et al. Comparison of effects on subjective intelligibility and quality of speech in babble for two algorithms: A deep recurrent neural network and spectral subtraction
Kates Modeling the effects of single-microphone noise-suppression
Prud'Homme et al. A harmonic-cancellation-based model to predict speech intelligibility against a harmonic masker
Shifas et al. A non-causal FFTNet architecture for speech enhancement
KR102062454B1 (ko) 음악 장르 분류 장치 및 방법
WO2022014359A1 (ja) 信号処理装置、信号処理方法およびプログラム
Pirhosseinloo et al. A new feature set for masking-based monaural speech separation
EP3242295B1 (en) A signal processor
Ruhland et al. Reduction of Gaussian, supergaussian, and impulsive noise by interpolation of the binary mask residual
Tkachenko et al. Speech enhancement for speaker recognition using deep recurrent neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21841807

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21841807

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP