WO2022014359A1

WO2022014359A1 - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: WO2022014359A1
Application number: PCT/JP2021/025070
Authority: WO
Inventors: 直也高橋
Original assignee: ソニーグループ株式会社
Priority date: 2020-07-14
Filing date: 2021-07-02
Publication date: 2022-01-20

Abstract

例えば、音声クローニングに対する耐性を有する音声信号を生成する。　入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する音声信号処理部を有する信号処理装置である。

Description

信号処理装置、信号処理方法およびプログラム

　本開示は、信号処理装置、信号処理方法およびプログラムに関する。

　近年、音声合成、声質変換技術の向上に伴って、本物の音声と見分けがつかないような偽の音声を機械的（信号処理的）に生成することが可能になってきている（以下、機械的により生成された音声を合成音声と適宜、称する。）。また、合成音声の話者性として、ある話者の任意の発話の録音からその話者性を模倣し、再現する音声クローニングという技術も提案されている。音声クローニングによれば、何気ない電話の録音や動画配信している中の音声から、その話者の話者性を模倣した合成音声を生成し、任意の発話をできるようにする、または、音声のなりすましが可能になってしまう虞がある。

　これまで、音声合成による音声を判別するために、音声合成された音声であることを識別するための情報を音声信号に情報を埋め込む技術（特許文献１に記載の技術）や、音声が合成音であるかを判別する技術（例えば、特許文献２に記載の技術）が存在する。

特開２００２－２９７１９９号公報

特開２０１０－２３７３６４号公報

　特許文献１に記載の技術では、音声合成された音声であることを識別するための情報を音声信号に埋め込まなければ識別することができない。通常、悪意ある音声信号を生成する生成者が係る情報を音声信号に埋め込むことは考えにくい。また、特許文献２に記載の技術は、音声クローニングにより生成された合成音声を高精度に判別することができず、また合成音声を後から判別する技術であるため、音声クローニングそのものを防ぐことはできないこのように、特許文献１、２に記載の技術では、音声クローンニングを防止することができなかった。

　本開示は、音声クローニングを困難にする音声信号を生成する信号処理装置、信号処理方法およびプログラムを提供することを目的の一つとする。

　本開示は、例えば、
　入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する音声信号処理部を有する
　信号処理装置である。

　本開示は、例えば、
　音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する
　信号処理方法である。

　本開示は、例えば、
　音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する
　信号処理方法をコンピュータに実行させるプログラムである。

図１は、一実施形態にかかる信号処理装置の構成例を説明するための図である。図２Ａおよび図２Ｂは、一実施形態に係る音源分離妨害音生成部により行われる処理の説明がなされる際に参照される図である。図３は、一実施形態に係る音源分離妨害音生成部により行われる処理の説明がなされる際に参照される図である。図４は、話者性の特徴に基づいて音声合成を行う装置の構成例を示す図である。図５は、話者性の特徴に基づいて声質変換を行う装置の構成例を示す図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜本開示で考慮すべき問題＞
＜一実施形態＞
＜変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜本開示で考慮すべき問題＞
　始めに、本開示の理解を容易とするために、本開示において考慮すべき問題について説明する。上述した背景に鑑み、音声クローニングを困難にする音声信号を生成することが望まれる。ここで、一つの方法として音楽などの妨害音を単純に音声信号に混合することによりし、音声クローニングを行いにくくすることができる。しかしながら、音源分離に係る技術により除去可能であったり、元の音声信号に対応する音の明瞭性を阻害してしまう。また、声質をボイスチェンジャなどで発信することは、話者が誰であるのか不明になってしまう等、好ましくない状況は多い。

　例えば、電話や動画配信など、録音音声に妨害音を混合し、音声クローニングを困難にすることを考える。通常、音声クローニングでは、模倣したい話者の音声から話者の特徴を抽出し、その特徴を模倣した音声合成機や声質変換機を設計する。ここで音声に模倣対象の話者以外の音が含まれる場合、話者の特徴の抽出が困難となり、音声クローニングが困難となる。そこで何らかの妨害音を音声に混入することで音声クローニングを妨害する効果が期待できる。ここで妨害音は、音声の明瞭性を欠いたり、受聴者が不快にならないように設計する必要がある。例えば、環境音や音楽、その他のノイズなどを妨害音として用いることができる。しかしながら、このような妨害音は音源分離技術（例えば、国際出願番号ＰＣＴ／ＪＰ２０１７／０３０６３１に記載の技術）を用いることで除去できてしまう虞がある。また、妨害音の音量が大きくなれば一般的に分離は難しくなるが、この場合は音声の明瞭性も大きく損なわれてしまうこととなる。そこで、音源分離技術では分離されにくく、かつ目的の音声の明瞭性を損なわない妨害音の設計が望まれる。また、話者判別機（話者エンベディング生成器）を詐称し且つ聴覚的に明瞭性を失わない妨害音の設計が望まれる。以下、係る観点を考慮しつつ、一実施形態について説明する。

＜一実施形態＞
［信号処理装置の構成例］
　図１は、一実施形態に係る信号処理装置（信号処理装置１０）の構成例を示す図である。信号処理装置１０は、例えば、電話機やネットワーク配信における少なくとも送信側のアプリケーション機器に組み込まれる。

　信号処理装置１０は、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、摂動に基づく出力音声信号を生成する音声信号処理部を有する。本実施形態では、信号処理装置１０は、音声信号処理部の一例として、例えば、音源分離妨害音生成部１と、話者性特徴量抽出妨害音生成部２とを有する。音源分離妨害音生成部１および話者性特徴量抽出妨害音生成部２の一方が音声信号処理部に対応していてもよい。所定の処理関数としては、例えば、音源分離処理、および、話者性を抽出する処理が挙げられる。

　音源分離妨害音生成部１は、音源分離技術では分離されにくく、かつ目的の音声の明瞭性を損なわない妨害音信号を生成する。そして、音源分離妨害音生成部１は、元の音声信号に妨害音声信号を付加して出力する。

　話者性特徴量抽出妨害音生成部２は、話者判別機（話者エンベディング生成器）を詐称し且つ聴覚的に明瞭性を失わない妨害音信号を生成する。そして、話者性特徴量抽出妨害音生成部２は、元の音声信号または音源分離妨害音生成部１からの妨害音信号を付加して出力する。例えば、話者性特徴量抽出妨害音生成部２は、フィルタ部２Ａを有する。

［音声信号処理部で行われる処理］
（音源分離妨害音生成部で行われる処理）
　次に、音声信号処理部３で行われる処理の具体例について説明する。始めに、音源分離妨害音生成部１により行われる処理の具体例について説明する。

　音声信号をｓ（以下、音声ｓと適宜、称する）、混合源音信号をｍ（以下、混合源音ｍと適宜、称する）とする。混合源音ｍとしては、環境音や音楽など、人間がその音自体単独で聞いても不快に感じない音を利用することができる。音声ｓと混合源音ｍの混合係数αを下記式（１）のように決定する。

　式（１）におけるφ（）は、明瞭性に相関のある評価関数でＰＥＳＱ（Perceptual Evaluation of Speech Quality)、ＳＮＲ（Signal-to-Noise Ratio）、主観評価のＭＯＳ値（Mean Opinion Score）を用いることができる。また、式（１）におけるθは、明瞭性に関する閾値であり、音声の目的に応じて適切に設定される。式（１）に示すように、混合係数αは、明瞭性を示す閾値を上回るように設定される。

　音源分離を行う音源分離装置の処理関数（以下、音源分離関数とも適宜、称する）をｆ（）とすると妨害音ｊは下記の式（２）のように規定される。

　式（２）におけるεは音源分離に対して頑健にするための摂動である。式（２）に示すように、本例に係る妨害音ｊは、入力音声信号である音声ｓとは異なる混合源音ｍに対して所定の混合係数αを乗算したものに摂動εを加算することにより生成される。係る妨害音ｊを音声ｓに加算することにより出力音声信号が生成される。

　摂動εは、下記の式（３）で示されるの損失関数Ｌを最小化することで求められる。

　式（３）におけるλは定数の正則化係数、ｇ（ε）は正則化項である。

　音声ｓ、混合源音ｍ、摂動ε、音源分離関数ｆ（）、正則化項ｇ（）は時間信号に対して定義されても、周波数ドメイン信号に定義されてもよい。時間信号の場合、

であり、周波数ドメイン信号の場合は、短時間フーリエ変換にたいして

または、その振幅周波数に対して

である。但し、式（４）から（６）におけるＣはチャンネル数、Ｔは時間長または時間フレーム長、Ｆは周波数ビン数である。音源分離関数ｆ（）がニューラルネットワークなどの、入力信号に対して微分可能な関数である場合、式（３）の損失関数Ｌは勾配法を用いて求めることができる。勾配法の更新式は損失関数Ｌのεに対する勾配を用いて下記の式（７）の通り表すことができる。

但し、η＞０は学習係数である。この他、確率的勾配法、ａｄａｍと称される最適化手法を適用することもできる。

　正則化係数λは、例えば以下のように決定することができる。

　但し、式（８）におけるε_λ’は正則化係数λ’を用いて求められた摂動である。

　正則化項として基本的な関数は、下記の式（９）で示される、摂動に対するパワーを用いることである。

　しかしながら、単純にパワーのみを正則化として利用する場合、正則化が強すぎるために摂動のパワーが弱く十分に音源分離に対する妨害効果を得られない、または、正則化を弱くすることで摂動により音声ｓの明瞭性が極端に下がる、または、不快な音声が生成されることがある。そこで、十分なパワーの摂動を許容しつつ、明瞭性を損なわず、不快感を増加させない摂動の設計が重要となる。そのための正則化項として以下に複数の例を挙げる。

　正則化項として、聴覚マスキングの効果を利用することができる。簡単のため、信号が振幅周波数ドメインで定義されている場合、聴覚マスキングを考慮した正則化項は下記の式（１０）のように定義できる。

　ここでＭａｘｐｏｏｌ_ｋはカーネルサイズ、ストライド共にｋのマックスプーリングである。正則化項として聴覚マスキングの効果を利用した例を図２Ａおよび図２Ｂを参照して具体的に説明する。図２Ａに示すＭａｘｐｏｏｌ（１）のバンド（ウィンドウ）に、図２Ｂに示すようにｊ番目のビンに摂動εが加わっている。この場合、i番目の成分が強いためマスキングされる。これは、マックスプーリングでｊ番目のビンが無視されることから損失関数Ｌの第二項が０になることにより反映されている。一方、図２Ａに示すＭａｘｐｏｏｌ（２）のバンドには、図２Ｂに示すようにｎ番目のビンに摂動εが加わっている。この例では、摂動εは、バンド内で最も大きいｌ番目のビンよりも大きいため、マスキングされない。この効果はマックスプーリングで摂動ありの信号ｘ＋εに関してはｎ番目が、現信号ｘに関してはｌ番目が選択され、損失が０にならないことから反映されている。

　なお、マックスプーリング処理の前に、聴覚特性を考慮した係数を乗算してもよい。例えば図３のように、Ｍａｘｐｏｏｌ内で最大振幅を持つ周波数ビンａｒｇｍａｘ（ｘｂ）周りにマスキングの逆特性に比例する係数を乗算してから、式（１０）のマックスプーリングを計算することにより、より正確にマスキング効果を加味することができる。

　また、この他にも明瞭度を図る微分可能な処理関数ｈ（）を用いた下記の数式（１１）を用いて正則化項を規定することも可能である。

　この他に、混合源音ｍの代わりに物理モデルを用いて妨害音を設計することも可能である。例えば、微分可能な物理楽器の音生成モデル

を用いて妨害音を生成する。この場合の損失関数は、下記の式（１３）により表すことができる。

式（１３）におけるｇ’は上記同様、正則化項であり、λは正則化係数である。

　以上の説明では、音源分離関数ｆ（）が既知で、勾配情報が利用可能であると仮定しているが、音源分離関数ｆ（）が未知の場合にも以下のように対応できる。

　まず、音源分離関数ｆ（）は評価可能であるが、勾配情報を利用できない場合、勾配情報が利用可能な音源分離関数

を、蒸留を用いて音源分離関数ｆ（）に近似させる。例えば、

を、以下に示す式（１６）を用いて学習する。

　但し、式（１６）において、

は、ｆ’（）のパラメータ、Ｅは期待値、Ｘは混合音有音声データセットであり、特定の話者である必要や、分離後の正解データが必要ないため容易に大量のデータを確保可能である。

　音源分離関数ｆ（）がニューラルネットワークで、ネットワーク構造が分かっているが、パラメータが分からないような場合には、

を同様の構造にして学習させるとよい。

　音源分離関数ｆ（）が評価不可能な場合は

を通常の音源分離として学習させ、この

に対して上述した妨害音生成処理を行う。

（話者性特徴量抽出部で行われる処理）
　音声合成や声質変換では、図４や図５に示すように、話者特徴ベクトル抽出部２１が目的話者音声から話者特徴量を抽出する。抽出された話者特徴量は、音声合成部２２（図４参照）や声質変換部２３（図５参照）に入力されることで所望の話者の音声（本実施形態では、なりすまし音声）が生成される。話者特徴量としては、ｄ－ｖｅｃｔｏｒや音声合成・声質変換の学習時に学習された話者エンベディングベクトルなどが挙げられる。

　本実施形態では、妨害音を加えた音声信号における話者特徴量の誤差を最大化しつつ、話者性の変化、または、明瞭性の低下を許容値以下に抑えるように学習を行う。

　周波数ドメインで音声を

摂動を

音声フィルタ（例えば、フィルタ部２Ａの特性であり具体例としてフィルタ係数）を

とする。本実施形態では、フィルタ部２Ａによるフィルタ処理を行うことにより、話者特徴量を変化させる。

　また、話者特徴量を抽出する装置（例えば、上述した話者特徴ベクトル抽出部２１）の処理関数をｈ（）とするとδ、Ｗを求める損失関数Ｌは、

とすることができる。
δ、Ｗは、式（２４）で示される損失関数Ｌを最小化することで求めることができる。

　但し、式（２４）における

はすべての要素が１のテンソルであり、

は正則化項であり、λは正則化定数である。

　正則化項は、

とすることができる。

　但し、λ_１、λ_２は正則化定数であり、下記の式（２８）により求めることができる。

　但し、式（２８）における

は、それぞれ

を用いて求められた音声フィルタと摂動である。ここで、摂動と音声フィルタはどちらか片方を用いるのでもよい。

　摂動δおよびフィルタ後の音声Ｗｓについては、音源分離妨害音生成部１による処理と同様に聴覚マスキングを考慮して求めることもできる。また、周波数帯域に応じて正則化の強度を変えることも可能である。例えば、聴感上鈍感な帯域には正則化の強度を弱めることができる。

　処理関数ｈ（）がニューラルネットワークなどの、入力信号対して微分可能な関数である場合、式（２８）の損失関数は勾配法を用いて求めることができる。このようにして求められた

を用いて

を出力信号とする。

　音源分離妨害音生成部１および話者性特徴量抽出妨害音生成部２における処理は順番に適用することも可能であるし、下記の式（３３）に示す損失関数Ｌ（Ｗ，δ）を用いて妨害音を同時最適化することも可能である。

　式３３に示す場合、摂動およびフィルタは音源分離の誤差、および話者特徴量抽出の誤差を正則化の条件のもと最大化するように設計されるため、より音声クローニングに対する妨害効果が期待できる。

　以上、説明した本実施形態によれば、音声クローニングに耐性を有する出力音声信号を生成することができる。

＜変形例＞
　以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。

　所定の処理関数による処理は、音源分離処理および話者性を抽出する処理以外の処理であってもよい。上述した一実施形態では、音源分離妨害音生成部および話者特徴量抽出妨害音生成部による処理が行われたが、何れか一方の処理のみが行われるようにしてもよい。信号処理装置が適用される機器は、電話機やネットワークを介してコンテンツ等を配信する機器以外であってもよい。また、一実施形態で説明した処理が、サーバ装置等のクラウド上の機器であってもよい。

　上述の実施形態および変形例において挙げた構成、方法、工程、形状、材料および数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料および数値などを用いてもよく、公知のもので置き換えることも可能である。また、実施形態および変形例における構成、方法、工程、形状、材料および数値などは、技術的な矛盾が生じない範囲において、互いに組み合わせることが可能である。

　なお、本明細書中で例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、以下の構成も採ることができる。
（１）
　入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する音声信号処理部を有する
　信号処理装置。
（２）
　前記所定の処理関数による処理は、音源分離処理である
　（１）に記載の信号処理装置。
（３）
　前記所定の処理関数による処理は、話者性を抽出する処理である
　（１）または（２）に記載の信号処理装置。
（４）
　前記音声信号処理部は、前記摂動に基づく妨害音声信号を求め、前記入力音声信号に前記妨害音声信号を加算することにより前記出力音声信号を生成する
　（１）から（３）までの何れかに記載の信号処理装置。
（５）
　前記妨害音声信号は、前記入力音声信号とは異なる混合源音信号に対して所定の混合係数を乗算したものに前記摂動を加算することにより生成される
　（４）に記載の信号処理装置。
（６）
　前記混合係数は、明瞭性を示す閾値を上回るように設定される
　（５）に記載の信号処理装置。
（７）
　前記摂動は、所定の損失関数を最小化することにより得られる
　（４）から（６）までの何れかに記載の信号処理装置。
（８）
　前記所定の損失関数は、前記正則化項を含む
　（７）に記載の信号処理装置。
（９）
　前記正則化項は、聴覚特性に応じて決定される
　（８）に記載の信号処理装置。
（１０）
　前記正則化項は、明瞭度を図る微分可能な関数に基づいて決定される
　（８）に記載の信号処理装置。
（１１）
　前記音声信号処理部は、前記摂動に基づく妨害音声信号と、前記入力音声信号に所定のフィルタ部によるフィルタ処理が行われた音声信号とを加算することにより前記出力音声信号を生成する
　（１）から（１０）までの何れかに記載の信号処理装置。
（１２）
　前記摂動および前記フィルタ部の特性が所定の損失関数を最小化することにより得られる
　（１１）に記載の信号処理装置。
（１３）
　前記損失関数は、正則化項を含み、
　聴覚特性に応じて前記正則化項が決定される
　（１２）に記載の信号処理装置。
（１４）
　前記損失関数は、正則化項を含み、
　周波数帯域に応じて正則化の強度が変更される
　（１２）に記載の信号処理装置。
（１５）
　音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
　信号処理方法。
（１６）
　音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
　信号処理方法をコンピュータに実行させるプログラム。

１・・・音源分離妨害音生成部
２・・・話者特徴量抽出妨害音生成部２
３・・・音声信号処理部
１０・・・信号処理装置

Claims

　入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する音声信号処理部を有する
　信号処理装置。
　前記所定の処理関数による処理は、音源分離処理である
　請求項１に記載の信号処理装置。
　前記所定の処理関数による処理は、話者性を抽出する処理である
　請求項１に記載の信号処理装置。
　前記音声信号処理部は、前記摂動に基づく妨害音声信号を求め、前記入力音声信号に前記妨害音声信号を加算することにより前記出力音声信号を生成する
　請求項１に記載の信号処理装置。
　前記妨害音声信号は、前記入力音声信号とは異なる混合源音信号に対して所定の混合係数を乗算したものに前記摂動を加算することにより生成される
　請求項４に記載の信号処理装置。
　前記混合係数は、明瞭性を示す閾値を上回るように設定される
　請求項５に記載の信号処理装置。
　前記摂動は、所定の損失関数を最小化することにより得られる
　請求項４に記載の信号処理装置。
　前記所定の損失関数は、前記正則化項を含む
　請求項７に記載の信号処理装置。
　前記正則化項は、聴覚特性に応じて決定される
　請求項８に記載の信号処理装置。
　前記正則化項は、明瞭度を図る微分可能な関数に基づいて決定される
　請求項８に記載の信号処理装置。
　前記音声信号処理部は、前記摂動に基づく妨害音声信号と、前記入力音声信号に所定のフィルタ部によるフィルタ処理が行われた音声信号とを加算することにより前記出力音声信号を生成する
　請求項１に記載の信号処理装置。
　前記摂動および前記フィルタ部の特性が所定の損失関数を最小化することにより得られる
　請求項１１に記載の信号処理装置。
　前記損失関数は、正則化項を含み、
　聴覚特性に応じて前記正則化項が決定される
　請求項１２に記載の信号処理装置。
　前記損失関数は、正則化項を含み、
　周波数帯域に応じて正則化の強度が変更される
　請求項１２に記載の信号処理装置。
　音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
　信号処理方法。
　音声信号処理部が、入力音声信号に対して、所定の処理関数による処理を妨害する摂動を求め、前記摂動に基づく出力音声信号を生成する
　信号処理方法をコンピュータに実行させるプログラム。