WO2015068310A1

WO2015068310A1 - 電子透かし検出装置、方法及びプログラム

Info

Publication number: WO2015068310A1
Application number: PCT/JP2013/080466
Authority: WO
Inventors: 橘　健太郎; 眞弘森田
Original assignee: 株式会社東芝
Priority date: 2013-11-11
Filing date: 2013-11-11
Publication date: 2015-05-14
Also published as: JP6193395B2; US9747907B2; JPWO2015068310A1; US20160254003A1

Abstract

　実施形態の電子透かし検出装置は、残差信号抽出部と、有声区間推定部と、記憶部と、位相推定部と、透かし判定部と、を有する。残差信号抽出部は、音声信号から残差信号を抽出する。有声区間推定部は、音声信号に基づいて有声区間を推定する。記憶部は、予め複数の異なる位相に変調された複数のパルス信号を記憶する。位相推定部は、有声区間を予め定められた長さの分析フレームごとに切り出し、分析フレームにおける残差信号と、複数のパルス信号とのパターンマッチングを行うことにより、音声信号の位相を推定する。透かし判定部は、位相推定部が推定した位相の系列に基づいて、音声信号における電子透かしの有無を判定する。

Description

電子透かし検出装置、方法及びプログラム

　本発明の実施形態は、電子透かし検出装置、方法及びプログラムに関する。

　近年、音声合成技術、特にＨＭＭ（Hidden　Markov　Model）に基づく音声合成技術（ＨＭＭ音声合成）の技術進歩が目覚ましい。ＨＭＭ音声合成は、話者適応が容易であるため、少量の音声からでも音声合成辞書を作成できることが特徴である。そのため、一般ユーザでも気軽に音声合成辞書を作成することができ、将来的に一般ユーザ間で公開、共有しあうことにより、音声合成技術が広まっていくことが考えられる。

　一方、悪意を持ったユーザが他人の音声合成辞書を使って他人になりすますといったことや、ＴＶやインターネットといったメディア媒体から不正に入手した音声からでも音声合成辞書を作成することが可能であることから、不正に音声合成辞書が利用される懸念が高まってくる。つまり、将来的に人間とほぼ同等の品質で音声を合成できるようになると、無断で有名人の声を使って宣伝を行ったり、他人になりすまして電話をするなど、合成音声の悪用が懸念される。

　ここで、ＨＭＭ音声合成に電子透かしを埋め込み、電子透かしを埋め込まれた合成音声の受け側が透かしを検出し、受け側のユーザに合成音であることを知らせることにより、なりすましの防止・抑制を行うことが可能となる。この電子透かし埋め込み方式は、パルス駆動型の音声合成システム全般に使用することができる。

橘他、"位相変調に基づくＨＭＭ音声合成向け電子透かし方式の提案"、日本音響学会講演論文集、２０１３年３月、ｐ．１３５－１３６

　しかしながら、合成音声に埋め込まれた電子透かしを検出する場合、演算量が多くなり過ぎてしまうという問題があった。本発明が解決しようとする課題は、演算量を抑えて合成音声に埋め込まれた電子透かしを検出することができる電子透かし検出装置、方法及びプログラムを提供することである。

実施形態にかかる電子透かし検出装置を例示するブロック図。位相推定部の動作を示す模式図。アンラッピング処理の概要を示す図。電子透かし検出装置が行う処理の流れを示す図。電子透かし検出装置の変形例を示すブロック図。電子透かし検出装置の変形例の動作を示す模式図。電子透かし検出装置の変形例が行う処理の流れを示す図。位相変調された合成音声波形の一例を示す図。

　以下に添付図面を参照して、実施形態にかかる電子透かし検出装置について説明する。実施形態にかかる電子透かし検出装置は、合成音声に埋め込まれた電子透かしを検出する。合成音声は、声帯の振動を示す音源信号に対し、声道特性を示すフィルタリングを行うことによって生成される。また、合成音声に電子透かしを埋め込む場合、例えば音源信号の声帯振動を表すパルス信号（有声部）の位相を変調し、この変調度合を透かし情報とすることにより、合成音声に電子透かしが埋め込まれる。結果として、有声部にのみ位相変調された合成音声が生成される（図８参照）。

　図１は、実施形態にかかる電子透かし検出装置１の構成を例示するブロック図である。なお、電子透かし検出装置１は、例えば、汎用のコンピュータなどによって実現される。即ち、電子透かし検出装置１は、例えばＣＰＵ、記憶装置、入出力装置及び通信インターフェイスなどを備えたコンピュータとしての機能を有する。

　図１に示すように、電子透かし検出装置１は、残差信号抽出部１０１、有声区間推定部１０２、記憶部１０３、位相推定部１０４及び透かし判定部１０５を有する。残差信号抽出部１０１、有声区間推定部１０２、位相推定部１０４及び透かし判定部１０５は、それぞれハードウェア回路、又はＣＰＵにより実行するソフトウェアのいずれで構成されてもよい。記憶部１０３は、例えばＨＤＤ（Hard　Disk　Drive）又はメモリなどによって構成される。つまり、電子透かし検出装置１は、電子透かし検出プログラムを実行することによって機能を実現するように構成されてもよい。

　残差信号抽出部１０１は、入力された音声信号から残差信号を抽出し、位相推定部１０４に対して出力する。具体的には、残差信号抽出部１０１は、入力された音声信号に対して音声分析を行い、スペクトル包絡情報を算出する。音声分析には、例えば線形予測係数（ＬＰＣ）分析、部分自己相関係数（ＰＡＲＣＯＲ）分析、及び線スペクトル分析などがある。そして、残差信号抽出部１０１は、算出したスペクトル包絡情報を逆フィルタリングすることにより、音声信号から残差信号を抽出する。

　有声区間推定部１０２は、入力された音声信号から有声区間を推定し、位相推定部１０４に対して出力する。具体的には、有声区間推定部１０２は、入力された音声信号に対して、所定のフレームごとに基本周波数（Ｆ_０）を抽出して有声区間を推定する。Ｆ_０は、有声部では非ゼロとなり、無声部又は無音部では０となる。また、分析フレームごとの相関係数が所定の閾値以上である場合、入力信号の振幅若しくはパワーが所定の閾値以上である場合、又はこれらが所定の閾値以上である場合などに、有声区間と推定する手順でもよい。有声区間推定部１０２は、フレーム単位の有声区間を推定することができる。

　記憶部１０３は、予め複数の異なる位相に変調された複数のパルス信号（テンプレート信号）を記憶する。具体的には、記憶部１０３は、－πからπまでの位相を複数の位相値に量子化して変調された複数のパルス信号を記憶している。

　位相推定部１０４は、有声区間内の残差信号と、記憶部１０３が記憶する複数のパルス信号（テンプレート信号）とのパターンマッチングを行うことにより、残差信号の位相を推定する。具体的には、位相推定部１０４は、記憶部１０３が記憶する複数のパルス信号をテンプレートとして、有声区間推定部１０２が推定した有声区間（フレーム）それぞれの残差信号に対するパターンマッチングを分析フレームごとに行い、位相系列を出力する。

　図２は、位相推定部１０４の動作を示す模式図である。位相推定部１０４は、基本周波数Ｆ_０のフレーム（抽出フレーム）内でパルス信号（テンプレート信号）と同じ長さのサブフレーム（分析フレーム）ごとに切り出しを行ってパターンマッチングを行う。ここで、位相推定部１０４は、記憶部１０３が記憶している複数のパルス信号の中から、分析フレームにおける残差信号に最も類似したパルス信号を選択する。そして、位相推定部１０４は、選択したパルス信号の位相値を残差信号の位相値とすることにより、位相値の推定を行う。

　位相推定部１０４は、例えば相関係数値、又は振幅値の差分などに基づいてパターンマッチングを行う。位相推定部１０４は、相関係数値を用いてパターンマッチングを行う場合、まず、例えば１つのサブフレームに対し、全テンプレート信号との相関係数を計算する。そして、位相推定部１０４は、残りの全サブフレームに対して同様の処理を行い、相関係数系列を作成する。その後、位相推定部１０４は、相関係数系列の中で最大となる相関係数値を算出されたテンプレート信号の位相値をサブフレーム内の位相値とする。位相推定部１０４は、これらの処理を基本周波数Ｆ_０のフレームごとに行い、フレームごとの位相系列を算出して出力する。

　位相推定部１０４は、振幅値の差分を用いてパターンマッチングを行う場合も同様に、サブフレームごとに処理を行う。つまり、位相推定部１０４は、全サブフレームに対し、サブフレームごとに全テンプレート信号との振幅値の差分の絶対値を計算する。そして、位相推定部１０４は、振幅値の差分が最小となるテンプレート信号の位相値をサブフレーム内の位相値とする。位相推定部１０４は、これらの処理を基本周波数Ｆ_０のフレームごとに行い、フレームごとの位相系列を算出して出力する。

　従って、位相推定部１０４は、ＦＦＴを用いてフレームごとの位相系列を算出する場合に比べて、ピッチマークの精度に依存することなく、位相を推定することができる。また、位相推定部１０４は、全て時間領域上で波形のパターンマッチングの処理を行うので、周波数領域上での処理に比べて、演算量を抑えることができる。

　透かし判定部１０５は、位相推定部１０４が推定した位相系列に基づいて、音声信号における電子透かしの有無を判定する。具体的には、透かし判定部１０５は、位相推定部１０４が推定した位相系列に対してアンラッピング処理を行った系列に対し、音声信号に埋め込まれた電子透かしを示す位相の傾きを算出する。透かし判定部１０５は、位相の傾きが０に近い値である場合（例えば位相の傾きが所定の閾値未満の場合）には、電子透かしが無いと判定する。また、透かし判定部１０５は、０から離れた明確な位相の傾きを算出した場合（例えば位相の傾きが所定の閾値以上の場合）には、電子透かしが有ると判定する。

　例えば、電子透かしを埋め込まれた合成音声は、図３の中段に示すように、位相が－πからπを値域として直線的に変化している。アンラッピング処理とは、電子透かしを埋め込まれた合成音声の位相を連続的に接続する処理である。

　透かし判定部１０５は、図３に示すように、有声区間以外の区間を線形補間することとする。透かし判定部１０５は、位相系列を短時間の区間ごとに区切り、区間それぞれの傾きを算出して、傾きのヒストグラムを作成する。そして、透かし判定部１０５は、作成したヒストグラムの最頻値をその音声信号の位相の傾きとすることにより、音声信号に埋め込まれた電子透かしを示す位相の傾きを位相系列から算出する。

　また、透かし判定部１０５は、短時間の区間ではなく、全体区間長から傾きを算出するように構成されてもよい。図８にも示したように、位相の傾きは、電子透かしが入っていない場合には０に近い値となり、電子透かしが入っている場合には変調した周波数によって値が変化する。透かし判定部１０５は、例えば位相の傾きと所定の閾値とを比較することによって電子透かしの有無を判定する。位相の傾きは、下式１によって示される。

　ｐｈ_ｆ（ｔ）＝２πａｔ　ｍｏｄ　２π　　・・・（１）

　ここで、ｐｈ_ｆ（ｔ）は時刻ｔに中心があるパルスの周波数ｆの成分の位相を示し、ａは位相の変調周波数を示し、ｘ　ｍｏｄ　ｙはｘをｙで割った余りを示す。

　次に、電子透かし検出装置１が行う処理の流れについて説明する。図４は、電子透かし検出装置１が行う処理の流れを示す図である。まず、残差信号抽出部１０１は、入力された音声信号から残差信号を抽出する（Ｓ１０１）。次に、有声区間推定部１０２は、入力信号からすべての有声区間（フレーム）を推定する（Ｓ１０２）。

　そして、位相推定部１０４は、Ｓ１０３の処理において例えばフレームの順番を示す＄ｉを１とし、有声区間推定部１０２が推定したフレームごとに、記憶部１０３が記憶している複数のパルス信号（テンプレート信号）を用いて位相を推定する（Ｓ１０４）。

　位相推定部１０４は、＄ｉが最終フレームを示しているか否かを判定する（Ｓ１０５）。位相推定部１０４は、＄ｉが最終フレームを示していない場合（Ｓ１０５：Ｎｏ）には、Ｓ１０６の処理に進む。また、位相推定部１０４は、＄ｉが最終フレームを示している場合（Ｓ１０５：Ｙｅｓ）には、Ｓ１０７の処理に進む。

　位相推定部１０４は、＄ｉの値を増加させ、＄ｉに次のフレームの順番を示させる（Ｓ１０６）。

　透かし判定部１０５は、最終フレームに到達した後に、推定された位相系列にアンラッピング処理を行い、短時間の区間ごとに傾きを算出して位相の傾きのヒストグラムを作成する（Ｓ１０７）。

　透かし判定部１０５は、作成したヒストグラムの最頻値に基づいて電子透かしの有無を検出する（Ｓ１０８）。

（変形例）
　次に、電子透かし検出装置１の変形例について説明する。図５は、電子透かし検出装置１の変形例の構成を例示するブロック図である。電子透かし検出装置１の変形例は、残差信号抽出部１０１、有声区間推定部２０２、記憶部１０３、位相推定部２０４及び透かし判定部１０５を有する。なお、図５に示した電子透かし検出装置１の変形例において、図１に示した電子透かし検出装置１を構成する部分と実質的に同一の部分には同一の符号が付してある。

　有声区間推定部２０２は、残差信号抽出部１０１が抽出した残差信号を用いて有声区間の推定を行う。残差信号は、人間の声帯振動を模擬した信号であり、図２に示したように、一定間隔ごとにパルス成分が出現する。例えば、有声区間推定部２０２は、残差信号の振幅値又はパワーが所定の閾値以上となった点（時刻）、つまりパルスの点のみを系列化する。そして、有声区間推定部２０２は、ある点に対して、前後の点との間隔（パルス間隔）が所定値以上であれば、始端と定め、次に同様の点が出現した場合に、その点を終端として有声区間を推定する。有声区間推定部２０２は、この処理を繰り返すことにより、有声区間の推定を行う。そして、有声区間推定部２０２は、フレームごとの基本周波数Ｆ_０を抽出し、基本周波数Ｆ_０の逆数（ピッチ時刻）の系列を算出して、ピッチ時刻の周期で有効な有声区間を推定し、位相推定部２０４に対して出力する（図６参照）。

　位相推定部２０４は、有効な有声区間を分析フレームとして切り出し、ピッチ時刻の系列の先頭のフレームにおいて、残差信号抽出部１０１から入力される残差信号の振幅値が最大となる時刻を先頭ピッチマークとする。また、位相推定部２０４は、ピッチ時刻の系列の先頭のフレームにおいて、局所的な位相の傾きを求め、傾きの絶対値が最大となる点（時刻）を先頭ピッチマークとしてもよい。

　図６に示した例においては、有声区間推定部２０２が算出する基本周波数Ｆ_０の逆数は、１／１００ｓｅｃとなっている。つまり、位相推定部２０４は、先頭ピッチマークに対してピッチ時刻分（１／１００ｓｅｃ分）だけ進んだ時刻を新たなピッチマークとして推定する。そして、位相推定部２０４は、この処理を繰り返し行うことにより、ピッチマーク系列を推定する。

　また、位相推定部２０４は、ピッチマークごとに、そのピッチマーク（時刻）を中心とするサブフレーム（分析フレーム）ごとにパターンマッチングを行い、位相推定部１０４と同様に位相系列を推定する。

　図６に示した例においては、位相推定部２０４は、ピッチマーク位置（時刻）のみでパターンマッチングを行っているが、これに限定されない。例えば、位相推定部２０４は、ピッチマーク位置周辺でもパターンマッチングを行い、最も類似度の高いパルス信号（テンプレート信号）の位相値を採用するように構成されてもよい。

　このように、図１に示した位相推定部１０４がフレーム単位で処理を行うのに対し、図５に示した位相推定部２０４は、ピッチマークごとに位相を推定するので、演算量を抑えつつ、精度よく位相を推定することができる。そして、透かし判定部１０５は、上述したように推定された位相系列を用いて電子透かしの有無を判定する。

　次に、電子透かし検出装置１の変形例が行う処理の流れについて説明する。図７は、電子透かし検出装置１の変形例が行う処理の流れを示す図である。まず、残差信号抽出部１０１は、入力された音声信号から残差信号を抽出する（Ｓ２００）。次に、有声区間推定部２０２は、フレームごとの基本周波数Ｆ_０の系列を抽出し、基本周波数Ｆ_０の逆数（ピッチ時刻）の系列を算出して、位相推定部２０４に対して出力する（Ｓ２０１）。

　そして、位相推定部２０４は、Ｓ２０２の処理において例えばピッチマークの順番を示す＄ｉを０とし、基本周波数Ｆ_０の先頭のフレーム内から先頭ピッチマークを推定する（Ｓ２０３）。

　位相推定部２０４は、＄ｉが０であるか否かを判定する（Ｓ２０４）。位相推定部２０４は、＄ｉが０でない場合（Ｓ２０４：Ｎｏ）には、Ｓ２０５の処理に進む。また、位相推定部２０４は、＄ｉが０である場合（Ｓ２０４：Ｙｅｓ）には、Ｓ２０６の処理に進む。

　位相推定部２０４は、＄ｉが０でない場合には、先頭ピッチマークに対してピッチ時刻分だけ進んだ時刻を新たなピッチマークとして推定する（Ｓ２０５）。

　位相推定部２０４は、推定したピッチマーク（時刻）を中心とするサブフレーム（分析フレーム）ごとに、記憶部１０３が記憶している複数のパルス信号（テンプレート信号）を用いてパターンマッチングを行い、位相を推定する（Ｓ２０６）。

　位相推定部２０４は、＄ｉが最終ピッチマークを示しているか否かを判定する（Ｓ２０７）。位相推定部２０４は、＄ｉが最終ピッチマークを示していない場合（Ｓ２０７：Ｎｏ）には、Ｓ２０８の処理に進む。また、位相推定部２０４は、＄ｉが最終ピッチマークを示している場合（Ｓ２０７：Ｙｅｓ）には、Ｓ２０９の処理に進む。

　位相推定部２０４は、＄ｉの値を増加させ、＄ｉに次のピッチマークの順番を示させる（Ｓ２０８）。

　透かし判定部１０５は、最終ピッチマークに到達した後に、推定された位相系列にアンラッピング処理を行い、短時間の区間ごとに傾きを算出して位相の傾きのヒストグラムを作成する（Ｓ２０９）。

　透かし判定部１０５は、作成したヒストグラムの最頻値に基づいて電子透かしの有無を検出する（Ｓ２１０）。

　なお、電子透かし検出装置１（又は電子透かし検出装置１の変形例）は、図１に示した位相推定部１０４と、図５に示した位相推定部２０４とが互いに置換され得るように構成されてもよい。

　本実施形態の電子透かし検出装置１及び変形例で実行される各プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

　また、本実施形態の各プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

　このように、電子透かし検出装置１及び変形例は、分析フレームにおける残差信号と、複数のパルス信号とのパターンマッチングを行うことにより、音声信号の位相を推定するので、演算量を抑えて合成音声に埋め込まれた電子透かしを検出することができる。

　また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　音声信号から残差信号を抽出する残差信号抽出部と、
　前記音声信号に基づいて有声区間を推定する有声区間推定部と、
　予め複数の異なる位相に変調された複数のパルス信号を記憶する記憶部と、
　前記有声区間を予め定められた長さの分析フレームごとに切り出し、前記分析フレームにおける前記残差信号と、前記複数のパルス信号とのパターンマッチングを行うことにより、前記音声信号の位相を推定する位相推定部と、
　前記位相推定部が推定した位相の系列に基づいて、前記音声信号における電子透かしの有無を判定する透かし判定部と、
　を有する電子透かし検出装置。
　前記有声区間推定部は、
　前記残差信号のパルス間隔を用いて有声区間を推定する
　請求項１に記載の電子透かし検出装置。
　前記残差信号抽出部は、
　線形予測係数分析、部分自己相関係数分析、又は線スペクトル分析を用いて残差信号を抽出する
　請求項１に記載の電子透かし検出装置。
　前記有声区間推定部は、
　前記音声信号の基本周波数の逆数と同じ周期で有効な有声区間を推定し、
　前記位相推定部は、
　前記有効な有声区間を前記分析フレームとして切り出してパターンマッチングを行うことにより、前記音声信号の位相を推定する
　請求項１に記載の電子透かし検出装置。
　前記有声区間推定部は、
　前記残差信号の振幅値が所定の閾値以上である場合に、前記残差信号それぞれの時刻に対応する時刻系列を生成し、前記時刻系列に基づいて有声区間を推定する
　請求項２に記載の電子透かし検出装置。
　前記記憶部は、
　－πからπまでの位相を複数の位相値に量子化して変調された複数のパルス信号を記憶する
　請求項１に記載の電子透かし検出装置。
　前記位相推定部は、
　前記残差信号により定まるピッチマークそれぞれを中心とする前記分析フレームごとにパターンマッチングを行うことにより、前記音声信号の位相系列を推定する
　請求項１に記載の電子透かし検出装置。
　前記位相推定部は、
　先頭ピッチマークの位相を推定した後、ピッチマークごとにパターンマッチングを行うことにより、前記音声信号の位相系列を推定する
　請求項１に記載の電子透かし検出装置。
　前記位相推定部は、
　前記分析フレーム内で前記残差信号の振幅が最大となる時刻、又は前記分析フレーム内で前記残差信号の傾きの絶対値が最大となる時刻に基づいて、前記先頭ピッチマークを決定する
　請求項８に記載の電子透かし検出装置。
　前記位相推定部は、
　前記残差信号により定まるピッチマークそれぞれを中心とする前記分析フレームごとにパターンマッチングを行うことにより、前記音声信号の位相系列を推定する
　請求項８に記載の電子透かし検出装置。
　前記位相推定部は、
　時間領域波形に対してパターンマッチングを行う
　請求項１に記載の電子透かし検出装置。
　前記位相推定部は、
　前記残差信号に対する相関係数が最大となる前記複数のパルス信号のいずれかの位相値を前記音声信号の位相として推定する
　請求項１１に記載の電子透かし検出装置。
　前記位相推定部は、
　前記残差信号に対する振幅値の差分が最小となる前記複数のパルス信号のいずれかの位相値を前記音声信号の位相として推定する
　請求項１１に記載の電子透かし検出装置。
　前記透かし判定部は、
　前記位相推定部が推定した位相の傾きの最頻値に基づいて、前記音声信号における電子透かしの有無を判定する
　請求項１１に記載の電子透かし検出装置。
　音声信号から残差信号を抽出する工程と、
　前記音声信号に基づいて有声区間を推定する工程と、
　前記有声区間を予め定められた長さの分析フレームごとに切り出し、前記分析フレームにおける前記残差信号と、予め複数の異なる位相に変調された複数のパルス信号とのパターンマッチングを行うことにより、前記音声信号の位相を推定する工程と、
　推定した位相の系列に基づいて、前記音声信号における電子透かしの有無を判定する工程と、
　を含む電子透かし検出方法。
　音声信号から残差信号を抽出するステップと、
　前記音声信号に基づいて有声区間を推定するステップと、
　前記有声区間を予め定められた長さの分析フレームごとに切り出し、前記分析フレームにおける前記残差信号と、予め複数の異なる位相に変調された複数のパルス信号とのパターンマッチングを行うことにより、前記音声信号の位相を推定するステップと、
　推定した位相の系列に基づいて、前記音声信号における電子透かしの有無を判定するステップと、
　をコンピュータに実行させるための電子透かし検出プログラム。