WO2013035537A1

WO2013035537A1 - 電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法

Info

Publication number: WO2013035537A1
Application number: PCT/JP2012/071202
Authority: WO
Inventors: 祐史鵜木; 良太宮内; 敏三小杉
Original assignee: 国立大学法人北陸先端科学技術大学院大学
Priority date: 2011-09-08
Filing date: 2012-08-22
Publication date: 2013-03-14
Also published as: US20140278447A1

Abstract

　電子透かし検出装置は、音響信号への電子透かしデータの埋め込みの際に用いられた蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するための第１チャープｚ変換部２０２ａ及び第２チャープｚ変換部２０２ｂを備えており、これらの第１チャープｚ変換部２０２ａ及び第２チャープｚ変換部２０２ｂによるチャープｚ変換の結果により推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた電子透かしデータを検出する。

Description

電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法

　本発明は、デジタルデータである音響信号（音声、音楽など）に埋め込まれた電子透かしデータを検出する電子透かし検出装置及び電子透かし検出方法、並びに電子透かしデータを用いて音響信号に対する改ざんを検出する改ざん検出装置及び改ざん検出方法に関する。

　近年では、インターネット等の通信ネットワークの普及に伴い、デジタル音楽コンテンツの配信サービス等が提供されるようになっている。しかしながら、デジタル音楽コンテンツの場合、音質をほとんど劣化することなく複製することが可能であるため、違法コピーが横行し、社会問題となっている。そこで、デジタル音楽コンテンツの著作権を保護するための技術として、著作権情報またはシリアルナンバー等の付加情報（電子透かしデータ）を音響信号に埋め込むことにより、違法コピー等の防止及び追跡等を図ることができる電子音響透かし技術が注目されている。

　電子音響透かし技術としては、例えば、（１）ＬＳＢ（Least Significant
Bit replacement）法（非特許文献１を参照）のように符号化／量子化レベルで透かしを埋め込む方法、（２）ＤＳＳ（Direct Spread Spectrum）法（非特許文献２）のように原信号の広範なスペクトルに情報を埋め込む方法がある。また、位相に係わる知覚特性に基づく方法として、（３）エコーハイディング法（以下「ＥＣＨＯ法」、非特許文献３を参照）、（４）周期的位相変調（ＰＰＭ：Periodical Phase Modulation）法（非特許文献４及び特許文献１を参照）等が提案されている。

　ところで、人間の聴覚が備える特性の一つに、蝸牛遅延（Cochlear Delay：ＣＤ）特性と呼ばれるものがある。音信号が蝸牛内（前庭階及び鼓室階にある非圧縮性のリンパ液内）を伝搬するとき、それらの二つの階の間の圧力差によって生じる蝸牛の基底膜の振動（伝播）には、信号の周波数に依存して、多少の時間差がみられる。この現象が蝸牛遅延であり、音信号の周波数が低いほど遅延が長くなることが知られている。

　非特許文献５においては、上記の蝸牛遅延と音の同時性判断との間にどのような関係があるのかが検討されている。具体的には、（ａ）通常（蝸牛遅延操作なし）の調波複合音、（ｂ）蝸牛の基底膜上において蝸牛遅延を打ち消すような群遅延を与えた調波複合音、（ｃ）蝸牛遅延を増長するような群遅延を与えた調波複合音の三つの複合音を用いて聴覚心理物理実験を行い、その実験結果に基づいて、蝸牛遅延が音の同時性判断にどのような影響を与えるのかが検討されている。この非特許文献５では、複合音（ｂ）よりも、複合音（ｃ）を用いた場合の方が、複合音（ａ）と同等の同時性判断を示すことが明らかにされている。

　上記の蝸牛遅延特性に着目し、電子透かしとして埋め込む情報の２値データに対応する二種類の異なる蝸牛遅延に似た遅延パターンを原信号に付与することにより、電子音響透かしを実現する方法（以下、「ＣＤ法」という）が非特許文献６及び７で提案されている。

特許第３６２７０２２号

N. Cvejic and T. Seppanen, "Digital audio watermarking techniques and technologies," IGI Global, 2007 Boney, L., Tewfik, H. H., andHamdy, K. N., "Digital watermarks for audio signals," Proc. ICMCS, 473-480, 1996 Daniel Gruhl, Anthony LuWalter Bender, "Echo Hiding,"Proc.Information Hiding 1st Workshop, pp.295-315, Cambridge Univ., 1996 西村竜一、鈴木陽一、「周期的位相変調に基づく音響電子透かし」、日本音響学会誌、vol.60、no.5、pp.269-272、2004 E. Aiba, S. Tanaka, M. Tsuzaki,and M. Unoki, "Judgment of perceptual synchrony betweentwo pulses and its relation to the cochlear delays,"Proc. Fechner day 2007, 211-214, 2007 Unoki, M. and Hamada, D. "Audio watermarking method based on the cochlear delaycharacteristics,"Proc. IIHMSP2008, 616-619, 2008 Unoki, M. and Hamada, D. "Method of digital-audio watermarking based on cochlear delaycharacteristics,"Int. J. Innv. Comp., Inf. Cont.,6(3(B)), 1325-1346, 2010

　一般に、電子音響透かし技術では、知覚不可能性（埋め込み情報が利用者に知覚されず、埋め込みによる原信号の知覚可能な歪みが生じないこと）、頑健性（通常の信号変換処理及び埋め込み情報を削除するといった悪意のある攻撃に対して影響を受けないこと）、及び秘匿性（情報が埋め込まれていることに気付かせないこと、気付かれてもその情報を容易に検出されないこと）が要求されている。

　上記（１）のＬＳＢ法は、振幅情報に大きく影響を与えない下位ビットに情報を埋め込むため、知覚不可能性を満たすが、ビット変化に敏感なため頑健性に問題がある。また、上記（２）のＤＳＳ法の場合、スペクトル全体に情報を埋め込むため、信号変形処理には頑健であるが、埋め込まれた情報を容易に知覚できるため知覚不可能性に問題がある。

　上記（３）のＥＣＨＯ法は、エコー時間及び１次反射音の振幅を調整することで歪みがなく、知覚不可能な埋め込みを実現できるが、自己相関法及びケプストラム処理を利用することで透かし情報を容易に検出・除去できるため、上記の従来の方法の中でもっとも頑健性・秘匿性に欠ける。また、上記（４）のＰＰＭ法は、周期的な位相変調が比較的知覚され難いという聴覚特性に基づいているが、位相変調が高い周波数成分の位相スペクトルをランダムに歪ませるため、知覚不可能性に問題がある。

　他方、上記のＣＤ法の場合、知覚不可能性、秘匿性、及び頑健性を十分に満足するものの、埋め込まれた情報を検出するために原信号を参照することが必要となるため、応用範囲が限定されるという問題がある。

　本発明は斯かる事情に鑑みてなされたものであり、その主たる目的は、ＣＤ法により埋め込まれた情報を、原信号を参照することなく検出することができる電子透かし検出装置及び電子透かし検出方法を提供することにある。また、本発明の他の目的は、電子音響透かし技術を応用した改ざん検出装置及び改ざん検出方法を提供することにある。

　上述した課題を解決するために、本発明の一の態様の電子透かし検出装置は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出する電子透かし検出手段とを備える。

　この態様において、前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、前記蝸牛遅延特性推定手段が、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定するように構成され、前記電子透かし検出手段が、前記蝸牛遅延特性推定手段により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出するように構成されていてもよい。

　また、前記態様において、前記蝸牛遅延特性推定手段が、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定するように構成されていてもよい。

　また、前記態様において、前記蝸牛遅延特性推定手段が、チャープｚ変換を用いて、前記蝸牛遅延フィルタの零点を推定するように構成されていてもよい。

　また、前記態様において、前記蝸牛遅延特性手段により推定された蝸牛遅延特性の逆特性を有するフィルタを電子透かしデータが埋め込まれた音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備えていてもよい。

　また、前記態様において、電子透かしデータが埋め込まれた音響信号の位相変調に適用されたと前記電子透かし検出手段により判定された蝸牛遅延フィルタの逆フィルタを当該音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備えていてもよい。

　本発明の一の態様の電子透かし検出方法は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ（ａ）と、推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出するステップ（ｂ）とを有する。

　この態様において、前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、前記ステップ（ａ）において、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定し、前記ステップ（ｂ）において、前記ステップ（ａ）により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出するようにしてもよい。

　また、前記態様において、前記ステップ（ａ）において、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定するようにしてもよい。

　また、前記態様において、前記ステップ（ａ）においてチャープｚ変換を用いて、前記蝸牛遅延フィルタの零点を推定するようにしてもよい。

　また、本発明の一の態様の電子透かしを用いた改ざん検出装置は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出装置であって、前記音響信号を外部から取得する音響信号取得手段と、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、　前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、前記音響取得手段によって取得された音響信号に埋め込まれている埋め込みデータを検出する埋め込みデータ検出手段と、前記埋め込みデータ検出手段によって検出された埋め込みデータと前記電子透かしデータとを照合する照合手段と、前記照合手段による照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する改ざん判定手段とを備える。

　さらに、本発明の一の態様の電子透かしを用いた改ざん検出方法は、蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出方法であって、前記音響信号を外部から取得するステップ（ａ）と、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ（ｂ）と、推定された蝸牛遅延特性に基づいて、取得された前記音響信号に埋め込まれている埋め込みデータを検出するステップ（ｃ）と、検出された前記埋め込みデータと前記電子透かしデータとを照合するステップ（ｄ）と、照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定するステップ（ｅ）とを有する。

　本発明に係る電子透かし検出装置及び電子透かし検出方法によれば、原信号を参照することなく、ＣＤ法により埋め込まれた電子透かしデータを検出することができる。また、本発明に係る電子透かしを用いた改ざん検出方法及び改ざん検出装置によれば、音響信号に対する改ざんの検出を適確に行うことができる。

本発明の実施の形態に係る電子透かし埋込装置の構成を示すブロック図。本発明の実施の形態に係る電子透かし埋込装置の構成を示す機能ブロック図。本発明の実施の形態における電子透かし埋込装置が備える蝸牛遅延フィルタの特性を示すグラフ。本発明の実施の形態に係る電子透かし検出装置の構成を示すブロック図。本発明の実施の形態に係る電子透かし検出装置の構成を示す機能ブロック図。蝸牛遅延フィルタの極及び零点を説明するためのグラフ。チャープｚ変換による周波数分析の結果を示すグラフ。本発明の実施の形態における電子透かし埋込装置が実行する電子透かし埋込処理の手順を示すフローチャート。本発明の実施の形態における電子透かし検出装置が実行する電子透かし検出処理の手順を示すフローチャート。客観評価実験の結果を示すグラフ。本発明の実施の形態における電子透かし検出装置が実行する原信号取得処理の手順を示すフローチャート。透かし入り音響信号についての客観評価実験の結果を示すグラフ。本発明の実施の形態の原信号取得処理により電子透かしデータを削除する前及び削除した後における客観評価実験の結果を示すグラフ。本発明の実施の形態２に係る改ざん検出システムの概要を示す説明図。本発明の実施の形態２に係る改ざん検出装置の構成を示すブロック図。本発明の実施の形態２に係る改ざん検出装置の構成を示す機能ブロック図。本発明の実施の形態２に係る改ざん検出装置の構成を示す機能ブロック図。本発明の実施の形態２における改ざん検出装置が実行する埋め込みデータ検出処理の手順を示すフローチャート。本発明の実施の形態２における改ざん検出装置が実行する改ざん判定処理の手順を示すフローチャート。実施の形態３に係る電子透かし埋込装置及び改ざん検出装置の構成を示す機能ブロック図。実施の形態３における電子透かし埋込装置が実行する電子透かし埋込処理の手順を示すフローチャート。実施の形態３に係る電子透かし埋込装置の構成を示す機能ブロック図。埋め込みデータ検出処理（ノンブラインド検出）の手順を示すフローチャート。実施の形態３に係る改ざん検出装置の構成を示す機能ブロック図。客観評価実験の結果を示すグラフ。耐性評価試験の結果を示すグラフ。電子透かしデータとして用いるビットマップ画像の例を示す図。音響信号に対して改ざんを施さなかった場合における検出後のビットマップ画像を示す図。音響信号に対してＰＣＭ（G711）の音声符号化を行った場合における検出後のビットマップ画像を示す図。音響信号に対して低ＳＮＲの白色雑音を音響信号に対して付与した場合における検出後のビットマップ画像を示す図。音響信号に対して人工残響を付与した場合における検出後のビットマップ画像を示す図。音響信号に対して実環境の残響を付与した場合における検出後のビットマップ画像を示す図。音響信号に対してwaveletタイプの音声分析合成系で改変を行った場合における検出後のビットマップ画像を示す図。音響信号に対して短時間フーリエ変換対を利用した音声分析合成系で改変を行った場合における検出後のビットマップ画像を示す図。音響信号に対して音素片合成による内容改変を行った場合における検出後のビットマップ画像を示す図。情報入替型改ざんの場合の音響信号の波形、ビット値が０及び１のときのスペクトルの差、及び検出値を示す図。改ざん検出装置が実行する改ざん態様判定処理の手順を示すフローチャート。

　以下、本発明の好ましい実施の形態を、図面を参照しながら説明する。なお、以下に示す各実施の形態は、本発明の技術的思想を具体化するための方法及び装置を例示するものであって、本発明の技術的思想は下記のものに限定されるわけではない。本発明の技術的思想は、特許請求の範囲に記載された技術的範囲内において種々の変更を加えることができる。

　（実施の形態１）
　本実施の形態に係る電子透かし検出装置は、原信号に埋め込まれた電子透かしデータをその原信号を参照することなく検出することができる装置である。このように原信号を参照することなく電子透かしデータを検出することを、本明細書では「ブラインド検出」と称する。以下、この電子透かし検出装置と、電子透かしデータを埋め込む電子透かし埋込装置について説明する。

　［電子透かし埋込装置の構成］
　図１は、本発明の実施の形態に係る電子透かし埋込装置の構成を示すブロック図である。図１に示すように、電子透かし埋込装置１は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、信号入力部１４、信号出力部１５及びハードディスク１６を備えており、これらのＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、信号入力部１４、信号出力部１５及びハードディスク１６は、バス１７によって接続されている。

　ＣＰＵ１１は、ＲＯＭ１２及びハードディスク１６に記憶されているコンピュータプログラムを実行する。これにより、電子透かし埋込装置１は、後述するような動作を実行し、音響信号に対する電子透かしデータの埋め込みを実現する。

　ＲＯＭ１２は、マスクＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、又はＥＥＰＲＯＭ等によって構成されており、ＣＰＵ１１によって実行されるコンピュータプログラム及びこれに用いられるデータ等を記憶している。

　ＲＡＭ１３は、ＳＲＡＭまたはＤＲＡＭ等によって構成されており、ハードディスク１６に記憶されているプログラムの読み出しに用いられる。また、ＲＡＭ１３は、ＣＰＵ１１がコンピュータプログラムを実行するときに、ＣＰＵ１１の作業領域としても利用される。

　信号入力部１４は、処理対象となる原信号である音響信号及びその音響信号に埋め込まれる電子透かしデータの入力を、外部の装置から受け付ける。また、信号出力部１５は、電子透かしデータが埋め込まれた音響信号（以下、「透かし入り音響信号」という）を外部の装置へ出力する。

　なお、本実施の形態においては、原信号である音響信号はデジタルデータである。しかし、当該音響信号がアナログデータであってもよく、その場合は、Ａ／Ｄ変換機能を備えた信号入力部１４が、入力された音響信号をＡ／Ｄ変換することによりデジタルデータに変換した上で、その後の処理を行うようにすればよい。

　ハードディスク１６には、オペレーティングシステム及びアプリケーションプログラム等、並びにＣＰＵ１１に実行させるための種々のコンピュータプログラムおよび当該コンピュータプログラムの実行に用いられるデータ等がインストールされている。このコンピュータプログラムには、電子透かしデータの埋め込みを行うための電子透かし埋込プログラム１６Ａが含まれる。

　ハードディスク１６にインストールされる電子透かし埋込プログラム１６Ａは、フレキシブルディスクドライブ、ＣＤ－ＲＯＭドライブ、またはＤＶＤ－ＲＯＭドライブ等の外部記憶装置（図示せず）を介して、可搬型記録媒体から読み出される。

　なお、このように可搬型記録媒体によって提供されるのみならず、電気通信回線（有線、無線を問わない）を介して電子透かし埋込装置１と通信可能に接続された外部の装置から電子透かし埋込プログラム１６Ａを提供することも可能である。例えば、電子透かし埋込プログラム１６Ａがインターネット上のサーバコンピュータのハードディスク内に格納されている場合において、このサーバコンピュータに電子透かし埋込装置１がアクセスして、当該コンピュータプログラムをダウンロードし、これをハードディスク１６にインストールすることも可能である。

　ハードディスク１６には、例えば米マイクロソフト社が製造販売するWindows（登録商標）等のマルチタスクオペレーティングシステムがインストールされている。以下の説明において、本実施の形態に係る電子透かし埋込プログラム１６Ａは当該オペレーティングシステム上で動作するものとする。

　次に、上記の電子透かし埋込装置１の構成を、図２に示す機能ブロック図を参照しながら説明する。なお、以下において、ｎはサンプリング番号を、ｋは音響信号のフレーム番号をそれぞれ示している。
　図２に示すように、電子透かし埋込装置１は、音響信号ｘ（ｎ）をフレーム化するフレーム処理部１０１と、２つの蝸牛遅延フィルタ１０２ａ及び１０２ｂと、電子透かしデータｓ（ｋ）の値に応じて第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂの何れかを選択するフィルタ選択部１０３とを備えている。

　フィルタ選択部１０３は、電子透かしデータのビット値が“０”である場合に第１蝸牛遅延フィルタ１０２ａを選択し、同じく“１”である場合に第２蝸牛遅延フィルタ１０２ｂを選択する。第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂでは、後述するようにして音響信号に群遅延を与える。このようにして群遅延が付与された音響信号が統合され、電子透かしデータが埋め込まれた音響信号である透かし入り音響信号ｙ（ｎ）が生成される。

　なお、本実施の形態において、これらのフレーム処理部１０１、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂ、並びにフィルタ選択部１０３は、ＣＰＵ１１が電子透かし埋込プログラム１６Ａを実行することによって実現される。

　［蝸牛遅延フィルタ］
　以下、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂの詳細について説明する。これらの第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂは、人間の聴覚の蝸牛遅延特性を模擬したデジタルフィルタであり、具体的には、振幅成分にはまったく影響を与えず、位相特性のみを変化させる全域通過フィルタで構成される。

　本実施の形態において、蝸牛遅延フィルタ１０２ａ及び１０２ｂは、以下の式（１）の伝達関数Ｈ（ｚ）により定義される１次の無限インパルス応答型全域通過フィルタで構成される。

　ここで、ｂ_ｍはＨ_ｍ（ｚ）のフィルタ係数を表している。
　このように、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂを１次の無限インパルス応答型全域通過フィルタで構成することにより、高速な処理が可能になる。

　なお、無限インパルス応答型全域通過フィルタの群遅延特性が蝸牛遅延特性をより正確に表していれば、フィルタ次数は１次以上であってもよく、また、フィルタのカスケード段数は１段以上であってもよい。

　第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂにより与えられる群遅延τｍ（ω）は以下の式（２）により算出される。

　図３は、本発明の実施の形態１における電子透かし埋込装置１が備える第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂの特性を示すグラフである。図３において、縦軸は群遅延を、横軸は音響信号の周波数をそれぞれ示している。

　図３において、細い実線は、人間の聴覚における蝸牛遅延を１／１０倍に縮小した蝸牛遅延特性を示している。また、太い実線は、フィルタ係数ｂ＝0.795の場合に上記式（１）により定義される第１蝸牛遅延フィルタ１０２ａの特性を示し、破線は、フィルタ係数ｂ＝0.865の場合に同じく定義される第２蝸牛遅延フィルタ１０２ｂの特性を示している。

　なお、図３において細い実線で示されている蝸牛遅延特性は、「T. Dau, O. Wegner, V. Mellert, and B. Kollmeier, “Auditory brainstem responses (ABR) with optimized chirp signals compensating basilar membrane dispersion,” J. Acoust. Soc. Am., 107, 1530-1540, 2000」を参考にして定めたものである。

　以上より、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂを音響信号にかけると、実際の蝸牛遅延の１／１０倍の蝸牛遅延を当該音響信号に付与することになる。したがって、人間の実際の蝸牛遅延特性を近似するためには、このような蝸牛遅延フィルタを１０段カスケード接続する必要がある。しかし、実際と同様の蝸牛遅延量を音響信号に与えることにすると、その音響信号を知覚する際の群遅延量は実際の蝸牛遅延量の２倍になってしまうため、遅延が大きすぎると考えられる。そこで、本実施の形態においては、上記のように実際の蝸牛遅延の１／１０倍の蝸牛遅延を音響信号に与えることにしている。

　本実施の形態において、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂはそれぞれ、下記の式（３）及び式（４）にしたがって、原信号である音響信号ｘ（ｎ）に蝸牛遅延パターンを付与し、中間信号ｗ_０（ｎ）及びｗ_１（ｎ）を得る。そして、フィルタ選択部１０３が、電子透かしデータのビット値に応じて、フレーム毎に中間信号ｗ_０（ｎ）及びｗ_１（ｎ）を選択・統合することにより、下記の式（５）に示す透かし入り音響信号ｙ（ｎ）を取得する。

ただし、（ｋ－１）ΔＷ＜ｎ≦ｋΔＷを満足する。ここで、ΔＷ（＝ｆ_s／Ｎ_bit）はフレーム長であり、ｆ_sは原信号のサンプリング周波数を、Ｎ_bitは１秒あたりの情報埋込ビットレートをそれぞれ表している。

　［電子透かし検出装置の構成］
　図４は、本発明の実施の形態に係る電子透かし検出装置の構成を示すブロック図である。図４に示すように、電子透かし検出装置２は、上記の電子透かし埋込装置１と同様に、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、信号入力部２４、及びハードディスク２５を備えており、これらのＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、信号入力部２４及びハードディスク２５は、バス２６によって接続されている。

　ＣＰＵ２１、ＲＯＭ２２及びＲＡＭ２３のそれぞれについては、電子透かし埋込装置１が備えるＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３と同様であるので、説明を省略する。

　信号入力部２４は、透かし入り音響信号の入力を外部の装置から受け付ける。この透かし入り音響信号は、信号入力部２４に対して電子透かし埋込装置１から直接入力されてもよく、他の装置及び／又は通信ネットワーク等を介して入力されてもよい。

　ハードディスク２５には、電子透かし埋込装置１の場合と同様に、オペレーティングシステム及びＣＰＵ２１に実行させるための種々のコンピュータプログラム等がインストールされている。このコンピュータプログラムには、電子透かしデータの検出を行うための電子透かし検出プログラム２５Ａが含まれる。

　電子透かし埋込プログラム１６Ａの場合と同様に、ハードディスク２５にインストールされる電子透かし検出プログラム２５Ａは、可搬型記録媒体によって提供されてもよく、電気通信回線を介して提供されてもよい。また、この電子透かし検出プログラム２５Ａは、電子透かし埋込プログラム１６Ａの場合と同様に、ハードディスク２５にインストールされているオペレーティングシステム上で動作するものとする。

　次に、上記の電子透かし検出装置２の構成を、図５に示す機能ブロック図を参照しながら説明する。
　図５に示すように、電子透かし検出装置２は、電子透かし埋込装置１により生成された透かし入り音響信号ｙ（ｎ）をフレーム化するフレーム処理部２０１と、フレーム化された透かし入り音響信号ｙ（ｎ）に対して、チャープｚ変換を施す２つのチャープｚ変換部２０２ａ及び２０２ｂと、これらの第１チャープｚ変換部２０２ａ及び第２チャープｚ変換部２０２ｂによるチャープｚ変換の結果に基づいて、電子透かしデータのビット値を検出するビット値検出部２０３とを備えている。なお、本実施の形態において、これらのフレーム処理部２０１、第１チャープｚ変換部２０２ａ及び第２チャープｚ変換部２０２ｂ、並びにビット値検出部２０３は、ＣＰＵ２１が電子透かし検出プログラム２５Ａを実行することによって実現される。

　［チャープｚ変換］
　第１チャープｚ変換部２０２ａ及び第２チャープｚ変換部２０２ｂが実行するチャープｚ変換（ＣＺＴ）は、周波数スペクトルのフレキシブルな分析を可能とする手法として知られ（例えば、「Wang, T. T. “The segmented chirp z-transform and its application in spectrum analysis,”IEEE Trans. Instrumentation and measurement, 39(2), 318-323, 1990」を参照）、高速フーリエ変換（ＦＦＴ）の実装にも活用されている。このチャープｚ変換は、離散フーリエ変換（ＤＦＴ）と比較して、周波数分解能及び周波数応答のダイナミックレンジを自由に変えられるという特徴を有している。また、ｚ平面上で任意のＭ点でのｚ変換を効率良く求めることができるという特徴も有している。

　一般に、チャープｚ変換は、ｚ＝ｒexp（ｊω_ｎ）でＮ点のＤＦＴと結ばれる（大きさｒ＝１で正規化周波数ω_ｎ＝２πｎ／Ｎのとき単位円周上のＤＦＴと等価である）関係にある。ここで、チャープｚ変換は下記の式（６）により表される。

ただし、Ａ＝Ａ_０ｅｘｐ（ｊ２πθ_０）、Ｗ＝Ｗ_０ｅｘｐ（ｊ２πφ_０）である。ここで、θ_０及びφ_０は初期位相である。上述したように、Ａ＝１、Ｍ＝Ｎ、Ｗ＝ｅｘｐ（－ｊ２π／Ｎ）のとき、ＣＺＴはＤＦＴに一致する。

　［ブラインド検出の原理］
　本実施の形態では、上記のチャープｚ変換を用いることにより、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂを用いて音響信号に埋め込まれた電子透かしデータのブラインド検出を実現する。以下、このブラインド検出の原理について説明する。

　第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂの極及び零点は、図６に示すとおりに配置される。これらの蝸牛遅延フィルタ１０２ａ及び１０２ｂは、上述したように１次ＩＩＲ型全域通過フィルタであり、その特徴として極（図６中の“×”）及び零点（図６中の“○”）は中心点から単位円に向かって垂線を描いたときに交差する半径及びその逆数（ｂ_ｍ及び１／ｂ_ｍ）の関係にある。一般に、ｂ_ｍの値が減少するにしたがい、極は中心点に近付き、零点は単位円から外側に向かって離れていく。反対に、ｂ_ｍの値が増加するにしたがい、極及び零点は互いに単位円に向かって近付いていく。この場合の群遅延量は、図３に示すように、ｂ_ｍの値の増加とともに増加する。なお、図６において、太字の“○”及び“×”は第１蝸牛遅延フィルタ１０２ａの曲及び零点をそれぞれ示し、細字の“○”及び“×”は第２蝸牛遅延フィルタ１０２ｂの曲及び零点をそれぞれ示している。

　透かし入り音響信号ｙ（ｎ）は、上述したような遅延情報が埋め込まれた信号として観測されることになる。そのため、ｙ（ｎ）から遅延情報、すなわち遅延情報の付与に利用された蝸牛遅延フィルタの極及び零点の位置を推定することにより、ブラインド検出を実現することができる。

　なお、原信号ｘ（ｎ）自体も数列の特性として極及び零点を持つため（音源が有界であるとして、その信号の減衰に関係する極など）、観測信号ｙ（ｎ）から仮に極及び零点の位置を推定できたとしても、それはＩＩＲ型全域通過フィルタ（蝸牛遅延フィルタ）によって付与されたものなのか、原信号そのものが持つものであるのかを見極める必要がある。

　チャープｚ変換を用いることにより、蝸牛遅延フィルタの極及び零点の位置を推定することができることを示すために、上記の式（１）の蝸牛遅延フィルタの零点ｒ＝１／ｂ_ｍを通るようにｒを選択して、原信号ｘ（ｎ）及び遅延情報を埋め込んだ信号ｙ（ｎ）をチャープｚ変換（Ａ＝ｒ、Ｍ＝Ｎ、Ｗ＝ｅｘｐ（－ｊ２π／Ｎ））することにより周波数分析を行う。

　以下、原信号である楽器音をｘ（ｎ）とし、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂを利用して“AIS-Lab.”の電子透かしデータを埋め込んだ信号をｙ（ｎ）とする。ここでは、第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂはいずれも直流成分のところに極及び零点を配置しており、ｒ＝１／ｂ_０又はｒ＝１／ｂ_１としたチャープｚ変換の周波数分析を行う。なお、サンプリング周波数は４４．１ｋＨｚ、ビットレートはＮ_ｂｉｔ＝４ｂｐｓとして、１フレーム（２５０ｍｓ）に１ビット相当の遅延情報を埋め込むものとする。

　図７は、その分析結果を示すグラフである。図７（ａ）乃至（ｉ）は、左から右にフレーム＃１でのｘ（ｎ）、フレーム＃１でのｙ（ｎ）、フレーム＃２のｙ（ｎ）の周波数スペクトルを、上から下にｒ＝１、ｒ＝１／ｂ_０、ｒ＝１／ｂ_１でのチャープｚ変換により分析した結果をそれぞれ示している。図７（ｇ）に示すように、ｘ（ｎ）に関する分析結果では、極及び零点配置の周波数付近でのスペクトルには特段変化がみられない。他方、フレーム＃１のｙ（ｎ）ではｒ＝１／ｂ_１でのチャープｚ変換の結果（図７（ｈ））において、フレーム＃２のｙ（ｎ）ではｒ＝１／ｂ_０でのチャープｚ変換の結果（図７（ｆ））において、最も低い周波数領域（直流成分から低周波数域までの範囲；例えば図３に示す遅延が見られる周波数帯）のところでスペクトル成分が劇的に減少していることがわかる（図中の矢印で示す箇所）。これは、零点の影響によるディップ（くぼみ）に対応しているため、原理的にはその大きさは－∞ｄＢになる。それ以外の分析（ｒ＝１、ｒ＝１／ｂ_０（フレーム＃１の場合）、及びｒ＝１／ｂ_１（フレーム＃２の場合））では、最も低い周波数のところでスペクトル成分の変化はほとんど見られない（すなわち、－∞ｄＢ（線形で０）に近付かない）。なお、この結果に関しては、他のフレーム及び他の対象信号でも同様のことが起こることが確認されている。

　以上より、対象信号に係わらず、蝸牛遅延フィルタの零点を交差するようにｚ平面上の軌跡に沿ってチャープｚ変換を行うことにより、ｙ（ｎ）から蝸牛遅延フィルタの零点の位置を推定することが可能であることが分かる。なお、原理的には、ｒを零点ではなく極の値にしてチャープｚ変換を行うことも可能である（極の場合は∞ｄＢのスペクトルピークを得ることになる）が、計算機上でのダイナミックレンジ内のオーバーフローを検出しなければならないため、零点を用いる方が望ましい。零点を利用する場合は、ダイナミックレンジ内の０を探せばよいため、より容易な処理で足りることになる。

　本実施の形態では、第１チャープｚ変換部２０２ａがｒ＝１/ｂ_０のｚ平面上の軌跡に沿ったチャープｚ変換を行い、第２チャープｚ変換部２０２ｂがｒ＝１/ｂ_１のｚ平面上の軌跡に沿ったチャープｚ変換を行う。これらのチャープｚ変換の結果を用いることにより、対象信号が、第１蝸牛遅延フィルタ１０２ａ（フィルタ係数ｂ_０）及び第２蝸牛遅延フィルタ１０２ｂ（フィルタ係数ｂ_１）の何れにより群遅延が与えられたものであるのかを推定することが可能になる。

　［電子透かし埋込装置１及び電子透かし検出装置２の動作］
　次に、上述したように構成された本実施の形態の電子透かし埋込装置１及び電子透かし検出装置２の動作について、図８及び図９に示すフローチャートと図２及び図５とを参照しながら説明する。

　［電子透かし埋込処理］
　図８は、本発明の実施の形態における電子透かし埋込装置１が実行する電子透かし埋込処理の手順を示すフローチャートである。
　電子透かし埋込装置１は、フレーム処理部１０１において、外部から入力された音響信号（原信号）を各フレームに分割する（Ｓ１０１）。次に、電子透かし埋込装置１は、フィルタ選択部１０３において、電子透かしデータのビット値に応じて適用する蝸牛遅延フィルタの選択を行う。具体的には、外部から入力され、２進数表現のデータに変換された電子透かしデータのビット値が“０”及び“１”の何れであるかを判定し（Ｓ１０２）、その判定結果に応じて第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂの何れかを選択する。なお、電子透かしデータとしては、例えば著作権者名等の著作権情報またはシリアルナンバー等が挙げられる。

　ステップＳ１０２において電子透かしデータのビット値が“０”であると判定した場合（Ｓ１０２で“０”）、電子透かし埋込装置１は、第１蝸牛遅延フィルタ１０２ａを用いて、音響信号（原信号）に対して位相変調を施す（Ｓ１０３）。他方、電子透かしデータのビット値が“１”であると判定した場合（Ｓ１０２で“１”）、電子透かし埋込装置１は、第２蝸牛遅延フィルタ１０２ｂを用いて、音響信号（原信号）に対して位相変調を施す（Ｓ１０４）。これらのステップＳ１０３及びＳ１０４により、電子透かしデータが音響信号により埋め込まれることになる。

　次に、電子透かし埋込装置１は、当該フレームに埋め込む電子透かしデータのすべてのビットが処理されたか否かを判定する（Ｓ１０５）。ここでまだ処理されていないビットがあると判定した場合（Ｓ１０５でＮＯ）、電子透かし埋込装置１は、ステップＳ１０２へ戻り、それ以降の処理を繰り返す。他方、すべてのビットが処理されたと判定した場合（Ｓ１０５でＹＥＳ）、電子透かし埋込装置１は、ステップＳ１０３及びＳ１０４により電子透かしデータの各ビットが埋め込まれた音響信号を接合することにより、透かし入り音響信号を生成する（Ｓ１０６）。

　上記の電子透かし埋込処理をすべてのフレームについて行い、それらを接続することにより、透かし入り音響信号ｙ（ｎ）が生成される。なお、フレームの接続箇所に不連続点が生じることにより（スペクトル拡散の原因でもある）知覚不可能性に影響が出ることを防止するために、接続部前のフレームの後ろ数点（１ｍｓ程度）をスプライン（Spline）補間で滑らかにすることが望ましい。

　［電子透かし検出処理］
　次に、上記のようにして電子透かしデータが埋め込まれた透かし入り音響信号から、当該電子透かしデータを検出する電子透かし検出処理について説明する。本実施の形態では、上述したように、原信号を参照しないブラインド検出を行う。なお、電子透かし検出装置２は、電子透かし埋込装置１により電子透かしデータが埋め込まれた際のビットレートを示す情報を記憶しており、当該情報に基づいて下記のセグメントの設定を行うものとする。

　図９は、本発明の実施の形態における電子透かし検出装置２が実行する電子透かし検出処理の手順を示すフローチャートである。
　電子透かし検出装置２は、フレーム処理部２０１において、外部から入力された透かし入り音響信号を各フレームに分割する（Ｓ２０１）。次に、電子透かし検出装置２は、処理対象のセグメントを設定し（Ｓ２０２）、第１チャープｚ変換部２０２ａにおいて、当該セグメントの音響信号に対してチャープｚ変換を行う（Ｓ２０３）。さらに、第２チャープｚ変換部２０２ｂにおいて、同じ音響信号に対してチャープｚ変換を行う（Ｓ２０４）。

　次に、電子透かし検出装置２は、ステップＳ２０３及びＳ２０４により得られた２つの周波数スペクトルのうちの何れが、最も低い周波数でのスペクトルの値が急激に減少しているか否かを判定し、その判定結果に基づき、当該音響信号に対して位相変調を施した蝸牛遅延フィルタの零点を推定する（Ｓ２０５）。本実施の形態の場合、上記のようにスペクトルの値が急激に減少しているのが第１チャープｚ変換部２０２ａにより得られた周波数スペクトルである場合は当該零点が１／ｂ_０であると推定され、同じく第２チャープｚ変換部２０２ｂにより得られた周波数スペクトルである場合は当該零点が１／ｂ_１であると推定される。

　次に、電子透かし検出装置２は、ビット値検出部２０３において、ステップＳ２０５により推定された蝸牛遅延フィルタの零点が１／ｂ_０及び１／ｂ_１の何れであるかを判定し（Ｓ２０６）、１／ｂ_０と判定した場合（Ｓ２０６で１／ｂ_０）はビット値“０”を検出する（Ｓ２０７）。他方、１／ｂ_１と判定した場合（Ｓ２０６で１／ｂ_１）はビット値“１”を検出する（Ｓ２０８）。

　その後、電子透かし検出装置２は、処理対象のフレームのすべてのセグメントについて処理を行ったか否かを判定する（Ｓ２０９）。ここで、まだ処理を行っていないセグメントがあると判定した場合（Ｓ２０９でＮＯ）、電子透かし検出装置２は、ステップＳ２０２へ戻り、それ以降の処理を繰り返す。他方、すべてのセグメントについて処理を行ったと判定した場合（Ｓ２０９でＹＥＳ）、電子透かし検出装置２は、ステップＳ２０７及びＳ２０８においてビット値検出部２０３により検出したビット値を接合することにより、電子透かしデータを復元する（Ｓ２１０）。

　以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた電子透かしデータをブラインド検出することができる。

　［他の手法との比較評価］
　次に、上述した本実施の形態の電子透かし埋込処理により埋め込まれた電子透かしデータの知覚不可能性と、同じく電子透かし検出処理によるビット検出の正確性とについて、他の手法と比較評価する。

　本発明者等は、ＲＷＣ音楽データベース（後藤、橋口、西村、岡、“RWC 研究用音楽データベース:音楽ジャンルデータベースと楽器音データベース,” 情処学研究報告、2002-MUS-45-4, 19-26, 2002）の全１０２曲を評価用の原信号（サンプリング周波数４４．１ｋＨｚ、１６ビット量子化）として利用して、客観評価実験を行った。ここでは、冒頭１０秒間を元曲として、８文字の情報（“AIS-Lab.”）を透かし情報として各原信号に埋め込んだ。また、Ｎ_ｂｉｔ＝４ｂｐｓをベースとし、１２条件のＮ_ｂｉｔ（Ｎ_ｂｉｔ = 4，8，16，32，64，128，256，512，1024，2048，4096，819ｂｐｓ）で、電子透かしデータを原信号の両チャンネルに埋め込み、その特性評価を行った。音質評価に関しては、「Y. Lin and W. H. Abdulla, “Perceptual evaluation of audio watermarking using objective quality measure,” Proc. ICASSP2008, 1745-1748, 2008」に基づき、オーディオ信号に対する知覚評価尺度（ＰＥＡＱ）（P. Kabal, “An examination and interpretation of ITU-R BS.1387: Perceptual evaluation of audio quality,”TSP Lab. Technical Report, Dept. Electrical & Computer Engineering, McGUniv. 2002）及び対数スペクトル歪尺度（ＬＳＤ）を利用した。

　比較対象の手法としては、代表的な電子音響透かし法であるＬＳＢ法、ＤＳＳ法、ＥＣＨＯ法、ＰＰＭ法を利用した。なお、これらの手法は、ＰＰＭ法を除き、何れもブラインド検出法である。また、発明者等により非特許文献６及び７にて提案されているＣＤ法も比較対象とした。以下、この比較対象のＣＤ法をＣＤ（Non-Blind）法とし、本実施の形態の電子透かし検出方法をＣＤ（Blind）法と表現する。

　図１０は、上記の客観評価実験の結果を示すグラフであり、（ａ）乃至（ｃ）はそれぞれＰＥＡＱ、ＬＳＤ、ビット検出率についての実験結果を示している。なお、図１０では、上記１０２曲についての平均値が示されている。

　まず、図１０（ａ）に示す結果について検討する。ＰＥＡＱのＯＤＧ（Objective Difference Grade）値は０（知覚不可能）～－４（非常に耳障りである）であるため、ここでは－１（知覚される可能性があるが耳障りではない）を知覚不可能性の閾値と定めた。図１０（ａ）に示されるように、ＤＳＳ法が最も悪く、ＥＣＨＯ法もビットレートが８ｂｐｓ以降から先で急激に悪くなっている。また、ＰＰＭ法は全般的にＯＤＧが－２程度となっている。他方、ＬＳＢ法は、今回の全てのビットレートにおいて良好な結果が得られている。また、ＣＤ（Non-Blind）法では、ビットレートが４ｂｐｓでは全く問題がないが、１２８ｂｐｓあたりからＯＤＧ値が減少し、１０２４ｂｐｓ程度以降で閾値－１を下回っている。これらに対し、本実施の形態のＣＤ（Blind）法では、６４ｂｐｓの時点で既に－１．０付近となり、ｂｐｓの増加とともに－３．０付近まで低下している。

　次に、図１０（ｂ）に示す結果について検討する。一般にＬＳＤは１ｄＢ内の歪みであれば音質がよいといわれているため、ここでは、ＬＳＤの閾値を１ｄＢに設定した。図１０（ｂ）に示すように、ＬＳＢ法は、ビットレートを変えても埋め込みによる歪みの影響を受けておらず、良好な結果が得られている。他方、ＤＳＳ法の場合、ビットレートの増加にかかわらず評価閾値の上にあり、音質評価では問題があることが分かる。ＥＣＨＯ法及びＰＰＭ法は、いずれも評価閾値内にあり、特に音質に関して問題があるとはいえない。また、ＣＤ（Non-Blind）法は、すべてのビットレートで閾値内にあり、２５６ｂｐｓまでは０．５ｄＢ以内を維持するという良好な結果となっている。これらに対し、ＣＤ（Blind）法は、ビットレートの増加に対して単調増加しており、Ｎ_ｂｉｔ＜１０２４ｂｐｓまでは閾値以下（－１ｄＢ）にあるものの、ＣＤ（Non-Blind）法と比較すると若干大きな値となっている。しかし、４～６４ｂｐｓの付近では、ＣＤ（Blind）法でのＬＳＤがＣＤ（Non-Blind）法のものよりも若干小さい値になっている。なお、ＣＤ（Blind）法及びＣＤ（Non-Blind）法のＬＳＤでの差は、図１０（ａ）に示すＰＥＡＱの場合ほど大きくはなっていない。これは、単純なスペクトル歪みでみる場合と比べると、聴覚的な印象に基づく尺度では両者により違いが現れるためであると考えられる。

　最後に、図１０（ｃ）に示す結果について検討する。ここでは、ビット検出率の閾値を７５％とした。図１０（ｃ）に示すように、ＬＳＢ法を除き、いずれの手法ともビットレートの増加に伴いビット検出率の低下が見られる。ＣＤ（Non-Blind）法は、Ｎ_ｂｉｔ＝１０２４ｂｐｓ程度で閾値を切るが、他の従来手法ではもっと低いビットレートで閾値を切っている。他方、本実施の形態のＣＤ（Blind）法では、ビット検出率の低下はほとんど見られず、ＣＤ（Non-Blind）法と比べても良好な結果が得られている。具体的には、Ｎ_ｂｉｔ＜５１２まではほぼ１００％であり、１０２４ｂｐｓに至って９８％となっている。

　なお、上記の客観評価実験では、ＬＳＢ法が最も良い結果を出しているが、ＬＳＢ法の場合、埋め込みされた信号が少しでも改変された場合に検出できないため、頑健性に大きな問題があることが非特許文献６及び７等で指摘されている。これに対し、ＣＤ（Non-Blind）法の場合、「Unoki, M., Imabeppu, K., Hamada, D., Haniu, A., and Miyauchi, R. “Embedding limitations with digital-audio watermarking method based on cochlear delay characteristics,” J. Information Hiding and Multimedia Signal Processing, 2(1), 1-23, 2011」等に示されるように、十分な頑健性を備えている。しかしながら、ＣＤ（Non-Blind）法ではブラインド検出ができないという問題があり、本実施の形態のＣＤ（Blind）法では、この問題を解消しつつ、優れた知覚不可能性及び頑健性を得ることが可能である。

　［原信号取得処理］
　従来の多くの電子音響透かし技術では、電子透かしデータを原信号に埋め込んだ後、それを検出することのみが考慮され、検出後にその電子透かしデータを取り除くことまでは検討されていない。そのため、埋め込まれた電子透かしデータを取り除くための工夫はなされず、除去が困難な態様で電子透かしデータの埋め込みを行っている。このことから、従来の多くの技術は、非可逆的な電子音響透かし技術であるといえる。これに対し、本実施の形態では、原信号に対して蝸牛遅延フィルタにより位相変調を施すという比較的単純な処理で電子透かしデータの埋め込みを行っており、その後検出された電子透かしデータを利用することにより、簡易な方法で当該電子透かしデータを取り除いて原信号を取得することができる。このように、本実施の形態では、可逆型の電子音響透かし技術を実現することができる。以下、この原信号を取得するための処理について説明する。

　図１１は、本発明の実施の形態における電子透かし検出装置２が実行する原信号取得処理の手順を示すフローチャートである。なお、以下では、電子透かし検出装置２が、電子透かし埋込装置１が備える第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂの逆フィルタ、すなわち第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂが模擬する蝸牛遅延特性の逆特性を有するフィルタを備えているものとする。

　電子透かし検出装置２は、フレーム処理部２０１において、外部から入力された透かし入り音響信号を各フレームに分割する（Ｓ３０１）。次に、電子透かし検出装置２は、上記の電子透かし検出処理により検出された電子透かしデータを参照し（Ｓ３０２）、その電子透かしデータのビット値が“０”及び“１”の何れであるかを判定する（Ｓ３０３）。

　ステップＳ３０３において電子透かしデータのビット値が“０”であると判定した場合（Ｓ３０３で“０”）、電子透かし検出装置２は、第１蝸牛遅延フィルタ１０２ａの逆フィルタを用いて、透かし入り音響信号に対して位相変調を施す（Ｓ３０４）。他方、電子透かしデータのビット値が“１”であると判定した場合（Ｓ３０３で“１”）、電子透かし検出装置２は、第２蝸牛遅延フィルタ１０２ｂの逆フィルタを用いて、透かし入り音響信号に対して位相変調を施す（Ｓ３０５）。

　次に、電子透かし埋込装置１は、当該フレームに埋め込まれている電子透かしデータのすべてのビットについて処理がなされたか否かを判定する（Ｓ３０６）。ここでまだ処理がなされていないビットがあると判定した場合（Ｓ３０６でＮＯ）、電子透かし検出装置２は、ステップＳ３０３へ戻り、それ以降の処理を繰り返す。他方、すべてのビットについて処理がなされたと判定した場合（Ｓ３０６でＹＥＳ）、電子透かし検出装置２は、ステップＳ３０４及びＳ３０５により位相変調が施された音響信号を接合することにより、原信号を復元する（Ｓ３０７）。

　上記の原信号取得処理をすべてのフレームについて行い、それらを接続することにより、原信号が取得されることになる。なお、電子透かし埋込処理の場合と同様に、フレームの接続箇所に不連続点が生じることにより知覚不可能性に影響が出ることを防止するために、接続部前のフレームの後ろ数点（１ｍｓ程度）をスプライン補間で滑らかにすることが望ましい。

　［原信号取得処理の評価］
　上述した原信号取得処理により取得された信号が実際の原信号と一致しているか等の点について確認するために、上記の客観評価実験と同様の実験を行った。以下、この結果について検討する。

　図１２は、ＣＤ（Non-Blind）法及びＣＤ（Blind）法における電子透かし埋込処理により生成された透かし入り音響信号についての上記客観評価実験の結果を示すグラフであり、（ａ）乃至（ｃ）はそれぞれＰＥＡＱ、ＬＳＤ、ビット検出率についての実験結果を示している。なお、図１２には、上記１０２曲についての平均値が示されている。

　図１２において、ＣＤ（Blind）法の結果は、上述したスプライン補間を行った場合（Blind（Splineあり））と行っていない場合（Blind（Splineなし））とに分けて示されている。図１２を参照すると、スプライン補間を行っている方が、ＰＥＡＱ、ＬＳＤ、ビット検出率の何れについても良い結果が出ていることが分かる。ただし、ビット検出率についてはほとんど違いがない。

　他方、図１３は、本実施の形態の原信号取得処理により電子透かしデータを削除する前及び削除した後における上記の客観評価実験の結果を示すグラフであり、（ａ）乃至（ｃ）はそれぞれＰＥＡＱ、ＬＳＤ、ＳＮＲ（Signal-Noise Ratio）についての実験結果を示している。このＳＮＲにおいて、Ｓは原信号、Ｎは原信号と回復信号（上記の原信号取得処理により得られた信号）との差を意味している。なお、ここでも、上記１０２曲についての平均値が示されている。

　図１３を参照すると、電子透かしデータを削除する前よりも、削除した後の方が全般的に良好な結果となっていることが分かる。特に、図１３（ｃ）に示すＳＮＲではそのことが顕著となっている。回復信号が原音に近付くほどＳＮＲは高い値になるため、図１３（ｃ）に示す結果は、本実施の形態の原信号取得処理により取得された信号が原信号に近いこと、換言すると透かし入り音響信号から埋め込まれた電子透かしデータを効果的に削除することができたことを表しているといえる。

　このように、本実施の形態では、蝸牛遅延フィルタの逆フィルタを用いて位相変調を行うという簡易な処理で、透かし入り音響信号から電子透かしデータを除去して原信号を取得することができる。このように、原信号を取得することができるため、その原信号に新たな電子透かしデータを埋め込み、これを流通させるようなことも可能となる。これにより、埋め込み情報（例えば、著作権情報、シリアルナンバー等）の内容を更新することができる電子音響透かし技術を実現することができる。

　（実施の形態２）
　実施の形態２は、実施の形態１に記載された透かし検出方法を用いることによって、音響信号に対する改ざんを検出することができる改ざん検出装置である。

　近年では、デジタル技術の進展に伴い、音声・音楽等の各種の音響信号がデジタルデータとして扱われている。今後この傾向はより顕著となり、様々な領域でデジタルデータの音響信号が用いられるようになることが予測される。デジタルデータの場合、アナログデータと比べて加工処理が容易であるため、加工・編集するための種々の技術が既に多く存在しており、音響信号を対象にしたものも種々提案されている。例えば、特開２００３－１０８１７７号公報では、音素片データをピッチ変換して音声合成する際に自然な発音を得ることを可能にする音素片音声合成システムが提案されている。また、特許第３２５１５５５号では、所謂ＶＯＣＯＤＥＲタイプの音声合成系が提案されている。これらのような音声合成技術等を用いることにより、音響信号の加工・編集を容易に行うことが可能になる。その結果、例えば元の所有者が意図しない態様で音響信号が改ざんされる等の事態も生じ得る。しかしながら、現時点ではそのような音響信号に対する改ざんを検出することが困難であるため、改ざんが施された不正な複製データが拡散するおそれがある。

　本発明者等は、音響信号に対する改ざんの検出方法を種々検討した結果、マルチメディア情報ハイディング（ＭＩＨ：Multimedia Information Hiding）技術に着目し、音響信号に埋め込まれる電子透かしデータに基づいて当該音響信号の改ざんの有無を判定する方法を知見した。また、本発明者等は、このように電子透かしデータを用いることにより、違法コピー対策を兼ねて改ざんの検出を行うことができるため、様々な領域に応用可能であると考えた。以下、本実施の形態の改ざん検出装置の構成及び動作について説明する。

　　［改ざん検出システムの構成］
　図１４は、本発明の実施の形態２に係る改ざん検出システムの概要を示す説明図である。図１４に示すように、本実施の形態の改ざん検出システムは、実施の形態１において記載した電子透かし埋込装置１と、音響信号に対する改ざんを検出する改ざん検出装置３とを備えている。音響信号の所有者は、所有している音響信号を電子透かし埋込装置１に対して入力する。電子透かし埋込装置１は、音響信号の入力を受けて、当該音響信号に対して電子透かしデータを埋め込む。このようにして生成された透かし入り音響信号は、インターネット等の通信ネットワーク及びその他の手段を介して各利用者に対して配布される。

　各利用者の中に、透かし入り音響信号に対してその一部を書き換える等の処理を施すことにより改ざんを行う改ざん者が現れた場合、その改ざん者によって作成された改ざん音響信号が不正に配布される。その不正に配布された改ざん音響信号を取得した改ざん検出装置３は、電子透かし埋込装置１によって音響信号に埋め込まれた電子透かしデータを用いて、当該改ざん音響信号における改ざんを検出する。

　このように、本実施の形態の改ざん検出システムによる改ざん検出は、電子透かし埋込装置１及び改ざん検出装置３が協働することにより実現される。以下、改ざん検出装置３の詳細な構成について説明する。

　［改ざん検出装置の構成］
　図１５は、本発明の実施の形態１に係る改ざん検出装置の構成を示すブロック図である。図１５に示すように、改ざん検出装置３は、ＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３、信号入力部３４、ハードディスク３５、表示部３６、及び音響出力部３７を備えており、これらのＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３、信号入力部３４、ハードディスク３５、表示部３６、及び音響出力部３７は、バス３８によって接続されている。

　ＣＰＵ３１、ＲＯＭ３２及びＲＡＭ３３のそれぞれについては、電子透かし埋込装置１が備えるＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３と同様であるので、説明を省略する。

　信号入力部３４は、改ざん検出の対象となる音響信号の入力を外部の装置から受け付ける。この音響信号には、電子透かし埋込装置１によって生成された透かし入り音響信号及びその透かし入り音響信号に改ざんが施されることにより生成される改ざん音響信号が含まれる。

　ハードディスク３５には、電子透かし埋込装置１の場合と同様に、オペレーティングシステム及びＣＰＵ３１に実行させるための種々のコンピュータプログラム等がインストールされている。このコンピュータプログラムには、改ざん検出の対象となる音響信号に埋め込まれている埋め込みデータを検出し、その検出された埋め込みデータに基づいて改ざんの有無を判定する改ざん検出プログラム３５Ａが含まれる。

　電子透かし埋込プログラム１６Ａの場合と同様に、ハードディスク３５にインストールされる改ざん検出プログラム３５Ａは、可搬型記録媒体によって提供されてもよく、電気通信回線を介して提供されてもよい。また、この改ざん検出プログラム３５Ａは、電子透かし埋込プログラム１６Ａの場合と同様に、ハードディスク３５にインストールされているオペレーティングシステム上で動作するものとする。

　表示部３６は、液晶ディスプレイ等で構成されており、ＣＰＵ３１の指示にしたがって画像（画面）を表示する。また、音響出力部３７は、スピーカ等で構成されており、ＣＰＵ３１の指示にしたがって音響信号を出力する。

　次に、上記の改ざん検出装置３の構成を、図１６及び図１７に示す機能ブロック図を参照しながら説明する。
　図１６は、ＣＰＵ３１の構成を示す機能ブロック図である。図１６に示すとおり、ＣＰＵ３１は、埋め込みデータ検出部３０１と、電子透かしデータ生成部３０２と、データ照合部３０３と、改ざん検出部３０４とを備えている。埋め込みデータ検出部３０１は、信号入力部３４を介して外部から供給された音響信号に埋め込まれている埋込データを検出する。この埋め込みデータ検出部３０１の詳細な構成については図１７を参照しながら後述する。

　電子透かしデータ生成部３０２は、信号入力部３４を介して外部から供給された所有者情報を用いてビット列のデータである画像データ（電子透かしデータ）を生成する。ここで、この所有者情報は、電子透かし埋込装置１の電子透かしデータ生成部１０１に供給されるものと同一である。したがって、電子透かし埋込装置１及び改ざん検出装置３では同一の電子透かしデータが生成されることになる。

　データ照合部３０３は、埋め込みデータ検出部３０１によって検出された埋め込みデータと、電子透かしデータ生成部３０２によって生成された電子透かしデータとの照合を行う。改ざん検出部３０４は、データ照合部３０３による照合の結果に基づいて、改ざん検出対象の音響信号に対する改ざんの有無を判定する。

　次に、埋め込みデータ埋込部３０１の詳細について説明する。図１７は、埋め込みデータ検出部３０１の構成を示す機能ブロック図である。図１７に示すように、埋め込みデータ検出部３０１は、外部から取得された改ざん検出対象の音響信号ｙ（ｎ）をフレーム化するフレーム処理部３０１ａ（実施の形態１におけるフレーム処理部２０１と同様の構成）と、フレーム化された音響信号ｙ（ｎ）に対して、チャープｚ変換を施す２つのチャープｚ変換部３０１ｂ及び３０１ｃ（実施の形態１におけるチャープｚ変換部２０２ａ及び２０２ｂと同様の構成）と、これらの第１チャープｚ変換部３０１ｂ及び第２チャープｚ変換部３０１ｃによるチャープｚ変換の結果に基づいて、埋め込みデータのビット値を検出するビット値検出部３０１ｄ（実施の形態１におけるビット値検出部２０３と同様の構成）とを備えている。

　なお、本実施の形態において、これらの埋め込みデータ検出部３０１（フレーム処理部３０１ａ、第１チャープｚ変換部３０１ｂ及び第２チャープｚ変換部３０１ｃ、並びにビット値検出部３０１ｄ）、電子透かしデータ生成部３０２、データ照合部３０３、及び改ざん検出部３０４は、ＣＰＵ３１が改ざん検出プログラム３５Ａを実行することによって実現される。

　［電子透かし埋込装置１及び改ざん検出装置３の動作］
　次に、上述したように構成された電子透かし埋込装置１及び改ざん検出装置３の動作について、フローチャートを参照しながら説明する。

　［電子透かし埋込処理］
　電子透かし埋込装置１は、図８のフローチャートを参照しながら上述した実施の形態１における電子透かし埋込処理と同様な処理を実行することにより、透かし入り音響信号を生成する。

　このようにして生成された透かし入り音響信号は、上述したように、符号化処理部３０３により適宜の形式に変換され、利用者に配布すべく外部に出力される。

　［改ざん検出処理］
　次に、上述したようにして電子透かしデータが埋め込まれた透かし入り音響信号が各利用者に配布された後、改ざん検出装置３が外部から取得した音響信号に対して改ざんが施されているか否かを判定する改ざん検出処理について、（ａ）埋め込みデータ検出処理（ブラインド検出）及び（ｂ）改ざん判定処理の２つに分けて説明する。なお、音響信号の取得の態様としては、インターネット等の通信ネットワークを介して取得したり、ＣＤ－ＲＯＭ等の可搬型記録媒体から取得したりする等、様々なものが想定される。

　本実施の形態では、上述したように、原信号を参照しないブラインド検出を行う。なお、改ざん検出装置３は、電子透かし埋込装置１により電子透かしデータが埋め込まれた際のビットレートを示す情報を記憶しており、当該情報に基づいて下記のセグメントの設定を行うものとする。

　（ａ）電子透かし検出処理（ブラインド検出）
　図１８は、改ざん検出装置３が実行する埋め込みデータ検出処理の手順を示すフローチャートである。
　改ざん検出装置３は、フレーム処理部３０１ａにおいて、外部から取得した改ざん検出対象の音響信号を各フレームに分割する（Ｓ４０１）。次に、改ざん検出装置３は、処理対象のセグメントを設定し（Ｓ４０２）、第１チャープｚ変換部３０１ｂにおいて、当該セグメントの音響信号に対してチャープｚ変換を行う（Ｓ４０３）。さらに、第２チャープｚ変換部３０１ｃにおいて、同じ音響信号に対してチャープｚ変換を行う（Ｓ４０４）。

　次に、改ざん検出装置３は、ステップＳ４０３及びＳ４０４により得られた２つの周波数スペクトルのうちの何れが、最も低い周波数でのスペクトルの値が急激に減少しているか否かを判定し、その判定結果に基づき、当該音響信号に対して位相変調を施した蝸牛遅延フィルタの零点を推定する（Ｓ４０５）。本実施の形態の場合、上記のようにスペクトルの値が急激に減少しているのが第１チャープｚ変換部３０１ｂにより得られた周波数スペクトルである場合は当該零点が１／ｂ_０であると推定され、同じく第２チャープｚ変換部３０１ｃにより得られた周波数スペクトルである場合は当該零点が１／ｂ_１であると推定される。

　次に、改ざん検出装置３は、ビット値検出部３０１ｄにおいて、ステップＳ４０５により推定された蝸牛遅延フィルタの零点が１／ｂ_０及び１／ｂ_１の何れであるかを判定し（Ｓ４０６）、１／ｂ_０と判定した場合（Ｓ４０６で“１／ｂ_０”）はビット値“０”を検出する（Ｓ４０７）。他方、１／ｂ_１と判定した場合（Ｓ４０６で“１／ｂ_１”）はビット値“１”を検出する（Ｓ４０８）。

　その後、改ざん検出装置３は、処理対象のフレームのすべてのセグメントについて処理を行ったか否かを判定する（Ｓ４０９）。ここで、まだ処理を行っていないセグメントがあると判定した場合（Ｓ４０９でＮＯ）、改ざん検出装置３は、ステップＳ４０２へ戻り、それ以降の処理を繰り返す。他方、すべてのセグメントについて処理を行ったと判定した場合（Ｓ４０９でＹＥＳ）、改ざん検出装置３は、ステップＳ４０７及びＳ４０８においてビット値検出部３０３により検出したビット値を接合することにより、埋め込みデータを復元する（Ｓ４１０）。

　以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた埋め込みデータをブラインド検出することができる。

　（ｂ）改ざん判定処理
　図１９は、改ざん検出装置３が実行する改ざん判定処理の手順を示すフローチャートである。
　改ざん検出装置３は、データ照合部３０３において、電子透かしデータ生成部３０２によって生成された電子透かしデータ（ビット列）と、埋め込みデータ検出部３０１により上述したようにして検出されて復元された埋め込みデータ（ビット列）とをビット毎に照合する（Ｓ５０１）。その結果、両データにおける全てのビットについてビット値が一致した場合（Ｓ５０２でＹＥＳ）、改ざん検出装置３は、改ざん検出対象の音響信号からは改ざんが検出されなかったことを示す改ざん非検出メッセージを表示部３６にて表示する（Ｓ５０３）。他方、不一致のビット値が一つでもあった場合（Ｓ５０２でＮＯ）、改ざん検出装置３は、不一致ビットを特定し（Ｓ５０４）、そのビットについて改ざんがなされていることを示す改ざん検出メッセージを表示部３６にて表示する（Ｓ５０５）。

　このように、本実施の形態では、音響信号に対して改ざんがなされているか否か、及び改ざんがなされている場合に音響信号中のどのビットが改ざんされているのかを判定することができる。

　なお、改ざん検出装置３は、ユーザからの指示にしたがって、又は上記のステップＳ５０５により改ざん検出メッセージを表示する場合に、改ざんが検出された音響信号のすべて、又は改ざんされているビットを含むその一部を、音響出力部３７にて出力するようにしてもよい。この場合、改ざんされているビット部分を出力する際に、当該部分が改ざんされていることを表示部３６にて表示することが望ましい。これにより、ユーザは、どの部分が改ざんされているのかを容易に確認することが可能である。

　本実施の形態のように蝸牛遅延フィルタを用いた場合、電子透かしデータは、音響信号に対して信号変換（音声符号化）が行われたときは壊れにくく、他方、音響信号に対して改ざんが行われたときは壊れやすくなる。そのため、本実施の形態の場合、電子透かしデータの壊れ度合いを測定することにより、改ざんの有無を適確に判別することが可能になる。

　（実施の形態３）
　上述したように、実施の形態２の改ざん検出装置は、ブラインド検出を用いている。これに対し、実施の形態３の改ざん検出装置は、ノンブラインド検出（原信号を参照して電子透かしデータを検出する）を用いている。以下、本実施の形態の改ざん検出装置の構成及び動作について説明する。なお、これらの電子透かし埋込装置及び改ざん検出装置のハードウェア構成については、上述した電子透かし埋込装置１及び改ざん検出装置３と同様であるので説明を省略する。

　［電子透かし埋込装置及び改ざん検出装置の構成］
　図２０は、実施の形態３に係る電子透かし埋込装置及び改ざん検出装置の構成を示す機能ブロック図である。図２０に示すように、電子透かし埋込装置４は、電子透かしデータを所定の表現のデータに変換する符号化部４０１と、第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂと、後述する選択的荷重和処理を実行する選択的荷重和接合部４０３とを備えている。本実施の形態において、これらの符号化部４０１、第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂ、並びに選択的荷重和接合部４０３は、電子透かし埋込装置４のＣＰＵが、後述する電子透かし埋込処理のための電子透かし埋込プログラムを実行することによって実現される。なお、第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂは、実施の形態１における第１蝸牛遅延フィルタ１０２ａ及び第２蝸牛遅延フィルタ１０２ｂと同様であるので、説明を省略する

　また、改ざん検出装置５は、図２０に示すように、改ざん検出対象の音響信号及び音響信号（原信号）の位相スペクトルをそれぞれ求める位相算出部５０１ａ及び５０１ｂと、両音響信号の位相差を検出する位相差検出部５０２と、埋め込みデータを復元する復号部５０３とを備えている。本実施の形態において、これらの位相算出部５０１ａ及び５０１ｂ、位相差検出部５０２、並びに復号部５０３は、改ざん検出装置５のＣＰＵが、後述する改ざん検出処理のための改ざん検出プログラムを実行することによって実現される。

　［電子透かし埋込装置及び改ざん検出装置の動作］
　次に、上述したように構成された本実施の形態の電子透かし埋込装置４及び改ざん検出装置５の動作について説明する。

　［電子透かし埋込処理］
　図２１は、実施の形態２における電子透かし埋込装置３が実行する電子透かし埋込処理の手順を示すフローチャートである。
　電子透かし埋込装置４は、符号化部４０１において、音響信号に埋め込む電子透かしデータを、２進数表現のデータに変換する（Ｓ６０１）。この電子透かしデータは、実施の形態１の場合と同様に、ビットマップ形式の画像データである。
　このようにして２進数表現に変換された電子透かしデータは、選択的荷重和接合部４０３に出力される。

　次に、電子透かし埋込装置４は、第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂを用いて、外部から入力された音響信号（原信号）に対して位相変調を施す（Ｓ６０２）。その結果、人工的に蝸牛遅延が付加された二つの音響信号が生成されることになる。
　このようにして第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂを用いて位相変調された二つの音響信号は、選択的荷重和接合部４０３に出力される。

　次に、電子透かし埋込装置４は、選択的荷重和接合部４０３において、以下のような選択的荷重和処理を実行して電子透かしデータを、位相変調された音響信号に埋め込む（Ｓ６０３）。
　選択的荷重和処理では、電子透かしデータのビットが０のときは第１蝸牛遅延フィルタ４０２ａから出力された音響信号が、１のときは第２蝸牛遅延フィルタ４０２ｂから出力された音響信号がそれぞれ選択される。そして、これらの選択された音響信号同士が接合されることにより、電子透かしデータが埋め込まれた透かし入り音響信号が生成される。

　ここで、その接合した部分において急激な位相変化が起こらないように、音響信号同士を荷重和することにより、音響信号の接合が行われる。この荷重和処理は、例えばramped-cosの荷重を付与する等して行われる。このような荷重和処理を行うことにより、透かし入り音響信号の歪みが軽減される。

　以上の電子透かし埋込処理を式で表すと次のようになる。図２２に示す概念図も参照しながら説明する。なお、以下において、ｎはサンプリング番号を、ｋは音響信号のフレーム番号をそれぞれ示している。
　まず、ステップＳ６０１において、電子透かしデータが２進数表現のデータｓ（ｋ）へと変換される。

　次に、原信号である音響信号をｘ（ｎ）とし、第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂそれぞれをＨ₀（ｚ）及びＨ₁（ｚ）とすると、上記のステップＳ６０２において、位相変調が施された二つの音響信号（ｗ₀（ｎ）、ｗ₁（ｎ））が上述した式（３）及び式（４）により生成される。

　そして、ステップＳ６０３において、電子透かしデータｓ（ｋ）のビットが０であるか１であるかに応じてｗ₀（ｎ）又はｗ₁（ｎ）が選択され、上述した式（５）のとおり、透かし入り音響信号ｙ（ｎ）が生成される。

　［改ざん検出処理］
　本実施の形態においても、実施の形態２の場合と同様、改ざん検出処理には埋め込みデータ検出処理及び改ざん判定処理が含まれる。このうち、改ざん判定処理については実施の形態２の場合と同様であるので説明を省略する。以下、埋め込みデータ検出処理（ノンブラインド検出）について説明する。

　上述したように、本実施の形態における電子透かし埋込処理では、二つの蝸牛遅延フィルタによって位相変調された二つの音響信号を、時間毎に切り替えることにより、透かし入り音響信号を生成している。これらの二つの音響信号は、原信号に位相変調をかけたものであるため、原信号と透かし入り音響信号との位相特性の差を用いることにより、透かし入り音響信号が、上記の二つの蝸牛遅延フィルタの何れの蝸牛遅延フィルタによって位相変調された信号であるのかを特定することができる。埋め込みデータ検出処理（ノンブラインド検出）は、このような性質を利用して改ざん検出対象の音響信号に埋め込まれている埋め込みデータの検出を行うものである。

　図２３は、埋め込みデータ検出処理（ノンブラインド検出）の手順を示すフローチャートである。
　改ざん検出装置５は、位相算出部５０１ａ及び５０１ｂのそれぞれにおいて、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）により、音響信号（原信号）及び改ざん検出対象の音響信号の位相スペクトルを求める（Ｓ７０１）。ここでは、電子透かし埋込処理で利用されたビット単位で、各音響信号の位相スペクトルが算出される。
　このようにして求められた各音響信号の位相スペクトルは、位相差検出部５０２に出力される。

　次に、改ざん検出装置５は、位相差検出部５０２において、両音響信号の位相スペクトルの差を算出し（Ｓ７０２）、その算出された位相スペクトルの差と第１蝸牛遅延フィルタ４０２ａによって与えられる群遅延との差の合計値（第１の合計値）、及び同じく位相スペクトルの差と第２蝸牛遅延フィルタ４０２ｂによって与えられる群遅延との差の合計値（第２の合計値）を算出する（Ｓ７０３）。そして、位相差検出部５０２において、これら第１の合計値と第２の合計値とを比較し、第１の合計値が第２の合計値より小さければ電子透かしデータのビット値として“０”を検出し、第１の合計値が第２の合計値以上であれば“１”を検出する（Ｓ７０４）。なお、この処理は、第１蝸牛遅延フィルタ４０２ａ及び第２蝸牛遅延フィルタ４０２ｂの何れのフィルタを用いて位相変調されたのかを推定することに相当する。
　このようにして電子透かしデータのすべてのビットの値が検出された後、それら検出されたビット値が復号部５０３に出力される。

　次に、改ざん検出装置５は、復号部５０３において、上述したようにして検出されたビット値を用いて、改ざん検出対象の音響信号に埋め込まれている埋め込みデータを復元する（Ｓ７０５）。
　以上のようにして、蝸牛遅延フィルタを用いて音響信号に埋め込まれた埋め込みデータを検出することができる。

　以上の埋め込みデータ検出処理を式で表すと次のようになる。図２４に示す概念図も参照しながら説明する。なお、以下において、ｎはサンプリング番号を、ｋは音響信号のフレーム番号をそれぞれ示している。
　まず、ステップＳ７０１において、音響信号ｘ（ｎ）及び改ざん検出対象の音響信号ｙ（ｎ）の位相スペクトルがＦＦＴにより求められ、ステップＳ７０２において、両音響信号の位相スペクトルの差Φ（ω）が次の式（７）により算出される。
　Φ（ω）＝ａｒｇ（ＦＦＴ［ｙ（ｎ）］）－ａｒｇ（ＦＦＴ［ｘ（ｎ）］）　…　（７）

　次に、ステップＳ７０３において、両音響信号の位相スペクトルの差と第１蝸牛遅延フィルタ４０２ａ（Ｈ₀（ｚ））との差の合計値ΔΦ₀及び当該位相スペクトルの差と第２蝸牛遅延フィルタ４０２ｂ（Ｈ₁（ｚ））との差の合計値ΔΦ₁が、次の式（８）及び式（９）によってそれぞれ算出される。ただし、ｚ＝e^jωである。
　ΔΦ₀＝Σ｜Φ（ω）－ａｒｇ（Ｈ₀（ｅ^jω））｜　…　（８）
　ΔΦ₁＝Σ｜Φ（ω）－ａｒｇ（Ｈ₁（ｅ^jω））｜　…　（９）

　そして、ステップＳ７０４において、上記の合計値ΔΦ₀及びΔΦ₁の大小関係に基づいて、次の式（１０）にしたがって埋め込みデータのビット値ｓ（ｋ）が検出される。
　ｓ（ｋ）＝０，ΔΦ₀＜ΔΦ₁　又は　１，ΔΦ₀≧ΔΦ₁　…　（１０）
　最後に、ステップＳ７０５において、これらの検出されたビット値ｓ（ｋ）を用いて埋め込みデータが復元される。

　上述したように、埋め込みデータ検出処理（ノンブラインド検出）を実行することにより、改ざん検出対象の音響信号から埋め込みデータを検出することができる。その後、実施の形態２の場合と同様に、改ざん判定処理を実行することにより、当該音響信号に改ざんが施されているか否か、施されている場合にどの部分が改ざんされているのかを判定することができる。

　（他の手法との比較評価）
　次に、上述した実施の形態２及び３による改ざん検出とＬＳＢ法による場合との比較評価を行う。以下では、実施の形態２におけるブラインド検出方法をＣＤ（Blind）法と表現し、実施の形態３におけるノンブラインド検出方法をＣＤ（Non-Blind）法と表現する。

　本発明者等は、ＡＴＲ音声データベースにある約８秒の長文データ（１２文章，男性・女性話者混在，サンプリング周波数16kHz）に対し、電子透かしデータ（ビットマップ画像）を音声信号に埋め込み、ＭＩＨ技術の要求項目（知覚不可能性，頑健性）で利用される評価項目（ＰＥＳＱ(Perceptual Evaluation of Speech Quality)及びＬＳＤ(Log Spectrum Distortion)）と電子透かしデータのビット検出率とを調べた。また、本発明者等は、耐性評価として音響信号に信号変換（３種類の音声符号化：ＰＣＭ（G711）,ＡＤＰＣＭ（G726）,ＣＳ－ＡＣＥＬＰ（G729））を施した後でのビット検出率を調べた。以下、これらの実験結果について説明する。

　図２５は、上記の客観評価実験の結果を示すグラフであり、（ａ）乃至（ｃ）はそれぞれＣＤ（Non-Blind）法、ＣＤ（Blind）法、及びＬＳＢ法におけるＰＥＳＱ、ＬＳＤ及びビット検出率についての実験結果を示している。なお、図２５では、上記１２文章についての平均値が示されている。ここでは、ＰＥＳＱ及びＬＳＤの評価閾値をそれぞれ、ＯＤＧ値で３（音楽信号評価用のＰＥＡＱでの－１に対応）及び１ｄＢとした。図２５（ａ）及び（ｂ）を参照すると、ＬＳＢ法がＰＥＳＱ及びＬＳＤが非常に優れていることが確認できる。他方、ＣＤ（Non-Blind）法及びＣＤ（Blind）法は、ＬＳＢ法の場合ほど良好ではないものの、十分に評価閾値内にあり、ＭＩＨ技術の要求項目を満たしていると言える。また、図２５（ｃ）に示すように、ビット検出率については、何れの手法でも十分に評価閾値７５％より上にあり、良好な結果が得られている。なお、ＣＤ（Blind）法では、ＣＤ（Non-Blind）法と比べてＰＥＳＱ及びＬＳＤが低下しているが、ビット検出率は向上している。

　図２６は、上述した耐性評価試験の結果を示すグラフであり、（ａ）乃至（ｃ）はそれぞれＣＤ（Non-Blind）法、ＣＤ（Blind）法、及びＬＳＢ法における結果を示している。ここではビット検出率７５％を評価閾値としている。図２６（ａ）乃至（ｃ）を参照すると、ＬＳＢ法と比べて、ＣＤ（Non-Blind）法及びＣＤ（Blind）法が良好な結果が得られている。なお、検出率５０％はチャンスレベルに相当する。すなわち、対象ビットは０又は１であるため、適当に選んでビットを割り当てたときの正答率が確率５０％となる。そのため、ビット検出率はどんなに低い場合でも統計的には５０％付近をうろつくことになる。図２５（ｃ）から分かるように、ＬＳＢ法は知覚不可能性には優れているものの信号変換といったささいな波形処理に非常に敏感となり、情報改ざんとは解釈できない音声符号化処理には脆弱である。他方、ＣＤ（Non-Blind）法及びＣＤ（Blind）法では、G711及びG726の音声符号化には頑健であり、G729には十分対応できていないことが、図２６（ａ）及び（ｂ）から理解できる。但し、この結果はG729の音声符号化が波形処理ベースではないことに起因している。近年、広帯域ブロードバンド化の普及に伴い音声符号化も高品質音声を生成する波形ベースの符号化に移行しているため、G729に対応できていなくても実用性は十分であるといえる。

　このように、ＣＤ（Non-Blind）法及びＣＤ（Blind）法を利用した場合、ＭＩＨ技術の要求を十分に満足した上で、改ざん検出を行うことが可能になる。

　次に、実施の形態２及び３において対応可能な改ざんの態様の例について説明する。改ざんの態様としては、音声内容の少なくとも一部を別の音声内容に入れ替えるパターン（以下、「情報入替型改ざん」という）、音声内容の少なくとも一部に別の音声内容が付与されるパターン（以下、「情報付与型改ざん」という）等が挙げられる。情報入替型改ざんは、例えば音素片音声合成技術又はＶＯＣＯＤＥＲタイプの音声合成技術等によって実行される。また、情報付与型改ざんは、例えば発話内容を相手に聞き取り難くするための処理等によって実行される。具体的には、音声の明瞭性を低下させるために低ＳＮＲ（高騒音）の雑音を付与したり残響を付与したり等の処理が想定される。

　本発明者等は、実施の形態２にしたがって、ＡＴＲ音声データベースにある約８秒の長文データ（５文章，男性・女性話者混在，サンプリング周波数16kHz）に対し、図２７に示すビットマップ画像（音響透かしデータ）を埋め込み、ビット検出率及び検出後のビットマップ画像を調べた。ここで、この画像は、図２７において矢符にて示したとおり、上からの下への垂直方向の走査線を左から右への水平方向にずらしていくことによって得られたものである。なお、この画像のサイズは32×32ビットである。

　音響信号に対して改ざんを施さなかった場合、ビット検出率は１００％であり、また、検出後のビットマップ画像は図２８（ａ）乃至（ｅ）に示すとおりとなった。なお、これ以降の図面も含めて、（ａ）乃至（ｅ）は、５つの異なる音声文章（音響信号）に対する結果をそれぞれ示している。これら図２８（ａ）乃至（ｅ）に示すとおり、ほぼ原画像が保存されている。これに対し、音響信号に対してＰＣＭ（G711）の音声符号化を行うと、ビット検出率は８５％まで低下するものの、検出後のビットマップ画像は図２９（ａ）乃至（ｅ）に示すように原画像に非常に近いことがわかった。

　次に、音響信号に対して情報付与型改ざんを施した場合の結果は以下のとおりとなった。まず、マスキングの影響により発話内容の聞き取りを妨害する目的で、低ＳＮＲの白色雑音を音響信号に対して付与した場合、ビット検出率は７９％であり、検出後のビットマップ画像は図３０（ａ）乃至（ｅ）に示すとおりとなった。また、残響の影響により発話内容の聞き取りを妨害する目的で、音響信号に対して残響を付与した場合であって、人工残響（０．３秒）を付与したときはビット検出率が７４％で検出後のビットマップ画像は図３１（ａ）乃至（ｅ）に示すとおりとなり、実環境の雑音（約１．０秒）を付与したときはビット検出率が７４％で検出後のビットマップ画像は図３２（ａ）乃至（ｅ）に示すとおりとなった。このように、情報付与型改ざんを施した場合は、いずれもビット検出率は７５％弱と耐性としてみたときの評価閾値上にあるものの、図３０乃至図３２に示すように検出後のビットマップ画像は原形をとどめていない。

　最後に、音響信号に対して情報入替型改ざんを施した場合の結果は以下のとおりとなった。まず、話者の情報を残した上で発話内容を改ざんする目的で、ＶＯＣＯＤＥＲタイプの音声分析合成のうちwaveletタイプの音声分析合成系（ＧＴＦＢ：Gamma Tone FilterBank）を用いて改変を行った場合のビット検出率は９０％で検出後のビットマップ画像は図３３（ａ）乃至（ｅ）に示すとおりとなり、同じく短時間フーリエ変換対を利用した音声分析合成系（ＳＴＦＴ：Short-time Fourier Transform）を用いて改変を行った場合のビット検出率は９１％で検出後のビットマップ画像は図３４（ａ）乃至（ｅ）に示すとおりとなった。なお、ここでは、音声区間の２．５～５秒のところのみ、これらの分析合成系で加工されたものと入れ替えを行った。また、話者の情報を残した上で発話内容を改ざんする目的で、音響信号に対して音素片合成による内容改変を行った場合、ビット検出率は９１％でビットマップ画像は図３５（ａ）乃至（ｅ）に示すとおりとなった。このように、情報入替型改ざんを施した場合、いずれもビット検出率は９０％程度と高い。また、図３３乃至図３５に示すように、検出後のビットマップ画像は中央領域が壊れているもののその左右は原画像に近いという共通性がみられる。

　このように、検出後のビットマップ画像は、音声符号化では壊れない一方で、改ざんが施された場合は一定程度壊れることになる。また、情報入替型改ざんと情報付与型改ざんとでは、その壊れ度合いが異なっている。そのため、改ざん検出装置が、この壊れ度合いを検出することで、音響信号に対して改ざんが施されているか否か、及び施されている場合にどのような態様の改ざんが施されているのかを判定することができる。

　上記のような改ざんの態様の判定は、次のようにして行うことも可能である。情報入替型改ざんの場合、蝸牛遅延特性を用いて音響信号に埋め込まれた遅延情報が消失してしまうため、実施の形態２及び３の何れの場合でも、“０”か“１”かの判定が不可能な状況が生じる。この場合、実施の形態２及び３では、ｉｆ文で強制判定することとしているため、必ず“０”が検出されることになる。例えば、図３６（ａ）に示すように２．５～５秒の区間を音素片合成すると、実施の形態１の場合、零点の判定に伴う低域側スペクトルの落ち込みが確認されず、０及び１のときのスペクトルの大きさがほぼ同じ状態となる。そのため、図３６（ｂ）に示すように両者の差は０ｄＢ付近となり、上記の強制判定によってビット値“０”が検出されることになる。これは実施の形態２の場合も同様である。そのため、音響信号の改ざん領域が特定された後、図３６（ｃ）に示すようにその特定された領域に０ビットの系列が大量に観測されたときは、情報入替型改ざんが行われたと考えることができる。これに対し、改ざん領域が特定された後、その領域のビットの系列がランダムであるような場合は、情報付与型改ざんが行われたと考えることができる。

　なお、上述したように、図３３乃至図３５において画像の中央領域が壊れているのは、音声区間の２．５秒～５秒のところに入れ替えが行われ、すなわち当該区間において集中して０ビットが検出され、且つ、当該画像が上から下へ、右から左へ走査することによって得られるためである。

　上記の改ざん態様の判定手法をフローチャートで示すと図３７のとおりとなる。実施の形態２又は３の改ざん検出装置は、上述した改ざん判定処理によって改ざんが施されたと判定された音響信号からその改ざんされた領域を抽出し（Ｓ８０１）、その改ざん領域においてビット値“０”の系列の数が所定の閾値以上であるか否かを判定する（Ｓ８０２）。ここで閾値以上であると判定した場合（Ｓ８０２でＹＥＳ）、改ざん検出装置は、音響信号に対して情報入替型改ざんが施されていることを示す情報入替型改ざんメッセージを表示部にて表示する（Ｓ８０３）。他方、閾値より少ないと判定した場合（Ｓ８０２でＮＯ）、改ざん検出装置は、音響信号に対して情報付与型改ざんが施されていることを示す情報付与型改ざんメッセージを表示部にて表示する（Ｓ８０４）。

　このようにして、実施の形態２及び３においては、改ざんの有無のみならず、その改ざんの態様を判定することも可能となる。

　（その他の実施の形態）
　上記の各実施の形態においては、電子透かしデータの埋め込み処理及び改ざん検出処理がソフトウェアにより実現されているが、本発明はこれに限定されるわけではない。例えば、これらの処理の全部又は一部が、ＤＳＰ（Digital Signal Processor）等の専用のハードウェア回路によって実現されてもよい。

　また、上記の各実施の形態においては、原信号であるモノラル音楽信号に対して電子透かしデータを埋め込んでいるが、本発明はこれに限られるわけではなく、ステレオ音楽信号の両チャンネルに対して電子透かしデータを埋め込むことも可能である。

　本発明の電子透かし検出装置及び電子透かし検出方法はそれぞれ、種々の音楽ジャンルの音響信号に電子透かしデータが埋め込まれている場合に当該電子透かしデータを検出する電子透かし検出装置及び電子透かし検出方法等として有用である。また、本発明の電子透かしを用いた改ざん検出装置及び改ざん検出方法はそれぞれ、種々の音響信号に対する改ざんの検出を行うための改ざん検出装置及び改ざん検出方法等として有用である。

　１　電子透かし埋込装置
　１１　ＣＰＵ
　１２　ＲＯＭ
　１３　ＲＡＭ
　１４　信号入力部
　１５　信号出力部
　１６　ハードディスク
　１６Ａ　電子透かし埋込プログラム
　１７　バス
　１０１　フレーム処理部
　１０２ａ　第１蝸牛遅延フィルタ
　１０２ｂ　第２蝸牛遅延フィルタ
　１０３　フィルタ選択部
　２　電子透かし検出装置
　２１　ＣＰＵ
　２２　ＲＯＭ
　２３　ＲＡＭ
　２４　信号入力部
　２５　ハードディスク
　２５Ａ　電子透かし検出プログラム
　２６　バス
　２０１　フレーム処理部
　２０２ａ、２０２ｂ　変換部
　２０２ａ　第１チャープｚ変換部
　２０２ｂ　第２チャープｚ変換部
　２０３　ビット値検出部
　３　改ざん検出装置
　３０１　埋め込みデータ検出部
　３０１ａ　フレーム処理部
　３０１ｂ　第１チャープｚ変換部
　３０１ｃ　第２チャープｚ変換部
　３０１ｄ　ビット値検出部
　３０２　電子透かしデータ生成部
　３０３　データ照合部
　３０４　改ざん検出部
　４　電子透かし埋込装置
　５　改ざん検出装置

Claims

　蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、
　前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出する電子透かし検出手段と
　を備える、電子透かし検出装置。
　前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、
　前記蝸牛遅延特性推定手段が、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定するように構成され、
　前記電子透かし検出手段が、前記蝸牛遅延特性推定手段により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出するように構成されている、
　請求項１に記載の電子透かし検出装置。
　前記蝸牛遅延特性推定手段が、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定するように構成されている、
　請求項１又は２に記載の電子透かし検出装置。
　前記蝸牛遅延特性推定手段が、チャープｚ変換を用いて、前記蝸牛遅延フィルタの零点を推定するように構成されている、
　請求項３に記載の電子透かし検出装置。
　前記蝸牛遅延特性手段により推定された蝸牛遅延特性の逆特性を有するフィルタを電子透かしデータが埋め込まれた音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備える、
　請求項４に記載の電子透かし検出装置。
　電子透かしデータが埋め込まれた音響信号の位相変調に適用されたと前記電子透かし検出手段により判定された蝸牛遅延フィルタの逆フィルタを当該音響信号に施すことにより、電子透かしデータが埋め込まれる前の音響信号を取得する原信号取得手段をさらに備える、
　請求項２に記載の電子透かし検出装置。
　蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施し、前記位相変調が施された音響信号に電子透かしデータを埋め込む電子透かしデータ埋め込み装置によって、デジタルデータである音響信号に電子透かしデータが埋め込まれた場合に、前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ（ａ）と、
　推定された蝸牛遅延特性に基づいて、音響信号に埋め込まれた前記電子透かしデータを検出するステップ（ｂ）と
　を有する、電子透かし検出方法。
　前記電子透かしデータ埋め込み装置が、複数の異なる蝸牛遅延フィルタを用いて音響信号に位相変調を施すことにより、複数の異なる位相変調された音響信号を生成し、電子透かしデータに応じて、前記複数の異なる位相変調された音響信号の中から一の音響信号を選択し、選択した音響信号同士を接合することにより、電子透かしデータを埋め込むように構成されており、
　前記ステップ（ａ）において、前記複数の異なる蝸牛遅延フィルタがそれぞれ模擬する複数の異なる蝸牛遅延特性を推定し、
　前記ステップ（ｂ）において、前記ステップ（ａ）により推定された前記複数の異なる蝸牛遅延特性に基づいて、電子透かしデータが埋め込まれた音響信号が、前記複数の異なる蝸牛遅延フィルタのうちの何れの蝸牛遅延フィルタが適用されて位相変調が施されたかを判定することにより、電子透かしデータを検出する、
　請求項７に記載の電子透かし検出方法。
　前記ステップ（ａ）において、前記蝸牛遅延フィルタの零点を推定することにより、蝸牛遅延特性を推定する、
　請求項８又は９に記載の電子透かし検出方法。
　前記ステップ（ａ）においてチャープｚ変換を用いて、前記蝸牛遅延フィルタの零点を推定する、
　請求項９に記載の電子透かし検出方法。
　蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出装置であって、
　前記音響信号を外部から取得する音響信号取得手段と、
　前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定する蝸牛遅延特性推定手段と、
　前記蝸牛遅延特性推定手段により推定された蝸牛遅延特性に基づいて、前記音響取得手段によって取得された音響信号に埋め込まれている埋め込みデータを検出する埋め込みデータ検出手段と、
　前記埋め込みデータ検出手段によって検出された埋め込みデータと前記電子透かしデータとを照合する照合手段と、
　前記照合手段による照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定する改ざん判定手段と
　を備える、電子透かしを用いた改ざん検出装置。
　蝸牛遅延特性を模擬する蝸牛遅延フィルタを用いて、デジタルデータである音響信号に位相変調を施すことにより、当該音響信号に電子透かしデータが埋め込まれた後に、当該音響信号に対する改ざんを検出する改ざん検出方法であって、
　前記音響信号を外部から取得するステップ（ａ）と、
　前記蝸牛遅延フィルタが模擬する蝸牛遅延特性を推定するステップ（ｂ）と、
　推定された蝸牛遅延特性に基づいて、取得された前記音響信号に埋め込まれている埋め込みデータを検出するステップ（ｃ）と、
　検出された前記埋め込みデータと前記電子透かしデータとを照合するステップ（ｄ）と、
　照合の結果に基づいて、前記音響信号が改ざんされているか否かを判定するステップ（ｅ）と
　を有する、電子透かしを用いた改ざん検出方法。