JPWO2002095727A1

JPWO2002095727A1 - コンテンツ境界検出装置、モニタリング方法、コンテンツ位置検出方法、プログラム及び記憶媒体

Info

Publication number: JPWO2002095727A1
Application number: JP2002592107A
Authority: JP
Inventors: 隆輝立花; 小林　誠士
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-05-17
Filing date: 2002-05-14
Publication date: 2004-09-09
Anticipated expiration: 2022-05-14
Also published as: JP3953425B2; CN1226715C; CN1509466A; WO2002095727A1; EP1396839A1

Abstract

コンテンツから検出された電子透かしに基づいてコンテンツの境界を認識する手法として複数の手法を組み合わせ、コンテンツの境界位置の認識において高い信頼性と高い精度とを同時に満足させる。時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部１１と、この電子透かし検出部１１により検出された電子透かしの状態に応じて、このコンテンツの境界位置を検出する境界検出部１２とを備え、この境界検出部１２は、電子透かし検出部１１により検出された電子透かしにおいて記述されている情報に基づいて、このコンテンツの境界位置を特定する第１の境界特定手段と、この電子透かしとして埋め込まれているビットに関する情報に基づいて、このコンテンツの境界位置を特定する第２の境界特定手段とを備え、この第１、第２の境界特定手段による処理結果を組み合わせてこのコンテンツの境界位置を検出する。

Description

技術分野
本発明は、放送モニタリングを行うため、放送された映像や音声の中からコンテンツの境界位置を検出する手法に関する。
背景技術
映像や音楽などのコンテンツの放送による配信においては、市場調査やコンテンツ使用料を徴収するために、放送をモニタリングし、コンテンツの放送時刻及び放送時間の長さを調査することが行われている。
この種の放送モニタリングでは、放送されるコンテンツに何らかの手法で当該コンテンツの識別情報を付加し、放送の中からこの識別情報を検出することにより、当該コンテンツが放送された時刻及び時間を特定する。
コンテンツに識別情報を付加する従来の手法としては、例えば、コンテンツの最初と最後の位置に特別の波形の信号を単純に付加する方法や、同じくコンテンツの最初と最後に副搬送波に乗せて所定の情報を付加する方法があった。後者の副搬送波に情報を乗せる方法では、音声コンテンツの場合、当該副搬送波の大きさを放送内容の音の包絡線（エンベロープ）に合わせて変えることにより、人の耳に聞こえにくくすることができる。
さらに、映像コンテンツに関しては、映像の記録に使われていない１ライン分の領域にコード化された所定の情報を織り込む方法があった。
ところで、近年、コンテンツの品質に影響を及ぼさない形で特別の情報を埋め込む電子透かし技術が普及してきている。そこで、この電子透かし技術を用いて、放送モニタリングに用いる識別情報（以下、モニタリング情報と称す）をコンテンツに埋め込むことが提案されている。この場合、放送された全ての内容である放送データに対して電子透かしを検出する処理を行い、モニタリング情報の検出結果に基づいて、所定のコンテンツがいつ放送されたか（放送データ中における時間的位置）を特定することにより、放送モニタリングを行う。
この電子透かし技術を用いてコンテンツにモニタリング情報を付加する手法は、上述した副搬送波やコンテンツの特定領域に情報を付加する手法と比較して、次のような利点がある。
すなわち、コンテンツの全体にわたって情報を埋め込むことができるため、コンテンツの加工や劣化によって情報が失われにくい。
また、コンテンツそのものにモニタリング情報を付加できるため、第三者による加工が困難であり、偽造や改竄に対する安全性が高い。
通常、電子透かしのコンテンツへの埋め込みは、当該コンテンツの偽造や改竄を防止する目的で行われる。そのため、コンテンツ中に１つの情報（電子透かし）が何度も繰り返して埋め込まれる。そこで、コンテンツが放送された時刻及び時間を検出するためのモニタリング情報として電子透かしを用いる場合、この電子透かしに基づいて放送中のコンテンツの境界位置（開始箇所と終了箇所）を認識することが必要となる。
モニタリングするコンテンツが映像コンテンツである場合は、フレームを単位とし、当該コンテンツに関する情報（ＩＤ情報）の全てを１フレームに埋め込むことができる。したがって、フレームごとにＩＤ情報を検出し、直前のフレームと異なるＩＤ情報が検出されたフレームを当該コンテンツの境界と認識することができる。
しかし、音声コンテンツの場合、映像コンテンツと異なり、電子透かしに基づいてコンテンツの境界を認識することは容易ではない。その理由は、映像コンテンツにおけるフレームのような明確な時間の区切りがないためである。また、時間位置（時間軸上の特定の位置）に映像コンテンツにおけるフレームのような広さがないため、１つの時間位置にＩＤ情報の全てを埋めることができず、ＩＤ情報を埋め込むためにコンテンツにおける一定の時間的な幅を必要とするためである。
すなわち、音声コンテンツに埋め込まれた電子透かしのＩＤ情報から当該コンテンツの境界を認識するためには、１次元的に続くビットのストリームに対して、どこからどこまでが１つのコンテンツから検出されたもので、どこからが次のコンテンツから検出されたものかを特定するという処理が必要となる。
さらに、放送されたコンテンツにおいては、ノイズ、高音の損失、放送のための編集処理、音声圧縮などの影響によって、電子透かしが劣化し、検出されたビットの内容が多くのエラーを含んでいる可能性もある。このエラーによる判断の誤りを補正するためには、ある程度の長さの音声部分から電子透かしを検出し、ＩＤ情報を特定することが必要となる。
しかし、このような手法によると、電子透かしを検出すべき音声が一定の時間的な幅を持つこととなるため、埋め込まれている電子透かしの内容がどこで切り替わったかを精密に特定することは困難である。
以上のように、音声コンテンツの場合、コンテンツに埋め込まれている電子透かしを利用して放送されたコンテンツの境界を認識し、モニタリング情報として利用しようとすると、音声コンテンツの境界位置の認識結果における信頼性と精度とを同時に満足させることが困難であった。
そこで、本発明は、コンテンツから検出された電子透かしに基づいてコンテンツの境界を認識する手法として複数の手法を組み合わせることにより、コンテンツの境界位置の認識において高い信頼性と高い精度とを同時に満足させることを目的とする。
発明の開示
上記の目的を達成する本発明は、次のように構成されたことを特徴とするコンテンツ境界検出装置を提供することができる。すなわち、このコンテンツ境界検出装置は、時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、この電子透かし検出部により検出された電子透かしの状態に応じて、このコンテンツの境界位置を検出する境界検出部とを備え、この境界検出部は、電子透かし検出部により検出された電子透かしにおいて記述されている情報に基づいて、このコンテンツの境界位置を特定する第１の境界特定手段と、この電子透かしとして埋め込まれているビットの埋め込みパターンに基づいて、このコンテンツの境界位置を特定する第２の境界特定手段とを備え、この第１、第２の境界特定手段による処理結果を組み合わせてこのコンテンツの境界位置を検出することを特徴とする。
この第１、第２の境界特定手段を用い、まず第１の境界特定手段によりある程度の時間的幅は持つが信頼性の高い境界位置の特定を行い、次に第１の境界特定手段で特定された範囲を対象として、第２の境界特定手段により精度の高い境界位置の特定を行うこととすれば、高い信頼性及び高い精度を併せ持つ境界位置の検出を行うことが可能となる。
ここで、この境界検出部は、この電子透かしの検出に用いられる同期信号の出現パターンに基づいて、このコンテンツの境界位置を特定する第３の境界特定手段を備え、第１、第２の境界特定手段による処理結果に、さらにこの第３の境界特定手段による処理結果を組み合わせてこのコンテンツの境界位置を検出する構成とすることができる。
上述した第１、第２の境界特定手段にてコンテンツの境界位置と判断された位置に対して、さらに同期信号に基づく境界位置の特定を行うことにより、一層高い精度で境界位置の検出を行うことができる。
また、本発明のコンテンツ境界検出装置は、第２の境界特定手段として、上述したビットの埋め込みパターンに基づく手法ではなく、ビットの検出強度に基づいてコンテンツの境界位置を特定する手法を取る手段を備えた構成とすることができる。
この検出強度に基づく手法は、コンテンツが切り替わる場合ではなく、コンテンツが開始または終了する場合の境界位置の特定に好適なので、ビットの埋め込みパターンに基づく手法と併用し、コンテンツの境界の種類に応じて使い分けることも可能である。
また、本発明は、次のように構成されたことを特徴とするコンテンツ境界検出装置を提供することができる。このコンテンツ境界検出装置は、時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、この電子透かし検出部により検出された電子透かしの状態に応じて、このコンテンツの境界位置を検出する境界検出部とを備え、この境界検出部は、電子透かしとしてこのコンテンツに埋め込まれている所定のビット列を対象とし、このビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測し、このビットの実際の検出結果が予測と一致しているか否かに基づいて、このコンテンツの境界位置を特定することを特徴とする。
ここで、この境界検出部は、このコンテンツに電子透かしとしてＭ系列を構成するビット列が繰り返し埋め込まれている場合に、所定のＭ系列に基づいて、このＭ系列を構成するビット列の次に検出されたビットの検出結果を予測し、この予測結果に応じて、このコンテンツの境界位置を特定することができる。
このコンテンツ境界検出装置にて用いられる手法は、コンテンツ中に境界位置検出用の専用ビットが埋め込まれている場合にのみ用いることができるが、かかる条件が満たされていれば、上述したいくつかの手法と併用することにより、より信頼性及び精度の高い境界位置の検出を行うことが可能となる。
また、本発明は、種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、この放送データに対して電子透かしの検出処理を実行し、このコンテンツに埋め込まれている電子透かしを検出するステップと、検出された電子透かしの状態に応じて、この放送データにおけるこのコンテンツの境界位置を検出するステップと、検出されたこのコンテンツの境界位置に基づいて、この放送データにおいてこのコンテンツの占める時間を特定するステップとを含み、このコンテンツの境界位置を検出するステップは、検出された電子透かしにおいて記述されている情報に基づく第１の手法により、この電子透かしを埋め込まれているコンテンツの境界位置を特定するステップと、この第１の手法で特定された境界位置を対象として、電子透かしとして埋め込まれているビットに関する情報に基づく第２の手法により、第１の手法よりも高い精度でこのコンテンツの境界位置を特定するステップとを含むことを特徴とする。
ここで、この第２の手法によりコンテンツの境界位置を特定するステップは、電子透かしとしてこのコンテンツに埋め込まれている所定のビット列を対象とし、このビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測するステップと、このビットの実際の検出結果が予測と一致しているか否かに基づいて、このコンテンツの境界位置を特定するステップとを含む構成とすることができる。
さらに、このモニタリング方法は、このコンテンツの境界位置を検出するステップは、第２の手法で特定された境界位置を対象として、この電子透かしの検出に用いられる同期信号の出現パターンに基づく第３の手法により、第２の手法よりもさらに高い精度でこのコンテンツの境界位置を特定するステップを含む構成とすることができる。
また、本発明は、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するコンテンツ位置検出方法としても提供することができる。このコンテンツ位置検出方法は、音声データに対して電子透かしの検出処理を実行し、音声コンテンツに埋め込まれている電子透かしを検出するステップと、検出された電子透かしにおいて記述されている情報に基づく第１の手法により、この電子透かしを埋め込まれている音声コンテンツの境界位置を特定するステップと、この第１の手法で特定された境界位置を対象として、電子透かしとして埋め込まれているビットの検出強度に基づく第２の手法により、第１の手法よりも高い精度でこの音声コンテンツの境界位置を特定するステップとを含むことを特徴とする。
また、本発明は、上述したコンテンツ位置検出方法及びモニタリング方法における各ステップに対応する処理をコンピュータに実行させるプログラムとして提供することができる。さらに、このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークに接続されたプログラム伝送装置の記憶装置に格納し当該ネットワークを介して配信したりすることにより提供することができる。
発明を実施するための最良の態様
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図１は、本実施の形態が適用される放送モニタリングを行うシステムの概略を説明する図である。なお、本実施の形態によるコンテンツの境界の認識手法は、音声コンテンツの他、映像と音声とが組み合わされたコンテンツの音声部分や、映像コンテンツそのものに対しても用いることができるが、以下の説明では、音声コンテンツを対象とする場合について述べる。
図１に示すように、本実施の形態が適用されるシステムは、音声コンテンツを放送する放送局１００と、当該放送を受信して放送モニタリングを実行するモニタリングセンター２００とを備える。
放送局１００は、放送番組などにおいて、コンテンツデータベース１１０から所望の音声コンテンツを取得し、放送する。このコンテンツデータベース１１０は、放送局１００の自前のものであっても良いし、外部機関のデータベースを利用しても良い。音声コンテンツには電子透かし技術を用いて当該音声コンテンツに関する情報（ＩＤ情報）が埋め込まれている。モニタリング情報としては、ＩＤ情報を用いる他、放送モニタリング専用の情報を埋め込むこともできる。また、放送局１００において当該放送局１００に関する情報を電子透かしとしてさらに埋め込むことも可能である。音声コンテンツにＩＤ情報を埋め込む電子透かしの手法は、
（ｉ）複数のビットを埋め込むことができる。
（ｉｉ）違うビットを時間的に順次埋めていくことによって（ｉ）の複数のビットが埋められている。
という２つの条件を満たせばどのような手法であっても構わない。また、放送形態は、地上波放送や衛星放送などの電波による放送、放送用ケーブルを用いた有線放送、インターネットなどの情報ネットワークを用いた放送など、その態様を問わない。
モニタリングセンター２００は、放送局１００による放送を受信して、どのような音声コンテンツがどの時刻にどれだけの時間放送されたかを調査する。この調査結果は、市場調査やコンテンツ使用料を徴収するための資料として利用される。
また、モニタリングセンター２００は、この調査を行うために、音声コンテンツに埋め込まれている電子透かしによるＩＤ情報を使用する。すなわち、放送を受信して得られた音声データ（音声コンテンツと音声コンテンツ以外の音声とを含む）から検出されたＩＤ情報を用いて音声コンテンツの有無及びその境界を認識し、その認識結果に基づいて当該音声コンテンツが放送された時刻及び時間を特定する。
ここで、本実施の形態で用いられる音声コンテンツの境界とは、検出された電子透かしの状態によって区別される音声コンテンツの切れ目のことであり、電子透かしに次の変化のいずれかが生じた場合に、その位置を音声コンテンツの境界と判断する。
（ｉ）何らかの電子透かしが埋め込まれている状態から、電子透かしが埋め込まれていない状態への変化。
（ｉｉ）電子透かしが埋め込まれていない状態から、何らかの電子透かしが埋め込まれている状態への変化。
（ｉｉｉ）電子透かしによる埋め込み情報の内容が変化。
図２は、モニタリングセンター２００に設けられ、受信した音声コンテンツから当該音声コンテンツに埋め込まれている電子透かしを検出し、その検出結果に基づいて音声コンテンツの境界を認識するコンテンツ境界認識装置の構成を説明する図である。
図２を参照すると、本実施の形態によるコンテンツ境界認識装置１０は、音声コンテンツに埋め込まれている電子透かしを検出する電子透かし検出部１１と、電子透かし検出部１１による検出結果に基づいて音声コンテンツの境界を検出する境界検出部１２とを備える。
コンテンツ境界認識装置１０は、パーソナルコンピュータやワークステーション、その他のコンピュータ装置にて実現される。また、図２に示した電子透かし検出部１１及び境界検出部１２は、プログラム制御されたＣＰＵにて実現されるソフトウェアブロックである。ＣＰＵを制御する当該プログラムは、磁気ディスクや光ディスクなどの記憶媒体に格納して配布したり、プログラム伝送装置からネットワークを介して配信したりすることにより提供することができる。
上記構成において、電子透かし検出部１１は、受信された音声データから電子透かしを検出し、各ビットの検出値を求める。その際に、必要に応じて位置の同期を行う。さらに、得られた検出値に対してエラー訂正などを行った後、この検出値を用いて電子透かしが埋め込まれた音声コンテンツのＩＤ情報を得る。
境界検出部１２は、電子透かし検出部１１において検出された電子透かしによるＩＤ情報、そのＩＤ情報が検出された時間位置、各ビットの検出値、同期位置に基づいて、受信された音声データにおける音声コンテンツの境界位置を特定する。
次に、境界検出部１２による音声コンテンツの境界位置の検出手法について詳細に説明する。
本実施の形態では、音声コンテンツの境界位置の認識における信頼性と精度とを同時に満足させるため、複数の検出手法を組み合わせて用いて音声コンテンツの境界位置を特定する。そこで、まず本実施の形態で用いることのできる個々の検出手法について説明し、次にそれらを組み合わせて境界位置を特定する手順を説明する。
本実施の形態では、音声コンテンツの境界位置の検出手法として次の５種類の方法を用いる。（１）検出時間帯をずらしながら複数回ＩＤ情報を検出し、検出結果に基づいて境界位置を認識する手法。（２）音声コンテンツに埋められているＩＤ情報の一貫性を使って境界位置を認識する手法。（３）電子透かしの検出強度に基づいて境界位置を認識する手法。（４）ＩＤ情報の同期位置の連続性に基づいて境界位置を認識する手法。（５）専用ビットを使って境界位置を認識する手法。
また、以下の説明において、音声コンテンツの境界位置の認識における信頼性を、「誤採用率」と「紛失率」という２つのエラー率に分けて次のように定義する。
「誤採用率」：全く境界でないところを境界であると判断してしまう確率。誤採用率が高いと境界だらけになる。
「紛失率」：境界と判断すべき候補を境界であると判断しない確率。紛失率が高いと境界を設定しなくなる。
誤採用率と紛失率とはトレードオフの関係にある。すなわち、境界として認識するための閾値を高く設定すれば、誤採用率は下がるが紛失率は上がり、反対に、閾値を低く設定すれば、誤採用率は上がりが紛失率は下がる。
また、音声コンテンツの境界の認識における精度は、所定の手法で境界位置を判定した場合の誤差の度合いを示す。すなわち、境界のある位置を一定の時間的幅を持つ範囲でしか特定できない手法では、仮にその範囲内で境界位置を決定しても誤差を伴うこととなり（その範囲内でどこが正しい境界位置なのかわからない）、認識精度が低くなる。
以下、各検出手法について説明する。
（１）検出時間帯をずらしながら複数回ＩＤ情報を検出し、検出結果に基づいて境界位置を認識する手法：検出手法［１］
電子透かしは音声コンテンツに対してある程度の時間的な長さをもって埋め込まれているため、その検出においても、一定の時間的な長さを持つ範囲から検出を行う。検出手法［１］では、この検出のための範囲を一定の長さだけ重なるようにずらしながら繰り返し電子透かしの検出を行う。そして、それぞれの検出範囲から検出された電子透かしのＩＤ情報を比較し、どの時点でＩＤ情報が変わったかを判断する。なお、電子透かしの検出において音声コンテンツに繰り返し埋め込まれているＩＤ情報を読み落とさないためには、各検出範囲は電子透かしの１周期分以上重なっている必要がある。
図３は、検出範囲をずらしながら電子透かしの検出を繰り返す様子を示す図である。
図３において、検出範囲１、検出範囲２、検出範囲３に対して電子透かしの検出を順次行っている。検出範囲１、２においてはＩＤ情報「Ａ」の電子透かしが検出され、検出範囲３においては電子透かしが検出されなかったことを示している（図では「×」と記述）。
図４乃至図６は、検出手法［１］を用いて上述した３種類の境界ごとに音声コンテンツの境界を認識する様子を示す図であり、図４は電子透かしの有る状態から無い状態へ変化する場合、図５は電子透かしのない状態から有る状態へ変化する場合、図６は電子透かしにおけるＩＤ情報が変化する場合をそれぞれ示す。
図４において、Ａと記述された各検出範囲はＩＤ情報「Ａ」の電子透かしが検出された検出範囲であり、×と記述された各検出範囲は電子透かしが検出されなかった検出範囲である。なお、ＩＤ情報「Ａ」は音声コンテンツＡに埋め込まれたＩＤ情報とする。
図４に示すように、音声コンテンツに対する電子透かしの検出結果が電子透かしの有る状態から無い状態へ変化した場合、最後にＩＤ情報「Ａ」の電子透かしが検出された検出範囲までは、ＩＤ情報「Ａ」を持つ音声コンテンツＡが確実に存在する。したがって、当該音声コンテンツＡが終了する境界位置は、最後にＩＤ情報「Ａ」の電子透かしが検出された検出範囲の終端位置と最初に電子透かしが検出されなくなった検出範囲の終端位置との間、すなわち２つの検出範囲の終端側におけるずれ幅のどこかであることがわかる。ただし、この範囲内において正確な境界位置を特定することはできない。
図５においても図４と同様に、Ａと記述された各検出範囲はＩＤ情報「Ａ」の電子透かしが検出された検出範囲であり、×と記述された各検出範囲は電子透かしが検出されなかった検出範囲である。なお、ＩＤ情報「Ａ」は音声コンテンツＡに埋め込まれたＩＤ情報とする。
図５に示すように、音声コンテンツに対する電子透かしの検出結果が電子透かしの無い状態から有る状態へ変化した場合、最初にＩＤ情報「Ａ」の電子透かしが検出された検出範囲では、すでにＩＤ情報「Ａ」を持つ音声コンテンツＡが存在する。したがって、当該音声コンテンツＡが開始する境界位置は、最初にＩＤ情報「Ａ」の電子透かしが検出された検出範囲の開始位置と電子透かしが検出されなかった最後の検出範囲の開始位置との間、すなわち２つの検出範囲の開始側におけるずれ幅のどこかであることがわかる。ただし、この範囲内において正確な境界位置を特定することはできない。
図６において、Ａと記述された各検出範囲はＩＤ情報「Ａ」の電子透かしが検出された検出範囲であり、Ｂと記述された各検出範囲はＩＤ情報「Ｂ」の電子透かしが検出された検出範囲であり、×と記述された各検出範囲は特定のＩＤ情報を示す電子透かしが検出されなかった検出範囲である。なお、ＩＤ情報「Ａ」は音声コンテンツＡに埋め込まれたＩＤ情報、ＩＤ情報「Ｂ」は音声コンテンツＢに埋め込まれたＩＤ情報とする。
図６に示すように、音声コンテンツに対する電子透かしの検出結果においてＩＤ情報が変化した場合、音声コンテンツＡと音声コンテンツＢとを跨ぐ検出範囲においては、いずれのＩＤ情報も検出することができない（この検出範囲においても、検出強度などにおいて何らかの情報が電子透かしとして埋め込まれている形跡は得られる）。しかしながら、図４、５の場合と同様に、最後にＩＤ情報「Ａ」の電子透かしが検出された検出範囲までは、ＩＤ情報「Ａ」を持つ音声コンテンツＡが確実に存在し、最初にＩＤ情報「Ｂ」の電子透かしが検出された検出範囲では、すでにＩＤ情報「Ｂ」を持つ音声コンテンツＢが存在する。したがって、音声コンテンツＡから音声コンテンツＢへ切り替わる境界位置は、最後にＩＤ情報「Ａ」の電子透かしが検出された検出範囲の終端位置と最初にＩＤ情報「Ｂ」の電子透かしが検出された検出範囲の開始位置との間のどこかであることがわかる。ただし、この範囲内において正確な境界位置を特定することはできない。
以上のようにして、この検出手法［１］は、上述した３種類の境界の全てに対して、境界位置を検出することができる。
そして、音声コンテンツに電子透かしとして繰り返し埋め込まれているＩＤ情報は、劣化などにより失われていない限り、本手法における検出範囲のいずれかにおいて必ず検出される。また、多少の劣化ならば、電子透かし検出部１１における通常のエラー訂正技術によって補正することができる。したがって、この手法を用いた音声コンテンツの境界位置の認識における信頼性は非常に高い。
一方、本手法によって特定される音声コンテンツの境界位置は、常に一定の時間的な幅を持って認識される。また、一方の検出範囲の終点や始点、あるいは境界位置として認識された範囲の中間点などを音声コンテンツの境界と仮定することもできるが、この場合、必然的に誤差を伴うこととなる。したがって、音声コンテンツの境界の認識における精度は低い。
ところで、電子透かし検出部１１におけるエラー訂正能力が高い場合、音声コンテンツの境界を越して、正確なＩＤ情報が得られなかった場合でも、エラー訂正によりＩＤ情報を補正し、電子透かしが検出できたと判断してしまう場合がある。この場合、本手法による音声コンテンツの境界の認識精度はさらに低下することとなる。さらにこの場合、かかるエラー訂正による弊害を回避するために、検出範囲をずらす幅を大きく取るとすれば、図４、５に示したように、この範囲以下の精度で音声コンテンツの境界を認識することはできないので、やはり認識精度が低下することとなる。
次に、検出手法［１］における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
電子透かしにおけるＩＤ情報に含まれるビット数をＮとする。電子透かしにおける各ビットの検出強度を平均μ、分散１であると仮定する。すると期待されるエラー率Ｐ_ｂは次の数１式で示される。
［数１］

このとき、ビット数であるＮ個中のビットエラーがｋ個である確率Ｐ_ａ１は、次の数２式で得られる。
［数２］

ビットエラーした個数がエラー訂正可能な上限個数（Ｎ_ｃ）を超えなければ、ビットエラーは訂正されて正しいＩＤ情報が出力される。この確率Ｐ_ａ２は、次の数３式で得られる。
［数３］

一方、ビットエラーの個数がエラー訂正可能な上限個数（Ｎｃ）を上回り、ＩＤ情報の検出に失敗する確率Ｐ_ａ３は、次の数４式で得られる。
［数４］

図７は、Ｎｃ＝９、Ｎ＝１２８の場合において、μに対する誤採用率Ｐａ３をプロットした図である。
正しいＩＤ情報が検出される合間にＩＤ情報の検出に失敗すると、本来音声コンテンツの境界でなかった場所に境界を誤採用することになる。したがって、この確率が誤採用率を表している。
次に、検出範囲が音声コンテンツの境界を跨いでいる場合を考える。検出範囲の最後尾のＭビットが境界を跨いでおり、別の情報のビットであったとする。別の情報としてどのような情報が埋められているかはわからないので、ある位置に同じビットが埋められている可能性と違うビットが埋められている可能性を等しく１／２であると仮定する。すると、境界を跨いだＭ個のビットのうち、境界前のＩＤ情報の同じ位置のビットと偶然一致しているビットの数がｍである可能性Ｐａ４は、次の数５式で示される。
［数５］

ここで、ＩＤ情報と一致していない（Ｍ−ｍ）個のビットは、検出強度が大きくなるように強く埋められていればいる程、エラー訂正・エラー検出の失敗の原因となり得る。ここで、ＩＤ情報と一致していない１つのビットがエラー検出の失敗の原因となる確率は、ビットエラーを起こさない時にエラー検出の失敗の原因となることから（１−Ｐ_ｂ）である。よって、Ｍビットだけ境界を跨いでいるという条件下で、エラー訂正・エラー検出の失敗の原因となるビットの個数がｋであるという確率は、次のように求められる。
まず、エラー検出の失敗に貢献するビットには以下の３種類がある。
１．境界を跨いでいるＭ個のビットうち、ｍ個のビットが偶然一致している。この一致しているビットのうちのいくつかが劣化によって反転し、エラー検出の失敗の原因となる。このようなビットの数をｎ個とする。この個数に関する制限は、
０≦ｎ≦ｍ≦Ｍ≦Ｎ
である。ＩＤ情報と一致しているｍ個のビット中、ｎ個のビットが反転する確率は、Ｐ_ａ１（μ，ｍ，ｎ）である。
２．境界を跨いでいるＭ個のビットのうち、ＩＤ情報と一致していない（Ｍ−ｍ）個のビットは、検出されさえすれば、エラー検出失敗の原因となる。このようなビットのうちのいくつかは劣化によって反転し、エラー検出失敗の原因ではなくなるが、そうならずにエラー検出失敗の原因となるビットの個数をＰ個とする。この個数に関する制限は、
０≦ｐ≦Ｍ−ｍ≦Ｍ≦Ｎ
である。ＩＤ情報と一致していない（Ｍ−ｍ）個のビット中、ｐ個のビットが反転しない確率は、（Ｍ−ｍ）個中、（Ｍ−ｍ−ｐ）個が反転する確率に等しいので、Ｐ_ａ１（μ，Ｍ−ｍ，Ｍ−ｍ−ｐ）である。
３．境界以前のＮ−Ｍ個のビットは一貫しており、本来はエラー検出失敗の原因とならない。しかし、そのうちのいくつかは劣化して反転し、エラー検出失敗の原因となる。このようなエラー検出失敗の原因となるビットの個数をｑ個とする。この個数に関する制限は、
０≦ｑ≦Ｎ−Ｍ≦Ｎ
である。したがって、このＮ−Ｍ個のビット中、ｑ個のビットが反転する確率は、Ｐ_ａ１（μ，Ｎ−Ｍ，ｑ）である。
そして、エラー検出の失敗の原因となるビットの数の合計がｋであるから、
ｋ＝ｎ＋ｐ＋ｑ
が成り立つ。
以上により、Ｍビットだけ境界を跨いでいるという条件下で、エラー検出の失敗の原因となるビットの個数がｋである確率Ｐ_ａ５は、次の数６式で求まる。
［数６］

これを用いれば、Ｍビットだけ境界を跨いでいるという条件下でもエラー訂正が可能である確率Ｐ_ａ６は、次の数７式で求まる。
［数７］

図８は、Ｎ_ｃ＝９の場合において、境界を跨いだビット数に対して、エラー訂正可能である確率Ｐ_ａ６をプロットした図である。
Ｍの値が増えてゆけば、最終的にＩＤ情報を示すＮビットは、全て次の音声コンテンツのＩＤ情報で構成されるようになる。この場合は、検出されるＩＤ情報そのものが変わるので、境界を見逃すことはあり得ない。
電子透かしを用いた音声コンテンツの境界認識において最も望ましい状態は、（ａ）検出範囲が境界を跨いでいない時には常にエラー訂正に成功して正しいＩＤ情報が得られるが、（ｂ）検出範囲が境界を跨いでいる時には常にエラー検出をしてＩＤ情報が得られないという状態である。（ａ）の要件を実現するためにはエラー訂正能力が強い方が望ましいが、そもそもエラー訂正能力には限界があるので完全には実現できない。一方、（ｂ）の要件を実現するためにはエラー訂正能力は逆に障害となる。何故なら、検出範囲がわずかに境界を跨いだ程度ではエラーを訂正してしまうため、境界を越えているにも関わらず、ＩＤ情報が存在するものと判断してしまうからである。
したがって、上述したように、検出手法［１］においては、音声コンテンツの境界の認識における精度はあまり期待できず、音声コンテンツの境界の大まかな位置を認識するに留めることが好ましい。
（２）音声コンテンツに埋められているＩＤ情報の一貫性を使って境界位置を認識する手法：検出手法［２］
通常、電子透かしにおいては、同じＩＤ情報（ビット列）が繰り返し音声コンテンツに埋め込まれる。検出手法［２］では、このビット列の埋め込みパターンに基づいて、１周期分離れたビットを比較することにより、ＩＤ情報の連続性（一貫性）を調べ、どの時点でＩＤ情報が変わったかを判断する。
図９は、電子透かしとして音声コンテンツに埋め込まれたＩＤ情報による検出ビットの周期性を示す図である。
図９において、音声データからＩＤ情報「Ｂ」の電子透かしが繰り返し検出されている。各ＩＤ情報「Ｂ」の内容は同一であるから、検出されたビット列は周期性を持つこととなる（１周期で１つのＩＤ情報）。
図９に示すように、音声コンテンツに対して同一のＩＤ情報が繰り返し埋め込まれている場合、同一のビット列が周期的に検出される。したがって、音声コンテンツが継続しておりＩＤ情報が変化しないならば、新しく検出されるビットは、１つ前のＩＤ情報「Ｂ」に対応するビット列の同じ位置のビットと同一である。検出ビットの周期性に基づいて言い換えれば、新たに検出されるビットは、１周期前の検出ビットと同一である。これにより、検出されたビットが１周期前の検出ビットと違っていたならば、電子透かしとして音声コンテンツに埋め込まれているＩＤ情報が変化したことを意味し、当該ビットが音声コンテンツの境界であることがわかる。
しかしながら、現実的には、音声コンテンツは継続しているにも関わらず、電子透かしが劣化したために検出ビットが変化してしまう可能性を無視できない。そこで、ビットの検出強度に閾値を設定し、当該閾値を超える検出強度で検出されたビットを用いてビットの一致不一致を識別し、上記の判断を行う。
一方、このような処理を行うと、音声コンテンツが終了して音声データ中に電子透かしが存在しなくなった場合、一様に電子透かしの検出強度が低下してしまうため、検出ビット無しという状態となる。そのため、ビットの一致不一致が識別できず、上記の判断を行うことができなくなる。したがって、検出手法［２］は、音声コンテンツが終了する場合や開始する場合の境界（上述した（ｉ）（ｉｉ）の境界）を検出するのには適さず、音声コンテンツが切り替わって電子透かしのＩＤ情報が変化する場合の境界（上述した（ｉｉｉ）の境界）を検出するのに適している。
また、音声コンテンツが切り替わって電子透かしのＩＤ情報が変化した場合であっても、いくつかのビットが偶然に一致する場合もあり得る。この場合、検出手法［２］では、音声コンテンツが切り替わった境界位置を正確に特定することはできない。すなわち、実際の境界から数ビット進んで、１周期前と異なるビットが現れたところで初めて境界と判断することとなり、その分だけ精度が低下する。
次に、検出手法［２］における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
音声コンテンツの境界ではないにも関わらず、前の周期と今回の周期の一方でビットが劣化しているために誤って不一致を検出してしまう確率Ｐ_ｂ１は、次の数８式で得られる。
［数８］

特に、閾値を設定して検出強度が閾値を下回っている時にはビットの一致不一致の識別を行わないことにすると、誤って不一致を検出してしまう確率Ｐ_ｂ１は、次の数９式で得られる。
［数９］

図１０は、数９式を、Ｔ_Ｂ＝１．０の場合において、μの変化に対して、誤って不一致を検出してしまう確率Ｐ_ｂ１をプロットした図である。
また、Ｎビット中に１箇所以上で誤って不一致を検出してしまう確率Ｐ_ｂ２は、次の数１０式で得られる。
［数１０］

図１１は、数１０式を、Ｔ_Ｂ＝１．０の場合において、μの変化に対して、Ｎビット中に誤って１箇所以上の不一致を検出してしまう確率Ｐ_ｂ２をプロットした図である。
これらの確率を鑑みると、ＩＤ情報が長い場合、誤って不一致を検出する可能性は無視できない。
一方、音声コンテンツの境界を越えた後に検出されたビットが不一致である確率Ｐ_ｂ３は、次の数１１式で得られる。
［数１１］

上の数１１式において、第１項は、元々埋められているビットが１周期前の対応ビットと異なっており、かつ前の周期も今回の周期もビットエラーなく検出された場合と、両方の周期でビットエラーを起こす場合を表している。第２項は、元々埋められているビットが１周期前の対応ビットと一致しているが、前の周期と今回の周期のどちらかでビットが劣化しているために不一致を検出する場合を表している。
境界をＭビットだけ越えたところで初めて不一致を検出できる確率Ｐｂ４は、次のように計算される。すなわち、Ｍ−１ビットの間、前の周期の対応ビットとの不一致を検出せず、Ｍビット目に対応ビットとの不一致を検出する確率であるので、次の数１２式で求まる。
［数１２］

図１２は、数１２式を、Ｔ_Ｂ＝１．０の場合において、境界を跨いだビット数に対し、その位置で初めて不一致を検出する確率Ｐ_ｂ４をプロットした図である。また、図１３は、Ｔ_Ｂ＝１．０の場合において、μに対して、境界を跨いだ後、何ビット目で初めて不一致を検出するかを示す期待値をプロットした図である。
紛失率Ｐ_ｂ５は、音声コンテンツにおける実際の境界を跨ぐ１周期分のビット列にわたって１度も対応ビットとの不一致を検出せず、境界を認識できない場合が起きる確率であるので、次の数１３式で求めることができる。
［数１３］

この値は極めて小さく、μ＝１．０の場合にも約６．８×１０^−９である。
ただし、これらの予測は、音声コンテンツに埋まっているビットが一致し、または不一致となる確率が１／２であるという前提で算出しており、実際の個別的なケースで常に成立するわけではない。例えば、音声コンテンツにおける実際の境界を跨ぐ１周期分のビット列において、最後の１ビットを除き他の全てのビットが１周期前の対応ビットと偶然に一致する場合には、音声コンテンツの境界位置の認識における信頼性が著しく低下することとなる。
（３）電子透かしの検出強度に基づき境界位置を認識する手法：検出手法［３］
通常、電子透かしにおいて、音声コンテンツに埋め込まれている各ビットの検出強度を参照すると、ＩＤ情報が埋め込まれている部分と埋め込まれていない部分とでは、その分布に違いがある。したがって、検出手法［３］では、ビットの検出強度を調べることにより、音声コンテンツが音声データのどの時点で開始し、どの時点で終了したかを判断する。
図１４は、音声データ中、電子透かしが埋め込まれている場所と埋め込まれていない場所とにおけるビットの検出強度の違いを示す図である。
図１４において、音声データから検出されたビットに対し、適当な数のビット（図中で○、×が記述された各範囲）の検出強度に基づいて電子透かしが埋め込まれているか否かを順次判定する。
図１４に示すように、ＩＤ情報「Ａ」を持つ音声コンテンツの部分では、電子透かし（ＩＤ情報「Ａ」）が埋め込まれているので、検出強度が強くなっている（分散が大きくなっている）。これに対し、音声コンテンツでない部分では、電子透かしが埋め込まれていないので、検出強度が弱くなっている（分散が小さくなっている）。
多くの電子透かしは、埋め込みをしていない音声コンテンツにおける検出強度が標準正規分布にしたがうように正規化されている。よって、適当な個数のビットを選び、その検出強度が標準正規分布にしたがっているかどうかを検定する（例えば、分散を閾値に対して比較する）ことにより、電子透かしが埋め込まれている部分かどうかを判定することができる。図１４において、○が記述された部分は電子透かしが埋め込まれていると判断されたビットの検出強度の部分であり、×が記述された部分は電子透かしが埋め込まれていないと判断されたビットの検出強度の部分である。
検出手法［３］は、電子透かしの有無を検定するために用いるビットの検出強度の数をいくつにするかによって、音声コンテンツの境界の認識における信頼性と精度とのバランスを選ぶことができる。多数のビット検出強度を用いて電子透かしの有無を検定すれば、信頼性は向上するが、精度は低下する。
この点は、検出手法［１］と似ているが、本手法では、ビット検出強度というミクロな情報を使っているため、検出手法［１］よりも音声コンテンツの境界の認識における精度が高い。ただし、検出強度の分布を判断するために、ある程度の数のビット（１０〜３０ビット程度）の検出強度が必要であるため、その分だけ精度が落ちることとなる。
なお、検出手法［３］は、ビットの検出強度に基づいて電子透かしの有無を判断する手法であり、電子透かしによって埋め込まれた情報の内容には関わらない。したがって、本手法は、音声コンテンツが終了する場合や開始する場合の境界（上述した（ｉ）（ｉｉ）の境界）を検出するのに適し、音声コンテンツが切り替わって電子透かしのＩＤ情報が変化する場合の境界（上述した（ｉｉｉ）の境界）を検出するのには用いることができない。
次に、検出手法［３］における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
まず、Ｎ_Ｄ個のビット中に検出強度が閾値Ｔ_ＤＭを超えたビットがＮ_Ｍ個以上ある場合に、当該領域に電子透かしが埋め込まれていると判断する。検出値の平均がμである領域において、電子透かしが埋め込まれていると判定される確率Ｐ_ｄ１は、次の数１４式で得られる。
［数１４］

この式は、検出値が正か負かどちらかの方向に閾値を超えるビットの個数がＮ_Ｍ個以上かつＮ_Ｄ個以下である確率を計算している。
また、Ｎ_Ｄビット中に閾値Ｔ_ＤＵを下回るビットがＮ_Ｕ個以上ある場合に、当該領域に電子透かしが埋め込まれていないと判断する。検出値の平均がμである領域において、電子透かしが埋め込まれていないと判定される確率Ｐ_ｄ２は、次の数１５式で得られる。
［数１５］

ここで、電子透かしが埋め込まれていると判定された領域と、電子透かしが埋め込まれていないと判定された領域とが連続している場合に、その境界を音声コンテンツの境界と認識する。この場合、実際には音声コンテンツの境界を越えていないにも関わらず、境界であると判定する確率Ｐ_ｄ３は、次の数１６式で求まる。
［数１６］

また、全部でＮビットのＩＤ情報をＮ_Ｄビットごとに区切って、電子透かしの有無による境界の判定を行う場合に、所定の１箇所以上の領域において境界であると誤判断してしまう誤採用率Ｐ_ｄ４は、次の数１７式で求まる。
［数１７］

さらに、音声コンテンツの境界を越えたにも関わらず、この境界を検出しそこなう紛失率Ｐ_ｄ５は、次の数１８式で求まる。
［数１８］

検出手法［３］における音声コンテンツの境界の認識における信頼性及び精度は、電子透かしの有無の判定に使うビットの個数であるＮ_Ｄに強く依存する。
Ｎ_Ｄの値を、３２、１６、８、４とした場合における上記確率Ｐ_ｄ１、Ｐ_ｄ２及び埋め込み有りとも埋め込み無しとも判定され得る確率と、確率Ｐ_ｄ３、誤採用率Ｐ_ｄ４及び紛失率Ｐ_ｄ５とを図１５乃至図２２に示す。
図１５は、Ｎ_Ｄ＝３２、Ｔ_ＤＭ＝２．０、Ｎ_Ｍ＝７、Ｔ_ＤＵ＝１．０、Ｎ_Ｕ＝２０の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Ｐ_ｄ１、電子透かしが埋め込まれていないと判定される確率Ｐ_ｄ２、どちらとも判定され得る確率をプロットした図である。また、図１６は、Ｎ_Ｄ＝３２、Ｔ_ＤＭ＝２．０、Ｎ_Ｍ＝７、Ｔ_ＤＵ＝１．０、Ｎ_Ｕ＝１５、Ｎ＝１２８の場合において、μに対して、境界を誤判断してしまう確率Ｐ_ｄ３、ＩＤ情報の中の１箇所以上で境界が有ると判断する誤採用率Ｐ_ｄ４、音声コンテンツの実際の境界を検出しそこなう紛失率Ｐ_ｄ５をプロットした図である。
図１７は、Ｎ_Ｄ＝１６、Ｔ_ＤＭ＝２．０、Ｎ_Ｍ＝４、Ｔ_ＤＵ＝１．０、Ｎ_Ｕ＝６の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Ｐ_ｄ１、電子透かしが埋め込まれていないと判定される確率Ｐ_ｄ２、どちらとも判定され得る確率をプロットした図である。また、図１８は、Ｎ_Ｄ＝１６、Ｔ_ＤＭ＝２．０、Ｎ_Ｍ＝４、Ｔ_ＤＵ＝１．０、Ｎ_Ｕ＝６、Ｎ＝１２８の場合において、μに対して、境界を誤判断してしまう確率Ｐ_ｄ３、ＩＤ情報の中の１箇所以上で境界が有ると判断する誤採用率Ｐ_ｄ４、音声コンテンツの実際の境界を検出しそこなう紛失率Ｐ_ｄ５をプロットした図である。
図１９は、Ｎ_Ｄ＝８、Ｔ_ＤＭ＝２．２、Ｎ_Ｍ＝２、Ｔ_ＤＵ＝１．５、Ｎ_Ｕ＝４の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Ｐ_ｄ１、電子透かしが埋め込まれていないと判定される確率Ｐ_ｄ２、どちらとも判定され得る確率をプロットした図である。また、図２０は、Ｎ_Ｄ＝８、Ｔ_ＤＭ＝２．２、Ｎ_Ｍ＝２、Ｔ_ＤＵ＝１．５、Ｎ_Ｕ＝４、Ｎ＝１２８の場合において、μに対して、境界を誤判断してしまう確率Ｐ_ｄ３、ＩＤ情報の中の１箇所以上で境界が有ると判断する誤採用率Ｐ_ｄ４、音声コンテンツの実際の境界を検出しそこなう紛失率Ｐ_ｄ５をプロットした図である。
図２１は、Ｎ_Ｄ＝４、Ｔ_ＤＭ＝２．０、Ｎ_Ｍ＝１、Ｔ_ＤＵ＝１．５、Ｎ_Ｕ＝２の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Ｐ_ｄ１、電子透かしが埋め込まれていないと判定される確率Ｐ_ｄ２、どちらとも判定され得る確率をプロットした図である。また、図２２は、Ｎ_Ｄ＝４、Ｔ_ＤＭ＝２．０、Ｎ_Ｍ＝１、Ｔ_ＤＵ＝１．５、Ｎ_Ｕ＝２、Ｎ＝１２８の場合において、μに対して、境界を誤判断してしまう確率Ｐ_ｄ３、ＩＤ情報の中の１箇所以上で境界が有ると判断する誤採用率Ｐ_ｄ４、音声コンテンツの実際の境界を検出しそこなう紛失率Ｐ_ｄ５をプロットした図である。
各図における閾値は、μが十分大きい場合にＰ_ｄ１の値が１に近づき、Ｐ_ｄ２の値が０に近づき、μが０付近である場合にＰ_ｄ１の値が０に近づき、Ｐ_ｄ２の値が１に近くなるように適当に選んだ。各図を比較すると、判定に使うビットの個数Ｎ_Ｄを短くするとＰ_ｄ１もＰ_ｄ２もなだらかに変化するようになり、μが少し劣化しただけで電子透かしが存在しないと判定される可能性が高くなる。言い換えると、音声コンテンツの境界の認識における精度を高くすると、代償として誤採用率が上がることがわかる。
電子透かしが埋め込まれていない領域において、音声コンテンツの境界であると誤判定してしまう確率はＰ_ｄ３（０，Ｔ_ＤＭ，Ｔ_ＤＵ）なので、境界をＭビットだけ越えたところで初めて境界を検出したと判定する確率Ｐ_ｄ６は、次の数１９式で得られる。
［数１９］

この値は小さいので、電子透かしが埋め込まれていない位置に音声コンテンツの境界があると判定してしまうことは稀である。
（４）ＩＤ情報の同期位置の連続性に基づいて境界位置を認識する手法：検出手法「４」
多くの電子透かし技術では、コンテンツを時間的に一定の長さ（ここではフレームと称す）に切り分けてから、切り分けられたフレームごとに情報の埋め込み処理を施す。埋め込まれた情報を検出する際には、フレームの先頭を検出するための同期処理を行った後、該当フレームに対して検出処理を行う。検出手法［４］では、この電子透かしにおける同期位置の出現パターンに基づいて音声コンテンツの境界位置を判断する。
図２３は、音声コンテンツに埋め込まれた電子透かしの同期位置を説明する図である。
図２３において、ＩＤ情報の電子透かしは、フレームごとに埋め込まれている。また、各フレームの先頭が同期位置となっており、同期信号が検出される。これによって、ＩＤ情報を検出する際の同期を取る。
通常、音声コンテンツには同一の情報が繰り返し埋め込まれているため、図２３に示すように、１つの音声コンテンツ内では同期位置は一定間隔で現れる（線形に並ぶ）。
図２４は、音声コンテンツが切り替わった場合における電子透かしの同期位置の現れ方を説明する図である。
音声コンテンツが切り替わった場合、切り替わる前後の各々の音声コンテンツにおいては、図２３に示したように等間隔で同期位置が現れるが、音声コンテンツが切り替わった境界位置においては、図２４に示すように、同期位置の間隔が乱れることとなる。
図２５は、音声コンテンツが終了した場合における電子透かしの同期位置の現れ方を説明する図である。
音声コンテンツが終了した場合、終了する前の音声コンテンツにおいては、図２３に示したように等間隔で同期位置が現れるが、音声コンテンツが終了した後は、電子透かしが存在しないので同期位置も存在しない。したがって、同期を取ろうとする処理を行うと、図２５に示すように、不規則な間隔で同期位置が現れることとなる。
また、図示しないが、音声コンテンツが開始した場合には、図２５とは反対に、不規則な間隔で現れていた同期位置が、音声コンテンツが開始した時点から整然と等間隔で現れることとなる。
以上のように、音声コンテンツが切り替わる位置及び音声コンテンツの開始位置及び終了位置において、電子透かしを検出するための同期位置の現れ方にそれぞれ変化が生じる。そのため、フレームにおける同期位置の現れ方が変化した位置を音声コンテンツの境界と判断することができる。したがって、この検出方法［４］は、上述した３種類の境界の全てに対して、境界位置を検出することができる。
本手法は、上記のように、フレームにおける同期位置の現れ方が変化した位置を音声コンテンツの境界と判断する。したがって、音声コンテンツの境界はフレーム単位で行うことができるため、音声コンテンツの境界の認識における精度は極めて高い。
一方、電子透かしとして音声コンテンツに埋め込まれたビットが劣化した場合には、音声コンテンツ内であっても同期位置の出現間隔が不規則になってしまうため、音楽コンテンツの境界であると判断してしまう。したがって、音声コンテンツの境界の認識における信頼性は低い。
次に、検出手法［４］における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
電子透かしの検出処理において同期を行う場合、前回までの同期位置に基づいて、次回以降Ｎ_Ｓ回の同期位置を予測する。同期信号は、電子透かしが埋まっていない場合、あるいは電子透かしが埋まっていたとしても同期した位置以外では、標準正規分布にしたがうとする。この条件下では、次のＮ_Ｓ回の同期位置での検出結果が標準正規分布にしたがっているかどうかを検定することで、境界の有無を判定することができる。
同期信号に正の値が埋まっている場合と負の値が埋まっている場合があり、そのいずれが埋まっているか予測できない場合は、検出手法［３］で使った、電子透かしが埋め込まれているかどうかを判定する方法と同じ方法を用いることができる。音声データに電子透かしが存在し、かつ同期位置がずれていない場合に、誤って音声コンテンツの境界があると判定してしまう確率Ｐ_ｅ１は、次の数２０式で得られる。
［数２０］

また、同期信号には必ず正の値が埋まっていると決められている場合、Ｎ_Ｓ個の同期信号検出値を合計した値を閾値と比較して、同期信号が標準正規分布にしたがっているかどうかを検定することができる。
なお、検出手法［４］においては、音声コンテンツが劣化して電子透かしを検出する際の同期位置が不規則に出現する場合には、音声コンテンツ中の至る所で境界を誤検出してしまう。したがって、本手法のみによって、境界位置を認識するのではなく、他の手法と組み合わせて用い、認識される境界位置の精度を高めるために本手法を用いることが好ましい。
（５）専用ビットを使って境界位置を認識する手法：検出手法［５］
検出手法［１］〜［４］は、音声コンテンツにＩＤ情報などを付加するためにすでに埋め込まれている電子透かしを用いて境界位置を検出したが、検出手法［５］は、境界を検出するために設定された専用のビット（以下、境界検出ビットと称す）を音声コンテンツに埋め込む。そして、検出された境界検出ビットを解析することにより、音声コンテンツの境界位置を特定する。
図２６は、音声コンテンツに電子透かしによって埋め込まれる境界検出用ビットの構成を説明する図である。
図２６において、すでに検出された境界検出ビットが１００１１０の順で並んでいる。そして、新しく境界検出ビット１が検出された状態が示されている。
境界検出ビットは、ＩＤ情報のビットに対し、一定ビット数に対して１ビットというような一定の規則にしたがって音声コンテンツに埋め込まれる。そのため、音声コンテンツに埋め込まれる電子透かしの総ビット数は増えることとなる。
また、境界検出ビットを用いて音声コンテンツの境界を検出するには、一連の境界検出ビットの一貫性を調べる。すなわち、境界検出ビットの検出結果が一定の規則にしたがっている間、言い換えれば、次に検出される境界検出ビットの検出結果が予測可能である間は音声コンテンツが継続している。そして、境界検出ビットの検出結果が当該規則から外れたならば、すなわち次に検出される境界検出ビットの検出結果の予測が外れたならば、当該予測が外れた境界検出ビットの位置が音声コンテンツの境界位置である。
さらにまた、境界検出ビットとして音声コンテンツに埋める情報の内容は、音声コンテンツの境界であるにも関わらず偶然に一貫性を保ってしまう確率を低くするように設定しなければならない。そして、できるだけ少ないビット数で一貫性の有無を判定できることが望ましい。
例えば、Ｎ次のＭ系列を境界検出ビットとして埋めることとする。Ｎ次のＭ系列の長さは（２^Ｎ−１）であるので、これを周期として繰り返しＭ系列を埋める。したがって、音声コンテンツの境界を越えていながら、境界検出ビットの内容の一貫性が偶然に保持されてしまう確率は、１／（２^Ｎ−１）である。Ｎ次のＭ系列は、Ｎビットあれば次の１ビットが決定される。よって、最後に検出されたＮ個の境界検出ビットから次の１ビットを予測し、実際に検出された次の境界検出ビットが予測結果と等しくない場合は、一貫性が失われたとして、この位置を音声コンテンツの境界位置と判定することができる。Ｍ系列を使うことの利点は、周期（２^Ｎ−１）が長いこと、一貫性の判定に必要なビットの履歴Ｎ個が少ないことである。
検出手法［２］で述べたのと同様に、劣化している部分での境界の誤検出を防ぐために、本手法でも閾値を設定することが望ましい。次の境界検出ビットを予測するためのＮ個の境界検出ビットも当該次の境界検出ビットも、全て検出強度が信頼できる程大きく、かつ一貫性が失われた場合にのみ音声コンテンツの境界であると判断すべきである。
以上のように、検出手法［５］は、音声コンテンツの境界を１ビットの単位で認識することができ、認識における精度は非常に高い。
一方、音声コンテンツの劣化による誤検出や音声コンテンツの境界を越えていながら境界検出ビットの一貫性が偶然に保持されてしまう場合が考えられるため、認識における信頼性は若干低下する。
境界検出ビットとして複数ビットを並列して埋めることができれば、信頼性も精度も向上させることができる。ただし、この場合、電子透かしとして埋め込むべきビット数がさらに増えてしまう。
なお、音声コンテンツに埋め込むビット数が増加することを防ぐため、ＩＤ情報を埋め込むために使用しているビット数の範囲で境界検出ビットを埋め込むことも考えられるが、この場合、ＩＤ情報の情報量が減少してしまう。また、ＩＤ情報でありながら境界検出ビットとしても使用できるようなビット列を埋め込むことも考えられるが、そのようなビット列を設定することは容易ではない。
次に、検出手法［５］における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
使用するＭ系列の次元をＤとする。最後に検出されたＤビットと新しく検出された１ビットの境界検出ビットの全てが閾値Ｔ_Ｃを超える程強く検出された場合に一貫性を調べる。すなわち、Ｍ系列に基づく予測と検出された境界検出ビットとの一致不一致を調べる。
この場合、実際には音声コンテンツの境界ではないにも関わらず、誤って不一致を検出してしまう確率Ｐ_ｃ１は、次の数２１式で得られる。
［数２１］

図２７は、Ｔ_ｃ＝１．０、Ｄ＝５の場合において、μの変化に対して、誤って不一致を検出してしまう確率Ｐ_ｃ１をプロットした図である。
また、Ｎビットの範囲に１箇所以上で誤って不一致を検出してしまう確率Ｐ_ｃ２は、次の数２２式で得られる。
［数２２］

図２８は、Ｔ_ｃ＝１．０、Ｄ＝５の場合において、μの変化に対して、Ｎビット中に誤って１箇所以上の不一致を検出してしまう確率Ｐ_ｃ２をプロットした図である。図２８から、ＩＤ情報が長い場合には、誤って不一致を検出することが無いとは言えないが、検出手法［２］と比較するとはるかに低い誤採用率であることがわかる。
一方、音声コンテンツの境界を１ビット越えたところで検出されたビットが不一致である確率Ｐ_ｃ３は、次の数２３式で得られる。
［数２３］

この式は、音声コンテンツの境界を跨いでいるにも関わらず、偶然に、同一音声コンテンツ内と同様の境界検出ビットが埋められている確率を１／２であるとした仮定に基づいている。そして、元々一貫性が保持されていたビットが劣化したために不一致になった確率と、元々一貫性が保たれていなかったビットがそのまま検出されて不一致になった確率を加える式になっている。
また、音声コンテンツの境界をＭビットだけ越えたところで検出されたビットが予測と不一致である確率Ｐ_ｃ３は、次の数２４式で得られる。
［数２４］

異なる音声コンテンツが連続している場合、音声コンテンツの境界を完全に越えてしまうと、次の音声コンテンツの電子透かしを検出するため、その部分のＭ系列は再び一貫性を持つこととなる。したがって、Ｍ系列による予測と実際に検出された境界検出ビットとの不一致に基づいて音声コンテンツの境界を認識することはできない。音声コンテンツの境界を完全に越えた位置に電子透かしが埋め込まれていない場合に、Ｍ系列による予測と実際の境界検出ビットとの不一致が検出される可能性Ｐ_ｃ３は、次の数２５式で得られる。ただし、この確率は極めて小さい。
［数２５］

音声コンテンツの境界をＭビット越えたところで初めて不一致を検出できる確率Ｐ_ｃ４は、次の数２６式で得られる。
［数２６］

図２９は、Ｔ_ｃ＝１．０、Ｄ＝５の場合において、境界を跨いだビット数に対して、その位置で初めて不一致を検出してしまう確率Ｐ_ｃ４をプロットした図である。不一致を検出する精度は高々Ｄビットである。この範囲で境界を見付けられなかった場合、本手法では、境界を見付け損なうので高い紛失率を持っている。
図３０は、Ｔ_ｃ＝１．０、Ｄ＝５の場合において、μに対して境界を見付けられない確率をプロットした図である。また、図３１は、Ｔ_ｃ＝１．０の場合において、Ｄに対して境界を見付けられない確率をプロットした図である。
境界検出ビットの検出値が強い音声コンテンツに対しては、Ｄを増やすことによって紛失率を減らすことができる（ただし、この場合、検出の精度を失う）。しかし、音声コンテンツの劣化により境界検出ビットの検出値が小さい場合、Ｄを増やすと全ビットが閾値に達する可能性が低くなるので、紛失率が一層上がることとなる。
以上、５種類の音声コンテンツの境界検出手法を説明した。上述のように、各検出手法［１］［２］［３］［４］［５］は、それぞれ音声コンテンツの境界の認識における信頼性と精度とが異なる。そこで、本実施の形態では、これらの検出手法を組み合わせて用いることにより、高い信頼性及び高い精度で音声コンテンツの境界を認識することを実現する。
次に、その具体的な手法の例を説明する。
図３２は、図２に示した境界検出部１２による音声コンテンツの境界位置を特定する処理を説明するフローチャートである。この動作例では、上述した音声コンテンツの境界検出手法のうち、検出手法［１］［２］［３］［４］を組み合わせて用いている。
また、境界検出部１２による処理に先立って、電子透かし検出部１１により処理対象である音声データから電子透かしの検出が行われている。
図３２を参照すると、境界検出部１２は、電子透かし検出部１１から検出されたＩＤ情報と当該ＩＤ情報を検出した時間を示す時間情報とを受け取り（ステップ３２０１）、まず、検出手法［１］を用いて音声コンテンツの境界位置を認識する（ステップ３２０２）。
上述したように、検出手法［１］は、検出されたＩＤ情報そのものを用いるので信頼性は高いが、音声コンテンツの境界位置として特定される位置が一定の時間的幅を持つため精度が低い。そこで、境界検出部１２は、検出手法［１］で特定した境界位置を、他の検出手法を用いてさらに絞り込む。
すなわち、境界検出部１２は、検出手法［１］による検出結果に基づいて、検出された音声コンテンツの境界が、音声コンテンツが終了する場合や開始する場合の境界（上述した（ｉ）（ｉｉ）の境界）であるのか、音声コンテンツが切り替わって電子透かしのＩＤ情報が変化する場合の境界（上述した（ｉｉｉ）の境界）であるのかを判断する（ステップ３２０３）。
検出手法［１］により検出された音声コンテンツの境界が（ｉｉｉ）の境界である場合、境界検出部１２は、次にこの種の境界の検出に適した検出手法［２］を用いて音声コンテンツの境界位置を認識する（ステップ３２０４）。
また、検出手法［１］により検出された音声コンテンツの境界が（ｉ）（ｉｉ）の境界である場合、境界検出部１２は、次にこの種の境界の検出に適した検出手法［３］を用いて音声コンテンツの境界位置を認識する（ステップ３２０５）。
検出手法［２］［３］は、検出された電子透かしのビットデータや検出強度を用いることから、音声コンテンツの劣化の影響を受けるため、検出手法［１］よりも信頼性が劣る。しかしながら、検出手法［１］において音声コンテンツの境界と判断された範囲で検出手法［２］［３］を用いることにより、高い信頼性を得ることができる。
上述したように、検出手法［２］は、理論的には電子透かしとして埋め込まれたＩＤ情報を記述しているビット単位で音声コンテンツの境界を特定できるが、現実には境界前後のＩＤ情報でいくつかのビットが偶然に一致し、境界と判断する位置が実際の境界よりも数ビット分遅れる場合がある。
また、検出方法［３］は、電子透かしの検出ビットにおける検出強度の分布に基づいて音声コンテンツの有無を判断するため、検出手法［１］の場合よりもはるかに小さい時間幅であるが、検出強度の分布を得ることができるだけの数のビット数が必要である。
そこで、境界検出部１２は、検出手法［２］［３］で絞り込んだ境界位置を対象とし、検出手法［４］を用いて音声コンテンツの境界位置を特定する（ステップ３２０６）。
上述したように、検出手法［４］は、電子透かしの埋め込み及び検出のための同期位置に基づいて音声コンテンツの境界位置を判断する。このため、同期信号の出現する間隔という非常に高い精度で音声コンテンツの境界を特定することができる。
また、検出手法［４］自体は、音声コンテンツの劣化の影響を受けるため、信頼性が低いが、検出手法「１」［２］［３］により音声コンテンツの境界と判断された範囲で検出手法「４」を用いることにより、高い信頼性も確保することができる。
以上、検出手法［１］［２］［３］［４］を組み合わせて用いた電子透かしの境界の検出手法について説明した。これらの検出手法は、音声コンテンツに何らかの電子透かしが埋め込まれていれば適用することができる。したがって、ＩＤ情報の埋め込みに用いられた電子透かしを用い音声コンテンツの境界位置を認識することが可能である。
なお、上述した処理動作は例示に過ぎず、例えば境界位置の探索を行う際に適切な閾値を動的に設定することにより、検出手法［３］の代わりに検出手法［２］を用いることもできる。また、音声コンテンツや埋め込まれているＩＤ情報の内容などに応じて、検出手法［２］［３］で得られる精度で十分である場合には、検出手法［４］による境界位置の特定を省略することもできる。
また、音声コンテンツに対して、境界位置検出用の専用ビットを埋め込んであれば、さらに検出手法［５］により音声コンテンツの境界位置を検出することもできる。検出手法「５」によれば、音声コンテンツの劣化などがなければ１ビット単位で境界位置を特定することができるので、検出手法［２］［３］に代えて、またはこれらの手法と併せて用いることができる。検出手法［２］［３］と検出手法［５］とを併用する場合、精度の向上はそれほど期待できないが、検出手法が増えることによって検出結果の信頼性を向上させることができる。
上述した実施の形態では、音声コンテンツが他の音声コンテンツに切り替わる位置や、音声コンテンツの開始位置、終了位置といった境界位置を、音声コンテンツに埋め込まれている電子透かしの検出結果を処理することにより認識した。以上のようにして得られた境界位置と、電子透かし検出部１０において電子透かしを検出した際に得られた時間情報とに基づいて、音声データにおける所定の音声コンテンツの時間的位置を特定することができる。したがって、これを放送に対する放送モニタリングに用いれば、放送データにおいて音声コンテンツの占める時間を特定し、当該音声コンテンツがいつどれだけの時間放送されたかを調査することができる。
しかしながら、放送などによる音声データにおいては、現実的な音声コンテンツの境界位置が明確でない場合もある。例えば、所定の音声コンテンツがフェードアルトで終了し、同時に他の音声コンテンツがフェードインで開始する場合である。
この場合、フェードイン、フェードアウトにより二つの音声コンテンツが重なっている部分が存在するため、本実施の形態によるいずれの検出手法においても、明確な境界を特定できない（この場合、例えば検出手法［１］［２］などでは、次の音声コンテンツの電子透かしが検出され始めた位置と前の音声コンテンツの電子透かしが検出されなくなった位置とを音声コンテンツの境界位置と認識してしまう）。
このような場合、どの時点を音声コンテンツの境界とするかを予め決めておき、その規則に基づいて音声コンテンツの境界を特定する。例えば、前の音声コンテンツにおけるＩＤ情報が検出された最後の位置と次の音声コンテンツにおけるＩＤ情報が検出された最初の位置との中間地点（すなわち、二つの音声コンテンツが重なっている範囲の中間地点）を音声コンテンツの境界とすることができる。
また、複数の音声コンテンツが合成されて放送された場合は、上記のフェードイン、フェードアウトにより音声コンテンツが切り替わる場合でも述べたように、２種類の電子透かしが検出されてしまうため、本実施の形態による検出手法では、１つの音声コンテンツに関する境界位置を特定することはできない。したがって、本実施の形態は、放送される音声データに同時には１つの音声コンテンツだけが含まれるような場合の境界位置の検出が対象となる。
なお、本実施の形態では、音声コンテンツの境界位置を検出する場合について説明したが、動画の映像コンテンツや映像と音声とが組み合わされたコンテンツの音声部分などのような時間的要素を含む他のコンテンツに対しても、コンテンツのＩＤ情報を埋め込んだ電子透かしを用いて、本実施の形態による各検出手法をそのまま適用することが可能である。
以上説明したように、本発明によれば、コンテンツから検出された電子透かしに基づいてコンテンツの境界を認識する手法として複数の手法を組み合わせることにより、コンテンツの境界位置の認識において高い信頼性と高い精度とを同時に満足させることが可能となる。
【図面の簡単な説明】
図１は本実施の形態が適用される放送モニタリングを行うシステムの概略を説明する図である。
図２は本実施の形態におけるコンテンツ境界認識装置の構成を説明する図である。
図３は本実施の形態における検出手法［１］において、検出範囲をずらしながら電子透かしの検出を繰り返す様子を示す図である。
図４は本実施の形態における検出手法［１］において、電子透かしの有る状態から無い状態へ変化する場合の境界位置を説明する図である。
図５は本実施の形態における検出手法［１］において、電子透かしの無い状態から有る状態へ変化する場合の境界位置を説明する図である。
図６は本実施の形態における検出手法［１］において、電子透かしにおけるＩＤ情報が変化する場合の境界位置を説明する図である。
図７は検出手法［１］において、ビットエラーの個数がエラー訂正可能な上限個数（Ｎ_ｃ）を上回り、ＩＤ情報の検出に失敗する確率を示す図である。
図８は検出手法［１］において、検出範囲が境界を跨いでいるという条件下でもエラー訂正が可能である確率を示す図である。
図９は検出手法［２］において、電子透かしとして音声コンテンツに埋め込まれたＩＤ情報による検出ビットの周期性を示す図である。
図１０は検出手法［２］において、音声コンテンツの境界ではないにも関わらず誤って不一致を検出してしまう確率を示す図である。
図１１は検出手法［２］において、所定のＮビット中に１箇所以上で誤って不一致を検出してしまう確率を示す図である。
図１２は検出手法［２］において、境界をＭビットだけ越えたところで初めて不一致を検出できる確率を示す図である。
図１３は検出手法［２］において、境界を跨いだ後、何ビット目で初めて不一致を検出するかの期待値を示す図である。
図１４は検出手法［３］において、音声データ中、電子透かしが埋め込まれている場所と埋め込まれていない場所とにおけるビットの検出強度の違いを示す図である。
図１５は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を３２個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図１６は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を３２個とした場合における誤判定率、誤採用率及び紛失率を示す図である。
図１７は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を１６個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図１８は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を１６個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図１９は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を８個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図２０は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を８個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図２１は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を４個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図２２は検出手法［３］において、電子透かしの有無の判定に使うビットの個数を４個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図２３は検出手法［４］において、音声コンテンツに埋め込まれた電子透かしの同期位置を説明する図である。
図２４は検出手法［４］において、音声コンテンツが切り替わった場合における電子透かしの同期位置の現れ方を説明する図である。
図２５は検出手法［４］において、音声コンテンツが終了した場合における電子透かしの同期位置の現れ方を説明する図である。
図２６は検出手法［５］において、音声コンテンツに電子透かしによって埋め込まれる境界検出用ビットの構成を説明する図である。
図２７は検出手法［５］において、実際には音声コンテンツの境界ではないにも関わらず、誤って不一致を検出してしまう確率を示す図である。
図２８は検出手法［５］において、所定のＮビットの範囲に１箇所以上で誤って不一致を検出してしまう確率を示す図である。
図２９は検出手法［５］において、音声コンテンツの境界をＭビット越えたところで初めて不一致を検出できる確率を示す図である。
図３０は検出手法［５］において、電子透かしにおけるビットの検出強度の平均に対する紛失率を示す図である。
図３１は検出手法［５］において、境界検出ビットであるＭ系列の次元に対する紛失率を示す図である。
図３２は本実施の形態における境界検出部による音声コンテンツの境界位置を特定する処理を説明するフローチャートである。

Claims

時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、
前記電子透かし検出部により検出された前記電子透かしの状態に応じて、前記コンテンツの境界位置を検出する境界検出部とを備え、
前記境界検出部は、
前記電子透かし検出部により検出された前記電子透かしにおいて記述されている情報に基づいて、前記コンテンツの境界位置を特定する第１の境界特定手段と、
前記電子透かしとして埋め込まれているビットの埋め込みパターンに基づいて、前記コンテンツの境界位置を特定する第２の境界特定手段とを備え、
前記第１、第２の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とするコンテンツ境界検出装置。
前記境界検出部は、
前記電子透かしの検出に用いられる同期信号の出現パターンに基づいて、前記コンテンツの境界位置を特定する第３の境界特定手段を備え、
前記第１、第２の境界特定手段による処理結果に、さらに前記第３の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とする請求項１に記載のコンテンツ境界検出装置。
時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、
前記電子透かし検出部により検出された前記電子透かしの状態に応じて、前記コンテンツの境界位置を検出する境界検出部とを備え、
前記境界検出部は、
前記電子透かし検出部により検出された前記電子透かしにおいて記述されている情報に基づいて、前記コンテンツの境界位置を特定する第１の境界特定手段と、
前記電子透かしとして埋め込まれているビットの検出強度に基づいて、前記コンテンツの境界位置を特定する第２の境界検出手段とを備え、
前記第１、第２の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とするコンテンツ境界検出装置。
前記境界検出部は、
前記電子透かしの検出に用いられる同期信号の出現パターンに基づいて、前記コンテンツの境界位置を特定する第３の境界特定手段を備え、
前記第１、第２の境界特定手段による処理結果に、さらに前記第３の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とする請求項３に記載のコンテンツ境界検出装置。
時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、
前記電子透かし検出部により検出された前記電子透かしの状態に応じて、前記コンテンツの境界位置を検出する境界検出部とを備え、
前記境界検出部は、
前記電子透かしとして前記コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測し、当該ビットの実際の検出結果が予測と一致しているか否かに基づいて前記コンテンツの境界位置を特定することを特徴とするコンテンツ境界検出装置。
前記境界検出部は、前記コンテンツに前記電子透かしとしてＭ系列を構成するビット列が繰り返し埋め込まれている場合に、所定のＭ系列に基づいて、当該Ｍ系列を構成するビット列の次に検出されたビットの検出結果を予測し、当該予測の結果に応じて前記コンテンツの境界位置を特定することを特徴とする請求項５に記載のコンテンツ境界検出装置。
種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、
前記放送データに対して電子透かしの検出処理を実行し、前記コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしの状態に応じて、前記放送データにおける前記コンテンツの境界位置を検出するステップと、
検出された前記コンテンツの境界位置に基づいて、前記放送データにおいて前記コンテンツの占める時間を特定するステップとを含み、
前記コンテンツの境界位置を検出するステップは、
検出された前記電子透かしにおいて記述されている情報に基づく第１の手法により、当該電子透かしを埋め込まれているコンテンツの境界位置を特定するステップと、
前記第１の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットに関する情報に基づく第２の手法により、前記第１の手法よりも高い精度で前記コンテンツの境界位置を特定するステップとを含むことを特徴とするモニタリング方法。
前記コンテンツの境界位置を検出するステップは、
前記第２の手法で特定された前記境界位置を対象として、前記電子透かしの検出に用いられる同期信号の出現パターンに基づく第３の手法により、前記第２の手法よりもさらに高い精度で前記コンテンツの境界位置を特定するステップをさらに含むことを特徴とする請求項７に記載のモニタリング方法。
前記第２の手法により前記コンテンツの境界位置を特定するステップは、
前記電子透かしとして前記コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測するステップと、
前記ビットの実際の検出結果が予測と一致しているか否かに基づいて前記コンテンツの境界位置を特定するステップとを含むことを特徴とする請求項７に記載のモニタリング方法。
種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、
前記放送データに対して電子透かしの検出処理を実行し、前記コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしとして埋め込まれているビットの埋め込みパターンに基づいて、前記放送データにおける前記コンテンツの境界位置を検出するステップと、
検出された前記コンテンツの境界位置に基づいて、前記放送データにおいて前記コンテンツの占める時間を特定するステップとを含むことを特徴とするモニタリング方法。
種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、
前記放送データに対して電子透かしの検出処理を実行し、前記コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしとして埋め込まれているビットの検出強度に基づいて、前記放送データにおける前記コンテンツの境界位置を検出するステップと、
検出された前記コンテンツの境界位置に基づいて、前記放送データにおいて前記コンテンツの占める時間を特定するステップとを含むことを特徴とするモニタリング方法。
所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するコンテンツ位置検出方法において、
前記音声データに対して電子透かしの検出処理を実行し、前記音声コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしにおいて記述されている情報に基づく第１の手法により、当該電子透かしを埋め込まれている前記音声コンテンツの境界位置を特定するステップと、
前記第１の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットの検出強度に基づく第２の手法により、前記第１の手法よりも高い精度で前記音声コンテンツの境界位置を特定するステップとを含むことを特徴とするコンテンツ位置検出方法。
前記第２の手法で特定された前記境界位置を対象として、前記電子透かしの検出に用いられる同期信号の出現パターンに基づく第３の手法により、前記第２の手法よりもさらに高い精度で前記音声コンテンツの境界位置を特定するステップをさらに含むことを特徴とする請求項１２に記載のコンテンツ位置検出方法。
前記第２の手法により前記音声コンテンツの境界位置を特定するステップは、
前記電子透かしとして前記音声コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測するステップと、
前記ビットの実際の検出結果が予測と一致しているか否かに基づいて前記音声コンテンツの境界位置を特定するステップとを含むことを特徴とする請求項１２に記載のコンテンツ位置検出方法。
コンピュータを制御して、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するプログラムにおいて、
前記音声データに対して電子透かしの検出処理を実行し、前記音声コンテンツに埋め込まれている電子透かしを検出する処理と、
検出された前記電子透かしにおいて記述されている情報に基づく第１の手法により、当該電子透かしを埋め込まれている前記音声コンテンツの境界位置を特定する処理と、
前記第１の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットの検出強度に基づく第２の手法により、前記第１の手法よりも高い精度で前記音声コンテンツの境界位置を特定する処理とを前記コンピュータを実行させることを特徴とするプログラム。
前記第２の手法で特定された前記境界位置を対象として、前記電子透かしの検出に用いられる同期信号の出現パターンに基づく第３の手法により、前記第２の手法よりもさらに高い精度で前記音声コンテンツの境界位置を特定する処理を、前記コンピュータにさらに実行させることを特徴とする請求項１５に記載のプログラム。
コンピュータを制御して、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するプログラムにおいて、
電子透かしとして前記音声コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測する処理と、
前記ビットの実際の検出結果が予測と一致しているか否かに基づいて前記音声コンテンツの境界位置を特定する処理とを前記コンピュータに実行させることを特徴とするプログラム。
コンピュータを制御して、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するプログラムを格納した記憶媒体であって、
前記プログラムは、
前記音声データに対して電子透かしの検出処理を実行し、前記音声コンテンツに埋め込まれている電子透かしを検出する処理と、
検出された前記電子透かしにおいて記述されている情報に基づく第１の手法により、当該電子透かしを埋め込まれている前記音声コンテンツの境界位置を特定する処理と、
前記第１の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットの検出強度に基づく第２の手法により、前記第１の手法よりも高い精度で前記音声コンテンツの境界位置を特定する処理とを前記コンピュータを実行させることを特徴とする記憶媒体。