JPWO2002095727A1 - コンテンツ境界検出装置、モニタリング方法、コンテンツ位置検出方法、プログラム及び記憶媒体 - Google Patents
コンテンツ境界検出装置、モニタリング方法、コンテンツ位置検出方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JPWO2002095727A1 JPWO2002095727A1 JP2002592107A JP2002592107A JPWO2002095727A1 JP WO2002095727 A1 JPWO2002095727 A1 JP WO2002095727A1 JP 2002592107 A JP2002592107 A JP 2002592107A JP 2002592107 A JP2002592107 A JP 2002592107A JP WO2002095727 A1 JPWO2002095727 A1 JP WO2002095727A1
- Authority
- JP
- Japan
- Prior art keywords
- content
- boundary
- digital watermark
- detection
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 373
- 238000000034 method Methods 0.000 title claims abstract description 137
- 238000012544 monitoring process Methods 0.000 title claims description 27
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000002123 temporal effect Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 21
- 230000008685 targeting Effects 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 47
- 238000012937 correction Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 10
- 230000006866 deterioration Effects 0.000 description 10
- 230000007423 decrease Effects 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0065—Extraction of an embedded watermark; Reliable detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Editing Of Facsimile Originals (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
Description
本発明は、放送モニタリングを行うため、放送された映像や音声の中からコンテンツの境界位置を検出する手法に関する。
背景技術
映像や音楽などのコンテンツの放送による配信においては、市場調査やコンテンツ使用料を徴収するために、放送をモニタリングし、コンテンツの放送時刻及び放送時間の長さを調査することが行われている。
この種の放送モニタリングでは、放送されるコンテンツに何らかの手法で当該コンテンツの識別情報を付加し、放送の中からこの識別情報を検出することにより、当該コンテンツが放送された時刻及び時間を特定する。
コンテンツに識別情報を付加する従来の手法としては、例えば、コンテンツの最初と最後の位置に特別の波形の信号を単純に付加する方法や、同じくコンテンツの最初と最後に副搬送波に乗せて所定の情報を付加する方法があった。後者の副搬送波に情報を乗せる方法では、音声コンテンツの場合、当該副搬送波の大きさを放送内容の音の包絡線(エンベロープ)に合わせて変えることにより、人の耳に聞こえにくくすることができる。
さらに、映像コンテンツに関しては、映像の記録に使われていない1ライン分の領域にコード化された所定の情報を織り込む方法があった。
ところで、近年、コンテンツの品質に影響を及ぼさない形で特別の情報を埋め込む電子透かし技術が普及してきている。そこで、この電子透かし技術を用いて、放送モニタリングに用いる識別情報(以下、モニタリング情報と称す)をコンテンツに埋め込むことが提案されている。この場合、放送された全ての内容である放送データに対して電子透かしを検出する処理を行い、モニタリング情報の検出結果に基づいて、所定のコンテンツがいつ放送されたか(放送データ中における時間的位置)を特定することにより、放送モニタリングを行う。
この電子透かし技術を用いてコンテンツにモニタリング情報を付加する手法は、上述した副搬送波やコンテンツの特定領域に情報を付加する手法と比較して、次のような利点がある。
すなわち、コンテンツの全体にわたって情報を埋め込むことができるため、コンテンツの加工や劣化によって情報が失われにくい。
また、コンテンツそのものにモニタリング情報を付加できるため、第三者による加工が困難であり、偽造や改竄に対する安全性が高い。
通常、電子透かしのコンテンツへの埋め込みは、当該コンテンツの偽造や改竄を防止する目的で行われる。そのため、コンテンツ中に1つの情報(電子透かし)が何度も繰り返して埋め込まれる。そこで、コンテンツが放送された時刻及び時間を検出するためのモニタリング情報として電子透かしを用いる場合、この電子透かしに基づいて放送中のコンテンツの境界位置(開始箇所と終了箇所)を認識することが必要となる。
モニタリングするコンテンツが映像コンテンツである場合は、フレームを単位とし、当該コンテンツに関する情報(ID情報)の全てを1フレームに埋め込むことができる。したがって、フレームごとにID情報を検出し、直前のフレームと異なるID情報が検出されたフレームを当該コンテンツの境界と認識することができる。
しかし、音声コンテンツの場合、映像コンテンツと異なり、電子透かしに基づいてコンテンツの境界を認識することは容易ではない。その理由は、映像コンテンツにおけるフレームのような明確な時間の区切りがないためである。また、時間位置(時間軸上の特定の位置)に映像コンテンツにおけるフレームのような広さがないため、1つの時間位置にID情報の全てを埋めることができず、ID情報を埋め込むためにコンテンツにおける一定の時間的な幅を必要とするためである。
すなわち、音声コンテンツに埋め込まれた電子透かしのID情報から当該コンテンツの境界を認識するためには、1次元的に続くビットのストリームに対して、どこからどこまでが1つのコンテンツから検出されたもので、どこからが次のコンテンツから検出されたものかを特定するという処理が必要となる。
さらに、放送されたコンテンツにおいては、ノイズ、高音の損失、放送のための編集処理、音声圧縮などの影響によって、電子透かしが劣化し、検出されたビットの内容が多くのエラーを含んでいる可能性もある。このエラーによる判断の誤りを補正するためには、ある程度の長さの音声部分から電子透かしを検出し、ID情報を特定することが必要となる。
しかし、このような手法によると、電子透かしを検出すべき音声が一定の時間的な幅を持つこととなるため、埋め込まれている電子透かしの内容がどこで切り替わったかを精密に特定することは困難である。
以上のように、音声コンテンツの場合、コンテンツに埋め込まれている電子透かしを利用して放送されたコンテンツの境界を認識し、モニタリング情報として利用しようとすると、音声コンテンツの境界位置の認識結果における信頼性と精度とを同時に満足させることが困難であった。
そこで、本発明は、コンテンツから検出された電子透かしに基づいてコンテンツの境界を認識する手法として複数の手法を組み合わせることにより、コンテンツの境界位置の認識において高い信頼性と高い精度とを同時に満足させることを目的とする。
発明の開示
上記の目的を達成する本発明は、次のように構成されたことを特徴とするコンテンツ境界検出装置を提供することができる。すなわち、このコンテンツ境界検出装置は、時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、この電子透かし検出部により検出された電子透かしの状態に応じて、このコンテンツの境界位置を検出する境界検出部とを備え、この境界検出部は、電子透かし検出部により検出された電子透かしにおいて記述されている情報に基づいて、このコンテンツの境界位置を特定する第1の境界特定手段と、この電子透かしとして埋め込まれているビットの埋め込みパターンに基づいて、このコンテンツの境界位置を特定する第2の境界特定手段とを備え、この第1、第2の境界特定手段による処理結果を組み合わせてこのコンテンツの境界位置を検出することを特徴とする。
この第1、第2の境界特定手段を用い、まず第1の境界特定手段によりある程度の時間的幅は持つが信頼性の高い境界位置の特定を行い、次に第1の境界特定手段で特定された範囲を対象として、第2の境界特定手段により精度の高い境界位置の特定を行うこととすれば、高い信頼性及び高い精度を併せ持つ境界位置の検出を行うことが可能となる。
ここで、この境界検出部は、この電子透かしの検出に用いられる同期信号の出現パターンに基づいて、このコンテンツの境界位置を特定する第3の境界特定手段を備え、第1、第2の境界特定手段による処理結果に、さらにこの第3の境界特定手段による処理結果を組み合わせてこのコンテンツの境界位置を検出する構成とすることができる。
上述した第1、第2の境界特定手段にてコンテンツの境界位置と判断された位置に対して、さらに同期信号に基づく境界位置の特定を行うことにより、一層高い精度で境界位置の検出を行うことができる。
また、本発明のコンテンツ境界検出装置は、第2の境界特定手段として、上述したビットの埋め込みパターンに基づく手法ではなく、ビットの検出強度に基づいてコンテンツの境界位置を特定する手法を取る手段を備えた構成とすることができる。
この検出強度に基づく手法は、コンテンツが切り替わる場合ではなく、コンテンツが開始または終了する場合の境界位置の特定に好適なので、ビットの埋め込みパターンに基づく手法と併用し、コンテンツの境界の種類に応じて使い分けることも可能である。
また、本発明は、次のように構成されたことを特徴とするコンテンツ境界検出装置を提供することができる。このコンテンツ境界検出装置は、時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、この電子透かし検出部により検出された電子透かしの状態に応じて、このコンテンツの境界位置を検出する境界検出部とを備え、この境界検出部は、電子透かしとしてこのコンテンツに埋め込まれている所定のビット列を対象とし、このビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測し、このビットの実際の検出結果が予測と一致しているか否かに基づいて、このコンテンツの境界位置を特定することを特徴とする。
ここで、この境界検出部は、このコンテンツに電子透かしとしてM系列を構成するビット列が繰り返し埋め込まれている場合に、所定のM系列に基づいて、このM系列を構成するビット列の次に検出されたビットの検出結果を予測し、この予測結果に応じて、このコンテンツの境界位置を特定することができる。
このコンテンツ境界検出装置にて用いられる手法は、コンテンツ中に境界位置検出用の専用ビットが埋め込まれている場合にのみ用いることができるが、かかる条件が満たされていれば、上述したいくつかの手法と併用することにより、より信頼性及び精度の高い境界位置の検出を行うことが可能となる。
また、本発明は、種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、この放送データに対して電子透かしの検出処理を実行し、このコンテンツに埋め込まれている電子透かしを検出するステップと、検出された電子透かしの状態に応じて、この放送データにおけるこのコンテンツの境界位置を検出するステップと、検出されたこのコンテンツの境界位置に基づいて、この放送データにおいてこのコンテンツの占める時間を特定するステップとを含み、このコンテンツの境界位置を検出するステップは、検出された電子透かしにおいて記述されている情報に基づく第1の手法により、この電子透かしを埋め込まれているコンテンツの境界位置を特定するステップと、この第1の手法で特定された境界位置を対象として、電子透かしとして埋め込まれているビットに関する情報に基づく第2の手法により、第1の手法よりも高い精度でこのコンテンツの境界位置を特定するステップとを含むことを特徴とする。
ここで、この第2の手法によりコンテンツの境界位置を特定するステップは、電子透かしとしてこのコンテンツに埋め込まれている所定のビット列を対象とし、このビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測するステップと、このビットの実際の検出結果が予測と一致しているか否かに基づいて、このコンテンツの境界位置を特定するステップとを含む構成とすることができる。
さらに、このモニタリング方法は、このコンテンツの境界位置を検出するステップは、第2の手法で特定された境界位置を対象として、この電子透かしの検出に用いられる同期信号の出現パターンに基づく第3の手法により、第2の手法よりもさらに高い精度でこのコンテンツの境界位置を特定するステップを含む構成とすることができる。
また、本発明は、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するコンテンツ位置検出方法としても提供することができる。このコンテンツ位置検出方法は、音声データに対して電子透かしの検出処理を実行し、音声コンテンツに埋め込まれている電子透かしを検出するステップと、検出された電子透かしにおいて記述されている情報に基づく第1の手法により、この電子透かしを埋め込まれている音声コンテンツの境界位置を特定するステップと、この第1の手法で特定された境界位置を対象として、電子透かしとして埋め込まれているビットの検出強度に基づく第2の手法により、第1の手法よりも高い精度でこの音声コンテンツの境界位置を特定するステップとを含むことを特徴とする。
また、本発明は、上述したコンテンツ位置検出方法及びモニタリング方法における各ステップに対応する処理をコンピュータに実行させるプログラムとして提供することができる。さらに、このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークに接続されたプログラム伝送装置の記憶装置に格納し当該ネットワークを介して配信したりすることにより提供することができる。
発明を実施するための最良の態様
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図1は、本実施の形態が適用される放送モニタリングを行うシステムの概略を説明する図である。なお、本実施の形態によるコンテンツの境界の認識手法は、音声コンテンツの他、映像と音声とが組み合わされたコンテンツの音声部分や、映像コンテンツそのものに対しても用いることができるが、以下の説明では、音声コンテンツを対象とする場合について述べる。
図1に示すように、本実施の形態が適用されるシステムは、音声コンテンツを放送する放送局100と、当該放送を受信して放送モニタリングを実行するモニタリングセンター200とを備える。
放送局100は、放送番組などにおいて、コンテンツデータベース110から所望の音声コンテンツを取得し、放送する。このコンテンツデータベース110は、放送局100の自前のものであっても良いし、外部機関のデータベースを利用しても良い。音声コンテンツには電子透かし技術を用いて当該音声コンテンツに関する情報(ID情報)が埋め込まれている。モニタリング情報としては、ID情報を用いる他、放送モニタリング専用の情報を埋め込むこともできる。また、放送局100において当該放送局100に関する情報を電子透かしとしてさらに埋め込むことも可能である。音声コンテンツにID情報を埋め込む電子透かしの手法は、
(i)複数のビットを埋め込むことができる。
(ii)違うビットを時間的に順次埋めていくことによって(i)の複数のビットが埋められている。
という2つの条件を満たせばどのような手法であっても構わない。また、放送形態は、地上波放送や衛星放送などの電波による放送、放送用ケーブルを用いた有線放送、インターネットなどの情報ネットワークを用いた放送など、その態様を問わない。
モニタリングセンター200は、放送局100による放送を受信して、どのような音声コンテンツがどの時刻にどれだけの時間放送されたかを調査する。この調査結果は、市場調査やコンテンツ使用料を徴収するための資料として利用される。
また、モニタリングセンター200は、この調査を行うために、音声コンテンツに埋め込まれている電子透かしによるID情報を使用する。すなわち、放送を受信して得られた音声データ(音声コンテンツと音声コンテンツ以外の音声とを含む)から検出されたID情報を用いて音声コンテンツの有無及びその境界を認識し、その認識結果に基づいて当該音声コンテンツが放送された時刻及び時間を特定する。
ここで、本実施の形態で用いられる音声コンテンツの境界とは、検出された電子透かしの状態によって区別される音声コンテンツの切れ目のことであり、電子透かしに次の変化のいずれかが生じた場合に、その位置を音声コンテンツの境界と判断する。
(i)何らかの電子透かしが埋め込まれている状態から、電子透かしが埋め込まれていない状態への変化。
(ii)電子透かしが埋め込まれていない状態から、何らかの電子透かしが埋め込まれている状態への変化。
(iii)電子透かしによる埋め込み情報の内容が変化。
図2は、モニタリングセンター200に設けられ、受信した音声コンテンツから当該音声コンテンツに埋め込まれている電子透かしを検出し、その検出結果に基づいて音声コンテンツの境界を認識するコンテンツ境界認識装置の構成を説明する図である。
図2を参照すると、本実施の形態によるコンテンツ境界認識装置10は、音声コンテンツに埋め込まれている電子透かしを検出する電子透かし検出部11と、電子透かし検出部11による検出結果に基づいて音声コンテンツの境界を検出する境界検出部12とを備える。
コンテンツ境界認識装置10は、パーソナルコンピュータやワークステーション、その他のコンピュータ装置にて実現される。また、図2に示した電子透かし検出部11及び境界検出部12は、プログラム制御されたCPUにて実現されるソフトウェアブロックである。CPUを制御する当該プログラムは、磁気ディスクや光ディスクなどの記憶媒体に格納して配布したり、プログラム伝送装置からネットワークを介して配信したりすることにより提供することができる。
上記構成において、電子透かし検出部11は、受信された音声データから電子透かしを検出し、各ビットの検出値を求める。その際に、必要に応じて位置の同期を行う。さらに、得られた検出値に対してエラー訂正などを行った後、この検出値を用いて電子透かしが埋め込まれた音声コンテンツのID情報を得る。
境界検出部12は、電子透かし検出部11において検出された電子透かしによるID情報、そのID情報が検出された時間位置、各ビットの検出値、同期位置に基づいて、受信された音声データにおける音声コンテンツの境界位置を特定する。
次に、境界検出部12による音声コンテンツの境界位置の検出手法について詳細に説明する。
本実施の形態では、音声コンテンツの境界位置の認識における信頼性と精度とを同時に満足させるため、複数の検出手法を組み合わせて用いて音声コンテンツの境界位置を特定する。そこで、まず本実施の形態で用いることのできる個々の検出手法について説明し、次にそれらを組み合わせて境界位置を特定する手順を説明する。
本実施の形態では、音声コンテンツの境界位置の検出手法として次の5種類の方法を用いる。(1)検出時間帯をずらしながら複数回ID情報を検出し、検出結果に基づいて境界位置を認識する手法。(2)音声コンテンツに埋められているID情報の一貫性を使って境界位置を認識する手法。(3)電子透かしの検出強度に基づいて境界位置を認識する手法。(4)ID情報の同期位置の連続性に基づいて境界位置を認識する手法。(5)専用ビットを使って境界位置を認識する手法。
また、以下の説明において、音声コンテンツの境界位置の認識における信頼性を、「誤採用率」と「紛失率」という2つのエラー率に分けて次のように定義する。
「誤採用率」:全く境界でないところを境界であると判断してしまう確率。誤採用率が高いと境界だらけになる。
「紛失率」:境界と判断すべき候補を境界であると判断しない確率。紛失率が高いと境界を設定しなくなる。
誤採用率と紛失率とはトレードオフの関係にある。すなわち、境界として認識するための閾値を高く設定すれば、誤採用率は下がるが紛失率は上がり、反対に、閾値を低く設定すれば、誤採用率は上がりが紛失率は下がる。
また、音声コンテンツの境界の認識における精度は、所定の手法で境界位置を判定した場合の誤差の度合いを示す。すなわち、境界のある位置を一定の時間的幅を持つ範囲でしか特定できない手法では、仮にその範囲内で境界位置を決定しても誤差を伴うこととなり(その範囲内でどこが正しい境界位置なのかわからない)、認識精度が低くなる。
以下、各検出手法について説明する。
(1)検出時間帯をずらしながら複数回ID情報を検出し、検出結果に基づいて境界位置を認識する手法:検出手法[1]
電子透かしは音声コンテンツに対してある程度の時間的な長さをもって埋め込まれているため、その検出においても、一定の時間的な長さを持つ範囲から検出を行う。検出手法[1]では、この検出のための範囲を一定の長さだけ重なるようにずらしながら繰り返し電子透かしの検出を行う。そして、それぞれの検出範囲から検出された電子透かしのID情報を比較し、どの時点でID情報が変わったかを判断する。なお、電子透かしの検出において音声コンテンツに繰り返し埋め込まれているID情報を読み落とさないためには、各検出範囲は電子透かしの1周期分以上重なっている必要がある。
図3は、検出範囲をずらしながら電子透かしの検出を繰り返す様子を示す図である。
図3において、検出範囲1、検出範囲2、検出範囲3に対して電子透かしの検出を順次行っている。検出範囲1、2においてはID情報「A」の電子透かしが検出され、検出範囲3においては電子透かしが検出されなかったことを示している(図では「×」と記述)。
図4乃至図6は、検出手法[1]を用いて上述した3種類の境界ごとに音声コンテンツの境界を認識する様子を示す図であり、図4は電子透かしの有る状態から無い状態へ変化する場合、図5は電子透かしのない状態から有る状態へ変化する場合、図6は電子透かしにおけるID情報が変化する場合をそれぞれ示す。
図4において、Aと記述された各検出範囲はID情報「A」の電子透かしが検出された検出範囲であり、×と記述された各検出範囲は電子透かしが検出されなかった検出範囲である。なお、ID情報「A」は音声コンテンツAに埋め込まれたID情報とする。
図4に示すように、音声コンテンツに対する電子透かしの検出結果が電子透かしの有る状態から無い状態へ変化した場合、最後にID情報「A」の電子透かしが検出された検出範囲までは、ID情報「A」を持つ音声コンテンツAが確実に存在する。したがって、当該音声コンテンツAが終了する境界位置は、最後にID情報「A」の電子透かしが検出された検出範囲の終端位置と最初に電子透かしが検出されなくなった検出範囲の終端位置との間、すなわち2つの検出範囲の終端側におけるずれ幅のどこかであることがわかる。ただし、この範囲内において正確な境界位置を特定することはできない。
図5においても図4と同様に、Aと記述された各検出範囲はID情報「A」の電子透かしが検出された検出範囲であり、×と記述された各検出範囲は電子透かしが検出されなかった検出範囲である。なお、ID情報「A」は音声コンテンツAに埋め込まれたID情報とする。
図5に示すように、音声コンテンツに対する電子透かしの検出結果が電子透かしの無い状態から有る状態へ変化した場合、最初にID情報「A」の電子透かしが検出された検出範囲では、すでにID情報「A」を持つ音声コンテンツAが存在する。したがって、当該音声コンテンツAが開始する境界位置は、最初にID情報「A」の電子透かしが検出された検出範囲の開始位置と電子透かしが検出されなかった最後の検出範囲の開始位置との間、すなわち2つの検出範囲の開始側におけるずれ幅のどこかであることがわかる。ただし、この範囲内において正確な境界位置を特定することはできない。
図6において、Aと記述された各検出範囲はID情報「A」の電子透かしが検出された検出範囲であり、Bと記述された各検出範囲はID情報「B」の電子透かしが検出された検出範囲であり、×と記述された各検出範囲は特定のID情報を示す電子透かしが検出されなかった検出範囲である。なお、ID情報「A」は音声コンテンツAに埋め込まれたID情報、ID情報「B」は音声コンテンツBに埋め込まれたID情報とする。
図6に示すように、音声コンテンツに対する電子透かしの検出結果においてID情報が変化した場合、音声コンテンツAと音声コンテンツBとを跨ぐ検出範囲においては、いずれのID情報も検出することができない(この検出範囲においても、検出強度などにおいて何らかの情報が電子透かしとして埋め込まれている形跡は得られる)。しかしながら、図4、5の場合と同様に、最後にID情報「A」の電子透かしが検出された検出範囲までは、ID情報「A」を持つ音声コンテンツAが確実に存在し、最初にID情報「B」の電子透かしが検出された検出範囲では、すでにID情報「B」を持つ音声コンテンツBが存在する。したがって、音声コンテンツAから音声コンテンツBへ切り替わる境界位置は、最後にID情報「A」の電子透かしが検出された検出範囲の終端位置と最初にID情報「B」の電子透かしが検出された検出範囲の開始位置との間のどこかであることがわかる。ただし、この範囲内において正確な境界位置を特定することはできない。
以上のようにして、この検出手法[1]は、上述した3種類の境界の全てに対して、境界位置を検出することができる。
そして、音声コンテンツに電子透かしとして繰り返し埋め込まれているID情報は、劣化などにより失われていない限り、本手法における検出範囲のいずれかにおいて必ず検出される。また、多少の劣化ならば、電子透かし検出部11における通常のエラー訂正技術によって補正することができる。したがって、この手法を用いた音声コンテンツの境界位置の認識における信頼性は非常に高い。
一方、本手法によって特定される音声コンテンツの境界位置は、常に一定の時間的な幅を持って認識される。また、一方の検出範囲の終点や始点、あるいは境界位置として認識された範囲の中間点などを音声コンテンツの境界と仮定することもできるが、この場合、必然的に誤差を伴うこととなる。したがって、音声コンテンツの境界の認識における精度は低い。
ところで、電子透かし検出部11におけるエラー訂正能力が高い場合、音声コンテンツの境界を越して、正確なID情報が得られなかった場合でも、エラー訂正によりID情報を補正し、電子透かしが検出できたと判断してしまう場合がある。この場合、本手法による音声コンテンツの境界の認識精度はさらに低下することとなる。さらにこの場合、かかるエラー訂正による弊害を回避するために、検出範囲をずらす幅を大きく取るとすれば、図4、5に示したように、この範囲以下の精度で音声コンテンツの境界を認識することはできないので、やはり認識精度が低下することとなる。
次に、検出手法[1]における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
電子透かしにおけるID情報に含まれるビット数をNとする。電子透かしにおける各ビットの検出強度を平均μ、分散1であると仮定する。すると期待されるエラー率Pbは次の数1式で示される。
[数1]
このとき、ビット数であるN個中のビットエラーがk個である確率Pa1は、次の数2式で得られる。
[数2]
ビットエラーした個数がエラー訂正可能な上限個数(Nc)を超えなければ、ビットエラーは訂正されて正しいID情報が出力される。この確率Pa2は、次の数3式で得られる。
[数3]
一方、ビットエラーの個数がエラー訂正可能な上限個数(Nc)を上回り、ID情報の検出に失敗する確率Pa3は、次の数4式で得られる。
[数4]
図7は、Nc=9、N=128の場合において、μに対する誤採用率Pa3をプロットした図である。
正しいID情報が検出される合間にID情報の検出に失敗すると、本来音声コンテンツの境界でなかった場所に境界を誤採用することになる。したがって、この確率が誤採用率を表している。
次に、検出範囲が音声コンテンツの境界を跨いでいる場合を考える。検出範囲の最後尾のMビットが境界を跨いでおり、別の情報のビットであったとする。別の情報としてどのような情報が埋められているかはわからないので、ある位置に同じビットが埋められている可能性と違うビットが埋められている可能性を等しく1/2であると仮定する。すると、境界を跨いだM個のビットのうち、境界前のID情報の同じ位置のビットと偶然一致しているビットの数がmである可能性Pa4は、次の数5式で示される。
[数5]
ここで、ID情報と一致していない(M−m)個のビットは、検出強度が大きくなるように強く埋められていればいる程、エラー訂正・エラー検出の失敗の原因となり得る。ここで、ID情報と一致していない1つのビットがエラー検出の失敗の原因となる確率は、ビットエラーを起こさない時にエラー検出の失敗の原因となることから(1−Pb)である。よって、Mビットだけ境界を跨いでいるという条件下で、エラー訂正・エラー検出の失敗の原因となるビットの個数がkであるという確率は、次のように求められる。
まず、エラー検出の失敗に貢献するビットには以下の3種類がある。
1.境界を跨いでいるM個のビットうち、m個のビットが偶然一致している。この一致しているビットのうちのいくつかが劣化によって反転し、エラー検出の失敗の原因となる。このようなビットの数をn個とする。この個数に関する制限は、
0≦n≦m≦M≦N
である。ID情報と一致しているm個のビット中、n個のビットが反転する確率は、Pa1(μ,m,n)である。
2.境界を跨いでいるM個のビットのうち、ID情報と一致していない(M−m)個のビットは、検出されさえすれば、エラー検出失敗の原因となる。このようなビットのうちのいくつかは劣化によって反転し、エラー検出失敗の原因ではなくなるが、そうならずにエラー検出失敗の原因となるビットの個数をP個とする。この個数に関する制限は、
0≦p≦M−m≦M≦N
である。ID情報と一致していない(M−m)個のビット中、p個のビットが反転しない確率は、(M−m)個中、(M−m−p)個が反転する確率に等しいので、Pa1(μ,M−m,M−m−p)である。
3.境界以前のN−M個のビットは一貫しており、本来はエラー検出失敗の原因とならない。しかし、そのうちのいくつかは劣化して反転し、エラー検出失敗の原因となる。このようなエラー検出失敗の原因となるビットの個数をq個とする。この個数に関する制限は、
0≦q≦N−M≦N
である。したがって、このN−M個のビット中、q個のビットが反転する確率は、Pa1(μ,N−M,q)である。
そして、エラー検出の失敗の原因となるビットの数の合計がkであるから、
k=n+p+q
が成り立つ。
以上により、Mビットだけ境界を跨いでいるという条件下で、エラー検出の失敗の原因となるビットの個数がkである確率Pa5は、次の数6式で求まる。
[数6]
これを用いれば、Mビットだけ境界を跨いでいるという条件下でもエラー訂正が可能である確率Pa6は、次の数7式で求まる。
[数7]
図8は、Nc=9の場合において、境界を跨いだビット数に対して、エラー訂正可能である確率Pa6をプロットした図である。
Mの値が増えてゆけば、最終的にID情報を示すNビットは、全て次の音声コンテンツのID情報で構成されるようになる。この場合は、検出されるID情報そのものが変わるので、境界を見逃すことはあり得ない。
電子透かしを用いた音声コンテンツの境界認識において最も望ましい状態は、(a)検出範囲が境界を跨いでいない時には常にエラー訂正に成功して正しいID情報が得られるが、(b)検出範囲が境界を跨いでいる時には常にエラー検出をしてID情報が得られないという状態である。(a)の要件を実現するためにはエラー訂正能力が強い方が望ましいが、そもそもエラー訂正能力には限界があるので完全には実現できない。一方、(b)の要件を実現するためにはエラー訂正能力は逆に障害となる。何故なら、検出範囲がわずかに境界を跨いだ程度ではエラーを訂正してしまうため、境界を越えているにも関わらず、ID情報が存在するものと判断してしまうからである。
したがって、上述したように、検出手法[1]においては、音声コンテンツの境界の認識における精度はあまり期待できず、音声コンテンツの境界の大まかな位置を認識するに留めることが好ましい。
(2)音声コンテンツに埋められているID情報の一貫性を使って境界位置を認識する手法:検出手法[2]
通常、電子透かしにおいては、同じID情報(ビット列)が繰り返し音声コンテンツに埋め込まれる。検出手法[2]では、このビット列の埋め込みパターンに基づいて、1周期分離れたビットを比較することにより、ID情報の連続性(一貫性)を調べ、どの時点でID情報が変わったかを判断する。
図9は、電子透かしとして音声コンテンツに埋め込まれたID情報による検出ビットの周期性を示す図である。
図9において、音声データからID情報「B」の電子透かしが繰り返し検出されている。各ID情報「B」の内容は同一であるから、検出されたビット列は周期性を持つこととなる(1周期で1つのID情報)。
図9に示すように、音声コンテンツに対して同一のID情報が繰り返し埋め込まれている場合、同一のビット列が周期的に検出される。したがって、音声コンテンツが継続しておりID情報が変化しないならば、新しく検出されるビットは、1つ前のID情報「B」に対応するビット列の同じ位置のビットと同一である。検出ビットの周期性に基づいて言い換えれば、新たに検出されるビットは、1周期前の検出ビットと同一である。これにより、検出されたビットが1周期前の検出ビットと違っていたならば、電子透かしとして音声コンテンツに埋め込まれているID情報が変化したことを意味し、当該ビットが音声コンテンツの境界であることがわかる。
しかしながら、現実的には、音声コンテンツは継続しているにも関わらず、電子透かしが劣化したために検出ビットが変化してしまう可能性を無視できない。そこで、ビットの検出強度に閾値を設定し、当該閾値を超える検出強度で検出されたビットを用いてビットの一致不一致を識別し、上記の判断を行う。
一方、このような処理を行うと、音声コンテンツが終了して音声データ中に電子透かしが存在しなくなった場合、一様に電子透かしの検出強度が低下してしまうため、検出ビット無しという状態となる。そのため、ビットの一致不一致が識別できず、上記の判断を行うことができなくなる。したがって、検出手法[2]は、音声コンテンツが終了する場合や開始する場合の境界(上述した(i)(ii)の境界)を検出するのには適さず、音声コンテンツが切り替わって電子透かしのID情報が変化する場合の境界(上述した(iii)の境界)を検出するのに適している。
また、音声コンテンツが切り替わって電子透かしのID情報が変化した場合であっても、いくつかのビットが偶然に一致する場合もあり得る。この場合、検出手法[2]では、音声コンテンツが切り替わった境界位置を正確に特定することはできない。すなわち、実際の境界から数ビット進んで、1周期前と異なるビットが現れたところで初めて境界と判断することとなり、その分だけ精度が低下する。
次に、検出手法[2]における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
音声コンテンツの境界ではないにも関わらず、前の周期と今回の周期の一方でビットが劣化しているために誤って不一致を検出してしまう確率Pb1は、次の数8式で得られる。
[数8]
特に、閾値を設定して検出強度が閾値を下回っている時にはビットの一致不一致の識別を行わないことにすると、誤って不一致を検出してしまう確率Pb1は、次の数9式で得られる。
[数9]
図10は、数9式を、TB=1.0の場合において、μの変化に対して、誤って不一致を検出してしまう確率Pb1をプロットした図である。
また、Nビット中に1箇所以上で誤って不一致を検出してしまう確率Pb2は、次の数10式で得られる。
[数10]
図11は、数10式を、TB=1.0の場合において、μの変化に対して、Nビット中に誤って1箇所以上の不一致を検出してしまう確率Pb2をプロットした図である。
これらの確率を鑑みると、ID情報が長い場合、誤って不一致を検出する可能性は無視できない。
一方、音声コンテンツの境界を越えた後に検出されたビットが不一致である確率Pb3は、次の数11式で得られる。
[数11]
上の数11式において、第1項は、元々埋められているビットが1周期前の対応ビットと異なっており、かつ前の周期も今回の周期もビットエラーなく検出された場合と、両方の周期でビットエラーを起こす場合を表している。第2項は、元々埋められているビットが1周期前の対応ビットと一致しているが、前の周期と今回の周期のどちらかでビットが劣化しているために不一致を検出する場合を表している。
境界をMビットだけ越えたところで初めて不一致を検出できる確率Pb4は、次のように計算される。すなわち、M−1ビットの間、前の周期の対応ビットとの不一致を検出せず、Mビット目に対応ビットとの不一致を検出する確率であるので、次の数12式で求まる。
[数12]
図12は、数12式を、TB=1.0の場合において、境界を跨いだビット数に対し、その位置で初めて不一致を検出する確率Pb4をプロットした図である。また、図13は、TB=1.0の場合において、μに対して、境界を跨いだ後、何ビット目で初めて不一致を検出するかを示す期待値をプロットした図である。
紛失率Pb5は、音声コンテンツにおける実際の境界を跨ぐ1周期分のビット列にわたって1度も対応ビットとの不一致を検出せず、境界を認識できない場合が起きる確率であるので、次の数13式で求めることができる。
[数13]
この値は極めて小さく、μ=1.0の場合にも約6.8×10−9である。
ただし、これらの予測は、音声コンテンツに埋まっているビットが一致し、または不一致となる確率が1/2であるという前提で算出しており、実際の個別的なケースで常に成立するわけではない。例えば、音声コンテンツにおける実際の境界を跨ぐ1周期分のビット列において、最後の1ビットを除き他の全てのビットが1周期前の対応ビットと偶然に一致する場合には、音声コンテンツの境界位置の認識における信頼性が著しく低下することとなる。
(3)電子透かしの検出強度に基づき境界位置を認識する手法:検出手法[3]
通常、電子透かしにおいて、音声コンテンツに埋め込まれている各ビットの検出強度を参照すると、ID情報が埋め込まれている部分と埋め込まれていない部分とでは、その分布に違いがある。したがって、検出手法[3]では、ビットの検出強度を調べることにより、音声コンテンツが音声データのどの時点で開始し、どの時点で終了したかを判断する。
図14は、音声データ中、電子透かしが埋め込まれている場所と埋め込まれていない場所とにおけるビットの検出強度の違いを示す図である。
図14において、音声データから検出されたビットに対し、適当な数のビット(図中で○、×が記述された各範囲)の検出強度に基づいて電子透かしが埋め込まれているか否かを順次判定する。
図14に示すように、ID情報「A」を持つ音声コンテンツの部分では、電子透かし(ID情報「A」)が埋め込まれているので、検出強度が強くなっている(分散が大きくなっている)。これに対し、音声コンテンツでない部分では、電子透かしが埋め込まれていないので、検出強度が弱くなっている(分散が小さくなっている)。
多くの電子透かしは、埋め込みをしていない音声コンテンツにおける検出強度が標準正規分布にしたがうように正規化されている。よって、適当な個数のビットを選び、その検出強度が標準正規分布にしたがっているかどうかを検定する(例えば、分散を閾値に対して比較する)ことにより、電子透かしが埋め込まれている部分かどうかを判定することができる。図14において、○が記述された部分は電子透かしが埋め込まれていると判断されたビットの検出強度の部分であり、×が記述された部分は電子透かしが埋め込まれていないと判断されたビットの検出強度の部分である。
検出手法[3]は、電子透かしの有無を検定するために用いるビットの検出強度の数をいくつにするかによって、音声コンテンツの境界の認識における信頼性と精度とのバランスを選ぶことができる。多数のビット検出強度を用いて電子透かしの有無を検定すれば、信頼性は向上するが、精度は低下する。
この点は、検出手法[1]と似ているが、本手法では、ビット検出強度というミクロな情報を使っているため、検出手法[1]よりも音声コンテンツの境界の認識における精度が高い。ただし、検出強度の分布を判断するために、ある程度の数のビット(10〜30ビット程度)の検出強度が必要であるため、その分だけ精度が落ちることとなる。
なお、検出手法[3]は、ビットの検出強度に基づいて電子透かしの有無を判断する手法であり、電子透かしによって埋め込まれた情報の内容には関わらない。したがって、本手法は、音声コンテンツが終了する場合や開始する場合の境界(上述した(i)(ii)の境界)を検出するのに適し、音声コンテンツが切り替わって電子透かしのID情報が変化する場合の境界(上述した(iii)の境界)を検出するのには用いることができない。
次に、検出手法[3]における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
まず、ND個のビット中に検出強度が閾値TDMを超えたビットがNM個以上ある場合に、当該領域に電子透かしが埋め込まれていると判断する。検出値の平均がμである領域において、電子透かしが埋め込まれていると判定される確率Pd1は、次の数14式で得られる。
[数14]
この式は、検出値が正か負かどちらかの方向に閾値を超えるビットの個数がNM個以上かつND個以下である確率を計算している。
また、NDビット中に閾値TDUを下回るビットがNU個以上ある場合に、当該領域に電子透かしが埋め込まれていないと判断する。検出値の平均がμである領域において、電子透かしが埋め込まれていないと判定される確率Pd2は、次の数15式で得られる。
[数15]
ここで、電子透かしが埋め込まれていると判定された領域と、電子透かしが埋め込まれていないと判定された領域とが連続している場合に、その境界を音声コンテンツの境界と認識する。この場合、実際には音声コンテンツの境界を越えていないにも関わらず、境界であると判定する確率Pd3は、次の数16式で求まる。
[数16]
また、全部でNビットのID情報をNDビットごとに区切って、電子透かしの有無による境界の判定を行う場合に、所定の1箇所以上の領域において境界であると誤判断してしまう誤採用率Pd4は、次の数17式で求まる。
[数17]
さらに、音声コンテンツの境界を越えたにも関わらず、この境界を検出しそこなう紛失率Pd5は、次の数18式で求まる。
[数18]
検出手法[3]における音声コンテンツの境界の認識における信頼性及び精度は、電子透かしの有無の判定に使うビットの個数であるNDに強く依存する。
NDの値を、32、16、8、4とした場合における上記確率Pd1、Pd2及び埋め込み有りとも埋め込み無しとも判定され得る確率と、確率Pd3、誤採用率Pd4及び紛失率Pd5とを図15乃至図22に示す。
図15は、ND=32、TDM=2.0、NM=7、TDU=1.0、NU=20の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Pd1、電子透かしが埋め込まれていないと判定される確率Pd2、どちらとも判定され得る確率をプロットした図である。また、図16は、ND=32、TDM=2.0、NM=7、TDU=1.0、NU=15、N=128の場合において、μに対して、境界を誤判断してしまう確率Pd3、ID情報の中の1箇所以上で境界が有ると判断する誤採用率Pd4、音声コンテンツの実際の境界を検出しそこなう紛失率Pd5をプロットした図である。
図17は、ND=16、TDM=2.0、NM=4、TDU=1.0、NU=6の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Pd1、電子透かしが埋め込まれていないと判定される確率Pd2、どちらとも判定され得る確率をプロットした図である。また、図18は、ND=16、TDM=2.0、NM=4、TDU=1.0、NU=6、N=128の場合において、μに対して、境界を誤判断してしまう確率Pd3、ID情報の中の1箇所以上で境界が有ると判断する誤採用率Pd4、音声コンテンツの実際の境界を検出しそこなう紛失率Pd5をプロットした図である。
図19は、ND=8、TDM=2.2、NM=2、TDU=1.5、NU=4の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Pd1、電子透かしが埋め込まれていないと判定される確率Pd2、どちらとも判定され得る確率をプロットした図である。また、図20は、ND=8、TDM=2.2、NM=2、TDU=1.5、NU=4、N=128の場合において、μに対して、境界を誤判断してしまう確率Pd3、ID情報の中の1箇所以上で境界が有ると判断する誤採用率Pd4、音声コンテンツの実際の境界を検出しそこなう紛失率Pd5をプロットした図である。
図21は、ND=4、TDM=2.0、NM=1、TDU=1.5、NU=2の場合において、μに対して、電子透かしが埋め込まれていると判定される確率Pd1、電子透かしが埋め込まれていないと判定される確率Pd2、どちらとも判定され得る確率をプロットした図である。また、図22は、ND=4、TDM=2.0、NM=1、TDU=1.5、NU=2、N=128の場合において、μに対して、境界を誤判断してしまう確率Pd3、ID情報の中の1箇所以上で境界が有ると判断する誤採用率Pd4、音声コンテンツの実際の境界を検出しそこなう紛失率Pd5をプロットした図である。
各図における閾値は、μが十分大きい場合にPd1の値が1に近づき、Pd2の値が0に近づき、μが0付近である場合にPd1の値が0に近づき、Pd2の値が1に近くなるように適当に選んだ。各図を比較すると、判定に使うビットの個数NDを短くするとPd1もPd2もなだらかに変化するようになり、μが少し劣化しただけで電子透かしが存在しないと判定される可能性が高くなる。言い換えると、音声コンテンツの境界の認識における精度を高くすると、代償として誤採用率が上がることがわかる。
電子透かしが埋め込まれていない領域において、音声コンテンツの境界であると誤判定してしまう確率はPd3(0,TDM,TDU)なので、境界をMビットだけ越えたところで初めて境界を検出したと判定する確率Pd6は、次の数19式で得られる。
[数19]
この値は小さいので、電子透かしが埋め込まれていない位置に音声コンテンツの境界があると判定してしまうことは稀である。
(4)ID情報の同期位置の連続性に基づいて境界位置を認識する手法:検出手法「4」
多くの電子透かし技術では、コンテンツを時間的に一定の長さ(ここではフレームと称す)に切り分けてから、切り分けられたフレームごとに情報の埋め込み処理を施す。埋め込まれた情報を検出する際には、フレームの先頭を検出するための同期処理を行った後、該当フレームに対して検出処理を行う。検出手法[4]では、この電子透かしにおける同期位置の出現パターンに基づいて音声コンテンツの境界位置を判断する。
図23は、音声コンテンツに埋め込まれた電子透かしの同期位置を説明する図である。
図23において、ID情報の電子透かしは、フレームごとに埋め込まれている。また、各フレームの先頭が同期位置となっており、同期信号が検出される。これによって、ID情報を検出する際の同期を取る。
通常、音声コンテンツには同一の情報が繰り返し埋め込まれているため、図23に示すように、1つの音声コンテンツ内では同期位置は一定間隔で現れる(線形に並ぶ)。
図24は、音声コンテンツが切り替わった場合における電子透かしの同期位置の現れ方を説明する図である。
音声コンテンツが切り替わった場合、切り替わる前後の各々の音声コンテンツにおいては、図23に示したように等間隔で同期位置が現れるが、音声コンテンツが切り替わった境界位置においては、図24に示すように、同期位置の間隔が乱れることとなる。
図25は、音声コンテンツが終了した場合における電子透かしの同期位置の現れ方を説明する図である。
音声コンテンツが終了した場合、終了する前の音声コンテンツにおいては、図23に示したように等間隔で同期位置が現れるが、音声コンテンツが終了した後は、電子透かしが存在しないので同期位置も存在しない。したがって、同期を取ろうとする処理を行うと、図25に示すように、不規則な間隔で同期位置が現れることとなる。
また、図示しないが、音声コンテンツが開始した場合には、図25とは反対に、不規則な間隔で現れていた同期位置が、音声コンテンツが開始した時点から整然と等間隔で現れることとなる。
以上のように、音声コンテンツが切り替わる位置及び音声コンテンツの開始位置及び終了位置において、電子透かしを検出するための同期位置の現れ方にそれぞれ変化が生じる。そのため、フレームにおける同期位置の現れ方が変化した位置を音声コンテンツの境界と判断することができる。したがって、この検出方法[4]は、上述した3種類の境界の全てに対して、境界位置を検出することができる。
本手法は、上記のように、フレームにおける同期位置の現れ方が変化した位置を音声コンテンツの境界と判断する。したがって、音声コンテンツの境界はフレーム単位で行うことができるため、音声コンテンツの境界の認識における精度は極めて高い。
一方、電子透かしとして音声コンテンツに埋め込まれたビットが劣化した場合には、音声コンテンツ内であっても同期位置の出現間隔が不規則になってしまうため、音楽コンテンツの境界であると判断してしまう。したがって、音声コンテンツの境界の認識における信頼性は低い。
次に、検出手法[4]における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
電子透かしの検出処理において同期を行う場合、前回までの同期位置に基づいて、次回以降NS回の同期位置を予測する。同期信号は、電子透かしが埋まっていない場合、あるいは電子透かしが埋まっていたとしても同期した位置以外では、標準正規分布にしたがうとする。この条件下では、次のNS回の同期位置での検出結果が標準正規分布にしたがっているかどうかを検定することで、境界の有無を判定することができる。
同期信号に正の値が埋まっている場合と負の値が埋まっている場合があり、そのいずれが埋まっているか予測できない場合は、検出手法[3]で使った、電子透かしが埋め込まれているかどうかを判定する方法と同じ方法を用いることができる。音声データに電子透かしが存在し、かつ同期位置がずれていない場合に、誤って音声コンテンツの境界があると判定してしまう確率Pe1は、次の数20式で得られる。
[数20]
また、同期信号には必ず正の値が埋まっていると決められている場合、NS個の同期信号検出値を合計した値を閾値と比較して、同期信号が標準正規分布にしたがっているかどうかを検定することができる。
なお、検出手法[4]においては、音声コンテンツが劣化して電子透かしを検出する際の同期位置が不規則に出現する場合には、音声コンテンツ中の至る所で境界を誤検出してしまう。したがって、本手法のみによって、境界位置を認識するのではなく、他の手法と組み合わせて用い、認識される境界位置の精度を高めるために本手法を用いることが好ましい。
(5)専用ビットを使って境界位置を認識する手法:検出手法[5]
検出手法[1]〜[4]は、音声コンテンツにID情報などを付加するためにすでに埋め込まれている電子透かしを用いて境界位置を検出したが、検出手法[5]は、境界を検出するために設定された専用のビット(以下、境界検出ビットと称す)を音声コンテンツに埋め込む。そして、検出された境界検出ビットを解析することにより、音声コンテンツの境界位置を特定する。
図26は、音声コンテンツに電子透かしによって埋め込まれる境界検出用ビットの構成を説明する図である。
図26において、すでに検出された境界検出ビットが100110の順で並んでいる。そして、新しく境界検出ビット1が検出された状態が示されている。
境界検出ビットは、ID情報のビットに対し、一定ビット数に対して1ビットというような一定の規則にしたがって音声コンテンツに埋め込まれる。そのため、音声コンテンツに埋め込まれる電子透かしの総ビット数は増えることとなる。
また、境界検出ビットを用いて音声コンテンツの境界を検出するには、一連の境界検出ビットの一貫性を調べる。すなわち、境界検出ビットの検出結果が一定の規則にしたがっている間、言い換えれば、次に検出される境界検出ビットの検出結果が予測可能である間は音声コンテンツが継続している。そして、境界検出ビットの検出結果が当該規則から外れたならば、すなわち次に検出される境界検出ビットの検出結果の予測が外れたならば、当該予測が外れた境界検出ビットの位置が音声コンテンツの境界位置である。
さらにまた、境界検出ビットとして音声コンテンツに埋める情報の内容は、音声コンテンツの境界であるにも関わらず偶然に一貫性を保ってしまう確率を低くするように設定しなければならない。そして、できるだけ少ないビット数で一貫性の有無を判定できることが望ましい。
例えば、N次のM系列を境界検出ビットとして埋めることとする。N次のM系列の長さは(2N−1)であるので、これを周期として繰り返しM系列を埋める。したがって、音声コンテンツの境界を越えていながら、境界検出ビットの内容の一貫性が偶然に保持されてしまう確率は、1/(2N−1)である。N次のM系列は、Nビットあれば次の1ビットが決定される。よって、最後に検出されたN個の境界検出ビットから次の1ビットを予測し、実際に検出された次の境界検出ビットが予測結果と等しくない場合は、一貫性が失われたとして、この位置を音声コンテンツの境界位置と判定することができる。M系列を使うことの利点は、周期(2N−1)が長いこと、一貫性の判定に必要なビットの履歴N個が少ないことである。
検出手法[2]で述べたのと同様に、劣化している部分での境界の誤検出を防ぐために、本手法でも閾値を設定することが望ましい。次の境界検出ビットを予測するためのN個の境界検出ビットも当該次の境界検出ビットも、全て検出強度が信頼できる程大きく、かつ一貫性が失われた場合にのみ音声コンテンツの境界であると判断すべきである。
以上のように、検出手法[5]は、音声コンテンツの境界を1ビットの単位で認識することができ、認識における精度は非常に高い。
一方、音声コンテンツの劣化による誤検出や音声コンテンツの境界を越えていながら境界検出ビットの一貫性が偶然に保持されてしまう場合が考えられるため、認識における信頼性は若干低下する。
境界検出ビットとして複数ビットを並列して埋めることができれば、信頼性も精度も向上させることができる。ただし、この場合、電子透かしとして埋め込むべきビット数がさらに増えてしまう。
なお、音声コンテンツに埋め込むビット数が増加することを防ぐため、ID情報を埋め込むために使用しているビット数の範囲で境界検出ビットを埋め込むことも考えられるが、この場合、ID情報の情報量が減少してしまう。また、ID情報でありながら境界検出ビットとしても使用できるようなビット列を埋め込むことも考えられるが、そのようなビット列を設定することは容易ではない。
次に、検出手法[5]における音声コンテンツの境界の認識における信頼性及び精度について、さらに詳細に検討する。
使用するM系列の次元をDとする。最後に検出されたDビットと新しく検出された1ビットの境界検出ビットの全てが閾値TCを超える程強く検出された場合に一貫性を調べる。すなわち、M系列に基づく予測と検出された境界検出ビットとの一致不一致を調べる。
この場合、実際には音声コンテンツの境界ではないにも関わらず、誤って不一致を検出してしまう確率Pc1は、次の数21式で得られる。
[数21]
図27は、Tc=1.0、D=5の場合において、μの変化に対して、誤って不一致を検出してしまう確率Pc1をプロットした図である。
また、Nビットの範囲に1箇所以上で誤って不一致を検出してしまう確率Pc2は、次の数22式で得られる。
[数22]
図28は、Tc=1.0、D=5の場合において、μの変化に対して、Nビット中に誤って1箇所以上の不一致を検出してしまう確率Pc2をプロットした図である。図28から、ID情報が長い場合には、誤って不一致を検出することが無いとは言えないが、検出手法[2]と比較するとはるかに低い誤採用率であることがわかる。
一方、音声コンテンツの境界を1ビット越えたところで検出されたビットが不一致である確率Pc3は、次の数23式で得られる。
[数23]
この式は、音声コンテンツの境界を跨いでいるにも関わらず、偶然に、同一音声コンテンツ内と同様の境界検出ビットが埋められている確率を1/2であるとした仮定に基づいている。そして、元々一貫性が保持されていたビットが劣化したために不一致になった確率と、元々一貫性が保たれていなかったビットがそのまま検出されて不一致になった確率を加える式になっている。
また、音声コンテンツの境界をMビットだけ越えたところで検出されたビットが予測と不一致である確率Pc3は、次の数24式で得られる。
[数24]
異なる音声コンテンツが連続している場合、音声コンテンツの境界を完全に越えてしまうと、次の音声コンテンツの電子透かしを検出するため、その部分のM系列は再び一貫性を持つこととなる。したがって、M系列による予測と実際に検出された境界検出ビットとの不一致に基づいて音声コンテンツの境界を認識することはできない。音声コンテンツの境界を完全に越えた位置に電子透かしが埋め込まれていない場合に、M系列による予測と実際の境界検出ビットとの不一致が検出される可能性Pc3は、次の数25式で得られる。ただし、この確率は極めて小さい。
[数25]
音声コンテンツの境界をMビット越えたところで初めて不一致を検出できる確率Pc4は、次の数26式で得られる。
[数26]
図29は、Tc=1.0、D=5の場合において、境界を跨いだビット数に対して、その位置で初めて不一致を検出してしまう確率Pc4をプロットした図である。不一致を検出する精度は高々Dビットである。この範囲で境界を見付けられなかった場合、本手法では、境界を見付け損なうので高い紛失率を持っている。
図30は、Tc=1.0、D=5の場合において、μに対して境界を見付けられない確率をプロットした図である。また、図31は、Tc=1.0の場合において、Dに対して境界を見付けられない確率をプロットした図である。
境界検出ビットの検出値が強い音声コンテンツに対しては、Dを増やすことによって紛失率を減らすことができる(ただし、この場合、検出の精度を失う)。しかし、音声コンテンツの劣化により境界検出ビットの検出値が小さい場合、Dを増やすと全ビットが閾値に達する可能性が低くなるので、紛失率が一層上がることとなる。
以上、5種類の音声コンテンツの境界検出手法を説明した。上述のように、各検出手法[1][2][3][4][5]は、それぞれ音声コンテンツの境界の認識における信頼性と精度とが異なる。そこで、本実施の形態では、これらの検出手法を組み合わせて用いることにより、高い信頼性及び高い精度で音声コンテンツの境界を認識することを実現する。
次に、その具体的な手法の例を説明する。
図32は、図2に示した境界検出部12による音声コンテンツの境界位置を特定する処理を説明するフローチャートである。この動作例では、上述した音声コンテンツの境界検出手法のうち、検出手法[1][2][3][4]を組み合わせて用いている。
また、境界検出部12による処理に先立って、電子透かし検出部11により処理対象である音声データから電子透かしの検出が行われている。
図32を参照すると、境界検出部12は、電子透かし検出部11から検出されたID情報と当該ID情報を検出した時間を示す時間情報とを受け取り(ステップ3201)、まず、検出手法[1]を用いて音声コンテンツの境界位置を認識する(ステップ3202)。
上述したように、検出手法[1]は、検出されたID情報そのものを用いるので信頼性は高いが、音声コンテンツの境界位置として特定される位置が一定の時間的幅を持つため精度が低い。そこで、境界検出部12は、検出手法[1]で特定した境界位置を、他の検出手法を用いてさらに絞り込む。
すなわち、境界検出部12は、検出手法[1]による検出結果に基づいて、検出された音声コンテンツの境界が、音声コンテンツが終了する場合や開始する場合の境界(上述した(i)(ii)の境界)であるのか、音声コンテンツが切り替わって電子透かしのID情報が変化する場合の境界(上述した(iii)の境界)であるのかを判断する(ステップ3203)。
検出手法[1]により検出された音声コンテンツの境界が(iii)の境界である場合、境界検出部12は、次にこの種の境界の検出に適した検出手法[2]を用いて音声コンテンツの境界位置を認識する(ステップ3204)。
また、検出手法[1]により検出された音声コンテンツの境界が(i)(ii)の境界である場合、境界検出部12は、次にこの種の境界の検出に適した検出手法[3]を用いて音声コンテンツの境界位置を認識する(ステップ3205)。
検出手法[2][3]は、検出された電子透かしのビットデータや検出強度を用いることから、音声コンテンツの劣化の影響を受けるため、検出手法[1]よりも信頼性が劣る。しかしながら、検出手法[1]において音声コンテンツの境界と判断された範囲で検出手法[2][3]を用いることにより、高い信頼性を得ることができる。
上述したように、検出手法[2]は、理論的には電子透かしとして埋め込まれたID情報を記述しているビット単位で音声コンテンツの境界を特定できるが、現実には境界前後のID情報でいくつかのビットが偶然に一致し、境界と判断する位置が実際の境界よりも数ビット分遅れる場合がある。
また、検出方法[3]は、電子透かしの検出ビットにおける検出強度の分布に基づいて音声コンテンツの有無を判断するため、検出手法[1]の場合よりもはるかに小さい時間幅であるが、検出強度の分布を得ることができるだけの数のビット数が必要である。
そこで、境界検出部12は、検出手法[2][3]で絞り込んだ境界位置を対象とし、検出手法[4]を用いて音声コンテンツの境界位置を特定する(ステップ3206)。
上述したように、検出手法[4]は、電子透かしの埋め込み及び検出のための同期位置に基づいて音声コンテンツの境界位置を判断する。このため、同期信号の出現する間隔という非常に高い精度で音声コンテンツの境界を特定することができる。
また、検出手法[4]自体は、音声コンテンツの劣化の影響を受けるため、信頼性が低いが、検出手法「1」[2][3]により音声コンテンツの境界と判断された範囲で検出手法「4」を用いることにより、高い信頼性も確保することができる。
以上、検出手法[1][2][3][4]を組み合わせて用いた電子透かしの境界の検出手法について説明した。これらの検出手法は、音声コンテンツに何らかの電子透かしが埋め込まれていれば適用することができる。したがって、ID情報の埋め込みに用いられた電子透かしを用い音声コンテンツの境界位置を認識することが可能である。
なお、上述した処理動作は例示に過ぎず、例えば境界位置の探索を行う際に適切な閾値を動的に設定することにより、検出手法[3]の代わりに検出手法[2]を用いることもできる。また、音声コンテンツや埋め込まれているID情報の内容などに応じて、検出手法[2][3]で得られる精度で十分である場合には、検出手法[4]による境界位置の特定を省略することもできる。
また、音声コンテンツに対して、境界位置検出用の専用ビットを埋め込んであれば、さらに検出手法[5]により音声コンテンツの境界位置を検出することもできる。検出手法「5」によれば、音声コンテンツの劣化などがなければ1ビット単位で境界位置を特定することができるので、検出手法[2][3]に代えて、またはこれらの手法と併せて用いることができる。検出手法[2][3]と検出手法[5]とを併用する場合、精度の向上はそれほど期待できないが、検出手法が増えることによって検出結果の信頼性を向上させることができる。
上述した実施の形態では、音声コンテンツが他の音声コンテンツに切り替わる位置や、音声コンテンツの開始位置、終了位置といった境界位置を、音声コンテンツに埋め込まれている電子透かしの検出結果を処理することにより認識した。以上のようにして得られた境界位置と、電子透かし検出部10において電子透かしを検出した際に得られた時間情報とに基づいて、音声データにおける所定の音声コンテンツの時間的位置を特定することができる。したがって、これを放送に対する放送モニタリングに用いれば、放送データにおいて音声コンテンツの占める時間を特定し、当該音声コンテンツがいつどれだけの時間放送されたかを調査することができる。
しかしながら、放送などによる音声データにおいては、現実的な音声コンテンツの境界位置が明確でない場合もある。例えば、所定の音声コンテンツがフェードアルトで終了し、同時に他の音声コンテンツがフェードインで開始する場合である。
この場合、フェードイン、フェードアウトにより二つの音声コンテンツが重なっている部分が存在するため、本実施の形態によるいずれの検出手法においても、明確な境界を特定できない(この場合、例えば検出手法[1][2]などでは、次の音声コンテンツの電子透かしが検出され始めた位置と前の音声コンテンツの電子透かしが検出されなくなった位置とを音声コンテンツの境界位置と認識してしまう)。
このような場合、どの時点を音声コンテンツの境界とするかを予め決めておき、その規則に基づいて音声コンテンツの境界を特定する。例えば、前の音声コンテンツにおけるID情報が検出された最後の位置と次の音声コンテンツにおけるID情報が検出された最初の位置との中間地点(すなわち、二つの音声コンテンツが重なっている範囲の中間地点)を音声コンテンツの境界とすることができる。
また、複数の音声コンテンツが合成されて放送された場合は、上記のフェードイン、フェードアウトにより音声コンテンツが切り替わる場合でも述べたように、2種類の電子透かしが検出されてしまうため、本実施の形態による検出手法では、1つの音声コンテンツに関する境界位置を特定することはできない。したがって、本実施の形態は、放送される音声データに同時には1つの音声コンテンツだけが含まれるような場合の境界位置の検出が対象となる。
なお、本実施の形態では、音声コンテンツの境界位置を検出する場合について説明したが、動画の映像コンテンツや映像と音声とが組み合わされたコンテンツの音声部分などのような時間的要素を含む他のコンテンツに対しても、コンテンツのID情報を埋め込んだ電子透かしを用いて、本実施の形態による各検出手法をそのまま適用することが可能である。
以上説明したように、本発明によれば、コンテンツから検出された電子透かしに基づいてコンテンツの境界を認識する手法として複数の手法を組み合わせることにより、コンテンツの境界位置の認識において高い信頼性と高い精度とを同時に満足させることが可能となる。
【図面の簡単な説明】
図1は本実施の形態が適用される放送モニタリングを行うシステムの概略を説明する図である。
図2は本実施の形態におけるコンテンツ境界認識装置の構成を説明する図である。
図3は本実施の形態における検出手法[1]において、検出範囲をずらしながら電子透かしの検出を繰り返す様子を示す図である。
図4は本実施の形態における検出手法[1]において、電子透かしの有る状態から無い状態へ変化する場合の境界位置を説明する図である。
図5は本実施の形態における検出手法[1]において、電子透かしの無い状態から有る状態へ変化する場合の境界位置を説明する図である。
図6は本実施の形態における検出手法[1]において、電子透かしにおけるID情報が変化する場合の境界位置を説明する図である。
図7は検出手法[1]において、ビットエラーの個数がエラー訂正可能な上限個数(Nc)を上回り、ID情報の検出に失敗する確率を示す図である。
図8は検出手法[1]において、検出範囲が境界を跨いでいるという条件下でもエラー訂正が可能である確率を示す図である。
図9は検出手法[2]において、電子透かしとして音声コンテンツに埋め込まれたID情報による検出ビットの周期性を示す図である。
図10は検出手法[2]において、音声コンテンツの境界ではないにも関わらず誤って不一致を検出してしまう確率を示す図である。
図11は検出手法[2]において、所定のNビット中に1箇所以上で誤って不一致を検出してしまう確率を示す図である。
図12は検出手法[2]において、境界をMビットだけ越えたところで初めて不一致を検出できる確率を示す図である。
図13は検出手法[2]において、境界を跨いだ後、何ビット目で初めて不一致を検出するかの期待値を示す図である。
図14は検出手法[3]において、音声データ中、電子透かしが埋め込まれている場所と埋め込まれていない場所とにおけるビットの検出強度の違いを示す図である。
図15は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を32個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図16は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を32個とした場合における誤判定率、誤採用率及び紛失率を示す図である。
図17は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を16個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図18は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を16個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図19は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を8個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図20は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を8個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図21は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を4個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図22は検出手法[3]において、電子透かしの有無の判定に使うビットの個数を4個とした場合における電子透かしの有無の判定に関する確率を示す図である。
図23は検出手法[4]において、音声コンテンツに埋め込まれた電子透かしの同期位置を説明する図である。
図24は検出手法[4]において、音声コンテンツが切り替わった場合における電子透かしの同期位置の現れ方を説明する図である。
図25は検出手法[4]において、音声コンテンツが終了した場合における電子透かしの同期位置の現れ方を説明する図である。
図26は検出手法[5]において、音声コンテンツに電子透かしによって埋め込まれる境界検出用ビットの構成を説明する図である。
図27は検出手法[5]において、実際には音声コンテンツの境界ではないにも関わらず、誤って不一致を検出してしまう確率を示す図である。
図28は検出手法[5]において、所定のNビットの範囲に1箇所以上で誤って不一致を検出してしまう確率を示す図である。
図29は検出手法[5]において、音声コンテンツの境界をMビット越えたところで初めて不一致を検出できる確率を示す図である。
図30は検出手法[5]において、電子透かしにおけるビットの検出強度の平均に対する紛失率を示す図である。
図31は検出手法[5]において、境界検出ビットであるM系列の次元に対する紛失率を示す図である。
図32は本実施の形態における境界検出部による音声コンテンツの境界位置を特定する処理を説明するフローチャートである。
Claims (18)
- 時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、
前記電子透かし検出部により検出された前記電子透かしの状態に応じて、前記コンテンツの境界位置を検出する境界検出部とを備え、
前記境界検出部は、
前記電子透かし検出部により検出された前記電子透かしにおいて記述されている情報に基づいて、前記コンテンツの境界位置を特定する第1の境界特定手段と、
前記電子透かしとして埋め込まれているビットの埋め込みパターンに基づいて、前記コンテンツの境界位置を特定する第2の境界特定手段とを備え、
前記第1、第2の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とするコンテンツ境界検出装置。 - 前記境界検出部は、
前記電子透かしの検出に用いられる同期信号の出現パターンに基づいて、前記コンテンツの境界位置を特定する第3の境界特定手段を備え、
前記第1、第2の境界特定手段による処理結果に、さらに前記第3の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とする請求項1に記載のコンテンツ境界検出装置。 - 時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、
前記電子透かし検出部により検出された前記電子透かしの状態に応じて、前記コンテンツの境界位置を検出する境界検出部とを備え、
前記境界検出部は、
前記電子透かし検出部により検出された前記電子透かしにおいて記述されている情報に基づいて、前記コンテンツの境界位置を特定する第1の境界特定手段と、
前記電子透かしとして埋め込まれているビットの検出強度に基づいて、前記コンテンツの境界位置を特定する第2の境界検出手段とを備え、
前記第1、第2の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とするコンテンツ境界検出装置。 - 前記境界検出部は、
前記電子透かしの検出に用いられる同期信号の出現パターンに基づいて、前記コンテンツの境界位置を特定する第3の境界特定手段を備え、
前記第1、第2の境界特定手段による処理結果に、さらに前記第3の境界特定手段による処理結果を組み合わせて前記コンテンツの境界位置を検出することを特徴とする請求項3に記載のコンテンツ境界検出装置。 - 時間的要素を持つコンテンツに埋め込まれている電子透かしを検出する電子透かし検出部と、
前記電子透かし検出部により検出された前記電子透かしの状態に応じて、前記コンテンツの境界位置を検出する境界検出部とを備え、
前記境界検出部は、
前記電子透かしとして前記コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測し、当該ビットの実際の検出結果が予測と一致しているか否かに基づいて前記コンテンツの境界位置を特定することを特徴とするコンテンツ境界検出装置。 - 前記境界検出部は、前記コンテンツに前記電子透かしとしてM系列を構成するビット列が繰り返し埋め込まれている場合に、所定のM系列に基づいて、当該M系列を構成するビット列の次に検出されたビットの検出結果を予測し、当該予測の結果に応じて前記コンテンツの境界位置を特定することを特徴とする請求項5に記載のコンテンツ境界検出装置。
- 種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、
前記放送データに対して電子透かしの検出処理を実行し、前記コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしの状態に応じて、前記放送データにおける前記コンテンツの境界位置を検出するステップと、
検出された前記コンテンツの境界位置に基づいて、前記放送データにおいて前記コンテンツの占める時間を特定するステップとを含み、
前記コンテンツの境界位置を検出するステップは、
検出された前記電子透かしにおいて記述されている情報に基づく第1の手法により、当該電子透かしを埋め込まれているコンテンツの境界位置を特定するステップと、
前記第1の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットに関する情報に基づく第2の手法により、前記第1の手法よりも高い精度で前記コンテンツの境界位置を特定するステップとを含むことを特徴とするモニタリング方法。 - 前記コンテンツの境界位置を検出するステップは、
前記第2の手法で特定された前記境界位置を対象として、前記電子透かしの検出に用いられる同期信号の出現パターンに基づく第3の手法により、前記第2の手法よりもさらに高い精度で前記コンテンツの境界位置を特定するステップをさらに含むことを特徴とする請求項7に記載のモニタリング方法。 - 前記第2の手法により前記コンテンツの境界位置を特定するステップは、
前記電子透かしとして前記コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測するステップと、
前記ビットの実際の検出結果が予測と一致しているか否かに基づいて前記コンテンツの境界位置を特定するステップとを含むことを特徴とする請求項7に記載のモニタリング方法。 - 種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、
前記放送データに対して電子透かしの検出処理を実行し、前記コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしとして埋め込まれているビットの埋め込みパターンに基づいて、前記放送データにおける前記コンテンツの境界位置を検出するステップと、
検出された前記コンテンツの境界位置に基づいて、前記放送データにおいて前記コンテンツの占める時間を特定するステップとを含むことを特徴とするモニタリング方法。 - 種々のコンテンツを含む放送データの中で所定のコンテンツの占める時間を特定するモニタリング方法において、
前記放送データに対して電子透かしの検出処理を実行し、前記コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしとして埋め込まれているビットの検出強度に基づいて、前記放送データにおける前記コンテンツの境界位置を検出するステップと、
検出された前記コンテンツの境界位置に基づいて、前記放送データにおいて前記コンテンツの占める時間を特定するステップとを含むことを特徴とするモニタリング方法。 - 所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するコンテンツ位置検出方法において、
前記音声データに対して電子透かしの検出処理を実行し、前記音声コンテンツに埋め込まれている電子透かしを検出するステップと、
検出された前記電子透かしにおいて記述されている情報に基づく第1の手法により、当該電子透かしを埋め込まれている前記音声コンテンツの境界位置を特定するステップと、
前記第1の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットの検出強度に基づく第2の手法により、前記第1の手法よりも高い精度で前記音声コンテンツの境界位置を特定するステップとを含むことを特徴とするコンテンツ位置検出方法。 - 前記第2の手法で特定された前記境界位置を対象として、前記電子透かしの検出に用いられる同期信号の出現パターンに基づく第3の手法により、前記第2の手法よりもさらに高い精度で前記音声コンテンツの境界位置を特定するステップをさらに含むことを特徴とする請求項12に記載のコンテンツ位置検出方法。
- 前記第2の手法により前記音声コンテンツの境界位置を特定するステップは、
前記電子透かしとして前記音声コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測するステップと、
前記ビットの実際の検出結果が予測と一致しているか否かに基づいて前記音声コンテンツの境界位置を特定するステップとを含むことを特徴とする請求項12に記載のコンテンツ位置検出方法。 - コンピュータを制御して、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するプログラムにおいて、
前記音声データに対して電子透かしの検出処理を実行し、前記音声コンテンツに埋め込まれている電子透かしを検出する処理と、
検出された前記電子透かしにおいて記述されている情報に基づく第1の手法により、当該電子透かしを埋め込まれている前記音声コンテンツの境界位置を特定する処理と、
前記第1の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットの検出強度に基づく第2の手法により、前記第1の手法よりも高い精度で前記音声コンテンツの境界位置を特定する処理とを前記コンピュータを実行させることを特徴とするプログラム。 - 前記第2の手法で特定された前記境界位置を対象として、前記電子透かしの検出に用いられる同期信号の出現パターンに基づく第3の手法により、前記第2の手法よりもさらに高い精度で前記音声コンテンツの境界位置を特定する処理を、前記コンピュータにさらに実行させることを特徴とする請求項15に記載のプログラム。
- コンピュータを制御して、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するプログラムにおいて、
電子透かしとして前記音声コンテンツに埋め込まれている所定のビット列を対象とし、当該ビット列中の一定の長さの部分ビット列に基づいて所定のビットの検出結果を予測する処理と、
前記ビットの実際の検出結果が予測と一致しているか否かに基づいて前記音声コンテンツの境界位置を特定する処理とを前記コンピュータに実行させることを特徴とするプログラム。 - コンピュータを制御して、所定の音声コンテンツを含む音声データにおける当該音声コンテンツの時間的位置を検出するプログラムを格納した記憶媒体であって、
前記プログラムは、
前記音声データに対して電子透かしの検出処理を実行し、前記音声コンテンツに埋め込まれている電子透かしを検出する処理と、
検出された前記電子透かしにおいて記述されている情報に基づく第1の手法により、当該電子透かしを埋め込まれている前記音声コンテンツの境界位置を特定する処理と、
前記第1の手法で特定された前記境界位置を対象として、前記電子透かしとして埋め込まれているビットの検出強度に基づく第2の手法により、前記第1の手法よりも高い精度で前記音声コンテンツの境界位置を特定する処理とを前記コンピュータを実行させることを特徴とする記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001148439 | 2001-05-17 | ||
JP2001148439 | 2001-05-17 | ||
PCT/JP2002/004671 WO2002095727A1 (fr) | 2001-05-17 | 2002-05-14 | Dispositif de detection de limites de contenu, procede de surveillance, procede de determination de position de contenu, programme et support de stockage |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2002095727A1 true JPWO2002095727A1 (ja) | 2004-09-09 |
JP3953425B2 JP3953425B2 (ja) | 2007-08-08 |
Family
ID=18993748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002592107A Expired - Lifetime JP3953425B2 (ja) | 2001-05-17 | 2002-05-14 | コンテンツ境界検出装置、モニタリング方法、コンテンツ位置検出方法、プログラム及び記憶媒体 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1396839A1 (ja) |
JP (1) | JP3953425B2 (ja) |
CN (1) | CN1226715C (ja) |
WO (1) | WO2002095727A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644282B2 (en) | 1998-05-28 | 2010-01-05 | Verance Corporation | Pre-processed information embedding system |
US6737957B1 (en) | 2000-02-16 | 2004-05-18 | Verance Corporation | Remote control signaling using audio watermarks |
JP2006504986A (ja) | 2002-10-15 | 2006-02-09 | ベランス・コーポレイション | メディア・モニタリング、管理および情報システム |
US8666524B2 (en) * | 2003-01-02 | 2014-03-04 | Catch Media, Inc. | Portable music player and transmitter |
US20060239501A1 (en) | 2005-04-26 | 2006-10-26 | Verance Corporation | Security enhancements of digital watermarks for multi-media content |
US9055239B2 (en) * | 2003-10-08 | 2015-06-09 | Verance Corporation | Signal continuity assessment using embedded watermarks |
US8020004B2 (en) | 2005-07-01 | 2011-09-13 | Verance Corporation | Forensic marking using a common customization function |
US8259938B2 (en) | 2008-06-24 | 2012-09-04 | Verance Corporation | Efficient and secure forensic marking in compressed |
US9571606B2 (en) | 2012-08-31 | 2017-02-14 | Verance Corporation | Social media viewing system |
US20140075469A1 (en) | 2012-09-13 | 2014-03-13 | Verance Corporation | Content distribution including advertisements |
US8726304B2 (en) | 2012-09-13 | 2014-05-13 | Verance Corporation | Time varying evaluation of multimedia content |
US8869222B2 (en) | 2012-09-13 | 2014-10-21 | Verance Corporation | Second screen content |
WO2014153199A1 (en) | 2013-03-14 | 2014-09-25 | Verance Corporation | Transactional video marking system |
US9251549B2 (en) | 2013-07-23 | 2016-02-02 | Verance Corporation | Watermark extractor enhancements based on payload ranking |
US9208334B2 (en) | 2013-10-25 | 2015-12-08 | Verance Corporation | Content management using multiple abstraction layers |
CN106170988A (zh) | 2014-03-13 | 2016-11-30 | 凡瑞斯公司 | 使用嵌入式代码的交互式内容获取 |
CN110620961A (zh) * | 2019-08-09 | 2019-12-27 | 上海紫竹数字创意港有限公司 | 视频水印添加方法、装置以及视频编辑终端 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100341197B1 (ko) * | 1998-09-29 | 2002-06-20 | 포만 제프리 엘 | 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템 |
JP2000216981A (ja) * | 1999-01-25 | 2000-08-04 | Sony Corp | 電子透かし埋め込み方法および電子透かし埋め込み装置 |
JP2001067792A (ja) * | 1999-08-30 | 2001-03-16 | Sony Corp | 記録装置および方法、並びに記録媒体 |
JP3651777B2 (ja) * | 2000-11-28 | 2005-05-25 | 株式会社東芝 | 電子透かしシステム、電子透かし解析装置、電子透かし解析方法及び記録媒体 |
JP2002169579A (ja) * | 2000-12-01 | 2002-06-14 | Takayuki Arai | オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置 |
-
2002
- 2002-05-14 WO PCT/JP2002/004671 patent/WO2002095727A1/ja active Application Filing
- 2002-05-14 EP EP02771705A patent/EP1396839A1/en not_active Withdrawn
- 2002-05-14 JP JP2002592107A patent/JP3953425B2/ja not_active Expired - Lifetime
- 2002-05-14 CN CN02809913.3A patent/CN1226715C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP3953425B2 (ja) | 2007-08-08 |
CN1226715C (zh) | 2005-11-09 |
CN1509466A (zh) | 2004-06-30 |
WO2002095727A1 (fr) | 2002-11-28 |
EP1396839A1 (en) | 2004-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2002095727A1 (ja) | コンテンツ境界検出装置、モニタリング方法、コンテンツ位置検出方法、プログラム及び記憶媒体 | |
US9990688B2 (en) | Signal continuity assessment using embedded watermarks | |
US7606388B2 (en) | Contents border detection apparatus, monitoring method, and contents location detection method and program and storage medium therefor | |
US20090217052A1 (en) | Method for time-stamped watermarking, method and device for time stamp decoding use | |
US8285998B2 (en) | Dynamic image content tamper detecting device and system | |
US20080266457A1 (en) | Scene change detection device, coding device, and scene change detection method | |
US20090193255A1 (en) | Method and apparatus for determining and using the sampling frequency for decoding watermark information embedded in a received signal sampled with an original sampling frequency at encoder side | |
EP0088436A2 (en) | Apparatus for verifying code signals in the vertical blanking interval | |
EP1617374A1 (en) | Image recognizing device and image recognizing program | |
US6744784B1 (en) | Method of transmitting variable-length frame, transmitter, and receiver | |
US8014606B2 (en) | Image discrimination apparatus | |
EP1320096A1 (en) | Information recording/reproducing device using optical disk and method therefor and information recording system and information recording method | |
JP2007312191A (ja) | ビデオ品質評価装置、ビデオ品質監視装置、およびビデオ品質監視システム | |
EP2098968A1 (en) | Method and apparatus for identifying electronic files | |
JP2005340935A (ja) | 放送信号監視装置及び放送信号監視方法 | |
Nakamura et al. | Automatic music monitoring and boundary detection for broadcast using audio watermarking | |
CN1633689A (zh) | 共谋坚固水印 | |
KR100287141B1 (ko) | 비정상동기신호제거방법 | |
JP6785486B2 (ja) | 音声データの比較処理プログラム | |
JP2007312190A (ja) | オーディオ品質評価装置、オーディオ品質監視装置、及びオーディオ品質監視システム | |
JP4026500B2 (ja) | 情報付加方法 | |
CN1324603C (zh) | 光盘数据的取样方法及其装置 | |
JP2003219376A (ja) | 電子透かし埋込検出システム | |
US7826674B1 (en) | Content signal analysis | |
JPH09320177A (ja) | フレーム同期信号処理回路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060926 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061215 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3953425 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070326 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110511 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110511 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120511 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120511 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130511 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140511 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |