WO2012164818A1

WO2012164818A1 - 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

Info

Publication number: WO2012164818A1
Application number: PCT/JP2012/002788
Authority: WO
Inventors: 小沼　知浩; 亮一川西; 朋幸苅部; 上野山　努
Original assignee: パナソニック株式会社
Priority date: 2011-06-02
Filing date: 2012-04-24
Publication date: 2012-12-06
Also published as: US20130108244A1; CN103053173A; JPWO2012164818A1; JP5723446B2; CN103053173B; US9031384B2

Abstract

　動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段１８０１と、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定手段１８０２と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段１８０３とを備える。

Description

興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路

　本発明は、ＡＶコンテンツからユーザの興味の対象となる興味区間を、ＡＶコンテンツのオーディオ信号を用いて抽出する技術に関する。

　デジタルカメラ等の動画撮影機器において、ユーザが撮影したＡＶコンテンツから、ユーザが興味を示す区間（以下、興味区間と称す。）を抽出することができる機能が求められている。

　これに対して、従来から、ユーザがＡＶコンテンツの内容を視聴しながら、コントローラを操作（例えば、コントローラの入力釦を押下する操作）して興味区間の開始時刻を決め、その後、再度コントローラを操作して興味区間の終了時刻を決めることにより、興味区間を抽出することができる動画編集機器や動画撮影機器がある。動画編集機器による映像編集の一具体例としては、例えば、ＰＣと動画編集ソフトを用いた編集がある。

　ところが、この動画撮影機器では、適切な興味区間を抽出しようとすると、ＡＶコンテンツの内容を視聴しながらタイミング良くコントローラを操作する必要があり、ＡＶコンテンツの内容を視聴しながらタイミング良くコントローラを操作する作業にある程度の熟練が必要となる。そして、興味区間の開始時刻と終了時刻を適切に決めることができない場合には、再度、ＡＶコンテンツの内容を視聴しながらコントローラを操作する作業を繰り返すこととなり、興味区間の抽出に手間がかかることが多かった。

　そこで、従来、ユーザが指定した時刻に対して、ユーザが予めコンテンツの内容に応じて設定したオフセット時間を加えた時刻をイン点及びアウト点とする機能を備えた動画編集装置が提案されている（特許文献１参照）。この動画編集装置であれば、例えば、イン点の時刻をユーザが指定した時刻よりもオフセット時間だけ繰り上げるように設定しておけば、ユーザがイン点を指定するタイミングが遅れてしまっても、所望のイン点を興味区間に含めることができ、より適切に興味区間を抽出することができる。

　また、従来から、予め興味区間の開始時刻（イン点）における音響特徴条件と終了時刻（アウト点）における音響特徴条件とを設定しておき、これらの音響特徴条件からイン点とアウト点とを決定することにより興味区間を抽出する技術が提案されている（特許文献２参照）。

　また、動画再生の再生時刻を示すバーに併せて音の波形を表示し、動画像と共に視聴可能とすることにより、音の振幅の外形情報を基にした始点及び終点の切り出しを支援する技術が提案されている(特許文献３参照)。

　その他にも、放送コンテンツやＣＭ素材における映像の音の頭だしを簡単にする方法として、音響、特に音声の始終点を振幅パワーの外形（包絡線）が設定した閾値を上回るか否かにより検出する技術が提案されている（特許文献４参照)。

特開２００１－０５７６６０号公報特開平３－０８０７８２号公報特開２００５－２６０３９１号公報特許第３７５３３８４号公報

　しかしながら、上記特許文献１～４に記載された手法とは異なる手法を用いて、精度良く興味区間を特定できる手法が求められている。

　本発明は、上記事由に鑑みてなされたものであり、精度良く興味区間を特定することを目的とする。

　上記課題を解決するため、本発明に係る興味区間特定装置は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段とを備えることを特徴としている。

　本構成によれば、興味区間特定装置は、精度良く興味区間を特定することができる。

興味区間抽出装置を搭載した映像装置の概要を示す図特徴量ベクトルの算出方法を示す図特徴量ベクトルの一例を示す図アンカーモデルの一例を示す図尤度ベクトルの一例を示す図興味区間抽出装置を搭載した映像装置の機能構成例を示すブロック図興味区間抽出装置の機能構成例を示すブロック図第１単位区間と第２単位区間との関係を示す図頻度ベクトルの一例を示す図基準ベクトルを生成するときの動作説明図閾値を算出するときの動作説明図基準ベクトルを説明するための図興味区間を抽出する際の動作説明図アンカーモデル作成装置の機能構成例を示すブロック図微細構造判定及び階層拡張についての概念図興味区間抽出装置の興味区間抽出動作を示すフローチャート興味区間特定装置の一構成例を示すブロック図興味区間特定装置の一構成例を示すブロック図

＜本発明に至った経緯＞
　上述の特許文献１～４について、発明者らは、以下の問題を抱えていることを知見した。

　即ち、特許文献１に記載された方法では、適切なオフセット時間の設定が必要となる。また、オフセット時間はＡＶコンテンツの種別によって、その長さが異なる。このため、例えば、複数のＡＶコンテンツそれぞれから興味区間を抽出して複数のＡＶコンテンツについてのダイジェストを作成したい場合には、ＡＶコンテンツ毎にオフセット時間を設定してから興味区間を抽出する必要がある。ユーザからみれば、複数のＡＶコンテンツそれぞれについての適切なオフセット時間を考慮し、その設定を行うことは非常に煩雑なものがある。

　また、特許文献２に記載された方法では、ＡＶコンテンツの内容に応じてイン点とアウト点における音響特徴条件を設定する必要があるので、複数のＡＶコンテンツから興味区間を抽出したい場合には、ＡＶコンテンツそれぞれについてイン点及びアウト点における音響特徴条件を設定する必要がある。従って、興味区間の抽出対象となるＡＶコンテンツの数が多くなれば、この設定作業がユーザにとって大きな負担となる。

　また、特許文献３に記載された方法では、目視による音波の形状に基づく音声の始点及び終点の位置の確認となり、無声子音などパワーをほとんど持たない音韻が語頭に来た場合は、無声子音が音波の形状に表れにくいため、始終点の決定は困難となる。また、高いノイズ環境下では始終点がノイズに隠されてしまい、特定することが困難になる。

　また、特許文献４に記載された方法では、無声子音などパワーをほとんど持たない音声は、振幅のパワーの閾値による判定は困難である。また、音声を基準にした振幅のパワーの閾値設定では、音声以外の音（例えば環境音）の振幅パワーの動きを判定することは困難である。

　そこで、動画区間において、ユーザが撮影したホームビデオの中から冗長な部分を除き、ユーザが興味を持ってみられる興味区間を抽出する手法としていくつかの手法が策定されている。

　その一手法として、ユーザが動画を鑑賞し、ユーザが興味を覚えた時点で、その時点を特定するための入力を行い、入力された時点の音の情報を取得し、入力した時点を含み、その前後に取得した音の情報と似通った音を有する区間を抽出する装置がある。

　このとき、取得した音の情報は、ユーザが興味を覚えた時点の前後の一定区間の音の特徴も含まれている。

　そして、一定区間の前後の所定期間について、当該所定期間の音の特徴と、取得している音の情報で示される特徴とが、一定以上似通っている場合に興味区間を伸長する。そして、次の所定期間についても同様の判定を行っていき、一定以上似通っていないと判定された時点での興味区間を抽出する。

　このような手法によって、ユーザからの少ない入力で、興味区間を抽出することができる。

　しかし、この手法は、必ずしも正確に興味区間を抽出できるわけではないことに発明者らは気づいた。というのも、この手法をとる場合、興味区間を所定期間の単位で伸長していくため、その興味区間の特徴と、伸長しようとしている所定期間の中で、半分未満しか、似通った音の特徴がなかった場合には、その所定期間は興味区間に含まれないことになる。その場合、例えば、会話が途切れた、あるいは、会話が唐突に始まったような興味区間が抽出されてしまうことになる。

　特に、無声音が特定した興味区間の始端あるいは終端部分にある場合には、無声音の音が発せられているのにもかかわらず、音の特徴として検出しにくいために、本来ならば興味区間に入って欲しい部分が入らないことがあった。

　そして、そのような興味区間が抽出された場合には、その興味区間を視聴したユーザは違和感を覚えることとなる。

　このような問題を解決するために、伸長する所定期間を短くして、伸長していくことも考えられるが、所定期間を短くすると、所定期間から取得できる音の特徴に幅がないため、興味期間として伸長されにくくなってしまい、ある程度の長さの興味区間を抽出しにくくなるという問題や、伸長のための処理がかなり多くなってしまう可能性があるという問題があることに発明者らは気付いた。

　そこで、発明者らは、このような問題を解決すべく、ある程度の所定期間ごとに興味区間を伸長していくとともに、そのような無声音があっても、興味区間に含められるよう、特に、興味区間の始端や終端を子細に解析することで、解決できることを知見した。これにより、本来興味区間に含まれるべき所定期間が含まれない事態を避けるとともに、あるいは興味区間が冗長になることを防ぐことができる。

　以下、本発明に係る興味区間特定装置の一実施形態である興味区間抽出装置について図面を用いて説明する。
＜実施の形態＞
＜１＞概要
　まず、興味区間抽出の概要を説明する。

　本実施の形態に係る興味区間抽出装置は、動画ファイルに含まれるオーディオ信号の第１単位区間（１０ｍｓｅｃ）毎に複数種類のアンカーモデルＡｒそれぞれを用いてオーディオ信号の特徴量を表現する特徴量ベクトルに対する尤度を成分とする尤度ベクトルを生成する。そして、興味区間抽出装置は、第１単位区間よりも長い第２単位区間（１ｓ）毎の頻度ベクトル（第２単位区間頻度ベクトル）を、第２単位区間に含まれる尤度ベクトルを用いて算出する。頻度ベクトルは、第２単位区間の音の特徴を表すベクトルとなる。興味区間抽出装置は、ユーザにより指定された指定時刻を含む第２単位区間とその前方及び後方にある第２単位区間が似ているかをそれぞれの頻度ベクトルが似ているか否かを繰り返し判定していくことにより、興味区間の候補となる興味区間候補を抽出する。このとき、興味区間抽出装置は、興味区間候補に含まれる微細な時間構造（微細構造ともいう）を自動で判別し、その必要な部分（主として興味区間候補の始点付近と終点付近）だけを解析することで、興味区間を精密に抽出する。

　ここで、微細な時間構造とは、所定期間内に、互いに異なる性質の音が含まれる構造のことである。別の言い方をすれば、各第２単位区間の中で、互いに所定以上距離が離れた尤度ベクトルが少なくとも２つ存在する構造のことである。互いに異なる性質の音が含まれるということは、その所定期間に音の変わり目がある可能性が高くなるためである。

　例えば、図１に示すように、動画ファイルが、運動会のシーンを撮影したものとする。そして、ユーザが、この動画ファイルの中から徒競走のスタート時刻前後からの所定の長さの時間内のシーンだけを切り出す編集をしたいとする。

　この場合、ユーザは徒競争のシーンの中におけるスタート時刻付近の時刻を指定すると、興味区間抽出装置は、指定時刻を含む一部の区間を興味区間候補として抽出する。

　また、本実施の形態に係る興味区間抽出装置では、興味区間として抽出しようとする区間の始点部分に発声の開始時刻等の微細な時間構造が含まれていた場合（図１の始点付近の音声）、その必要な部分だけの下部構造を解析し、特徴区間を精密に抽出する（図１の始点付近の音声の拡大部分の音声の始点部分参照）ことができる。なお、本実施の形態では、第１単位区間の１００倍の第２単位区間（１ｓｅｃ）を標準単位として興味区間を抽出する。第２単位区間で興味区間と抽出し、その標準単位の時間の中に微細構造が含まれていると判定された場合には、その部分でのみ第１単位区間の１０倍の長さの第３単位区間（１００ｍｓ）を下部構造として解析する単位として、下部構造を解析し、始点あるいは終端を精密に決定する処理を行う。つまり、興味区間抽出装置は、第２単位区間で大まかな興味区間の候補を抽出した後に、より細かい第３単位区間で興味区間を厳密に定める。

　なお、本明細書においては、音全般を指す場合には、音と記載し、人の声を指す場合には、音声と記載する。
＜２＞データ
　では、本実施の形態に係る興味区間抽出装置で使用する各種データについて説明する。
＜２－１＞動画ファイル
　動画ファイルは、オーディオ信号と時間軸方向で連続する複数の画像データとから構成される。ここで、オーディオ信号は、デジタル信号（あるいは、アナログ信号からデジタル信号に変換されたもの）として、音の振幅値を記録した時系列データであり、この振幅値を時間軸に沿って値を並べれば、例えば、図２（ａ）に示すような波形で表現することができる。
＜２－２＞特徴量ベクトル
　特徴量ベクトルは単位時間分のオーディオ信号をメル周波数ケプストラム系列のベクトルに変換したものである。

　具体的に説明すると、オーディオ信号が図２（ａ）に示すような波形で表されたとする。本実施の形態では、オーディオ信号中の第１単位区間毎に特徴量ベクトルが算出される。ここで、第１単位区間は図２（ａ）における時刻Ｔ_nからＴ_n+1までの区間のことであり、具体的には一例として１０ｍｓｅｃであるとする。

　特徴量ベクトルを算出するにあたり、まず、この第１単位区間のオーディオ信号をパワースペクトラムＳ（ω）に変換する（図２（ｂ）参照）。パワースペクトラムは、所定単位区間（ここでは第１単位区間）の振幅値（パワー）を周波数成分に変換したものをいう。図２（ｂ）に示されるパワースペクトラムＳ（ω）の横軸は実周波数である。

　そして、パワースペクトラムＳ（ω）の横軸を実周波数ωからメル周波数に変換する（図２（ｃ）参照）。

　横軸がメル周波数に変換されたパワースペクトラムから、２６個のメル周波数ケプストラム係数ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）からなるベクトルである特徴量ベクトルを算出する。

　上述の通り特徴量ベクトルＭは、第１単位区間毎（１０ｍｓｅｃ毎）に算出されるので、図３に示すように、時刻０ｓｅｃから時刻１ｓｅｃまでの間では、都合１００個の特徴量ベクトルが算出されることになる。なお、図３において、Ｍ（１）～Ｍ（２６）は２６次のメル周波数ケプストラム係数を示している。
＜２－３＞アンカーモデル
　本実施の形態に係るアンカーモデルは、尤度を算出する際に基準となる１０２４種類のサウンド素片それぞれの特徴を表現するものである。アンカーモデルは、サウンド素片ごとに作成され、各アンカーモデルは、複数のパラメータから構成される。

　本実施の形態では、ＧＭＭ（Gaussian Mixture Model）を採用して、アンカーモデルＡｒ（ｒ＝１～１０２４）を作成する。

　アンカーモデルについて図４を用いて説明する。図４に示すように、アンカーモデルは、１０２４種類のサウンド素片それぞれに対応する特徴量出現確率関数ｂ_Ar（Ｍ）により表される。特徴量出現確率関数ｂ_Ar（Ｍ）とは、各アンカーモデルＡｒが存在する確率を示す確率関数である。特徴量出現確率関数ｂ_Ar（Ｍ）を用いることで、ＭＦＣＣの２６次のベクトル（特徴量ベクトル）Ｍを引数として尤度が算出される。なお、図４では、どのアンカーモデルがどのサウンド素片に対応するかを明示していない。
＜２－４＞尤度ベクトル
　尤度ベクトルＦは、複数のサウンド素片それぞれに対応するアンカーモデルＡｒ（ｒ＝１～１０２４）を用いて、オーディオ信号の特徴量を表現する特徴量ベクトルＭに対して算出された尤度Ｌｒを成分とする。従って、尤度ベクトルＦは、１０２４次元のベクトルで表現される。なお、特徴量ベクトルＭは、上記＜２－３＞項で説明したように、音抽出装置１０２が抽出したオーディオ信号の第１単位区間毎に生成される。

　図５に尤度ベクトルの例を示す。図５は、１０２４種類のサウンド素片それぞれのアンカーモデルＡｒを用いて算出された尤度ベクトルＦｍ及びＦｎを示している。図５の右側が尤度ベクトルＦｍであり、左側が尤度ベクトルＦｎである。図５においては、縦軸にオーディオ信号のアンカーモデルに対する尤度を示し、横軸がアンカーモデルＡｒの種類を示している。尤度ベクトルＦｎは、時刻０（基準時刻）からｎ番目の第１単位区間（即ち、時刻（１０×（ｎ－１））msecから時刻（１０×ｎ）msecの区間）に対応する尤度ベクトルである（例えば、図２（ａ）参照）。同様に、尤度ベクトルＦｍは、時刻０（基準時刻）からｍ番目の第１単位区間（即ち、時刻（１０×（ｍ－１））msecから時刻（１０×ｍ）msecの区間）に対応する尤度ベクトルである。

　尤度ベクトルＦは、図５の尤度ベクトルＦｍ及びＦｎの差異に示されるように、対象とするオーディオ信号の時間変化に応じて変化する。なお、オーディオ信号に変化がない場合には、時間が変化しても尤度ベクトルは変化しない。
＜３＞構成
　以下、本実施の形態に係る興味区間抽出装置１０４を搭載した映像編集装置１００の機能構成について説明する。
＜３－１＞全体構成
　図６は、映像編集装置１００の機能構成例を示すブロック図である。図６に示すように、映像編集装置１００は、入力装置１０１と、音抽出装置１０２と、コンテンツ記憶装置１０３と、興味区間抽出装置１０４と、興味区間記憶装置１０５と、出力装置１０６と、アンカーモデル作成装置１０８と、インターフェース装置１０９と、音データ記憶装置１３０とを備える。

　入力装置１０１は、ディスクドライブ装置等で構成され、記録媒体１１０が装着されると、記録媒体１１０から動画ファイルを読み込んで、コンテンツ記憶装置１０３に格納する機能を有する。なお、記録媒体１１０は、各種データを記憶する機能を有する媒体であり、例えば、光ディスクや、フレキシブルディスク、ＳＤカード、フラッシュメモリなどである。

　音抽出装置１０２は、コンテンツ記憶装置１０３に格納されている動画ファイルを取得し、取得した動画ファイルからオーディオ信号を抽出し、オーディオ信号を興味区間抽出装置１０４に入力する機能を有する。なお、音抽出装置１０２は、符号化されているオーディオ信号に対して復号化処理を行って、図２（ａ）に示すオーディオ信号を生成する。

　コンテンツ記憶装置１０３は、ハードディスク装置等で構成され、入力装置１１０から取得した動画ファイルを記憶する機能を有する。

　興味区間抽出装置１０４は、インターフェース装置１０９から取得した指定時刻と、音抽出装置１０２から入力されたオーディオ信号に基づきコンテンツ記憶装置１０３に格納されている動画ファイルから興味区間を抽出し、抽出した興味区間を示す興味区間データを興味区間記憶装置１０５に格納する機能を有する。興味区間抽出装置１０４の詳細については後述する。

　興味区間記憶装置１０５は、ハードディスク装置等で構成され、興味区間抽出装置１０４から取得した興味区間データを記憶する機能を有する。興味区間データは、コンテンツ記憶装置１０３に格納されている動画ファイルを特定する情報（動画ファイルのＩＤ）と、動画ファイルの再生時間軸における時間（時間帯）を示す情報とからなる。

　音データ記憶装置１３０は、ハードディスク装置等で構成され、アンカーモデル作成装置１０８が複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルＡｒを作成する際に用いる音データを記憶する機能を有する。当該音データは、興味区間を抽出する対象となる動画ファイルとは別に複数の動画ファイルから抽出して復号処理を行って得られたオーディオ信号からなる。なお、音データは、興味区間を抽出する対象となる動画ファイルのオーディオ信号を含んでもよい。

　出力装置１０６は、表示装置１２０に映像データを出力して映像を表示させる機能を有する。また、出力装置１０６は、興味区間記憶装置１０５から興味区間データを取得し、取得した興味区間データに基づいてコンテンツ記憶装置１０３から動画コンテンツの一部を構成する複数の画像データを選出し、選出した複数の画像データをつなぎ合わせたダイジェスト動画を表示装置１２０に表示させる機能も有する。なお、表示装置１２０は、映像を表示する機能を有するディスプレイであり、映像編集装置１００に付属のディスプレイであってもよいし、外部のディスプレイであってもよい。

　アンカーモデル作成装置１０８は、音データ記憶装置１３０に記憶されている音データからアンカーモデルＡｒを作成する機能を有する。また、アンカーモデル作成装置１０８は、作成したアンカーモデルＡｒを興味区間抽出装置１０４に出力する機能を有する。アンカーモデル作成装置１０８の詳細については後述する。

　インターフェース装置１０９は、キーボード等の操作部（図示せず）を備え、ユーザからの入力操作を受け付けて、入力された情報を映像編集装置１００の各部に伝達する機能を有する。本実施の形態においては、インターフェース装置１０９は、ユーザから受け付けた指定時刻の情報や、興味区間の長さに関する情報を興味区間抽出装置１０４に通知し、作成すべきアンカーモデルの個数をアンカーモデル作成装置１０８に通知する。
＜３－２＞興味区間抽出装置１０４
　ここから興味区間抽出装置１０４の詳細について説明する。興味区間抽出装置１０４は、プロセッサ（図示せず）とメモリ（図示せず）とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図７に示す各構成を実現している。

　図７は、興味区間抽出装置１０４の機能構成例を示すブロック図である。図７に示すように興味区間抽出装置１０４は、特徴量ベクトル生成部２０１と、尤度ベクトル生成部２０２と、アンカーモデル蓄積部２０３と、尤度ベクトルバッファ２０４と、頻度ベクトル・分散生成部２０５と、頻度ベクトルバッファ２０６と、興味区間候補抽出部２０７と、区間伸長基準指標計算部２０８と、指定時刻取得部２０９と、微細構造判定部２１０と、階層拡張部２１１とを備える。以下、各構成について説明する。
＜３－２－１＞特徴量ベクトル生成部２０１
　特徴量ベクトル生成部２０１は、入力されたオーディオ信号から特徴量ベクトルを生成する機能を有する。特徴量ベクトル生成部２０１は、上記＜２－２＞に示したように、音抽出装置１０２から入力されるオーディオ信号に対して、第１単位区間毎に音響分析を行い、パワースペクトラムＳ（ω）を算出する。そして、特徴量ベクトル生成部２０１は、算出したパワースペクトラムＳ（ω）から特徴量ベクトルＭ（Ｍ（１）、Ｍ（２）、・・・、Ｍ（２５）、Ｍ（２６））を生成する。特徴量ベクトル生成部２０１は、図３に示すように、１秒につき、１００個の特徴量ベクトルを生成する。
＜３－２－２＞アンカーモデル蓄積部２０３
　アンカーモデル蓄積部２０３は、ハードディスク装置等により実現され、アンカーモデル作成装置１０８により作成されたアンカーモデルＡｒを記憶する機能を有する。当該アンカーモデルＡｒは、興味区間抽出処理の実行前には、アンカーモデル蓄積部２０３に記憶されているものとする。
＜３－２－３＞尤度ベクトル生成部２０２
　尤度ベクトル生成部２０２は、アンカーモデル蓄積部２０３に蓄積されている各サウンド素片のアンカーモデルＡｒを用いて特徴量ベクトルＭに対する尤度Ｌｒを算出し、算出した尤度Ｌｒを各成分とする尤度ベクトルＦを生成する機能を有する。そして、尤度ベクトル生成部２０２は、生成した尤度ベクトルＦを尤度ベクトルバッファ２０４に格納する機能も有する。
＜３－２－４＞尤度ベクトルバッファ２０４
　尤度ベクトルバッファ２０４は、メモリの一部の領域により構成され、尤度ベクトル生成部２０２が生成した尤度ベクトルＦを記憶する機能を有する。
＜３－２－５＞頻度ベクトル・分散生成部２０５
　頻度ベクトル・分散生成部２０５は、オーディオ信号の第２単位区間毎（１sec毎）に頻度ベクトルＮＦを生成する機能を有する。図８に示すように、第２単位区間は複数個（本実施の形態においては、上述の通り１００個）の連続する第１単位区間の集合に相当する。頻度ベクトルＮＦは、第２単位区間に含まれる尤度ベクトルの正規化累積尤度に相当する。具体的には、頻度ベクトル・分散生成部２０５は、第２単位区間に含まれる全ての尤度ベクトルの各成分について、成分毎に、その成分の値を累積（加算）する。そして、累積して得られた各成分を正規化して、頻度ベクトルを算出する。なお、ここで正規化とは、頻度ベクトルのノルムを１にすることである。図９は、頻度ベクトルＮＦの一例を示す模式図である。

　頻度ベクトル・分散生成部２０５は、興味区間候補抽出部２０７からの指示に従い、頻度ベクトルＮＦの生成を開始／終了する。

　また、頻度ベクトル・分散生成部２０５は第２単位区間で行ったのと同様の手順により、第３単位区間（１００msec）を単位として計算した第３単位区間頻度ベクトルを算出し、得られる１０個の第３単位区間頻度ベクトルを用いて、各第２単位区間における分散を計算する。

　なお、分散σは、以下の数式（１）により算出される。

　上式において、ｎは、第３単位区間頻度ベクトルの個数であり、ここでは、１０となる。また、Ｘ_iは、各第３単位区間頻度ベクトルである。そして、Ｃは、それらの第３単位区間頻度ベクトルのベクトル重心であり、以下の数式（２）により算出される。

＜３－２－６＞頻度ベクトルバッファ２０６
　頻度ベクトルバッファ２０６は、頻度ベクトル・分散生成部２０５が生成した頻度ベクトルを、算出対象の第２単位区間を示す情報と対応付けて記憶する機能を有する。
＜３－２－７＞指定時刻取得部２０９
　指定時刻取得部２０９は、インターフェース装置１０９から、指定時刻に関する指定時刻情報を取得し、当該指定時刻情報を、区間伸長基準指標計算部２０８と、興味区間候補抽出部２０７に伝達する機能を有する。
＜３－２－８＞区間伸長基準指標計算部２０８
　区間伸長基準指標計算部２０８は、指定時刻取得手段２１０から指定時刻情報を受け付けて、指定時刻を含む第２単位区間の時間軸前方又は時間軸後方にある第２単位区間を興味区間候補に含めるか否かを決定するための基準指標となる基準ベクトルＮＦ０及び閾値Ｒｔｈ及び最大分散値σmaxを算出する機能を有する。また、区間伸長基準指標計算部２０８は、算出した基準ベクトルＮＦ０及び閾値Ｒｔｈ及び最大分散値σmaxを興味区間抽出部２０７に伝達する機能も有する。

　具体的には、区間伸長基準指標計算部２０８は、頻度ベクトルバッファ２０６から、指定時刻を含む第２単位区間に対応する頻度ベクトルＮＦを取得する。また、区間伸長基準指標計算部２０８は、頻度ベクトルバッファ２０６から、指定時刻を含む第２単位区間に連なる複数の第２単位区間の頻度ベクトルＮＦも取得する。図１０の例では、指定時刻を含む第２単位区間に連なる複数の第２単位区間を、指定時刻を含む第２単位区間の前後４つの第２単位区間としている。区間伸長基準指標計算部２０８は、取得した９つの頻度ベクトル（ＮＦ１～ＮＦ９）の平均をとることで、基準ベクトルＮＦ０を算出する。つまり、区間伸長基準指標計算部２０８は、頻度ベクトルを構成する各正規化累積尤度をアンカーモデルごとに合算し、合算した値を使用した頻度ベクトルの個数（９個）で割って得られる値を成分とする基準ベクトルＮＦを生成する。

　区間伸長基準指標計算部２０８は、更に、基準ベクトルＮＦ０を生成する際に用いた複数の頻度ベクトルＮＦ１～ＮＦ９と基準ベクトルＮＦ０との間のユークリッド距離を算出し、基準ベクトルＮＦ０との間の距離が最も遠い頻度ベクトルＮＦと基準ベクトルＮＦ０との間のユークリッド距離を興味区間候補に属するか否かの判断に用いる閾値Ｒｔｈとして算出する。

　そして、区間伸長基準指標計算部２０８は、更に、頻度ベクトル・分散生成部２０５で計算した基準区間の中の各第２単位区間に対応する分散の値の中で最大のものを最大分散値σmaxとして決定する。

　図１１は、基準ベクトルＮＦ０及び各頻度ベクトルＮＦ、そして、閾値Ｒｔｈを頻度ベクトル空間の概念を用いて示した概念図である。図１１において、小さな○は、それぞれ、基準ベクトルＮＦ０の算出に用いた頻度ベクトルＮＦ（図１０に示す基準区間内の各頻度ベクトルＮＦ１～ＮＦ９に対応）を示している。また、円状になっている斜線部分の中心が基準ベクトルＮＦ０である。この斜線部分内に他の第２単位区間の頻度ベクトルが入るのであれば、その第２単位区間は、興味区間候補に含まれる第２単位区間であることになる。

　その後、区間伸張基準指標計算部２０８は、生成した基準ベクトルＮＦ０、閾値Ｒｔｈ及び最大分散値σmaxを興味区間候補抽出部２０７に伝達する。
＜３－２－９＞興味区間候補抽出部２０７
　興味区間候補抽出部２０７は、頻度ベクトルバッファ２０６に記憶されている頻度バッファと、指定時刻取得部２０９から受け付けた指定時刻と、区間伸長基準指標計算部２０８から受け付けた基準ベクトルＮＦ０及び閾値Ｒｔｈとに基づき、興味区間の候補となる興味区間候補を抽出する機能を有する。

　図１２（ａ）の例では、頻度ベクトルＮＦと基準ベクトルＮＦ０との間のユークリッド距離が区間伸張基準指標計算部２０８から入力される閾値Ｒｔｈを超える時刻Ｔ３とＴ４とのそれぞれ１つ手前（基準区間側）の２つの時刻Ｔ１、Ｔ２の間の区間が、興味区間候補に相当することになる。図１２（ａ）の例では、時刻Ｔ３の頻度ベクトルと時刻Ｔ１の頻度ベクトル、あるいは、時刻Ｔ４の頻度ベクトルと時刻Ｔ２の頻度ベクトルとは明らかに異なるものとなっており、このため、時刻Ｔ３、Ｔ４の頻度ベクトルの基準ベクトルからのユークリッド距離が閾値Ｒｔｈを超えることになった例を示している。

　頻度ベクトル空間における閾値Ｒｔｈと、ユークリッド距離との関係を図１２（ｂ）に示す。興味区間候補の頻度ベクトルＮＦは、図１２（ｂ）に示す頻度ベクトル空間における基準ベクトルＮＦ０を中心とした半径Ｒｔｈの球の内側に存在することになる。

　興味区間候補抽出部２０７は、図１３に示すように、指定時刻Ｔ０から時刻を遡りながら、対象時刻における頻度ベクトルＮＦと基準ベクトルＮＦ０との間のユークリッド距離を算出し、算出したユークリッド距離が閾値Ｒｔｈを超えるか否か（つまり、対象時刻を含む第２単位区間が興味区間候補に含まれなくなるか否か）を判定していく。同様に興味区間候補抽出部２０７は、図１３には示していないが、時間軸順方向にも同様の処理を実行し、対象時刻を含む第２単位区間が興味区間候補に含まれるか否かを判定していく。

　興味区間候補抽出部２０７は、算出したユークリッド距離が閾値（Ｒｔｈ）を超えると、頻度ベクトル・分散生成部２０５に対して頻度ベクトル作成終了指示を通知する。

　具体的に説明すると、興味区間候補抽出部２０７は、現時点での興味区間候補（仮興味区間候補と呼称する）の時間軸方向で１つ前の第２単位区間の頻度ベクトルを取得し、取得した頻度ベクトルＮＦと、基準ベクトルＮＦ０との間のユークリッド距離が閾値Ｒｔｈを超えるか否かを判定する。閾値Ｒｔｈ以下である場合には、その第２単位区間を仮興味区間候補に含め、新たな仮興味区間候補の１つ前の第２単位区間が新たな仮興味区間候補に含まれるかの判定を繰り返す。閾値Ｒｔｈを超える場合には、現在の仮興味区間候補の始点を興味区間候補の始点とする。なお、最初の時点では基準区間が仮興味区間候補となる。

　同様に、興味区間候補抽出部２０７は、仮興味区間候補の時間軸方向で１つ後ろの第２単位区間の頻度ベクトルを取得し、取得した頻度ベクトルＮＦと、基準ベクトルＮＦ０との間の距離が閾値Ｒｔｈを超えるか否かを判定する。閾値Ｒｔｈ以下である場合には、その第２単位区間を仮興味区間候補に含め、新たな仮興味区間候補の１つ後の第２単位区間が仮興味区間候補に含まれるかの判定を繰り返す。閾値Ｒｔｈを超える場合には、現在の仮興味区間候補の終点を興味区間候補の終点とする。

　そして、興味区間候補抽出部２０７は、このようにして抽出した興味区間候補を微細構造判定部２１０に伝達する。

　なお、興味区間候補抽出部２０７は、仮興味区間候補の伸長にあたって、判定対象の第２単位区間が仮興味区間候補に含まれるか否かを判定するとともに、同時に当該対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短いか否かも判断する。そして、ユークリッド距離が閾値Ｒｔｈを超えず（興味区間候補に含まれる）且つ対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短い（つまり、興味区間の条件を具備している）と判断すると対象時刻を含む第２単位区間の集合が興味区間候補となる。なお、興味区間の長さｌｅよりも長くなった場合には、興味区間候補抽出部２０７は、その時点での仮興味区間候補を興味区間候補とする。
＜３－２－１０＞微細構造判定部２１０
　微細構造判定部２１０は、興味区間候補抽出部２０７により得られた興味区間候補の最初の第２単位区間（以下、始点候補Ｓｔｃと呼称する）と最後の第２単位区間（以下、終点候補Ｅｔｃと呼称する）とに微細構造があるか否かを判定する機能を有する。また、微細構造判定部２１０は、始点候補に微細構造がないと判定された場合に、興味区間候補の１つ前の第２単位区間に微細構造があるか否かを判定する機能と、終点候補に微細構造がないと判定された場合に、興味区間候補の１つ後の第２単位区間に微細構造があるか否かを判定する機能を有する。そして、微細構造判定部２１０は、微細構造の有無の判定結果（微細構造があった場合には、どの第２単位区間に微細構造が存在するかの情報を含む）を階層拡張部２１１に伝達する機能を有する。

　具体的には、微細構造判定部２１０は、興味区間候補抽出部２０７から伝達された興味区間の始点候補Ｓｔｃ及び終点候補Ｅｔｃの分散σstc及びσetcそれぞれと、最大分散値σmaxとを比較する。微細構造判定部２１０は、σstc > σmaxならば、始点候補Ｓｔｃに微細構造があると判断する。また、σetc > σmaxならば、終端候補Ｅｔｃに微細構造があると判断する。

　また、微細構造判定部２１０は、σstc ≦ σmaxならば、興味区間候補の１つ前の第２単位区間に微細構造があるか否かを判定する。同様に、微細構造判定部２１０は、σetc ≦ σmaxならば、興味区間候補の１つ後の第２単位区間に微細構造があるか否かを判定する。

　図１５は、微細構造判定の概念図であり、これを用いて微細構造判定の一具体例を示す。図１５においては、その上段から順に、（ａ）オーディオ信号に含まれる音の波形例、（ｂ）第２単位区間それぞれの分散値例、（ｃ）第２単位区間それぞれの頻度ベクトル例、（ｄ）第２単位区間、（ｅ）始点候補及び終点候補における拡大した音の波形例、（ｆ）第３単位区間における頻度ベクトル例、（ｇ）第３単位区間、を示している。σmaxは、区間伸長基準指標計算部２０８で既に計算されており、ここでは、σmax=0.1であったとする。図１２の（ｂ）分散に示すように始点候補Ｓｔｃの分散σstcは0.25であり、σmaxよりも大きいので微細構造ありと判定する。また、終端Ｅｔｃの分散σetcは0.03でありσmaxよりも小さいので微細構造はないと判定する。また、図１５の（ｅ）～（ｇ）では第２単位区間よりも短い単位区間である各第３単位区間の頻度ベクトルの状態を模式的に表現している。始点候補Ｓｔｃでは下部階層に微細な時間構造（異なる第３単位区間の間で互いに特徴の異なる頻度ベクトルを有する構造）が存在するため分散の値が大きいことを示している。

　図１２の例では、終端候補Ｅｔｃの第２単位区間に含まれる各第３単位区間は緩やかな変化が認められるものの微細な時間構造が含まれていないため分散が小さい（0.03）ことを示している。なお、図１５においては示していないが、微細構造判定部２１１は、この場合、終点候補Ｅｔｃの直後、即ち興味区間候補の１つ後ろの第２単位区間に微細構造があるか否か、即ち、分散が最大分散値を超えるか否かの判定を行う。
＜３－２－１１＞階層拡張部２１１
　階層拡張部２１１は、微細構造判定部２１１において、微細構造があると判定された場合に、微細構造があると判定された第２単位区間を、下部階層として、第１単位区間よりも細かい単位である第３単位区間に分割(階層拡張)して、興味区間の真の始点及び終点を決定し、当該決定に基づく興味区間を示す興味区間データを興味区間記憶装置１０５に記録する機能を有する。始点部分（始点候補Ｓｔｃまたは始点候補Ｓｔｃの１つ前の第２単位区間）に微細構造がないと判定された場合には、興味区間候補の始点が興味区間の始点となり、終点部分（終点候補Ｅｔｃまたは終点候補Ｅｔｃの１つ後の第２単位区間）に微細構造がないと判定された場合には、興味区間候補の終点が興味区間の終点となる。

　具体的には、階層拡張部２１１は、微細構造があると判定された第２単位区間を第３単位区間に分割してそれぞれの第３単位区間頻度ベクトルを算出する。階層拡張部２１１は、当該第３単位区間頻度ベクトルを用いて、基準区間側の第３単位区間頻度ベクトルから、その第３単位区間頻度ベクトルの基準ベクトルＮＦ０からのユークリッド距離が閾値Ｒｔｈを超えるか否かを判定する。そして、閾値Ｒｔｈを超えると判定された時刻に対応する第３単位区間の１つ前の第３単位区間の終点を又は終点を興味区間の真の始点または終点として、興味区間を決定する。

　図１５を用いて階層拡張を説明する。微細構造判定部２１０で微細構造があると判定された始点候補Ｓｔｃの第２単位区間に対して、第３単位区間に分割し、第２単位区間で求めた方法と同様の方法で、第３単位区間の頻度ベクトルを計算する。算出された第３単位区間の頻度ベクトルについて、基準区間側の第３単位区間から、その頻度ベクトルのユークリッド距離が閾値Ｒｔｈを超えるか否かによって、仮興味区間候補を伸長していき、閾値Ｒｔｈを超えたところを真の始点または終点とする。図１５では、（ｅ）及び（ｆ）に示すように、後ろから６つめの第３単位区間で閾値を越えたと判定し、後ろから５つ目までを興味区間とする興味区間の始点を正確に検出できた例を示している。
＜３－３＞アンカーモデル作成装置１０８
　図１４を用いて、アンカーモデル作成装置１０８について説明する。図１４は、アンカーモデル作成装置１０８の機能構成及び周辺機器を示す機能ブロック図である。アンカーモデル作成装置１０８は、音データ記憶装置１３０に記憶されている音データに基づいてアンカーモデルを作成し、作詞したアンカーモデルをアンカーモデル蓄積部２０４に記録する機能を有する。

　図１４に示すようにアンカーモデル作成装置１０８は、特徴量ベクトル生成部３０１と、特徴量ベクトル分類部３０２と、アンカーモデル生成部３０３とを備える。

　アンカーモデル作成装置１０８は、メモリ（図示せず）とプロセッサ（図示せず）とから構成され、プロセッサがメモリに読み込まれたプログラムを実行することにより、図１８に示す各構成を実現している。即ち、アンカーモデル作成装置１０８は、図１８に示すように、特徴量ベクトル生成部３０１と、特徴量ベクトル分類部３０２と、アンカーモデル生成部３０３とを実現している。
＜３－３－１＞特徴量ベクトル生成部３０１
　特徴量ベクトル生成部３０１は、＜３－２－１＞で説明した特徴量ベクトル生成部２０１と同様に、音データ記憶装置１３０から取得した音データを第１単位区間に分割し、第１単位区間毎に音響分析を行ってパワースペクトラムＳ（ω）を算出し、算出したパワースペクトラムＳ（ω）からメルケプストラムに変換し、特徴量ベクトルＭを生成する機能を有する。特徴量ベクトル生成部３０１は、生成した特徴量ベクトルＭを特徴量ベクトル分類部３０２に伝達する機能も有する。
＜３－３－２＞特徴量ベクトル分類部３０２
　特徴量ベクトル分類部３０２は、特徴量ベクトル生成部３０１が生成した特徴量ベクトルを、クラスタリング（分類）する機能を有する。

　特徴量ベクトル分類部３０２は、インターフェース装置１０９から入力されるアンカーモデルＡｒの個数Ｋに基づいて、Ｋ－ｍｅａｎｓ法により複数の特徴量ベクトルＭをＫ個のクラスタに分離し、各クラスタを表す代表的な特徴量ベクトル(以下、クラスタ特徴量ベクトルと称す。)を算出する。この各クラスタが各アンカーモデルＡｒに対応することになる。なお、本実施の形態では、Ｋ＝１０２４である。
＜３－３－３＞アンカーモデル生成部３０３
　アンカーモデル生成部３０３は、各クラスタのクラスタ特徴量ベクトルに基づいて、各アンカーモデルＡｒに対応する特徴量出現確率関数ｂ_Ar（Ｍ）を算出する機能を有する。そして、算出した特徴量出現確率関数で表現される各アンカーモデルＡｒをアンカーモデル蓄積部２０３に蓄積する機能を有する。
＜動作＞
　以下、本実施の形態に係る興味区間抽出装置の動作を図１６に示すフローチャート及び図７に示す機能ブロック図を参照しながら説明する。

　まず、音抽出装置１０２が、コンテンツ記録装置１０３からユーザが指定した動画ファイルに含まれるオーディオ信号を抽出して（矢印Ｐ１）、特徴量ベクトル生成部２０１に入力する（矢印Ｐ２）。

　次に、特徴量ベクトル生成部２０１は、入力されたオーディオ信号から特徴量ベクトルを生成して尤度ベクトル生成部２０２に入力する（矢印Ｐ３）。

　続いて、尤度ベクトル生成部２０２は、入力される特徴量ベクトルとアンカーモデル蓄積部２０３から取得した（矢印Ｐ４）アンカーモデルＡｒとから第１単位区間毎に尤度ベクトルＦを生成して、算出対象となっている第１単位区間を示す時間情報に対応付けて尤度ベクトルバッファ２０４に格納する（矢印Ｐ５、ステップＳ１６０１）。

　更に、頻度ベクトル・分散生成部２０５が、尤度ベクトルバッファ２０４に格納されている複数の尤度ベクトルＦ（第２単位区間分の尤度ベクトル）を取得して（矢印Ｐ６）、頻度ベクトルＮＦを生成する。そして、頻度ベクトル・分散生成部２０５は、生成した頻度ベクトルＮＦを頻度ベクトルバッファ２０６に格納する（矢印Ｐ７、ステップＳ１６０２）。この処理は、興味区間候補抽出部２０７から頻度ベクトル生成終了指示が通知されると終了し、頻度ベクトル生成開始指示が通知されると再開する（矢印Ｐ９）。

　一方、区間伸長基準指標計算部２０８は、頻度ベクトルバッファ２０６から指定時刻に対応する頻度ベクトルＮＦを含む複数の頻度ベクトルＮＦを取得するとともに（矢印Ｐ１１）指定時刻取得部２０９から指定時刻の情報を取得し（矢印Ｐ１２）、基準ベクトルＮＦ０及び閾値Ｒｔｈ及び最大分散値σmaxを算出する。そして、区間伸長基準指標計算部２０８は、生成した基準ベクトルＮＦ０及び閾値Ｒｔｈ及び最大分散値σmaxを興味区間候補抽出部２０７に入力する（矢印Ｐ１３）。

　興味区間候補抽出部２０７は、頻度ベクトルバッファ２０６から取得した（矢印Ｐ８）頻度ベクトルＮＦと、区間伸長基準指標計算部２０８から入力される（矢印Ｐ１３）基準ベクトルＮＦ０及び閾値Ｒｔｈ及び最大分散値σmaxと、指定時刻取得部２０９から入力される（矢印Ｐ１５）指定時刻の情報とを用いて、対象時刻を含む第２単位区間が仮興味区間候補に属するか否かを判断する。このとき、興味区間候補抽出部２０７は、指定時刻Ｔ０から第２単位区間ずつ時刻をずらしながら、対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短いか否かを判断し、対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短いと判断すると対象時刻を含む第２単位区間を興味区間候補とし微細構造判定部２１０に入力する（矢印Ｐ１６、ステップＳ１６０３）。

　微細構造判定部２１０は、興味区間候補抽出部２０７から入力された始点候補Ｓｔｃの分散σstcと区間伸長基準指標計算部２０８から得た最大分散σmaxを超えるか否かを判定する（ステップＳ１６０４）。

　始点候補Ｓｔｃの分散がσstc > σmaxを満たすならば（ステップＳ１６０４のＹＥＳ）、微細構造判定部２１０は、始点候補Ｓｔｃに微細構造がある旨を階層拡張部２１１に伝達する（矢印Ｐ１７）。そして、階層拡張部２１１は、これを受けて、始点候補Ｓｔｃを第３単位区間（１００msec）に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の始点を決定する（ステップＳ１６０５）。

　一方、始点候補Ｓｔｃの分散がσstc > σmaxを満たさないならば（ステップＳ１６０４のＮＯ）、微細構造判定部２１０は、始点候補Ｓｔｃの１つ前の第２単位区間（興味区間候補の１つ前の第２単位区間）に微細構造があるか否かを判定する（ステップＳ１６０６）。

　始点候補Ｓｔｃの１つ前の第２単位区間の分散がσmaxを超えるならば（ステップＳ１６０６のＹＥＳ）、微細構造判定部２１０は、始点候補Ｓｔｃの１つ前の第２単位区間に微細構造がある旨を階層拡張部２１１に伝達する（矢印Ｐ１７）。そして、階層拡張部２１１は、これを受けて、始点候補Ｓｔｃの１つ前の第２単位区間を第３単位区間（１００msec）に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の始点を決定する（ステップＳ１６０５）。

　一方、始点候補Ｓｔｃの１つ前の第２単位区間の分散がσmaxを超えていないならば（ステップＳ１６０６のＮＯ）、興味区間候補の始点部分には、微細構造がない旨を、階層拡張部２１１に伝達する（矢印Ｐ１７）。そして、階層拡張部２１１は、これを受けて、興味区間候補の始点を興味区間の始点として決定する（ステップＳ１６０８）。

　興味区間抽出装置は、微細構造の有無の判定等について、同様の処理を興味区間候補の終点側においても実行する。

　微細構造判定部２１０は、興味区間候補抽出部２０７から入力された終点候補Ｅｔｃの分散σetcと区間伸長基準指標計算部２０８から得た最大分散σmaxを超えるか否かを判定する（ステップＳ１６０９）。

　終点候補Ｅｔｃの分散がσetc > σmaxを満たすならば（ステップＳ１６０９のＹＥＳ）、微細構造判定部２１０は、終点候補Ｅｔｃに微細構造がある旨を階層拡張部２１１に伝達する（矢印Ｐ１７）。そして、階層拡張部２１１は、これを受けて、終点候補Ｅｔｃを第３単位区間（１００msec）に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の終点を決定する（ステップＳ１６１０）。

　一方、終点候補Ｅｔｃの分散がσetc > σmaxを満たさないならば（ステップＳ１６０９のＮＯ）、微細構造判定部２１０は、終点候補Ｅｔｃの１つ前の第２単位区間（興味区間候補の１つ前の第２単位区間）に微細構造があるか否かを判定する（ステップＳ１６１１）。

　終点候補Ｅｔｃの１つ前の第２単位区間の分散がσmaxを超えるならば（ステップＳ１６１１のＹＥＳ）、微細構造判定部２１０は、終点候補Ｅｔｃの１つ後の第２単位区間に微細構造がある旨を階層拡張部２１１に伝達する（矢印Ｐ２１）。そして、階層拡張部２１１は、これを受けて、終点候補Ｅｔｃの１つ前の第２単位区間を第３単位区間（１００msec）に分割してそれぞれの頻度ベクトルを算出しての、興味区間の真の終点を決定する（ステップＳ１６１２）。

　一方、終点候補Ｅｔｃの１つ後の第２単位区間の分散がσmaxを超えていないならば（ステップＳ１６１１のＮＯ）、興味区間候補の終点部分には、微細構造がない旨を、階層拡張部２１１に伝達する（矢印Ｐ１７）。そして、階層拡張部２１１は、これを受けて、興味区間候補の終点を興味区間の終点として決定する（ステップＳ１６１３）。

　そして、階層拡張部２１１は、決定した始点及び終点に基づく興味区間を示す興味区間データを興味区間記憶装置１０５に記録し（矢印Ｐ１８）、興味区間抽出装置は、１つの指定時刻に対応する興味区間の抽出を終える。
＜まとめ＞
　上述したように、興味区間抽出装置は、興味区間の候補となる興味区間候補を抽出した後に、その興味区間候補の始点部分と終点部分を、興味区間の候補を決定するために用いた時間単位（第２単位区間）よりも、細かい時間単位（第３単位区間）で興味区間の始点と終点を決定することで、第２単位区間だけを用いた興味区間の抽出よりも適切な興味区間の抽出を行える。また、興味区間の決定の際には、始点部分や終点部分における分散を算出することによって微細構造の有無を判定し、微細構造がある場合にのみ第３単位区間での興味区間の始点と終点を決定しているので、第３単位区間での興味区間の始点と終点の決定をする必要がない場合にはその演算を行わないことで演算量を低減することを可能としている。
＜変形例＞
　上記実施の形態に従って、本発明に係る興味区間抽出装置について説明してきたが、本発明はこれに限られるものではない。以下、本発明の思想として含まれる各種変形例について説明する。

　（１）上記実施の形態においては、微細構造判定部２１０は、始点候補とその１つ前の第２単位区間、終点候補とその１つ後の第２単位区間に微細構造があるか否かの判定を行っている。しかし、微細構造判定部２１０が、微細構造があるか否かの判定を行う対象はこれらの４つの第２単位区間に限るものではなく、興味区間候補全域に渡って判定することとしてもよい。

　興味区間の途中に微細構造があるか否かの判定を行うことによって、例えば、その興味区間中の動画において、最も盛り上がりを見せるシーンの特定などを行うことができる。

　（２）上記実施の形態においては、特に記載していなかったが、興味区間抽出装置は、以下に示すような手法を用いての興味区間の抽出を行ってもよい。

　例えば、興味区間候補抽出部２０７は、オーディオ信号に音声が含まれるかどうかの判定を行って、興味区間を抽出することとしてもよい。

　第２単位区間のオーディオ信号に音声が含まれるか否かは、例えば、アンカーモデルに音声を示す特定のアンカーモデルを設定しておき、そのアンカーモデルに対する尤度が予め定めておいた閾値（例えば、０．８など）を超えるか否かによって判定する。

　このとき、階層拡張部２１１は、オーディオ信号が音声であると判定された場合には、その第２単位区間を第３単位区間ではなく、第１単位区間の尤度ベクトルが基準ベクトルＮＦ０から閾値Ｒｔｈ内にあるか否かを判定しての興味区間の抽出を行ってもよい。音声が含まれている場合には、より細かく解析することで、より厳密に興味区間の始点終点を決定することができる。

　（３）上記実施の形態において、第２単位区間及び第３単位区間における頻度ベクトルは、それぞれの区間に含まれる尤度ベクトルの各成分の正規化累積尤度を成分とするベクトルであるとした。しかし、頻度ベクトルは、その区間におけるオーディオ信号の特徴を表すものであればよく、特に、頻出する音の成分を特定できるものであれば、正規化累積尤度以外を成分とするベクトルであってもよい。例えば、単位区間に含まれる尤度ベクトルの各成分を累積し、累積尤度の高い上位ｋ個（ｋは複数であり、例えば、１０）のアンカーモデルのみに対応する累積尤度を正規化したベクトルであってもよい。あるいは、頻度ベクトルは、累積した値を正規化することなく、そのまま累積した尤度を成分とするベクトルであってもよい。

　（４）興味区間候補抽出部２０７は、指定時刻から対象時刻までの時間の長さが所定の長さ以内かどうかを判断したが、これは、興味区間を所定の長さ以上にしないための措置であり、興味区間の長さを限定せずともよい場合には、この判断処理を省略してもよい。

　（５）上記実施の形態においては、微細構造があるか否かを、分散が所定の閾値を超えるか否かに基づいて判定することとした。しかし、微細構造があるか否かは、第２単位区間内に、複数種類の音があるか否かを判定できるのであれば、これ以外の手法を用いて算出されてもよい。

　例えば、第２単位区間内において、任意の２つの尤度ベクトルを選択し、その２つの尤度ベクトル間の距離が所定の閾値以上離れているか否かによって、判定してもよい。

　このとき、全ての任意の２つの尤度ベクトルについて距離の判定をすると演算量が膨大になるため、必ずしも全ての任意の２つの尤度ベクトルについて距離の判定をする必要はない。例えば、一つの第２単位区間につて微細構造があるか否かを、その第２単位区間の両端から内側に向けて、順に連続する２つの第１単位区間の尤度ベクトル間の距離を算出する。そして、尤度ベクトル間の距離の推移から微細構造があるか否かを判定することとしてもよい。例えば、第２単位区間内において、尤度ベクトル間のユークリッド距離が長くなっていき、一定以上離れた後で、そのあとで、再び短くなっていくというような推移を見せた場合に微細構造があると判定する。この手法の場合だと、尤度ベクトル間の距離の算出は、第１単位区間が１０ｍｅｃで第２単位区間が１ｓであるとした場合には、５０回で済むことになる。

　（６）上記実施の形態において、図１６に示すステップＳ１６０４～Ｓ１６０８までの処理と、ステップＳ１６０９～Ｓ１６１３までの処理とは、実行タイミングが逆になってもよく、また、これらの処理は同時に並行して処理されてもよい。

　（７）上記実施の形態においては、特に記載していないが、インターフェース装置１０９を介して、ユーザから複数の指定時刻を受けつけ、各指定時刻を含む複数の興味区間を抽出することとしてもよい。

　また、映像編集装置は、興味区間抽出装置は、抽出された複数の興味区間について、その再生順、あるいは、ＡＶコンテンツが録画された順にしたがって、具備している記録装置あるいは外部の記録媒体に記録する機能を備えていてもよい。また、その際に、各興味区間に対応するＡＶコンテンツは、複数のファイルから抽出したものであってもよい。また、それらの複数の興味区間に対応する複数のデータの記録の際には、それらをその対応する指定時刻の順で１つのファイルに統合したダイジェスト映像として記録することとしてもよい。その際には、隣り合う興味区間同士で、重複する部分がある場合には、ダイジェスト映像にその重複部分が繰り返されないように統合するとよい。

　また、同等の機能を階層拡張部２１１が備え、上述の手法にしたがって、抽出した複数の興味区間を興味区間記憶装置１０５に記録することとしてもよい。

　（８）上記実施の形態に示した音データ記憶装置１３０に記憶される音データは、適宜新たな音データが追加されてよく、また、コンテンツ記憶装置１０３に記憶された動画ファイルの音データを記憶してもよい。

　そして、新たな音データの追加に伴い、アンカーモデル作成装置１０８は新たなアンカーモデルを作成してもよい。

　（９）また、上記実施の形態では、音データ記憶装置１３０に予め蓄積されている音データから自動的に複数種類のサウンド素片それぞれのアンカーモデルＡｒを作成する（いわゆる教師無しでアンカーモデルを作成する）例について説明したが、アンカーモデル作成手法は、これに限定されるものではない。例えば、サウンド素片の種類が少数（例えば、数十種類）に限定されている場合には、音データ記憶装置１３０に蓄積されている音データについて、ユーザが各サウンド素片それぞれに対応する音データを選択し、それぞれに種別ラベルを付与し、種別ラベルが同一な音データから対応するサウンド素片のアンカーモデルを作成する（いわゆる教師ありでアンカーモデルＡｒを作成する）こととしてもよい。

　（１０）上記実施の形態においては、興味区間候補抽出部２０７は、ユークリッド距離が閾値Ｒｔｈを超えず（興味区間候補に含まれる）且つ対象時刻と指定時刻Ｔ０との間の長さが予め設定された興味区間の長さｌｅよりも短い（つまり、興味区間の条件を具備している）と判断すると対象時刻を含み、始点候補Ｓｔｃ及び終点候補Ｅｔｃとする第２単位区間が興味区間候補となる旨を記載した。これは、興味区間の長さがある一定上の長さになることを防ぐための措置であるが、興味区間の長さを一定以下にしなくともよいのであれば、当該判断（予め定めた興味区間の長さｌｅとの比較処理）は行わなくともよい。

　また、上記実施の形態においては、仮興味区間候補がｌｅよりも長き場合の処理について詳細に記載していないが、これは例えば、以下のような構成としてもよい。

　例えば、興味区間候補抽出部２０７は、仮興味区間候補を時間軸逆方向に伸長していき、その後に、時間軸順方向に伸長していく構成をとっていたとして、仮興味区間候補の長さがｌｅを超えた時点での仮興味区間候補を興味区間候補として決定することとしてもよい。なお、伸長の順は時間軸順方向が時間軸逆方向よりも先に行われてもよい。

　あるいは、興味区間候補抽出部２０７は、仮興味区間候補を第２単位区間単位で時間軸逆方向と時間軸順方向とで交互に伸長していく構成をとってもよい。この伸長を行う際には、第２単位区間単位に交互でなくともよく、一定数（例えば、５個）の第２単位区間毎に交互に伸長する手法をとってもよい。

　（１１）上記実施の形態においては、興味区間候補抽出部２０７は、基準ベクトルと仮興味区間候補に隣接する第２単位区間の頻度ベクトル間のユークリッド距離が、Ｒｔｈを超えるか否かに応じて、当該第２単位区間を仮興味区間候補に含めるか否かを判定していた。しかし、これは、基準ベクトルと第２単位区間の頻度ベクトルが一定以上似ているか否かを判定できれば、必ずしもユークリッド距離を用いる必要はない。

　例えば、基準ベクトルと第２単位区間の頻度ベクトルと、アンカーモデルの確率分布から、基準ベクトル、頻度ベクトルを混合分布の重みとみなし、それぞれの特徴を表現する、基準混合分布と今まさに比較対象となっている第２単位区間の混合分布を計算し、２つの混合分布の両方向のカルバック・ライブラー情報量（Kullback-Leibler divergence、俗にＫＬ距離と呼称されることもある）を距離として利用し、興味区間候補を抽出する構成としてもよい。この際、閾値Ｒｔｈもカルバック・ライブラー情報量を用いて、９つの第２単位区間から計算しておく。

　なお、カルバック・ライブラー情報量は、確率論や情報理論において２つの確率分布の差異を図る尺度として一般に知られており、本発明に係る頻度ベクトルと基準ベクトル間のＫＬ距離は以下のようにして算出できる。

　まず、一つ一つのアンカーモデルの確率関数ｂ_Ar（Ｍ）をガウス分布ｇ_Arと表現する。

　次に区間を伸長する単位である第２単位区間の特徴量は、アンカーモデルの全数（１０２４個）と第２単位区間の頻度ベクトルとから一つの混合分布を構成することができる。具体的には、第２単位区間の頻度ベクトルＨ_S（Ｈ_S＝（α₁，…，α_Ar，…，α₁₀₂₄））を、１０２４個のアンカーモデルＡｒ（Ａｒ＝（ｇ₁，…，ｇ_Ar，…，ｇ₁₀₂₄））に対する重みと捉えることで、当該第２単位区間の特徴量は、以下の式（３）で与えることができる。

　一方、基準ベクトルの確率的特徴の別表現として、同様の表現ができる。即ち、基準ベクトルＣ（Ｃ＝（μ₁，…，μ_Ar，…，μ₁₀₂₄））を、１０２４個のアンカーモデルＡｒ（Ａｒ＝（ｇ₁，…，ｇ_Ar，…，ｇ₁₀₂₄））に対する重みと捉えることで、基準ベクトルの確率的特徴の別表現は、以下の式（４）で与えることができる。

　すると、この２つの混合分布Ｇ_S及びＧ_Cを用いて、Ｇ_SからＧ_Cに対するカルバック・ライブラー情報量は以下の式（５）で与えることができる。

　なお、上記式（５）においてＥ_Yは期待値を意味する。

　また、Ｇ_CからＧ_Sに対するカルバック・ライブラー情報量は以下の式（６）で与えることができる。

　そして、式（５）と式（６）の両方向のカルバック・ライブラー情報量を求め、二つの確率分布間のＫＬ距離を、以下の式（７）のように定義する。

　上記実施の形態に示したユークリッド距離の換わりに、この式（７）に示されるＫＬ距離を用いて、第２単位区間を仮基準区間候補に含めるか否かの判定を行ってもよい。このとき、閾値Ｒｔｈ（閾値ユークリッド距離）の代わりには、基準区間に含まれる複数の第２単位区間の頻度ベクトルの中で、それら複数の頻度ベクトルの重心ベクトル（基準ベクトル）から、最もＫＬ距離が遠い頻度ベクトルとの間のＫＬ距離（閾値ＫＬ距離）を用いればよい。

　また、その他にも、ユークリッド距離を用いない手法としては、例えば、基準ベクトルと第２単位区間の頻度ベクトルとの相関演算を行って、その相関値が一定値以上（例えば、０．６以上）であれば、当該第２単位区間を仮興味区間候補に含めるというような手法をとってもよい。また、当該手法であれば、基準ベクトルではなく、指定時刻を含む第２単位区間の頻度ベクトルと、その第２単位区間（または仮興味区間候補）に隣接する第２単位区間の頻度ベクトルとの間の相関値を用いて、興味区間候補を抽出する構成としてもよい。

　（１２）上記実施の形態においては、指定時刻取得手段２０９は、インターフェース装置１０９に入力されたユーザ入力に基づく指定時刻を取得する構成を示した。しかし、指定時刻の取得方法はこれに限定されるものではない。

　例えば、指定時刻取得部２０９が、動画ファイルに含まれる複数の画複データそれぞれの特徴量の時間変化に基づいて、自動的に指定時刻Ｔ０を取得するものであってもよい。

　ここにおいて、指定時刻取得部２０９は、動画ファイルに含まれる複数の画像データそれぞれについて一般的なクラスタリング手法により複数のシフト特徴量を算出し、各画像データ間における所定のシフト特徴量の差分から指定時刻Ｔ０を算出するようにすればよい。例えば、複数の画像データそれぞれの背景画像を表すシフト特徴量に着目し、時間軸上で隣接する２つの画像データ間の当該シフト特徴量の差分が大きく変化するところを自動的に指定時刻Ｔ０とすることが考えられる。また、このとき、動画ファイルのどの部分から指定時刻Ｔ０を取得するのかについて、当該部分の始点と終点との時刻をユーザが指定してもよい。

　あるいは、画像データに限らず、特定の音が検出される点を指定時刻として検出することとしてもよい。例えば、特定の音として、特定のユーザの声を動画ファイルから検出して、その特定のユーザの声を検出したタイミングを指定時刻として取得することとしてもよい。これは、特定のユーザの声の特徴量を示す情報を予め記憶しておき、動画のオーディオ信号から、この特徴量に所定以上類似するか否かに応じて、ユーザの声の検出を行う。なお、連続する期間でユーザの声があると判定された場合には、その連続する期間の中点を指定時刻として、興味区間の抽出を行う。

　また、この特定の音に換えて、特定のオブジェクトが検出できるタイミングを指定時刻として扱ってもよい。この場合、特定のオブジェクトを示す画像特徴量を記憶しておき、動画ファイルの画像データから検出される画像特徴量との相関が一定以上検出されるタイミングを指定時刻とすればよい。

　（１３）上記実施の形態における第１単位区間、第２単位区間、第３単位区間それぞれの時間の長さは一例である。その時間長は、第１単位区間＜第３単位区間＜第２単位区間となっていれば、上記実施の形態に示した秒数以外の長さであってもよい。なお、このとき、第２単位区間の長さは、第１単位区間の長さと第３単位区間の長さとの公倍数になっていると処理が容易になる。

　（１４）上記実施の形態においては、階層拡張部２１１は、微細構造があると判定された第２単位区間の第３単位区間頻度ベクトルを算出することとしたが、これは、頻度ベクトル・分散生成部２０５が分散を算出するのに用いた第３単位区間頻度ベクトルを利用してもよい。

　（１５）上記実施の形態においては、興味区間抽出装置は、入力された動画から興味区間を抽出することとしたが、興味区間の抽出を行わず、興味区間の特定に留めることとしてもよい。

　即ち、本発明に係る興味区間特定装置は、図１７に示すような構成をとってもよい。図１７に示す構成は、上記実施の形態の図７に示した興味区間抽出装置１０４の構成に加え、更に、インデキシング部１７００を備える。

　図１７において、図７に示した構成と同等の機能を有するものについては、同じ名称及び符号を付与している。

　階層拡張部１７１１は、階層拡張部２１１と略同等の機能を備える。ただし、階層拡張部２１１と異なり、興味区間を抽出するのではなく、興味区間を特定するにとどめる。興味区間の特定とは、興味区間の開始時刻と終了時刻とを特定することを意味する。そして、階層拡張部１７１１は、特定した興味区間の情報をインデキシング部１７００に伝達する。

　インデキシング部１７００は、階層拡張部１７１１と、興味区間記憶装置１０５との間に、挿入される。インデキシング部１７００は、階層拡張部１７１１から伝達された興味区間の情報に基づき、対応する動画に対して、興味区間の情報で示される興味区間の始点となる始点フラグ及び終点となる終点フラグを付与する。なお、興味区間長が固定の場合は、動画に対して付与するのは、始点フラグのみでもよい。

　これにより、動画に対して、興味区間の始点フラグ、終点フラグが付与されることにより、動画の再生時にこのフラグを基準点とする、頭出し再生を実行できるようになる。このような手法でも、ユーザにとっても無駄な動画を視聴する時間を短縮することができる。

　（１６）上記実施の形態においては、ユーザから指定時刻を受け付けて、興味区間候補を定めて、その中に微細構造があるか否かを判定した上で、真の興味区間を抽出する構成を示した。しかしながら、本発明はこれに限定されるものではない。

　興味区間候補は、予め興味区間抽出装置に対して入力される動画に興味区間候補の情報（開始時刻と終了時刻）が付与されており、この予め指定されている興味区間候補について、微細構造の有無を判定して、階層拡張部２１１による興味区間の抽出を実行することとしてもよい。

　これにより、例えば、予めチャプターの設定がされている動画についても、そのチャプターの開始点や終了点が適切でない場合の修正等を容易に行うことができる。動画編集の技術を有しないユーザが動画に対して手動でチャプタリングを実行した場合には、チャプターの開始点、終了点などは正確性に欠けることが多いため、そのような動画を興味区間抽出装置に入力すると、そのチャプターの修正が容易にでき、有用である。

　（１７）上述の実施形態で示した通信に係る動作、興味区間抽出処理等（図１６参照）を映像編集機器等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。

　（１８）上記実施の形態で示した興味区間抽出装置を構成する構成要素の一部又は全部は、１又は複数の集積回路（ＩＣ、ＬＳＩなど）として実装されることとしても良く、画像管理装置の構成要素に更に他の要素を加えて集積回路化（１チップ化）されることとしてもよい。

　ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＬＳＩ内部の回路セルの接続または設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
＜補足＞
　上記実施の形態に従って、本発明の一実施形態に係る興味区間特定装置について説明したが、本発明の実施の形態はこれに限るものではない。以下に、本発明の一実施形態と、その奏する効果について説明する。

　（ａ）図１８に示すように、本発明に係る興味区間特定装置は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段（１８０１）と、前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段（１８０２）と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段（１８０３）とを備えることを特徴としている。

　図１８に示す興味区間候補抽出手段１８０１は、図７及び図１７における興味区間候補抽出部２０７に相当する。また、微細構造判定手段１８０２は、図７及び図１７における微細構造判定部２１０に相当する。そして、興味区間特定手段１８０３は、図７及び図１７における階層拡張部２１１、１７１１に相当する。また、図１８に示す興味区間特定装置は、更に、図７に示す特徴量ベクトル生成部２０１、尤度ベクトル生成部２０２、アンカーモデル蓄積部２０３、尤度ベクトルバッファ２０４、頻度ベクトル・分散生成部２０５、頻度ベクトルバッファ２０６、区間伸張基準指標計算部２０８、指定時刻取得部２０９を含んで構成されてよく、これらの各機能部の接続関係は、図７に示す通りである。

　また、微細構造とは、上記実施の形態に示した通りであるが、別の言い方をすれば、興味区間候補よりも短い（細かい）時間区間の中で、音の特徴に一定以上のばらつき（変化）がある構造と言える。また、別の言い方をすれば、微細構造の有無の判定とは、興味区間候補としては、ある程度共通した音の特徴を有する区間でありながら、その中でも、微細な時間単位でみた場合には、音の特徴にばらつきがあることを検出することであるとも言える。

　また、本発明に係る興味区間特定方法は、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置による興味区間特定方法であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定ステップと、前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップとを含むことを特徴としている。

　また、本発明に係る興味区間特定プログラムは、動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、前記興味区間特定処理は、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定ステップと、前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップとを含むことを特徴としている。

　また、本発明に係る興味区間特定集積回路は、動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を特定する興味区間特定集積回路であって、前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、前記興味区間候補に微細構造が含まれるか否かを判定する微細構造判定手段と、前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段とを備えることを特徴としている。

　これにより、動画ファイルにおける興味区間を特定できるので、例えば、動画ファイルの再生時におけるスキップ再生や、ダイジェストの作成等に利用することができ、動画ファイルの中でもユーザにとって興味を覚えると推測される部分のみを視聴させることができる。

　また、本構成によれば、動画ファイル（ＡＶコンテンツ）から興味区間を抽出する際に、区間の始端、終端の２つの時刻をユーザが注意深く指定するのではなく、興味区間特定装置が、例えば、興味区間の始点又は終点となる部分（微細構造が含まれると判定された場合）を精査して、興味区間を特定することができるので、ユーザによる正確な始点または終点の入力なしに、より精密に興味区間を特定することができる。

　（ｂ）また、上記（ａ）に示す興味区間特定装置において、前記興味区間特定装置は、更に、基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積しているアンカーモデル蓄積手段と、ユーザから指定時刻を取得する指定時刻取得手段と、オーディオ信号の第１単位区間毎に、当該第１単位区間におけるオーディオ信号の特徴量を示す特徴量ベクトルの、前記アンカーモデル各々に対する尤度を求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段とを備え、前記興味区間候補抽出手段は、前記尤度ベクトルに基づいて、前記指定時刻を含み、前記第１単位区間よりも長い、前記興味区間の候補となる興味区間候補を算出し、前記微細構造判定手段は、前記興味区間候補を含む区間における前記第１単位区間よりも長く前記興味区間候補よりも短い特定区間について微細構造が含まれるか否かを判定することとしてもよい。

　これにより、ユーザが動画に対して興味を覚えたタイミングで受け付けた入力に基づいて、興味区間を特定することができる。興味を覚えたタイミングだけの入力でく、興味区間特定装置は、正確な興味区間の始点あるいは終点の入力でなくとも、興味区間を特定できる。

　（ｃ）また、上記（ｂ）に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記第１単位区間のＮ倍の長さの第２単位区間のオーディオ信号から生成されるＮ個の尤度ベクトルから第２単位区間頻度ベクトルを算出し、前記第１単位区間のＭ倍（１＜Ｍ＜Ｎ、ＮはＭの倍数）の長さの第３単位区間のオーディオ信号から生成されるＭ個の尤度ベクトルから第３単位区間頻度ベクトルを算出する頻度ベクトル算出手段と、前記第２単位区間に含まれる第３単位区間の第３単位区間頻度ベクトルの分散を算出する分散算出手段とを備え、前記特定区間は、前記第２単位区間であり、前記興味区間候補抽出手段は、前記興味区間候補を前記第２単位区間頻度ベクトルに基づいて算出し、前記微細構造判定手段は、前記分散が基準値を超えるか否かに基づいて微細構造が含まれるか否かを判定することとしてもよい。

　これにより、興味区間特定装置は、第２単位区間に含まれる第３単位区間の頻度ベクトルを用いて算出された分散を用いることで、微細構造があるか否かを判定することができるので、微細構造がある場合に、微細構造がある特定区間を解析して、より精密に興味区間を特定することができる。

　（ｄ）また、上記（ｃ）に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記指定時刻を含む複数の連続する第２単位区間からなる基準区間について、当該基準区間の複数の第２単位区間頻度ベクトルに基づいて基準ベクトルを算出し、前記基準値を前記基準区間に含まれる各第２単位区間それぞれの分散のうち最も大きい値とする基準指標計算部を備え、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第２単位区間の第２単位区間頻度ベクトルが前記基準ベクトルに一定以上似ているか否かを判定し、似ていると判定した場合に当該第２単位区間を前記仮興味区間候補に含めることを繰り返し、似ていないと判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。

　これにより、興味区間特定装置は、基準区間の基準ベクトルを用いることで、指定時刻を含む第２単位区間ではなく、当該第２単位区間にある程度以上似ている音の特徴を有する第２単位区間を興味区間候補として抽出することができる。指定時刻に対応する第２単位区間の頻度ベクトルではなく、基準ベクトルを用いることで、興味区間候補の抽出に幅を持たせることができる。

　（ｅ）また、上記（ｄ）に示す興味区間特定装置において、前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第２単位区間頻度ベクトルのうち前記基準ベクトルからユークリッド距離が最も遠い第２単位区間頻度ベクトルから前記基準ベクトルまでの閾値ユークリッド距離を算出し、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第２単位区間の第２単位区間頻度ベクトルの前記基準ベクトルからのユークリッド距離が前記閾値ユークリッド距離を超えるか否かを判定し、前記閾値ユークリッド距離を超えないと判定した場合に当該第２単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。

　（ｆ）また、上記（ｅ）に示す興味区間特定装置において、前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第２単位区間頻度ベクトルのうち前記基準ベクトルからＫＬ距離（Kullback-Leibler divergence）が最も遠い第２単位区間頻度ベクトルから前記基準ベクトルまでの閾値ＫＬ距離を算出し、前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第２単位区間の第２単位区間頻度ベクトルの前記基準ベクトルからのＫＬ距離が前記閾値ＫＬ距離を超えるか否かを判定し、前記閾値ＫＬ距離を超えないと判定した場合に当該第２単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ＫＬ距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定することとしてもよい。

　これにより、興味区間抽出装置は、基準区間に基づいて算出された各指標に従って、興味区間の候補となる興味区間候補を抽出することができる。ＫＬ距離を用いる構成の場合、確率論、情報理論において、２つの確率分布の差異を示す尺度として広範に使用されるＫＬ距離を用いることで、興味区間候補抽出の信頼性を高めることができる。

　（ｇ）また、上記（ｆ）に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の先頭の第２単位区間又は最後の第２単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の先頭の第２単位区間に微細構造があると判定された場合に、前記先頭の第２単位区間を解析して興味区間の始点を特定し、前記興味区間候補の最後の第２単位区間に微細構造があると判定された場合に、前記最後の第２単位区間を解析して興味区間の終点を特定することとしてもよい。

　これにより、興味区間特定装置は、特定の第２単位区間について微細構造の有無を判定することにより、微細構造の有無を判定する範囲を小さくして、候補区間全域で微細構造の有無を判定する場合よりも演算量を低減することができる。

　（ｈ）また、上記（ｆ）に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の先頭の第２単位区間に微細構造がないと判定された場合に、前記興味区間候補の１つ前の第２単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の１つ前の第２単位区間に微細構造があると判定された場合に、前記興味区間候補の１つ前の第２単位区間を解析して興味区間の始点を特定し、前記興味区間候補の１つ前の第２単位区間に微細構造がないと判定された場合に、当該興味区間候補の始点を前記興味区間の始点とすることとしてもよい。

　これにより、興味区間抽出装置は、興味区間候補には入っていないものの、実際には興味区間に含めるべき範囲を特定して、より正確に興味区間の始点を決定することができる。

　（ｉ）また、上記（ｆ）に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の最後の第２単位区間に微細構造がないと判定された場合に、前記興味区間候補の１つ後の第２単位区間に微細構造があるか否かを判定し、前記興味区間抽出手段は、前記興味区間候補の１つ後の第２単位区間に微細構造があると判定された場合に、前記興味区間候補の１つ後の第２単位区間を解析して興味区間の終点を特定し、前記興味区間候補の１つ後の第２単位区間に微細構造がないと判定された場合に、当該興味区間候補の終点を前記興味区間の終点とすることとしてもよい。

　これにより、興味区間抽出装置は、興味区間候補には入っていないものの、実際には興味区間に含めるべき範囲を特定して、より正確に興味区間の終点を決定することができる。

　（ｊ）また、上記（ｄ）に示す興味区間特定装置において、微細構造があると判定された第２単位区間が前記興味区間候補に含まれる場合には前記興味区間候補から当該第２単位区間を除いた区間を第２仮興味区間候補とし、微細構造があると判定された第２単位区間が前記興味区間候補に含まれない場合には前記興味区間候補を第２仮興味区間候補とし、前記興味区間抽出手段は、微細構造があると判定された第２単位区間について、前記基準区間側の第３単位区間から、その第３単位区間頻度ベクトルが前記基準ベクトルから前記閾値ユークリッド距離を超えるか否かを判定して、前記閾値ユークリッド距離を超えないと判定された場合に、当該第３単位区間を前記第２仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での第２仮興味区間候補の始点又は終点を前記興味区間候補の始点又は終点として決定することとしてもよい。

　これにより、興味区間抽出装置は、第２単位区間よりも細かい第３単位区間を基準に興味区間の始点と終点を決定することで、より正確に興味区間を抽出することができる。

　（ｋ）また、上記（ｄ）に示す興味区間特定装置において、前記興味区間抽出装置は、更に、前記微細構造を判定する対象が人の声であるか否かを判別する判別手段を備え、前記興味区間抽出手段は、前記判別手段が人の声であると判別した場合に、前記微細構造があると判定された第２単位区間を前記第１単位区間の単位で再帰的に解析することとしてもよい。

　これにより、興味区間特定装置は、微細構造があると判定された第２単位区間について、そのオーディオ信号に音声が含まれるか否かの判定を行い、肯定的な判定をした場合に、第３単位区間よりも細かい第１単位区間での解析を行って、より正確な興味区間の抽出を行える。

　（ｌ）また、上記（ｂ）に示す興味区間特定装置において、前記微細構造判定手段は、前記興味区間候補の全ての第２単位区間について前記微細構造が含まれるか否かを判定することとしてもよい。

　これにより、興味区間特定装置は、候補区間全域に渡って、微細構造の有無を判定することができる。したがって、より細やかな解析を行うことができる。例えば、候補区間の中途に微細構造があった場合には、その部分には、動画ファイルにおいて盛り上がりを見せるシーン、所謂ハイライトがあると推定したりすることができる。

　（ｍ）また、上記（ｂ）に示す興味区間特定装置において、前記指定時刻取得手段は、複数の指定時刻を取得し、前記興味区間抽出手段は、前記複数の指定時刻それぞれに対応する興味区間を抽出し、前記興味区間抽出装置は、更に、前記複数の指定時刻それぞれに対応する興味区間を前記複数の指定時刻で示される時刻の順で外部記憶装置に記録する記録手段を備えることとしてもよい。

　これにより、興味区間特定装置は、複数の指定時刻の指定を受けた上での興味区間の抽出を行うことができる。当該構成は、ユーザが興味を示すシーンが複数ある場合などに、特に有用となる。また、興味区間抽出装置は、抽出した複数の興味区間に対応する動画ファイルのデータを時系列順に記録媒体に記録することができるので、この記録された興味区間分の動画ファイルをユーザが視聴する際に、違和感なく視聴することができる。

　（ｎ）また、上記（ｍ）に示す興味区間特定装置において、前記記録手段は、前記複数の指定時刻それぞれに興味区間を前記複数の指定時刻で示される時刻の順に統合した統合データを前記外部記憶装置に記録することとしてもよい。

　これにより、興味区間特定装置は、複数の興味区間に対応する部分の動画ファイルを１つのファイル（統合データ）にして記録することができ、外部記憶装置に記録された興味区間に対応するデータを視聴する際の利便性を向上させることができる。

　（ｏ）また、上記（ｂ）に示す興味区間特定装置において、前記興味区間抽出装置は、更に、ユーザから前記動画ファイルにおける再生時間上の特定期間を指定する特定期間指定手段を備え、前記指定時刻取得手段は、前記特定期間における画像データそれぞれの特徴量の時間変化に基づいて、当該特定期間内から前記指定時刻を取得することとしてもよい。

　これにより、興味区間特定装置は、ユーザから指定時刻の指定を受け付けることなく、自身で指定時刻を取得することができるので、興味区間抽出の自動化を実現することができる。

　（ｐ）また、上記（ａ）に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間に係る興味区間情報を前記動画ファイルに付与する興味区間情報付与手段を備えることとしてもよい。

　これにより、興味区間特定装置は、動画ファイルに対して興味区間の情報を付与することができるので、例えば、当該情報に基づいて、動画ファイルのダイジェストの作成や、動画ファイル作成時のチャプタとして利用することができる。

　（ｑ）また、上記（ａ）に示す興味区間特定装置において、前記興味区間情報付与手段は、前記興味区間情報として興味区間の始点となる位置に始点フラグおよび／または興味区間の終点となる位置に終点フラグを前記動画ファイルに付与することとてもよい。

　これにより、興味区間特定装置は、動画ファイルに対して、始点フラグまたは終点フラグを付与するので、始点フラグや、終点フラグが付与された動画ファイルの再生時の頭出し等に利用できる。

　（ｒ）また、上記（ａ）に示す興味区間特定装置において、前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画ファイルから抽出する興味区間抽出手段を備えることとしてもよい。

　これにより、興味区間特定装置は、興味区間を動画ファイルから抽出できるので、動画ファイルのダイジェストの作成等に利用できる。

　（ｓ）また、上記（ａ）に示す興味区間特定装置において、前記興味区間特定装置は、更に、予め興味区間候補が指定されている動画ファイルを取得する取得手段を備え、前記微細構造判定手段は、予め指定されている興味区間候補について、その始端部分、または、終端部分の第１区間に微細構造があるか否かを判定し、前記興味区間特定手段は、前記取得手段が取得した予め興味区間候補が指定されている動画ファイルにおける興味区間を特定することとしてもよい。

　これにより、興味区間特定装置は、興味区間が設定されている動画において、その興味区間の設定が適切でない場合などに、修正ができる。

　本発明に係る興味区間抽出装置は、音声、家屋内の音、外出時の音などを含むＡＶコンテンツのオーディオ信号からユーザの興味の対象となる興味区間を抽出する装置として、ＡＶコンテンツの編集技術として活用することができる。

１００　映像編集装置
１０２　音抽出装置
１０３　コンテンツ記憶装置
１０４　興味区間抽出装置
１０５　興味区間記憶装置
１０６　興味区間抽出部
１０８　アンカーモデル作成装置
１０９　インターフェース装置
１３０　音データ記憶装置
２０１、３０１　特徴量ベクトル生成部
２０２　尤度ベクトル生成部
２０３　アンカーモデル蓄積部
２０４　尤度ベクトルバッファ
２０５　頻度ベクトル・分散生成部（頻度ベクトル算出手段、分散算出手段）
２０６　頻度ベクトルバッファ
２０７　興味区間候補抽出部
２０８　区間伸張基準指標計算部
２０９　指定時刻取得部
２１０　微細構造判定部
２１１　階層拡張部（興味区間抽出手段）
３０２　特徴量ベクトル分類部
３０３　アンカーモデル生成部

Claims

　動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置であって、
　前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、
　前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、
　前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段と
　を備えることを特徴とする興味区間特定装置。
　前記興味区間特定装置は、更に、
　基準となる複数種類のサウンド素片それぞれの特徴を表現するアンカーモデルを蓄積しているアンカーモデル蓄積手段と、
　ユーザから指定時刻を取得する指定時刻取得手段と、
　オーディオ信号の第１単位区間毎に、当該第１単位区間におけるオーディオ信号の特徴量を示す特徴量ベクトルの、前記アンカーモデル各々に対する尤度を求め、各尤度を成分とする尤度ベクトルを生成する尤度ベクトル生成手段とを備え、
　前記興味区間候補抽出手段は、前記尤度ベクトルに基づいて、前記指定時刻を含み、前記第１単位区間よりも長い、前記興味区間の候補となる興味区間候補を算出し、
　前記微細構造判定手段は、前記興味区間候補を含む区間における前記第１単位区間よりも長く前記興味区間候補よりも短い特定区間について微細構造が含まれるか否かを判定する
　をことを特徴とする請求項１記載の興味区間特定装置。
　前記興味区間特定装置は、更に、
　前記第１単位区間のＮ倍の長さの第２単位区間のオーディオ信号から生成されるＮ個の尤度ベクトルから第２単位区間頻度ベクトルを算出し、前記第１単位区間のＭ倍（１＜Ｍ＜Ｎ、ＮはＭの倍数）の長さの第３単位区間のオーディオ信号から生成されるＭ個の尤度ベクトルから第３単位区間頻度ベクトルを算出する頻度ベクトル算出手段と、
　前記第２単位区間に含まれる第３単位区間の第３単位区間頻度ベクトルの分散を算出する分散算出手段とを備え、
　前記特定区間は、前記第２単位区間であり、
　前記興味区間候補抽出手段は、前記興味区間候補を前記第２単位区間頻度ベクトルに基づいて算出し、
　前記微細構造判定手段は、前記分散が基準値を超えるか否かに基づいて微細構造が含まれるか否かを判定する
　ことを特徴とする請求項２記載の興味区間特定装置。
　前記興味区間特定装置は、更に、前記指定時刻を含む複数の連続する第２単位区間からなる基準区間について、当該基準区間の複数の第２単位区間頻度ベクトルに基づいて基準ベクトルを算出し、前記基準値を前記基準区間に含まれる各第２単位区間それぞれの分散のうち最も大きい値とする基準指標計算部を備え、
　前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第２単位区間の第２単位区間頻度ベクトルが前記基準ベクトルに一定以上似ているか否かを判定し、一定以上似ていると判定した場合に当該第２単位区間を前記仮興味区間候補に含めることを繰り返し、一定以上似ていないと判定された時点での仮興味区間候補を前記興味区間候補として決定する
　ことを特徴とする請求項３記載の興味区間特定装置。
　前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第２単位区間頻度ベクトルのうち前記基準ベクトルからユークリッド距離が最も遠い第２単位区間頻度ベクトルから前記基準ベクトルまでの閾値ユークリッド距離を算出し、
　前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第２単位区間の第２単位区間頻度ベクトルの前記基準ベクトルからのユークリッド距離が前記閾値ユークリッド距離を超えるか否かを判定し、前記閾値ユークリッド距離を超えないと判定した場合に当該第２単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定する
　ことを特徴とする請求項４記載の興味区間特定装置。
　前記微細構造判定手段は、前記興味区間候補の先頭の第２単位区間又は最後の第２単位区間に微細構造があるか否かを判定し、
　前記興味区間特定手段は、前記興味区間候補の先頭の第２単位区間に微細構造があると判定された場合に、前記先頭の第２単位区間を解析して興味区間の始点を特定し、前記興味区間候補の最後の第２単位区間に微細構造があると判定された場合に、前記最後の第２単位区間を解析して興味区間の終点を特定する
　ことを特徴とする請求項５記載の興味区間特定装置。
　前記微細構造判定手段は、前記興味区間候補の先頭の第２単位区間に微細構造がないと判定された場合に、前記興味区間候補の１つ前の第２単位区間に微細構造があるか否かを判定し、
　前記興味区間特定手段は、前記興味区間候補の１つ前の第２単位区間に微細構造があると判定された場合に、前記興味区間候補の１つ前の第２単位区間を解析して興味区間の始点を特定し、前記興味区間候補の１つ前の第２単位区間に微細構造がないと判定された場合に、当該興味区間候補の始点を前記興味区間の始点とする
　ことを特徴とする請求項６記載の興味区間特定装置。
　前記微細構造判定手段は、前記興味区間候補の最後の第２単位区間に微細構造がないと判定された場合に、前記興味区間候補の１つ後の第２単位区間に微細構造があるか否かを判定し、
　前記興味区間特定手段は、前記興味区間候補の１つ後の第２単位区間に微細構造があると判定された場合に、前記興味区間候補の１つ後の第２単位区間を解析して興味区間の終点を特定し、前記興味区間候補の１つ後の第２単位区間に微細構造がないと判定された場合に、当該興味区間候補の終点を前記興味区間の終点とする
　ことを特徴とする請求項６記載の興味区間特定装置。
　微細構造があると判定された第２単位区間が前記興味区間候補に含まれる場合には前記興味区間候補から当該第２単位区間を除いた区間を第２仮興味区間候補とし、微細構造があると判定された第２単位区間が前記興味区間候補に含まれない場合には前記興味区間候補を第２仮興味区間候補とし、
　前記興味区間特定手段は、微細構造があると判定された第２単位区間について、前記基準区間側の第３単位区間から、その第３単位区間頻度ベクトルが前記基準ベクトルから前記閾値ユークリッド距離を超えるか否かを判定して、前記閾値ユークリッド距離を超えないと判定された場合に、当該第３単位区間を前記第２仮興味区間候補に含めることを繰り返し、前記閾値ユークリッド距離を超えると判定された時点での第２仮興味区間候補の始点又は終点を前記興味区間候補の始点又は終点として決定する
　ことを特徴とする請求項６に記載の興味区間特定装置。
　前記基準指標計算部は、更に、前記基準区間内に含まれる複数の第２単位区間頻度ベクトルのうち前記基準ベクトルからＫＬ距離（Kullback-Leibler divergence）が最も遠い第２単位区間頻度ベクトルから前記基準ベクトルまでの閾値ＫＬ距離を算出し、
　前記興味区間候補抽出手段は、前記基準区間を最初の仮興味区間候補として、前記仮興味区間候補に隣接する第２単位区間の第２単位区間頻度ベクトルの前記基準ベクトルからのＫＬ距離が前記閾値ＫＬ距離を超えるか否かを判定し、前記閾値ＫＬ距離を超えないと判定した場合に当該第２単位区間を前記仮興味区間候補に含めることを繰り返し、前記閾値ＫＬ距離を超えると判定された時点での仮興味区間候補を前記興味区間候補として決定する
　ことを特徴とする請求項４記載の興味区間特定装置。
　前記興味区間特定装置は、更に、
　前記微細構造を判定する対象が人の声であるか否かを判別する判別手段を備え、
　前記興味区間特定手段は、前記判別手段が人の声であると判別した場合に、前記微細構造があると判定された第２単位区間を前記第１単位区間の単位で再帰的に解析する
　ことを特徴とする請求項４記載の興味区間特定装置。
　前記微細構造判定手段は、前記興味区間候補の全ての第２単位区間について前記微細構造が含まれるか否かを判定する
　ことを特徴とする請求項４記載の興味区間特定装置。
　前記指定時刻取得手段は、複数の指定時刻を取得し、
　前記興味区間特定手段は、前記複数の指定時刻それぞれに対応する興味区間を抽出し、
　前記興味区間特定装置は、更に、
　前記複数の指定時刻それぞれに対応する興味区間を前記複数の指定時刻で示される時刻の順で外部記憶装置に記録する記録手段を備える
　ことを特徴とする請求項２記載の興味区間特定装置。
　前記記録手段は、前記複数の指定時刻それぞれに興味区間を前記複数の指定時刻で示される時刻の順に統合した統合データを前記外部記憶装置に記録する
　ことを特徴とする請求項１３記載の興味区間特定装置。
　前記興味区間特定装置は、更に、
　ユーザから前記動画ファイルにおける再生時間上の特定期間を指定する特定期間指定手段を備え、
　前記指定時刻取得手段は、前記特定期間における画像データそれぞれの特徴量の時間変化に基づいて、当該特定期間内から前記指定時刻を取得する
　ことを特徴とする請求項２記載の興味区間特定装置。
　前記興味区間特定装置は、更に、
　前記興味区間特定手段が特定した興味区間に係る興味区間情報を前記動画ファイルに付与する興味区間情報付与手段を備える
　ことを特徴とする請求項１記載の興味区間特定装置。
　前記興味区間情報付与手段は、前記興味区間情報として興味区間の始点となる位置に始点フラグおよび／または興味区間の終点となる位置に終点フラグを前記動画ファイルに付与する
　ことを特徴とする請求項１６記載の興味区間特定装置。
　前記興味区間特定装置は、更に、前記興味区間特定手段が特定した興味区間を前記動画ファイルから抽出する興味区間抽出手段を備える
　ことを特徴とする請求項１記載の興味区間特定装置。
　前記興味区間特定装置は、更に、予め興味区間候補が指定されている動画ファイルを取得する取得手段を備え、
　前記微細構造判定手段は、予め指定されている興味区間候補について、その始端部分、または、終端部分の第１区間に微細構造があるか否かを判定し、
　前記興味区間特定手段は、前記取得手段が取得した予め興味区間候補が指定されている動画ファイルにおける興味区間を特定する
　ことを特徴とする請求項１記載の興味区間特定装置。
　動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定装置による興味区間特定方法であって、
　前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、
　前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定ステップと、
　前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップと
　を含むことを特徴とする興味区間特定方法。
　動画ファイルに含まれるオーディオ信号に基づいて、前記動画ファイル中でユーザが興味を示すと推測されるユーザの興味区間を特定する興味区間特定処理をコンピュータに実行させる興味区間特定プログラムであって、
　前記興味区間特定処理は、
　前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出ステップと、
　前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定ステップと、
　前記微細構造判定ステップにより、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定ステップと
　を含むことを特徴とする興味区間特定プログラム。
　動画ファイルに含まれるオーディオ信号に基づいて、指定時刻を含むユーザの興味区間を特定する興味区間特定集積回路であって、
　前記動画ファイル中で、前記興味区間の候補となる興味区間候補を抽出する興味区間候補抽出手段と、
　前記興味区間候補に特定の微細構造が含まれるか否かを判定する微細構造判定手段と、
　前記微細構造判定手段により、前記微細構造が含まれると判定された場合に前記微細構造を含み前記興味区間候補よりも短い特定区間を解析して、興味区間を特定する興味区間特定手段と
　を備えることを特徴とする興味区間特定集積回路。