WO2010140195A1

WO2010140195A1 - 映像編集装置

Info

Publication number: WO2010140195A1
Application number: PCT/JP2009/002558
Authority: WO
Inventors: 井本和範; 広畑誠; 青木恒
Original assignee: 株式会社東芝
Priority date: 2009-06-05
Filing date: 2009-06-05
Publication date: 2010-12-09
Also published as: US8713030B2; US20120117087A1; JPWO2010140195A1; JP5337241B2

Abstract

映像編集装置１００は、共起スコアに基づいて登録すると判断した音響信号の特徴ベクトルからなるキー候補を検索キーとして管理部５１に登録する登録部９１と、この登録されたブロック毎の検索キーの類似度から、ブロック毎の統合スコアを求め、統合スコアの中で統合閾値を超えたブロック群を一つの映像シーンとして切り出す切出し部７１を有する。

Description

映像編集装置

　本発明は、映像編集に関する。

　特許文献１は、音響解析技術を活用した映像編集方法を提案している。この方法は、発話の沈黙や音の種類が切り替わった点などを編集点として自動検出し、編集点に含まれる映像区間を編集断片としてユーザに提示する。
特開２００４－２３７９８号公報

　しかし、特許文献１の方法では、事前に準備できない未知の音源が混入した場合、又は、同じ時刻に複数の音源が重畳している場合に、シーン（場面）の過剰分割や誤統合が起こるため、映像編集におけるユーザの手間を軽減できないという問題点があった。

　そこで本発明は、上記問題点を解決するためになされたものであり、部分的な映像を効率よく抽出できる映像編集装置を提供することにある。

　本発明は、映像データに含まれる音響信号を時間軸に沿って複数のブロックに分割する分割部と、前記ブロック毎の前記音響信号を分析して特徴ベクトルを抽出する抽出部と、少なくとも一つの前記特徴ベクトルを検索キーとして管理する管理部と、前記抽出部から抽出された前記特徴ベクトルと前記管理部で管理されている前記検索キーとを前記ブロック毎にそれぞれ照合して、前記検索キーと当該特徴ベクトルとの第１の類似度を算出する第１の算出部と、前記第１の類似度が小さい前記特徴ベクトルを前記抽出部から取得し、キー候補として生成するキー候補生成部と、前記抽出部で抽出した前記特徴ベクトルと前記キー候補とを前記ブロック毎にそれぞれ照合して、前記キー候補と当該特徴ベクトルとの第２の類似度を算出する第２の算出部と、前記第１の類似度及び前記第２の類似度をブロック毎に記憶する記憶部と、前記第１の類似度と、前記第２の類似度とから共起スコアを算出し、当該共起スコアに基づいて前記キー候補を前記検索キーとして登録するか否かを判断し、登録すると判断した前記キー候補を前記検索キーとして前記管理部に追加して登録する登録部と、前記管理部に管理された前記ブロック毎の前記検索キーの前記類似度から、前記ブロック毎の統合スコアを求め、当該統合スコアの中で統合閾値を超えたブロックに対応した映像を一つの区間として切り出す切出し部と、を有することを特徴とする映像編集装置である。

　本発明によれば、部分的な映像を効率よく抽出できる。

実施例に係わる映像編集装置の構成を示す図。実施例１に係る映像編集装置のブロック図。編集対象の音響信号の一例を表す図。（ａ）は抽出部の流れを示すフローチャート、（ｂ）～（ｆ）は抽出部の概要を示した図。（ａ）は算出部の流れを示すフローチャート、（ｂ）～（ｆ）は算出部の概要を示した図。（ａ）はキー候補生成部の流れを示すフローチャート、（ｂ）（ｃ）はキー候補生成部の処理結果の概要を示した図。（ａ）は登録部の流れを示すフローチャート、（ｂ）～（ｄ）は登録部の処理結果の概要を示した図。（ａ）は切出し部の流れを示すフローチャート、（ｂ）は統合スコアの説明図。実施例２に係る映像編集装置のブロック図。（ａ）はキー候補生成部の流れを示すフローチャート、（ｂ）（ｃ）はキー候補生成部の処理結果の概要を示した図。実施例３に係る映像編集装置のブロック図。

１１・・・音声取得部、２１・・・分割部、３１・・・抽出部
４１、４２・・・算出部、５１・・・管理部、６１・・・記憶部
７１・・・切出し部、８１・・・キー候補生成部、９１・・・登録部

　以下、本発明の一実施例の映像編集装置について図面を参照しながら説明する。

　図１は、映像編集装置１００のハードウェア構成を例示する図である。映像編集装置１００は、ＣＰＵ１０１と、各種データや各種プログラムを記憶するＲＯＭ（Read Only Memory）１０４やＲＡＭ（Random Access Memory）１０５等の主記憶部と、各種データや各種プログラムを記憶するＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部１０７と、これらを接続するバス１０８とを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、映像編集装置１００には、情報を表示する表示部１０３と、ユーザの指示入力を受け付けるキーボードやマウス等の操作部１０２と、外部装置との通信を制御する通信部１０６とが有線又は無線により各々接続される。

　次に、このようなハードウェア構成において、映像編集装置１００のＣＰＵ１０１が記憶部や外部記憶部１０７に記憶された各種プログラムを実行することにより実現される各種機能について説明する。

　本発明の実施例１の映像編集装置１００を図２～図８を参照して説明する。

　本実施例の映像編集装置１００は、複数のシーンを含む映像データから、より正確にシーンを分割して目的のシーンを効率よく抽出し、編集作業を軽減する。

　映像編集装置１００の構成について図２を参照して説明する。図２は、映像編集装置１００のブロック図である。

　図２に示すように、映像編集装置１００は、音声取得部１１、分割部２１、抽出部３１、第１の算出部４１、第２の算出部４２、管理部５１、記憶部６１、切出し部７１、キー候補生成部８１、登録部９１を有する。

　音声取得部１１は、編集対象の映像データから分析対象の音響信号を抽出して、分割部２１に音響信号を出力する。音響信号の入力方法は、特に制約はない。例えばマイクロフォン、アンプ及びＡＤコンバーターなどを備えた音声取得部１１からリアリタイムに取得できる構成にしてもよい。また、デジタル信号として記憶装置に格納された音響信号を読み込むことで取得できる構成にしてもよい。また、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他デジタル記録機器などからデジタル映像データが取得できるようにする場合には、分離抽出処理を行い音響信号のみを抽出して、分割部２１へと出力する。

　分割部２１は、音声取得部１１から入力された音響信号を、時間軸に沿って時間幅を有した区間に分割する。分割部２１で分割した音響信号の区間を以下ブロックと呼ぶ。分割部２１はこれらのブロックに含まれる音響信号を抽出部３１へ出力する。このブロックの分割の単位を、後述の検索キーの生成、類似度の算出、又は、シーン分割における基本単位と同じ時間幅で行えば、後段の処理が容易となる。なお、隣接するブロックと時間的に重複するようにブロックを設定してもよい。また、ブロックの時間幅を可変長にしてもよい。その場合には、重複する時間領域を除いた音響信号を抽出部３１に出力することで、効率よく処理できる。

　抽出部３１は、分割部２１から入力されたブロック単位の音響信号を分析して特徴ベクトルへ変換する。この特徴ベクトルは、異なるブロックに含まれる音響信号との比較と照合を行うためである。抽出部３１は、特徴ベクトルをブロック番号ｋと共に第１の算出部４１、第２の算出部４２、管理部５１、切出し部７１に出力する。

　第１の算出部４１は、抽出部３１から入力された特徴ベクトルと、管理部５１に登録されている検索キーに対応する特徴ベクトルとを照合して、特徴ベクトル同士の類似性を、予め決められた距離尺度に従って測定し、類似度として記憶部６１へ出力する。また、第２の算出部４２は、上記と同様に、抽出部３１から入力された特徴ベクトルと、キー候補生成部８１が生成したキー候補に対応する特徴ベクトルとを照合して類似度を算出して、記憶部６１へ出力する。

　管理部５１は、第１の算出部４１で照合を行うための検索キーが１つ以上登録されている。管理される検索キーは、抽出部３１から入力され、かつ、対応するブロックの特徴ベクトルである。しかし、対応する時間情報のみを保持しておくなど別の登録方法でもよい。また、管理部５１は、新しい検索キーとして登録されるキー候補の中で条件を満たしたものを追加することや、条件を満たさないものを削除するなど検索キーの追加登録と削除も行う。

　記憶部６１は、管理部５１に登録された１つ以上の検索キーと、分析対象となる音響信号のブロック単位での類似度を記憶する。また、同様に、キー候補生成部８１で生成されたキー候補と、ブロック単位での類似度が複数含まれる、時系列の類似度を記憶する。これらの時系列の類似度は、例えば、図７（ｃ）に示すように、検索キーを「行」、対応する時間列のブロックを「列」として管理することができる。記憶部６１は、その組み合わせ毎に類似度を行列の要素として、マトリックス状に格納して記憶する。キー候補も同様に記憶する。

　記憶部６１で記憶された時系列の類似度は、切出し部７１におけるシーン分割、及び、登録部９１における新しい検索キーの登録に利用される。

　切出し部７１は、記憶部６１に記憶された時系列の類似度を参照して、管理部５１に登録された検索キーに対応する類似度から、同じシーンとして判断できる映像区間を一つの区間として切り出す。

　キー候補生成部８１は、類似する区間が過剰分割されるのを防ぐために、同じシーンから複数の音響信号を検索キーとして追加するための候補区間を推定し、キー候補として管理部５１に追加する。

　登録部９１は、キー候補生成部８１によって新しく登録されたキー候補が、管理部５１において、既に登録されている検索キーと同じシーンから生成されたものであるか否かを判断することにより、シーンとしての連続性が保たれているかを判断する。シーンの連続性を判断するために、記憶部６１に記憶されている類似度のうち、登録済みの検索キーと、キー候補の類似度系列を比較する。

　このように本実施例の映像編集装置１００は、同じシーンであることを判断するための検索キーを、分析対象となる音響信号自身から追加しながら、記憶部６１の類似度の情報を更新して、複数の検索キーの類似度からまとまりのある一つのシーンを切り出す。

　図３に示す音響信号が入力された場合をモチーフにして、映像編集装置１００の各構成要素の動作を説明する。図３に示すように、分析対象となる音響信号には、３つの区間（シーン１、シーン２、シーン３）が含まれており、それぞれの区間に異なる音楽が共起している。また、シーン２にはシーンの途中から手拍子が混入しており、一つのシーンに複数の音源が同時に混在している。

　まず、抽出部３１の詳細な動作について図４を参照して説明する。図４（ａ）は抽出部３１の動作を示すフローチャートを示し、図４（ｂ）～（ｆ）は音声波形から特徴抽出を行うアルゴリズムの概略図を示す。

　ステップＳ３１０１にて、抽出部３１は、図４（ｂ）に示すように、分析対象の区間に含まれる音響信号を取得する。

　ステップＳ３１０２にて、抽出部３１は、図４（ｃ）に示すように、特徴抽出に適したフレーム単位に分割する。この分割する理由は、取得した音響信号には、特徴抽出に適したフレーム単位よりも長い信号系列が含まれていることもあるからである。フレーム単位としては、任意の時間長を設定する。ここではフレーム長を２５ｍ秒、フレームの移動幅を１０ｍ秒とする。

　ステップＳ３１０３にて、抽出部３１は、図４（ｄ）に示すように、フレーム単位で周波数スペクトルへ変換を行う。すなわち、スペクトル解析を行う。例えば、分析方法としては、高速フーリエ変換（ＦＦＴ）を採用し、フレーム長に含まれる音声波形から複数帯域のパワースペクトル系列である周波数スペクトルに変換する。図４（ｄ）にフレーム単位のスペクトル系列を概念図で示す。この図では、スペクトルパワー値の大小を、黒色、白色、及び、ハッチングの種類に置き換えて示している。なお、その他の図も同様に示している。

　ステップＳ３１０４にて、抽出部３１は、図４（ｅ）に示すように、周波数スペクトル系列を、複数の時間と周波数帯域にサブブロック化する。例えば、図４（ｅ）に示すように、隣接する数個の時間フレームを一つのサブブロックとして分類し、また周波数帯域においても同様の分割を行う。サブブロック化する理由は次の通りである。ブロックに含まれる各フレームのスペクトル系列をそのまま特徴ベクトルとすると、音響信号の周波数帯域によって雑音源の重畳度合いが異なることにより、特徴ベクトルに局所的な変動がそのまま反映されてしまうためである。

　ステップＳ３１０５にて、抽出部３１は、図４（ｆ）に示すように、分割したサブブロックを単位として、サブブロックに含まれる複数のベクトルから代表ベクトルを生成し、時系列の代表ベクトルを特徴ベクトルとして生成する。代表ベクトルの生成方法としては、例えば、ベクトルの平均値を採用する方法、又は、隣接する帯域との差分からピーク検出を行い、各帯域に含まれるピークの累積値をベクトル値とするなどの方法がある。

　次に、第１の算出部４１の詳細な動作について図５を参照して説明する。図５（ａ）は第１の算出部４１の動作を示すフローチャートを示し、図５（ｂ）～（ｆ）は類似度の算出を行うアルゴリズムの概略図を示す。

　ステップＳ４１０１にて、第１の算出部４１は、図５（ｂ）（ｄ）に示すように、管理部５１に登録された検索キーのうち、未処理のものを取り出す。図５（ｄ）に管理部５１に登録されている情報の一例を示す。管理部５１には、検索キーの通し番号であるＩＤ、抽出した音響信号の時刻情報、キー候補であるか登録済みの検索キーであるかを示すフラグ、抽出部３１で生成された特徴ベクトルが、検索キーの関連情報として登録されている。ここでは通し番号ＩＤが１番の検索キー（以下、「検索キー１」という）が取り出されたとして処理を説明する。

　ステップＳ４１０２にて、第１の算出部４１は、図５（ｂ）（ｃ）に示すように、分析対象の音響信号から未処理のブロックに含まれる特徴ベクトルを取得する。ここでは時刻ｔにおける特徴ベクトルが抽出されたとして処理を進める。

　ステップＳ４１０３にて、第１の算出部４１は、図５（ｅ）に示すように、検索キー１と時刻ｔの特徴ベクトルを照合する。特徴ベクトル同士の照合としては様々な方法がある。ここでは照合をサブブロック毎に別々に行い、各サブブロックに含まれる特徴ベクトルのユークリッド距離の逆数を、サブブロックにおける類似度Ｓとして計算する方法を採用する。ここで検索キーのサブブロックｉ番目（最大時間ブロック数がＩ）、周波数帯域ｊ番目（最大帯域数がＪ）におけるスペクトルパワー値をＫｅｙ_{（ｉ，ｊ）}、特徴ベクトルのサブブロックｉ番目、周波数帯域ｊ番目におけるスペクトルパワー値をＶｅｃ（ｔ）_{（ｉ，ｊ）}、特徴ベクトル間の正規化ファクタをα、類似度スコアの正規化ファクタをＫとすると、下記の式（１）のようになる。

　この式（１）によって、サブブロック単位の類似度Ｓ_ｉｊを算出する。

　ステップＳ４１０４にて、第１の算出部４１は、各サブブロックで算出した類似度Ｓ_ｉｊを統合し、検索キー１と時刻ｔのブロックの類似度を、下記の式（２）に基づいて算出する。

　但し、ａは検索キーのＩＤ番号である。

　式（２）は、各ブロックで最大となる周波数帯の類似度を選択し、複数のブロックで平均化する。

　ステップＳ４１０５にて、第１の算出部４１は、ステップＳ４１０２～Ｓ４１０４までの処理を終端ブロックに到着するまで行う。終端ブロックまで到達すれば、図５（ｆ）に示すように時系列の類似度曲線が求まる。この図で縦軸が類似度、横軸がブロック番号、すなわち、時間軸となっている。そして、ステップＳ４１０６に進む（Ｙの場合）。一方、到達しなければステップＳ４１０２に戻る（Ｎの場合）。

　ステップＳ４１０６にて、第１の算出部４１は、管理部５１に登録されている検索キーがなくなるまでステップＳ４１０１～Ｓ４１０５の処理を行う。すなわち、全ての検索キーを処理すると複数の検索キーに対する時系列の類似度を算出して（Ｙの場合）、終了する。一方、未処理の検索キーがあればステップＳ４１０１に戻る（Ｎの場合）。

　一方、第２の算出部４２は、管理部５１に登録されている検索キーについて時系列の類似度を求める第１の算出部４１と同様に処理することによって、管理部５１に登録されている候補キーに関して、時系列の類似度を算出することができる。

　次に、キー候補生成部８１の詳細な動作について図６を参照して説明する。図６（ａ）はキー候補生成の動作を示すフローチャートを示し、図６（ｂ）（ｃ）はキー候補生成部８１の処理結果の概要を示す。

　ステップＳ８１０１にて、キー候補生成部８１は、キー候補生成の位置を探索するための分析起点を取得する。これは、既に管理部５１に登録されている一つの検索キーの生成位置を分析起点とする。以下、この検索キーを「起点検索キー」という。なお、キー候補を生成する前に管理部５１に１つの検索キーが登録されており、その類似度が記憶部６１に記憶されているとする。

　ステップＳ８１０２にて、キー候補生成部８１は、分析起点から時間軸の未来方向（正の方向）に探索を開始し、起点検索キーに関する未処理ブロックの類似度を記憶部６１から取得する。なお、未処理ブロックとは、分析起点以降のブロックである。

　ステップＳ８１０３にて、キー候補生成部８１は、起点検索キーに関する境界スコアＲを算出する。境界スコアＲは、例えば、類似性を判断する類似度閾値Ｔとすると、類似度閾値Ｔを下回る場合に、差分値を累積する下記の式（３）で計算する。

　　Ｒ_ｋ＋１＝Ｒ_ｋ＋（Ｔ－Ｓ_ｋ）　　ｉｆ　Ｔ＞Ｓ_ｋ　　・・・（３）

　但し、ｋはブロック番号であり、Ｓ_ｋは、起点検索キーに関するブロック番号ｋの類似度である。

　ステップＳ８１０４にて、キー候補生成部８１は、累積した境界スコアＲ_ｋ＋１が境界スコア閾値ＲＴを越えるか否かを判断する。累積した境界スコアＲ_ｋ＋１が、境界スコア閾値ＲＴを超えた場合には、ステップＳ８１０５に進み（Ｙの場合）、超えない場合はステップＳ８１０６に進む（Ｎの場合）。すなわち、起点検索キーとの類似性を時系列の順番に求め、起点検索キーより類似度が小さい特徴ベクトルをキー候補とする。起点検索キーより類似度が小さい特徴ベクトルを非類似となる位置の特徴ベクトルと呼ぶ。そして、累積した境界スコアを用いる理由は、起点検索キーと一時的に非類似となる位置を排除するためであり、非類似の状態が一定時間継続する場合のみ選択するためである。

　ステップＳ８１０５にて、累積した境界スコアＲ_ｋ＋１が、図６（ｃ）に示すように、境界スコア閾値ＲＴを超えているので、キー候補生成部８１は、類似度閾値Ｔを最初に下回った位置において新しいキー候補を生成する。ここでキー候補を生成するとは、類似度閾値Ｔを最初に下回った位置におけるブロックに対応する特徴ベクトルを抽出部３１から取得し、この取得した特徴ベクトルをキー候補として設定することである。

　ステップＳ８１０６にて、キー候補生成部８１は、累積した境界スコアＲｋ＋１が境界スコア閾値ＲＴを越えた状態が続き、かつ、終端ブロックに到達していなければ上記ステップＳ８１０２～Ｓ８１０４の処理を繰り返し（Ｎの場合）、終端ブロックに到達していれば終了する（Ｙの場合）。

　なお、説明を簡単にするために、境界スコアＲは累積し続けるように記述したが、一定区間閾値を下回らない場合には、境界スコアＲをリセットするなど様々な変形方法が可能である。

　次に、登録部９１の詳細な動作について図７を参照して説明する。図７（ａ）は登録部９１の動作を示すフローチャートを示し、図７（ｂ）～（ｄ）は登録部９１の処理対象の具体例を示す。

　図７（ｂ）に示すように、管理部５１に既に２つの検索キー（検索キー１と検索キー２）が登録されており、３番目の新しいキー候補を検索キーとして登録するか否かを判断する場合ついて説明する。

　ステップＳ９１０１にて、登録部９１は、未処理の検索キーとしてＩＤ＝１の検索キーを指定する。

　ステップＳ９１０２にて、登録部９１は、ブロック１における、検索キー１の類似度３と、キー候補３の類似度０を、図７（ｃ）に示すように類似度記憶部６１から取得する。

　ステップＳ９１０３にて、登録部９１は、これらの類似度を用いて、共起スコアを算出する。「共起スコア」とは、検索キーとキー候補に関して、同一時刻（同一ブロック）に含まれる音響信号の類似性をスコア化したものである。共起スコアの算出方法には様々な方法がある。例えば次の方法がある。該当ブロックの音響信号と検索キーの類似性の有無を判断するための類似度閾値を３と設定する。そして、比較する２つのキーの両方が、類似度閾値を越える場合は共起スコアを１と設定し、超えない場合は０と設定する。このようにして表した共起スコアの算出例が図７（ｄ）である。図７（ｄ）に示すように、検索キー１は類似度閾値を越えるが、キー候補３は類似度閾値を越えないため、共起スコアは０となる。なお、共起スコアを隣接するブロックで累積すれば、連続共起するブロック数を表現できる。

　ステップＳ９１０４にて、登録部９１は、算出した共起スコアと、共起閾値を比較する。ここで例えば共起閾値を２と設定する。すると、ブロック１における、検索キー１とキー候補３の共起スコアは０のため、ステップＳ９１０６へ移項する（Ｎの場合）。なお、共起スコアが２以上のときは、ステップＳ９１０５へ移項する（Ｙの場合）。

　ステップＳ９１０５にて、登録部９１は、共起スコアが共起閾値を超えたキー候補を検索キーとして登録して終了する。

　ステップＳ９１０６にて、登録部９１は、終端ブロックまで処理している場合（Ｙの場合）、ステップＳ９１０７に進み、処理が終了していない場合（Ｎの場合）、ステップＳ９１０２～Ｓ９１０５の処理を繰り返す。検索キー１とキー候補３に関しては、同様の処理を繰り返しても、共起スコアが閾値を越えることはないため、ステップＳ９１０７に移項する。

　ステップＳ９１０７にて、登録部９１は、全ての検索キーについて処理が終了していない場合（Ｎの場合）、ステップＳ９１０１～Ｓ９１０６の処理を繰り返す。一方、終了している場合（Ｙの場合）、ステップＳ９１０８に進む。

　ステップＳ９１０８にて、登録部９１は、キー候補を削除する。

　すなわち、ステップＳ９１０７にて、登録部９１は、次の検索キー２を対象に、検索キー２とキー候補３の比較を行う。検索キー２とキー候補３についても、同様に共起スコアが共起閾値を超えることがないため、ステップＳ９１０８に移項して、キー候補３を管理部５１から削除する。

　なお、この具体例では、既に登録されているが検索キー１（シーン２の音楽のみの区間から生成）と検索キー２（シーン２の音楽と手拍子が重畳するシーンから生成）は、ブロック６、９及び１０において共起閾値＝２をそれぞれ越えるため、共起すると判断されている。

　次に、切出し部７１の詳細な動作について図８を参照して説明する。図８（ａ）は切出し部７１の動作を示すフローチャートを示し、図８（ｂ）は、統合スコアを説明する図である。

　なお、切出し部７１の動作は、図８（ｂ）に示すように、管理部５１において、３番目のキー候補が削除されて２つの検索キーが登録された例を説明する。

　ステップＳ７１０１にて、切出し部７１は、検索キー１が生成されたブロック４を分析起点とする。この検索キー１が、起点検索キーである。

　ステップＳ７１０２にて、切出し部７１は、検索キー１と検索キー２のブロック４における類似度を取得する。図８（ｂ）の例より、それぞれ「８」及び「１」が取得される。

　ステップＳ７０１３にて、切出し部７１は、複数の検索キーの類似度を統合した時系列の統合スコアを図８（ｂ）に示すように算出する。統合方法には様々なものがある。例えば、時系列の類似度の群の中で最大のものを統合スコアとする。この場合には「８」となる。

　ステップＳ７１０４にて、切出し部７１は、統合スコアが統合閾値を越えるか否かをブロック順に、すなわち、時系列の順番に判断する。ここで統合閾値を３と設定すると、ブロック４に対応する区間は、統合閾値＝３を越えるため（Ｙの場合）、ステップＳ７１０２～Ｓ７１０３の処理を繰り返す。この場合、ブロック１１に到達した段階で統合閾値を下回るため（Ｎの場合）、ステップＳ７１０５に進む。

　ステップＳ７１０５にて、切出し部７１は、統合閾値を上回ったブロック４からブロック１０までのブロックに対応する映像（ブロック群）を一つのまとまりのある区間であるシーンとして切り出す。すなわち、この区間が、ユーザが切り出したいシーンとなる。

　なお、ここでは説明の簡略化のため、１個の分析起点から未来方向に探索を行う端点探索の例のみを示したが、２個の分析起点を用いて、各分析起点から未来方向と過去方向に互いに接近するように探索を行う両端探索、又は、分析起点を設けず音響信号の最初から最後まで全て探索を行う全ブロック探索にしてもよい。

　本実施例によれば、シーンの切り出しを事前に辞書を準備することなく、キー候補生成部８１より分析対象から動的に検索キーを生成できる。その際に、境界スコアという基準により、異なる音源が途中から重畳しうる位置からもキー候補を生成し、それらに共通の音響信号が含まれているか否かを登録部９１によって判断できる。

　そのため、異なる音源が重畳しても過剰分割することなく映像をまとめ上げ、映像編集におけるシーンの切り出しが効率よく容易となる。

　次に、本発明の実施例２の映像編集装置１００について、図９～図１０を参照して説明する。

　図９は、本実施例に係る映像編集装置１００のブロック図である。

　図９に示すように、映像編集装置１００は、音声取得部１１、分割部２１、抽出部３２、第１の算出部４１、管理部５１、記憶部６１、切出し部７１、キー候補生成部８２、登録部９１、推定部１０１を有する。

　本実施例では、実施例１の構成に推定部９０１が追加された構成であり、音源推定の結果に基づいてキー候補の生成位置を決定する点が実施例１と異なる。

　実施例１における構成と同じ参照番号が付与されたものは同じ動作をするため、その説明は省略する。

　抽出部３２は、分割部２１から入力されたブロック単位の音響信号を分析して、別の時間のブロックに含まれる音響信号との比較と照合が可能な特徴ベクトルへ変換して、第１の算出部４１、管理部５１、切出し部７１、推定部１０１に出力する。

　推定部９０１は、抽出部３２から入力された特徴ベクトルを分析して、ブロックに含まれる音源を推定し、その結果をキー候補生成部８２へ出力する。音源推定方法としては様々なものがある。例えば、その方法としては、事前に規定したカテゴリ毎に混合正規分布などの統計的な辞書を準備しておき、辞書との照合により最もスコアの高い音源を、そのブロックにおける代表的な音源（以下、「推定音源」という）と推定する。

　キー候補生成部８２は、類似する区間が過剰分割されるのを防ぐために、同じシーンから生成される幅広い音響信号から検索キーに追加するための区間を推定し、キー候補として、管理部５１へ登録する。

　本実施例では、キー候補の推定に推定部９０１の結果を活用する。

　図３に示す具体的なモチーフを使って本実施例の詳細な動作について説明する。

　図３には、分析対象となる音響信号には３つの区間（シーン１、シーン２、シーン３）が含まれており、それぞれの区間に異なる音楽が共起している。また、シーン２にはシーンの途中から手拍子が混入しており、一つのシーンに複数の音源が同時に混在している。

　キー候補生成部８２の詳細な動作について図１０を参照して説明する。図１０（ａ）はキー候補生成の詳細な動作を示すフローチャートを示し、図１０（ｂ）（ｃ）は推定部９０１ら出力された推定結果及びキー候補生成部８１の処理結果の概要を示す。

　図１０（ｂ）に示すように、推定部９０１には音声、音楽、拍手、雑踏の４種類の音源の辞書が予め準備されており、特徴ベクトルと辞書の照合によって各ブロックの代表的な音源が割り当てられている。本実施例では、この音源推定結果を利用してキー候補を生成する。

　ステップＳ８２０１にて、キー候補生成部８２は、キー候補生成の位置を探索するための分析起点を取得する。例えば、図１０（ｃ）に示すように、既に管理部５１に登録されている検索キーの生成位置を、分析起点とする。

　ステップＳ８２０２にて、キー候補生成部８２は、分析起点から時間軸の未来方向（正の方向）に探索を開始し、未処理ブロックの推定音源を取得する。

　ステップＳ８２０３にて、キー候補生成部８２は、処理中のブロックの推定音源と隣接するブロックの推定音源と比較を行う。

　ステップＳ８２０４にて、キー候補生成部８２は、推定音源が変化するか否かを判断し、変化すればステップＳ８２０５に進む（Ｙの場合）。一方、推定音源が変化しない場合はステップＳ８２０６に進む（Ｎの場合）。

　ステップＳ８２０５にて、キー候補生成部８２は、図１０（ｃ）に示すように、音楽から拍手へと推定音源が切り替わった位置における特徴ベクトルを抽出部３２から取得して、新しいキー候補として生成する。

　ステップＳ８２０６にて、キー候補生成部８２は、終端ブロックに到達すれば終了し（Ｙの場合）、到達していなければ（Ｎの場合）、ステップＳ８２０２～Ｓ８２０４の処理を継続する。

　本実施例によれば、推定音源が変化した位置からキー候補を生成し、追加した複数の検索キーを使うことで、まとまった一つのシーン（類似区間）と判断する。

　従来は音源推定の結果がそのまま類似区間の境界となっていたため、過剰な分割となってしまうが、本実施例のように音源が変化したシーンから検索キーを生成し、隣接区間との類似度の共起スコアから、同じ背景音が流れる区間をまとめ上げることで、ユーザの意図したシーンの切り出しが可能であり、編集の手間を軽減できる。

　次に、本発明の実施例３の映像編集装置１００について、図１１を参照して説明する。

　図１１は、本発明の実施例３に係る映像編集装置１００の概略構成図である。

　図１１に示すように、映像編集装置１００は、音声取得部１１、分割部２１、抽出部３２、第１の算出部４１、管理部５１、記憶部６１、切出し部７１、キー候補生成部８２、登録部９１、推定部９０１、初期キー生成部９１１、指定点取得部９２１を有する。

　本実施例では、実施例２の構成に初期キー生成部９１１、指定点取得部９２１が追加された構成である。本実施例は、ユーザが指定した時刻を起点として、指定点を含む類似区間を探索する点が実施例２と異なる。

　実施例２における構成と同じ参照番号が付与されたものは、同じ動作をするために説明は省略する。

　指定点取得部９２１は、分析対象となる音響信号の中から、着目する区間に含まれる任意の点をユーザの操作により取得する。ユーザが行う操作としては、例えばマウスやリモコンといったデバイスを用いたものが考えられる。しかし、その他の方法を用いてもよい。例えば、スピーカーなどの機器を介して音声を再生し、ユーザに音声データを確認させながら指定点を指定させてもよい。また、音響データに同期する映像信号から切り出した映像サムネイルをユーザに提示し、選択された映像サムネイルに対応する時刻を指定点として入力してもよい。

　指定点取得部９２１は、検出された指定点を時刻など音響信号へアクセスが可能な情報として初期キー生成部９１１に出力する。

　初期キー生成部９１１は、指定点取得部９２１から指定点を受け取ると、指定点を含むブロックに対応する特徴ベクトルを抽出部３２から取得し、この特徴ベクトルを初期キーとして生成し、管理部５１に出力する。

　管理部５１は、この初期キーを検索キーとして登録する。

　また、指定点を切出し部７１やキー候補生成部８２の分析起点とし、分析起点を含む区間のみを切り出すことで、探索範囲を限定することも可能である。

　本実施例によれば、ユーザが指定した指定点から初期キーを生成し、初期キーを分析起点として複数の検索キーを生成して、一つのシーンを切り出すことができる。

　このため、ユーザが着目する区間だけをインタラクティブに探索することができ、編集の手間を削減できる。

　また、本実施例は、指定点の着目時刻を含むシーンのみを切り出すことで、指定点のみに対応するサムネイルのみで全体を大まかに把握したり、詳細を確認したい場合にだけ対応する音響／映像を再生したりするなどのアプリケーションへの適用も可能となる。

変更例

　なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。

　例えば、上記実施例２では、計算量を軽減するため類似度を算出するために用いる特徴ベクトルを音源推定と共通のものとしたが、これに代えて、音源推定の性能を高めるために別の特徴ベクトルを用いてもよい。

Claims

　映像データに含まれる音響信号を時間軸に沿って複数のブロックに分割する分割部と、
　前記ブロック毎の前記音響信号を分析して特徴ベクトルを抽出する抽出部と、
　少なくとも一つの前記特徴ベクトルを検索キーとして管理する管理部と、
　前記抽出部から抽出された前記特徴ベクトルと前記管理部で管理されている前記検索キーとを前記ブロック毎にそれぞれ照合して、前記検索キーと当該特徴ベクトルとの第１の類似度を算出する第１の算出部と、
　前記第１の類似度が小さい前記特徴ベクトルを前記抽出部から取得し、キー候補として生成するキー候補生成部と、
　前記抽出部で抽出した前記特徴ベクトルと前記キー候補とを前記ブロック毎にそれぞれ照合して、前記キー候補と当該特徴ベクトルとの第２の類似度を算出する第２の算出部と、
　前記第１の類似度及び前記第２の類似度をブロック毎に記憶する記憶部と、
　前記第１の類似度と、前記第２の類似度とから共起スコアを算出し、当該共起スコアに基づいて前記キー候補を前記検索キーとして登録するか否かを判断し、登録すると判断した前記キー候補を前記検索キーとして前記管理部に追加して登録する登録部と、
　前記管理部に管理された前記ブロック毎の前記検索キーの前記類似度から、前記ブロック毎の統合スコアを求め、当該統合スコアの中で統合閾値を超えたブロックに対応した映像を一つの区間として切り出す切出し部と、
　を有することを特徴とする映像編集装置。
　前記登録部は、前記共起スコアが共起閾値を越える場合に前記キー候補を前記検索キーとして登録する、
　ことを特徴とする請求項１に記載の映像編集装置。
　前記登録部は、前記第１の類似度と前記第２の類似度が、類似度閾値を共に越える前記ブロックの数を共起スコアとして算出する
　ことを特徴とする請求項２に記載の映像編集装置。
　前記各ブロックの前記音響信号と、予め規定した音源に対応する辞書との照合を行って、前記ブロック毎の前記音響信号に含まれる音源を推定する推定部をさらに有し、
　前記キー候補生成部は、隣接する前記ブロックの前記音源を比較し、隣接する前記ブロックとは異なる前記音源を含む前記ブロックの前記特徴ベクトルを前記抽出部から取得し、この特徴ベクトルから前記キー候補を生成する、
　ことを特徴とする請求項３に記載の映像編集装置。
　前記音響信号の任意の時刻の位置を、ユーザからの操作によって指定点として取得する指定点取得部と、
　前記指定点を含む前記ブロックに対応する前記特徴ベクトルを前記抽出部が抽出して、前記特徴ベクトルを初期キーとして生成する初期キー生成部と、
　をさらに有し、
　前記管理部は、前記初期キーを前記検索キーとして登録する、
　ことを特徴とする請求項４に記載の映像編集装置。