WO2004002144A1

WO2004002144A1 - メタデータ作成装置、その作成方法および検索装置

Info

Publication number: WO2004002144A1
Application number: PCT/JP2003/007908
Authority: WO
Inventors: Masaaki Kobayashi; Hiroyuki Sakai; Kenji Matsui; Hiroyasu Kuwano; Masafumi Shimotashiro; Mitsuru Yasukata; Mitsuru Endoh
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2002-06-24
Filing date: 2003-06-23
Publication date: 2003-12-31
Also published as: EP1536638A4; US20050228665A1; MXPA04012865A; WO2004002144B1; CN1663249A; EP1536638A1

Description

明細メタデータ作成装置、その作成方法および検索装置技術分野

本発明は、制作された映像、音声等のコンテンツに関連したメタデー夕を作成するためのメタデータ作成装置、及びメタデータ作成方法に関する。また、作成されたメタデータによりコンテンツを検索する検索装置に関する。背景技術

近年、制作された映像、音声コンテンツに対して、それらのコンテンッに関連したメタデ一タの付与が行われている。

しかしながら、従来のメタデータ付与の作業は、制作された映像、音声コンテンツのシナリオあるいはナレーション原稿をもとに、制作された映像、音声コンテンツを再生しながらメタデータとすべき情報を確認し、手作業でコンピュータ入力することにより作成する方法が一般的であった。従って、メタデータの作成には、相当な労力が必要であった。特開平 0 9— 1 3 0 7 3 6号公報には、カメラ撮影時に音声認識を用いタグ付けをするシステムが記載されている。しかしながら、このシステムは、撮影と同時に使用されるものであり、制作されたコンテンツに対してメタデータを付与するために適用できるものではなかった。発明の開示

本発明は、上記課題を解決するものであって、制作されたコンテンツに対して、音声入力により容易にメタデータを作成可能とするメ夕デー夕作成装置、及びメタデータ作成方法を提供することを目的とする。また、そのようにして作成されたメタデータを用いて、コンテンツの内容を容易に検索可能な検索装置を提供することを目的とする。

本発明のメタデータ作成装置は、コンテンツを再生して出力するコンテンッ再生部と、音声入力部と、前記音声入力部から入力された音声信号を認識する音声認識部と、前記音声認識部により認識された情報をメタデータに変換するメタデータ生成部と、前記コンテンツ内の各部位を識別するための識別情報を、前記コンテンツ再生部から供給される再生されたコンテンツから取得して前記メタデータに付与する識別情報付与部とを備え、生成された前記メタデ一夕を前記コンテンツ内の各部位と関連付けるように構成される。

本発明のメタデータ作成方法においては、コンテンツに関連した情報を音声入力し、入力された音声信号を音声認識装置により音声認識し、前記音声認識された情報をメタデータに変換し、前記コンテンツ内の各部位を識別するための前記コンテンツに付与された識別情報を前記メタデ一夕に付与して、生成された前記メタデータを前記コンテンツ内の各部位と関連付ける。

本発明のメタデータ検索装置は、コンテンツを再生して出力するコンテンッデ一夕ベースと、入力されるキーヮードの音声信号を再生された前記コンテンツの同期信号に同期したクロックでデータ化する音声入力部と、前記音声入力部でデータ化された音声信号データからキーワードを認識する音声認識部と、前記音声認識部から出力されたキーヮ一ドを前記コンテンツに含まれる画像信号の時間位置を示すタイムコードと結合させてメタデータファイルを作成するファイル処理部と、コンテンツファイルの記録位置と前記メタデータファイルの関係を管理する制御フアイルを発生するコンテンツ情報ファイル処理部と、前 K アイル、前記メタデータファイル、および前記制御ファイルを記録する記録部と、入力される検索用キーヮードが含まれた前記メタデータファィルを特定し、前記制御ファイルを参照して、前記コンテンツファイルの前記キーワードに対応する記録位置を抽出する検索部とを備える。前記コンテンツファイルの記録位置は、前記記録部における記録位置である。図面の簡単な説明

図 1は、本発明の実施の形態 1に係るメタデータ作成装置の構成を示すブロック図である。

図 2は、本発明の実施形態 1に係るタイムコード付与メタデータの一例を示す図である。 .

図 3は、本発明の実施形態 2に係るメタデータ作成装置の構成を示すブロック図である。

図 4は、同装置における静止画コンテンツ ·メタデータ表示部の一例を示す図である。

図 5は、本発明の実施形態 2に係るメタデータ作成装置の他の構成を示すブロック図である。

図 6は、本発明の実施の形態 3に係るメタデータ作成装置の構成を示すブロック図である。

図 7は、同実施の形態の装置における辞書 D Bの一例を示す構成図である。

図 8は、同実施の形態の装置に適用されるコンテンツのシナリオの一例であるレシピを示す図である。

図 9は、同実施の形態の装置により作成されるメタデータファイルの一例を示す TEXT形式のデ一夕図である。図 1 0は、本発明の実施の形態 4に係るメタデータ作成装置の構成を示すブロック図である。

図 1 1は、同実施の形態の装置により作成される情報ファイルの一例を示す構成図である。

図 1 2は、本発明の実施の形態 5に係るメタデータ検索装置の構成を示すブロック図である。

図 1 3は、本発明の実施形態 6に係るメタデータ作成装置の構成を示すブロック図である。発明を実施するための最良の形態

本発明のメタデータ作成装置によれば、コンテンツに関連したメタデ —夕の作成あるいはタグ付けを行う際に、音声認識を用いて音声入力によりメタデータあるいはタグを作成するとともに、メタデ一夕あるいはタグとコンテンツの時間あるいはシ一ン等との関連付けを行う。それにより、従来キーボードで入力して作成していたメタデータを、音声入力により自動的に作成することが可能となる。なお、メタデータとはタグの集合体を意味し、この本発明においてメタデータと称する場合は、夕グ自体を意味する場合も含む。また、コンテンツとは、制作された映像、音声コンテンツ、静止画コンテンツ、データベース化された映像、音声コンテンツ等、一般にコンテンツと称されるあらゆるものを含む意味で用いられる。

本発明のメタデータ作成装置は、好ましくは、コンテンツに関連した辞書を更に備え、前記音声入力部から入力された音声信号を前記音声認識部により認識する際に、前記辞書に関連付けて認識するように構成される。この構成によれば、制作されたコンテンツのシナリオ等から事前に抽出したキーワードを音声信号として入力し、また、シナリオに基づいて辞書分野の設定、及び、キーワードの優先順位つけを行うことにより、効率よく、正確に音声認識手段からメタデータを発生することができる。

さらに、前記音声信号を前記音声認識部により前記辞書に関連付けて単語単位で認識する構成としてもよい。また好ましくは、キーボードを含む情報処理部を更に備え、前記キ一ボードからの入力により前記情報処理部を介して前記メタデータを修正可能とする。前記識別情報として、前記コンテンツに付与されているタイムコード情報を用いることができる。あるいは、前記識別情報として、前記コンテンツに付与されているコンテンッの番地、番号あるいはフレームナンバを用いてもよい。また、前記コンテンツが静止画コンテンツであり、前記識別情報として、前記静止画コンテンツの各々の番地を用いることができる。

本発明の一適用例として、次のようなメタデータ作成装置を構成することができる。すなわち、前記コンテンツ再生部はコンテンツデータべースにより構成され、前記音声入力部は、入力されるキーワードの音声信号を、前記コンテンツデータベースから供給される同期信号に同期したクロックでデータ化して前記音声認識部に供給する。前記音声認識部は、前記音声入力部でデータ化された音声信号データからキーワードを認識するように構成される。前記メタデータ生成部は、前記識別情報として前記コンテンツに含まれる画像信号の時間位置を示すタイムコードを用い、前記音声認識部から出力されたキーヮードを前記タイムコードと結合してメタデータファイルを作成するファイル処理部として構成される。

この構成によれば、数秒単位の間隔であっても効率よくメタデータを付与できる。従って、従来のキー入力では困難であった、短い時間間隔でのメタデータ作成が可能となる。この構成において好ましくは、前記メタデータファイルとともに、前記コンテンツデータベースから供給されるコンテンツをコンテンツファィルとして記録する記録部を更に備える。また好ましくは、前記コンテンッファイルを記録すべき記録位置と前記メタデータファイルの関係を管理する制御ファイルを発生するコンテンツ情報ファイル処理部を更に備え、前記記録部に、前記コンテンツファイルおよび前記メタデータフアイルとともに、前記制御ファイルを記録するように構成する。また好ましくは、辞書データベースを更に備え、前記音声認識部は、複数のジャンル別辞書から、前記コンテンッに適合したジャンルの辞書を選択することが可能である構成とする。さらに好ましくは、コンテンツに関連したキーヮードを前記音声認識部に供給可能であり、前記音声認識部は、前記キーヮードを優先認識するように構成する。

本発明のメタデータ作成方法において好ましくは、前記コンテンツを再生しモニタに表示しながら、コンテンツに関連した情報を音声入力する。また好ましくは、前記コンテンツに関連した辞書を用い、前記入力された音声信号を前記音声認識装置により前記辞書に関連付けて認識する。また好ましくは、前記識別情報として、前記コンテンツに付与されているタイムコード情報を用いる。また、前記コンテンツとして静止画コンテンツを用い、前記識別情報として、前記静止画コンテンツの各々の番地を用いることができる。

本発明のメタデータ検索装置によれば、コンテンツの記録位置を示す制御ファイルとメタデータ、及び、タイムコ一ド等を示すメタデータフアイルを使用することによって、メタデ一夕に基づきコンテンツの所望の箇所を高速で検索することができる。

本発明のメタデータ検索装置において好ましくは、前

報ファイル処理部から出力される制御ファイルは、前録時間に合わせた前記記録部における前記コンテンツ記録位置を明記するテーブルとし、前記タイムコードから前記コンテンツの記録位置を検索できるようにする。

また好ましくは、辞書データベースと、コンテンツに関連したキーヮードを前記音声認識部に供給するキーワード供給部とを更に備え、前記音声認識部は、複数のジャンル別辞書から、前記コンテンツに適合したジャンルの辞書を選択することが可能であるとともに、前記キ一ヮ一ドを優先認識するように構成する。

また好ましくは、辞書データベースを更に備え、前記音声認識部は、複数のジャンル別辞書から、前記コンテンツに適合したジャンルの辞書を選択することが可能であるとともに、前記検索部は、前記音声認識部で用いた共通辞書から選定されたキーヮードにより検索を行うように構成される。

以下、本発明の実施の形態について、図面を参照して具体的に説明する。

(実施の形態 1 )

図 1は、本発明の実施の形態 1におけるメタデータ作成装置の構成を示すブロック図である。コンテンツ再生部 1は、メタデ一夕の作成に際して、制作されたコンテンツを確認するための要素である。コンテンツ再生部 1の出力は、映像モニタ 2、音声モニタ 3およびタイムコード付与部 7に供給される。メタデータ作成のための音声入力部として、マイク 4が設けられる。マイク 4から入力された音声は、音声認識部 5に入力される。音声認識部 5には、音声認識用の辞書 8が接続され、そのデ一夕を参照することが可能となっている。音声認識部 5の認識出力はメタデータ生成部 6に供給され、作成されたメタデータは、タイムコード付与部 7に供給され、タイムコード付与部 7から外部に出力可能である。コンテンツ再生部 1としては、例えば、 V T R、ハードディスク装置、光学ディスク装置等の映像 ·音声信号再生装置、半導体メモリなどのメモリ手段を記録媒体とする映像，音声信号再生装置、あるいは伝送、放送により供給された映像 ·音声信号を再生する映像 ·音声再生装置などが用いられる。

コンテンツ再生部 1の映像信号出力端子 1 aからは、再生された映像信号が映像モニタ 2に供給される。音声信号出力端子 1 bからは、再生された音声信号が音声モニタ 3に供給される。タイムコード出力端子 1 cからは、再生されたタイムコードがタイムコード付与部 7に供給される。なお、映像モニタ 2および音声モニタ 3は、メタデータ作成装置の要素として必須ではなく、必要に応じて接続して使用可能であればよい。メタデータを作成する際の作業者は、映像モニタ 2と音声モニタ 3のいずれかあるいは両方を確認しながら、場合によればシナリオまたはナレ一シヨン原稿なども参照しながら、入力すべきメタデータを発声しマイク 4により入力する。マイク 4から出力される音声信号は、音声認識部 5に供給される。また、必要に応じて、音声認識用の辞書 8のデータが音声認識部 5により参照される。音声認識部 5で認識された音声デー夕は、メタデータ生成部 6に供給され、メタデータに変換される。

このようにして生成されたメタデータは、コンテンッの各部分の時間あるいはシーンとの関係を対応付ける情報を付与するため、タイムコード付与部 7において、再生されたコンテンツから取得され、コンテンツ再生部 1から供給されるタイムコード情報が付与される。

以上の動作をより具体的に説明するため、コンテンツが料理説明の場合の一場面を例として想定する。この場合オペレータが、映像モニタ 2 の表示画面を確認しながら、マイク 4を通じて "塩 1さじ "と発声すると、音声認識部 5では、辞書 8を参照しながら、 "塩"、 " 1さじ " と認識され、メタデ一夕生成部 6にて各々 "塩"、 " 1さじ "という夕グに変換される。なお、音声認識部 5の構成は特に限定されるものではなく、一般的に用いられている種々の音声認識手段を用いて音声認識し、 "しお "、 "ひとさじ "のようなデータを認識すればよい。なお、一般には、メ夕デ一夕とは、このようなタグの集合体を意味するものである。音声認識の結果、図 2に示すように、音声認識部 5からメタデータ 9 a が出力され、タイムコード付与部 7に供給される。

タイムコード付与部 7では、コンテンツ再生部 1から供給されるタイムコード信号 9 bをもとに、タイムコードが付与されたタイムコード付与メ夕デ一夕 1 0からなるパケットデータが生成される。生成されたメ夕データは、そのまま出力されても良く、またハードディスク等の記録媒体に蓄積しても良い。

なお、この例ではパケット形式のメタデータを生成する場合を示したが、これに限定されるものではない。

(実施の形態 2 )

図 3は、本発明の実施の形態 2におけるメタデータ作成装置の構成を示すブロック図である。本実施の形態は、静止画コンテンツをメタデー夕作成の対象とする例である。静止画コンテンツを識別するために、動画の場合のタイムコードに相当するコンテンツの番地を用いて、生成されたメタデータと静止画コンテンツとを関連づける構成を有する。

図 3において、カメラ 1 1は静止画コンテンツ制作のための要素である。カメラ 1 1の出力は、静止画コンテンツ記録部 1 2により、番地情報が付与されて記録される。ここで記録された静止画コンテンツおよび番地情報は、メタデータ作成のために、静止画コンテンツ .メタデ一ダ記録部 1 3に供給される。番地情報はさらに、メタデータ番地付与部 1 9にも供給される。マイク 1 6は、静止画に関連する情報を音声入力するために用いられ、その出力は音声認識部 1 7に入力される。音声認識部 1 7には、音声認識用の辞書 2 0が接続され、そのデータを参照することが可能になっている。音声認識部 1 7の認識出力はメタデータ生成部 1 8に供給され、作成されたメタデータは、メタデータ番地付与部 1 9に供給される。静止画コンテンツ ·メタデータ記録部 1 3に記録された静止画コンテンッおよびメタデータは、静止画コンテンツ ·メタデータ再生部 1 4により再生して、静止画コンテンツ ·メタデータ表示部 1 5に表示される。以上の構成のメタデータ作成装置の動作について、さらに詳細に説明する。

カメラ 1 1で撮影された静止画コンテンツは、静止画コンテンツ記録部 1 2で、記録媒体（図示せず）に記録されるとともに番地情報が付与され、番地情報も記録媒体に記録される。記録媒体は、一般的には半導体メモリで構成されるが、半導体メモリに限定されず、たとえば、磁気メモリ、光記録媒体、光磁気記録媒体など、種々の記録媒体を用いることが可能である。記録された静止画コンテンツは出力端子 1 2 a、入力端子 1 3 aを介して、同様に、番地情報は出力端子 1 2 b、入力端子 1 3 bを介して、静止画コンテンツ 'メタデータ記録部 1 3に供給される。番地情報はさらに、出力端子 1 2 b、入力端子 1 9 bを介してメタデ一夕番地付与部 1 9に供給される。

一方、カメラ 1 1で撮影された静止画に関連する情報が、マイク 1 6 を介して音声認識部 1 7に入力される。静止画に関連する情報は、例えば、タイ卜ル、撮影の日時、撮影者、撮影場所（どこ）、被撮影者（だれ）、被撮影物（なに）などである。また、必要に応じて、音声認識部 1 7では音声認識用の辞書 2 0のデータも供給される。

音声認識部 1 7で認識された音声データは、メタデータ生成部 1 8に供給され、メタデータあるいはタグに変換される。なお、一般には、メ夕デ一夕とは、コンテンツに関連する情報である、タイトル、撮影の曰時、撮者、撮影場所（どこ）、被撮影者（だれ）、被撮影物（なに）等のタグの集合体を意味する。このようにして生成されたメタデータあるいはタグは、静止画コンテンツの内容あるいはシーンとの関係を対応付ける情報を付与するため、メタデータ番地付与部 1 9に供給される。メタデ一夕番地付与部 1 9において、静止画コンテンツ記録部 1 2から供給された番地情報が、メタデータに付与される。この様にして番地情報の付与された番地付与メタデータは、出力端子 1 9 c、入力端子 1 3 c を介して、静止画コンテンツ ·メタデータ記録部 1 3に供給される。静止画コンテンツ ·メ夕デ一夕記録部 1 3では、同一の番地の静止画コンテンッと同一の番地のメタデータとが関連付けて記録される。

番地付与メタデータについてより具体的に説明するため、静止画コンテンッ · メタデータ記録部 1 3により記録された静止画コンテンツおよびメタデータを、静止画コンテンツ · メタデ一夕再生部 1 4により再生し、静止画コンテンツ ·メタデータ表示部 1 5により表示した結果の一例を、図 4に示す。

図 4における、静止画コンテンツ ·メタデータ表示部 1 5の画面は、一例であるが、静止画コンテンツの表示部 2 1、番地の表示部 2 2およびメタデータの表示領域 2 3から構成される。メタデータの表示領域 2 3は、たとえば 1 )タイトルの記述部 2 3 a、 2 ) 日時の記述部 2 3 b、 3 ) 撮影者の記述部 2 3 c、 4 ) 撮影場所の記述部 2 3 dなどで構成される。これらのメタデータが、上述の音声認識部 1 7により認識された音声データから生成される。

上述の動作は、メタデータの生成を、静止画コンテンツの撮影の事前、撮影とほぼ同時期あるいは、撮影の直後など、必ずしも、撮影された静止画コンテンッの確認を必要としない場合に関するものである。

次に、静止画コンテンツの後付としてメタデータの生成を行う場合に、静止画コンテンツを再生し、モニタした静止画コンテンツに対して、メ夕データを生成する場合について、図 5を参照して説明する。なお、図 3と同様の要素については、同一の番号を付してその機能等の説明を省略する。この場合は、静止画コンテンツ記録部 1 2と静止画コンテンツ · メタデータ記録部 1 3の間に、静止画コンテンツ ·番地再生部 2 4が設けられる。更に、静止画コンテンツ ·番地再生部 2 4の出力が供給されるモニタ 2 5も設けられる。

カメラ 1 1で撮影され、静止画コンテンツ記録部 1 2に供給された静止画コンテンツは、記録媒体（図示せず）に記録されるとともに番地が付与され、番地も記録媒体に記録される。このような記録媒体が、静止画コンテンツ ·番地再生部 2 4に供給される。従って、このように、制作済の静止画コンテンツを再生し、モニタした静止画コンテンツに対して、メタデータを生成するために用いられるメタデ一夕作成装置では、カメラ 1 1および静止画コンテンツ記録部 1 2は必須の要素ではない。静止画コンテンツ ·番地再生部 2 4で再生された静止画コンテンツは、モニタ 2 5に供給される。同様に再生された番地情報は、出力端子 2 4 b、入力端子 1 9 bを介して、メタデータの番地付与部 1 9に供給される。メタデータ生成の担当者は、モニタ 2 5に映出された静止画コンテンッを確認のうえ、メタデータ生成に必要な言葉をマイク 1 6により音声入力する。それにより、カメラ 1 1で撮影された静止画に関連する情報が、マイク 1 6を介して音声認識部 1 7に入力される。静止画に関連する情報は、例えば、タイトル、撮影の日時、撮影者、撮影場所（どこ）、被撮影者（だれ）、被撮影物（なに）などである。これ以降の動作は、図 3の構成に関して説明したものと同様である。 (実施の形態 3 )

図 6は、本発明の実施の形態 3におけるメタデータ作成装置の構成を示すブロック図である。本実施の形態は、一般的なデジタルデータコンテンッをメタデ一夕作成の対象とする例である。デジ夕ルデータコンテンッを識別するために、コンテンツの番地あるいは番号を用いて、デジタルデータコンテンツと生成されたメタデ一夕を関連づける構成を有する。

図 6において、 3 1はコンテンツデータべ一ス（以下、コンテンツ D Bと記す）であり、コンテンツ D B 3 1から再生された出力は、音声入力部 3 2、ファイル処理部 3 5、および記録部 3 7に供給される。音声入力部 3 2の出力は、音声認識部 3 3に供給される。音声認識部 3 3には、辞書データベース（以下、辞書 D Bと記す） 3 4のデータも供給可能である。音声認識部 3 3からはメタデータが出力され、ファイル処理部 3 5に入力される。ファイル処理部 3 5では、コンテンツ D B 3 1から供給されるタイムコード値を用いて、音声認識部 3 3から出力されたメタデータに、所定のデータを付記した形式で f i l e化処理する。フアイル処理部 3 5から出力されたメタデータファイルは記録部 3 7に供給され、コンテンツ D B 3 1から出力されたコンテンツとともに記録される。音声入力部 3 2には音声入力端子 3 9が、辞書 D B 3 4には辞書分野選択入力端子 4 0が、それぞれ設けられている。コンテンツ D B 3 1からの再生出力および記録部 3 7の再生出力は、映像モニタ 4 1により表示可能である。

コンテンツ D B 3 1は、例えば、 V T R、ハードディスク装置、光学ディスク装置等の映像 ·音声信号再生装置、半導体メモリなどのメモリ手段を記録媒体とする映像 ·音声信号再生装置、あるいは伝送、放送により供給された映像 ·音声信号を 1次記録し再生する映像 ·音声信号再生装置などの、制作されたコンテンツを、コンテンツに合わせたタイムコードを発生しながら再生する機能を備えた構成を有する。

上記メタデータ作成装置の動作について、以下に説明する。コンテンッ D B 3 1から再生されたタイムコード付き映像信号は、映像モニタ 4 1に供給され、映出される。映像モニタ 4 1に映出されたコンテンツに合わせて、作業者がマイクロホーンを用いてナレーションの音声信号を入力すると、音声入力端子 3 9を介して音声信号が音声入力部 3 2に入力される。 .

この際作業者は、映像モニタ 4 1に映しだされたコンテッ、あるいは、タイムコードを確認し、シナリオ、ナレ一シヨン原稿、或いはコンテンッの内容などを基に抽出されたコンテンツ管理用キ一ワードを発声するようにすることが好ましい。このように入力される音声信号として、前もってシナリオ等から限定されたキーワードを使用することによって、後段の音声認識部 3 3での認識率を改善することができる。

音声入力部 3 2では、コンテンツ D B 1から出力されている垂直同期信号に同期したクロックで、音声入力端子 3 9から入力された音声信号をデータ化する。音声入力部 3 2でデータ化された音声信号データは、音声認識部 3 3に入力され、また、同時に、音声認識に必要な辞書が辞書 D B 3 4から供給される。辞書 D B 3 4における使用する音声認識用辞書は、辞書分野選択入力端子 4 0から設定することができる。

例えば図 7に示すように、辞書 D B 3 4が各分野別に構成されていたとすると、使用する分野を辞書分野選択入力端子 4 0 (例えば、キー入力できるキーボード端子）から設定する。例えば料理番組の場合であれば、料理一日本料理一料理法一野菜炒め、のように、端子 4 0から辞書 D B 3 4の分野を設定することができる。このように辞書 D B 3 4を設定することで、使用する単語、および、音声認識すべき単語を制限し、音声認識部 3 3の認識率を改善することができる。

また、図 6における辞書分野選択端子 4 0から、シナリオ、シナリオ原稿、あるいはコンテンツの内容から抽出されたキーワードを入力することができる。例えば、コンテンツが料理番組の場合であれば、図 8に示すようなレシピを端子 4 0から入力する。コンテンツの内容を考慮すれば、レシピに記入されている単語が音声信号として入力されてくる可能性が高いので、辞書 D B 3 4では端子 4 0から入力されたレシピ単語の認識優先度を明示し、優先して音声認識を行うようにする。例えば、「柿」と「貝のカキ j が辞書中にあった場合、端子 4 0から入力されたレシピ単語が「貝のカキ」のみの場合は、「貝のカキ」に優先順位 1がつけられる。音声認識部 3 3では、「かき」という音声を認識した場合、辞書 D B 3 4に設定された単語の優先順位 1が明記されている「貝のカキ」と認識する。

このように、辞書 D B 3 4では、端子 4 0から入力される分野で単語を限定し、更に、シナリオを端子 4 0から入力して単語の優先度を明示することで、音声認識部 3 3での認識率を改善させることができる。図 6における音声認識部 3 3では、辞書 D B 3 4から供給された辞書に従って、音声入力部 3 2から入力された音声信号データを認識し、メ夕データを生成する。音声認識部 3 3から出力されたメタデータは、フアイル処理部 3 5に入力される。前述したように音声入力部 3 2では、コンテンツ D B 1から再生された垂直同期信号に同期して、音声信号をデータ化している。従って、ファイル処理部 3 5は、音声入力部 3 2からの同期情報と、コンテンツ D B 3 1から供給されるタイムコード値とを用いて、例えば前述した料理番組の場合は、図 9に示すような T E X T形式のメタデータファイルを出力する。すなわち、ファイル処理部 3 5では、音声認識部 3 3から出力されたメタデータに、 f i l e開始からの 1秒ごとの基準時間である TM— ENT (秒）と、基準時間からのフレームォフセット数を示す TM— OFFSETと、タイムコードとを付記した形式で f i l e 化処理する。

記録部 3 7では、ファイル処理部 3 5から出力されたメタデータファィルとコンテンツ D B 3 1から出力されたコンテンツを記録する。記録部 3 7は、 H D D , メモリ、光ディスク等から構成され、コンテンツ D B 3 1から出力されたコンテンツもファイル形式で記録する。

(実施の形態 4 )

図 1 0は、本発明の実施の形態 4におけるメタデータ作成装置の構成を示すブロック図である。本実施の形態の装置では、実施の形態 3の構成に対して、コンテンツ情報ファイル処理部 3 6が付加されている。コンテンッ情報ファイル処理部 3 6では、記録部 3 7に記録されるコンテンッの記録位置関係を示す制御ファイルを発生し、記録部 3 7に記録する。

即ち、コンテンツ情報ファイル処理部 3 6は、コンテンツ D B 3 1から出力されたコンテンツと、記録部 3 7から出力されるコンテンツの記録位置情報をもとに、当該コンテンツが保有している時間軸情報と、記録部 3 7に記録したコンテンツのァドレス関係を示す情報を発生し、デ一夕化して制御ファイルとして出力する。

例えば、図 1 1に示すように、コンテンツの記録位置を示す記録メディァアドレスに対し、コンテンツの時間軸基準を示す TM— ENT #j を等時間軸間隔にポイントする。例えば、 TM— ENT #j を 1秒（NTSC信号の場合、 3 0フレ一ム）毎に記録メディアアドレスにポイントする。このようにマッピングすることで、コンテンツが 1秒単位毎に分散記録されても、 TM_ENT #j から記録部 3 7の記録アドレスを一義的に求めることができる。さらに、図 9に示したようにメタデータファイルには、ファイル開始からの 1秒ごとの基準時間である TM一 ENT (秒）と、基準時間からのフレームオフセット数を示す TM— OFFSETと、タイムコードと、メタデータとが T E X T形式で記録されている。従って、メタデータファイルの中でメ夕デ一夕 1を指定すれば、タイムコード、基準時間、及び、フレームオフセット値がわかるので、図 1 1に示す制御ファイルから、記録部 3 7での記録位置が即座にわかることになる。

なお、 TM— ENT #j の等時間軸間隔は、上述のように 1秒おきにポイントすることに限られず、 M P E G 2圧縮等で用いられている G O P単位等に合わせて記述することもできる。

さらに、テレビビジョン信号の N T S Cでは垂直同期信号が 60/1. 001Hzであるため、絶対時間にあわせるためにドロップフレームモ —ドに合わせたタイムコードと、垂直同期信号（60/1. 001 Hz) にあわせたノンドロップタイムコ一ドの 2種類を使用することもできる。この場合、例えば、ノンドロップタイムコードを TM— ENT #jで表し、 TC— ENT #j をドロップフレーム対応タイムコードで表して使用する。，

さらに、制御ファイルのデータ化は、 SMIL2 等の既存言語を用いてデ —夕化することも可能であり、さらに、 SMIL2 の機能を用いれば、関連したコンテンツ、及び、メタデータファイルのファイル名も合わせてデ一夕化して、制御ファイルに格納することができる。

さらに、図 1 1には、記録部の記録アドレスを直接表示する構成を示したが、記録アドレスの代わりに、コンテンツファイルの冒頭からタイムコードまでのデータ容量を表示し、デ一夕容量とファイルシステムの記録アドレスから記録部でのタイムコードの記録アドレスを計算し、検出してもよい。

また、上述のように、 TM— ENT tj とタイムコードの対応テーブルをメ夕データファイルに格納する形式ではなく、 TM— ENT #j とタイムコードの対応テ一ブルを制御ファイル中に格納しても同様の効果が得られる。

(実施の形態 5 )

図 1 2は、本発明の実施の形態 5におけるメ夕デ一夕検索装置の構成を示すブロック図である。本実施の形態の装置では、実施の形態 4の構成に対して、検索部 3 8が付加されている。検索部 3 8では、検索したいシーンのキーヮードを、音声認識してメタデータを検出するのに使用したものと同一の辞書 D B 3 4から選択し、設定する。

次に検索部 3 8は、メタデータファイルのメタデータ項目をサーチして、キーワードと一致するタイトル名とコンテンツシーンの位置（タイムコード）の一覧を表示する。一覧表示の中からひとつの特定シーンが設定された場合は、メタデータファイルの基準時間 TM—ENT (秒）とフレームオフセット数 TM— OFFSETから、制御ファイル中の記録メディァァドレスを自動的に検出して記録部 3 7に設定し、記録部 3 7から当該記録メディアアドレスに記録されたコンテンツシーンをモニタ 4 1に再生表示する。このように構成することで、メタデータを検出して即座に、見たいシーンを検出可能となる。

なお、コンテンツにリンクしたサムネイルファイルを準備しておけば、前述したキ一ヮ一ドに一致したコンテンツ名の一覧を表示する際、コンテンッの代表的サムネイル画を再生して表示することも可能である。

(実施の形態 6 )

前述の実施形態 3〜 5では、あらかじめ記録されているコンテンツにメタデータを付与する装置についてべたが、本実施の形態は、本発明をカメラ等、撮影時にメタデータを付与するシステム、特に、コンテンッ内容が前もって限定される風景撮りに際して、撮影位置をメタデータとして付与する装置に対して拡張した例に関する。図 1 3は、本発明の実施の形態 6におけるメタデータ作成装置の構成を示すブロック図である。

カメラ 51の撮像出力は、コンテンツ DB 54に映像コンテンツとして記録される。同時に、 GP S 52はカメラが撮影している場所を検出し、その位置情報（経緯度数値）が音声合成部 53で音声信号化されて、コンテンツ DB 54の音声チャンネルに位置情報として記録される。力メラ 5 1、 GP S 52、音声合成部 53、コンテンツ DB 54は、記録部付きカメラ 50として、一体構成することもできる。コンテンツ DB 54は、音声チャンネルに記録されている音声信号の位置情報を音声認識部 56に入力する。音声認識部 56には、辞書 DB 5 5から辞書デー夕が供給される。辞書 DB 5 5は、端子 59からのキーボード入力等によって、地域名、ランドマーク等を選択、制限して、音声認識部 56に出力するように構成することができる。

音声認識部 56は、認識された経緯数値と辞書 DB 5 5のデータを用いて地域名、ランドマークを検出し、ファイル処理部 57に出力する。ファイル処理部 57では、コンテンツ DB 54から出力されたタイムコ —ドと音声認識部 56から出力された地域名、ランドマークをメタデ一夕として TEXT化して、メタデータファイルを発生させる。メタデ一タファイルは記録部 58に供給され、記録部 58は、そのメタデータフアイル、およびコンテンツ DB 54から出力されたコンテンツデータを記録する。

このように構成することで、撮影したシーン毎に、自動的に地域名、ランドマークのメタデータを付加することができる。

上述の実施の形態では、音声認識部により認識したキーヮ一ドをタイムコードと共に、メタデータファイルでファイル化する構成を記述したが、音声認識部により認識したキーワードに加え、関連したキーワードを追加してファイル化してもよい。例えば、音声で淀川を認識した場合は、地形、川等の一般属性キーワードも付加してファイル化する。こうすることで検索時、付加された地形、川等のキーワードも使用することができるので検索性を向上することができる。

なお、本発明に係る音声認識部に、単語単位で音声認識する単語認識方式を用い、音声入力の単語数、及び、使用する認識辞書の単語数を制限することで、音声認識率を改善することができる。

また、一般的には、音声認識には何らかの誤認識が生じる可能性がある。上述の各実施形態においてキーボードを含むコンピュータ等の情報処理部を備え、誤認識が生じた場合に、作成されたメタデータ、あるいはタグを、キ一ポード操作により修正するように構成することもできる。産業上の利用の可能性

発明のメタデータ作成装置によれば、コンテンツに関連したメタデー夕の作成あるいはタグ付けを行うために、音声認識を用いて音声入力によりメタデータを作成するとともに、メタデータとコンテンツの所定部位との関連付けを行うため、従来のようなキーボード入力に比べて、効率的に、メタデータの作成やタグ付けを実施することが可能となる。

Claims

請求の範囲

1 . コンテンツを再生して出力するコンテンツ再生部と、

音声入力部と、

前記音声入力部から入力された音声信号を認識する音声認識部と、前記音声認識部により認識された情報をメタデータに変換するメタデ一夕生成部と、

前記コンテンツ内の各部位を識別するための識別情報を、前記コンテンッ再生部から供給される再生されたコンテンツから取得して前記メタデータに付与する識別情報付与部とを備え、

生成された前記メタデ一夕を前記コンテンツ内の各部位と関連付けるように構成されたメタデータ作成装置。

2 . 前記コンテンツに関連した辞書を更に備え、前記音声入力部から入力された音声信号を前記音声認識部により認識する際に、前記辞書に関連付けて認識するように構成された請求項 1に記載のメタデータ作成

3 . 前記音声信号を前記音声認識部により前記辞書に関連付けて単語単位で認識する請求項 2に記載のメタデー夕作成装置。

4 . キーボードを含む情報処理部を更に備え、前記キーボードからの入力により前記情報処理部を介して前記メタデ一夕を修正可能である請求項 1または 3に記載のメタデータ作成装置。

5 . 前記識別情報として、前記コンテンツに付与されているタイムコ一ド情報を用いる請求項 1〜 5のいずれか 1項に記載のメタデータ作成

6 . 前記識別情報として、前記コンテンツに付与されているコンテンッの番地、番号あるいはフレームナンバを用いる請求項 1〜6のいずれか 1項に記載のメタデータ作成装置。

7 . 前記コンテンツが静止画コンテンツであり、前記識別情報として、前記静止画コンテンツの各々の番地を用いる請求項 1に記載のメタデー夕作成装置。

8 . 前記コンテンツ再生部はコンテンツデータベースにより構成され、前記音声入力部は、入力されるキーワードの音声信号を、前記コンテンッデータベースから供給される同期信号に同期したクロックでデ一夕化して前記音声認識部に供給し、

前記音声認識部は、前記音声入力部でデータ化された音声信号データから前記キーワードを認識するように構成され、

前記メタデ一夕生成部は、前記識別情報として前記コンテンツに含まれる画像信号の時間位置を示すタイムコードを用い、前記音声認識部から出力されたキーヮードを前記タイムコードと結合してメタデータファィルを作成するファイル処理部として構成された請求項 1に記載のメタデータ作成装置。

9 . 前記メタデータファイルとともに、前記コンテンツデータべ一スから供給されるコンテンツをコンテンツファイルとして記録する記録部を更に備えた請求項 8に記載のメタデータ作成装置。

1 0 . 前記コンテンツファイルを記録すべき記録位置と前記メ夕デ一夕ファイルの関係を管理する制御ファイルを発生するコンテンツ情報フアイル処理部を更に備え、

前記記録部に、前記コンテンツファイルおよび前記メタデータフアイルとともに、前記制御フアイルを記録するように構成された請求項 9に記載のメタデ一夕作成装置。

1 1 . 辞書データベースを更に備え、前記音声認識部は、複数のジャンル別辞書から、前記コンテンツに適合したジャンルの辞書を選択することが可能である請求項 8記載のメタデータ作成装置。

1 2 . コンテンツに関連したキーワードを前記音声認識部に供給可能であり、前記音声認識部は、前記キーワードを優先認識するように構成された請求項 1 1に記載のメタデータ作成装置。

1 3 . コンテンツに関連した情報を音声入力し、入力された音声信号を音声認識装置により音声認識し、前記音声認識された情報をメタデー夕に変換し、前記コンテンッ内の各部位を識別するための前記コンテンッに付与された識別情報を前記メタデータに付与して、生成された前記メタデータを前記コンテンツ内の各部位と関連付けるメタデー夕作成方法。

1 4 . 前記コンテンツを再生しモニタに表示しながら、コンテンツに関連した情報を音声入力する請求項 1 3に記載のメタデータ作成方法。

1 5 . 前記コンテンツに関連した辞書を用い、前記入力された音声信号を前記音声認識装置により前記辞書に関連付けて認識する請求項 1 3 に記載のメタデータ作成方法。

1 6 . 前記識別情報として、前記コンテンツに付与されているタイムコード情報を用いる請求項 1 3に記載のメタデータ作成方法。

1 7 . 前記コンテンツとして静止画コンテンツを用い、前記識別情報として、前記静止画コンテンツの各々の番地を用いる請求項 1 3に記載のメタデ一夕作成方法。

1 8 . コンテンッを再生して出力するコンテンツデータベースと、入力されるキーワードの音声信号を再生された前記コンテンツの同期信号に同期したクロックでデータ化する音声入力部と、

前記音声入力部でデータ化された音声信号デ一夕からキーワードを認識する音声認識部と、前記音声認識部から出力されたキーヮードを前記コンテンツに含まれる画像信号の時間位置を示すタイムコードと結合させてメタデータファイルを作成するファイル処理部と、

コンテンツファイルの記録位置と前記メタデータファイルの関係を管理する制御ファイルを発生するコンテンツ情報ファイル処理部と、前記コンテンツファイル、前記メタデータファイル、および前記制御ファイルを記録する記録部と、入力される検索用キ一ヮ一ドが含まれた前記メタデータファイルを特定し、前記制御ファイルを参照して、前記コンテンツファイルの前記キーヮードに対応する記録位置を抽出する検索部とを備え、

前記コンテンツファイルの記録位置は、前記記録部における記録位置であるメタデータ検索装置。

1 9 . 前記コンテンツ情報ファイル処理部から出力される制御フアイルは、前記コンテンツの記録時間に合わせた前記記録部における前記コンテンッの記録位置を明記するテーブルとし、前記タイムコードから前記コンテンツの記録位置を検索できるようにした請求項 1 8記載のメタデ一夕検索装置。

2 0 . 辞書データベースと、コンテンツに関連したキーワードを前記音声認識部に供給するキーワード供給部とを更に備え、前記音声認識部は、複数のジャンル別辞書から、前記コンテンツに適合したジャンルの辞書を選択することが可能であるとともに、前記キ一ヮ一ドを優先認識するように構成された請求項 1 8記載のメタデータ検索装置。

2 1 . 辞書データベースを更に備え、前記音声認識部は、複数のジャンル別辞書から、前記コンテンツに適合したジャンルの辞書を選択することが可能であるとともに、

前記検索部は、前記音声認識部で用いた共通辞書から選定されたキーヮードにより検索を行うように構成された請求項 1 8記載のメタデータ検索装置。