JPWO2004095374A1 - 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム - Google Patents

映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム Download PDF

Info

Publication number
JPWO2004095374A1
JPWO2004095374A1 JP2005505722A JP2005505722A JPWO2004095374A1 JP WO2004095374 A1 JPWO2004095374 A1 JP WO2004095374A1 JP 2005505722 A JP2005505722 A JP 2005505722A JP 2005505722 A JP2005505722 A JP 2005505722A JP WO2004095374 A1 JPWO2004095374 A1 JP WO2004095374A1
Authority
JP
Japan
Prior art keywords
information
video
video data
partial
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005505722A
Other languages
English (en)
Other versions
JP4488233B2 (ja
Inventor
高橋 祐介
祐介 高橋
恭二 平田
恭二 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2004095374A1 publication Critical patent/JPWO2004095374A1/ja
Application granted granted Critical
Publication of JP4488233B2 publication Critical patent/JP4488233B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3602Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3647Guidance involving output of stored or live camera images or video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)

Abstract

オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とをあらかじめ関連付けて記憶する。そして、映像の一部分の領域の映像データである部分映像データを抽出する。抽出した部分映像データの視覚的特徴情報を生成し、部分映像データの視覚的特徴情報と、記憶しているオブジェクトの視覚的特徴情報とを比較して類似度を算出する。算出した類似度に基づいて映像データに含まれるオブジェクトを特定し、特定したオブジェクトの付加情報によって構成されるアノテーションを映像に重畳して表示装置に表示させる。

Description

本発明は、映像の被写体と、被写体の情報とを対応付ける映像認識装置、映像アノテーション付与装置および車両案内システムに関する。
近年、GPS(global positioning system)を用いて現在位置の情報を利用者に提供するナビゲーションシステムが普及し、自動車等にナビゲーションシステムが搭載されている。これらのナビゲーションシステムには、現在位置に基づいた周辺の情報を利用者に提供する機能があり、ナビゲーションシステムの利用者端末は、提供された情報をモニタ等を介してCG(Computer graphics)で描かれたデジタル地図に表示する。
現在位置の周辺の情報を利用者に提供する他の方法には、強化現実技術(Augmented Reality)を用いて、周辺の情報を実映像の画面に重畳して表示させる方法がある。
下記の非特許文献1には、実映像の撮影を行う撮影位置と、撮影方向と、映像の被写体であるオブジェクト(建物などのひとまとまりの物体)の緯度および経度の位置情報とを用いて、撮影方向に撮影位置から所定の距離内に存在するオブジェクトの情報(オブジェクト名)を、実映像に重畳して表示するシステムについて記載されている。
寺田智裕、外2名、「拡張現実感を用いた車載型アノテーションシステムの構築」、信学技報、社団法人電気通信情報学会、2002年2月、CQ2001−103、MVE2001−136、p.55−60
しかし、非特許文献1に記載のシステムは、オブジェクトが映像に写っているか否かに関わらず、撮影方向に撮影位置から所定の距離内に存在するオブジェクトの情報を表示する。そのため、木の陰になる等の理由でオブジェクトが実際には映像に写っていないにも関わらず、オブジェクトの情報を表示してしまうという問題がある。
本発明は、オブジェクトが実際には映像に写っていない場合にはオブジェクトの情報を表示しないようにすることができる映像認識装置、映像アノテーション付与装置および車両案内システムを提供することを目的とする。
本発明の映像オブジェクト認識装置は、映像データと、撮影空間を決定しうる情報である撮影情報とを入力する入力手段と、オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報とを対応させて記憶する記憶する記憶手段と、入力された映像データによる映像に含まれるオブジェクトを認識するオブジェクト認識手段とを備え、オブジェクト認識手段は、撮影情報に基づいて撮影空間を推定する撮影空間推定手段と、撮影空間と、記憶手段に記憶されているオブジェクトの位置情報が示す位置とのマッチングを行うマッチング手段と、入力された映像データから、映像データによる映像の一部分の領域の映像データまたは映像全体の映像データである部分映像データを抽出する部分映像抽出手段と、部分映像データの視覚的特徴情報を生成する視覚的特徴情報設定手段と、部分映像データの視覚的特徴情報と、記憶手段が記憶しているオブジェクトの視覚的特徴情報とを比較して類似度を算出する類似度算出手段と、マッチング手段のマッチングの結果と、算出した類似度とに基づいて、入力された映像データによる映像中にオブジェクトが存在しているか否かを判定する判定手段とを備える。
本発明の映像アノテーション付与装置は、映像データと、撮影空間を決定しうる情報である撮影情報とを入力する入力手段と、オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とを対応させて記憶する記憶手段と、入力された映像データによる映像に含まれるオブジェクトと、付加情報とを対応付けるオブジェクト認識手段とを備え、オブジェクト認識手段は、撮影情報に基づいて撮影空間を推定する撮影空間推定手段と、撮影空間と、記憶手段に記憶されているオブジェクトの位置情報が示す位置とのマッチングを行うマッチング手段と、入力された映像データから、映像データによる映像の一部分の領域の映像データまたは映像全体の映像データである部分映像データを抽出する部分映像抽出手段と、部分映像データの視覚的特徴情報を生成する視覚的特徴情報設定手段と、部分映像データの視覚的特徴情報と、記憶手段が記憶しているオブジェクトの視覚的特徴情報とを比較して類似度を算出する類似度算出手段と、マッチング手段のマッチングの結果と、算出した類似度とに基づいて、入力された映像データによる映像に含まれるオブジェクトを特定し、特定したオブジェクトと、記憶手段が記憶している付加情報とを対応付ける判定手段とを備える。
また、オブジェクト認識手段は、撮影空間と、記憶手段が記憶しているオブジェクトの位置情報とに基づいてオブジェクトが映像に含まれている確率である存在確率を算出する存在確率算出手段を含んでもよく、判定手段は、算出した存在確率と類似度とに基づいて映像に含まれるオブジェクトを特定し、特定したオブジェクトと記憶手段が記憶している付加情報とを対応付けてもよい。そのような構成によれば、撮影空間に存在するオブジェクトであっても、映像に写っている確率が低いオブジェクトに対しては、付加情報との対応付けを行わない。そのため、アノテーションと映像とを重畳して表示させた場合に、映像に映っていないオブジェクトのアノテーションが表示されることを防ぐことができる。
また、部分映像抽出手段は、記憶手段が記憶しているオブジェクトの位置情報に基づいて、映像におけるオブジェクトが位置する範囲を特定してもよく、特定した範囲から部分映像データを抽出してもよい。そのような構成によれば、部分映像データを抽出する範囲を限定することができ、部分映像抽出手段のデータ処理量を削減させることができる。
また、オブジェクト認識手段は、撮影空間と位置情報とに基づいて撮影空間に存在するオブジェクトである候補オブジェクトの抽出を行う候補オブジェクト検索手段を含んでもよく、類似度算出手段は、部分映像データの視覚的特徴情報と、記憶手段が記憶している候補オブジェクトの視覚的特徴情報とを比較して類似度を算出してもよい。そのような構成によれば、部分映像データの視覚的特徴情報と比較して類似度を算出するオブジェクトの数を減らすことができ、類似度算出手段のデータ処理量を削減させることができる。
また、部分映像抽出手段は、記憶手段が記憶している候補オブジェクトの位置情報に基づいて、映像におけるオブジェクトが位置する範囲を特定してもよく、特定した範囲の映像から部分映像データを抽出してもよい。そのような構成によれば、部分映像データを抽出する範囲を限定することができ、部分映像抽出手段のデータ処理量を削減させることができる。
また、映像を表示する表示手段と、表示手段に、映像に含まれるオブジェクトに対応付けられた付加情報を表示させる位置を指定して付加情報を映像に重畳して表示させる表示位置決定手段とを備えてもよい。そのような構成によれば、映像と付加情報であるアノテーションとを対応させて表示させることができる。
また、付加情報と映像に含まれるオブジェクトとを対応させて記憶するアノテーション結果記憶手段を備えてもよい。そのような構成によれば、記憶した付加情報と映像データに含まれるオブジェクトとの対応に基づいて、映像データの検索を行うことができる。
また、部分映像抽出手段は、抽出する部分映像データによる映像の領域の形状と大きさとを任意に変更可能な機能を有してもよい。そのような構成によれば、映像データに含まれるオブジェクトの形状に関わらず、オブジェクトを含む部分映像データを抽出することができる。
また、部分映像抽出手段は、輝度情報と、色情報と、形状の情報と、模様の情報と、大きさの情報とのうちの1つの条件、または複数を組み合わせた条件に合致する映像の領域の部分映像データを抽出してもよい。そのような構成によれば、記憶手段が記憶するオブジェクトの視覚的特徴情報に応じて、部分映像データを抽出することができる。
また、部分映像抽出手段は、複数の情報を組み合わせた条件に合致する映像の領域の部分映像データを抽出する場合、マッチング手段のマッチングの結果と、記憶手段が記憶しているオブジェクトの視覚的特徴情報とに基づいて、各条件に対する重み付けを行って部分映像データを抽出してもよい。そのような構成によれば、記憶手段が記憶しているオブジェクトの視覚的な特徴に応じて、部分映像データを抽出することができる。
また、記憶手段が記憶するオブジェクトの視覚的特徴情報は、オブジェクトに類似する視覚的な特徴を有する映像であるテンプレート映像であってもよい。そのような構成によれば、オブジェクトの視覚的特徴情報を記憶手段に記憶させる際の作業量を削減することができる。
また、記憶手段が記憶するオブジェクトの視覚的特徴情報は、色情報、形状の情報、模様の情報および大きさの情報のうち1つ、または複数の情報によって構成されてもよく、視覚的特徴情報設定手段が生成する部分映像データの視覚的特徴情報は、色情報と、形状の情報と、模様の情報と、大きさの情報とのうち1つの情報、または複数の情報によって構成されてもよい。そのような構成によれば、視覚的特徴情報設定手段は定量的に類似度を算出することができる。
また、記憶手段が記憶するオブジェクトの位置情報は、オブジェクトの形状に類似した形状の円錐、円柱、または立方体等の立体幾何学の立体形状を用いて近似した立体形状の頂点のうちの1つの頂点、または中心点、もしくは重心点のいずれかの位置を特定する情報であってもよい。そのような構成によれば、位置情報のデータ量を削減することができる。
また、記憶手段が記憶するオブジェクトの位置情報は、オブジェクトの形状を多角形の面を用いて近似した三次元形状の頂点のうちの少なくとも1つの頂点の位置を特定する情報であってもよい。そのような構成によれば、位置情報のデータ量を削減することができる。
また、記憶手段が記憶するオブジェクトの位置情報は、オブジェクトの頂点のうち、最も標高が高い頂点の位置を特定する情報であってもよい。そのような構成によれば、位置情報のデータ量を削減することができる。
また、記憶手段が記憶するオブジェクトの位置情報は、緯度と経度と標高とによってオブジェクトの位置を特定する情報であってもよい。そのような構成によれば、GPSを用いて位置情報を取得した位置のデータを用いることができる。
また、記憶手段は、オブジェクトの付加情報と、視覚的特徴情報とを、複数のオブジェクトの集合であるオブジェクト集合の付加情報と、視覚的特徴情報とに対して階層的に記憶してもよく、判定手段は、記憶手段が記憶しているオブジェクト集合の視覚的特徴情報に基づいて、撮影された複数のオブジェクトがオブジェクト集合であるか否かの判定を行い、撮影された複数のオブジェクトがオブジェクト集合であると判定すると、オブジェクト集合の付加情報とオブジェクト集合とを対応付けてもよい。そのような構成によれば、オブジェクト集合にアノテーションを対応付けることができる。
また、撮影情報は、撮影した日付と時刻とを特定する情報である撮影日時情報を含んでもよく、記憶手段は、撮影した日付と、時刻とに応じた視覚的特徴情報を記憶してもよく、類似度算出手段は、部分映像データの視覚的特徴情報と、撮影日時情報が特定する日付と、時刻とに応じた視覚的特徴情報とを比較して類似度を算出してもよい。そのような構成によれば、例えば一のオブジェクトに対して昼間の時刻の視覚的特徴情報は明るい色を示す情報とし、夜間の時刻の視覚的特徴情報は暗い色を示す情報とすることができる。また、例えば山等の日付(例えば、季節。)によって色が変化するオブジェクトに対して、冬は白色、春と夏とは緑色、秋は赤色や黄色等を示す視覚的特徴情報にする等、一のオブジェクトの視覚的特徴情報を日付に応じて変化させることができる。そのため、オブジェクト認識手段は、撮影した日付と時刻とによるオブジェクトの視覚的な特徴の変化に応じて、オブジェクトを認識することができる。
また、部分映像抽出手段は、入力された映像データから領域を分割し、分割された領域を部分映像データとしてもよい。
また、部分映像抽出手段は、分割された領域の組み合わせにより部分映像データとしてもよい。
また、部分映像抽出手段は、分割領域の組み合わせの評価を階層的に行うことで部分映像データを生成してもよい。
また、部分映像抽出手段は、分割領域の組み合わせ階層評価として、同一領域数の組み合わせから類似度の高い特定数のみ以後の組み合わせに用いてもよい。
また、記憶手段が記憶するオブジェクトの視覚的特徴情報として、一方向または、複数方向からの全体像または一部分のオブジェクトにおける視覚的情報を複数保持してもよい。
本発明の車両案内システムは、車両に搭載され、GPSを用いて自己の位置を表示装置が表示する地図上に示す車両案内システムであって、上述の映像アノテーション付与装置を備える。
本発明の映像オブジェクト認識方法は、映像データと、撮影空間を決定しうる情報である撮影情報とを入力し、オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報とを対応させて記憶し、撮影情報に基づいて撮影空間を推定し、撮影空間と、記憶されているオブジェクトの位置情報が示す位置とのマッチングを行い、入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出し、部分映像データの視覚的特徴情報を生成し、部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出し、マッチングの結果と、算出した類似度とに基づいてオブジェクトが撮影されているか否かを判定する。
本発明の映像アノテーション付与方法は、映像データと、撮影空間を決定しうる情報である撮影情報とを入力し、オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とを対応させて記憶し、撮影情報に基づいて撮影空間を推定し、撮影空間と、記憶されているオブジェクトの位置情報が示す位置とのマッチングを行い、入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出し、部分映像データの視覚的特徴情報を生成し、部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出し、マッチングの結果と、算出した類似度とに基づいて映像データに含まれるオブジェクトを特定し、特定したオブジェクトと記憶されている付加情報によって構成されるアノテーションとを対応付ける。
本発明の映像オブジェクト認識プログラムは、映像データに、記憶されているオブジェクトが被写体として含まれているか否かを判定する映像オブジェクト認識装置に搭載される映像オブジェクト認識プログラムであって、コンピュータに、オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報とを対応させて記憶装置に記憶させる処理と、撮影空間を決定しうる情報である撮影情報に基づいて撮影空間を推定する処理と、撮影空間と、記憶装置が記憶しているオブジェクトの位置情報が示す位置とのマッチングを行う処理と、入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出する処理と、部分映像データの視覚的特徴情報を生成する処理と、部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出する処理と、マッチングの結果と、算出した類似度とに基づいてオブジェクトが撮影されているか否かを判定する処理とを実行させる。
本発明の映像アノテーション付与プログラムは、オブジェクトと、記憶されているオブジェクトの情報とを対応付ける映像アノテーション付与装置に搭載される映像アノテーション付与プログラムであって、コンピュータに、オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とを対応させて記憶装置に記憶させる処理と、撮影空間を決定しうる情報である撮影情報に基づいて撮影空間を推定する処理と、撮影空間と、記憶装置が記憶しているオブジェクトの位置情報が示す位置とのマッチングを行う処理と、入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出する処理と、部分映像データの視覚的特徴情報を生成する処理と、部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出する処理と、マッチングの結果と、算出した類似度とに基づいて映像データに含まれるオブジェクトを特定し、特定したオブジェクトと記憶されている付加情報によって構成されるアノテーションとを対応付ける処理とを実行させる。
従って、本発明によれば、オブジェクトの視覚的特徴情報と、部分映像データの視覚的特徴情報とを比較することによって、オブジェクトが映像に映っているか否かの判定を行うことができ、オブジェクトが映像に映っていると判定した場合に、オブジェクトと付加情報とを対応付ける。よって、オブジェクトが実際には映像に写っていない場合にはオブジェクトの情報を表示しないようにすることができる。
また、本発明による車両案内システムは、本発明による映像アノテーション付与装置が備える機能を有するため、オブジェクトが実際には映像に写っていない場合にはオブジェクトの情報を表示しない車両案内システムを実現できる。
図1は、本発明の実施の形態の一構成例を示すブロック図である。
図2は、意味情報と、位置情報と、視覚的特徴量との例を示す図である。
図3は、本発明の第1の実施の形態の一構成例を示すブロック図である。
図4は、本発明の第1の実施の形態における視覚的特徴量比較手段の一構成例を示すブロック図である。
図5は、本発明の第1の実施の形態の動作を説明するフローチャートである。
図6は、側面から撮影空間を表した図である。
図7は、情報から撮影空間を表した図である。
図8は、撮影空間を説明する図である。
図9は、撮影位置と、候補オブジェクトの代表点との関係の一例を示す図である。
図10は、テンプレート映像の例を示す図である。
図11は、映像全体をラスタスキャンした場合を説明する図である。
図12は、撮影空間の右側に候補オブジェクトが位置する場合の説明図である。
図13は、映像の右側半分をラスタスキャンした場合を説明する図である。
図14は、領域に分割する映像の一例を説明する図である。
図15は、領域の分割と、結合とを説明する図である。
図16は、領域分割した映像の一例を説明する図である。
図17は、領域の数を減少させた場合の映像の一例を説明する図である。
図18は、部分映像と候補オブジェクトとを比較する一例を説明する図である。
図19は、地理オブジェクトの集合の一例を示す図である。
図20は、階層化された意味情報を説明する図である。
図21は、地理オブジェクトの一例を正面から見た図と、斜めから見た図とである。
図22は、分割した地理オブジェクトの一例を示す図である。
図23は、本発明の第2の実施の形態の一構成例を示すブロック図である。
図24は、本発明の第2の実施の形態における視覚的特徴量比較手段の一構成例を示すブロック図である。
図25は、本発明の第3の実施の形態の一構成例を示すブロック図である。
図26は、アノテーションを付与した映像の一例を示す図である。
図27は、本発明の第4の実施の形態の一構成例を示すブロック図である。
図28は、本発明の第5の実施の形態における視覚的特徴量比較手段の一構成例を示すブロック図である。
図29は、本発明の第5の実施の形態の動作を説明するフローチャートである。
図30は、階層的組み合わせ評価方法を説明する図である。
(発明の第1の実施の形態)
図1に、本発明の第1の実施の形態を説明するブロック図を示し、この実施の形態の構成について説明する。本発明の第1の実施の形態は、映像および映像を撮影した状況の情報である撮影情報が入力される入力装置1と、映像の被写体であるオブジェクトの情報を記憶する記憶装置2と、撮影情報とオブジェクトの情報とを比較して、オブジェクトが映像に撮影されているか否かを判定するオブジェクト認識装置3とを含む。
入力装置1は、例えばCCDデジタルカメラ装置や、ビデオカメラ装置等の映像を撮影する映像入力機器(図示せず)が出力する映像を入力する。入力装置1は、映像入力機器が出力する撮影時の画角の情報である画角情報を入力する。映像入力機器のズーム率が変更できない場合には、あらかじめレンズの焦点距離およびCCD素子のサイズとから画角を算出して画角情報を生成しておく。ズーム操作によって映像入力機器のズーム率が変更できる場合には、ズーム操作量と画角との関係の情報をあらかじめ取得し、撮影時のズーム操作量に応じた画角を算出して画角情報を生成する。
また、入力装置1は、入力装置1の経度と緯度と標高とを測定するGPS装置と接続され、撮影位置と、移動速度とを特定する。ここで、入力装置1と加速度センサ装置と接続され、加速度センサ装置の出力を時間積分して移動速度を特定してもよい。また、入力装置1は、磁気コンパス装置、電子コンパス装置、またはジャイロコンパス装置と接続され、映像入力機器が撮影する方向を特定する。
ここで、映像入力機器がパン・チルト機能を有する場合、パン・チルト操作量を測定して、磁気コンパス装置、電子コンパス装置、またはジャイロコンパス装置が特定した撮影方向の補正を行う。また、映像入力機器が撮影中に移動した場合、入力装置1は、GPS装置の軌跡データや、電子コンパス装置、ジャイロコンパス装置、加速度センサ装置等の出力を用いて、移動方向を特定する。撮影情報は、画角情報、撮影した日付と時刻とを特定する情報である撮影日時情報、撮影位置の情報、撮影方向の情報、移動方向の情報、および移動速度の情報等を含む。
記憶装置2は、オブジェクトの付加情報(例えば、意味情報。)と視覚的特徴情報(例えば、視覚的特徴量。)とを記憶する。意味情報とは、例えば、オブジェクトの名前や、歴史、利用料金、営業時間、住所、電話番号、URL等のオブジェクトに関する情報である。ここで、映像中のオブジェクトに意味情報を対応付けることを、オブジェクトにアノテーション(注釈)を付与するという。より具体的には、映像中のオブジェクトの近傍にアノテーション画像を付加することである。
視覚的特徴量とは、例えば、形状、大きさ、模様、エッジ、色等のオブジェクトを視覚的に認識するための特徴を数値化した量であって、例えば、山田昭雄、「ビジュアルツールによるコンテンツ記述」、映像情報メディア学会誌、社団法人映像情報メディア学会、2002年11月1日、第56巻、第11号、p.1711−1714(以下、文献Aと記す。)に記載されているように、MPEG−7/Visualで定義されているビジュアル記述子の色の特徴、模様の特徴、形状の特徴などのいずれかの組み合わせを用いて定義される特徴量ベクトルである。ここで、色の特徴はドミナントカラーとカラーレイアウト、模様の特徴はエッジヒストグラム、形状の特徴はリージョンベースド形状記述子等によって表される。
ドミナントカラーは、最頻色を頻度とともにRGB表記したものである。カラーレイアウトは、色の空間的な配置を周波数軸上で表現したものである。エッジヒストグラムは、例えば、縦や横、斜め等エッジがそれぞれどのくらい存在するかをヒストグラム化して記述したものである。リージョンベースド形状記述子は、2値の形状データを2次元ART(Angular Radial Transform)変換した35係数によって構成される記述子である。
オブジェクトOciの視覚的特徴量FOiは、FOi=(ドミナントカラー、カラーレイアウト、エッジヒストグラム、リージョンベースド形状記述子、・・・)と、ベクトル表記されて記述される。
記憶装置2は、一のオブジェクトに対して、撮影した日付と時刻とに応じて複数の視覚的特徴量を記憶してもよい。例えば一のオブジェクトに対して昼間の時刻の視覚的特徴量は明るい色を示したり、夜間の時刻の視覚的特徴情報は暗い色を示したりする。また、例えば山等の日付(例えば、季節等。)によって色が変化するオブジェクトに対して、冬は白色、春と夏とは緑色、秋は赤色や黄色等を示す視覚的特徴量とする等である。
記憶装置2は、例えば建築物や橋、塔等のような人工建築物や、例えば山や湖のような自然の地物等のように、経度と緯度等の情報である位置情報によって特定できるオブジェクトである場合、オブジェクトの位置情報を記憶する。以下、位置情報によって特定できるオブジェクトを、地理オブジェクトと記す。また、電車等のように時間の経過とともに移動するオブジェクトは、位置情報のみによって特定することはできないが、ダイヤグラム等により各時刻における位置が特定されれば、時刻と位置情報とを組み合わせた組み合わせ集合を用いてオブジェクトを特定してもよい。
位置情報に用いる位置の情報は、例えば地理オブジェクトの中心点または重心点等の緯度と経度とを用いてもよく、地理オブジェクトの形状を多角形(ポリゴン)の面を用いて構成した立体形状の各頂点の位置を、緯度と経度と標高とを用いて表したデータ群であってもよい。しかし、そのような立体形状の各頂点の位置のデータ群を位置情報に用いると、データ量が多くなってしまう。そこで、そのような立体形状の頂点のうち、1つまたは複数の頂点の位置情報を抽出して用いてもよい。また、地理オブジェクトの形状を円錐や、円柱、または立方体等の形状で近似し、近似した形状の中心点や、重心点、各頂点等の位置情報を用いてもよいし、1つの頂点の位置情報を抽出して用いてもよい。例えば、東京タワーを四角錐で近似し、各頂点の5つの位置情報を地理オブジェクトの位置情報に用いてもよいし、オブジェクトの最も標高の高い位置の頂点である最高点の位置情報を、地理オブジェクトの位置情報に用いてもよい。最高点は、撮影する場合に、他の頂点に比べて他の物体の存在によって隠れにくいと考えられるため、地理オブジェクトの最高点を地理オブジェクトの位置情報に用いることが好ましい。
意味情報と、最高点の緯度と経度と標高とを用いた位置情報と、視覚的特徴量との一例を図2に示す。視覚的特徴量は実際には数値化されているが、簡単のため形状と文字とで表した。
記憶装置2は、情報を、CD−ROMや、DVD−R、ハードディスク装置またはメモリ等の記録媒体に、複数に分割して、または一括して記憶する。記憶したデータは、読み込み装置が単数、または複数の媒体に記録された情報を読み込む。また、記憶装置2は、情報をインターネット等のコンピュータネットワークを介して取得してもよい。
オブジェクト認識装置3は、計算機で実現され、入力装置1が撮影した映像の一部分または映像全体の視覚的特徴量と、記憶装置2が記憶している地理オブジェクトの視覚的特徴量との類似度を算出する。
図3に、本発明の第1の実施の形態のオブジェクト認識装置3の一構成例を示し、オブジェクト認識装置3の構成について説明する。なお、図3や図4等に示す各手段は、プログラムで実現される。
オブジェクト認識装置3は、撮影情報と地理オブジェクトの位置情報とに基づいて、撮影されている可能性のある地理オブジェクトである候補オブジェクトを抽出する撮影空間推定手段、マッチング手段および候補オブジェクト検索手段(いずれも、例えば、候補オブジェクト検索手段30で実現される。)と、候補オブジェクト検索手段30が抽出した候補オブジェクトの視覚的特徴量と、入力装置1が撮影した映像の一部分の領域または映像全体の視覚的特徴量との類似度を算出する類似度算出手段(例えば、視覚的特徴量比較手段31で実現される。)と、算出した類似度と、あらかじめ決められたしきい値とを比較して、オブジェクトが撮影されているか否かを判定する判定手段32とを含む。
図4に、視覚的特徴量比較手段31の一構成例を示し、構成について説明する。視覚的特徴量比較手段31は、入力装置1が撮影した映像の一部分または全体の映像である部分映像を抽出する部分映像抽出手段310と、抽出された部分映像の視覚的特徴量を設定する視覚的特徴量設定手段311と、記憶装置2が記憶している候補オブジェクトの視覚的特徴量と、部分映像の視覚的特徴量との類似度を算出する特徴量比較手段312とを含む。視覚的特徴情報設定手段は、視覚的特徴量設定手段311によって実現される。
次に、図5のフローチャートを参照して動作について説明する。まず、映像入力機器が映像を撮影し、入力装置1に映像を表す映像データを入力する。入力装置1は、入力された映像データを映像記録メディアに記録する(ステップA1)。そして、入力装置1は、撮影位置や撮影方向、移動方向および移動速度の情報と、画角情報とを入力し、入力された各情報を組み合わせて撮影情報を生成し(ステップA2)、生成した撮影情報を、映像が記録される映像記録メディアに記録する。ここで、映像の各コマの画像データ圧縮方式がJPEGである場合は画像データのヘッダに撮影情報を記録したり、または映像と撮影情報とをそれぞれ時刻に対応させたりして、映像と撮影情報とを1対1に対応させる。
一般的なビデオカメラ装置等の撮影装置は、一秒間に30コマ記録するが、GPS機能等を用いて取得する経度と緯度との位置情報は、一秒間に1回程度しか取得できない。そこで、最後に取得した経度と緯度との位置情報を、撮影情報を構成する移動方向および移動速度の情報を用いて補正して、補正した位置情報と映像とを1対1に対応させることが好ましい。
候補オブジェクト検索手段30は、入力装置1が生成した撮影情報に基づいて、映像入力装置が撮影可能な範囲である撮影空間を算出する(ステップA3)。
以下、撮影位置をC、撮影方向をθとし、地理オブジェクトの代表点をO、地理オブジェクトの代表点Oの緯度をOi1、経度をOi2、標高をOi3として説明する。図6および図7に示すように、撮影空間は、撮影位置から撮影方向に対して、画角および地平面に囲まれた空間である。
図8に示すように、撮影位置をC、撮像素子の上右端、上左端、下右端および下左端をそれぞれ、UR、UL、DRおよびDLとし、CとURとULとを含む平面をSu、CとURとDRとを含む平面をSr、CとDRとDLとを含む平面をSd、CとULとDLとを含む平面をSl、地平面をSeとすると、それぞれの平面は、(1)式のように表すことができる。ここで、撮影方向θは地表面と平行な北の方向を0とし、(1)式は、平面Su、Sd、Sr、Sl、Seを、地表面の所定の位置を原点とする直交座標系で表わしたものある。
Figure 2004095374
簡略化のため、画角が180度以内の場合について、説明する。この場合、撮影空間は、SuとSdとSrとSlとに挟まれ、地平面Seより上方であって、撮影方向θから90度以内の空間に限定される。そこで、撮影空間は、(2)式の条件を満たす空間として表すことができる。ここで、CxとCyとCzとは、撮影位置Cの緯度C1と経度C2と標高C3とを、それぞれ直交座標系に変換して求めた撮影位置Cの位置情報である。また、θxはθと緯線とが成す角であり、θyはθと経線とが成す角であり、θzはθと地平面に対する垂直線とが成す角である。
Figure 2004095374
次に、オブジェクト認識装置3の候補オブジェクト検索手段30が、記憶装置2が記憶している地理オブジェクトの位置情報を読み出す(ステップA4)。候補オブジェクト検索手段30は、読み出した各地理オブジェクトの各位置情報を用いて、映像入力機器に撮影された可能性のある地理オブジェクトを検索する。映像入力機器に撮影された可能性のある地理オブジェクトとは、(2)式を満たす位置情報を有する地理オブジェクトである。そこで、候補オブジェクト検索手段30は、(2)式を満たす位置情報を有する地理オブジェクトである候補オブジェクトを抽出する。すなわち、撮影空間と、記憶装置2に記憶されている地理オブジェクトの位置情報が示す位置とのマッチングを行う。
(2)式を満たす地理オブジェクトであっても、撮影位置から遠くに存在する地理オブジェクトは撮影されにくいため、撮影位置の情報と地理オブジェクトの位置情報とに基づいて算出した撮影位置と地理オブジェクトとの距離が、あらかじめ決められたしきい値Th1を超えている地理オブジェクトは抽出しなくてもよい。しかし、例えば高い山等の遠くからでも見ることができる地理オブジェクトは、撮影位置との距離が遠くても撮影される可能性がある。そこで、図9に示すように、撮影位置から地理オブジェクトの頂点を見上げる角度を求め、この角度があるしきい値Th2を超えている地理オブジェクトは抽出してもよい。
また、撮影方向θと、撮影位置から地理オブジェクトに向かう方向との差が大きい地理オブジェクトも撮影されにくい。従って、撮影位置Cから地理オブジェクトへの水平距離Distがしきい値Th1以下であることと、撮影位置から地理オブジェクトの頂点を見上げる角度である仰角がしきい値Th2以下であることと、撮影方向θと撮影位置から地理オブジェクトに向かう方向との差である水平角度誤差がしきい値Th3以下であることとを、候補オブジェクトを抽出する条件に加えると候補オブジェクトの数を絞り込むことができる。そこで、Th1、Th2およびTh3を用いて、候補オブジェクトが満たす条件を(3)式に示す。ここで、OixとOiyとOizとは、地理オブジェクトの代表点Oの緯度Oi1と経度Oi2と標高をOi3とをそれぞれ直交座標系に変換して求めた代表点Oの位置情報である。この実施の形態では、(3)式を用いて候補オブジェクトをさらに絞り込む(ステップA5)。
Figure 2004095374
以下、(2)式および(3)式に示す条件を満たすM個の候補オブジェクトを、候補オブジェクトOci(i=1〜M)として説明する。候補オブジェクト検索手段30は、候補オブジェクトOciを抽出すると、抽出した候補オブジェクトOciを特定する情報を視覚的特徴量比較手段31に出力する。
視覚的特徴量比較手段31は、記憶装置2があらかじめ記憶している候補オブジェクトOciの視覚的特徴量FOiを読み込む(ステップA6)。記憶装置2は、候補オブジェクトOciの視覚的特徴量FOiを、FOi=(ドミナントカラー,カラーレイアウト,エッジヒストグラム,リージョンベースド形状記述子,・・・)のように、ベクトル表記して記憶している。
また、オブジェクトと類似する視覚的特徴を有するテンプレート映像を視覚的特徴量に用いてもよい。テンプレート映像とは、例えば、図10に示すような、あらかじめ用意した一般的な形状のオブジェクトの映像である。そして、記憶装置2は、このようなテンプレート映像を視覚的特徴量として記憶していてもよい。
部分映像抽出手段310は、映像入力機器が撮影し、入力装置1が入力した映像データによる映像の一部分または全体を抽出した映像を表す部分映像データ(以下、部分映像という。)を抽出する(ステップA7)。部分映像の抽出方法の一例として、図11に示すように、長方形のブロックを映像の左上から右下まで、ラスタスキャンさせてブロック内の映像を抽出する方法がある。候補オブジェクトの視覚的特徴量に基づいて、または利用者の指示に基づいて、ブロックの大きさを変化させると、様々な大きさの部分映像を抽出することができる。また、ブロックの形状は長方形に限定されず、正方形や円形、楕円形等であってもよい。
また、部分映像抽出手段310は、候補オブジェクトの位置情報と、撮影情報を構成する撮影方向の情報を読み出して、各候補オブジェクトOciの位置が撮影方向に対して右側であるか、左側であるか、中央付近であるかを推定してもよい。そして、部分映像の抽出のためにラスタスキャンする範囲を映像全体ではなく、映像の右半分の範囲や、左半分の範囲、右1/4の範囲、左1/4の範囲または中央付近等に限定することにより、部分映像の抽出に伴う部分映像抽出手段310の処理量を削減することができる。
図12に、撮影空間の右側に候補オブジェクトが位置する場合の説明図を示す。このとき、映像内で候補オブジェクトが存在する可能性のある範囲は、映像の右側に限定される。そこで、図13に示すように、部分映像を抽出する範囲を、映像の右側の範囲に限定してもよい。同様に、映像内で候補オブジェクトが存在する可能性のある範囲を上側の範囲あるいは下側の範囲等に特定して、部分映像を抽出する範囲を映像の上側の範囲あるいは下側の範囲に限定してもよいし、候補オブジェクトと撮影位置との距離や、候補オブジェクトの大きさ等によって抽出する部分映像の範囲を限定してもよい。
また、セグメンテーションを用いた部分映像を抽出方法を利用してもよい。セグメンテーションとは、画素および領域の色、エッジ、境界の複雑度等を分析して映像をいくつかの領域に分割することである。
セグメンテーションは、例えば、On image segmantation for object image retrieval、Hirata,K.;Kasutani,E.;Hara,Y.、Pattern Recognition、2002、Proceedengs.16th International Conference,on Volume 3、P.1031−1034に記載の方法を利用して行われる。
セグメンテーションは、まず、隣接する同色の画素の集合による領域を生成する。そして、複雑な境界によって隣接し、互いに類似する色の領域を結合する。
次に、距離が近く、色と、模様とが類似する領域を結合する。そして、境界が複雑であって距離が近く、色と、模様とが類似する領域を結合する。最後に、広い領域の周辺に点在する狭い領域を、広い領域に結合する。
図14に領域に分割する映像の一例を示し、映像を領域に分割して抽出する方法について具体的に説明する。図14において、抽出する領域は、映像の右側に位置するBタワーであるものとする。
まず、セグメンテーションの方法を利用して、映像を、色およびエッジにより領域に分割する。領域に分割されたBタワーを図15の左の図に示す。分割された領域をRi(i=1〜p)とする。Bタワーは、R4〜R7の領域に分割されたことが分かる。次に、セグメンテーションの方法を利用して、分割された領域を結合する。結合されたBタワーの領域の図を図15の右の図に示す。RiとRjとを結合した領域をRi−jとすると、結合されたBタワーの領域はR4−5−6−7となり、Bタワーの領域が結合されたことが分かる。
このように、領域Riと領域Rjとを結合させたRi−jの生成を繰り返す。部分映像は、複数の領域同士の組み合わせの結合を行い、結合されたそれぞれの領域を抽出したものである。
また、領域の分割および領域の結合を効果的に行うため、候補オブジェクト毎に、領域を分割する方法と領域を結合する方法とを変更するとよい。以下、候補オブジェクトの視覚的特徴量を用いた領域の分割方法と結合方法との変更について、図16に映像の一例の図を示して説明する。図2のBタワーの欄に示すように、Bタワーの視覚的特徴量のエッジヒストグラムは、斜めの要素が大きいことが記述され、ドミナントカラーは「赤」および「白」の要素が強いことが記述されている。
そのため、領域の分割を行う際に、斜めエッジの境界線と、赤色の領域と、白色の領域とに対して感度を高めるように部分映像抽出手段310のパラメータを変更して分割を行うと、図17に示すように領域を分割することができる。図17において、実線部分が分割された領域の境界線を表している。このように、領域の分割と結合とを行うことにより、領域の数を減少させ、抽出する部分映像の数を減少させることができる。また、部分映像抽出手段310は、候補オブジェクトの視覚的特徴量に応じて、例えば、輝度情報や、色情報、形状の情報、模様の情報、大きさの情報等の情報のうちの1つの条件、または複数を組み合わせた条件に合致する映像の領域の部分映像を抽出してもよい。
部分映像抽出手段310は、抽出した部分映像を、視覚的特徴量設定手段311に出力する。視覚的特徴量設定手段311は、部分映像抽出手段310が抽出した部分映像の視覚的特徴量を、公知の種々の方法のいずれかを用いて例えば前述した文献Aに記載の方法で算出して設定する(ステップA8)。そして、視覚的特徴量設定手段311は、設定した視覚的特徴量を特徴量比較手段312に出力する。
特徴量比較手段312は、候補オブジェクトの視覚的特徴量FOiと部分映像の視覚的特徴量Frとの類似度MSiを算出する。図18に、部分映像と候補オブジェクトとを比較する例を示す。ここで、候補オブジェクトの視覚的特徴量FOiは、FOi=(ドミナントカラー,カラーレイアウト,エッジヒストグラム,リージョンベースド形状記述子,・・・)で表されるものとし、部分映像の視覚的特徴量Frは、Fr=(ドミナントカラー,カラーレイアウト,エッジヒストグラム,リージョンベースド形状記述子,・・・)で表されるものとする。そして、類似度ベクトルSiは、Si=(ドミナントカラーの類似度,カラーレイアウトの類似度,エッジヒストグラムの類似度,リージョンベースド形状記述子の類似度,・・・)で表されるものとする。
ここで、ドミナントカラーの類似度は、候補オブジェクトの代表色と部分映像の代表色との相関を考慮して算出される。カラーレイアウトの類似度は、色成分毎と、周波数成分毎との視覚特性を反映する重み付けを、輝度成分係数と色差成分係数とに導入して算出したL2ノルム和である。エッジヒストグラムの類似度は、例えば5個のエッジ要素による、候補オブジェクトのヒストグラムと部分映像のヒストグラムとにおける各エッジ要素の差分絶対値和である。リージョンベースド形状記述子の類似度は、記述子を構成する要素毎に算出した、部分映像と候補オブジェクトとの差分絶対値和である。
すると、類似度MSiは(4)式のように表し、類似度を算出する(ステップA9)。
Figure 2004095374
ただし、類似度ベクトルSiの成分である各類似度は、0以上で1以下になるように正規化しておくものとする。
また、視覚的特徴量比較手段31が、テンプレート映像を視覚的特徴量に用いた場合の類似度の計算方法について説明する。テンプレート映像をToi(x,y)、映像をF(x,y)テンプレート映像の面積をSFとすると、類似度MSi(X,Y)は(5)式のように表し、算出することができる。
Figure 2004095374
テンプレート映像の範囲を、例えば0≦x≦29と0≦y≦49とすると、(5)式は、映像上のある一点(X,Y)からテンプレート映像の範囲の領域の映像と、テンプレート映像との類似度を表している。
以上の類似度の算出を、映像全体または部分映像抽出手段310が抽出したすべての部分映像について行い、算出した類似度を判定手段32に出力する。ここで、映像全体または部分映像と、候補オブジェクトとの関係は、算出した類似度の数値が小さいほど視覚的な類似性が強いことを表す。そこで、以下、算出した類似度の数値が最も少ないものを、最大類似度と記す。
判定手段32は、候補オブジェクトに対する最大の類似度MSmaxiを抽出して最大類似度MSmaxiがあらかじめ決められたしきい値Thiより小さいか否かの判定を行う(ステップA11)。
最大類似度MSmaxiがしきい値Thiより小さい場合、判定手段32は、候補オブジェクトが映像中に存在すると判断して、候補オブジェクトである地理オブジェクトが撮影されている部分映像と、候補オブジェクトの意味情報と記憶装置2から読み出し、対応付けて出力する(ステップA12)。つまり、映像にアノテーションを付与する。出力先は、例えば液晶表示装置等の表示装置、ハードディスク装置やメモリ等の記憶装置等である。
なお、図19に示すような、例えば、お寺等の複数の建造物からなる地理オブジェクトでは、お寺全体の視覚的特徴量が見る位置により大きく異なることがある。そこで、地理オブジェクトである個々の建造物(例えば、本堂と五重塔等。)の地理オブジェクトに対応する意味情報を階層的に(例えばツリー状に)記憶装置2に記憶させておくことが好ましい。例えば、複数の意味情報に共通する概念(共通概念)が存在する場合に、それらの意味情報は、ツリーの1つのノードから延びる複数の枝に相当する意味情報として記憶装置2に記憶される。そして、ツリーのノードに相当する共通意味情報(各意味情報の共通概念を示す意味情報)も、記憶装置2に記憶させておくことが好ましい。さらに、複数の共通意味情報に共通する概念が存在する場合に、それらの共通意味情報は、ツリーの1つのノードから延びる複数の枝に相当する上位層の共通意味情報として記憶装置2に記憶される。そして、共通意味情報のノードに相当する上位層の共通意味情報も、記憶装置2に記憶させておくことが好ましい。すなわち、図20に示すように、地理オブジェクトの集合(例えば、本堂と五重塔。)の階層的な上位概念の意味情報(例えば、D寺。)をあらかじめ作成しておく。そして、判定手段32は、図19中に円で示したように、抽出された地理オブジェクトについて、共通意味情報の下位概念に相当する意味情報(例えば、本堂または五重塔。)に対応する地理オブジェクトを認識すると、地理オブジェクトの集合の上位概念として「D寺」というアノテーションを付与する。
同様に、例えば、図21に示すCビルディング等の地理オブジェクトの輪郭は、撮影方向によって大きく異なる場合がある。図22に示すように、そのような地理オブジェクトの構成を分割し、分割された各々の地理オブジェクトの視覚的特徴量をそれぞれ記憶装置2に記憶させてもよい。その場合、図20に示すように、分割された各々の地理オブジェクトの意味情報の上位概念に相当する共通意味情報(例えば、「Cビルディング」)を記憶装置2に記憶させ、さらに、共通意味情報の上位概念に相当する上位層の共通意味情報(例えば、「新宿副都心ビルディング群」)があれば、それも記憶装置2に記憶させておく。部分映像抽出手段310が、分割された地理オブジェクトの各部分を別個の地理オブジェクトとして抽出した場合に、判定手段32は、抽出された地理オブジェクトについて、意味情報(例えば、「Cビルディング右」)の上位概念である共通意味情報が記憶手段2に記憶されているか否か判定する。そして、共通意味情報が記憶手段2にあれば、地理オブジェクトの集合の上位概念として「Cビルディング」というアノテーションを付与する。
例えば木や人等の障害物によって地理オブジェクトの一部が隠れてしまう場合や、複雑な形状の地理オブジェクトの一部分によって他の大部分が隠れてしまう場合のように、地理オブジェクトの全体を撮影されていない映像が入力装置1に入力された場合がある。そのような場合、地理オブジェクトの一部を分割してそれぞれの地理オブジェクトの視覚的特徴量を記憶装置2に記憶させておけば、部分映像抽出手段310は、撮影されている一部の部分によって地理オブジェクトを認識して部分映像を抽出することができる。すると、地理オブジェクトを分割しないで部分映像を抽出する場合と比べて、建物の向きの変動に強いアノテーションの付与を行うことができる。
また、地理オブジェクトの全体のみならず、これに加えて、またはこれに代えて、一部が隠れた地理オブジェクトの視覚的特徴量や、一方向のみならず、これに加えて、またはこれに代えて、様々な方向・位置から撮影した地理オブジェクトの視覚的特徴量を複数あらかじめ記憶装置2に記憶させておいてもよい。これにより入力映像の撮影位置、または、撮影方向に最も近い方向から撮影された際の特徴量を用いることにより見る向きにより視覚的特徴が大きく異なる地理オブジェクトにも対応することができる。
以上の、ステップA6からステップA12までの各ステップを、すべての候補オブジェクトについて繰り返し行う(ステップA13)。本発明による映像アノテーション付与装置は、入力装置1に入力された映像の一コマ一コマに対して、ステップA1からステップA13までの処理を行う。しかし、例えば、映像入力機器が撮影する映像が一秒間に30コマであって、入力装置1に入力される映像が一秒間に3コマである場合には、映像入力機器が撮影した10コマの映像のうち、1コマの映像に対してのみアノテーションの付与が行われる。そこで、そのような場合には、アノテーションの出力を1/3秒間保持してもよい。そのような構成によれば、映像入力機器が撮影した映像に対して途切れることなくアノテーションの付与を行うことができる。
この実施の形態では、部分映像の視覚的特徴量と、記憶装置2が記憶しているオブジェクトの視覚的特徴量とを比較して、オブジェクトが映像に映っているか否かの判定を行う。そして、オブジェクトが映像に映っていると判定した場合に、オブジェクトとアノテーションとを対応付けるため、実際には映像に映っていないオブジェクトのアノテーションと映像とを対応付けることを防ぐことができる。また、部分映像との類似度を算出する地理オブジェクトを、記憶装置2が記憶している地理オブジェクトのうち、撮影空間に存在するか否か等の条件に合致する地理オブジェクトに絞り込んでいる。そのため、視覚的特徴量比較手段31のデータ処理の負担を軽減させることができる。
(発明の第2の実施の形態)
図23に、本発明の第2の実施の形態を説明するブロック図を示し、この実施の形態の構成について説明する。本発明の第2の実施の形態は、映像および映像を撮影した状況の情報である撮影情報が入力される入力装置1と、映像の被写体であるオブジェクトの情報を記憶する記憶装置2と、撮影情報とオブジェクトの情報とを比較して、オブジェクトが映像に撮影されているか否かを判定するオブジェクト認識装置4とを含む。
入力装置1と記憶装置2とは、第1の実施の形態と同様なため、説明を省略する。オブジェクト認識装置4は、撮影情報を構成する位置情報と地理オブジェクトの位置情報とに基づいて、地理オブジェクトが撮影されている確率である存在確率を算出する撮影空間推定手段、マッチング手段および存在確率算出手段(例えば、存在確率算出手段40。)と、記憶装置2が記憶している地理オブジェクトの視覚的特徴量と、入力装置1に入力された映像の一部分の領域または全体の視覚的特徴量との類似度を算出する類似度算出手段(例えば、視覚的特徴量比較手段41。)と、存在確率と類似度とを総合的に評価して、地理オブジェクトが撮影されているか否かを判断する判定手段42とを含む。
図24に、視覚的特徴量比較手段41の一構成例を示し、構成について説明する。視覚的特徴量比較手段41は、入力装置1に入力された映像から、部分映像を抽出する部分映像抽出手段410と、抽出した部分映像の視覚的特徴量を設定する視覚的特徴量抽出411と、記憶装置2が記憶している地理オブジェクトの視覚的特徴量と、部分映像の視覚的特徴量との類似度を算出する特徴量比較手段412とを含む。
次に、この実施の形態の動作について説明する。この実施の形態の動作と第1の実施の形態の動作との違いは、図5に示すフローチャートにおけるステップA5とステップA11とである。そのため、その他の動作については説明を省略する。
図5に示すフローチャートのステップA5において、第1の実施の形態では候補オブジェクト検索手段30が、候補オブジェクトの抽出を行う。しかし、この実施の形態では、候補オブジェクトの抽出を行わない。従って、特徴量比較手段412は、記憶装置2が記憶している全ての地理オブジェクトの視覚的特徴量と部分映像の視覚的特徴量との比較を行う。
図5に示すフローチャートのステップA11において、第1の実施の形態では最大類似度MSmaxiのしきい値判定を行う。しかし、この実施の形態では、存在確率算出手段40が、記憶装置2が記憶している各地理オブジェクトが撮影されている確率である存在確率Piを算出する。そして、判定手段42が、存在確率Piと特徴量比較手段412が算出した最大類似度MSmaxiの逆数とを乗じて統合スコアを算出する。算出した統合スコアの数値が、あらかじめ決められたしきい値より大きい場合、判定手段42は、地理オブジェクトが映像中に存在すると判断して記憶装置2から地理オブジェクトの意味情報を読み出す。そして、地理オブジェクトが撮影されている部分映像と、記憶装置2から読み出した地理オブジェクトの意味情報とを対応付けて出力する。
存在確率Piを求めるため、(3)式の水平距離、水平角度誤差および仰角に対して、地理オブジェクトが撮影されている確率の分布である確率密度分布をあらかじめ作成し、これらの確率密度分布に基づいて存在確率を算出する。ここで、確率密度分布は、横軸を画素数、縦軸を確率としたガウス分布である。地理オブジェクトの映像上の位置の誤差は、GPSの計測精度と、撮影方向の角度の精度と、撮影位置から地理オブジェクトまでの距離とに基づいて誤差が推定できるので、その誤差をガウス分布のσ値とする等して確率密度関数を決定する。
この実施の形態では、地理オブジェクトが撮影されている確率と、部分映像の視覚的特徴量と、記憶装置2が記憶しているオブジェクトの視覚的特徴量とを比較した結果とに基づいて、オブジェクトが映像に映っているか否かの判定を行う。そのため、撮影空間に存在するオブジェクトであっても、映像に写っている確率が低いオブジェクトのアノテーションを、映像に対応付けることを防ぐことができる。
(発明の第3の実施の形態)
図25に、本発明の第3の実施の形態を説明するブロック図を示し、この実施の形態の構成について説明する。本発明の第3の実施の形態は、第1の実施の形態の構成に、レイアウト装置51と、表示装置52とを加えた構成である。そのため、第1の実施の形態と同様な装置等には図1と同様な符号を用いて、説明を省略する。表示位置決定手段は、レイアウト装置51によって実現される。
レイアウト装置51は、映像と、映像から抽出した部分映像に付与したアノテーションとを重畳して表示させる場合のアノテーションの表示位置を決定して、表示装置52に出力する。表示装置52は、映像にアノテーションを重畳し、レイアウト装置51が決定した表示位置にアノテーションを表示する。
図26は、表示装置52がアノテーションを映像に重畳させて表示した場合の表示例である。レイアウト装置51は、アノテーションの表示位置を、部分映像の真下、真上、右、または左のいずれかの位置であって、他の部分映像に重ならない位置に決定する。図26のように、他の部分映像が存在するために、所定の距離を超えて部分映像から離れた位置にアノテーションを表示位置させるときは、部分映像とアノテーションとを矢印でつないで表示させるとよい。
この実施の形態では、アノテーションを表示させる映像上の位置を決定する。そのため、オブジェクトとアノテーションとの対応を映像で表すことができる。
(発明の第4の実施の形態)
図27に、本発明の第4の実施の形態を説明するブロック図を示し、この実施の形態の構成について説明する。本発明の第4の実施の形態は、第1の実施の形態の構成に、アノテーション結果記憶装置61を加えた構成である。そのため、第1の実施の形態と同様な装置等には、図1と同様な符号を用いて、説明を省略する。
アノテーション結果記憶装置61は、部分映像と、部分映像に対応付けられた地理オブジェクトの意味情報との組を、対応を保持したまま記憶する。記憶媒体は、例えばメモリ、ハードディスク装置、CD−ROM、またはDVD−RAM等である。また、アノテーション結果記憶装置61は、部分映像の映像上の位置の情報を記憶してもよく、入力されたキーワードに合致する映像を出力してもよい。例えば、全体の映像における部分映像の位置を、x座標とy座標との数値で特定できる場合であって、アノテーション結果記憶装置61が、Bタワーが左側に写っている映像と、意味情報(Bタワー)と、全体の映像における部分映像の位置((x,y)=(120,240))の情報の組を対応させて記憶した場合、「オブジェクト=Bタワー」と、「領域=x<320」とのキーワードが入力されると、以下のように映像が抽出される。ここで、全体の映像のxの最大値は640であったとする。
まず、意味情報が「Bタワー」であって、全体の映像における部分映像の位置が「x<320」であるという条件に合致する意味情報とオブジェクトの領域との組を検索して特定する。すると、特定した組に対応付けられた映像である「Bタワーが左側に写っている映像」を抽出することができる。利用者はアノテーション結果記憶装置61が備えるキーボード等を介してキーワードを入力してもよいし、マイクロフォン等を介して音声入力を行ってもよい。また、利用者があらかじめアノテーション結果記憶装置61に自己の嗜好を記憶させ、アノテーション結果記憶装置61が記憶している利用者の嗜好に基づいてキーワードを生成してもよい。
この実施の形態は、アノテーションと、映像データに含まれるオブジェクトとを対応させて記憶するアノテーション結果記憶手段を備える。そのため、記憶したアノテーションと映像データに含まれるオブジェクトとの対応させに基づいて、映像データの検索を行うことができる。
(発明の第5の実施の形態)
図28に本発明の第5の実施の形態における視覚的特徴量比較手段を説明するブロック図を示し、この実施の形態の構成について説明する。
本発明の第5の実施の形態は、第1の実施の形態における視覚的特徴量比較手段の図4の構成に、結果保持手段513を加えた構成である。結果保持手段513は、特徴量比較手段512で算出した類似度を記録し類似度が高い部分映像のみを抽出する。
次に、この実施の形態の動作について説明する。この実施の形態の動作と第1の実施の形態の動作との違いは、図29に示すフローチャートにおけるステップA101からステップA106とである。そのため、その他の動作については説明を省略する。
図29に示すフローチャートのステップA101において、入力映像をセグメンテーションにより分割する。この分割された領域の組み合わせを結合して領域を得る。しかし、組み合わせ数は(2の領域数乗)−1であるため、領域数bの増加により単純組み合わせ数が指数関数的に増加してしまう。そこで、組み合わせの評価を階層的に行い絞り込む方法を導入する。例えば、図30に示すように、階層の1段目では、1領域と対象ランドマークとの類似度を計算し、上位m個の領域のみを次段に引き渡し、m+1位以下の組み合わせについては今後評価対象としない。n段階目では、n−1段目で抽出されたn−1領域の組み合わせに対し、新たな1領域を加えたn個の領域を組み合わせ(ステップA102)、特徴量を抽出し(ステップA103)、対象ランドマークとの類似度を計算し(ステップA104)、上位m個の組み合わせを抽出する(ステップA107)。この処理をL(<b)段まで行い(ステップA106)、最大類似度となる組み合わせ領域を出力する。これにより、組み合わせ数を最大a(b(1+m)−m)と比例オーダに抑えることができる。このように視覚的に分割された領域を組み合わせていくことにより、対象ランドマークと異なる視覚的特徴をもつ隠蔽物を取り除いたランドマーク領域を抽出することが出来る。
このとき、組み合わせ段数に応じて、類似度ベクトルSi計算の際に特徴量の重み付けを変更してもよい。例えば、組み合わせの段数が少ない場合は、組み合わせ領域は対象ランドマークの一部分でしかないと考えられるため、類似度ベクトルSi計算の際に形状に関する特徴量(リージョンベースド形状記述子)の類似度に小さな係数を重み付けし、形状に関する類似度の効果を低減させ、組み合わせの段数が多い場合は、類似度に大きな係数を重み付けし、形状の効果を増大させることで、効果的な絞込みを行える。
また、以上に述べた本発明による各実施の形態の構成は、車両案内システム(カーナビゲーションシステム)に搭載されて実現されてもよい。
以上に述べた本発明による各実施の形態は、撮影位置とオブジェクトとの距離の計測を行わずに、撮影されたオブジェクトと記憶装置が記憶しているオブジェクトとの対応付けを行う。撮影位置とオブジェクトとの距離に基づいて、撮影されたオブジェクトと記憶装置が記憶しているオブジェクトとの対応付けを行う方法がある。その場合に行われる撮影位置とオブジェクトとの距離の計測は、複数のカメラを用いたステレオ視の方法や、レーザ等を用いた光学的距離測定方法がある。しかし、これらの方法を用いた距離の測定には、複数のカメラあるいは光学式距離測定装置を必要とし、距離の測定に時間を要する。また、オブジェクト付近の木や看板等と、オブジェクトとの距離による識別は困難であるという問題がある。

Claims (29)

  1. 映像データと、撮影空間を決定しうる情報である撮影情報とを入力する入力手段と、
    オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報とを対応させて記憶する記憶手段と、
    入力された映像データによる映像に含まれるオブジェクトを認識するオブジェクト認識手段とを備え、
    前記オブジェクト認識手段は、
    撮影情報に基づいて撮影空間を推定する撮影空間推定手段と、
    撮影空間と、前記記憶手段に記憶されているオブジェクトの位置情報が示す位置とのマッチングを行うマッチング手段と、
    入力された映像データから、映像データによる映像の一部分の領域の映像データまたは映像全体の映像データである部分映像データを抽出する部分映像抽出手段と、
    部分映像データの視覚的特徴情報を生成する視覚的特徴情報設定手段と、
    部分映像データの視覚的特徴情報と、前記記憶手段が記憶しているオブジェクトの視覚的特徴情報とを比較して類似度を算出する類似度算出手段と、
    前記マッチング手段のマッチングの結果と、算出した類似度とに基づいて、入力された映像データによる映像中にオブジェクトが存在しているか否かを判定する判定手段とを備えた映像オブジェクト認識装置。
  2. 映像データと、撮影空間を決定しうる情報である撮影情報とを入力する入力手段と、
    オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とを対応させて記憶する記憶手段と、
    入力された映像データによる映像に含まれるオブジェクトと、付加情報とを対応付けるオブジェクト認識手段とを備え、
    前記オブジェクト認識手段は、
    撮影情報に基づいて撮影空間を推定する撮影空間推定手段と、
    撮影空間と、前記記憶手段に記憶されているオブジェクトの位置情報が示す位置とのマッチングを行うマッチング手段と、
    入力された映像データから、映像データによる映像の一部分の領域の映像データまたは映像全体の映像データである部分映像データを抽出する部分映像抽出手段と、
    部分映像データの視覚的特徴情報を生成する視覚的特徴情報設定手段と、
    部分映像データの視覚的特徴情報と、前記記憶手段が記憶しているオブジェクトの視覚的特徴情報とを比較して類似度を算出する類似度算出手段と、
    前記マッチング手段のマッチングの結果と、算出した類似度とに基づいて、入力された映像データによる映像に含まれるオブジェクトを特定し、特定したオブジェクトと、前記記憶手段が記憶している付加情報とを対応付ける判定手段とを備えた映像アノテーション付与装置。
  3. 前記オブジェクト認識手段は、
    撮影空間と、記憶手段が記憶しているオブジェクトの位置情報とに基づいてオブジェクトが映像に含まれている確率である存在確率を算出する存在確率算出手段を含み、
    前記判定手段は、算出した存在確率と類似度とに基づいて映像に含まれるオブジェクトを特定し、特定したオブジェクトと前記記憶手段が記憶している付加情報とを対応付ける
    請求の範囲第2項に記載の映像アノテーション付与装置。
  4. 前記部分映像抽出手段は、
    前記記憶手段が記憶しているオブジェクトの位置情報に基づいて、映像におけるオブジェクトが位置する範囲を特定し、特定した範囲から部分映像データを抽出する
    請求の範囲第3項に記載の映像アノテーション付与装置。
  5. 前記オブジェクト認識手段は、
    撮影空間と位置情報とに基づいて撮影空間に存在するオブジェクトである候補オブジェクトの抽出を行う候補オブジェクト検索手段を含み、
    前記類似度算出手段は、部分映像データの視覚的特徴情報と、記憶手段が記憶している候補オブジェクトの視覚的特徴情報とを比較して類似度を算出する
    請求の範囲第2項に記載の映像アノテーション付与装置。
  6. 前記部分映像抽出手段は、
    前記記憶手段が記憶している候補オブジェクトの位置情報に基づいて、映像におけるオブジェクトが位置する範囲を特定し、特定した範囲の映像から部分映像データを抽出する
    請求の範囲第5項に記載の映像アノテーション付与装置。
  7. 映像を表示する表示手段と、
    前記表示手段に、映像に含まれるオブジェクトに対応付けられた付加情報を表示させる位置を指定して付加情報を映像に重畳して表示させる表示位置決定手段とを備えた
    請求の範囲第2項に記載の映像アノテーション付与装置。
  8. 付加情報と映像に含まれるオブジェクトとを対応させて記憶するアノテーション結果記憶手段を備えた
    請求の範囲第2項に記載の映像アノテーション付与装置。
  9. 前記部分映像抽出手段は、
    抽出する部分映像データによる映像の領域の形状と大きさとを任意に変更可能な機能を有する
    請求の範囲第2項に記載の映像アノテーション付与装置。
  10. 前記部分映像抽出手段は、
    輝度情報と、色情報と、形状の情報と、模様の情報と、大きさの情報とのうちの1つの条件、または複数を組み合わせた条件に合致する映像の領域の部分映像データを抽出する
    請求の範囲第2項に記載の映像アノテーション付与装置。
  11. 前記部分映像抽出手段は、
    複数の情報を組み合わせた条件に合致する映像の領域の部分映像データを抽出する場合、マッチング手段のマッチングの結果と、記憶手段が記憶しているオブジェクトの視覚的特徴情報とに基づいて、各条件に対する重み付けを行って部分映像データを抽出する
    請求の範囲第10項に記載の映像アノテーション付与装置。
  12. 前記記憶手段が記憶するオブジェクトの視覚的特徴情報は、オブジェクトに類似する視覚的な特徴を有する映像であるテンプレート映像である
    請求の範囲第2項に記載の映像アノテーション付与装置。
  13. 前記記憶手段が記憶するオブジェクトの視覚的特徴情報は、色情報、形状の情報、模様の情報および大きさの情報のうち1つ、または複数の情報によって構成され、
    前記視覚的特徴情報設定手段が生成する部分映像データの視覚的特徴情報は、色情報と、形状の情報と、模様の情報と、大きさの情報とのうち1つの情報、または複数の情報によって構成される
    請求の範囲第2項に記載の映像アノテーション付与装置。
  14. 前記記憶手段が記憶するオブジェクトの位置情報は、オブジェクトの形状に類似した形状の円錐、円柱、または立方体等の立体幾何学の立体形状を用いて近似した立体形状の頂点のうちの1つの頂点、または中心点、もしくは重心点のいずれかの位置を特定する情報である
    請求の範囲第2項に記載の映像アノテーション付与装置。
  15. 前記記憶手段が記憶するオブジェクトの位置情報は、オブジェクトの形状を多角形の面を用いて近似した三次元形状の頂点のうち少なくとも1つの頂点の位置を特定する情報である
    請求の範囲第2項に記載の映像アノテーション付与装置。
  16. 前記記憶手段が記憶するオブジェクトの位置情報は、オブジェクトの頂点のうち、最も標高が高い頂点の位置を特定する情報である
    請求の範囲第2項に記載の映像アノテーション付与装置。
  17. 前記記憶手段が記憶するオブジェクトの位置情報は、緯度と経度と標高とによってオブジェクトの位置を特定する情報である
    請求の範囲第2項に記載の映像アノテーション付与装置。
  18. 前記記憶手段は、複数のオブジェクトのそれぞれに対応した付加情報に共通する概念にもとづく共通付加情報、または複数の共通付加情報に共通する概念にもとづく共通付加情報を階層的に記憶し、
    前記判定手段は、撮影されたオブジェクトの付加情報または共通付加情報に対応する共通付加情報が存在するか否か判定し、存在する場合には、そのオブジェクトに共通付加情報を対応付ける
    請求の範囲第2項に記載の映像アノテーション付与装置。
  19. 前記撮影情報は、撮影した日付と時刻とを特定する情報である撮影日時情報を含み、
    前記記憶手段は、撮影した日付と、時刻とに応じた視覚的特徴情報を記憶し、
    前記類似度算出手段は、部分映像データの視覚的特徴情報と、撮影日時情報が特定する日付と、時刻とに応じた視覚的特徴情報とを比較して類似度を算出する
    請求の範囲第2項に記載の映像アノテーション付与装置。
  20. 前記部分映像抽出手段は、
    前記入力された映像データから領域を分割し、分割された領域を前記部分映像データとする
    請求の範囲第10項に記載の映像アノテーション付与装置。
  21. 前記部分映像抽出手段は、
    前記分割された領域の組み合わせにより前記部分映像データとする
    請求の範囲第20項に記載の映像アノテーション付与装置。
  22. 前記部分映像抽出手段は、
    前記分割領域の組み合わせの評価を階層的に行うことで部分映像データを生成する
    請求の範囲第21項に記載の映像アノテーション付与装置。
  23. 前記部分映像抽出手段は、
    前記分割領域の組み合わせ階層評価として、同一領域数の組み合わせから前記類似度の高い特定数のみ以後の組み合わせに用いる
    請求の範囲第22項に記載の映像アノテーション付与装置。
  24. 前記記憶手段が記憶するオブジェクトの視覚的特徴情報として、
    一方向または、複数方向からの全体像または一部分のオブジェクトにおける視覚的情報を複数保持する
    請求の範囲第2項に記載の映像アノテーション付与装置。
  25. 車両に搭載され、GPSを用いて自己の位置を表示装置が表示する地図上に示す車両案内システムであって、
    請求の範囲第2項に記載の映像アノテーション付与装置を備えた車両案内システム。
  26. 映像データと、撮影空間を決定しうる情報である撮影情報とを入力し、
    オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報とを対応させて記憶し、
    撮影情報に基づいて撮影空間を推定し、
    撮影空間と、記憶されているオブジェクトの位置情報が示す位置とのマッチングを行い、
    入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出し、
    部分映像データの視覚的特徴情報を生成し、
    部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出し、
    マッチングの結果と、算出した類似度とに基づいてオブジェクトが撮影されているか否かを判定する映像オブジェクト認識方法。
  27. 映像データと、撮影空間を決定しうる情報である撮影情報とを入力し、
    オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とを対応させて記憶し、
    撮影情報に基づいて撮影空間を推定し、
    撮影空間と、記憶されているオブジェクトの位置情報が示す位置とのマッチングを行い、
    入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出し、
    部分映像データの視覚的特徴情報を生成し、
    部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出し、
    マッチングの結果と、算出した類似度とに基づいて映像データに含まれるオブジェクトを特定し、特定したオブジェクトと記憶されている付加情報によって構成されるアノテーションとを対応付ける映像アノテーション付与方法。
  28. 映像データに、記憶されているオブジェクトが被写体として含まれているか否かを判定する映像オブジェクト認識装置に搭載される映像オブェクト認識プログラムであって、
    コンピュータに、
    オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報とを対応させて記憶装置に記憶させる処理と、
    撮影空間を決定しうる情報である撮影情報に基づいて撮影空間を推定する処理と、
    撮影空間と、前記記憶装置が記憶しているオブジェクトの位置情報が示す位置とのマッチングを行う処理と、
    入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出する処理と、
    部分映像データの視覚的特徴情報を生成する処理と、
    部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出する処理と、
    マッチングの結果と、算出した類似度とに基づいてオブジェクトが撮影されているか否かを判定する処理とを実行させる映像オブジェクト認識プログラム。
  29. オブジェクトと、記憶されているオブジェクトの情報とを対応付ける映像アノテーション付与装置に搭載される映像アノテーション付与プログラムであって、
    コンピュータに、
    オブジェクトの位置の情報である位置情報と、オブジェクトの視覚的な特徴を数値化した情報である視覚的特徴情報と、オブジェクトに付加される情報である付加情報とを対応させて記憶装置に記憶させる処理と、
    撮影空間を決定しうる情報である撮影情報に基づいて撮影空間を推定する処理と、
    撮影空間と、前記記憶装置が記憶しているオブジェクトの位置情報が示す位置とのマッチングを行う処理と、
    入力された映像データから、映像データによる映像の一部分の領域または映像全体の映像データである部分映像データを抽出する処理と、
    部分映像データの視覚的特徴情報を生成する処理と、
    部分映像データの視覚的特徴情報と、記憶されているオブジェクトの視覚的特徴情報とを比較して類似度を算出する処理と、
    マッチングの結果と、算出した類似度とに基づいて映像データに含まれるオブジェクトを特定し、特定したオブジェクトと記憶されている付加情報によって構成されるアノテーションとを対応付ける処理とを実行させる映像アノテーション付与プログラム。
JP2005505722A 2003-04-21 2004-04-15 映像オブジェクト認識装置、映像オブジェクト認識方法、および映像オブジェクト認識プログラム Expired - Fee Related JP4488233B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003115437 2003-04-21
JP2003115437 2003-04-21
PCT/JP2004/005372 WO2004095374A1 (ja) 2003-04-21 2004-04-15 映像オブジェクト認識装置および認識方法、映像アノテーション付与装置および付与方法ならびにプログラム

Publications (2)

Publication Number Publication Date
JPWO2004095374A1 true JPWO2004095374A1 (ja) 2006-07-13
JP4488233B2 JP4488233B2 (ja) 2010-06-23

Family

ID=33307953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005505722A Expired - Fee Related JP4488233B2 (ja) 2003-04-21 2004-04-15 映像オブジェクト認識装置、映像オブジェクト認識方法、および映像オブジェクト認識プログラム

Country Status (5)

Country Link
EP (1) EP1622081A1 (ja)
JP (1) JP4488233B2 (ja)
KR (1) KR100743485B1 (ja)
CN (1) CN100371952C (ja)
WO (1) WO2004095374A1 (ja)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2421653A (en) * 2004-12-24 2006-06-28 Trek Wireless Ltd System for the collection and association of image and position data
JP4601666B2 (ja) * 2005-03-29 2010-12-22 富士通株式会社 映像検索装置
JP2006338214A (ja) * 2005-06-01 2006-12-14 Sony Corp 画像処理装置、携帯型画像処理装置、印刷装置、インデックス画像示方法及びプログラム
JP4757001B2 (ja) 2005-11-25 2011-08-24 キヤノン株式会社 画像処理装置、画像処理方法
CN101322123A (zh) * 2005-11-30 2008-12-10 皇家飞利浦电子股份有限公司 用于更新用户简档的方法和系统
GB2437137A (en) * 2006-04-03 2007-10-17 Autoliv Development Ab Drivers aid that sensors the surrounding of the vehicle, and with a positioning system compares the detected objects to predict the driving conditions
KR100775354B1 (ko) 2006-04-27 2007-11-09 팅크웨어(주) 네비게이션 배경 정보 제공 방법 및 이를 이용한네비게이션 시스템
JP4926533B2 (ja) 2006-05-02 2012-05-09 キヤノン株式会社 動画像処理装置、動画像処理方法及びプログラム
CN101553831A (zh) * 2006-09-18 2009-10-07 诺基亚公司 用于使用便携式设备查看虚拟数据库的方法、装置和计算机程序产品
JP4942177B2 (ja) * 2006-11-20 2012-05-30 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
EP2154481B1 (en) * 2007-05-31 2024-07-03 Panasonic Intellectual Property Corporation of America Image capturing device, additional information providing server, and additional information filtering system
US8994851B2 (en) 2007-08-07 2015-03-31 Qualcomm Incorporated Displaying image data and geographic element data
US9329052B2 (en) 2007-08-07 2016-05-03 Qualcomm Incorporated Displaying image data and geographic element data
KR100933304B1 (ko) * 2007-08-30 2009-12-22 중앙대학교 산학협력단 단일 카메라를 이용한 객체 정보 추정기, 그 방법, 상기 추정기를 포함하는 멀티미디어 기기 및 컴퓨터 기기, 및 상기 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체
WO2009035108A1 (ja) 2007-09-14 2009-03-19 The University Of Tokyo 対応関係学習装置および方法ならびに対応関係学習用プログラム、アノテーション装置および方法ならびにアノテーション用プログラム、および、リトリーバル装置および方法ならびにリトリーバル用プログラム
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
US8131750B2 (en) * 2007-12-28 2012-03-06 Microsoft Corporation Real-time annotator
KR100958379B1 (ko) * 2008-07-09 2010-05-17 (주)지아트 복수 객체 추적 방법과 장치 및 저장매체
CN101350103B (zh) * 2008-08-05 2011-11-16 深圳市蓝韵实业有限公司 一种医学图像多元化分组留痕信息的实现方法
US8254678B2 (en) * 2008-08-27 2012-08-28 Hankuk University Of Foreign Studies Research And Industry-University Cooperation Foundation Image segmentation
WO2010026170A1 (en) 2008-09-02 2010-03-11 Ecole Polytechnique Federale De Lausanne (Epfl) Image annotation on portable devices
KR101025651B1 (ko) * 2008-11-13 2011-03-31 엘지전자 주식회사 영상 객체 인식 장치 및 방법
CN101799621B (zh) * 2009-02-05 2012-12-26 联想(北京)有限公司 一种拍摄方法和拍摄设备
JP4816748B2 (ja) * 2009-03-06 2011-11-16 ソニー株式会社 ナビゲーション装置及びナビゲーション方法
KR100975128B1 (ko) * 2010-01-11 2010-08-11 (주)올라웍스 뷰잉 프러스텀을 이용하여 객체에 대한 정보를 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US8315673B2 (en) * 2010-01-12 2012-11-20 Qualcomm Incorporated Using a display to select a target object for communication
JP5684992B2 (ja) * 2010-02-26 2015-03-18 キヤノン株式会社 情報処理システム、情報処理装置、処理方法及びプログラム
US8279418B2 (en) 2010-03-17 2012-10-02 Microsoft Corporation Raster scanning for depth detection
JP4922436B2 (ja) * 2010-06-07 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ オブジェクト表示装置及びオブジェクト表示方法
US8687094B2 (en) * 2010-06-15 2014-04-01 Lg Electronics Inc. Mobile terminal and method of displaying object related information therein
KR101299910B1 (ko) * 2010-08-18 2013-08-23 주식회사 팬택 증강 현실 서비스의 공유 방법 및 그를 위한 사용자 단말기와 원격자 단말기
KR101293776B1 (ko) 2010-09-03 2013-08-06 주식회사 팬택 객체 리스트를 이용한 증강 현실 제공 장치 및 방법
JP5518677B2 (ja) * 2010-11-05 2014-06-11 日本電信電話株式会社 仮想情報付与装置及び仮想情報付与プログラム
EP2450667B1 (en) * 2010-11-09 2016-11-02 Harman Becker Automotive Systems GmbH Vision system and method of analyzing an image
JP5170223B2 (ja) * 2010-12-07 2013-03-27 カシオ計算機株式会社 情報表示システム、情報表示装置、情報提供装置、および、プログラム
JP5195885B2 (ja) 2010-12-07 2013-05-15 カシオ計算機株式会社 情報表示システム、情報表示装置、および、プログラム
US8265866B2 (en) * 2010-12-15 2012-09-11 The Boeing Company Methods and systems for augmented navigation
JP5014494B2 (ja) * 2011-01-21 2012-08-29 パナソニック株式会社 情報処理装置、拡張現実感システム、情報処理方法、及び情報処理プログラム
JP5511084B2 (ja) 2011-02-08 2014-06-04 パナソニック株式会社 通信装置、通信システム、通信方法、及び通信プログラム
JP2012231291A (ja) 2011-04-26 2012-11-22 Toshiba Corp 動画編集装置、動画編集方法およびプログラム
JP5762892B2 (ja) * 2011-09-06 2015-08-12 ビッグローブ株式会社 情報表示システム、情報表示方法、及び情報表示用プログラム
CN103049732A (zh) * 2011-10-11 2013-04-17 镇江精英软件科技有限公司 通过图像比对实现机动车验证的方法
US8891907B2 (en) 2011-12-06 2014-11-18 Google Inc. System and method of identifying visual objects
KR101793628B1 (ko) * 2012-04-08 2017-11-06 삼성전자주식회사 투명 디스플레이 장치 및 그 디스플레이 방법
JP5966584B2 (ja) * 2012-05-11 2016-08-10 ソニー株式会社 表示制御装置、表示制御方法およびプログラム
CN108197631B (zh) * 2012-07-23 2022-06-28 苹果公司 提供图像特征描述符的方法
TWI462065B (zh) * 2012-08-22 2014-11-21 Kinpo Elect Inc 擺動顯示方法及其裝置
CN103873925B (zh) * 2012-12-13 2017-07-25 联想(北京)有限公司 视频处理设备和方法
KR20140110584A (ko) * 2013-03-08 2014-09-17 삼성전자주식회사 증강 현실 제공 방법, 저장 매체 및 휴대 단말
CN103440318B (zh) * 2013-08-29 2016-08-17 王靖洲 移动终端的景观识别系统
JP6332937B2 (ja) * 2013-10-23 2018-05-30 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
CN103533248A (zh) * 2013-10-24 2014-01-22 腾讯科技(上海)有限公司 一种图像处理的方法、终端及系统
CN104699726B (zh) * 2013-12-18 2018-03-23 杭州海康威视数字技术股份有限公司 一种应用于交通卡口的车辆图像检索方法和装置
CN104038792B (zh) * 2014-06-04 2017-06-16 紫光软件系统有限公司 用于iptv监管的视频内容分析方法及设备
CN104301614B (zh) * 2014-10-17 2017-12-29 北京智谷睿拓技术服务有限公司 运动摄影过程中拍摄的方法和装置
WO2016157406A1 (ja) * 2015-03-31 2016-10-06 日立マクセル株式会社 画像取得装置および画像ファイル生成方法ならびに画像ファイル生成プログラム
RU2602386C1 (ru) * 2015-05-26 2016-11-20 Общество с ограниченной ответственностью "Лаборатория 24" Способ визуализации объекта
CN105740432A (zh) * 2016-01-29 2016-07-06 上海摩软通讯技术有限公司 图片生成方法及模块、图片搜索方法及系统
JP6815290B2 (ja) * 2017-07-13 2021-01-20 ヤンマーパワーテクノロジー株式会社 物体識別システム
CN110062269A (zh) 2018-01-18 2019-07-26 腾讯科技(深圳)有限公司 附加对象显示方法、装置及计算机设备
TR201819906A2 (ja) * 2018-12-20 2019-03-21 Havelsan Hava Elektronik Sanayi Ve Ticaret Anonim Sirketi
CN110147717B (zh) * 2019-04-03 2023-10-20 平安科技(深圳)有限公司 一种人体动作的识别方法及设备
US11295084B2 (en) 2019-09-16 2022-04-05 International Business Machines Corporation Cognitively generating information from videos
KR102361663B1 (ko) * 2020-04-23 2022-02-11 주식회사 키센스 인공지능을 이용한 사용자 참여형 인식 플랫폼에서 건물 용도 파악 방법 및 그 장치
US11526544B2 (en) 2020-05-07 2022-12-13 International Business Machines Corporation System for object identification

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262986A (ja) * 1985-05-17 1986-11-20 Fujitsu Ltd 立体の見えかた辞書作成装置
US6222583B1 (en) * 1997-03-27 2001-04-24 Nippon Telegraph And Telephone Corporation Device and system for labeling sight images
JP3225882B2 (ja) 1997-03-27 2001-11-05 日本電信電話株式会社 景観ラベリングシステム
JP3053172B2 (ja) * 1997-07-11 2000-06-19 日本電信電話株式会社 距離参照型景観ラベリング装置およびシステム
JP2001229382A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> 情報蓄積装置,情報検索装置および情報蓄積方法,情報検索方法並びにこれらの方法を記録した記録媒体

Also Published As

Publication number Publication date
KR100743485B1 (ko) 2007-07-30
WO2004095374A1 (ja) 2004-11-04
EP1622081A1 (en) 2006-02-01
CN100371952C (zh) 2008-02-27
CN1777916A (zh) 2006-05-24
KR20060004678A (ko) 2006-01-12
JP4488233B2 (ja) 2010-06-23

Similar Documents

Publication Publication Date Title
JP4488233B2 (ja) 映像オブジェクト認識装置、映像オブジェクト認識方法、および映像オブジェクト認識プログラム
US20060195858A1 (en) Video object recognition device and recognition method, video annotation giving device and giving method, and program
US20200401617A1 (en) Visual positioning system
JP5905540B2 (ja) 画像の少なくとも1つの特徴として記述子を提供する方法及び特徴をマッチングする方法
CN104748738B (zh) 室内定位导航方法和系统
CN109598794B (zh) 三维gis动态模型的构建方法
US10043097B2 (en) Image abstraction system
JP6022562B2 (ja) モバイル拡張現実システム
JP4717760B2 (ja) 物体認識装置および映像物体測位装置
KR100845892B1 (ko) 사진 내의 영상 객체를 지리 객체와 매핑하는 방법 및 그시스템
KR102200299B1 (ko) 3d-vr 멀티센서 시스템 기반의 도로 시설물 관리 솔루션을 구현하는 시스템 및 그 방법
MX2010014049A (es) Registro de imagenes de nivel de calle para modelos de construccion tridimensional (3d).
CN106871906B (zh) 一种盲人导航方法、装置及终端设备
US20140362082A1 (en) Automated Overpass Extraction from Aerial Imagery
CN102959946A (zh) 基于相关3d点云数据来扩充图像数据的技术
JP2009003415A (ja) 地図データ更新方法および装置
CN111383335B (zh) 一种众筹照片与二维地图结合的建筑物三维建模方法
US11972507B2 (en) Orthophoto map generation method based on panoramic map
CN106295640A (zh) 一种智能终端的物体识别方法和装置
JP2011170599A (ja) 屋外構造物計測装置及び屋外構造物計測方法
JP2006119591A (ja) 地図情報生成方法、地図情報生成プログラム及び地図情報収集装置
JP2007265292A (ja) 道路標識データベース構築装置
CN109785439A (zh) 人脸素描图像生成方法及相关产品
JP2014099055A (ja) 検出装置、検出方法、及びプログラム
JP3791186B2 (ja) 景観モデリング装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100310

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees