KR20060004678A

KR20060004678A - 영상 오브젝트 인식 장치 및 인식 방법, 영상 애너테이션부여 장치 및 부여 방법과 프로그램

Info

Publication number: KR20060004678A
Application number: KR1020057019931A
Authority: KR
Inventors: 유스께 다까하시; 교지 히라따
Original assignee: 닛본 덴끼 가부시끼가이샤
Priority date: 2003-04-21
Filing date: 2004-04-15
Publication date: 2006-01-12
Also published as: JP4488233B2; JPWO2004095374A1; WO2004095374A1; KR100743485B1; EP1622081A1; CN1777916A; CN100371952C

Abstract

오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 미리 관련지어 기억한다. 그리고, 영상의 일부분의 영역의 영상 데이터인 부분 영상 데이터를 추출한다. 추출한 부분 영상 데이터의 시각적 특징 정보를 생성하고, 부분 영상 데이터의 시각적 특징 정보와, 기억하고 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출한다. 산출한 유사도에 기초하여 영상 데이터에 포함되는 오브젝트를 특정하고, 특정한 오브젝트의 부가 정보로 이루어지는 애너테이션을 영상에 중첩하여 표시 장치에 표시시킨다.

오브젝트, 시각적 특징 정보, 부가 정보, 부분 영상 데이터, 유사도, 애너테이션

Description

영상 오브젝트 인식 장치 및 인식 방법, 영상 애너테이션 부여 장치 및 부여 방법과 프로그램{VIDEO OBJECT RECOGNITION DEVICE AND RECOGNITION METHOD, VIDEO ANNOTATION GIVING DEVICE AND GIVING METHOD, AND PROGRAM}

본 발명은, 영상의 피사체와 피사체의 정보를 대응시키는 영상 인식 장치, 영상 애너테이션 부여 장치 및 차량 안내 시스템에 관한 것이다.

최근, GPS(global positioning system)를 이용하여 현재 위치의 정보를 이용자에게 제공하는 네비게이션 시스템이 보급되어, 자동차 등에 네비게이션 시스템이 탑재되어 있다. 이들 네비게이션 시스템에는, 현재 위치에 기초한 주변의 정보를 이용자에게 제공하는 기능이 있어, 네비게이션 시스템의 이용자 단말기는, 제공된 정보를 모니터 등을 통하여 CG(Computer graphics)로 그려진 디지털 지도에 표시한다. 현재 위치의 주변의 정보를 이용자에게 제공하는 다른 방법으로는, 강화 현실 기술(Augmented Reality)을 이용하여, 주변의 정보를 실영상의 화면에 중첩하여 표시시키는 방법이 있다.

하기의 비특허 문헌 1에는, 실영상의 촬영을 행하는 촬영 위치와, 촬영 방향과, 영상의 피사체인 오브젝트(건물 등의 한 묶음의 물체)의 위도 및 경도의 위치 정보를 이용하여, 촬영 방향에 촬영 위치로부터 소정의 거리 내에 존재하는 오브젝 트의 정보(오브젝트명)를, 실영상에 중첩하여 표시하는 시스템에 대하여 개시되어 있다.

(비특허 문헌 1)

寺田智裕 외 2명, 「확장 현실감을 이용한 차량 탑재형 애너테이션 시스템의 구축」, 신학기보, 사단법인 전기통신정보학회, 2002년 2월, CQ2001-103, MVE2001-136, p.55-60

그러나, 비특허 문헌1에 개시된 시스템은, 오브젝트가 영상에 찍혀 있는지의 여부에 상관없이, 촬영 방향으로 촬영 위치로부터 소정의 거리 내에 존재하는 오브젝트의 정보를 표시한다. 이 때문에, 나무의 그늘로 되는 등의 이유로, 오브젝트가 실제로는 영상에 찍혀 있지 않음에도 불구하고, 오브젝트의 정보를 표시한다고 하는 문제가 있다.

본 발명은, 오브젝트가 실제로는 영상에 찍혀 있지 않은 경우에는 오브젝트의 정보를 표시하지 않도록 하는 것이 가능한 영상 인식 장치, 영상 애너테이션 부여 장치 및 차량 안내 시스템을 제공하는 것을 목적으로 한다.

본 발명의 영상 오브젝트 인식 장치는, 영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받는 입력 수단과, 오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적(視覺的)인 특징을 수치화한 정보인 시각적 특징 정보를 대응시켜 기억하는 기억하는 기억 수단과, 입력된 영상 데이터에 의한 영상에 포함되는 오브젝트를 인식하는 오브젝트 인식 수단을 구비하고, 오브젝트 인식 수단은, 촬영 정보에 기초하여 촬영 공간을 추정하는 촬영 공간 추정 수단과, 촬영 공간과, 기억 수단에 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 매칭 수단과, 입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역의 영상 데이터 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 부분 영상 추출 수단과, 부분 영상 데이터의 시각적 특징 정보를 생성하는 시각적 특징 정보 설정 수단과, 부분 영상 데이터의 시각적 특징 정보와, 기억 수단이 기억하고 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 유사도 산출 수단과, 매칭 수단의 매칭 결과와, 산출한 유사도에 기초하여, 입력된 영상 데이터에 의한 영상 내에 오브젝트가 존재하고 있는지의 여부를 판정하는 판정 수단을 구비한다.

본 발명의 영상 애너테이션 부여 장치는, 영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받는 입력 수단과, 오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 대응시켜 기억하는 기억 수단과, 입력된 영상 데이터에 의한 영상에 포함되는 오브젝트와, 부가 정보를 대응시키는 오브젝트 인식 수단을 구비하고, 오브젝트 인식 수단은, 촬영 정보에 기초하여 촬영 공간을 추정하는 촬영 공간 추정 수단과, 촬영 공간과, 기억 수단에 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 매칭 수단과, 입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역의 영상 데이터 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 부분 영상 추출 수단과, 부분 영상 데이터의 시각적 특징 정보를 생성하는 시각적 특징 정보 설정 수단과, 부분 영상 데이터의 시각적 특징 정보와, 기억 수단이 기억하고 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 유사도 산출 수단과, 매칭 수단의 매칭 결과와, 산출한 유사도에 기초하여, 입력된 영상 데이터에 의한 영상에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와, 기억 수단이 기억하고 있는 부가 정보를 대응시키는 판정 수단을 구비한다.

또한, 오브젝트 인식 수단은, 촬영 공간과, 기억 수단이 기억하고 있는 오브젝트의 위치 정보에 기초하여 오브젝트가 영상에 포함되어 있을 확률인 존재 확률을 산출하는 존재 확률 산출 수단을 포함하여도 되고, 판정 수단은, 산출한 존재 확률과 유사도에 기초하여 영상에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와 기억 수단이 기억하고 있는 부가 정보를 대응시켜도 된다. 이와 같은 구성에 의하면, 촬영 공간에 존재하는 오브젝트이어도, 영상에 찍혀 있을 확률이 낮은 오브젝트에 대해서는, 부가 정보와의 대응을 행하지 않는다. 이 때문에, 애너테이션과 영상을 중첩하여 표시시킨 경우에, 영상에 나타나 있지 않은 오브젝트의 애너테이션이 표시되는 것을 방지할 수 있다.

또한, 부분 영상 추출 수단은, 기억 수단이 기억하고 있는 오브젝트의 위치 정보에 기초하여, 영상에서의 오브젝트가 위치하는 범위를 특정하여도 되고, 특정한 범위로부터 부분 영상 데이터를 추출하여도 된다. 이와 같은 구성에 의하면, 부분 영상 데이터를 추출하는 범위를 한정할 수 있어, 부분 영상 추출 수단의 데이터 처리량을 삭감시킬 수 있다.

또한, 오브젝트 인식 수단은, 촬영 공간과 위치 정보에 기초하여 촬영 공간에 존재하는 오브젝트인 후보 오브젝트의 추출을 행하는 후보 오브젝트 검색 수단을 포함하여도 되고, 유사도 산출 수단은, 부분 영상 데이터의 시각적 특징 정보와, 기억 수단이 기억하고 있는 후보 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하여도 된다. 이와 같은 구성에 의하면, 부분 영상 데이터의 시각적 특징 정보와 비교하여 유사도를 산출하는 오브젝트의 수를 줄일 수 있어, 유사도 산출 수단의 데이터 처리량을 삭감시킬 수 있다.

또한, 부분 영상 추출 수단은, 기억 수단이 기억하고 있는 후보 오브젝트의 위치 정보에 기초하여, 영상에서의 오브젝트가 위치하는 범위를 특정하여도 되고, 특정한 범위의 영상으로부터 부분 영상 데이터를 추출하여도 된다. 이와 같은 구성에 의하면, 부분 영상 데이터를 추출하는 범위를 한정할 수 있어, 부분 영상 추출 수단의 데이터 처리량을 삭감시킬 수 있다.

또한, 영상을 표시하는 표시 수단과, 표시 수단에, 영상에 포함되는 오브젝트에 대응된 부가 정보를 표시시킬 위치를 지정하고 부가 정보를 영상에 중첩하여 표시시키는 표시 위치 결정 수단을 구비하여도 된다. 이와 같은 구성에 의하면, 영상과 부가 정보인 애너테이션을 대응시켜 표시시킬 수 있다.

또한, 부가 정보와 영상에 포함되는 오브젝트를 대응시켜 기억하는 애너테이션 결과 기억 수단을 구비하여도 된다. 이와 같은 구성에 의하면, 기억한 부가 정보와 영상 데이터에 포함되는 오브젝트와의 대응에 기초하여, 영상 데이터의 검색을 행할 수 있다.

또한, 부분 영상 추출 수단은, 추출하는 부분 영상 데이터에 의한 영상의 영역의 형상과 크기를 임의로 변경 가능한 기능을 가져도 된다. 이와 같은 구성에 의하면, 영상 데이터에 포함되는 오브젝트의 형상에 상관없이, 오브젝트를 포함하는 부분 영상 데이터를 추출할 수 있다.

또한, 부분 영상 추출 수단은, 휘도 정보와, 색 정보와, 형상 정보와, 모양 정보와, 크기 정보 중 하나의 조건 또는 복수를 조합한 조건에 합치하는 영상의 영역의 부분 영상 데이터를 추출하여도 된다. 이와 같은 구성에 의하면, 기억 수단이 기억하는 오브젝트의 시각적 특징 정보에 따라서, 부분 영상 데이터를 추출할 수 있다.

또한, 부분 영상 추출 수단은, 복수의 정보를 조합한 조건에 합치하는 영상의 영역의 부분 영상 데이터를 추출하는 경우, 매칭 수단의 매칭 결과와, 기억 수단이 기억하고 있는 오브젝트의 시각적 특징 정보에 기초하여, 각 조건에 대한 가중을 행하고 부분 영상 데이터를 추출하여도 된다. 이와 같은 구성에 의하면, 기억 수단이 기억하고 있는 오브젝트의 시각적인 특징에 따라서, 부분 영상 데이터를 추출할 수 있다.

또한, 기억 수단이 기억하는 오브젝트의 시각적 특징 정보는, 오브젝트에 유사한 시각적인 특징을 갖는 영상인 템플릿 영상이어도 된다. 이와 같은 구성에 의하면, 오브젝트의 시각적 특징 정보를 기억 수단에 기억시킬 때의 작업량을 삭감할 수 있다.

또한, 기억 수단이 기억하는 오브젝트의 시각적 특징 정보는, 색 정보, 형상 정보, 모양 정보 및 크기 정보 중 하나 또는 복수의 정보로 구성되어도 되고, 시각적 특징 정보 설정 수단이 생성하는 부분 영상 데이터의 시각적 특징 정보는, 색 정보와, 형상 정보와, 모양 정보와, 크기 정보 중 하나의 정보 또는 복수의 정보로 구성되어도 된다. 이와 같은 구성에 의하면, 시각적 특징 정보 설정 수단은 정량적으로 유사도를 산출할 수 있다.

또한, 기억 수단이 기억하는 오브젝트의 위치 정보는, 오브젝트의 형상에 유사한 형상의 원추, 원주, 입방체 등의 입체 기하학의 입체 형상을 이용하여 근사시킨 입체 형상의 정점 중 하나의 정점, 중심점, 무게 중심점 중 어느 하나의 위치를 특정하는 정보이어도 된다. 이와 같은 구성에 의하면, 위치 정보의 데이터량을 삭감할 수 있다.

또한, 기억 수단이 기억하는 오브젝트의 위치 정보는, 오브젝트의 형상을 다각형의 면을 이용하여 근사시킨 3차원 형상의 정점 중 적어도 하나의 정점의 위치를 특정하는 정보이어도 된다. 이와 같은 구성에 의하면, 위치 정보의 데이터량을 삭감할 수 있다.

또한, 기억 수단이 기억하는 오브젝트의 위치 정보는, 오브젝트의 정점 중 가장 표고가 높은 정점의 위치를 특정하는 정보이어도 된다. 이와 같은 구성에 의하면, 위치 정보의 데이터량을 삭감할 수 있다.

또한, 기억 수단이 기억하는 오브젝트의 위치 정보는, 위도와 경도와 표고에 의해 오브젝트의 위치를 특정하는 정보이어도 된다. 이와 같은 구성에 의하면, GPS를 이용하여 위치 정보를 취득한 위치의 데이터를 이용할 수 있다.

또한, 기억 수단은, 오브젝트의 부가 정보와, 시각적 특징 정보를, 복수의 오브젝트의 집합인 오브젝트 집합의 부가 정보와, 시각적 특징 정보에 대하여 계층적으로 기억하여도 되고, 판정 수단은, 기억 수단이 기억하고 있는 오브젝트 집합의 시각적 특징 정보에 기초하여, 촬영된 복수의 오브젝트가 오브젝트 집합인지의 여부의 판정을 행하고, 촬영된 복수의 오브젝트가 오브젝트 집합이라고 판정되면, 오브젝트 집합의 부가 정보와 오브젝트 집합을 대응시켜도 된다. 이와 같은 구성에 의하면, 오브젝트 집합에 애너테이션을 대응시킬 수 있다.

또한, 촬영 정보는, 촬영한 날짜와 시각(時刻)을 특정하는 정보인 촬영 일시 정보를 포함하여도 되고, 기억 수단은, 촬영한 날짜와 시각에 따른 시각적 특징 정보를 기억하여도 되며, 유사도 산출 수단은, 부분 영상 데이터의 시각적 특징 정보와, 촬영 일시 정보가 특정하는 날짜와 시각에 따른 시각적 특징 정보를 비교하여 유사도를 산출하여도 된다. 이와 같은 구성에 의하면, 예를 들면, 하나의 오브젝트에 대하여 주간의 시각의 시각적 특징 정보는 밝은 색을 나타내는 정보로 하고, 야간의 시각의 시각적 특징 정보는 어두운 색을 나타내는 정보로 할 수 있다. 또한, 예를 들면, 산 등의, 날짜(예를 들면, 계절)에 따라 색이 변화하는 오브젝트에 대하여, 겨울은 백색, 봄과 여름은 녹색, 가을은 적색이나 노란색 등을 나타내는 시각적 특징 정보로 하는 등, 하나의 오브젝트의 시각적 특징 정보를 날짜에 따라 변화시킬 수 있다. 이 때문에, 오브젝트 인식 수단은, 촬영한 날짜와 시각에 따른 오브젝트의 시각적인 특징의 변화에 따라서, 오브젝트를 인식할 수 있다.

또한, 부분 영상 추출 수단은, 입력된 영상 데이터로부터 영역을 분할하고, 분할된 영역을 부분 영상 데이터로 하여도 된다.

또한, 부분 영상 추출 수단은, 분할된 영역의 조합에 의해 부분 영상 데이터로 하여도 된다.

또한, 부분 영상 추출 수단은, 분할 영역의 조합의 평가를 계층적으로 행함으로써 부분 영상 데이터를 생성하여도 된다.

또한, 부분 영상 추출 수단은, 분할 영역의 조합 계층 평가로서, 동일 영역 수의 조합으로부터 유사도가 높은 특정 수만 이후의 조합에 이용하여도 된다.

또한, 기억 수단이 기억하는 오브젝트의 시각적 특징 정보로서, 일 방향 또는 복수 방향으로부터의 전체상 또는 일부분의 오브젝트에서의 시각적 정보를 복수 보유하여도 된다.

본 발명의 차량 안내 시스템은, 차량에 탑재되고, GPS를 이용하여 자기의 위치를 표시 장치가 표시하는 지도 상에 나타내는 차량 안내 시스템으로서, 상술한 영상 애너테이션 부여 장치를 구비한다.

본 발명의 영상 오브젝트 인식 방법은, 영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받고, 오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보를 대응시켜 기억하고, 촬영 정보에 기초하여 촬영 공간을 추정하고, 촬영 공간과, 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하고, 입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하고, 부분 영상 데이터의 시각적 특징 정보를 생성하고, 부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하고, 매칭 결과와, 산출한 유사도에 기초하여 오브젝트가 촬영되어 있는지의 여부를 판정한다.

본 발명의 영상 애너테이션 부여 방법은, 영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받고, 오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 대응시켜 기억하고, 촬영 정보에 기초하여 촬영 공간을 추정하고, 촬영 공간과, 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하고, 입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하고, 부분 영상 데이터의 시각적 특징 정보를 생성하고, 부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하고, 매칭 결과와, 산출한 유사도에 기초하여 영상 데이터에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와 기억되어 있는 부가 정보로 구성되는 애너테이션을 대응시킨다.

본 발명의 영상 오브젝트 인식 프로그램은, 영상 데이터에, 기억되어 있는 오브젝트가 피사체로서 포함되어 있는지의 여부를 판정하는 영상 오브젝트 인식 장치에 탑재되는 영상 오브젝트 인식 프로그램으로서, 컴퓨터에, 오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보를 대응시켜 기억 장치에 기억시키는 처리와, 촬영 공간을 결정 가능한 정보인 촬영 정보에 기초하여 촬영 공간을 추정하는 처리와, 촬영 공간과, 기억 장치가 기억하고 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 처리와, 입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 처리와, 부분 영상 데이터의 시각적 특징 정보를 생성하는 처리와, 부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 처리와, 매칭 결과와, 산출한 유사도에 기초하여 오브젝트가 촬영되어 있는지의 여부를 판정하는 처리를 실행시킨다.

본 발명의 영상 애너테이션 부여 프로그램은, 오브젝트와, 기억되어 있는 오브젝트의 정보를 대응시키는 영상 애너테이션 부여 장치에 탑재되는 영상 애너테이션 부여 프로그램으로서, 컴퓨터에, 오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 대응시켜 기억 장치에 기억시키는 처리와, 촬영 공간을 결정 가능한 정보인 촬영 정보에 기초하여 촬영 공간을 추정하는 처리와, 촬영 공간과, 기억 장치가 기억하고 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 처리와, 입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 처리와, 부분 영상 데이터의 시각적 특징 정보를 생성하는 처리와, 부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 처리와, 매칭 결과와, 산출한 유사도에 기초하여 영상 데이터에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와 기억되어 있는 부가 정보로 구성되는 애너테이션을 대응시키는 처리를 실행시킨다.

따라서, 본 발명에 따르면, 오브젝트의 시각적 특징 정보와, 부분 영상 데이터의 시각적 특징 정보를 비교함으로써, 오브젝트가 영상에 나타나 있는지의 여부의 판정을 행할 수 있어, 오브젝트가 영상에 나타나 있다고 판정된 경우에, 오브젝트와 부가 정보를 대응시킨다. 따라서, 오브젝트가 실제로는 영상에 찍혀 있지 않은 경우에는 오브젝트의 정보를 표시하지 않도록 할 수 있다.

또한, 본 발명에 따른 차량 안내 시스템은, 본 발명에 따른 영상 애너테이션 부여 장치가 구비하는 기능을 갖기 때문에, 오브젝트가 실제로는 영상에 찍혀 있지 않은 경우에는 오브젝트의 정보를 표시하지 않는 차량 안내 시스템을 실현할 수 있다.

도 1은 본 발명의 실시예의 일 구성예를 도시하는 블록도.

도 2는 의미 정보와 위치 정보와 시각적 특징량의 예를 도시하는 도면.

도 3은 본 발명의 제1 실시예의 일 구성예를 도시하는 블록도.

도 4는 본 발명의 제1 실시예에서의 시각적 특징량 비교 수단의 일 구성예를 도시하는 블록도.

도 5는 본 발명의 제1 실시예의 동작을 설명하는 플로우차트.

도 6은 측면으로부터 촬영 공간을 나타낸 도면.

도 7은 정보로부터 촬영 공간을 나타낸 도면.

도 8은 촬영 공간을 설명하는 도면.

도 9는 촬영 위치와 후보 오브젝트의 대표점의 관계의 일례를 도시하는 도면.

도 10은 템플릿 영상의 예를 도시하는 도면.

도 11은 영상 전체를 래스터 스캔한 경우를 설명하는 도면.

도 12는 촬영 공간의 우측에 후보 오브젝트가 위치하는 경우의 설명도.

도 13은 영상의 우측 절반을 래스터 스캔한 경우를 설명하는 도면.

도 14는 영역으로 분할하는 영상의 일례를 설명하는 도면.

도 15는 영역의 분할과 결합을 설명하는 도면.

도 16은 영역 분할한 영상의 일례를 설명하는 도면.

도 17은 영역의 수를 감소시킨 경우의 영상의 일례를 설명하는 도면.

도 18은 부분 영상과 후보 오브젝트를 비교하는 일례를 설명하는 도면.

도 19는 지리 오브젝트의 집합의 일례를 도시하는 도면.

도 20은 계층화된 의미 정보를 설명하는 도면.

도 21은 지리 오브젝트의 일례를 정면으로부터 본 도면 및 비스듬하게 본 도면.

도 22는 분할한 지리 오브젝트의 일례를 도시하는 도면.

도 23은 본 발명의 제2 실시예의 일 구성예를 도시하는 블록도.

도 24는 본 발명의 제2 실시예에서의 시각적 특징량 비교 수단의 일 구성예를 도시하는 블록도.

도 25는 본 발명의 제3 실시예의 일 구성예를 나타내는 블록도.

도 26은 애너테이션을 부여한 영상의 일례를 도시하는 도면.

도 27은 본 발명의 제4 실시예의 일 구성예를 도시하는 블록도.

도 28은 본 발명의 제5 실시예에서의 시각적 특징량 비교 수단의 일 구성예를 도시하는 블록도.

도 29는 본 발명의 제5 실시예의 동작을 설명하는 플로우차트.

도 30은 계층적 조합 평가 방법을 설명하는 도면.

(발명의 제1 실시예)

도 1에 본 발명의 제1 실시예를 설명하는 블록도를 도시하고, 본 실시예의 구성에 대하여 설명한다. 본 발명의 제1 실시예는, 영상 및 영상을 촬영한 상황의 정보인 촬영 정보가 입력되는 입력 장치(1)와, 영상의 피사체인 오브젝트의 정보를 기억하는 기억 장치(2)와, 촬영 정보와 오브젝트의 정보를 비교하여, 오브젝트가 영상에 촬영되어 있는지의 여부를 판정하는 오브젝트 인식 장치(3)를 포함한다.

입력 장치(1)는, 예를 들면 CCD 디지털 카메라 장치나, 비디오 카메라 장치 등의 영상을 촬영하는 영상 입력 기기(도시 생략)가 출력하는 영상을 입력받는다. 입력 장치(1)는, 영상 입력 기기가 출력하는 촬영 시의 화각의 정보인 화각 정보를 입력받는다. 영상 입력 기기의 줌율을 변경할 수 없는 경우에는, 미리 렌즈의 초점 거리 및 CCD 소자의 사이즈로부터 화각을 산출하고, 화각 정보를 생성해 둔다. 줌 조작에 의해 영상 입력 기기의 줌율을 변경할 수 있는 경우에는, 줌 조작량과 화각의 관계의 정보를 미리 취득하여, 촬영 시의 줌 조작량에 따른 화각을 산출하 고, 화각 정보를 생성한다.

또한, 입력 장치(1)는, 입력 장치(1)의 경도와 위도와 표고를 측정하는 GPS 장치와 접속되어, 촬영 위치와 이동 속도를 특정한다. 여기서, 입력 장치(1)와 가속도 센서 장치가 접속되어, 가속도 센서 장치의 출력을 시간 적분하여 이동 속도를 특정하여도 된다. 또한, 입력 장치(1)는, 자기 컴퍼스 장치, 전자 컴퍼스 장치, 또는 자이로 컴퍼스 장치와 접속되어, 영상 입력 기기가 촬영하는 방향을 특정한다.

여기서, 영상 입력 기기가 판 틸트 기능을 갖는 경우, 판 틸트 조작량을 측정하여, 자기 컴퍼스 장치, 전자 컴퍼스 장치, 또는 자이로 컴퍼스 장치가 특정한 촬영 방향의 보정을 행한다. 또한, 영상 입력 기기가 촬영 중에 이동한 경우, 입력 장치(1)는, GPS 장치의 궤적 데이터나, 전자 컴퍼스 장치, 자이로 컴퍼스 장치, 가속도 센서 장치 등의 출력을 이용하여, 이동 방향을 특정한다. 촬영 정보는, 화각 정보, 촬영한 날짜와 시각을 특정하는 정보인 촬영 일시 정보, 촬영 위치 정보, 촬영 방향 정보, 이동 방향 정보, 및 이동 속도 정보 등을 포함한다.

기억 장치(2)는, 오브젝트의 부가 정보(예를 들면, 의미 정보)와 시각적 특징 정보(예를 들면, 시각적 특징량)를 기억한다. 의미 정보란, 예를 들면, 오브젝트의 이름이나, 역사, 이용 요금, 영업 시간, 주소, 전화 번호, URL 등의 오브젝트에 관한 정보이다. 여기서, 영상 내의 오브젝트에 의미 정보를 대응시키는 것을, 오브젝트에 애너테이션(주석)을 부여한다고 한다. 보다 구체적으로는, 영상 내의 오브젝트의 근방에 애너테이션 화상을 부가하는 것이다.

시각적 특징량이란, 예를 들면, 형상, 크기, 모양, 엣지, 색 등의 오브젝트를 시각적으로 인식하기 위한 특징을 수치화한 양으로서, 예를 들면, 山田昭雄, 「비주얼 툴에 의한 콘텐츠 기술」, 영상정보미디어학회지, 사단법인 영상정보미디어학회, 2002년 11월 1일, 제56권, 제11호, p.1711-1714(이하, 문헌 A라고 함)에 개시된 바와 같이, MPEG-7/Visual에서 정의되어 있는 비주얼 기술자의 색 특징, 모양 특징, 형상 특징 등 중의 어느 하나의 조합을 이용하여 정의되는 특징량 벡터이다. 여기서, 색 특징은 도미넌트 컬러와 컬러 레이아웃, 모양 특징은 엣지 히스토그램, 형상 특징은 리젼 베이스드 형상 기술자 등에 의해 표시된다.

도미넌트 컬러는, 최빈색을 빈도와 함께 RGB 표기한 것이다. 컬러 레이아웃은 색의 공간적인 배치를 주파수축 상에서 표현한 것이다. 엣지 히스토그램은, 예를 들면, 세로나 가로, 경사 등 엣지가 각각 어느 정도 존재하는지를 히스토그램화하여 기술한 것이다. 리젼 베이스드 형상 기술자는 2치의 형상 데이터를 2차원 ART(Angular Radial Transform) 변환한 35 계수로 구성되는 기술자이다.

오브젝트 Oci의 시각적 특징량 FOi는, FOi=(도미넌트 컬러, 컬러 레이아웃, 엣지 히스토그램, 리젼 베이스드 형상 기술자, …)로, 벡터 표기되어 기술된다.

기억 장치(2)는, 하나의 오브젝트에 대하여, 촬영한 날짜와 시각에 따라 복수의 시각적 특징량을 기억하여도 된다. 예를 들면, 하나의 오브젝트에 대하여, 주간의 시각의 시각적 특징량은 밝은 색을 나타낸다거나, 야간의 시각의 시각적 특징 정보는 어두운 색을 나타낸다거나 한다. 또한, 예를 들면, 산 등의, 날짜(예를 들면, 계절 등)에 따라 색이 변화하는 오브젝트에 대하여, 겨울은 백색, 봄과 여름 은 녹색, 가을은 적색이나 노란색 등을 나타내는 시각적 특징량으로 하는 등이다.

기억 장치(2)는, 예를 들면 건축물이나 다리, 탑 등과 같은 인공 건축물이나, 예를 들면 산이나 호수와 같은 자연의 지물 등과 같이, 경도와 위도 등의 정보인 위치 정보에 의해 특정할 수 있는 오브젝트인 경우, 오브젝트의 위치 정보를 기억한다. 이하, 위치 정보에 의해 특정할 수 있는 오브젝트를, 지리 오브젝트라고 한다. 또한, 전철 등과 같이 시간의 경과와 함께 이동하는 오브젝트는, 위치 정보만으로 특정할 수는 없지만, 다이어그램 등에 의해 각 시각에서의 위치가 특정되면, 시각과 위치 정보를 조합한 조합 집합을 이용하여 오브젝트를 특정하여도 된다.

위치 정보로 이용하는 위치의 정보는, 예를 들면 지리 오브젝트의 중심점, 무게 중심점 등의 위도와 경도를 이용하여도 되고, 지리 오브젝트의 형상을 다각형(폴리곤)의 면을 이용하여 구성한 입체 형상의 각 정점의 위치를, 위도와 경도와 표고를 이용하여 나타낸 데이터군이어도 된다. 그러나, 이와 같은 입체 형상의 각 정점의 위치의 데이터군을 위치 정보로 이용하면, 데이터량이 많게 된다. 따라서, 이와 같은 입체 형상의 정점 중 하나 또는 복수의 정점의 위치 정보를 추출하여 이용하여도 된다. 또한, 지리 오브젝트의 형상을 원추나, 원주, 입방체 등의 형상으로 근사시키고, 근사시킨 형상의 중심점이나, 무게 중심점, 각 정점 등의 위치 정보를 이용하여도 되고, 하나의 정점의 위치 정보를 추출하여 이용하여도 된다. 예를 들면, 도쿄 타워를 사각추로 근사시키고, 각 정점의 5개의 위치 정보를 지리 오브젝트의 위치 정보로 이용하여도 되고, 오브젝트의 가장 표고가 높은 위치의 정점 인 최고점의 위치 정보를, 지리 오브젝트의 위치 정보로 이용하여도 된다. 최고점은, 촬영하는 경우에, 다른 정점에 비해 다른 물체의 존재에 의해 숨겨지기 어렵다고 생각되기 때문에, 지리 오브젝트의 최고점을 지리 오브젝트의 위치 정보로 이용하는 것이 바람직하다.

의미 정보와, 최고점의 위도와 경도와 표고를 이용한 위치 정보와, 시각적 특징량의 일례를 도 2에 도시한다. 시각적 특징량은 실제로는 수치화되어 있지만, 간단히 하기 위해 형상과 문자로 나타내었다.

기억 장치(2)는, 정보를, CD-ROM이나, DVD-R, 하드디스크 장치 또는 메모리 등의 기록 매체에, 복수로 분할하거나 일괄하여 기억한다. 기억된 데이터는, 판독 장치가, 단수 또는 복수의 매체에 기록된 정보를 판독한다. 또한, 기억 장치(2)는, 정보를 인터넷 등의 컴퓨터 네트워크를 통하여 취득하여도 된다.

오브젝트 인식 장치(3)는 계산기로 실현되고, 입력 장치(1)가 촬영한 영상의 일부분 또는 영상 전체의 시각적 특징량과, 기억 장치(2)가 기억하고 있는 지리 오브젝트의 시각적 특징량과의 유사도를 산출한다.

도 3에 본 발명의 제1 실시예의 오브젝트 인식 장치(3)의 일 구성예를 도시하고, 오브젝트 인식 장치(3)의 구성에 대하여 설명한다. 또한, 도 3이나 도 4 등에 도시하는 각 수단은 프로그램으로 실현된다.

오브젝트 인식 장치(3)는, 촬영 정보와 지리 오브젝트의 위치 정보에 기초하여, 촬영되어 있을 가능성이 있는 지리 오브젝트인 후보 오브젝트를 추출하는 촬영 공간 추정 수단, 매칭 수단 및 후보 오브젝트 검색 수단(어느 것이나, 예를 들면, 후보 오브젝트 검색 수단(30)으로 실현됨)과, 후보 오브젝트 검색 수단(30)이 추출한 후보 오브젝트의 시각적 특징량과, 입력 장치(1)가 촬영한 영상의 일부분의 영역 또는 영상 전체의 시각적 특징량과의 유사도를 산출하는 유사도 산출 수단(예를 들면, 시각적 특징량 비교 수단(31)으로 실현됨)과, 산출한 유사도와, 미리 정해진 임계값을 비교하여, 오브젝트가 촬영되어 있는지의 여부를 판정하는 판정 수단(32)을 포함한다.

도 4에 시각적 특징량 비교 수단(31)의 일 구성예를 도시하고, 구성에 대하여 설명한다. 시각적 특징량 비교 수단(31)은, 입력 장치(1)가 촬영한 영상의 일부분 또는 전체의 영상인 부분 영상을 추출하는 부분 영상 추출 수단(310)과, 추출된 부분 영상의 시각적 특징량을 설정하는 시각적 특징량 설정 수단(311)과, 기억 장치(2)가 기억하고 있는 후보 오브젝트의 시각적 특징량과, 부분 영상의 시각적 특징량과의 유사도를 산출하는 특징량 비교 수단(312)을 포함한다. 시각적 특징 정보 설정 수단은 시각적 특징량 설정 수단(311)에 의해 실현된다.

다음으로, 도 5의 플로우차트를 참조하여 동작에 대하여 설명한다. 우선, 영상 입력 기기가 영상을 촬영하고, 입력 장치(1)에 영상을 나타내는 영상 데이터를 입력한다. 입력 장치(1)는, 입력된 영상 데이터를 영상 기록 미디어에 기록한다(단계 A1). 그리고, 입력 장치(1)는, 촬영 위치나 촬영 방향, 이동 방향 및 이동 속도의 정보와, 화각 정보를 입력받고, 입력된 각 정보를 조합하여 촬영 정보를 생성하고(단계 A2), 생성한 촬영 정보를, 영상이 기록되는 영상 기록 미디어에 기록한다. 여기서, 영상의 각 코마의 화상 데이터 압축 방식이 JPEG인 경우에는 화 상 데이터의 헤더에 촬영 정보를 기록한다거나, 영상과 촬영 정보를 각각 시각에 대응시킨다거나 하여, 영상과 촬영 정보를 일대일로 대응하게 한다.

일반적인 비디오 카메라 장치 등의 촬영 장치는 1초 동안에 30 코마 기록하지만, GPS 기능 등을 이용하여 취득하는 경도와 위도의 위치 정보는 1초 동안에 1회 정도밖에 취득할 수 없다. 따라서, 최후에 취득한 경도와 위도의 위치 정보를, 촬영 정보를 구성하는 이동 방향 및 이동 속도의 정보를 이용하여 보정하고, 보정한 위치 정보와 영상을 일대일로 대응하게 하는 것이 바람직하다.

후보 오브젝트 검색 수단(30)은, 입력 장치(1)가 생성한 촬영 정보에 기초하여, 영상 입력 장치가 촬영 가능한 범위인 촬영 공간을 산출한다(단계 A3).

이하, 촬영 위치를 C, 촬영 방향을 θ라고 하고, 지리 오브젝트의 대표점을 O, 지리 오브젝트의 대표점 O의 위도를 Oi1, 경도를 Oi2, 표고를 Oi3라고 하여 설명한다. 도 6 및 도 7에 도시하는 바와 같이, 촬영 공간은, 촬영 위치로부터 촬영 방향에 대하여, 화각 및 지평면으로 둘러싸인 공간이다.

도 8에 도시하는 바와 같이, 촬영 위치를 C, 촬상 소자의 상우단, 상좌단, 하우단 및 하좌단을 각각, UR, UL, DR 및 DL이라고 하고, C와 UR과 UL을 포함하는 평면을 Su, C와 UR과 DR을 포함하는 평면을 Sr, C와 DR과 DL을 포함하는 평면을 Sd, C와 UL과 DL을 포함하는 평면을 Sl, 지평면을 Se라고 하면, 각각의 평면은 수학식 1과 같이 나타낼 수 있다. 여기서, 촬영 방향 θ는 지표면과 평행한 북쪽 방향을 0이라고 하고, 수학식 1은 평면 Su, Sd, Sr, Sl, Se를, 지표면의 소정의 위치를 원점으로 하는 직교 좌표계로 나타낸 것이다.

간략화를 위해, 화각이 180도 이내인 경우에 대하여 설명한다. 이 경우, 촬영 공간은, Su와 Sd와 Sr과 Sl에 끼워지고, 지평면 Se보다 위쪽이고, 촬영 방향 θ로부터 90도 이내의 공간에 한정된다. 따라서, 촬영 공간은, 수학식 2의 조건을 충족시키는 공간으로서 나타낼 수 있다. 여기서, Cx와 Cy와 Cz는, 촬영 위치 C의 위도 C1과 경도 C2와 표고 C3를, 각각 직교 좌표계로 변환하여 구한 촬영 위치 C의 위치 정보이다. 또한, θx는 θ와 위선이 이루는 각이고, θy는 θ와 경선이 이루는 각이고, θz는 θ와 지평면에 대한 수직선이 이루는 각이다.

다음으로, 오브젝트 인식 장치(3)의 후보 오브젝트 검색 수단(30)이, 기억 장치(2)가 기억하고 있는 지리 오브젝트의 위치 정보를 판독한다(단계 A4). 후보 오브젝트 검색 수단(30)은, 판독한 각 지리 오브젝트의 각 위치 정보를 이용하여, 영상 입력 기기에 촬영되었을 가능성이 있는 지리 오브젝트를 검색한다. 영상 입 력 기기에 촬영되었을 가능성이 있는 지리 오브젝트란, 수학식 2를 만족하는 위치 정보를 갖는 지리 오브젝트이다. 따라서, 후보 오브젝트 검색 수단(30)은, 수학식 2를 만족하는 위치 정보를 갖는 지리 오브젝트인 후보 오브젝트를 추출한다. 즉, 촬영 공간과, 기억 장치(2)에 기억되어 있는 지리 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행한다.

수학식 2를 만족하는 지리 오브젝트이어도, 촬영 위치로부터 멀리 존재하는 지리 오브젝트는 촬영되기 어렵기 때문에, 촬영 위치의 정보와 지리 오브젝트의 위치 정보에 기초하여 산출한 촬영 위치와 지리 오브젝트와의 거리가, 미리 정해진 임계값 Th1을 초과하고 있는 지리 오브젝트는 추출하지 않아도 된다. 그러나, 예를 들면, 높은 산 등의 멀리에서도 볼 수 있는 지리 오브젝트는, 촬영 위치와의 거리가 멀어도 촬영될 가능성이 있다. 따라서, 도 9에 도시하는 바와 같이, 촬영 위치로부터 지리 오브젝트의 정점을 바라보는 각도를 구하고, 이 각도가 임의의 임계값 Th2를 초과하고 있는 지리 오브젝트는 추출하여도 된다.

또한, 촬영 방향 θ와, 촬영 위치로부터 지리 오브젝트를 향하는 방향의 차가 큰 지리 오브젝트도 촬영되기 어렵다. 따라서, 촬영 위치 C로부터 지리 오브젝트에의 수평 거리 Dist가 임계값 Th1 이하인 것과, 촬영 위치로부터 지리 오브젝트의 정점을 바라보는 각도인 앙각이 임계값 Th2 이하인 것과, 촬영 방향 θ와 촬영 위치로부터 지리 오브젝트를 향하는 방향의 차인 수평 각도 오차가 임계값 Th3 이하인 것을, 후보 오브젝트를 추출하는 조건에 더하면, 후보 오브젝트의 수를 한정할 수 있다. 따라서, Th1, Th2 및 Th3를 이용하여, 후보 오브젝트가 만족하는 조 건을 수학식 3에 나타낸다. 여기서, Oix와 0iy와 0iz는, 지리 오브젝트의 대표점 O의 위도 Oi1과 경도 Oi2와 표고 Oi3를 각각 직교 좌표계로 변환하여 구한 대표점 O의 위치 정보이다. 본 실시예에서는 수학식 3을 이용하여 후보 오브젝트를 더 한정한다(단계 A5).

이하, 수학식 2 및 수학식 3에 나타내는 조건을 만족하는 M개의 후보 오브젝트를, 후보 오브젝트 0ci(i=1∼M)라고 하여 설명한다. 후보 오브젝트 검색 수단(30)은, 후보 오브젝트 Oci를 추출하면, 추출한 후보 오브젝트 Oci를 특정하는 정보를 시각적 특징량 비교 수단(31)에 출력한다.

시각적 특징량 비교 수단(31)은, 기억 장치(2)가 미리 기억하고 있는 후보 오브젝트 Oci의 시각적 특징량 FOi를 판독한다(단계 A6). 기억 장치(2)는, 후보 오브젝트 Oci의 시각적 특징량 FOi를, FOi=(도미넌트 컬러, 컬러 레이아웃, 엣지 히스토그램, 리젼 베이스드 형상 기술자, …)와 같이, 벡터 표기하여 기억하고 있다.

또한, 오브젝트와 유사한 시각적 특징을 갖는 템플릿 영상을 시각적 특징량에 이용하여도 된다. 템플릿 영상이란, 예를 들면, 도 10에 도시하는 바와 같은, 미리 준비한 일반적인 형상의 오브젝트의 영상이다. 그리고, 기억 장치(2)는, 이러한 템플릿 영상을 시각적 특징량으로서 기억하고 있어도 된다.

부분 영상 추출 수단(310)은, 영상 입력 기기가 촬영하여, 입력 장치(1)가 입력받은 영상 데이터에 의한 영상의 일부분 또는 전체를 추출한 영상을 나타내는 부분 영상 데이터(이하, 부분 영상이라고 함)를 추출한다(단계 A7). 부분 영상의 추출 방법의 일례로서, 도 11에 도시하는 바와 같이, 직사각형의 블록을 영상의 좌상으로부터 우하까지, 래스터 스캔하여 블록 내의 영상을 추출하는 방법이 있다. 후보 오브젝트의 시각적 특징량에 기초하여, 또는 이용자의 지시에 기초하여, 블록의 크기를 변화시키면, 여러 가지 크기의 부분 영상을 추출할 수 있다. 또한, 블록의 형상은 직사각형에 한정되지 않고, 정사각형이나 원형, 타원형 등이어도 된다.

또한, 부분 영상 추출 수단(310)은, 후보 오브젝트의 위치 정보와, 촬영 정보를 구성하는 촬영 방향의 정보를 판독하고, 각 후보 오브젝트 Oci의 위치가 촬영 방향에 대하여 우측인지, 좌측인지, 중앙 부근인지를 추정하여도 된다. 그리고, 부분 영상의 추출을 위해 래스터 스캔하는 범위를 영상 전체가 아니고, 영상의 우측 절반의 범위나, 좌측 절반의 범위, 우측 1/4의 범위, 좌측 1/4의 범위 또는 중앙 부근 등에 한정함으로써, 부분 영상의 추출에 수반하는 부분 영상 추출 수단(310)의 처리량을 삭감할 수 있다.

도 12에 촬영 공간의 우측에 후보 오브젝트가 위치하는 경우의 설명도를 도시한다. 이 때, 영상 내에서 후보 오브젝트가 존재할 가능성이 있는 범위는, 영상 의 우측에 한정된다. 따라서, 도 13에 도시하는 바와 같이, 부분 영상을 추출하는 범위를, 영상의 우측의 범위에 한정하여도 된다. 마찬가지로, 영상 내에서 후보 오브젝트가 존재할 가능성이 있는 범위를 상측 범위 혹은 하측 범위 등에 특정하고, 부분 영상을 추출하는 범위를 영상의 상측 범위 혹은 하측 범위에 한정하여도 되고, 후보 오브젝트와 촬영 위치와의 거리나 후보 오브젝트의 크기 등에 따라 추출하는 부분 영상의 범위를 한정하여도 된다.

또한, 세그멘테이션을 이용한 부분 영상을 추출하는 방법을 이용하여도 된다. 세그멘테이션이란, 화소 및 영역의 색, 엣지, 경계의 복잡도 등을 분석하여, 영상을 몇 개의 영역으로 분할하는 것이다.

세그멘테이션은, 예를 들면, On image segmantation for object image retrieval, Hirata, K.; Kasutani, E.; Hara, Y., Pattern Recognition, 2002, Proceedengs. 16th International Conference, on Volume 3, P.1031-1034에 개시된 방법을 이용하여 행해진다.

세그멘테이션은, 우선, 인접하는 동색의 화소의 집합에 의한 영역을 생성한다. 그리고, 복잡한 경계에 의해 인접하고, 서로 유사한 색의 영역을 결합한다.

다음으로, 거리가 가깝고, 색과 모양이 유사한 영역을 결합한다. 그리고, 경계가 복잡하고 거리가 가까우며, 색과 모양이 유사한 영역을 결합한다. 최후에, 넓은 영역의 주변에 점재하는 좁은 영역을, 넓은 영역에 결합한다.

도 14에 영역으로 분할하는 영상의 일례를 도시하고, 영상을 영역으로 분할하여 추출하는 방법에 대하여 구체적으로 설명한다. 도 14에서, 추출할 영역은, 영상의 우측에 위치하는 B 타워인 것으로 한다.

우선, 세그멘테이션 방법을 이용하여, 영상을, 색 및 엣지에 의해 영역으로 분할한다. 영역으로 분할된 B 타워를 도 15의 좌측 도면에 도시한다. 분할된 영역을 Ri(i=1∼p)라고 한다. B 타워는 R4∼R7의 영역으로 분할되었음을 알 수 있다. 다음으로, 세그멘테이션 방법을 이용하여, 분할된 영역을 결합한다. 결합된 B 타워의 영역의 도면을 도 15의 우측 도면에 도시한다. Ri와 Rj를 결합한 영역을 Ri-j라고 하면, 결합된 B 타워의 영역은 R4-5-6-7으로 되고, B 타워의 영역이 결합되었음을 알 수 있다.

이와 같이, 영역 Ri와 영역 Rj를 결합시킨 Ri-j의 생성을 반복한다. 부분 영상은, 복수의 영역끼리의 조합의 결합을 행하고, 결합된 각각의 영역을 추출한 것이다.

또한, 영역의 분할 및 영역의 결합을 효과적으로 행하기 위해서는, 후보 오브젝트마다, 영역을 분할하는 방법과 영역을 결합하는 방법을 변경하면 된다. 이하, 후보 오브젝트의 시각적 특징량을 이용한 영역의 분할 방법과 결합 방법의 변경에 대하여, 도 16에 영상의 일례의 도면을 도시하고 설명한다. 도 2의 B 타워란에 도시하는 바와 같이, B 타워의 시각적 특징량의 엣지 히스토그램은, 경사 요소가 큰 것이 기술되고, 도미넌트 컬러는 「적」 및 「백」의 요소가 강한 것이 기술되어 있다.

이 때문에, 영역의 분할을 행할 때에, 경사 엣지의 경계선과, 적색 영역과, 백색 영역에 대하여 감도를 높이기 위해 부분 영상 추출 수단(310)의 파라미터를 변경하여 분할을 행하면, 도 17에 도시하는 바와 같이, 영역을 분할할 수 있다. 도 17에서, 실선 부분이 분할된 영역의 경계선을 나타내고 있다. 이와 같이, 영역의 분할과 결합을 행함으로써, 영역의 수를 감소시켜, 추출하는 부분 영상의 수를 감소시킬 수 있다. 또한, 부분 영상 추출 수단(310)은, 후보 오브젝트의 시각적 특징량에 따라, 예를 들면, 휘도 정보나, 색 정보, 형상 정보, 모양 정보, 크기 정보 등의 정보 중 하나의 조건 또는 복수를 조합한 조건에 합치하는 영상의 영역의 부분 영상을 추출하여도 된다.

부분 영상 추출 수단(310)은, 추출한 부분 영상을, 시각적 특징량 설정 수단(311)에 출력한다. 시각적 특징량 설정 수단(311)은, 부분 영상 추출 수단(310)이 추출한 부분 영상의 시각적 특징량을, 공지의 여러 가지 방법 중 어느 하나를 이용하여, 예를 들면 상술한 문헌 A에 개시된 방법으로 산출하여 설정한다(단계 A8). 그리고, 시각적 특징량 설정 수단(311)은, 설정한 시각적 특징량을 특징량 비교 수단(312)에 출력한다.

특징량 비교 수단(312)은, 후보 오브젝트의 시각적 특징량 FOi와 부분 영상의 시각적 특징량 Fr과의 유사도 MSi를 산출한다. 도 18에 부분 영상과 후보 오브젝트를 비교하는 예를 도시한다. 여기서, 후보 오브젝트의 시각적 특징량 FOi는, FOi=(도미넌트 컬러, 컬러 레이아웃, 엣지 히스토그램, 리젼 베이스드 형상 기술자, …)라고 나타내는 것으로 하고, 부분 영상의 시각적 특징량 Fr은, Fr=(도미넌트 컬러, 컬러 레이아웃, 엣지 히스토그램, 리젼 베이스드 형상 기술자, …)라고 나타내는 것으로 한다. 그리고, 유사도 벡터 Si는, Si=(도미넌트 컬러의 유사도, 컬러 레이아웃의 유사도, 엣지 히스토그램의 유사도, 리젼 베이스드 형상 기술자의 유사도, …)라고 나타내는 것으로 한다.

여기서, 도미넌트 컬러의 유사도는, 후보 오브젝트의 대표색과 부분 영상의 대표색의 상관을 고려하여 산출된다. 컬러 레이아웃의 유사도는, 색 성분마다와, 주파수 성분마다의 시각 특성을 반영하는 가중을, 휘도 성분 계수와 색차 성분 계수에 도입하여 산출한 L2 노르므(norme) 합이다. 엣지 히스토그램의 유사도는, 예를 들면 5개의 엣지 요소에 의한, 후보 오브젝트의 히스토그램과 부분 영상의 히스토그램에서의 각 엣지 요소의 차분 절대값 합이다. 리젼 베이스드 형상 기술자의 유사도는, 기술자를 구성하는 요소마다 산출한, 부분 영상과 후보 오브젝트의 차분 절대값 합이다.

그러면, 유사도 MSi는 수학식 4와 같이 나타내고, 유사도를 산출한다(단계 A9).

단, 유사도 벡터 Si의 성분인 각 유사도는, 0 이상 1 이하로 되도록 정규화해 두는 것으로 한다.

또한, 시각적 특징량 비교 수단(31)이, 템플릿 영상을 시각적 특징량에 이용한 경우의 유사도의 계산 방법에 대하여 설명한다. 템플릿 영상을 Toi(x, y), 영상을 F(x, y), 템플릿 영상의 면적을 SF라고 하면, 유사도 MSi(X, Y)는 수학식 5와 같이 나타내고, 산출할 수 있다.

템플릿 영상의 범위를, 예를 들면 0≤x≤29와 0≤y≤49라고 하면, 수학식 5는, 영상 상의 임의의 한 점 (X, Y)로부터 템플릿 영상의 범위의 영역의 영상과, 템플릿 영상과의 유사도를 나타내고 있다.

이상의 유사도의 산출을, 영상 전체 또는 부분 영상 추출 수단(310)이 추출한 모든 부분 영상에 대하여 행하고, 산출한 유사도를 판정 수단(32)에 출력한다. 여기서, 영상 전체 또는 부분 영상과, 후보 오브젝트의 관계는, 산출한 유사도의 수치가 작을수록 시각적인 유사성이 강하다는 것을 나타낸다. 따라서, 이하, 산출한 유사도의 수치가 가장 적은 것을, 최대 유사도라고 한다.

판정 수단(32)은, 후보 오브젝트에 대한 최대 유사도 MSmaxi를 추출하고, 최대 유사도 MSmaxi가 미리 정해진 임계값 Thi보다 작은지의 여부의 판정을 행한다(단계 A11).

최대 유사도 MSmaxi가 임계값 Thi보다 작은 경우, 판정 수단(32)은, 후보 오브젝트가 영상 내에 존재한다고 판단하고, 후보 오브젝트인 지리 오브젝트가 촬영되어 있는 부분 영상과, 후보 오브젝트의 의미 정보를 기억 장치(2)로부터 판독하여, 대응시켜 출력한다(단계 A12). 즉, 영상에 애너테이션을 부여한다. 출력처는, 예를 들면 액정 표시 장치 등의 표시 장치, 하드디스크 장치나 메모리 등의 기억 장치 등이다.

또한, 도 19에 도시하는 바와 같은, 예를 들면, 절 등의 복수의 건조물로 이루어지는 지리 오브젝트에서는, 절 전체의 시각적 특징량이 보는 위치에 따라 크게 다른 것이 있다. 따라서, 지리 오브젝트인 개개의 건조물(예를 들면, 본당과 오중탑 등)의 지리 오브젝트에 대응하는 의미 정보를 계층적으로(예를 들면, 트리 형상으로) 기억 장치(2)에 기억시켜 두는 것이 바람직하다. 예를 들면, 복수의 의미 정보에 공통되는 개념(공통 개념)이 존재하는 경우에, 이들 의미 정보는, 트리의 하나의 노드로부터 이어지는 복수의 브랜치에 상당하는 의미 정보로서 기억 장치(2)에 기억된다. 그리고, 트리의 노드에 상당하는 공통 의미 정보(각 의미 정보의 공통 개념을 나타내는 의미 정보)도, 기억 장치(2)에 기억시켜 두는 것이 바람직하다. 또한, 복수의 공통 의미 정보에 공통되는 개념이 존재하는 경우에, 이들 공통 의미 정보는, 트리의 하나의 노드로부터 이어지는 복수의 브랜치에 상당하는 상위층의 공통 의미 정보로서 기억 장치(2)에 기억된다. 그리고, 공통 의미 정보의 노드에 상당하는 상위층의 공통 의미 정보도, 기억 장치(2)에 기억시켜 두는 것이 바람직하다. 즉, 도 20에 도시하는 바와 같이, 지리 오브젝트의 집합(예를 들면, 본당과 오중탑)의 계층적인 상위 개념의 의미 정보(예를 들면, D절)를 미리 작성해 둔다. 그리고, 판정 수단(32)은, 도 19 내에 원으로 나타낸 바와 같이, 추출된 지리 오브젝트에 대하여, 공통 의미 정보의 하위 개념에 상당하는 의미 정보(예를 들면, 본당 또는 오중탑)에 대응하는 지리 오브젝트를 인식하면, 지리 오브젝트의 집합의 상위 개념으로서 「D절」이라는 애너테이션을 부여한다.

마찬가지로, 예를 들면, 도 21에 도시하는 C 빌딩 등의 지리 오브젝트의 윤 곽은, 촬영 방향에 따라 크게 다른 경우가 있다. 도 22에 도시하는 바와 같이, 이와 같은 지리 오브젝트의 구성을 분할하고, 분할된 각각의 지리 오브젝트의 시각적 특징량을 각각 기억 장치(2)에 기억시켜도 된다. 이 경우, 도 20에 도시하는 바와 같이, 분할된 각각의 지리 오브젝트의 의미 정보의 상위 개념에 상당하는 공통 의미 정보(예를 들면, 「C 빌딩」)를 기억 장치(2)에 기억시키고, 공통 의미 정보의 상위 개념에 상당하는 상위층의 공통 의미 정보(예를 들면, 「신주꾸 부도심 빌딩군」)가 있으면, 그것도 기억 장치(2)에 기억시켜 둔다. 부분 영상 추출 수단(310)이, 분할된 지리 오브젝트의 각 부분을 별개의 지리 오브젝트로서 추출한 경우에, 판정 수단(32)은, 추출된 지리 오브젝트에 대하여, 의미 정보(예를 들면, 「C 빌딩 우측」)의 상위 개념인 공통 의미 정보가 기억 수단(2)에 기억되어 있는지의 여부를 판정한다. 그리고, 공통 의미 정보가 기억 수단(2)에 있으면, 지리 오브젝트의 집합의 상위 개념으로서 「C 빌딩」이라는 애너테이션을 부여한다.

예를 들면, 나무나 사람 등의 장해물에 의해서 지리 오브젝트의 일부가 숨겨지는 경우나, 복잡한 형상의 지리 오브젝트의 일부분에 의해 다른 대부분이 숨겨지는 경우와 같이, 지리 오브젝트의 전체가 촬영되어 있지 않은 영상이 입력 장치(1)에 입력된 경우가 있다. 이와 같은 경우, 지리 오브젝트의 일부를 분할하여 각각의 지리 오브젝트의 시각적 특징량을 기억 장치(2)에 기억시켜 두면, 부분 영상 추출 수단(310)은, 촬영되어 있는 일부의 부분에 의해 지리 오브젝트를 인식하여 부분 영상을 추출할 수 있다. 그러면, 지리 오브젝트를 분할하지 않고서 부분 영상을 추출하는 경우에 비해, 건물의 방향의 변동에 강한 애너테이션의 부여를 행할 수 있다.

또한, 지리 오브젝트의 전체 뿐만 아니라, 이에 더하여 또는 그 대신에, 일부가 숨은 지리 오브젝트의 시각적 특징량이나, 일 방향 뿐만 아니라, 이에 더하여 또는 그 대신에, 여러 가지 방향·위치로부터 촬영한 지리 오브젝트의 시각적 특징량을 복수로 미리 기억 장치(2)에 기억시켜 두어도 된다. 이에 따라, 입력 영상의 촬영 위치 또는 촬영 방향에 가장 가까운 방향으로부터 촬영된 때의 특징량을 이용함으로써, 보는 방향에 따라 시각적 특징이 크게 다른 지리 오브젝트에도 대응시킬 수 있다.

이상의, 단계 A6부터 단계 A12까지의 각 단계를, 모든 후보 오브젝트에 대하여 반복하여 행한다(단계 A13). 본 발명에 따른 영상 애너테이션 부여 장치는, 입력 장치(1)에 입력된 영상의 한 코마 한 코마에 대하여, 단계 A1부터 단계 A13까지의 처리를 행한다. 그러나, 예를 들면, 영상 입력 기기가 촬영하는 영상이 1초 동안에 30 코마이고, 입력 장치(1)에 입력되는 영상이 1초 동안에 3 코마인 경우에는, 영상 입력 기기가 촬영한 10 코마의 영상 중, 1 코마의 영상에 대해서만 애너테이션의 부여가 행하여진다. 따라서, 이와 같은 경우에는, 애너테이션의 출력을 1/3초 동안 유지하여도 된다. 이와 같은 구성에 의하면, 영상 입력 기기가 촬영한 영상에 대하여 도중에 끊기는 일없이 애너테이션의 부여를 행할 수 있다.

본 실시예에서는, 부분 영상의 시각적 특징량과, 기억 장치(2)가 기억하고 있는 오브젝트의 시각적 특징량을 비교하여, 오브젝트가 영상에 나타나 있는지의 여부의 판정을 행한다. 그리고, 오브젝트가 영상에 나타나 있다고 판정한 경우에, 오브젝트와 애너테이션을 대응시키기 때문에, 실제로는 영상에 나타나지 않는 오브젝트의 애너테이션과 영상을 대응시키는 것을 방지할 수 있다. 또한, 부분 영상과의 유사도를 산출하는 지리 오브젝트를, 기억 장치(2)가 기억하고 있는 지리 오브젝트 중, 촬영 공간에 존재하는지의 여부 등의 조건에 합치하는 지리 오브젝트에 한정하고 있다. 이 때문에, 시각적 특징량 비교 수단(31)의 데이터 처리의 부담을 경감시킬 수 있다.

(발명의 제2 실시예)

도 23에 본 발명의 제2 실시예를 설명하는 블록도를 도시하고, 본 실시예의 구성에 대하여 설명한다. 본 발명의 제2 실시예는, 영상 및 영상을 촬영한 상황의 정보인 촬영 정보가 입력되는 입력 장치(1)와, 영상의 피사체인 오브젝트의 정보를 기억하는 기억 장치(2)와, 촬영 정보와 오브젝트의 정보를 비교하여, 오브젝트가 영상에 촬영되어 있는지의 여부를 판정하는 오브젝트 인식 장치(4)를 포함한다.

입력 장치(1)와 기억 장치(2)는, 제1 실시예와 마찬가지이기 때문에, 설명을 생략한다. 오브젝트 인식 장치(4)는, 촬영 정보를 구성하는 위치 정보와 지리 오브젝트의 위치 정보에 기초하여, 지리 오브젝트가 촬영되어 있을 확률인 존재 확률을 산출하는 촬영 공간 추정 수단, 매칭 수단 및 존재 확률 산출 수단(예를 들면, 존재 확률 산출 수단(40))과, 기억 장치(2)가 기억하고 있는 지리 오브젝트의 시각적 특징량과, 입력 장치(1)에 입력된 영상의 일부분의 영역 또는 전체의 시각적 특징량과의 유사도를 산출하는 유사도 산출 수단(예를 들면, 시각적 특징량 비교 수단(41))과, 존재 확률과 유사도를 종합적으로 평가하여, 지리 오브젝트가 촬영되어 있는지의 여부를 판단하는 판정 수단(42)을 포함한다.

도 24에 시각적 특징량 비교 수단(41)의 일 구성예를 도시하고, 구성에 대하여 설명한다. 시각적 특징량 비교 수단(41)은, 입력 장치(1)에 입력된 영상으로부터, 부분 영상을 추출하는 부분 영상 추출 수단(410)과, 추출한 부분 영상의 시각적 특징량을 설정하는 시각적 특징량 추출 수단(411)과, 기억 장치(2)가 기억하고 있는 지리 오브젝트의 시각적 특징량과, 부분 영상의 시각적 특징량과의 유사도를 산출하는 특징량 비교 수단(412)을 포함한다.

다음으로, 본 실시예의 동작에 대하여 설명한다. 본 실시예의 동작과 제1 실시예의 동작의 차이는, 도 5에 도시하는 플로우차트에서의 단계 A5와 단계 A11이다. 이 때문에, 그 밖의 동작에 대해서는 설명을 생략한다.

도 5에 도시하는 플로우차트의 단계 A5에서, 제1 실시예에서는 후보 오브젝트 검색 수단(30)이 후보 오브젝트의 추출을 행한다. 그러나, 본 실시예에서는 후보 오브젝트의 추출을 행하지 않는다. 따라서, 특징량 비교 수단(412)은, 기억 장치(2)가 기억하고 있는 모든 지리 오브젝트의 시각적 특징량과 부분 영상의 시각적 특징량의 비교를 행한다.

도 5에 도시하는 플로우차트의 단계 A11에서, 제1 실시예에서는 최대 유사도 MSmaxi의 임계값 판정을 행한다. 그러나, 본 실시예에서는, 존재 확률 산출 수단(40)이, 기억 장치(2)가 기억하고 있는 각 지리 오브젝트가 촬영되어 있을 확률인 존재 확률 Pi를 산출한다. 그리고, 판정 수단(42)이, 존재 확률 Pi와 특징량 비교 수단(412)이 산출한 최대 유사도 MSmaxi의 역수를 곱하여 통합 스코어를 산출한다. 산출한 통합 스코어의 수치가, 미리 정해진 임계값보다 큰 경우, 판정 수단(42)은, 지리 오브젝트가 영상 내에 존재한다고 판단하고, 기억 장치(2)로부터 지리 오브젝트의 의미 정보를 판독한다. 그리고, 지리 오브젝트가 촬영되어 있는 부분 영상과, 기억 장치(2)로부터 판독한 지리 오브젝트의 의미 정보를 대응시켜 출력한다.

존재 확률 Pi를 구하기 위해서, 수학식 3의 수평 거리, 수평 각도 오차 및 앙각에 대하여, 지리 오브젝트가 촬영되어 있을 확률의 분포인 확률 밀도 분포를 미리 작성하고, 이들 확률 밀도 분포에 기초하여 존재 확률을 산출한다. 여기서, 확률 밀도 분포는, 횡축을 화소 수, 종축을 확률로 한 가우스 분포이다. 지리 오브젝트의 영상 상의 위치의 오차는, GPS의 계측 정밀도와, 촬영 방향의 각도의 정밀도와, 촬영 위치로부터 지리 오브젝트까지의 거리에 기초하여, 오차를 추정할 수 있기 때문에, 그 오차를 가우스 분포의 σ값으로 하는 등 하여 확률 밀도 함수를 결정한다.

본 실시예에서는, 지리 오브젝트가 촬영되어 있을 확률과, 부분 영상의 시각적 특징량과, 기억 장치(2)가 기억하고 있는 오브젝트의 시각적 특징량을 비교한 결과에 기초하여, 오브젝트가 영상에 나타나 있는지의 여부의 판정을 행한다. 이 때문에, 촬영 공간에 존재하는 오브젝트이어도, 영상에 찍혀 있을 확률이 낮은 오브젝트의 애너테이션을, 영상에 대응시키는 것을 방지할 수 있다.

(발명의 제3 실시예)

도 25에 본 발명의 제3 실시예를 설명하는 블록도를 도시하고, 본 실시예의 구성에 대하여 설명한다. 본 발명의 제3 실시예는, 제1 실시예의 구성에, 레이아 웃 장치(51)와 표시 장치(52)를 더한 구성이다. 이 때문에, 제1 실시예와 마찬가지인 장치 등에는 도 1과 마찬가지의 부호를 이용하고, 설명을 생략한다. 표시 위치 결정 수단은 레이아웃 장치(51)에 의해 실현된다.

레이아웃 장치(51)는, 영상과, 영상으로부터 추출한 부분 영상에 부여한 애너테이션을 중첩하여 표시시키는 경우의 애너테이션의 표시 위치를 결정하고, 표시 장치(52)에 출력한다. 표시 장치(52)는 영상에 애너테이션을 중첩하고, 레이아웃 장치(51)가 결정한 표시 위치에 애너테이션을 표시한다.

도 26은 표시 장치(52)가 애너테이션을 영상에 중첩시켜 표시한 경우의 표시예이다. 레이아웃 장치(51)는, 애너테이션의 표시 위치를, 부분 영상의 바로 아래, 바로 위, 우측, 및 좌측 중 어느 하나의 위치로서, 다른 부분 영상에 중첩되지 않는 위치로 결정한다. 도 26과 같이, 다른 부분 영상이 존재하기 때문에, 소정의 거리를 초과하여 부분 영상으로부터 떨어진 위치에 애너테이션을 표시 위치시킬 때에는, 부분 영상과 애너테이션을 화살표로 연결하여 표시시키면 된다.

본 실시예에서는, 애너테이션을 표시시키는 영상 상의 위치를 결정한다. 이 때문에, 오브젝트와 애너테이션와의 대응을 영상에서 나타낼 수 있다.

(발명의 제4 실시예)

도 27에 본 발명의 제4 실시예를 설명하는 블록도를 도시하고, 본 실시예의 구성에 대하여 설명한다. 본 발명의 제4 실시예는, 제1 실시예의 구성에, 애너테이션 결과 기억 장치(61)를 더한 구성이다. 이 때문에, 제1 실시예와 마찬가지인 장치 등에는, 도 1과 마찬가지의 부호를 이용하여, 설명을 생략한다.

애너테이션 결과 기억 장치(61)는, 부분 영상과, 부분 영상에 대응된 지리 오브젝트의 의미 정보의 세트를, 대응을 유지한 채로 기억한다. 기억 매체는, 예를 들면 메모리, 하드디스크 장치, CD-ROM, 또는 DVD-RAM 등이다. 또한, 애너테이션 결과 기억 장치(61)는, 부분 영상의 영상 상의 위치의 정보를 기억하여도 되고, 입력된 키워드에 합치하는 영상을 출력하여도 된다. 예를 들면, 전체의 영상에서의 부분 영상의 위치를, x 좌표와 y 좌표의 수치로 특정할 수 있는 경우로서, 애너테이션 결과 기억 장치(61)가, B 타워가 좌측에 찍혀 있는 영상과, 의미 정보(B 타워)와, 전체의 영상에서의 부분 영상의 위치((x, y)=(120, 240))의 정보의 세트를 대응시켜 기억한 경우, 「오브젝트=B 타워」와, 「영역=x<320」의 키워드가 입력되면, 이하와 같이 영상이 추출된다. 여기서, 전체의 영상의 x의 최대값은 640인 것으로 한다.

우선, 의미 정보가 「B 타워」이고, 전체의 영상에서의 부분 영상의 위치가 「x<320」이라고 하는 조건에 합치하는 의미 정보와 오브젝트의 영역의 세트를 검색하여 특정한다. 그러면, 특정한 세트에 대응된 영상인 「B 타워가 좌측에 찍혀 있는 영상」을 추출할 수 있다. 이용자는 애너테이션 결과 기억 장치(61)가 구비하는 키보드 등을 통하여 키워드를 입력하여도 되고, 마이크로폰 등을 통하여 음성 입력을 행하여도 된다. 또한, 이용자가 미리 애너테이션 결과 기억 장치(61)에 자기의 기호를 기억시켜, 애너테이션 결과 기억 장치(61)가 기억하고 있는 이용자의 기호에 기초하여 키워드를 생성하여도 된다.

본 실시예는, 애너테이션과, 영상 데이터에 포함되는 오브젝트를 대응시켜 기억하는 애너테이션 결과 기억 수단을 구비한다. 이 때문에, 기억한 애너테이션과 영상 데이터에 포함되는 오브젝트와의 대응에 기초하여, 영상 데이터의 검색을 행할 수 있다.

(발명의 제5 실시예)

도 28에 본 발명의 제5 실시예에서의 시각적 특징량 비교 수단을 설명하는 블록도를 도시하고, 본 실시예의 구성에 대하여 설명한다.

본 발명의 제5 실시예는, 제1 실시예에서의 시각적 특징량 비교 수단의 도 4의 구성에, 결과 보유 수단(513)을 더한 구성이다. 결과 보유 수단(513)은, 특징량 비교 수단(512)에서 산출한 유사도를 기록하고, 유사도가 높은 부분 영상만을 추출한다.

다음으로, 본 실시예의 동작에 대하여 설명한다. 본 실시예의 동작과 제1 실시예의 동작의 차이는, 도 29에 도시하는 플로우차트에서의 단계 A101 내지 단계 A106이다. 이 때문에, 그 밖의 동작에 대해서는 설명을 생략한다.

도 29에 도시하는 플로우차트의 단계 A101에서, 입력 영상을 세그멘테이션에 의해 분할한다. 이 분할된 영역의 조합을 결합하여 영역을 얻는다. 그러나, 조합 수는 (2의 영역 수 제곱)-1이기 때문에, 영역 수 b의 증가에 의해 단순 조합 수가 지수 함수적으로 증가한다. 따라서, 조합의 평가를 계층적으로 행하여 한정하는 방법을 도입한다. 예를 들면, 도 30에 도시하는 바와 같이, 계층의 1단째에서는, 1 영역과 대상 랜드마크와의 유사도를 계산하고, 상위 m개의 영역만을 다음 단으로 인도하고, m+1 등위 이하의 조합에 대해서는 금후 평가 대상으로 하지 않는다. n 단째에서는, n-1단째에서 추출된 n-1 영역의 조합에 대하여, 새로운 1 영역을 더한 n개의 영역을 조합하고(단계 A102), 특징량을 추출하고(단계 A103), 대상 랜드마크와의 유사도를 계산하고(단계 A104), 상위 m개의 조합을 추출한다(단계 A107). 이 처리를 L(<b)단까지 행하고(단계 A106), 최대 유사도로 되는 조합 영역을 출력한다. 이에 의해, 조합 수를 최대 a(b(1+m)-m)로서 비례 오더로 억제할 수 있다. 이와 같이, 시각적으로 분할된 영역을 조합해 감으로써, 대상 랜드마크와 다른 시각적 특징을 갖는 은폐물을 제거한 랜드마크 영역을 추출할 수 있다.

이 때, 조합 단 수에 따라, 유사도 벡터 Si 계산 시에 특징량의 가중을 변경하여도 된다. 예를 들면, 조합의 단 수가 적은 경우에는, 조합 영역은 대상 랜드마크의 일부분일 뿐이라고 생각되기 때문에, 유사도 벡터 Si 계산 시에 형상에 관한 특징량(리젼 베이스드 형상 기술자)의 유사도에 작은 계수를 가중하여, 형상에 관한 유사도의 효과를 저감시키고, 조합의 단 수가 많은 경우에는, 유사도에 큰 계수를 가중하여, 형상의 효과를 증대시킴으로써, 효과적인 한정을 행할 수 있다.

또한, 이상에서 설명한 본 발명에 따른 각 실시예의 구성은, 차량 안내 시스템(카 네비게이션 시스템)에 탑재되어 실현되어도 된다.

이상에서 설명한 본 발명에 따른 각 실시예는, 촬영 위치와 오브젝트와의 거리의 계측을 행하지 않고서, 촬영된 오브젝트와 기억 장치가 기억하고 있는 오브젝트와의 대응을 행한다. 촬영 위치와 오브젝트와의 거리에 기초하여, 촬영된 오브젝트와 기억 장치가 기억하고 있는 오브젝트와의 대응을 행하는 방법이 있다. 이 경우에 행해지는 촬영 위치와 오브젝트와의 거리 계측은, 복수의 카메라를 이용한 스테레오스코픽 방법(stereoscopic process)이나, 레이저 등을 이용한 광학적 거리 측정 방법이 있다. 그러나, 이들 방법을 이용한 거리 측정에는, 복수의 카메라 혹은 광학식 거리 측정 장치를 필요로 하며, 거리의 측정에 시간을 요한다. 또한, 오브젝트 부근의 나무나 간판 등과 오브젝트와의 거리에 의한 식별은 곤란하다고 하는 문제가 있다.

Claims

영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받는 입력 수단과,

오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보를 대응시켜 기억하는 기억 수단과,

입력된 영상 데이터에 의한 영상에 포함되는 오브젝트를 인식하는 오브젝트 인식 수단

을 구비하고,

상기 오브젝트 인식 수단은,

촬영 정보에 기초하여 촬영 공간을 추정하는 촬영 공간 추정 수단과,

촬영 공간과, 상기 기억 수단에 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 매칭 수단과,

입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역의 영상 데이터 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 부분 영상 추출 수단과,

부분 영상 데이터의 시각적 특징 정보를 생성하는 시각적 특징 정보 설정 수단과,

부분 영상 데이터의 시각적 특징 정보와, 상기 기억 수단이 기억하고 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 유사도 산출 수단과,

상기 매칭 수단의 매칭 결과와, 산출한 유사도에 기초하여, 입력된 영상 데이터에 의한 영상 내에 오브젝트가 존재하고 있는지의 여부를 판정하는 판정 수단

을 구비한 영상 오브젝트 인식 장치.
영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받는 입력 수단과,

오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 대응시켜 기억하는 기억 수단과,

입력된 영상 데이터에 의한 영상에 포함되는 오브젝트와, 부가 정보를 대응시키는 오브젝트 인식 수단

을 구비하고,

상기 오브젝트 인식 수단은,

촬영 정보에 기초하여 촬영 공간을 추정하는 촬영 공간 추정 수단과,

촬영 공간과, 상기 기억 수단에 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 매칭 수단과,

입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역의 영상 데이터 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 부분 영상 추출 수단과,

부분 영상 데이터의 시각적 특징 정보를 생성하는 시각적 특징 정보 설정 수 단과,

부분 영상 데이터의 시각적 특징 정보와, 상기 기억 수단이 기억하고 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 유사도 산출 수단과,

상기 매칭 수단의 매칭 결과와, 산출한 유사도에 기초하여, 입력된 영상 데이터에 의한 영상에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와, 상기 기억 수단이 기억하고 있는 부가 정보를 대응시키는 판정 수단

을 구비한 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 오브젝트 인식 수단은,

촬영 공간과, 기억 수단이 기억하고 있는 오브젝트의 위치 정보에 기초하여, 오브젝트가 영상에 포함되어 있을 확률인 존재 확률을 산출하는 존재 확률 산출 수단

을 포함하고,

상기 판정 수단은, 산출한 존재 확률과 유사도에 기초하여, 영상에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와 상기 기억 수단이 기억하고 있는 부가 정보를 대응시키는 영상 애너테이션 부여 장치.
제3항에 있어서,

상기 부분 영상 추출 수단은,

상기 기억 수단이 기억하고 있는 오브젝트의 위치 정보에 기초하여, 영상에서의 오브젝트가 위치하는 범위를 특정하고, 특정한 범위로부터 부분 영상 데이터를 추출하는 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 오브젝트 인식 수단은,

촬영 공간과 위치 정보에 기초하여, 촬영 공간에 존재하는 오브젝트인 후보 오브젝트의 추출을 행하는 후보 오브젝트 검색 수단

을 포함하고,

상기 유사도 산출 수단은, 부분 영상 데이터의 시각적 특징 정보와, 기억 수단이 기억하고 있는 후보 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 영상 애너테이션 부여 장치.
제5항에 있어서,

상기 부분 영상 추출 수단은,

상기 기억 수단이 기억하고 있는 후보 오브젝트의 위치 정보에 기초하여, 영상에서의 오브젝트가 위치하는 범위를 특정하고, 특정한 범위의 영상으로부터 부분 영상 데이터를 추출하는 영상 애너테이션 부여 장치.
제2항에 있어서,

영상을 표시하는 표시 수단과,

상기 표시 수단에, 영상에 포함되는 오브젝트에 대응된 부가 정보를 표시시킬 위치를 지정하고 부가 정보를 영상에 중첩하여 표시시키는 표시 위치 결정 수단

을 구비한 영상 애너테이션 부여 장치.
제2항에 있어서,

부가 정보와 영상에 포함되는 오브젝트를 대응시켜 기억하는 애너테이션 결과 기억 수단

을 구비한 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 부분 영상 추출 수단은,

추출하는 부분 영상 데이터에 의한 영상의 영역의 형상과 크기를 임의로 변경 가능한 기능을 갖는 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 부분 영상 추출 수단은,

휘도 정보와, 색 정보와, 형상 정보와, 모양 정보와, 크기 정보 중 하나의 조건 또는 복수를 조합한 조건에 합치하는 영상의 영역의 부분 영상 데이터를 추출하는 영상 애너테이션 부여 장치.
제10항에 있어서,

상기 부분 영상 추출 수단은,

복수의 정보를 조합한 조건에 합치하는 영상의 영역의 부분 영상 데이터를 추출하는 경우, 매칭 수단의 매칭 결과와, 기억 수단이 기억하고 있는 오브젝트의 시각적 특징 정보에 기초하여, 각 조건에 대한 가중을 행하고 부분 영상 데이터를 추출하는 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 시각적 특징 정보는, 오브젝트에 유사한 시각적인 특징을 갖는 영상인 템플릿 영상인 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 시각적 특징 정보는 색 정보, 형상 정보, 모양 정보 및 크기 정보 중 하나 또는 복수의 정보로 구성되고,

상기 시각적 특징 정보 설정 수단이 생성하는 부분 영상 데이터의 시각적 특징 정보는 색 정보와, 형상 정보와, 모양 정보와, 크기 정보 중 하나의 정보 또는 복수의 정보로 구성되는 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 위치 정보는, 오브젝트의 형상에 유사한 형상의 원추, 원주, 입방체 등의 입체 기하학의 입체 형상을 이용하여 근사시킨 입체 형상의 정점 중 하나의 정점, 중심점, 및 무게 중심점 중 어느 하나의 위치를 특정하는 정보인 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 위치 정보는, 오브젝트의 형상을 다각형의 면을 이용하여 근사시킨 3차원 형상의 정점 중 적어도 하나의 정점의 위치를 특정하는 정보인 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 위치 정보는, 오브젝트의 정점 중 가장 표고가 높은 정점의 위치를 특정하는 정보인 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 위치 정보는, 위도와 경도와 표고에 의해 오브젝트의 위치를 특정하는 정보인 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단은, 복수의 오브젝트의 각각에 대응된 부가 정보에 공통되는 개념에 기초하는 공통 부가 정보, 또는 복수의 공통 부가 정보에 공통되는 개념에 기초하는 공통 부가 정보를 계층적으로 기억하고,

상기 판정 수단은, 촬영된 오브젝트의 부가 정보 또는 공통 부가 정보에 대응하는 공통 부가 정보가 존재하는지의 여부를 판정하고, 존재하는 경우에는, 그 오브젝트에 공통 부가 정보를 대응시키는 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 촬영 정보는, 촬영한 날짜와 시각을 특정하는 정보인 촬영 일시 정보를 포함하고,

상기 기억 수단은, 촬영한 날짜와 시각에 따른 시각적 특징 정보를 기억하고,

상기 유사도 산출 수단은, 부분 영상 데이터의 시각적 특징 정보와, 촬영 일시 정보가 특정하는 날짜와 시각에 따른 시각적 특징 정보를 비교하여 유사도를 산출하는 영상 애너테이션 부여 장치.
제10항에 있어서,

상기 부분 영상 추출 수단은,

상기 입력된 영상 데이터로부터 영역을 분할하고, 분할된 영역을 상기 부분 영상 데이터로 하는 영상 애너테이션 부여 장치.
제20항에 있어서,

상기 부분 영상 추출 수단은,

상기 분할된 영역의 조합에 의해 상기 부분 영상 데이터로 하는 영상 애너테이션 부여 장치.
제21항에 있어서,

상기 부분 영상 추출 수단은,

상기 분할 영역의 조합의 평가를 계층적으로 행함으로써 부분 영상 데이터를 생성하는 영상 애너테이션 부여 장치.
제22항에 있어서,

상기 부분 영상 추출 수단은,

상기 분할 영역의 조합 계층 평가로서, 동일 영역 수의 조합으로부터 상기 유사도가 높은 특정 수만 이후의 조합에 이용하는 영상 애너테이션 부여 장치.
제2항에 있어서,

상기 기억 수단이 기억하는 오브젝트의 시각적 특징 정보로서, 일 방향 또는 복수 방향으로부터의 전체상 또는 일부분의 오브젝트에서의 시각적 정보를 복수 보유하는 영상 애너테이션 부여 장치.
차량에 탑재되고, GPS를 이용하여 자기의 위치를 표시 장치가 표시하는 지도 상에 나타내는 차량 안내 시스템으로서,

제2항의 영상 애너테이션 부여 장치를 구비한 차량 안내 시스템.
영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받고,

오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보를 대응시켜 기억하고,

촬영 정보에 기초하여 촬영 공간을 추정하고,

촬영 공간과, 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하고,

입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하고,

부분 영상 데이터의 시각적 특징 정보를 생성하고,

부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하고,

매칭 결과와, 산출한 유사도에 기초하여, 오브젝트가 촬영되어 있는지의 여부를 판정하는 영상 오브젝트 인식 방법.
영상 데이터와, 촬영 공간을 결정 가능한 정보인 촬영 정보를 입력받고,

오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화 한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 대응시켜 기억하고,

촬영 정보에 기초하여 촬영 공간을 추정하고,

촬영 공간과, 기억되어 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하고,

입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하고,

부분 영상 데이터의 시각적 특징 정보를 생성하고,

부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하고,

매칭 결과와, 산출한 유사도에 기초하여, 영상 데이터에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와, 기억되어 있는 부가 정보로 구성되는 애너테이션을 대응시키는 영상 애너테이션 부여 방법.
영상 데이터에, 기억되어 있는 오브젝트가 피사체로서 포함되어 있는지의 여부를 판정하는 영상 오브젝트 인식 장치에 탑재되는 영상 오브젝트 인식 프로그램으로서,

컴퓨터에,

오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보를 대응시켜 기억 장치에 기억시키는 처리와,

촬영 공간을 결정 가능한 정보인 촬영 정보에 기초하여 촬영 공간을 추정하는 처리와,

촬영 공간과, 상기 기억 장치가 기억하고 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 처리와,

입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 처리와,

부분 영상 데이터의 시각적 특징 정보를 생성하는 처리와,

부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 처리와,

매칭 결과와, 산출한 유사도에 기초하여, 오브젝트가 촬영되어 있는지의 여부를 판정하는 처리를 실행시키는 영상 오브젝트 인식 프로그램.
오브젝트와, 기억되어 있는 오브젝트의 정보를 대응시키는 영상 애너테이션 부여 장치에 탑재되는 영상 애너테이션 부여 프로그램으로서,

컴퓨터에,

오브젝트의 위치의 정보인 위치 정보와, 오브젝트의 시각적인 특징을 수치화한 정보인 시각적 특징 정보와, 오브젝트에 부가되는 정보인 부가 정보를 대응시켜 기억 장치에 기억시키는 처리와,

촬영 공간을 결정 가능한 정보인 촬영 정보에 기초하여 촬영 공간을 추정하는 처리와,

촬영 공간과, 상기 기억 장치가 기억하고 있는 오브젝트의 위치 정보가 나타내는 위치의 매칭을 행하는 처리와,

입력된 영상 데이터로부터, 영상 데이터에 의한 영상의 일부분의 영역 또는 영상 전체의 영상 데이터인 부분 영상 데이터를 추출하는 처리와,

부분 영상 데이터의 시각적 특징 정보를 생성하는 처리와,

부분 영상 데이터의 시각적 특징 정보와, 기억되어 있는 오브젝트의 시각적 특징 정보를 비교하여 유사도를 산출하는 처리와,

매칭 결과와, 산출한 유사도에 기초하여, 영상 데이터에 포함되는 오브젝트를 특정하고, 특정한 오브젝트와, 기억되어 있는 부가 정보로 구성되는 애너테이션을 대응시키는 처리를 실행시키는 영상 애너테이션 부여 프로그램.