KR100925081B1

KR100925081B1 - 형태를 사용하여 객체를 표현 및 탐색하기 위한 방법 및장치

Info

Publication number: KR100925081B1
Application number: KR1020087011956A
Authority: KR
Inventors: 미로슬로 바버
Original assignee: 미쓰비시덴키 가부시키가이샤
Priority date: 1999-04-29
Filing date: 2000-04-28
Publication date: 2009-11-04
Also published as: AU4766900A; KR20080050538A; US7362921B1; EP1183624A1; KR100874787B1; CN1979480A; EP2312471A1; CN1534521A; CN1979481A; EP2309402A1; US20080065614A1; US20080065615A1; GB2349493B; GB2375212A; JP2000339477A; KR20020006712A; GB0216853D0; GB2349493A; GB2375212B; WO2000067151A1

Abstract

본 발명은 탐색시 사용하기 위한 정지 또는 비디오 이미지로 나타나는 객체를 표현하는 방법에 관한 것으로, 상기 객체는 이미지에 대응하는 신호들을 처리함으로써 제1 2차원 아웃라인을 갖는 이미지에 나타나며, 상기 방법은 객체의 제1 아웃라인의 뷰 기술자를 도출하고 상이한 뷰에서의 객체의 아웃라인의 적어도 하나의 추가 뷰 기술자를 도출하는 단계, 및 객체 기술자를 형성하기 위해 2개 이상의 뷰 기술자들을 연관시키는 단계를 포함한다.

이미지 데이터베이스, 제어 유닛, 포인팅 디바이스, 기술자 데이터베이스, 디스플레이 유닛

Description

형태를 사용하여 객체를 표현 및 탐색하기 위한 방법 및 장치{METHOD AND APPARATUS FOR REPRESENTING AND SEARCHING FOR AN OBJECT USING SHAPE}

본 발명은 특히 탐색시 사용되는 형태(shape)를 사용해서 객체를 이미지로 표현하기 위한 방법 및 장치에 관한 것이다. 본 발명은 또한 형태 표현(representation)을 사용해서 이미지 상태의 객체(object)를 탐색하기 위한 방법 및 장치에 관한 것이다.

이미지들로 나타나는 객체들의 표현을 사용해서 정지 또는 비디오 이미지들을 예를 들면, 이미지 라이브러리에 저장시키는 것은 공지되어 있다. 상기 표현은 해당 객체들을 포함하는 이미지들이 검색될 수 있게 하는 탐색 방법들에서 사용된다. 표현은 색, 텍스처(texture) 및 형태를 포함하는 객체들의 다양한 특징들을 근거로 할 수 있다.

이미지로 객체의 형태를 표현하는 다양한 방법들이 공지되어 있다. 공지된 방법들은 연쇄 부호화(chain coding), 쿼드-트리 방법(quad-tree method) 및 곡률 스케일 공간 표현 방법(curvature scale space representation method)을 포함한다.

이미지 탐색 시스템에서 탐색을 행하기 위해, 사용자는 찾고자하는 객체의 스케치 또는 이미지를 시스템에 제공함으로써 또는 시스템에 저장되어있는 객체의 뷰(view)를 선택함으로써 질의(query)를 입력한다. 그 후, 시스템은 질의 객체에 대한 표현을 도출(derive) 또는 획득하며, 적절한 매칭 방법을 사용해서 데이터베이스에 저장되어 있는 이미지 표현과 질의에 따른 표현을 비교한다. 가장 근접하게 매칭되는 표현들이 디스플레이 유닛에 디스플레이된다.

대부분의 경우에, 비디오 이미지에 나타나는 객체는 3차원 실제 객체를 2차원 이미지 평면에 투사한 것이다. 이미지로 나타나는 객체의 2차원 형태 또는 아웃라인은 뷰 위치, 뷰 각도 및 카메라 및 광 시스템 파라미터들과 같은 요인들에 좌우된다. 따라서 객체들은 상이한 뷰들과 관련된 상이한 아웃라인들을 가질 것이다.

공지된 이미지 데이터베이스 시스템들의 단점은 상이한 아웃라인들을 갖는 객체의 상이한 뷰들이 서로 다른 객체들로서 처리된다는 점이다. 그 결과, 예를 들어, 사용자가 객체 A의 정면을 근거로 질의를 입력하고, 후면 및 측면의 객체 A만이 비디오 시퀀스에 나타난다면, 성공적인 매칭이 이루어질 수 없고 이에 따라 객체가 검색되지 않을 것이다.

본 발명은 객체에 대응하는 다수의 상이한 2차원 뷰들의 표현들을 도출하는 단계를 포함하는 디지털 이미지로 나타나는 객체의 표현 방법을 제공한다.

또한 본 발명은 질의를 입력하는 단계 및 객체들의 이미지들에 대응하는 신호들을 처리함으로써 가장 근접하게 매칭되는 표현 또는 표현들을 찾기 위해 객체들의 다수의 상이한 뷰들의 표현들과 질의를 비교하는 단계를 포함하는 객체 매칭 방법을 제공한다.

본 발명은 객체에 대응하는 다수의 상이한 2차원 뷰들의 표현들을 도출하는 단계를 포함하는 디지털 이미지로 나타나는 객체의 표현 방법이 제공한다.

또한 본 발명은 질의를 입력하는 단계 및 객체들의 이미지들에 대응하는 신호들을 처리함으로써 가장 근접하게 매칭되는 표현 또는 표현들을 찾기 위해 객체들의 다수의 상이한 뷰들의 표현들과 질의를 비교하는 단계를 포함하는 객체 매칭 방법이 제공한다.

본 발명의 실시예에 따른 시스템이 도 1에 도시되어 있다. 시스템은 시스템의 동작을 제어하기 위한 컴퓨터와 같은 제어 유닛(2), 이미지들 및 텍스트를 포함하는 출력들을 디스플레이하기 위해 제어 유닛(2)에 접속되어 있는 모니터와 같은 디스플레이 유닛(4), 및 제어 유닛(2)에 명령을 입력하기 위한 마우스와 같은 포인 팅 디바이스(6)를 포함한다. 또한 시스템은 다수의 비디오 시퀀스들의 디지털 버젼들을 저장하고 있는 이미지 데이터베이스(8) 및 이 이미지 데이터베이스(8)에 저장된 비디오 시퀀스들 각각에서 나타나는 객체들의 기술자 정보를 저장하고 있는 기술자 데이터베이스(10)를 포함하는데, 이는 이하에 자세히 기술된다. 이미지 데이터베이스(8) 및 기술자 데이터베이스(10) 각각은 제어 유닛(2)에 접속되어 있다.

본 실시예에서, 시스템의 소자들은 시스템의 컴포넌트들이 영구적으로 연결되어 있는 이미지 라이브러리와 같은 싱글 사이트에 제공된다.

본 발명의 실시예에 따라 객체에 대한 기술자를 도출하는 방법을 도 2 및 도 3을 참조하여 설명한다. 상기 방법은 비교적 간단한 형태를 갖는 객체, 예를 들어, 원통형 객체에 대하여 설명될 것이다.

본 예에서, 이미지 데이터베이스(8)에 저장된 비디오 시퀀스에 원통형 객체는 두번 나타나고 있다. 도 2를 참조하면, 제1 외관에서 객체 아웃라인은 측면에서 바라본 뷰인 뷰 1에 대응하고, 제2 외관에서 객체 아웃라인은 상부 측면에서 바라보는 투시 뷰(projective view)인 뷰 3에 대응한다.

이제부터 상기 방법의 단계들을 도 3에 도시된 플로우챠트를 참조해서 설명한다.

데이터베이스 인덱서(database indexer)는 2개의 아웃라인들이 동일한 객체의 것이고 상기 아웃라인들에 대응하는 3차원 객체가 원통형이라는 사실을 인식한다(단계(10)). 뷰 1 및 뷰 3 각각에 있어서, 곡률 스케일 공간(Curvature Scale Space; CSS) 표현을 사용하는 형태 기술자들이 도출된다(단계(20)). 또한, 데이터 베이스 인덱서는 객체를 대표하는 것으로 판단되고 어느 추가 뷰들이, 고려 중인 비디오 시퀀스에 나타나지 않더라도 상기 뷰들을 선택한다(단계(30)). 본 예에서, 상부에서 본 원통형의 뷰인 뷰 2가 대표로 선택된다. 상기 뷰의 CSS 표현이 획득된다(단계(40)).

1996년 영국 에든버러(Edinburgh) 영국 기계 협의회(Proc. British Machine Vision Conference)의 논문 "곡률 스케일 공간을 통한 확고하고 효율적인 형태 인덱싱(Robust and Efficient Shape Indexing through Curvature Scale Space)"(퍼진 목태리언(Farzin Mokhtarian), 새드흐 앱버시(Sadegh Abbassi) 및 죠셉 키틀러(Josef Kittelr) 저)은 곡률 스케일 공간 표현 방법을 기술하고 있고, 본 명에서에 참조용으로 인용되었다. 간단히 말하자면, 형태의 아웃라인을 표현하는 곡선은 곡선을 평활화함(smoothing)으로써 전개(evolved)된다. 곡선은 다수의 상이한 단계에서 전개(evolutoin)시 고려된다. 특히, 곡률 영 교차(curvature zero crossings)는 전개했을 때의 각 단계의 곡률 함수로 식별된다. 곡률 영 교차의 그래프는 전개했을 때의 모든 단계들로부터의 영 교차를 결합시킴으로써 획득된다. 그래프의 한 축은 곡선의 전개 파라미터를 나타내는 σ에 대응하고, 다른 축은 곡선 호 길이 파라미터 u에 대응한다. 형태는 그래프의 윤곽선들(contours)의 극대값들(maxima)의 위치들로 표현된다.

객체의 대표 뷰들의 CSS 형태 표현들 외에, 객체의 뷰와는 독립적인 객체의 글로벌 3D 형태 파라미터가 획득된다(단계(50)). 본 예에서, 글로벌 파라미터는 실세계에서의 객체의 볼륨이다. 볼륨은 이미 알려진 것일 수도 있고, 또는 크기가 추정될 수 있는 사람과 같이 비디오 시퀀스에 나타나는 다른 객체들을 참조해서 추정될 수도 있다.

글로벌 파라미터 및 뷰 형태 기술자들은 결합되어 3D 객체 형태 기술자를 형성한다(단계(60)).

이미지 데이터베이스(8)의 이미지들로 나타나는 모든 해당 객체들에 대한 3D 객체 형태 기술자들이 상술된 방식으로 획득된다. 어느 소정의 객체에 대한 뷰들의 수와 어떤 뷰들이 사용되는지는 객체의 복잡성에 좌우된다. 예를 들어, 볼륨에 대한 값이 인식되지 않거나 쉽게 도출되지 않는 경우, 몇몇 객체들은 3D 객체 형태 기술자에서 글로벌 파라미터를 갖지 않을 수 있다. 각각의 뷰는 비디오 시퀀스의 어떤 프레임에 나타나는지를 나타내고, 또한 상기 프레임의 어떤 객체인지를 나타내는 참조 포인터(reference pointer)를 갖는다. 예를 들어, 한 객체의 뷰는 프레임 1000에서 나타나고 그것은 객체 번호 3임을 나타내는 포인터를 가질 수도 있다.

상이한 형태 표현 방법들을 사용하는 다른 실시예들에서, 뷰들의 수 및 속성(nature) 또한 사용된 형태 표현 방법에 좌우될 것이다. 예를 들어, 뷰잉 기하형상(viewing geometry)의 변화로 인해 야기되는 형태 정보에 덜 민감한 방법은 보다 적은 수의 뷰들을 필요로 할 것이다.

기술자 데이터베이스(10)는 이미지 데이터베이스(8)에 저장된 비디오 시퀀스들의 객체에 대한 3D 객체 형태 기술자들을 저장한다.

이제부터 도 4 및 도 5를 참조하여, 비디오 시퀀스에서 객체를 탐색하는 방법을 설명한다.

사용자는 질의를 입력함으로써 탐색을 개시한다. 질의는 디스플레이 유닛(4) 상에 하나 이상의 형태 아웃라인들을 도시하기 위해 포인팅 디바이스(6)를 사용해서 입력된다(단계 62). 본 예에서, 2개의 질의 아웃라인들(100)이 입력된다. 상기 아웃라인들은 질의 뷰들이다. 사용자는 또한 탐색하고자 하는 객체의 볼륨을 나타내는 파라미터를 입력한다(단계 64).

제어 유닛(2)은 그 후, 질의 뷰들 각각에 대한 CSS 뷰 기술자(view descriptor)를 도출한다(단계 66).

다른 실시예에서, 사용자는 제어 유닛(2)에 의해 디스플레이 유닛(4)에 표시된 형태들의 메뉴로부터 질의 형태 또는 형태들을 선택함으로써 질의를 입력한다. 이러한 실시예에서, 뷰 기술자들은 기술자 데이터베이스(10)에서 이미 이용가능한 것일 수도 있다.

질의 볼륨 파라미터 및 질의 뷰 기술자들이 결합되어 질의 3D 객체 기술자를 형성한다.

그 후, 시스템은 질의 객체 기술자 그리고 모델 객체 기술자들로서 후술되는 기술자 데이터베이스(10)에 저장된 객체 기술자들 간의 유사성을 판정하기 위한 매칭 과정을 수행한다. 기술자 데이터베이스내의 모델 객체 기술자 각각이 선택기(205)에 의해 차례로 선택되고(단계 68), 각각의 모델 객체 기술자에 대하여 이하의 단계들이 차례로 실행된다.

먼저, 질의 객체 기술자와 모델 객체 기술자에 대한 글로벌 파라미터들을 사용해서 비교기(200)에 의해 글로벌 유사성 측정값 GS가 획득된다(단계 70). 본 실 시예에서, 데이터베이스로부터 획득된 기술자에 대한 모델 볼륨 파라미터에 대한 질의 볼륨 파라미터의 비율을 획득함으로써 GS가 유도된다. 그 비율이 간격(1/c, c) 내에 있으면(여기서 c > 1), 객체들은 유사한 것으로 간주되고 GS는 값 0을 취한다. 간격 내에 있지 않으면, GS는 무한대 값을 갖는다. c의 값은 애플리케이션에 따라 다르다. 예를 들어, 장편 영화(feature film)의 경우, c = 5이다.

질의 객체 기술자와 모델 객체 기술자 중 적어도 하나가 글로벌 파라미터 값을 갖지 않으면, GS = 0 이다.

GS ≠ 0 이면, 새로운 모델 객체 기술자가 기술자 데이터베이스로부터 선택되고; GS = 0이면, 뷰 기술자 비교가 다음과 같이 실행된다(단계 72).

각각의 질의 뷰 기술자는 뷰-유사성 측정값들을 유도하기 위해 매칭 함수를 사용하는 비교기(810)에서 고려중인 모델 객체 기술자에 대한 각각의 뷰 기술자와 비교된다(단계 74). i번째 질의 뷰 기술자와 j번째 모델 뷰 기술자를 비교하여 뷰 유사성 측정값 S_ij의 결과를 발생시킨다.

보다 상세히 말하자면, 질의 뷰 기술자는 선택기(600)를 사용해서 선택되고 데이터베이스 뷰 기술자는 선택기(700)를 사용해서 선택된다. 먼저, 제1 질의 뷰에 대한 뷰 기술자는 데이터베이스로부터 모델 객체 기술자에서의 각각의 뷰 기술자와 비교된다. 각각의 쌍에 대해, 적합한 매칭 알고리즘을 사용해서 뷰-유사성 값 s가 계산된다. 본 실시예에서, 뷰-유사성 값 s는 상술된 목태리언, 앱버시 및 키틀러의 논문에 기술된 매칭 알고리즘을 사용해서 계산된다. 이러한 특정 유사성 측정값이 사용될 때, 뷰 유사성 값들이 작을수록, 보다 근접하게 매칭되는 것이다. 이는 제1 질의 뷰에 대한 k개의 뷰-유사성 측정값들의 집합을 발생시키고, 여기서 k는 고려중인 모델 객체 기술자의 뷰 기술자들의 수이고, k개의 측정값들은 글로벌 및 로컬 유사성 결합기(820)에 저장된다.

동일한 방식으로 제2 질의 뷰 기술자와 데이터베이스로부터의 모델 뷰 기술자들에 대한 뷰-유사성 값들이 계산되고 저장되어서, 그 이상의 k개의 뷰-유사성 측정값들을 발생시킨다.

각 질의 뷰에 있어서, 고려중인 데이터베이스 기술자 값에 대한 최소 뷰-유사성 값이 선택된다(단계 76). 이 최소값은 각각의 질의 뷰와 고려중인 객체 기술자의 뷰들 중 하나의 뷰와의 사이에서 가장 근접하게 매칭된 경우의 측정값이다. 이는 p개의 최소 뷰-유사성 값들을 발생시키고, p는 질의 뷰들의 수이다. 본 예에서, p = 2 이다.

질의 기술자와 고려중인 모델 객체 기술자에 대한 총 유사성 측정값 S는 p개의 유사성 값들의 중간값을 취한다(단계 78). 이는 모든 뷰들을 고려하는 모델 객체 기술자와 질의 기술자 간의 매칭의 근접성(closeness)을 나타낸다. 따라서, 하나의 질의 뷰가 데이터베이스 기술자의 뷰와 근접하게 매칭되지만 다른 질의 뷰가 데이터베이스 기술자의 어느 뷰와도 근접하게 일치하지 않는 경우, 이는 중간 값에 의해 S에 반영된다.

상술된 단계들은 기술자 데이터베이스(8)에서의 각각의 객체 기술자에 대해 반복되어서, n개의 유사성 측정값들 S를 야기하는데, n은 기술자 데이터베이스의 3D 객체 기술자들의 수이다(단계 80). 그 후, n개의 유사성 측정값들은 가장 근접한 매칭을 나타내는 최저값으로부터 시작해서 정렬된다. 그 후, m개의 최저 값들이 선택되는데, m은 사용자에 의해 선택되거나 또는 제어 유닛의 셋업에 의해 결정되는 값이며, 또한 객체를 포함하는 대응 m개의 비디오 시퀀스들 각각으로부터의 이미지가 디스플레이 유닛(4)에 표시된다(단계 84).

본 발명에 따라서, 아웃라인 형태의 완전한 또는 거의 완전한 기술(descriptions)을 형성하기 위해 단일 객체의 다수의 뷰들이 저장된다. 검색에 중요하다고 여겨진 뷰들만이 저장된 경우 표현은 거의 완전할 것이다. 예를 들어, 장편 영화들을 저장하고 있는 전형적 데이터베이스의 경우, 차의 정면, 후면, 측면 및 상부 뷰들만이 획일화된 표현으로서 저장되고, 차의 하부 뷰는 저장되지 않을 수 있는데, 이는 하부 뷰가 질의로서 사용될 가능성이 거의 없기 때문이다.

예를 들어, 본 발명에 따른 시스템은 이미지 라이브러리에서 제공될 수도 있다. 대안으로, 데이터베이스들은 시스템의 제어 유닛으로부터 멀리 떨어진 곳에 배치되어, 전화선과 같은 일시적인 링크에 의해 또는 인터넷과 같은 네트워크에 의해 제어 유닛에 접속될 수도 있다. 이미지 및 기술자 데이터베이스들은 예를 들어 영구적인 기억 장치 또는 CD-ROM 또는 DVD와 같은 휴대용 데이터 기억 매체에 제공될 수도 있다.

선택기들 및 비교기들로 기술된 시스템의 컴포넌트들은 소프트웨어 또는 하드웨어 형태로 제공될 수 있다. 본 발명은 컴퓨터 시스템 형태로 기술되었지만, 예를 들어 전용 칩을 사용하는 다른 형태들로도 구현될 수 있다.

객체의 2D 형태를 표현하는 방법 및 2개의 형태들 간의 유사성들을 나타내는 값들을 계산하기 위한 방법들로서 특정 예들이 기술되었지만, 임의의 적합한 방법들이 사용될 수 있다.

예를 들어, 완전한 또는 거의 완전한 형태 기술을 구성하는 객체의 다양한 뷰들이 영화 제작자에 의해 제공될 수도 있다. 예를 들어, 자동차가 나오는 영화에서, 제작자는 영화를 인덱싱하는데 사용되도록 촬영될 차의 20개의 상이한 뷰들을 데이터베이스에 배치할 수도 있다. 또 다른 방법으로, 뷰들이 탐색될 수 있도록 객체의 모든 상이한 뷰들 간의 링크가 시퀀스로 제공될 수도 있고, 예를 들어, 객체의 제1 뷰에 대한 데이터가 포함될 때 시퀀스에 나타나지 않는 임의의 유용한 뷰들에 대한 형태가 제공될 수도 있다.

예를 들어, 본 발명은 또한 검증을 위해 객체들의 이미지들을 매칭하는데 사용될 수도 있고 또는 필터링하는데 사용될 수도 있다.

본 발명은 단일 이미지들, 및 영화 또는 비디오에서의 이미지들과 같은 일련의 이미지들로 된 이미지들, 또는 동일한 웹 페이지 상의 이미지들과 같이 몇몇 방식으로 연관된 이미지들의 집합에도 적용될 수 있다.

본 발명의 실시예를 첨부 도면들을 참조하여 기술한다.

도 1은 본 발명의 실시예에 따른 시스템의 블록도이다.

도 2는 객체에 대한 기술자(descriptor)가 획득되는 방법을 도시한 도면이다.

도 3은 객체에 대한 기술자가 획득되는 방법을 도시한 플로우챠트이다.

도 4는 탐색 장치 및 방법을 도시한 도면이다.

도 5는 탐색 방법을 도시한 플로우챠트이다.

Claims

이미지에 대응하는 신호들을 처리해서, 2차원 아웃라인(two-dimensional outline)을 가지고 상기 이미지에 나타나는 객체를 표현하는 방법으로서, 상기 방법은

상기 객체의 상기 2차원 아웃라인의 뷰 기술자(view descriptor)를 도출하는 단계, 상이한 뷰에서 상기 객체의 상기 2차원 아웃라인의 적어도 하나의 추가적인 뷰 기술자를 도출하는 단계, 및 객체 기술자를 형성하기 위해 상기 2개 이상의 뷰 기술자들을 연관시키는 단계를 포함하고,

상기 뷰 기술자들은 곡률 스케일 공간 표현(curvature scale space representation)을 사용하여 도출되는 방법.
제1항에 있어서,

상기 이미지는 이미지 시퀀스의 일부이고, 적어도 하나의 추가 뷰 기술자는 상기 이미지 시퀀스 내 다른 부분에서 나타나는 상기 객체의 뷰에 대응하는 객체를 표현하는 방법.
제1항에 있어서,

상기 이미지는 비디오로부터의 이미지인 객체를 표현하는 방법.
삭제
제1항에 있어서,

상기 객체의 형태나 크기 중 적어도 하나와 관련되고, 상기 이미지 내 상기 객체의 뷰와는 독립적인, 상기 객체의 기술자를 도출하는 단계를 더 포함하는 객체를 표현하는 방법.
탐색의 목적을 위한 일부로서 이미지나 이미지 시퀀스를 인덱스하기 위해서 해당 이미지에 나타나는 객체를 표현하는 방법으로서,

상이한 뷰에서 상기 객체의 복수의 2차원 아웃라인(two-dimensional outline)에 대응하는 복수의 뷰 기술자를, 상기 2차원 아웃라인에 대응하는 신호들을 처리해서, 도출하는 단계, 및

상기 해당 이미지 또는 이미지 시퀀스를 인덱스하기 위한 객체 기술자를 형성하기 위해서 상기 뷰 기술자들을 연관시키는 단계를 포함하며,

상기 뷰 기술자들은 곡률 스케일 공간 표현(curvature scale space representation)을 사용하여 도출되는 방법.
삭제
제5항에 있어서,

상기 뷰와는 독립적인 기술자는 상기 객체의 볼륨에 대응하는 객체를 표현하는 방법.
제1항 내지 제3항, 제5항, 제6항 및 제8항 중 어느 한 항의 방법을 구현하기 위한 장치.
제1항 내지 제3항, 제5항, 제6항 및 제8항 중 어느 한 항의 방법에 따라서 동작하도록 프로그램된 컴퓨터 시스템.
삭제
삭제
삭제
삭제