KR100679124B1

KR100679124B1 - 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법및 그 방법을 기록한 기록매체

Info

Publication number: KR100679124B1
Application number: KR1020050007594A
Authority: KR
Inventors: 김회율; 최민석; 김현철
Original assignee: 한양대학교 산학협력단
Priority date: 2005-01-27
Filing date: 2005-01-27
Publication date: 2007-02-05
Also published as: KR20060086700A; US20080031523A1; JP4792471B2; CN101116108B; JP2008536345A; WO2006080654A1; US7995870B2; CN101116108A

Abstract

본 발명은 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체에 관한 것이다. 본 발명에 따른 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법은 이미지 시퀀스에 포함된 각 이미지 프레임들을 배경으로부터 분리된 객체만을 포함하는 n(자연수)개의 프레임들로 변환하는 단계; 상기 객체를 이용하여 상기 n개의 프레임들에 상응하는 n개의 모양 기술자를 추출하는 단계; 상기 n개의 모양 기술자를 시간 순서로 나열하여 모양 시퀀스를 생성하는 단계; 상기 모양 시퀀스를 시간축으로 주파수 변환하여 주파수 정보를 가지는 변환 계수들을 획득하는 단계; 및 상기 변환 계수들 중 저주파 영역의 계수들만을 이용하여 모양 시퀀스 기술자를 추출하는 단계를 포함하여 구성된다. 따라서, 본 발명에 의해, 객체의 움직임을 표현하는 비디오 데이터를 이미지 시퀀스로 포착하고, 각 이미지 시퀀스에서 정보 요소를 추출하여 각 비디오 데이터간의 유사도 판별이 가능하다.

이미지, 비디오, 검색, 동영상

Description

이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체{Method for extracting information parts to retrieve image sequence data and recording medium storing the method}

도 1은 본 발명의 바람직한 일 실시예에 따른 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법을 나타낸 순서도.

도 2는 본 발명의 바람직한 일 실시예에 따른 복수의 정지 이미지 분할 상태를 예시한 도면.

도 3은 본 발명의 바람직한 일 실시예에 따른 모양 시퀀스(Shape Sequence) 생성 과정을 나타낸 도면.

도 4는 본 발명의 바람직한 일 실시예에 따른 복수의 정지 이미지로 구성된 멀티미디어 데이터에 상응하는 실수부 및 허수부의 모양 시퀀스를 예시한 도면.

도 5는 본 발명의 바람직한 일 실시예에 따른 모양 시퀀스 기술자(Shape Sequence Descriptor) 생성 과정을 나타낸 도면.

도 6은 본 발명의 바람직한 일 실시예에 따른 멀티미디어 데이터로부터 모양 시퀀스 기술자(Shape Sequence Descriptor)를 생성하는 과정을 나타낸 도면.

도 7 및 도 8은 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율 성능 을 실험하기 위한 비디오 클립의 예를 나타낸 도면.

도 9는 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율 성능을 표로서 나타낸 도면.

도 10은 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율 평균 성능 그래프.

도 11은 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율의 평균 성능 그래프.

도 12 내지 도 14는 본 발명과 종래 기술에 따른 객체의 움직임 인식 성능 그래프.

도 15는 본 발명과 종래 기술에 따른 객체의 움직임 인식 성능을 표로서 나타낸 도면.

도 16은 본 발명과 종래 기술에 따른 객체의 움직임 인식 평균 성능을 그래프.

본 발명은 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체에 관한 것으로, 특히 객체의 움직임을 표현하는 비디오 데이터를 연속된 이미지 프레임(즉, 이미지 시퀀스)으로 포착하고, 각 이미지 시퀀스에 서 정보 요소를 추출하여 각 비디오 데이터간의 유사도 판별이 가능한 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체에 관한 것이다. 본 발명에서 이미지 시퀀스 데이터 검색을 위한 정보 요소로는 객체의 시간에 따른 모양 변화 정보로서 객체의 동작을 식별하기 위한 모양 시퀀스(Shape Sequence), 모양 시퀀스 기술자(Shape Sequence Descriptor) 등이 있다.

디지털 카메라나 캠코더 등의 촬상 장치의 보급이 늘어나면서 디지털 이미지, 동영상 데이터 등과 같은 멀티미디어 데이터의 생성이 급격히 증가하고 있다. 이에 의해, 생성된 멀티미디어 데이터들을 효과적으로 관리하고 검색함이 점점 더 어려워지고 있다.

이러한 어려움을 해결하기 위해, 멀티미디어 데이터를 데이터 생성자가 기록한 주석(annotation)이 아닌, 멀티미디어 데이터의 내용 자체를 이용하여 검색할 수 있도록 하기 위한 연구가 활발히 진행되고 있다.

이러한 방법들 중 하나로서, 내용 기반 멀티미디어 데이터 검색(Content Based Multimedia Data Retrieval) 방법은 멀티미디어 데이터로부터 모양(Shape), 색상(Color), 질감(Texture), 움직임(Motion) 등의 특징을 추출하여, 그 특징을 기록하고, 기록된 특징을 기준으로 복수의 멀티미디어 데이터들간의 유사도를 판별함으로써 유사한 특징을 가지는 멀티미디어 데이터가 검색되도록 하는 방법이다.

상술한 멀티미디어 데이터 검색의 필요성이 증대됨에 따라 국제 표준화 기구(ISO : International Organization for Standardization)/국제 전기 표준 회의(IEC : International Electrotechnical Commission) 합동 기술 위원회(Joint Technical Committee 1)(ISO/IEC JTC1)에서는 MPEG-7과 관련하여 내용 기반 멀티미디어 데이터 검색(Content Based Multimedia Data Retrieval) 기술에 대한 표준을 제정하고 있다.

현재, 멀티미디어 데이터의 특징을 기술하기 위한 정보 요소로서 모양(shape), 색상(color), 질감(texture), 움직임(motion) 정보 등이 이용되고 있다.

한편 동영상 데이터 등과 같은 비디오 데이터 검색에 있어서는 움직임 정보가 중요한 정보 요소가 된다. 비디오 데이터 검색 방법은 비디오 데이터를 구성하는 시퀀스가 표현하는 객체의 움직임 특징을 기술하는 움직임 기술자(motion descriptor)를 추출한 뒤, 사용자가 입력한 질의 비디오 데이터와 데이터베이스에서 저장되어있는 비디오 데이터의 움직임 기술자간의 유사도를 측정함으로써 유사한 비디오 데이터를 검색하는 방법이다. 여기서, 움직임 기술자는 카메라의 움직임을 기술하는 카메라 움직임(camera motion), 객체가 움직인 경로를 기술하는 움직임 경로(motion trajectory), 이미지 전체의 움직임을 기술하는 파라미터 움직임(parametric motion), 이미지 움직임의 활동성을 정량적으로 표현하는 움직임 활동(motion activity) 등이 있다. 이중에서, 움직임 기술자를 이용한 비디오 검색 방법의 효율은 움직임 기술자가 비디오 데이터의 특징을 얼마나 잘 기술할 수 있느냐에 따라 좌우된다.

즉, 비디오 데이터에서는 객체의 움직임 및 동작 정보가 그 동영상의 내용을 결정하는 중요한 요소로 작용한다. 예를 들어, 수영 종목에서의 다이빙 장면, 피겨 스케이팅에서 선수가 회전하는 장면, 체조 경기에서 텀블링을 하는 장면 등의 내용 을 결정하는 가장 중요한 요소는 선수의 움직임 및 동작 정보일 것이다.

그러나, 종래의 MPEG-7 움직임 기술자(motion descriptor)들을 이용하면 객체의 광역적 움직임 정보는 표현할 수 있지만, 세부적 움직임의 내용적 분석 및 표현은 불가능하다. 예를 들면, 사람이 걸어가는 것과 동물이 걸어가는 것은 내용적으로 다른 것이지만 움직임 기술자만을 이용할 경우 양자는 구분될 수 없는 문제점이 있었다. 또한, 움직임 경로(motion trajectory)의 경우 움직이는 객체의 궤적만을 표현하기 때문에 객체의 종류와 움직이는 동작을 구분할 수 없는 문제점이 있었다. 또한, 파라미터 움직임(parametric motion)의 경우 사람의 움직임 같은 비정형 모양 변화(non-rigid deformation)는 표현할 수 없는 문제점이 있었다.

상술한 문제점을 해결하기 위하여 종래에 모양 변화 기술자(Shape Variation Descriptor)를 이용하여 객체의 일부분만이 움직이는 이미지 시퀀스 데이터 또는 적은 수의 프레임에서 객체의 부분적인 모양 변화가 많은 경우에도 식별이 가능하여 사용자가 원하는 이미지 시퀀스를 정확하게 검색할 수 있도록 하는 비디오 데이터 검색 방법이 제안된바 있다.

일반적으로 손을 들거나 내리거나 앉거나 일어서는 등의 객체의 움직임을 정확히 구별하기 위해서는 움직임의 연속적인 정보가 필요하다. 그러나, 종래의 비디오 데이터 검색 방법에서의 모양 변화 기술자는 움직임의 연속적인 정보를 이용하지 않기 때문에 각각의 움직임을 정교하게 구분할 수는 없는 문제점이 있었다.

따라서, 상술한 문제점들을 해결하기 위한 본 발명의 목적은 객체의 움직임을 표현하는 비디오 데이터를 연속된 이미지 프레임들(즉, 이미지 시퀀스)로 포착하고, 각 이미지 시퀀스에서 정보 요소를 추출하여 각 비디오 데이터간의 유사도 판별이 가능한 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체를 제공하는 것이다. 여기서, 이미지 시퀀스 데이터 검색을 위한 정보 요소로는 객체의 시간에 따른 모양 변화 정보로서 객체의 동작을 식별하기 위한 모양 시퀀스(Shape Sequence), 모양 시퀀스 기술자(Shape Sequence Descriptor) 등이 있다.

또한, 본 발명의 다른 목적에 따르면 객체의 모양 변화뿐 아니라 객체의 움직임 시퀀스를 이용하여 서로 다른 각각의 움직임을 구별할 수 있어 비디오 데이터 검색 성능을 향상시킬 수 있는 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체를 제공하는 것이다.

상기 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, 복수의 프레임에 의해 객체의 움직임을 표현하는 이미지 시퀀스에 대한 내용 기반 검색을 위해 모양 시퀀스 기술자(Shape Sequence Descriptor)를 추출하는 방법에 있어서, 이미지 시퀀스에 포함된 각 이미지 프레임들을 배경으로부터 분리된 객체만을 포함하는 n(자연수)개의 프레임들로 변환하는 단계; 상기 객체를 이용하여 상기 n개의 프레임들에 상응하는 n개의 모양 기술자(Shape Descriptor)를 추출하는 단계; 상기 n개 의 모양 기술자를 시간 순서로 나열하여 모양 시퀀스(Shape Sequence)를 생성하는 단계; 상기 모양 시퀀스를 시간축으로 주파수 변환하여 주파수 정보를 가지는 변환 계수들을 획득하는 단계; 및 상기 변환 계수들 중 저주파 영역의 계수들만을 이용하여 모양 시퀀스 기술자(Shape Sequence Descriptor)를 추출하는 단계를 포함하는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법이 제공되고, 당해 모양 시퀀스 기술자 추출 방법의 수행을 가능하게 하는 시스템, 장치 및 기록매체가 제공된다.

상기 모양 시퀀스 기술자 추출 방법에서 상기 모양 시퀀스를 생성하기 위하여 상기 n개의 모양 기술자들을 시간축으로 정규화하는 단계가 선행되는 것을 특징으로 한다.

상기 모양 시퀀스 기술자 추출 방법은 수학식

으로 정의되는 ART(Angular Radial Transform)에 의해 상기 객체에서 상기 모양 기술자가 추출되는 것을 특징으로 한다. 여기서,

은 상기 ART의 n, m차 계수로서 복소수이고, 상기

는 극좌표상의 이미지 함수이며, 상기

은 원주방향의 함수와 반지름 방향의 함수의 곱으로 표현될 수 있는 기저 함수일 수 있다.

또한, 상기 모양 시퀀스는 상기 복소수의 실수부 및 허수부에 각각 상응하도록 복수로 생성될 수 있다.

상기 변환 계수들을 획득하기 위하여 상기 모양 시퀀스는 DFT(Discrete Fourier Transform), DCT(Discrete Cosine Transform), DWT(Discrete Wavelet Transform) 중 적어도 어느 하나의 방법에 의하여 시간축으로 주파수 변환되는 것을 특징으로 한다.

복수의 이미지 시퀀스간의 유사성은 상기 모양 시퀀스 기술자의 유사도 계산에 의해 판단되며, 상기 모양 시퀀스 기술자의 유사도 계산은 수학식

에 의해 수행되는 것을 특징으로 한다. 여기서, Q와 S는 비교하고자 하는 각각의 모양 시퀀스 기술자를 의미하고,

와

는 비교하고자 하는 두 연속 모양 시퀀스 기술자의 i번째 행 및 j번째 열의 값일 수 있다.

이하, 본 발명의 바람직한 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.

도 1은 본 발명의 바람직한 일 실시예에 따른 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법을 나타낸 순서도이고, 도 2는 본 발명의 바람직한 일 실시예에 따른 복수의 정지 이미지 분할 상태를 예시한 도면이며, 도 3은 본 발명의 바람직한 일 실시예에 따른 모양 시퀀스(Shape Sequence) 생성 과정을 나타낸 도면이다. 도 4는 본 발명의 바람직한 일 실시예에 따른 복수의 정지 이미지로 구성된 멀티미디어 데이터에 상응하는 실수부 및 허수부의 모양 시퀀스를 예시한 도면이 고, 도 5는 본 발명의 바람직한 일 실시예에 따른 모양 시퀀스 기술자(Shape Sequence Descriptor) 생성 과정을 나타낸 도면이다.

도 1에 도시된 하기의 과정은 정보 요소 추출 방법을 수행하도록 하기 위한 소프트웨어 프로그램의 형태로 구현될 수 있을 뿐 아니라 동일한 방법을 수행할 수 있는 정보 요소 추출 장치의 형태로도 구현될 수 있다. 하기의 설명을 통해 당업자는 별도의 설명이 없더라도 정보 요소 추출 장치의 구성을 쉽게 이해할 수 있을 것이므로 정보 요소 추출 장치에 대한 별도의 설명은 생략한다.

도 1에 도시된 바와 같이, 정보 요소 추출 과정은 우선 입력된 멀티미디어 데이터(즉, 동영상이나 애니메이션(animation) 등과 같이 일련의 연속적인 정지 영상의 집합(image sequence))를 이용하여 개별적인 정지 이미지로 분할하는 단계(단계 110)에서 개시된다.

개별 정지 이미지 분할 단계에 의해 멀티미디어 데이터가 복수의 개별 정지 이미지로 분할된 상태가 도 2에 예시되어 있다. 도 2에 도시된 바와 같이, 멀티미디어 데이터(210a, 220a, 230a, 240a)는 일련의 연속적인 움직임을 표시하는 정지 영상들의 집합(210b, 220b, 230b, 240b)으로 분리될 수 있다. 즉, 멀티미디어 데이터의 각 프레임에서 배경으로부터 분리된 객체 정보만을 포함하는 프레임으로 변환될 수 있다.

이어서, 각 이미지 시퀀스에서 모양 기술자(Shape Descriptor)를 이용한 객체 모양 정보 추출 단계(단계 120)가 수행된다. 이는, 각각의 정지 영상인 프레임에서 객체의 정지된 모양을 기술할 수 있는 특징값(feature Vector)을 추출하여 나 열하면 이미지 시퀀스에 포함된 객체에 대한 모양 특징값들의 시퀀스를 얻을 수 있기 때문이다.

모양 기술자(Shape Descriptor)는 객체 움직임(Object Motion)에 대한 특징량을 나타내는 기술자로서, 이미지 영역의 픽셀(pixel) 데이터를 기초로 이미지의 모양(Shape) 정보를 사용할 수 있다.

본 발명에서 이용되는 모양 기술자는 멀티미디어 데이터에 포함된 개별 프레임들을 배경으로부터 분리되어 객체 정보만을 포함하는 프레임으로 변환하는 단계 및 객체의 모양 정보를 추출하기 위하여 객체 정보에서 모양 기술자(Shape Descriptor)를 추출하는 단계를 통해 추출될 수 있다.

이하에서는 모양 기술자의 일 실시예인 ART(Angular Radial Transform)를 이용하여 모양 기술자(즉, 모양 특징값들)를 추출하는 방법을 설명한다.

ART는 극좌표상에서 단위원상에 정현함수(sinusoidal function)가 기저(basis)로 구성된 직교 단일 변환(orthogonal unitary transform)으로서 회전 불변한 모양을 기술할 수 있으며 직교성이 있기 때문에 정보의 중복성이 없다. ART는 하기 수학식 1과 같이 정의될 수 있다.

여기서

은 ART의 n, m차 계수로서 복소수이고, 이 값의 크기만을 취함으로써 이미지의 특징량을 나타낼 수 있다. 단 n=0, m=0일 때의 값은 기술자로서는 사용되지 않고, 각 계수 값들을 정규화 하는데 사용된다.

는 극좌표상의 이미지 함수이며,

은 원주방향의 함수와 반지름 방향의 함수의 곱으로 표현될 수 있는 기저 함수로서 하기 수학식 2와 같이 표현될 수 있다.

여기서,

는 ART 기저함수를 구성하는 편각함수(Angular Function)이며,

는 ART 기저 함수를 구성하는 방사함수(Radial Function)이다. 회전에 불변한 특성을 나타내기 위해서는

가 하기 수학식 3과 같이 표시되어져야 한다.

여기서,

는 원주 기저 함수(radial basis function)이며, 여현 함수(cosine function)와 정현 함수(sine function)를 사용할 때 각각 ART-C와 ART-S로 표시된다.

상술한 수학식 2의

는 여러 가지 타입을 가질 수 있으며, 그 타입에 따라 하기의 수학식 4에서와 같이 ART-C로 표시될 수 있다.

개별 프레임들로부터 추출된 ART 계수는 원래의 이미지에 ART 기저함수의 성분이 얼마나 포함되어 있는지를 나타내는 것이므로, ART 계수와 ART 기저함수의 곱을 조합하면 원 이미지를 복원해 낼 수 있다. 이론적으로는 무한히 많은 ART 계수와 기저함수의 곱을 조합해야 원 이미지와 완전히 동일한 이미지를 획득할 수 있으나, 실제로는 20개 내지 30개 정보만조합해도 원 이미지와 오차가 거의 없는 이미지를 획득할 수 있다.

그리고, 상기 수학식 1로부터 계산되는 ART 계수의 절대값은 다음의 수학식 5가 의미하는 바와 같은 회전 불변성(Rotation Invariance)을 가진다. 즉, 원본 이미지와 각도 α만큼 회전된 이미지로부터 추출된 ART계수들간의 하기 수학식 6과 같다. 그런데, 회전된 이미지의 값에 절대값을 취하면 하기 수학식 7과 같이, 원본 이미지의 값과 동일해지므로, 결국, ART의 크기는 회전불변의 특성을 가짐을 알 수 있다.

도 3에 본 발명의 바람직한 일 실시예에 따른 모양 시퀀스(Shape Sequence) 생성 과정이 도시되어 있다. 도 3에 도시된 바와 같이, 멀티미디어 데이터를 구성하는 각 정지 이미지에서 배경으로부터 분리된 객체 정보들(310)에 상응하여 각각 ART(Angular Radial Transform) 변환되어 생성된 1차원 데이터인 모양 기술자들(Shape Descriptor, 320)이 생성된다. 모양 기술자는 ART 계수의 크기에 상응하는 색상으로 표시(즉, ART 계수들의 시각화 정보)되도록 구성된다.

모양 시퀀스는 도 3에 도시된 바와 같이 ART 변환된 계수로서의 복소수의 크기만으로 표시될 수도 있으나, 도 4에 도시된 바와 같이 당해 개별 프레임에 포함된 객체 정보(410)에 상응하는 복소수의 실수부(420)와 허수부(430)가 별개의 모양 시퀀스로 분리되어 구성될 수도 있다.

이어서, 단계 120을 통해 생성된 모양 기술자들(320)을 이용하여 모양 시퀀스가 생성(단계 130)된다. 즉, 상술한 과정을 통해 생성된 모양 기술자들(320)이 시간축에 따라 배열함으로써 2차원 정보인 모양 시퀀스(Sequence Sequence, 330)가 생성된다. 모양 시퀀스(330)는 각각의 모양 기술자들(320)을 정해진 시간 길이로 만들기 위하여 시간축으로 정규화함으로써 움직임의 속도에 무관하게 생성된다. 모양 시퀀스(330)를 생성하기 위한 정규화 방법으로 예를 들어 시간축으로 선형 보간 법(Linear Interpolation)이 이용될 수 있다.

이어서, 단계 140에서 모양 시퀀스 기술자(Shape Sequence Descriptor)가 생성될 필요가 있는지 여부를 판단한다.

모양 시퀀스 기술자의 생성이 필요한 경우, 단계 150에서 모양 시퀀스를 시간축으로 주파수 변환하여 변환 계수를 획득한다. 실제 시간에 따른 물체의 움직이는 모양을 표현하고 멀티미디어 데이터 검색을 위하여 상술한 과정에 의해 생성(추출)된 모양 시퀀스가 직접 이용될 수도 있다. 그러나, 모양 시퀀스는 상대적으로 그 크기가 크므로 검색에 다소 많은 시간이 소요될 수 있어, 신호의 특징을 잘 표현할 수 있는 변환(Transformation)을 통해 산출된 계수를 이용할 수도 있다. 즉, 추출된 모양 시퀀스의 각 열(column)을 시간축으로 주파수 변환한 후 저주파 부분의 계수만을 취하여 생성된 모양 시퀀스 기술자가 물체의 움직이는 모양을 표현하거나 멀티미디어 데이터 검색을 위해 이용될 수 있다. 여기서, 모양 시퀀스 기술자를 생성하기 위한 주파수 변환 방법은 예를 들어 DFT(Discrete Fourier Transform), DCT(Discrete Cosine Transform), DWT(Discrete Wavelet Transform) 등일 수 있으며, 이외에도 다양한 주파수 변환 방법이 이용될 수 있다.

이어서, 단계 160에서 주파수 변환된 변환 계수들 중 저주파 영역의 일부 계수만을 추출하여 모양 시퀀스 기술자(Shape Sequence Descriptor)를 생성한다.

도 5에 본 발명의 바람직한 일 실시예에 따른 모양 시퀀스 기술자(Shape Sequence Descriptor) 생성 과정이 도시되어 있다.

즉, ART 변환된 계수로서의 복소수에 포함된 실수부에 상응하는 모양 시퀀스 (420)와 허수부에 상응하는 모양 시퀀스(430)를 각각 시간 축으로 주파수 변환을 수행하여 주파수 변환된 모양 시퀀스(510, 520)를 생성한다.

이후, 주파수 변환된 모양 시퀀스(510, 520) 중 저주파수 영역만을 추출하여 ART 변환된 계수로서의 복소수에 포함된 실수부에 상응하는 모양 시퀀스 기술자(530)와 허수부에 상응하는 모양 시퀀스 기술자(540)를 생성한다.

움직임 인식 및 멀티미디어 데이터 검색을 위해 필요한 모양 시퀀스 기술자간의 유사도 계산은 하기 수학식 8에 표시된 바와 같이 두 기술자 요소들의 차이의 절대값의 합으로 정의될 수 있다.

여기서, Q와 S는 비교하고자 하는 모양 시퀀스 기술자를 의미하며,

와

는 비교하고자 하는 두 연속 모양 시퀀스 기술자의 I번째 행(즉, 시간축) 및 j번째 열(ART 계수가 객체에 상응하도록 나열된 축)의 값이다.

도 6은 본 발명의 바람직한 일 실시예에 따른 멀티미디어 데이터로부터 모양 시퀀스 기술자(Shape Sequence Descriptor)를 생성하는 과정을 나타낸 도면이다.

앞서 도 1 내지 도 5를 참조하여 설명한 과정이 도 6에 일련의 과정으로서 도시되어 있다.

도 6에 도시된 바와 같이, 하나의 멀티미디어 데이터는 일련의 개별 프레임들(310)로 분할될 수 있고, 개별 프레임들(310)은 각각 ART 변환에 의해 모양 기술자들(320)로 생성될 수 있다.

생성된 모양 기술자들(320)은 시간축으로 정규화됨으로써 하나의 모양 시퀀스(330)를 구성할 수 있고, 모양 시퀀스(330)는 시간축으로 주파수 변환을 수행하여 주파수 변환된 모양 시퀀스(610)로 변환될 수 있다.

이후, 주파수 변환된 모양 시퀀스(610)의 저주파수 부분만을 추출하여 모양 시퀀스 기술자(620)를 생성할 수 있다.

움직임 인식 및 멀티미디어 데이터 검색을 위해 필요한 모양 시퀀스 기술자간의 유사도 계산은 상술한 수학식 8에 의해 산출될 수 있고, 산출값이 작을수록 두 개의 멀티미디어 데이터가 비슷한 특징을 가진다고 할 수 있다.

도 7 및 도 8은 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율 성능을 실험하기 위한 비디오 클립의 예를 나타낸 도면이고, 도 9는 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율 성능을 표로서 나타낸 도면이며, 도 10은 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율 평균 성능 그래프이다. 도 11은 본 발명과 종래 기술에 따른 객체의 움직임 검색 효율의 평균 성능 그래프이고, 도 12 내지 도 14는 본 발명과 종래 기술에 따른 객체의 움직임 인식 성능 그래프이다. 도 15는 본 발명과 종래 기술에 따른 객체의 움직임 인식 성능을 표로서 나타낸 도면이고, 도 16은 본 발명과 종래 기술에 따른 객체의 움직임 인식 평균 성능 을 그래프이다.

도 7 및 도 8에 도시된(즉, 실험에 사용된) 데이터 셋(data Set)은 MPEG-7 core experiment dataset Part-B로서, 해당 데이터 셋은 5명의 사람에 의한 22종류의 움직임을 묘사하는 110개의 비디오 클립으로 구성된다.

도 7 및 도 8에 도시된 데이터 셋을 이용하여 temporal template로부터 추출된 Hu 모멘트, temporal template로부터 추출된 ART 기술자, 모양 변화 기술자 및 모양 시퀀스 기술자를 이용한 객체 움직임의 검색 효율 성능과 인식 성능의 비교 결과가 도 9 내지 도 15에 도시되어 있다. ART 기술자 및 모양 변화 기술자(Shape Variation Descriptor)를 추출하는 방법은 본 출원인의 선출원인 특허출원 제10-2002-0034258호에 상세하게 기술되어 있으므로 이에 대한 설명은 생략한다. 또한, 본 출원인의 선출원에 기재된 기술적 사상 중 필요한 사항은 본 명세서에 동일 또는 유사하게 적용될 수 있음은 자명하며, 이에 대한 중복되는 설명은 생략한다.

본 발명과 종래 기술에 따른 검색 효율 성능 비교를 위한 척도로는 NMRR(Normalized Modified Retrieval Rank)을 사용하기로 하며, 인식률은 다음과 같이 정의하기로 한다.

인식률은 특정 동작을 질의하였을 때 해당 동작으로 올바르게 판단하는지 여부를 측정하는 것이므로, 우선 대표 동작의 등록이 필요하다. 그러나, 실험 데이터가 적기 때문에 다음의 방식으로 인식 실험을 하기로 한다.

먼저 한 가지 움직임마다 5개의 데이터가 있으므로, 첫 번째 동작을 표준 동작으로 등록하고, 나머지 4개를 질의하여 올바르게 해당 동작으로 인식하는가를 계 산한다. 즉, 첫 번째 사람으로 22가지 동작을 등록해 놓고, 나머지 4명의 동작을 차례로 질의하여 인식 여부를 계산하면, 하기 수학식 9와 같이 인식률이 계산될 수 있다.

또한, 인식률은 22가지 동작 전체에 수행하여 평균값이 산출될 수 있다.

그러나, 상술한 실험 방법만으로는 모델 선정에 따른 오차가 생길 수 있으므로, 모델을 변경(예를 들어, 두 번째 사람의 데이터를 표준 모델로 등록)하고 나머지 4개를 질의하고 인식 실험을 수행한다. 또한, 상술한 방식으로 모델을 전부 바꿔가면서 구한 인식률을 전부 평균해서 구한 값을 최종 인식률로 정의한다.

상술한 실험 방법에 의해 실험된 결과가 표시된 도 9 내지 도 11을 참조하면 본 발명에 따른 모양 시퀀스 기술자를 이용하는 방법이 가장 좋은 검색 효율 성능을 나타냄을 알 수 있다.

또한, 동일한 방법으로 객체의 움직임 인식 성능을 실험한 결과를 나타낸 도 12 내지 도 16을 참조할 때, 본 발명에 따른 모양 시퀀스 기술자를 이용하는 방법이 가장 좋은 움직임 인식 성능을 나타냄을 알 수 있다.

상술한 바와 같이, 본 발명에 따른 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법 및 그 방법을 기록한 기록매체는 객체의 움직임을 표현하는 비디오 데이터를 연속된 이미지 프레임(즉, 이미지 시퀀스)으로 포착하고, 각 이미지 시퀀스에서 정보 요소를 추출하여 각 비디오 데이터간의 유사도 판별이 가능하다. 여기서, 이미지 시퀀스 데이터 검색을 위한 정보 요소로는 객체의 시간에 따른 모양 변화 정보로서 객체의 동작을 식별하기 위한 모양 시퀀스(Shape Sequence), 모양 시퀀스 기술자(Shape Sequence Descriptor) 등이 있다.

또한, 본 발명은 객체의 모양 변화뿐 아니라 객체의 움직임 시퀀스를 이용하여 서로 다른 각각의 움직임을 구별할 수 있어 비디오 데이터 검색 성능을 향상시킬 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

복수의 프레임에 의해 객체의 움직임을 표현하는 이미지 시퀀스에 대한 내용 기반 검색을 위한 모양 시퀀스 기술자(Shape Sequence Descriptor)를 추출하는 방법에 있어서,

이미지 시퀀스(image sequence)에 포함된 각 이미지 프레임들을 배경으로부터 분리된 객체만을 포함하는 n(임의의 자연수)개의 프레임들로 변환하는 단계;

상기 객체를 이용하여 상기 n개의 프레임들에 상응하는 n개의 모양 기술자(Shape Descriptor)를 추출하는 단계;

상기 n개의 모양 기술자를 시간 순서로 나열하여 모양 시퀀스(Shape Sequence)를 생성하는 단계;

상기 모양 시퀀스를 시간축으로 주파수 변환하여 주파수 정보를 가지는 변환 계수들을 획득하는 단계; 및

상기 변환 계수들 중 저주파 영역의 계수들만을 이용하여 모양 시퀀스 기술자(Shape Sequence Descriptor)를 추출하는 단계를 포함하는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법.
제1항에 있어서,

상기 모양 시퀀스를 생성하기 위하여 상기 n개의 모양 기술자들을 시간축으 로 정규화하는 단계가 선행되는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법.
제1항에 있어서,

하기의 수학식으로 정의되는 ART(Angular Radial Transform)에 의해 상기 객체에서 상기 모양 기술자가 추출되는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법.

여기서,
은 상기 ART의 n, m차 계수로서 복소수이고, 상기
는 극좌표상의 이미지 함수이며, 상기
은 원주방향의 함수와 반지름 방향의 함수의 곱으로 표현될 수 있는 기저 함수임.
제3항에 있어서,

상기 모양 시퀀스는 상기 복소수의 실수부 및 허수부에 각각 상응하도록 복수로 생성되는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법.
제1항에 있어서,

상기 변환 계수들을 획득하기 위하여 상기 모양 시퀀스는 DFT(Discrete Fourier Transform), DCT(Discrete Cosine Transform), DWT(Discrete Wavelet Transform) 중 적어도 어느 하나의 방법에 의하여 시간축으로 주파수 변환되는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법.
제1항에 있어서,

복수의 이미지 시퀀스간의 유사성은 상기 모양 시퀀스 기술자의 유사도 계산에 의해 판단되며, 상기 모양 시퀀스 기술자의 유사도 계산은 하기 수학식에 의해 수행되는 것을 특징으로 하는 모양 시퀀스 기술자 추출 방법.

여기서, Q와 S는 비교하고자 하는 각각의 모양 시퀀스 기술자를 의미하고,
와
는 비교하고자 하는 두 연속 모양 시퀀스 기술자의 i번째 행 및 j번째 열의 값임.
이미지 시퀀스에 대한 내용 기반 검색을 위한 모양 시퀀스 기술자 추출 방법을 수행하기 위해 자동화 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 상기 자동화 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체에 있어서,

복수의 프레임에 의해 객체의 움직임을 표현하는 이미지 시퀀스(image sequence)에 포함된 각 이미지 프레임들을 배경으로부터 분리된 객체만을 포함하는 n(임의의 자연수)개의 프레임들로 변환하는 단계;

상기 객체를 이용하여 상기 n개의 프레임들에 상응하는 n개의 모양 기술자(Shape Descriptor)를 추출하는 단계;

상기 n개의 모양 기술자를 시간 순서로 나열하여 모양 시퀀스(Shape Sequence)를 생성하는 단계;

상기 모양 시퀀스를 시간축으로 주파수 변환하여 주파수 정보를 가지는 변환 계수들을 획득하는 단계; 및

상기 변환 계수들 중 저주파 영역의 계수들만을 이용하여 모양 시퀀스 기술자(Shape Sequence Descriptor)를 추출하는 단계를 실행하는 것을 특징으로 하는 프로그램을 기록한 기록매체.
제7항에 있어서,

상기 모양 시퀀스를 생성하기 위하여 상기 n개의 모양 기술자들을 시간축으로 정규화하는 단계가 선행되는 것을 특징으로 하는 프로그램을 기록한 기록매체.
제7항에 있어서,

하기의 수학식으로 정의되는 ART(Angular Radial Transform)에 의해 상기 객체에서 상기 모양 기술자가 추출되는 것을 특징으로 하는 프로그램을 기록한 기록매체.

여기서,
은 상기 ART의 n, m차 계수로서 복소수이고, 상기
는 극좌표상의 이미지 함수이며, 상기
은 원주방향의 함수와 반지름 방향의 함수의 곱으로 표현될 수 있는 기저 함수임.
제9항에 있어서,

상기 모양 시퀀스는 상기 복소수의 실수부 및 허수부에 각각 상응하도록 복수로 생성되는 것을 특징으로 하는 프로그램을 기록한 기록매체.
제7항에 있어서,

상기 변환 계수들을 획득하기 위하여 상기 모양 시퀀스는 DFT(Discrete Fourier Transform), DCT(Discrete Cosine Transform), DWT(Discrete Wavelet Transform) 중 적어도 어느 하나의 방법에 의하여 시간축으로 주파수 변환되는 것을 특징으로 하는 프로그램을 기록한 기록매체.
제7항에 있어서,

복수의 이미지 시퀀스간의 유사성은 상기 모양 시퀀스 기술자의 유사도 계산에 의해 판단되며, 상기 모양 시퀀스 기술자의 유사도 계산은 하기 수학식에 의해 수행되는 것을 특징으로 하는 프로그램을 기록한 기록매체.

여기서, Q와 S는 비교하고자 하는 각각의 모양 시퀀스 기술자를 의미하고,
와
는 비교하고자 하는 두 연속 모양 시퀀스 기술자의 i번째 행 및 j번째 열의 값임.