KR101242659B1

KR101242659B1 - 영상 검색 방법

Info

Publication number: KR101242659B1
Application number: KR1020090023517A
Authority: KR
Inventors: 오원근; 양원근; 조아영; 정동석
Original assignee: 한국전자통신연구원
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2013-03-19
Also published as: US8520980B2; US20100239163A1; KR20100104844A

Abstract

본 발명은 3차원 영상 식별자를 이용한 영상 검색 방법에 관한 것이다. 즉, 본 발명에서는 다양한 기하학적 변형을 포함하는 UCC(user created contents) 등의 디지털 콘텐츠에서 영상을 검색하기 위해 MGST(modified generalized symmetry transform) 특징, 각도 분할(angular partition) 특징, 색상 특성(color feature)의 조합인 3차원 히스토그램(histogram) 구조의 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합(matching)을 통해 영상을 검색할 수 있도록 함으로써, 기하학적 변형을 포함한 다양하고 방대한 정지영상의 고속 검색 및 방대한 양의 영상 데이터베이스, 혹은 인터넷상에서 유통되는 UCC 영상 가운데서 원하는 UCC를 고속, 효율적으로 검색할 수 있도록 한다.

식별자, 영상, MGST, 각도, 색상, 검색, UCC, 히스토그램

Description

영상 검색 방법{METHOD FOR SEARCHING IMAGES}

본 발명은 영상 검색에 관한 것으로, 특히 다양한 기하학적 변형을 포함하는 UCC(user created contents) 등의 디지털 콘텐츠에서 영상을 검색하기 위해 MGST(modified generalized symmetry transform) 특징, 각도분할(angular partition) 특징, 색상 특성(color feature)의 조합인 3차원 히스토그램(histogram) 구조의 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합(matching)을 통해 원하는 영상을 검색할 수 있도록 하는 영상 검색 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-024-01, 과제명: Rich UCC 기술개발].

최근 들어, 디지털 콘텐츠에 대한 수요가 증가하면서 비디오, 음악, 영상 등의 방대한 양의 멀티미디어 콘텐츠(multimedia contents)가 끊임없이 생성, 제작, 유통 및 서비스되고 있다. 그 중에서도 다양한 사용자가 독자적으로 창조 혹은 가 공, 편집하는 콘텐츠를 UCC 영상이라 하는데, 이러한 UCC 영상은 고성능, 휴대용 디지털 카메라의 보급과 대용량 저장장치나 휴대용 저장매체의 보급, 가격하락과 함께 폭발적으로 그 사용량이 증가하고 있다.

한편, 이러한 UCC 영상을 필요시 검색하는 기술을 UCC 영상 검색 기술이라 하며, 지금까지의 UCC 영상 검색 기술은, 데스크탑(desk top) PC 혹은 브라우저(browser)가 내장된 휴대 단말기를 이용하여 찾고자 하는 영상의 메타데이터(meta data)를 텍스트(text)로 입력하여 검색하는 것이 일반적이다.

그러나, UCC 영상은 도 1에서 보여지는 바와 같이 인터넷이나 재생장치의 변화 혹은 사용자의 콘텐츠 가공이나 재편집, 합성 등에 의해서 영상의 크기, 내용, 형태나 품질 등 본래의 특성이 변할 경우가 있는데, 이 경우에는 메타데이터 또는 식별자 등과 같은 사전에 입력된 정보를 알고 있어도 새롭게 변형이 된 콘텐츠에 대한 별도의 메타데이터나 식별 정보가 없음으로 검색하기가 불가능한 문제점이 있었다.

따라서, 본 발명은 메타데이터가 없을 경우나 기하학적으로 변형된 UCC 등의 디지털 콘텐츠의 경우 필요한 영상의 검색이 불가능한 것을 해결하기 위해 안출된 것으로, 메타데이터가 없을 경우 혹은 UCC 등과 같은 디지털 콘텐츠의 영상이 잘림, 이동, 크기 변환, 회전 등과 같이 기하학적 변형이 되었을 경우 원 영상을 검 색하기 위해 영상의 고유 특징정보인 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합시키는 영상 검색 방법을 제공하고자 한다.

상술한 본 발명은 영상 검색 방법으로서, 입력 질의영상을 리사이즈하는 단계와, 상기 리사이즈된 입력 질의영상에 대해 3차원 영상 식별자를 생성하는 단계와, 상기 3차원 영상 식별자를 이용하여 상기 입력 질의영상에 대한 영상 검색을 수행하는 단계를 포함한다.

또한, 본 발명의 상기 3차원 영상 식별자 생성단계는, 상기 입력 질의 영상의 MGST 특징을 추출하는 단계와, 상기 입력 질의 영상의 각도분할 특징을 추출하는 단계와, 상기 입력 질의 영상의 색상 특징을 추출하는 단계를 포함한다.

또한, 본 발명의 상기 MGST 특징 추출단계는, 상기 입력 질의 영상내 일정 영역에서 중심 화소를 기준으로 대칭인 화소쌍을 구분하는 단계와, 상기 각 화소쌍에 대한 각각의 대칭도를 누적하여 MGST 특징을 산출하는 단계를 포함한다.

또한, 본 발명의 상기 색상 특징 추출단계는, 상기 입력 질의 영상의 각 화소를 중심으로 3×3 영역의 평균 RGB 값을 구하는 단계와, 상기 평균 RGB값을 세분화하여 HSI 컬러 공간의 HUE 값으로 변환시키는 단계를 포함한다.

본 발명에서는 기하학적 변형을 포함한 다양하고 방대한 정지영상의 고속 검 색 및 방대한 양의 영상 데이터베이스, 혹은 인터넷상에서 유통되는 UCC 영상 가운데서 자기가 원하는 UCC를 고속, 효율적으로 검색할 수 있는 이점이 있다.

또한, 다양한 버전(version) 디지털 사진의 관리가 가능하여 인터넷이나 재생장치의 종류에 따라 영상의 크기, 형태나 품질 등과 같은 본래의 영상 특성이 변할 경우에도 변형된 영상의 공통특성인 식별자를 이용하여 동일한 사진그룹으로 관리 할 수 있는 이점이 있다.

또한, 불법 영상콘텐츠 검색이 가능하여 원본 영상을 복제하여 임의로 가공, 편집, 합성하여 제작한 영상을 불법으로 유통하였을 때 이들을 원본의 불법 복제물로 판단, 검색할 수 있는 이점이 있다.

이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 2는 본 발명의 실시 예에 따른 3차원 영상 식별자를 이용한 UCC 영상 검 색 동작 흐름을 도시한 것이다.

먼저, 영상 검색 대상이 되는 질의 영상이 입력되면(S200), 입력 질의 영상에 대해 3차원 영상 식별자 생성을 위한 첫 번째 단계로 리사이즈(resize)를 수행하게 된다(S202). 이때, 질의 영상은 예를 들어 컴퓨터내 하드 디스크(hard disk) 등의 저장장치에 저장된 수많은 영상이 대상이 될 수 있다.

즉, 입력 질의 영상에서 3차원 영상 식별자를 생성하기 위해서는 먼저 입력 질의 영상에 대해 리사이즈를 수행하게 되는데, 리사이즈 후의 영상 크기는 256×N이 된다. 이때, 입력 질의영상의 가로와 세로 중 짧은 쪽의 길이를 256으로 하고, 나머지는 입력 질의영상의 비율에 맞도록 확대, 또는 축소한다.

한편, 3차원 히스토그램에서 사용하는 특징(feature)은 컬러와 흑백 영상에서 각각 계산되는 값이기 때문에, 영상의 리사이즈 역시 컬러와 흑백에서 개별적으로 수행해야 한다. 먼저, 리사이즈된 흑백 영상을 만들기 위해서 입력 질의영상의 흑백 영상을 구성한다. 이를 위해서 RGB to YUV 변환을 이용하여 명도 성분을 추출한다. 아래의 [수학식 1]은 명도 성분(luminance)을 추출하기 위한 변환식이다.

이어, 구성된 흑백 영상을 3차회선보간법(bi-cubic interpolation)에 의해서 정해진 크기로 리사이즈한다. 다음으로, 리사이즈된 컬러 영상을 만들기 위해서 입력 영상을 3개 채널(Red, Green, Blue)로 구분하고, 각각의 채널에 3차회선보간법 을 적용하여 각각 정해진 크기로 리사이즈 한다. 그런 후, 리사이즈 된 각 채널 영상을 다시 정합하여 리사이즈된 컬러 영상을 만든다.

위와 같이, 입력 질의 영상에 대한 리사이즈를 수행한 이후에는 리사이즈된 입력 질의 영상에서 영상 검색에 사용되는 3차원 영상 식별자 중 하나인 MGST(Modified Generalized Symmetry Transform) 특징을 추출하게 된다(S204).

이하, MGST 특징을 추출하는 동작을 설명하면, MGST는 영역의 대칭 정도를 계산하는 변환이다. 대칭변환(symmetry transform)을 적용하기 위해서 도 3에서 도시된 바와 같이 한 화소를 기준으로 영역을 설정한다.

이어, 설정된 영역에서 중심 화소를 기준으로 대칭인 총 68개의 화소쌍을 구분하고, 각각의 화소쌍에 대해 아래의 [수학식 2]에서와 같이 대칭 변환을 적용한다.

는 각각 화소쌍의 두 화소를 나타내고, 화소쌍의 대칭 정도(

)는 거리 가중 함수(

)와 위상 가중 함수(

), 그리고 두 화소의 체적(

)을 곱해서 계산된다. 거리 가중 함수(

)는 아래의 [수학식 3]에 의해 정의된다.

는 대칭 변환이 일어나는 영역의 크기이다. 또한 위상 가중 함수(

)는 아래의 [수학식 4]에 의해 계산된다.

는 각각

에서의 윤곽선의 방향을 나타내고,

는 두 화소를 연결한 직선과 수평선이 이루는 각도를 나타낸다. 마지막으로 각 화소의 체적(

)은 아래의 [수학식 5]에 의해서 계산된다.

은 체적을 계산하기 위한 영역의 크기이고,

는 중심 화소의 화소값이고,

은 중심으로부터

만큼 떨어진 위치의 화소들의 평균 화소값이다. 68개의 화소쌍에 대해서 각각 대칭도를 계산하고, 영역의 최종 대칭도는 68개의 화소쌍의 대칭도를 전부 누적한 값이 된다. 이렇게 계산된 대칭도 값은 도 4에서 도시된 바와 같이 양자화 함수에 의해서 7단계로 구분된다.

이어, 위와 같이, 리사이즈된 입력 질의 영상에서 MGST 특징을 추출한 이후에는, 다시 리사이즈된 입력 질의 영상에서 영상 검색에 사용되는 3차원 영상 식별자 중 하나인 각도 분할 특징을 추출하게 된다(S206).

이하, 각도 분할 특징을 추출하는 동작을 설명하면, 입력 질의 영상의 각 화소에 대해 반지름 12의 국부영역 안에서 특징을 계산한다. 즉, 도 5에서 도시된 바와 같이, 원을 반으로 분리하는 기준선을 18도씩 이동하면서 반원의 가중치를 준 평균 화소값을 구한다. 이때, 가중치는 중심으로부터의 거리에 따라 적용하는데, 18도씩 이동하면서 두 반원의 평균값에 대한 절대차(absolute difference)(HCD(j))를 아래의 [수학식 6]에서와 같이 계산한다. 계산된 10가지의 절대차에서 최대값과 최소값이 계산된 기준선의 예각을 구한다.

여기서, 만약 최대 절대차와 최소 절대차의 차이가 10보다 작으면 이 국부영역은 각도 특성을 가지지 않는 평평한 영역으로 고려되고, 각도 특성 대신 평균 화소값의 특성을 갖는다. 이때, 평균 화소값은 8단계로 양자화되며, 각도 특성(AP(x,y))의 경우 18도씩 각도 분할된 영역에서 계산하므로 아래의 [수학식 7]에서와 같이 5단계의 값을 가질 수 있다. 이에 따라 각도분할 특성은 전체 13단계로 구성된다.

이어, 위와 같이, 리사이즈된 입력 질의 영상에서 각도분할 특징을 추출한 이후에는, 다시 리사이즈된 입력 질의 영상에서 영상 검색에 사용되는 3차원 영상 식별자 중 하나인 색상 특징을 추출하게 된다(S208).

이하, 각도 분할 특징을 추출하는 동작을 설명하면, 입력 질의 영상의 각 화소를 중심으로 3x3 영역의 평균 RGB를 구하고 세분화하여 HSI(hue saturation intensity) 컬러 공간의 Hue로 사상(mapping)시킨다. RGB를 Hue로 변환하는 룩업테이블(Lookup table)은 도 6에서와 같은 과정을 통해 만들어진다.

즉, RGB 큐브에서 각각의 RGB 채널을 반으로 나누면 도 6의 (a)에서와 같이, 8개의 큐브로 분할된다. 이어, 도 6의 (b)에서와 같이 분할된 큐브의 RGB를 두 배로 확장하고, 도 6의 (c)에서와 같이 Hue 정보로 값을 변환한다. 이와 같은 과정을 8개의 분할된 큐브에 대하여 수행하여 RGB에 대한 Hue의 룩업테이블을 완성시킨다.

이에 따라, 전체 360ㅀ의 값은 9단계로 양자화되고 Hue 정보가 없는 경우를 추가하여 색상 특성은 전체 10단계로 구성된다.

위와 같이, 입력 질의 영상에서 영상 검색에 사용되는 MGST 특징, 각도분할 특징, 색상 특징으로 구성되는 3차원 영상 식별자를 생성함에 따라, 각 화소마다 3개의 특징 값을 추출하여 도 7에서와 같은 3차원 영상 식별자를 이용하여 3차원 히스토그램을 구성할 수 있으며, 이를 이용하여 입력 질의 영상과 비교대상으로 설정되는 기준영상간 검색을 수행할 수 있게 된다.

즉, 입력 질의 영상에 대한 3차원 영상 식별자를 생성한 경우, 입력 질의 영상과 기준영상간 3차원 영상 식별자를 이용하여 유사도를 비교한 후(S210), 3차원 영상 식별자간 정합을 통해 영상 검색을 수행하게 된다(S212).

먼저, 유사도 계산에 있어서는, 입력 질의 영상과 기준영상간 대표 색상에 의한 유사도를 계산하여 유사도의 차이가 일정 기준 이상으로 차이가 크게 나는 경우 두 영상은 다른 것으로 판단하여 이후 3차원 영상 식별자 정합은 수행하지 않게 된다.

이때, 대표 색상의 유사도는 색상 특징 추출에서 추출된 색상 특징 중 5개의 대표 색상 값의 순서에 의해서 계산되며, 아래의 [수학식 8]에 의해서 대표 색상의 유사도(similarity)가 계산된다.

은 두 영상의 대표색상의 개수 중에서 작은 값이고,

는 각각 동일한 색상 값이 두 영상에서 몇 번째 대표 색상인지를 나타내는 순위 값이다. 이들 대표 색상의 유사도는 다음의 3차원 히스토그램를 이용하는 3차원 영상 식별자 정합 이전에 차이가 큰 값을 일차 제거하는 용도로 활용된다.

다음으로, 3차원 영상 식별자의 정합에 있어서는, 유사도의 차이가 일정 기준 이하로 낮아 유사도 높다고 판단된 두 영상에 대해 수행하게 된다.

즉, 입력 질의 영상에 대한 3차원 영상 식별자를 이용한 도 7에서와 같은 3차원 히스토그램과 기준영상에 대한 3차원 영상 식별자를 이용한 3차원 히스토그램간 각 화소별로 정합하여 차이값을 계산하고, 계산된 차이값에 의해 입력 질의 영상이 기준영상과 유사한 검색 대상 영상인지를 판단하여, 유사한 영상인 경우 검색 결과로 출력시키게 되는 것이다.

이때, 3차원 히스토그램의 정합은 아래의 [수학식 9]에 의해서 차이값(Dist(Q,R))이 계산된다.

은 각각 두 영상(입력 질의영상, 기준영상)의 3차원 히스토그램을 1차원 으로 나열한 것이다.

l, m, n 은 각각 대칭 특징(symmetry feature), 각도분할 특징(AP feature), 색상 특징(color feature)의 인덱스(index)이다. 따라서 l의 최대값은 7이고, m의 최대값은 13, n의 최대값은 10이 된다.

3차원 히스토그램 정합시의 차이값(distance) 계산에서는 대칭레벨(symmetry level) 별로 따로따로 차이(distance)를 계산하기 때문에, 대칭레벨 마다 d와 s를 구해서 d1, s1, d2, s2, … d7, s7을 구한다.

nd는 각각의 대칭 레벨별 차이이다. nd1 = d1/s1 으로 레벨별로 차이값의 합을 샘플의 합으로 나눈 값이다. 각각의 레벨별로 nd값을 구했으면, 최종적으로 둘 사이의 차이값은 7개 차이값의 평균인 nd1 + nd2 + nd3+…+nd7 / 7이 된다.

상기한 바와 같이, 본 발명에서는 다양한 기하학적 변형을 포함하는 UCC 등의 디지털 콘텐츠에서 영상을 검색하기 위해 MGST 특징, 각도 분할 특징, 색상 특성 특징의 조합인 3차원 히스토그램 구조의 3차원 영상 식별자를 생성하고, 3차원 영상 식별자간 정합을 통해 영상을 검색할 수 있도록 함으로써, 기하학적 변형을 포함한 다양하고 방대한 정지영상의 고속 검색 및 방대한 양의 영상 데이터베이스, 혹은 인터넷상에서 유통되는 UCC 영상 가운데서 원하는 UCC를 고속, 효율적으로 검색할 수 있다.

한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여 져야 한다.

도 1은 종래 영상의 다양한 기하학적 또는 복합적 변형 예시도,

도 2는 본 발명의 실시 예에 따른 3차원 영상 식별자를 이용한 영상 검색 동작 흐름도,

도 3은 본 발명의 실시 예에 따른 영상의 MGST 특징 구조도,

도 4는 본 발명의 실시 예에 따른 MGST 특징의 양자화 예시도,

도 5는 본 발명의 실시 예에 따른 영상의 각도분할 특징 구조도,

도 6은 본 발명의 실시 예에 따른 영상의 색상 특징 구조도,

도 7은 본 발명의 실시 예에 따른 3차원 영상 식별자의 3차원 히스토그램 구조도.

Claims

삭제
영상 검색 방법으로서,

입력 질의영상을 리사이즈하는 단계와,

리사이즈된 상기 입력 질의영상에 대해 3차원 영상 식별자를 생성하는 단계와,

상기 3차원 영상 식별자를 이용하여 상기 입력 질의영상에 대한 영상 검색을 수행하는 단계를 포함하되,

상기 리사이즈 단계는, 상기 입력 질의 영상에서 흑백 영상과 컬러영상을 추출하는 단계와,

상기 흑백 영상을 리사이즈하는 단계와,

상기 컬러 영상을 리사이즈하는 단계

를 포함하는 영상 검색 방법.
제 2 항에 있어서,

상기 흑백 영상은,

3차회선 보간법에 의해 리사이즈되는 영상 검색 방법.
제 2 항에 있어서,

상기 컬러 영상의 리사이즈 단계는,

상기 입력 질의 영상을 3개 채널로 구분하는 단계와,

상기 각 채널의 영상을 3차회선 보간법에 의해 리사이즈시키는 단계와,

상기 리사이즈된 각 채널의 영상을 다시 정합하여 상기 컬러 영상의 리사이즈를 수행하는 단계

를 포함하는 영상 검색 방법.
제 2 항에 있어서,

상기 3차원 영상 식별자의 생성단계는,

상기 입력 질의 영상의 MGST 특징을 추출하는 단계와,

상기 입력 질의 영상의 각도분할 특징을 추출하는 단계와,

상기 입력 질의 영상의 색상 특징을 추출하는 단계

를 포함하는 영상 검색 방법.
제 5 항에 있어서,

상기 MGST 특징의 추출단계는,

상기 입력 질의 영상내 일정 영역에서 중심 화소를 기준으로 대칭인 화소쌍을 구분하는 단계와,

상기 각 화소쌍에 대한 각각의 대칭도를 누적하여 상기 MGST 특징을 산출하는 단계

를 포함하는 영상 검색 방법.
제 6 항에 있어서,

상기 MGST 특징은,

양자화를 통해 7단계의 값으로 구분되는 영상 검색 방법.
제 5 항에 있어서,

상기 각도분할 특징은,

양자화를 통해 13단계의 값으로 구분되는 영상 검색 방법.
제 5 항에 있어서,

상기 색상 특징의 추출단계는,

상기 입력 질의 영상의 각 화소를 중심으로 3×3 영역의 평균 RGB 값을 구하는 단계와,

상기 평균 RGB값을 세분화하여 HSI 컬러 공간의 HUE 값으로 변환시키는 단계

를 포함하는 영상 검색 방법.
제 9 항에 있어서,

상기 HUE값은,

양자화를 통해 10단계의 값으로 구분되는 영상 검색 방법.
제 2 항에 있어서,

상기 영상 검색을 수행하는 단계는,

상기 입력 질의 영상의 대표 색상과 상기 영상 검색의 대상이 되는 기준영상의 대표 색상간 유사도를 산출하는 단계와,

상기 유사도가 일정 기준보다 높은 경우 상기 입력 질의 영상과 상기 기준영상에 대해 상기 3차원 영상 식별자를 정합시키는 단계

를 포함하는 영상 검색 방법.
제 11 항에 있어서,

상기 입력 질의 영상의 대표 색상은,

상기 입력 질의 영상에서 색상 특징으로 추출된 색상 중 선택된 5개의 대표 색상으로 구성되는 영상 검색 방법.
제 11 항에 있어서,

상기 3차원 영상 식별자의 정합단계는,

상기 입력 질의 영상의 3차원 영상 식별자와 기준영상의 3차원 영상 식별자를 읽어들이는 단계와,

상기 입력 질의 영상과 상기 기준영상의 3차원 영상 식별자간 각 화소별 특징값의 차이를 계산하여 정합을 수행하는 단계

를 포함하는 영상 검색 방법.
제 13 항에 있어서,

상기 3차원 영상 식별자는,

3차원 히스토그램 구조로 형성되는 영상 검색 방법.
제 2 항에 있어서,

상기 입력 질의 영상은,

UCC 영상인 영상 검색 방법.