KR20100023787A

KR20100023787A - 영상에 포함된 객체를 식별하는 방법

Info

Publication number: KR20100023787A
Application number: KR1020090077892A
Authority: KR
Inventors: 정태우
Original assignee: 정태우
Priority date: 2008-08-22
Filing date: 2009-08-22
Publication date: 2010-03-04
Also published as: KR101336736B1; US20120128241A1; WO2010021527A3; US8929657B2; WO2010021527A2; KR101380783B1; KR20100023786A; KR20100023788A; KR101380777B1

Abstract

본 발명은 영상에 포함된 객체에 속성을 부여하는 방법에 관한 것으로, 특히 신규 등록된 영상정보가 있는지를 확인하는 영상 정보 검색 단계; 상기 신규 대상 영상정보에 대하여 동영상 포맷, 화면 정보 등을 분석하는 영상 정보 분석 단계; 상기 분석된 원본 영상 정보로부터 영상 정보를 분석하여 셀 영역으로 추출정보를 색인하는 영상 정보 색인 단계; 상기 원본 영상 정보에 포함된 하나 이상의 객체를 기 구축된 폴리곤 모델에 의해 식별하는 객체 식별 단계; 및 상기 식별된 각 객체에 속성을 부여하는 자질 부여 단계;를 더 포함하는 것을 특징으로 한다.

영상, 객체, 색인, 셀, 식별, 자질, 속성

Description

영상에 포함된 객체를 식별하는 방법{METHOD FOR IDENTIFING OBJECT IN VIDEO}

본 발명은 영상 처리 방법에 관한 것으로서, 보다 상세하게는 복수의 프레임으로 구성된 영상에서 각 영상 프레임에서 영상에 포함된 객체를 식별하는 방법에 관한 것이다.

통신기술의 발달과 대중화로 인해 댁내에까지 통신 선로가 구축되어 사용자가 필요한 경우에 언제든지 원하는 인터넷 사이트에 접속하여 필요한 정보를 얻을 수 있는 시대가 되었고, 이에 따라 많은 사업자가 인터넷을 통해 광고 등의 정보를 전달함으로써 인터넷을 마케팅의 도구로 이용하고 있다.

더욱이, 텔레비전과 같은 영상기기 상품도 자체적으로 통신기능을 구비하거나, 외부 장치(예컨대, 셋톱 박스(Set-top box) 등)를 통해 통신기능을 구비함으로써, 컴퓨터는 물론 영상기기도 양방향 통신이 가능해져, 사업자들은 영상기기도 하나의 마케팅 도구로 이용하게 되었다. 즉, 사업자들은 영상기기가 수신하는 방송신호에 상품 정보를 부가하고, 해당 상품 정보를 선택하게 함으로써, 원하는 상품의 마케팅에 활용하는 방안을 제시하고 있다.

이러한 종래의 방송신호를 이용한 상품 정보 제공 방법은 방송될 영상정보로부터 상품 대상이 될 객체를 인식한 사용자가 상품 정보를 별도로 입력한 후 그 상품 정보와 영상 정보를 함께 전송함으로써 영상정보에 포함된 상품 정보를 시청자에게 제공하는 방식을 사용하였다. 즉, 종래에는 특정 영상에 포함된 객체들 중 상품 정보가 필요한 객체에 대한 인식을 위해 사람이 개입을 하여야 했다.

이로 인해 특정 영상에 포함된 객체의 인식을 위해 사용자가 영상을 반복해서 청취해야 하는 번거로움이 있었다. 또한 상품 정보를 입력하고자 하는 사람의 주관적인 판단에 따라 상품 대상이 결정됨으로써 영상에 대한 객관적인 분석이 어려웠다.

본 발명에서는 멀티미디어 데이터에 포함된 객체에 대해 속성을 부여하는 방법을 제공하고자 한다.

또한, 본 발명은 영상에 포함된 객체의 상대적인 위치를 관리하고 저장하기 위한 가상의 프레임과 셀을 관리함으로써 해당 영상이 표시되는 장치의 해상도나, 화면 크기와 상관없이 상기 표시 장치상에서 시청자가 지정한 위치의 객체를 정확하게 판단할 수 있도록 하는 영상에 포함된 객체에 속성을 부여하는 방법을 제공하고자 한다.

상기한 목적을 달성하기 위한 방법은, 영상에 포함된 객체에 속성을 부여하는 방법에 있어서, 신규 등록된 영상정보가 있는지를 확인하는 영상 정보 검색 단계; 상기 신규 대상 영상정보에 대하여 동영상 포맷, 화면 정보 등을 분석하는 영상 정보 분석 단계; 상기 분석된 원본 영상 정보로부터 영상 정보를 분석하여 셀 영역으로 추출정보를 색인하는 영상 정보 색인 단계; 상기 원본 영상 정보에 포함된 하나 이상의 객체를 기 구축된 폴리곤 모델에 의해 식별하는 객체 식별 단계; 및 상기 식별된 각 객체에 속성을 부여하는 자질 부여 단계;를 더 포함하는 것을 특징으로 한다.

상기 자질 부여 단계 이후에, 상기 속성이 부여된 각 객체에 대해 서비스 프 로파일을 생성하는 서비스 프로파일 생성 단계;를 더 포함하는 것을 특징으로 한다.

상기 서비스 프로파일 생성 단계 이후에, 상기 서비스 프로파일이 생성된 각 객체에 대해 서비스 요청 시 해당 서비스를 검색하여 제공하는 서비스 제공 단계;를 더 포함하는 것을 특징으로 한다.

상기 객체 자질 속성은 객체 고유의 대표적인 속성분류를 포함하는 대표객체자질, 대표객체가 가지는 일반속성자질, 객체와 객체 및 서브 객체 간의 관계 속성 자질, 객체의 행위, 시간, 장소, 부속, 조건 성분 등을 포함하는 성분속성자질, 객체의 특수한 내지는 유일한 속성값을 정의하기 위한 특수자질 중에서 선택된 어느 하나인 것을 특징으로 한다.

상기 객체 자질 속성 부여 방법은, 프레임 내 추출된 객체에 대하여 분석 객체정보에 먼저 대표 객체 자질값, 일반속성자질, 성분 및 관계자질을 부여하고 해당 객체에 특수자질이 필요하면 특수자질 순으로 자질을 부여하는 단계; 이미지 분석 정보와 폴리곤의 색인 유사도에 따른 자질 값을 부여하는 단계; 및 동일 프레임 내 모든 검출 객체에 대한 자질 값이 부여되었으면 백그라운드 객체에 대한 자질값을 부여하는 단계;를 더 포함하는 것을 특징으로 한다.

상기 자질값을 부여하는 단계 이후에, 상기 부여된 자질 값이 적절한지 미등록 객체인지를 판단하는 단계; 상기의 객체속성자질을 자질집합 패턴으로 관리하는 단계; 및 자질 속성값을 해당 자질 분류항목에 대하여 세부 항목의 자질 속성 유무를 처리하는 단계;를 더 포함하는 것을 특징으로 한다.

상기 세부 항목 자질 속성 유무는 이진 값으로 자질 속성을 관리하는 것을 특징으로 한다.

상기 자질 기반의 연산방법은, 객체의 자질분류별 세부 자질 항목들의 유무를 판단하는 단계; 객체와 객체 혹은 객체의 부속 서브 객체와의 연관 처리 규칙을 적용하는 단계; 복수의 객체와 복수의 객체 자질의 연관 규칙 처리 단계; 및 복수의 객체 간의 자질 패턴에 대한 패턴 매칭 연산 규칙에 의한 상황 및 이벤트 식별 단계;를 더 포함하는 것을 특징으로 한다.

상기 자질 기반의 연산을 위한 처리 규칙 데이터베이스는, 복수의 객체들 간의 자질 패턴 추출 조건 설정하고, 자질 간의 관계, 자질이 가지고 있는 속성자질의 연관을 분석하여 상황을 인식하고 다양한 부가서비스를 처리하기 위하여 추출 자질 패턴에 따른 처리 알고리즘 적용하며, 자질 패턴 조건에 따른 알고리즘 처리 생성 규칙을 정의하는 것을 특징으로 한다.

상기 서비스 프로파일 생성 단계는, 상기 색인 과정에서 검출된 객체와 연관 있는 서비스 호출 결과 처리 정보, 동작정보, 특정 컨텍스트를 호출하기 위한 것으로 각각의 조건에 대한 동작정보를 포함하는 것을 특징으로 한다.

상기 폴리곤 모델 데이터베이스를 구축하는 방법은, 상기 폴리곤의 샘플 데이터를 구축하는데 이는 샘플의 중심좌표를 기준으로 외각선 및 인접면의 거리비를 기준으로 샘플링하는 단계; 불필요한 데이터를 삭제하는 단계; 객체의 색상/텍스추어 정보를 포함하여 피부 혹은 털과 같은 색상 및 텍스추어 정보 색인하는 단계; 및 구축된 데이터를 양자화하는 단계;를 포함하는 것을 특징으로 한다.

상기 객체 식별 단계는, 불필요한 데이터를 삭제하는 단계; 식별된 객체정보의 외곽선을 추출하는 단계; 객체정보의 중심좌표를 선정한 후, 객체 중심좌표와 인접면의 거리비를 추출하는 단계; 및 폴리곤 DB와 형태소 유사도를 계산하는 단계;를 포함하는 것을 특징으로 한다.

상기와 같이 본 발명은 영상에 대한 객관적인 분석이 용이한 장점이 있다. 또한 본 발명은 영상에 포함된 객체의 상대적인 위치를 결정함으로써 해당 영상이 표시되는 장치의 해상도나, 화면 크기와 상관없이 표시 장치상에서 시청자가 지정한 위치의 객체를 정확하게 판단할 수 있도록 하는 효과가 있다.

상기 목적을 달성하기 위해 본 발명에서 제공하는 객체 색인 방법은 영상에 대한 기본 화면 크기를 검출하는 단계; 미리 설정된 분할 정보에 의거하여 화면을 다수의 가상 셀로 분할하고, 그 분할정보를 셀로 설정하는 단계; 상기 분할한 셀 각각의 이미지 정보를 분석하여 셀 맵핑 정보와 이미지 분석정보를 저장하는 단계; 이미지 분석 정보가 동일한 셀 중 인접한 셀들의 집합을 하나의 객체로 식별하는 단계; 객체 식별정보를 분석하여 객체로 색인하는 단계; 영상 프레임의 이미지 식별 정보를 이용하여 식별된 객체와 배경 등의 분석정보를 이용하여 장면을 구분하는 단계; 저장된 객체정보에 객체의 자질 속성정보를 부가하고 연관정보 검색 규칙 을 부여하여 객체 프로파일을 생성하는 단계; 및 서비스를 제공하는 방법에 있어서 다양한 동적 서비스 방법을 제공하기 위한 서비스 프로파일 생성 단계;를 포함한다.

또한 상기 발명에서는 멀티미디어에서 다양한 부가서비스 및 검색 방법을 제공하는데 있어서 속성정보와 자질정보의 연산을 통한 검색 규칙 생성 단계; 상기 색인 정보를 네트워크를 통하여 제공하는 단계; 사용자의 검색정보를 입력하는 단계; 입력된 검색정보를 해석하는 단계; 입력 대응되는 서비스를 검색하고 전송하는 단계;를 포함하며 상기의 서비스를 제공하기 위한 멀티미디어 서버와 단말로 구성되는 장치;와 무선 및 유선 네트워크를 포함하는 다양한 네트워크상에서 동적 인터페이스를 제공하는 제어 명령 인터페이스 방법을 포함하는 것을 특징으로 한다.

상기 검출 단계에 있어서 영상에서 프레임으로 추출된 이미지 화면의 픽셀정보를 확인하여 화면의 크기를 검출하고 미리 설정된 분할정보에 의거하여 화면의 너비와 높이로 이루어진 화면의 크기에서 분할 정보에 맞는 픽셀 단위를 추출하는 것을 포함하는 것을 특징으로 한다.

상기 분할정보를 셀로 설정하는 단계에 있어서 화면의 크기에 따른 픽셀정보가 구해지면 상대적 분할정보를 셀로 설정하는 과정에 있어서 각각의 셀 영역에 할당되는 프레임에서의 픽셀 좌표값을 맵핑시키는 것으로 이때의 픽셀의 좌표와 셀의 맵핑정보는 상대적 위치값으로 설정하는 것을 특징으로 한다.

상기 분할 과정은 프레임을 계층적으로 분할하고 분할된 가상 셀의 갯수는 2의 배수로 하는 것이 바람직하다.

또한 상기 분할과정은 이미지 프레임을 특정 개수의 가상 셀로 분할하고 각각의 셀은 2의 배수로 서브셀을 분할하며 이러한 과정을 반복적으로 지정한 셀 분할 단계를 반복하는 것을 특징으로 한다.

상기 셀로 분할된 각각의 서브셀은 타겟 영상에서의 픽셀단위 좌표정보를 가상셀로 맵핑하는 규칙을 가지는 것이 바람직하다.

이때 상기 프레임에서 이미지를 분석하는 프레임은 시간 혹은 프레임 식별자에 의거한 일정 간격의 프레임을 분석하는 것이 바람직하다.

상기 분할정보를 셀로 설정하는 단계에서의 분할 과정은 프레임의 영상 이미지의 분석과정과 동시에 진행되는데 이때 셀을 분할하는데 있어서 최상위 셀의 픽셀 정보 이미지 분석정보가 단일한 분석정보인지 복수의 분석정보를 가지는 지를 판단하여 셀에서 복수의 분석정보가 존재할 경우 해당셀을 2의 배수로 분할하는 것을 특징으로 한다.

상기 셀에 대응하는 좌표 영역의 픽셀을 분석하는 방법에 있어서 셀의 분석정보가 복수개이면 현재의 셀을 분할한다.

상기 분석정보를 저장하는 단계에서의 셀 이미지 정보 분석과정은 칼라, 텍스추어 및 외각선 판별등의 분석정보를 이용하여 분석을 하게되는데 분석과정에서 하나의 선택셀에 복수의 분석정보가 존재하면 셀을 서브셀로 2의 배수개 만큼 분할하여 가령 4개 혹은 8개로 분할하고 분할된 각각의 서브셀의 이미지를 같은 방법으로 분석하게 된다.

상기의 이미지 분석과정은 단일 이미지 분석 속성을 검출할 때까지 지정된 분할 깊이까지 분할하여 분석하는 것이 바람직하다.

상기 영상 이미지의 분석정보는 분할 서브셀과 이미지 분석정보를 같이 저장하는 것이 바람직하다.

상기 객체 식별단계에서는 분할한 셀 각각의 이미지 정보를 이용하여 분할된 셀 맵핑 정보를 이용하여 순차적으로 셀에 대응하는 인접 셀들을 선택하면서, 그 선택된 셀의 색상, 텍스쳐 정보등 이미지 정보의 분석 결과 그 분석정보가 단일한 경우 그 셀이 단일 객체에 포함되는 것으로 판단하는 것이 바람직하다.

또한 상기 셀 분석 과정은 상기 선택된 셀의 색상, 텍스쳐 및 경계선 정보등 분석 결과 하나 이상의 분석정보가 존재하는 경우 그 분석정보들 중 미리 설정된 단일객체 판단비율 즉 셀에 포함된 픽셀의 이미지 분석정보가 단일 분석정보 오차 범위내에 있으면 하나의 동일 정보로 해석하여 하나의 분석정보를 해당 셀의 대표 이미지 정보로 저장하는 것이 바람직하다.

또한 상기 셀 분석 과정은 상기 선택된 셀의 색상 및 텍스쳐 정보 분석 결과 하나 이상의 분석 정보가 존재하는 경우 상기 셀을 미리 설정된 개수의 서브 셀들로 분할한 후 그 서브 셀 각각의 이미지 정보를 분석하고, 단일분석정보를 갖는 서브 셀에 대하여 그 단일분석정보를 해당 서브 셀의 이미지 정보로 저장하는 것이 바람직하다.

또한 상기 셀 분석 과정은 상기 서브 셀의 이미지 정보 분석결과 하나 이상의 분석정보가 존재하는 경우 그 서브 셀을 미리 설정된 개수의 하위레벨 서브 셀들로 다시 분할하고 그 하위레벨 서브 셀 각각의 이미지 정보를 분석한 후, 단일분 석정보를 갖는 하위레벨 서브 셀에 대하여 그 단일분석정보를 해당 서브 셀의 이미지 정보로 저장하는 과정을 반복 수행하는 것이 바람직하다.

또한 상기 셀 분석 과정은 미리 설정된 최대 레벨까지 상기 서브 셀의 분할 및 이미지 분석을 반복 수행하는 것이 바람직하다.

또한 상기 셀 분석 과정은 상기 최대 레벨 서브 셀의 이미지 분석 결과 하나 이상의 분석정보가 존재하는 경우 그 중 임의의 하나를 해당 셀의 이미지 정보로 저장하는 것이 바람직하다.

또한 상기 단순 객체정보 저장과정은 상기 객체들을 구성하는 셀 정보로 표현된 각각의 위치 및 이미지 정보를 포함하는 셀 정보를 저장하는 것이 바람직하다.

상기 객체 식별 단계에 있어서 분석된 셀들의 이미지 정보를 이용하여 객체를 식별하고 추출하기 위하여 인접하며 연속된 셀의 이미지 분석 정보가 동일한지를 판단하고 동일하면 동일한 정보의 셀을 표시하고 동일 객체로 표시한다.

상기 분석 셀을 판단함에 있어서 분석 대상 셀은 복수 개의 픽셀을 가지는 것을 특징으로 한다.

또한 상기 영상의 분석정보에서 객체를 식별함에 있어서 상위셀은 최하위의 셀의 2의 배수 개로 구성된 상위 셀을 가지게 되고 동일한 분석정보일 경우 상위셀이 최하위 셀로 구분되지 않고 하나의 묶음으로 처리되는 것이 바람직하다.

상기 객체 색인 단계의 분석정보에서 인접한 최하위 셀 혹은 상위 셀들이 최소한 한 면 이상의 셀과 연속된 인접면을 가지는 셀이면서 동일한 칼라, 텍스추어 혹은 연속된 외곽 구분 경계를 가지는 일련의 셀의 집합을 객체로 식별하는 것을 특징으로 한다.

이때 상기 객체 색인 과정은 상기 영상에 포함된 상대적인 위치에 대한 셀 정보로 표현하여 관리하고 저장하는 것을 특징으로 한다.

상기 객체의 식별정보를 저장하는 방법에 있어서 지정된 셀은 동일 프레임으로 구성하는 것을 특징으로 한다.

또한 프레임 단위의 객체 식별 정보를 관리함에 있어서 하나 프레임에서는 셀 위치에 객체의 포함 유무를 포함하여 이진 요약정보로 관리됨이 바람직하다.

이를 표로 표현하면 [표 1]과 같이 나타낼 수 있다.

0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0
0	0	0	0	1 (5,3)	1	0	0
0	0	0	0	1	1	0	0
0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0

상기 [표 1]에서 보여지는 표의 영역은 영상에서의 프레임 영역에 대응하는 가상 셀 영역을 표시하였다. [표 1]에서 '0'과 '1'로 구분된 셀 영역은 객체로 인식된 셀에 대하여 구분하기 위하여 표현하였다.

상기 [표 1]에서의 하나의 가상 셀은 영상에서의 프레임을 2의 배수로 분할한 영역으로 이는 절대 픽셀좌표에 대응하는 픽셀의 집합이며 최대 레벨의 가상 분할 셀을 분할하여 나타낸 것이다.

상기 [표 1]은 객체로 식별된 셀 영역을 표현한 것이며 이와 같이 본 발명은 식별 객체를 가상 셀 영역으로 표현하고 관리함을 특징으로 한다.

또한 상기 셀을 16진수로 표현하면 하나의 프레임에 포함된 객체의 상대적 위치정보는 각각 프레임에 대한 객체 위치 식별정보로서 '0x00000C0C0000'와 같이 표현 할 수 있을 것이다.

상기 가상셀에서 객체 위치의 식별정보를 저장 관리함에 있어서 최대레벨의 가상셀의 갯수와 표현방식은 셀의 가로 라인, 세로 라인 혹은 다각형 셀 집합등으로 다양하게 구성할 수 있다.

0	0	0	1
0	0	1	1
0	1	1	1
1	1	1	1

[표 2]는 [표 1]에서 나타낸 최상위 셀 하나에 대하여 분할된 서브 셀에서의 객체 식별 영역을 나타낸 것이다.

[표 1]에서와 같이 8×6개의 최상위 레벨 셀은 각각 복수의 서브셀들로 분할할 수 있으며, [표 1]에서 좌상의 끝 셀을 기준 셀로 잡는다면 '1'로 표시된 좌상을 기점으로 한 셀 좌표 (5,3)에 위치한 서브셀의 객체 식별 및 색인 정보는 [표 2]와 같이 가상 서브셀 테이블로 나타내어질 수 있으며 이를 다시 2진수로 표현할 수 있다.

또한 본 발명은 객체 식별을 위하여 최하위 서브셀의 연속된 인접 셀간의 연결 각과 각의 변이가 발생하는 꼭지점 간의 상대적 거리를 계산하여 객체를 식별하기 위한 폴리곤을 추출하는 것을 특징으로 한다.

상기 객체 식별을 위하여 추출된 폴리곤은 폴리곤 데이터베이스의 샘플 데이터베이스와 유사도를 비교하여 대략적인 객체의 속성을 산출하게 된다.

또한 이진수로 표현되는 객체의 이미지 속성정보와 객체 패턴정보는 유사 프레임의 검색과 저작권등의 색인 대상 정보로 관리되는 것이 바람직하다.

상기의 객체식별 과정과 절차를 통하여 프레임단위로 분석된 이미지 정보와 객체의 변이정보를 이용하여 프레임의 장면을 분할 하는 것이 바람직하다.

상기 프레임 장면 분할과 객체 식별에 있어서 프레임 샘플링은 매 프레임으로 실시하는 것 보다 일정한 프레임 선택주기를 가지고 미리 지정된 앞뒤의 프레임 분석정보의 변이를 이용하여 처리하는 것이 바람직하다.

이는 통상적인 영상화면의 경우 29.97프레임/초인데 특정 수만큼의 프레임 카운트를 증가시키거나 혹은 일정 시간 간격으로 객체 및 이미지 분석을 처리하는 것이 바람직하다.

상기 장면 구분 단계에서는 전후 프레임의 식별정보를 분석하여 프레임 식별정보의 변이정보가 허용 범위 이내 인지를 판단하는 것을 포함한다.

이를 좀더 자세히 살펴보면 장면 분할에서 분석된 영상 이미지에서 배경화면의 변화, 검출된 객체 수의 가감 등을 비교하여 장면을 분할하는 것이 바람직하다.

상기 장면 분할에서는 가중치를 부여할 수 있으며 이때 가중치는 배경에 가중치를 둔 경우와 객체의 변이정보에 가중치를 주는 경우가 있을 수 있다.

상기 장면 분할에서 객체 식별의 경우 객체의 셀 집합정보에서 셀의 중심셀을 선정하고 중심셀의 프레임별 위상 변이정보를 확인하여 해당셀에서 객체의 유무에 따른 변화를 따라 일정 시간 이내에 다양한 변화정보를 분석하여 처리함을 특징으로 한다.

이를 좀더 자세하게 살펴보면 동일 이미지정보와 객체 분석정보가 다양한 셀의 좌표에 존재할 수 있으며 프레임내 출현이 반복해서 나타날 수 있다. 이때 기준 프레임의 시작 범위 프레임내의 객체가 허용프레임 범위내에서 존재하지 않을때 해당 객체는 그 장면에서의 연관이 없다고 판정하며 이러한 객체 출현수의 변화가 지정한 범위 이내인지를 판단하여 분할하는 것이 바람직하다.

상기 객체 프로파일 생성단계에서는 저장된 객체의 속성정보를 부가하기 위하여 객체의 속성 및 자질 집합 데이터베이스를 가지는 것을 특징으로 한다.

이때 상기 자질 집합은 마크업 언어 가령 XML(eXtensible Markup Language)과 같은 형식으로도 표현되어 질 수 있다.

객체의 자질은 대표 객체 자질, 일반 속성자질, 관계 자질, 성분 속성자질 및 특수자질 등을 가지는 것이 바람직하다.

상기 식별된 객체에 부여하는 대표 객체 자질은 사람, 건물, 산, 자동차 등 객체의 대표성을 가지는 것이 바람직하다.

상기 일반속성자질에는 움직임, 자연발생, 인공적인 것, 생명체 등에 대한 일반적 속성을 포함하는 것이 바람직하다.

상기 성분속성자질에는 부속속성, 조건 속성, 행위속성, 이벤트 속성, 시간-계절 속성, 장소 속성 등을 포함하는 것이 바람직하다.

상기 특수자질은 특정 동영상의 특정 제한 객체에만 사용되는 특수 목적 자질에 사용되며 또한 상기의 자질 이외의 추가 속성자질에 대한 확장성을 위한 자질 속성을 가지는 것이 특징이다.

또한 관계 속성 자질은 상하의 관계, 포함관계, 병렬 혹은 연관관계, 소유 혹은 소속관계 등의 자질을 가지는 것이 바람직하다.

상기의 객체속성자질은 단일 혹은 자질집합 패턴으로 관리될 수 있으며 이때 자질의 속성값은 이진값으로 해당 자질속성을 가지면 "1", 가지지 못하면 "0"과 같이 표현하여 관리되는 것이 바람직하다.

상기의 객체를 검출된 속성자질로 관리하게 되면 객체와 배경으로 이루어진 프레임과 프레임의 집합으로 구성된 장면에서 자질간의 관계, 자질이 가지고 있는 속성자질의 연관을 분석하여 상황을 인식하고 다양한 부가서비스를 처리할 수 있다.

이때 상기 객체는 객체의 부속관계인 서브 객체 즉 주객체와 서브 객체의 관계를 포함하여 가지는 것이 바람직하다.

또한 객체와 객체는 다양한 관계를 형성할 수 있는데 이러한 포함, 수속, 병렬, 의존 등의 관계를 구성 것이 바람직하다.

상기의 객체와 서브 객체의 속성 및 자질정보는 데이터베이스 혹은 XML과 같은 형식으로 표현되고 관리되는 것이 바람직하다.

또한 상기의 객체 자질의 연산을 통하여 다양한 상황 인식과 이벤트 발생을 인식하기 위해서는 객체 상황 및 이벤트 인식을 위한 조건과 처리 알고리즘을 포함한 규칙 베이스를 포함하는 것이 바람직하다.

상기 객체 상황 및 이벤트 인식을 위한 규칙 데이터베이스는 복수의 객체들의 자질 유무에 따른 조건을 연산하여 결과를 도출하여 상황이나 이벤트를 인식하게 되는 것을 특징으로 한다.

상기 서비스 프로파일 생성 과정은 상기 색인 과정에서 검출된 객체정보와 객체와 연관있는 동작정보 내지는 특정 컨텍스트를 호출하기 위한 것으로 서비스 프로파일은 각각의 조건에 대한 동작정보를 포함하는 것을 특징으로 한다.

상기 서비스를 위하여 객체가 포함된 영상에서의 프레임이 가지는 프레임 식별자 혹은 해당 프레임 구간의 시간정보와 해당 장면에서의 상황정보, 객체의 위치정보를 포함하는 셀 정보, 객체와 관련한 검색정보, 상품 구매정보, 동영상 플레이정보 등과 객체와 프레임 장면 상황과 유관한 광고정보 등이 포함될 수 있다.

이를 위하여 자질정보를 포함한 메타 데이터 부가 과정; 상기 요청에 응답하여 메타 데이터가 입력되면 그 메타데이터를 이용하여 객체들 각각에 규칙을 적용하여 상황 인식과 서비스 컨텍스트를 생성하는 과정;을 거쳐 사용자에게 요구되는 서비스 프로파일을 생성하는 과정; 상기 객체들의 자질 정보에서 다양한 속성정보와 관계정보 등의 정보를 이용하여 객체들간 계층구조를 생성하는 과정; 및 상기 계층 구조에 의해 생성된 논리 객체를 포함하는 계층 정보를 저장하는 과정; 객체영역과 정보에 필요한 서비스의 연결을 생성하는 것을 포함하는 것이 바람직하다.

상기의 절차를 처리하기 위하여 아래의 표 3a, 3b, 3c, 3d을 참조하여 영상 혹은 멀티미디어로부터 객체 분석과 검출 및 서비스 분석이 요구되는 부속 작업을 설명하고자 한다.

[표 3a]는 영상의 프레임에서 추출된 객체와 부속정보들을 나타낸 표이다.

미디어 제목	A		프레임 색인		B
항목	객체 1	객체 2	객체 3	객체 4	객체 5	객체 6
셀 벡터	C	D	E	F	G	H
부가문서/자막	I		언어 분석 색인		J

상기 테이블을 이용하여 동영상을 분석하고 처리되는 과정과 절차는 위에서 설명을 하였으므로 본 표에 의거하여 바람직한 처리 절차를 보이고자 한다. 하나의 동영상을 분석하면 먼저 [표 3a]의 테이블에 분석된 초기데이터를 적재하게 되는데 미디어 제목은 동영상일 경우 동영상의 제목을 의미한다.

상기 프레임색인은 동영상에서 현재 분석되고 있는 프레임의 식별자 혹은 동영상 상영시간등의 현재 대상 프레임의 위치를 표현할 수 있는 식별자를 의미한다. 객체 1, 객체2 등의 객체는 하나의 프레임에 검출된 객체들의 셀 좌표의 집합을 의미한다.

이때 셀좌표는 상기 [표 1]과 [표 2]에서 설명한 바와 같이 해당 기준 좌표에서 (X, Y)좌표를 정하고 각각 셀은 이진수로 표현하여 객체의 영역셀을 나타내는 것이 바람직하다. 이때 하나의 프레임에는 검출된 객체와 객체가 아닌 배경 또는 환경 객체로 구분하여 검출하는 것이 바람직하다.

상기 분석 동영상이 해당 미디어에 대한 부가 설명 문서나 자막(I)이 존재할 경우 프레임 영역과 혹은 문서의 프레임 영역과 동기화시켜 별도의 언어분석 과정을 포함하는 것이 바람직하다.

상기 언어분석과정을 통한 색인 정보는 언어분석 색인(J)을 포함하는 것이 바람직하다.

[표 3b]는 객체 자질 분석 규칙 데이터 테이블이다.

항 목	자질 벡터			상황 및 이벤트 유형
항 목	자질 패턴	자질 패턴	자질 패턴	상황 및 이벤트 유형
규칙 1
규칙 2

[표 3b]는 [표 3a]의 분석정보를 지정한 객체들을 분석하여 핵심객체와 주요객체등을 판별하기 위한 규칙 데이터베이스를 표로 도시한 것이다.

상기 규칙은 객체가 자질 값을 분석하여 요구되는 정보나 연관을 분석하여 원하는 결과를 추출해 내기 위한 목적이다.

이를 상세하게 보면, 객체와 객체가 특정 자질을 공통으로 가지고 있는지 아니면 다른 자질을 가지고 있는지 여부를 판단하여 데이터베이스에서 객체의 자질 비트 패턴에 맞는 객체들의 상황이나 이벤트를 추출하는 것을 특징으로 한다.

	객체 1	객체 2	객체 3	객체 4
대표 객체 자질
일반 속성 자질
성분 속성 자질
관계 속성 자질
형태/칼라 속성

상기 [표 3a]에서 검출된 객체에 대하여 [표 3b]의 규칙을 이용하여 프레임과 객체에 대한 자질 정보를 포함한 메타데이터를 분석하기 하여 객체간의 연관관계, 프레임의 컨텍스트 추출 등을 수행하게 된다.

상기 [표 3c]에 부가되고 분석된 메타데이터는 사용자 서비스를 위하여 아래 표에서 설명하는 자질 테이블에 저장되는 것이 바람직하다.

항목	프레임 구간	의미 자질	객체 식별자
색인어 1
색인어 2

상기 [표 3d]는 본 발명에서 다루는 동영상 혹은 멀티미디어에서 음성 인식,텍스트 정보 혹은 자막정보를 포함하고 있을 경우 이를 장면 혹은 프레임에서 추출된 의미자질(Semantic Feature) 정보와 어휘자질(Lexical Feature)정보를 상호 연산하여 다양한 지능형 서비스를 제공하는 것이 바람직하다.

이는 특정 프레임 구간 A에서 추출된 복수의 색인어를 형태소분석과 구분 분석을 통해 의미자질을 분석하고 프레임의 상황 즉 컨텍스트에 매칭되는 객체가 있다면 객체에 연결하여 해당 색인어를 객체와 연관 연결하는 것이다.

또한 상기 판단과정에서 입력방법으로는 객체를 선택 포인팅; 음성 및 키워드를 포함한 자연어 입력방법 중 어느 하나인 것이 바람직하다.

상기 프레임에서 객체선택정보는 프레임 식별자와 셀의 식별자를 포함하는 것을 특징으로 한다.

이때 화면의 픽셀 좌표와 객체의 상대좌표를 맵핑하기 위한 기능 혹은 절차를 두는 것을 특징으로 한다.

이때 검색을 위한 입력정보는 입력된 객체 선택 포인팅, 음성, 혹은 키워드를 입력이 일어난 시점 프레임 전후의 관련 서비스를 검색하는 것을 우선으로 수행하는 것이 바람직하다.

또한 상기 서비스 제공과정은 상기 서비스 프로파일 생성 과정에서 생성된 서비스 프로파일 정보에 의거하여 대응된 객체 정보를 표시하는 것이 바람직하다.

또한 상기 서비스 제공과정은 상기 서비스 프로파일 생성 과정에서 생성된 서비스 프로파일 정보에 의거하여 대응된 객체에 링크된 화면으로 이동하는 것이 바람직하다.

이하, 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 이때 첨부한 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

도 1은 본 발명의 일 실시 예에 따른 영상 서비스 서버와 사용자 단말의 블록도이다. 본 발명은 영상 서비스 서버와 사용자 단말로 구성되고 네트워크로 연결되어 다양한 부가서비스를 제공한다.

도 1에서 영상 서비스 서버(100)는 서비스 대상 동영상을 찾고 서비스를 위한 색인 등록 요청을 하며 네트워크상에서 서비스를 위한 포맷에 맞게 변환 혹은 엔코딩 단계를 수행하는 동영상 변환부(110);와 동영상의 기본 화면 크기를 검출하고 분할 셀정보를 맵핑하며 셀당 기본화면의 맵핑 픽셀 좌표 영역을 구분하여 셀 영역에 해당하는 프레임의 화면정보를 분석하여 객체의 셀 영역을 검출하고 검출된 셀 객체 영역에 대하여 폴리곤 추출을 통한 객체 식별정보를 생성하는 정보색인부(120);를 포함한다.

이때 상기 정보색인부(120)에서는 분석 대상 영상에 자막 혹은 관련 문서정보가 존재하는 경우 언어분석 처리 절차를 거쳐 프레임에 대한 언어 처리절차를 수행한다. 상기 언어분석 처리 절차는 형태소분석과 구문 분석을 포함한 의미분석 절차를 포함하는 것이 바람직하다. 색인 키워드의 경우 동영상 프레임과 객체정보와 연결하여 그 셀을 포함한 객체 자질 정보와 의미정보를 같이 포함하여 관리하는 것을 특징으로 한다.

식별된 객체에 대하여 객체 자질정보를 입력 및 확인하여 객체 색인정보 및 자질 부여 등을 포함한 메타데이터 입력 절차를 거치게 되는 색인정보 관리부(130);가 있으며 이를 통하여 관리되는 메타데이터에서 자질 정보를 이용하여 해당 프레임의 컨텍스트 정보와 객체 관계정보, 행위정보 등을 포함하여 상기의 절차에서 설명한 바와 같이 처리되는 것이 바람직하다.

서비스 등록부(140)는 분석된 이미지 객체와 객체가 위치하는 가상의 셀 정보인 상대좌표정보를 이용하여 검출된 객체정보와 그 객체의 폴리곤 정보, 대응되는 객체의 자질정보 등을 규칙에 의하여 연산하고 처리하여 메타데이터를 생성하고 객체와 프레임 및 장면의 컨텍스트를 추출한 결과는 영상정보 저장부(190)에 저장되어 관리된다.

이때 상기 영상정보 저장부(190)에 메타데이터 및 자질정보가 저장 관리되기 위해서는 [표 3]에서와 같이 객체자질 데이터베이스와 처리규칙 데이터베이스 등을 사전 구축하여 처리한다.

상기 서비스등록부(140)는 상기 정보색인부(120), 색인정보관리부(130)의 방법과 절차를 거쳐 생성된 메타데이터를 이용하여 객체, 프레임 및 상황에 대한 다양한 방법의 서비스를 제공할 수 있으며 이를 위하여 서비스를 등록하는 것을 담당하게된다. 메타 데이터는 색인 및 서비스 정보관리 DB(192)에 저장되며 이러한 메타데이터가 생성되고 관리되기 위한 다양한 연산 규칙, 자질 분석 및 언어 분석 등은 자질정보 관리 DB(191)에 저장되고 처리된다.

또한 상기 서비스 등록부(140)에서는 사용자 단말(200)에서 요구되는 입력 제어 정보와 객체 셀 맵핑 정보를 효과적으로 관리하기 위하여 단말정보와 인터랙티브 명령정보를 처리하기 위한 규칙과 단말에 표시하기 위한 제어 명령 코드를 서비스 등록부(140)에 등록함과 동시에 해당 서비스를 처리한다.

사용자 단말(200)로부터 서비스 요청이 오면 서비스 요청 해석부(160)에서는 요청 질의에 대하여 해석을 하게 되는데 먼저 서비스 요청 타입에 대해서 분석하고, 분석된 결과를 세부적으로 해석하여 적절한 검색이 이루어질 수 있도록 판단하는 것이 바람직하다.

상기의 질의 요청 서비스 타입의 분석은 객체 선택인지 질의어 입력인지 음성입력인지를 해석하고 결과에 따라 포인팅, 질의어 및 음성인식의 절차를 수행한다.

상기 서비스 요청 해석부(160)에서 해석된 질의는 검색 제공부(150)를 통하여 색인 및 서비스 정보 관리 데이터베이스(192)에서 검색되어 결과 출력부(170)을 통하여 단말 출력 포맷에 맞게 포맷팅되어 네트워크 연결부(180)와 연결된 이동통신 혹은 유 무선 네트워크(300)중 하나 이상의 망을 통하여 사용자 단말(200)에 서비스된다.

사용자 단말(200)은 영상 표시부(210), 검색정보 입력부(220), 입력정보 해석부(230), 입력정보 생성부(240), 벡터맵핑정보 테이블(270), 제어명령정보 데이터베이스(280)와 네트워크 연결부(250) 및 결과 출력부(260)로 구성될 수 있다.

영상정보 표시부(210)는 네트워크로 연결된 영상 서비스 서버(100)로부터 전송받은 영상을 표시하게 된다.

검색정보입력부(220)는 영상이 표시되는 사용자 단말(200)에서 입력 장치(예컨대 마우스 혹은 기타 포인팅 장치)를 이용한 좌표 입력, 자연어 혹은 키워드를 입력하기 위한 키보드 등과 음성입력을 위한 마이크 등의 입력 방법이 제공될 수 있다.

입력정보 해석부(230)는 상기 검색정보입력부(220)에서 입력된 다양한 입력장치와 방법들을 해석하게 된다.

이때 사용자가 입력한 방식에 따라 화면에 대응하는 셀의 식별자를 추출하고 질의 입력시점에서의 프레임과 객체에 연동되는 다양한 인터페이스를 제공하기 위하여 벡터맵핑정보 테이블(270)을 참조하게 된다.

입력정보 해석부(230)에서 해석된 질의는 영상 서비스 서버(100)로 입력정보를 질의하기 위하여 판단하는 과정을 거치게 되는데 이때 추가적인 사용자 질의 정보가 필요한지를 판단하여 제어 명령정보(280)에서 사용자 화면에 다양한 추가입력을 요청하게 된다.

상기의 과정을 거쳐 사용자 단말(200)에서는 영상 서비스 서버(100)에 보내기 위하여 입력정보 생성부(240)에서 입력질의정보를 생성하게 된다. 이때 생성되는 질의정보의 포맷은 아래 [표 4]와 같이 될 수 있다.

프로토콜 식별자	세션 ID	메세지 타입	Reserved
동영상 ID	프레임 ID		셀 ID	Payload Length
Payload

상기 [표 4]와 같이 생성된 데이터 포맷은 통신 네트워크에서의 패킷 규칙을 따름으로 이하 패킷으로 부른다. 상기 패킷의 공통 헤더 부분인 프로토콜 식별자, 세션아이디, 메세지 타입, 리저브드 필드, 동영상 아이디, 프레임 아이디, 셀 아이디 및 Payload 길이 필드를 가진다. Payload에는 사용자 식별자(ID)와 자연어 질의 텍스트 혹은 음성 질의용 데이터 및 인증을 위한 코드 등이 포함될 수 있다.

상기 메세지타입은 영상에서의 셀 포인팅, 제어 명령 처리, 질의어 입력 혹은 음성 입력인지에 대한 다양한 입력 메세지에 대한 타입을 정의하는 것이다.

단말 질의 패킷이 영상서버(100)로 단말 네트워크연결부(250)를 통하여 보내지면 영상서버에서 처리된 결과는 사용자 단말(200)의 결과출력부(260)를 통하여 출력된다.

도 2a 및 도 2b는 영상 색인을 위한 데이터 테이블이다. 영상색인을 위한 메인 테이블은 영상정보를 분석하고 처리한 여러가지 데이터를 생성 관리하는 데이터베이스 테이블이다. 상세하게는 영상메인테이블(10), 장면분할테이블(20), 프레임 테이블(30), 객체테이블(40), 서브객체테이블(50) 및 역프레임 객체 집합 테이블(60)을 가진다.

상기 영상 메인테이블(10)은 대상 동영상에 대한 개괄적인 영상 정보 테이블이다. Video_ID(11)는 영상서버에서 대상 동영상을 식별하기 위한 식별자이다. Disp_Size(12)는 해당 동영상의 화면 크기인데 이는 화면의 엔코딩시의 화면크기를 의미한다. Run_Time(13)은 동영상의 플레이 시간이다. Cell_No_Depth(14)는 동영상을 분할하는 서브셀의 반복 분할 횟수이다. Video_Title(15)은 동영상의 타이틀(제목)이다. Idx_Term(16)은 동영상에서 프레임을 추출하여 색인하는 간격을 의미하는데 이는 동적으로 색인하는 방법과 특정 주기 즉 시간간격이나 프레임 간격등의 방식으로 처리할 수 있다. No_Scenes(17)은 동영상내 분할장면의 수를 나타낸다. No_Frames(18)은 영상내 총프레임수이다. Cate_Class_Id(19)는 해당 영상의 카테고리 분류체계를 나타낸다.

장면분할 테이블(20)은 영상에서 장면 분할 영역을 관리하기 위한 정보 관리테이블이다. Scene_Id(21)는 장면 구분 식별자이며 장면 시작프레임 Start Frame(22), 장면 종료 프레임 End_Frame(23)을 가진다. 장면 분할된 시간 Scene Time(24)과 장면에서의 핵심객체 Key Object(71), 객체 집합(71), 제어명령(72)과 장면 상황 인식 식별자인 Scene Context Id(28)를 가지게 된다.

이때 핵심객체(25)와 객체집합(71)은 장면 분할한 프레임구간에서의 객체들을 말하는 것으로 특정 장면에서 어떤 객체들로 이루어져 있는가를 관리하기 위함이다.

프레임테이블(30)은 프레임 식별자(Frame ID; 31), 프레임 인덱스(Frame Index; 32), 프레임 시간(Frame Time; 33), 프레임 객체 집합(Object Set ;71), 제어 명령(Control Command; 72), 프레임 상황 식별 코드(Frame Context ID; 34)와 서비스를 처리하기 위하여 Service Anchor(73)를 가진다.

상기 프레임 식별자(31)는 영상에서 특정한 프레임 영역을 식별하기 위한 것이며 프레임 인덱스(32)는 프레임에서 셀로 분할된 영역에서 객체의 상대좌표를 관리하고 단말로부터 전송되어온 포인팅 좌표에 대응하는 객체 셀 영역에 대하여 해당 포인팅 좌표 영역 셀에 대한 객체 유무 판별과 객체 검색을 위해 관리되는 인덱스이다.

이를 좀더 상세하게 보면 [표 1]에서 보여진 바와 같이 셀이 분할되고 분할된 셀에 각각 '가', '나', '다', '라'라고 마스킹된 객체에 대한 프레임내 객체 인덱스값은 그 각각을 비트로 표현하여 16진수로 변환하였을 경우 아래와 같다. {0xC000, 0x8000, 0x0010, 0x2310, 0x7390, 0x21B8, 0x0038, 0x0078, 0x007C}이와 같은 프레임 색인을 하여 관리한다.

상기 프레임 시간(33)은 해당 색인 프레임이 위치한 시간 위치를 나타낸다. 프레임 객체집합(71)은 [표 1]의 경우 '1'로 표시된 4개 cell 집합 정보이다.

제어명령(Control Command; 72)은 단말에서 추가적인 검색 옵션을 위하여 사용자에게 제공하는 기능으로서 서버에서는 각 영상, 장면, 프레임, 객체에 대하여 다양한 검색 옵션 및 기능을 제공 할 수 있으며 제어명령을 영상 화면에 통합시키는 가장 큰 장점은 제한된 화면과 영상 스크리밍 플레이어의 제한된 기능에 대한 유연성을 확보하는데 의미가 크다.

단말용 영상 플레이어에 다양한 검색 옵션이나 기능을 제공하려면 제공 플레이어의 기능이 복잡하고 모든 단말에 적용하여 처리하려면 어려움이 있었으나 이를 플레이어의 화면 영역의 셀에 원하는 제어명령을 겹쳐 표시하고 해당 제어 명령을 선택하면 오버레이된 셀의 영역값을 서버로 전송하고 이를 해석하여 특정기능을 요청한 것으로 해석할 수 있도록 하는 기능을 지원하기 위함이다.

상기 프레임 컨텍스트 아이디(34)는 해당 프레임의 컨텍스트 식별정보를 관리하는 키이다.

서비스 앵커(73)는 해당 프레임의 객체와 프레임 영역에 제공하는 서비스 정보를 참조하여 처리하기 위한 서비스 참조 키(Service Reference Key)이다.

상기 객체 테이블(40)은 객체 식별자(41), 객체 기술명(42), 프레임 식별자(31), 객체 색인(43), 객체 패턴(44), 폴리곤 추출 타입(45), 제어 명령(72), 객체 컨텍스트(45), 자질 집합(75) 및 서비스 앵커(73)를 가진다.

상기 객체 식별자(41)는 프레임에서 추출 및 식별된 모든 객체에 대하여 부여하는 유일한 식별자이다.

상기 객체기술명(42)은 객체 이름이며 객체 색인(Object Index; 43)은 객체 서브셀의 좌표를 포함한 폴리곤과 이미지 색상 속성 등을 색인한 것을 나타낸다.

또한 상기 객체패턴(Object Pattern; 44)은 객체 검출 서브셀의 패턴을 이진 비트로 표현하여 추출한 것이다.

상기 폴리곤 추출 타입(Polygon Ext. Type; 45)은 객체별 추출 셀 영역이 가지는 형태 요소를 분석하여 추출된 폴리곤의 꼭지점과 면 및 요소의 비율에 근거한 객체의 특징을 추출해 낼 수 있다.

객체 컨텍스트(Object Context; 45)는 객체의 프레임 내의 컨텍스트에 대한 정보를 포함한다.

자질 셋(Feature Set; 75)은 객체가 가지고 있는 여러가지 속성 정보를 포함하는 집합이다.

이때 상기 자질셋(75)은 하나의 객체에 포함된 서브 객체들에 대한 자질 집합까지 모두 표현하여 집합의 집합 개념으로 처리하는 것이 바람직하다.

서브 객체 테이블(50)은 객체의 서브 객체이며 객체식별자(41), 서브객체 색별자(51), 서브객체 셀 좌표영역(52), 제어 명령(72), 자질셋(75)과 서비스 앵커(73)를 가진다.

이때 상기 서브객체 셀 좌표영역(52)은 객체영역에서 서브객체 위치 좌표 정보이다.

역프레임 객체 집합테이블(60)은 프레임테이블에 대한 역(reversed) 매핑 테이블이다. 이는 프레임에서 해당 좌표에 위치한 객체의 정보를 관리하고 검색할 수 있도록 하기 위함이다.

상기의 역프레임 객체 집합 테이블(60)은 프레임식별자(31), 제어 명령(72), 프레임 컨텍스트(34), 객체 요약 옵셋(61), 객체 검출수(62)와 객체식별자와 그 좌표(63)을 가진다.

상기 객체 요약 옵셋(61)은 특정 프레임에서의 전체적인 객체 구성과 배경 및 이미지 분석정보를 요약하여 동일 및 유사한 정보를 검색과 해당 프레임 등에 대한 저작권등에 대한 관리 목적으로 사용되어 질 수 있다.

도 3은 서비스 프로파일과 자질 집합정보를 관리하기 위한 테이블들이다. 카테고리 테이블(F10), 제어명령 테이블(F20), 컨텍스트 DB(F30), 객체색인 DB(F40), 자질 집합 DB(F50), 서비스 DB(F60), 폴리곤 DB(F70) 및 색인어 DB(F80)를 가진다.

상기 카테고리 테이블(F10)은 동영상 기반 서비스를 제공함에 있어서 요구되는 해당 서비스 분류체계를 관리하는 테이블이다.

상기 제어명령(F20)은 단말에 인터페이스를 제공하기 위하여 사용되는데 이는 장면이나 프레임 혹은 객체에서 선택한 좌표 혹은 해당 프레임에서 제공해야 할 기능 옵션을 화면에 제공한다. 이를 위하여 각각의 제어명령은 고유의 식별자를 가지며 장면 혹은 프레임에서의 제공하는 제어 인터페이스는 각각 다르게 정의될 수 있다.

이를 위하여 상기 제어 명령은 상기 제어 명령을 사용자 화면에 나타내기 위한 명령문과 제어 명령이 실행되는데 필요한 파라미터 값을 포함한 옵션들을 가질 수 있다.

컨텍스트 DB(F30)는 컨텍스트에 대한 분류 식별자;와 컨텍스트 추출을 위한 자질 매칭 규칙;과 해당 컨텍스트로 해석되기 위한 매칭 조건;과 핵심 컨텍스트; 보조 컨텍스트;로 구분되어 질 수 있다.

상기 객체색인 DB(F40)는 프레임 식별 객체에 대한 객체 정보;와 해당 객체가 가지게 되는 조건 정보;, 객체에 연결된 서비스 식별자; 및 영상의 자막 혹은 부가 문서정보에 대한 색인어; 및 객체 연결 정보;를 포함하게 된다.

객체색인 자질 DB(F50)는 객체별 자질 분류체계에 따른 자질셋을 관리하는 객체색인 자질사전이다. 대표 객체에 대한 자질 사전으로 객체 식별자와 일반자질; 관계자질; 속성자질; 특수자질을 가지게 된다.

상기 자질 DB 자질 속성은 예컨데 각각 자질 속성별로 32bit를 할당하면 하나의 대표 객체에 대하여 128bit의 자질 표현력을 가지게 된다. 이는 객체 자질 분류별 해당 자질에 대하여 자질을 가지고 있으면 '1'로 해당 자질이 없으면 '0'으로 설정해두고 관리하는 것이 바람직하다.

이를 통하여 어떤 컨텍스트를 검색하거나 연관을 검색하려면 두 관련 객체에 대한 부울연산을 통하여 객체의 특정 자질 값에 대한 비교 연산을 통하여 영상에서의 프레임 및 객체에 대한 지능적인 검색과 관리하는 것이 바람직하다.

상기 서비스 DB(F60)는 [도 2]에서의 서비스 앵커 값이 서비스 DB의 식별자로 쓰이는 것이 바람직하며 식별자에는 해당 서비스 호출 시 처리가능한 파라미터 값이 조건으로 쓰여지며 서비스는 해당 제어명령으로 통하여 객체 혹은 프레임에서 어떤 입력값에 대한 해석으로 서비스 DB에 정의된 서비스를 호출하는 개념이다.

폴리곤 DB(F70)는 객체 식별한 결과 검출값의 다각형의 값을 꼭지점의 수;와 인접각의 특징, 면의 비율의 특징을 추출한 폴리곤 정보로 구축하여 일정한 값에 이르면 이를 해당 객체의 근사치로 추정 할 수 있는 참고(Reference) 데이터베이스이다.

색인어 DB(F80)는 영상에 포함된 문서 및 자막에 대한 언어 분석 및 이벤트 처리를 위하여 형태소 분석 및 구문 분석을 통한 컨텍스트 식별과 해당 컨텍스트 및 이벤트를 프레임 내 객체와 매핑 시키기 위한 언어 분석 참조 사전 데이터베이스이다.

도 4는 상기 도 2 및 도 3에서 상술한 데이터 베이스 테이블간의 관계도이다. 하나의 동영상 혹은 멀티미디어는 영상정보 관리를 위하여 영상 메인 테이블(10)을 가지며 영상은 여러개의 장면들로 이루어진 장면 테이블(20)을 가질 수 있다. 또한 장면 테이블은 복수개의 프레임 테이블(30)으로 구성되어 있으며 프레임은 각각 이미지 속성정보와 객체들로 이루어진 객체테이블(40)을 가지고 객체테이블은 다수의 서브 객체 테이블(50)을 가질 수 있다.

상기 프레임 테이블(30)에서 단말로부터 셀 영역에 대한 포인팅 정보가 선택되면 역프레임 객체집합 테이블(60)에서 프레임의 포인팅 정보에 대한 객체정보와 프레임의 객체요약정보를 확인하여 처리하게 된다.

또한 장면테이블(20), 프레임 테이블(30), 객체 테이블(40) 및 서브객체테이블(50)은 정보를 분석하고 장면, 객체 및 서브객체를 추출하기 위하여 폴리곤 테이블(F70)을 참조하는 것이 바람직하다.

카테고리테이블(F10)은 영상 메인테이블(10)과 서비스 제공을 위한 서비스테이블(F60)에서 카테고리 및 분류 체계를 관리하기 위하여 참조한다.

서비스테이블(F60)은 프레임 테이블(30), 객체 테이블(40) 및 서브 객체테이블(50)에 서비스를 정의하고 링크정보를 가지고 있다.

명령제어부(F20)는 장면, 프레임에서 사용자에게 제공할 인터페이스 제어 명령 정보를 관리하고 객체나 서브 객체의 선택 혹은 프레임에서 검색, 음성입력을 통한 제어 명령 발생시에 대응하는 사용자 인터페이스를 생성하고 관리하는 데이터와 규칙을 관리하며 장면, 프레임, 객체 및 서브 객체와 서비스를 제공하기 위한 사용자 인터페이스를 제공하기 위하여 활용되는 것을 특징으로 한다.

컨텍스트 테이블(F30)은 장면, 프레임, 객체 및 서브 객체의 컨텍스트를 인식하고 관리하기 위하여 사용되는데 컨텍스트와 객체 관련 정보 및 자질의 연산을 통한 다양한 컨텍스트 인식 기반 동영상 서비스가 가능해진다.

객체 색인 테이블(F40)은 프레임내 추출 객체에 대한 셀 좌표정보와 서비스정보 및 객체의 자질 셋정보의 식별정보를 관리하는데 이를 통하여 장면, 프레임에서 특정 포인팅 좌표에 해당하는 객체를 추출하여 관련 서비스를 검색하고 제공하는 핵심 테이블이다.

색인어 DB(F80)는 동영상 정보에 부가 문서정보나 자막정보가 존재할 경우 형태소 분석 및 구문 분석을 통한 추출 색인 DB를 객체 색인 정보와 매핑하여 관련 정보에 대한 자연어 혹은 키워드 검색이 가능하도록 색인 추출 DB이다.

자질 테이블(F50)은 객체분석과 언어 분석에서 요구되는 속성 자질 정보를 객체 자질과 언어처리 및 구문분석용 자질 DB를 가지는 것을 특징으로 한다.

도 5는 본 발명의 전체적인 절차도이다. 본 절차도에 따르면 신규 등록된 영상정보가 있는지를 확인하는 영상정보검색(S100); 신규 대상 영상정보에 대하여 동영상 포맷, 화면정보 등을 분석하는 영상정보분석(S200); 분석된 원본 영상정보로 부터 영상정보를 분석하여 셀 영역으로 추출정보를 색인하는 영상정보색인(S300); 객체식별(S400); 자질부여(S500); 서비스프로파일 생성(S600); 및 동영상 서비스 검색(S700)의 절차를 수행한다.

도 6은 영상 정보 검색에 대한 절차도이다. 영상정보 저장소에 분석대상 영상정보가 있는지를 확인(S110)하여 색인대상 동영상이 존재하는지(S111)을 확인하고 색인대상 동영상이 있으면 동영상의 포맷과 코덱 지원여부를 판별하고 적절한 코덱을 선택하여(S120) 동영상을 분석한다.

이때 먼저 동영상 헤더 및 키프레임정보를 확인(S121)하고, 동영상의 화면 사이즈 및 프레임정보 등을 분석(S122)며, 원본 동영상이 서비스용 코덱으로 엔코딩이 필요한지를 판단(S130)하여 동영상을 스트리밍 서비스를 위한 변환 혹은 재엔코딩(S131)을 거친후 최상위 셀 분할수와 최대 셀 분할수를 정한다(S140).

상기 최상위 셀 분할수와 최대 셀 분할수(S140)를 정하는 단계는 원본 영상으로부터 분석된 화면 크기와 픽셀정보에 대한 이미지 분석을 위한 가상 분할 셀의 분할 단계 즉 분할 깊이(Depth)를 결정하는 단계를 의미한다. 여기서 최상위 셀 분할수는 프레임으로부터 셀을 분할하는 분할 수를 의미하며 셀은 2의 배수로 분할 한다.

상기 셀 분할에서 분할 깊이(depth)란 최상위 분할 셀을 2의 배수로 반복해서 분할하는 횟수를 의미하며 최대 셀 분할수는 최상위 분할셀에서 반복 분할된 가장 작은 셀의 총 분할 갯수를 의미한다.

상기와 같이 분석된 프레임 분석 셀 정보를 저장하고(S150) 복귀한다.

도 7은 영상 이미지 분석을 위한 처리 절차도이다. 프레임의 사이즈와 화질을 분석하여 셀의 분할과 분할 깊이(Depth)를 정하여(S210). 프레임 이미지로 부터 셀로 분할한 셀의 이미지 크기를 구한다(S220). 분할 셀로부터 순서대로 이미지를 분석하여(S230) 셀의 이미지 분석정보가 단일한지 복수의 분석 속성을 가지는지 판단한다(S240).

이때 이미지 분석정보는 셀 영역에 대응하는 영상의 픽셀좌표영역이내의 이미지 정보들이다. 또한 분석대상정보는 칼라, 텍스추어, 이미지 경계선등을 포함하는 것이 바람직하다.

셀 이미지 분석정보 판단(S240)에서 단일 이미지 속성정보를 가졌으면 셀에 대응하는 이미지 속성정보를 저장하고 서브셀의 분석 결과 값을 결과 테이블에 1로 설정한다.

즉, 프레임 이미지를 분석하기 위하여 프레임 사이즈와 화질을 분석하여 셀분할과 분할 깊이(Depth)를 결정하고(S210) 프레임이미지로 부터 셀로 분할한 셀의 이미지 크기를 구한다(S220). 분할된 셀을 순서대로 이미지를 분석(S230)하여 셀의 이미지 분석정보가 단일 정보인지 분석(S240)하여 단일 객체 판단비율 이내이면 이미지 속성정보를 셀좌표에 대응시켜 결과를 저장(S250)한다. 셀의 분석 결과값을 결과 테이블에 '1'로 설정(S260)한다. 이때 현재의 셀분할 깊이(Depth)가 설정 최대 깊이인지 판단(S270)하여 최대깊이이면 인접 다음셀이 존재하고 인접셀이 마지막셀이 아닌지를 판단한다(S280).

상기 셀의 이미지 분석정보가 단일 정보인지 분석(S240) 단계에서 복수의 분석정보가 존재하고 분석정보가 단일 객체 판단비율 이내인지 판단(S251)되면 셀의 분석 결과값을 결과 테이블에 '1'로 설정(S260)하고 객체판단비율 밖이면 현재의 셀의 셀의 깊이가 최대분할깊이가 아닌지를 판단(S270)하여 아니면 한단계 더하고(S252) 2의 배수로 분할(S290)하여 셀의 순서대로 이미지를 분석(S230)한다.

상기 과정에서 객체판단비율 밖이고 현재의 분할 깊이가 최대이면 현재 분석셀이 마지막셀인지 판단(S270)하여 마지막(S280)이면 분석단계를 종료하고 아니면 다음셀을 선택하여 이미지를 분석(S230)한다.

도 8은 객체 식별결과 저장 처리 절차도이다. 객체 색인(S300)은 프레임에서 가상셀 대응 영역에서 셀 식별 영역 값이 '1'인 셀을 검색하여(S310)하여 객체 영역을 탐색(S320)하고 검색된 객체의 색인정보를 저장(S330)한다.

상기 저장된 탐색 셀 영역의 객체 이미지 영역 분석 정보에서 경계를 분석(S340)하고 경게가 존재하면 객체의 서브셀 경계를 탐색하여 경계는 '1'로 나머지는 '0'으로 세팅(S350)한다.

상기 탐색 서브 객체의 연속셀에서 경계를 가진 서브 객체를 추출(S360)하여 추출된 서브 객체의 정보를 저장한다.

상기의 과정은 미식별 셀의 영역값이 '1'인 서브셀이 남아있지 않을때까지 반복해서 수행(S380)하고 추출된 객체 식별정보를 프레임 테이블(30)에 저장(S390)하고 마친다.

도 9는 객체 분석 예시도이다. 상기 셀 식별을 위한 전체 분할 셀의 영역은 영상의 프레임 영역의 실제 픽셀좌표에 대응하는 영역이다. 각 셀 영역에서의 이미지 분석정보를 판단하여 객체 식별을 하는데 색상, 텍스추어 및 경계선 검출 단계를 수행한다. 검출한 객체 영역 셀의 식별값을 '1'로 설정하며 각 셀은 최대분할 셀 영역이다. 프레임의 셀 분할 가상 기술 영역 대응 셀(C01)에는 4개의 서브객체로 이루어진 삼각형 객체(C02)와 직육면체 객체(C03)가 있다.

프레임 영역에 대응하는 전체 셀 영역은 '0'으로 설정되며 색인 식별 셀 혹은 대상 셀 영역은 '1'로 설정된다. 좌상의 화살표 '1번','2번','3번','4번'영역의 셀의 합이 최대 분할 셀 영역이라 설정하면 각 화살표가 있는 영역은 제1 분할 깊이의 영역이며 각 '1'은 2의 배수배 분할에서 4개의 분할을 하게된다. 즉 이렇게 분할 과정을 거쳐 상기 도면에서는 12개의 최상위 셀을 가지며 각 셀은 64개의 서브셀을 가지게 됨을 보인다.

따라서, 도 10에서 셀의 좌표 기술 방식은 화면의 x축 길이를 'X', x축 분할 개수를 'n', 화면의 y축 길이를 'Y', y축 분할 개수를 'm'이라 할 때 상기 가상 셀의 셀 식별정보는 [수학식 1]에 예시된 바와 같이 표현하는 것이 바람직하다.

[수학식 1]에 예시된 바와 같이 셀 식별 정보를 설정하였으면 도 11에 예시된 바와 같이 상기 j 및 i 값을 변화시키면서, 상기 분할된 모든 가상셀 들에 대한 분석 과정을 수행한다.

: 'O'는 객체 식별자이며 객체를 포함하는 셀의 좌표(i,j)에 위치한 객체의 셀 분석 색인 값

: 셀 좌표 C의 (i,j)에서 대상 객체를 포함하는 식별 영역에서의 셀 분할 방법과 깊이를 정의.

X : 최상위 기준 셀에서 x 좌표 셀의 길이

Y : 최상위 기준 셀을 포함한 y 좌표 셀의 길이

n : 상위 셀에서의 서브 셀 분할 갯수

m : 서브 셀의 분할 깊이(Depth)

I : I는 셀의 비트 색인 값.

도 10은 본 발명의 일 실시 예에 따른 영상 처리를 위한 화면 분할 예를 도시한 도면이다.

이때 내의 객체의 분석 색인정보는 도 11의 예시도에서 자세한 처리과정을 살펴보고자 한다.

도 11은 서브 셀 분할 정보 처리 예시 도면이다. 도면에서

는 4개의 '1','2','3','4' 영역에 위치한 객체의 좌표이며 이때 셀 좌표 'C'는 도 9에서 보 여지는 프레임 영역 기준 셀로부터 (i,j)에 위치한 최상위 셀을 의미한다.

이때 상기 객체는

에 존재하며 이때 객체의 서브셀내의 분포는 영역을 포함하고 256개 셀은 서브셀을 나타내고 의미한다.

객체 분할 색인 정보 'I'는 상기 수학식 3과 같이 나타내어질 수 있다.

도 11의

객체 색인정보를 표현하면 수학식 4와 같이 나타날 수 있다. 이를 수학식 4를 통하여 객체 색인 방법을 상세하게 설명하면

으로 표현할 수 있는데 이는 도 11에서 최상위 셀 '2'는 4개의 서브 셀로 즉 'A', 'B', 'C', 'D'로 2의 배수 분할 되며다시 각각의 서브셀 'A', 'B', 'C', 'D'는 4개로 분할된다.

이때 상기 셀 '2'의 'C'인 서브셀(C04)에서 4분할된 영역에서 객체와 기타 배경정보와의 이미지 분석을 통하여 연속된 인접 동일 분석 유사 정보에 의거하여 분석정보의 셀을 추출하면 서브셀 (C04)와 같이 나올 수 있다.

이는 상기 수학식 'I' 에서 분할 깊이(depth) d = '3'이며 이를 서브셀 단위의 행렬 색인값으로 나타내면 수학식 4와 같다. 이때 서브셀 C04의 식별 값은 {0,1,1,1}, {0,0,1,0}, {1,1,1,1}, {1,0,1,1}으로 표현된다. 이들 각각의 d ='3'인 서브 셀의 비트값을 16진수로 나타내었을 때 '0x72FB'이며 인접 셀들 또한 상기 [수학식 4]와 같은 형식으로 나타날 수 있다.

도 12는 객체 식별 및 폴리곤 인식 절차도이다. 도 8에서 저장된 추출 객체 식별정보에서 배경과 객체의 식별정보 및 이미지 속성정보를 읽어(S390) 객체를 포함하는

객체 분할셀의 기준 좌표를 구한다(S401). 기준좌표에서 연속인접셀을 분석(S410)하여 분석 셀의 비트 값이 '1'인 서브셀을 판단(S420)하여 인접한 동실 속성의 서브셀들의 구성 빗면각과 거리를 삼각함수를 이용하여 구한다(S421). 상기 S421단계에서 기준셀과 인접셀이 이루는 각(∠)의 변이를 판단(S422)하여 기준값을 분석하여 꼭지점의 셀 좌표를 저장한다(S430).

상기 변이각의 기준값이란 두 셀 혹은 복수개의 인접셀이 최장 거리를 이루는 셀의 변이각이 일정 이내 혹은 이상의 값 이를테면 150도 이상이면 이를 직선으로 간주하고 150도이내의 각 셀의 인접면을 꼭지점으로 색인하는 것을 의미한다.

인접셀간의 분석이 끝나면 결과를 저장후 연속한 인접 셀을 검색(S440)하여 더이상 분석대상 셀이 없으면 객체 식별 폴리곤을 저장하고 객체의 중심좌표셀을 구한다(S450). 검출된 폴리곤이 폴리곤 DB(F70)에서 유사한지를 판단(S460)하여 유사 폴리곤 모형이 검색되면 대표객체 식별자를 부여하여 객체 테이블(40)에 저장(S470)하고 아니면 미등록 객체 테이블에 저장(S480)한다.

도 13은 장면분할 처리 절차도이다. 저장된 프레임정보에서 시작 분할된 객체와 배경 분석정보를 추출(S390)하여 인접 색인 분석 프레임의 정보를 장면 분할 버퍼에 저장(S491)한다.

상기 장면 분할 버퍼에 저장된 프레임 색인 정보를 비교(S492)하여 기준 프레임과 분석 정보간의 변이정보 및 유사성을 판단(S493)한다. 유사성이 있으면 다음 프레임을 읽어 분석하고 유사성이 미흡하면 이를 장면이 변환된 것로 하여 직접 프레임까지로 장면을 분할하고 분할 정보를 장면 구간 정보로 장면 분할 테이블(20)에 저장(S495)하고 영상 프레임을 모두 분석(S495)할 때까지 반복한다.

도 14는 객체 자질 부여 절차도(S500)이다. 도 12에서 식별된 객체와 폴리곤정보를 이용하여 객체자질 값을 부여(S510)하고 부여된 자질 값이 적절한지 미등록 객체인지를 판단(S511)하여 미등록 객체이거나 부적절한 객체이면 분석 객체정보에 대표 객체 자질값을 부여(S520), 일반속성자질(S530), 성분 및 관계자질(S531)을 부여하고 해당 객체를 위한 특수자질이 필요한지 확인하여 특수자질을 부여(S532)한다.

프레임내 추출된 자질 값을 부여하고 난후 동일 프레임 내 객체를 검색하여 추가 자질 부여 객체가 있는 지 판단(S540)하고 모든 검출 객체에 대한 자질 값이 부여되었으면 백그라운드 객체에 대한 자질값을 부여(S550)한다.

자막이나 영상관련 부가 설명문서가 존재하는 지를 판단(S560)하여 추가적인 문서 파일이 존재하면 문서파일에 대하여 텍스트를 추출하여 색인어 DB를 참조하여 언어 분석 및 처리절차를 거쳐 자질 벡터를 생성(S561)한다. 분석된 자질벡터와 프레임 객체 자질 정보를 분석하여 이벤트 및 상황정보를 맵핑(S569)한다.

객체간의 자질연산을 통하여 해당 프레임내 이벤트 및 상황정보를 생성(S570)하고 분석된 결과를 저장(S580)한다.

도 15는 본 발명의 일실시 예에 따라 검출된 객체 정보들 간에 논리적인 연관관계를 설명하기 위한 도면이다. 굵은선으로 표시된 것이 논리객체이고, 나머지 것은 단순객체를 나타낸다.

도 16은 서비스 프로파일 생성 단계(S600) 처리 순서도이다. 서비스 프로파일은 도 15에서 보여지는 바와 같이 객체들의 논리적 연관성 및 관계를 포함하여 객체간의 연관 정보를 생성하는 단계(S630)와 객체 및 서브 객체에 대한 각종 서비스정보를 생성하는 단계(S650)및 서비스 제공을 위한 제어 명령 생성(S670)와 생성된 서비스 프로파일을 저장하는 단계((S680)으로 나누어진다.

도 17은 서비스 검색 과정 및 순서를 나타내는 도면이다. 영상기반의 단말 검색을 위하여 입력값에 대한 판단의 단계(S720, S721)와 입력된 질의 데이터 포맷(표 4)을 생성하는 단계와 질의 데이터 포맷을 해석하는 단계(S740, S751)와 질의를 해석하는 단계에 있어서 부가적인 사용자 의도 및 검색 옵션을 파악하기 위하 여 제어 명령 코드를 단말에 생성하는 단계(S760, S770)와 사용자로 부터 추가적인 입력을 받는 단계(S780)가 포함될 수 있으며 이를 통하여 질의 검색을 수행하는 단계(S790, S791)와 결과를 전송하여 디스플레이 하는 단계(S800)가 있다.

상기 입력값은 좌표에 의한 셀 ID(S720), 바이너리 입력(S721)이 있는데 바이너리 질의 데이터의 종류에는 텍스트, 음성, 이미지 혹은 동영상 등이 있을수 있다.

이때 상기 바이너리 입력에서 데이터 타입의 분석(S721)에서는 도 18의 'A' 이하의 처리 과정을 호출하게 된다.

상기 질의 데이터 포맷의 해석 단계(S740, S751)는 표 4의 메세지 데이터 포맷의 메세지 타입과 셀 아이디 및 패이로더등의 전달 값을 해석하여 입력값에 따른 처리 절차를 따른다.

상기 질의 검색 데이터에서 프레임 테이블(30)에서 색인값에서 특정 영역에 위치한 객체 정보를 검색하여 대응하는 객체테이블(40)과 서브객체테이블(50)에서 수학식 3b의 객체 색인 값에 대응하는 서비스 앵커(73)를 검색하여 서비스 코드를 생성(S760, S761)한다.

이때 상기 서비스 코드를 검색하는데 있어서 추가적인 입력이 요구되는 지를 판단하고 단말로부터 추가적인 제어 명령 옵션 입력(S780)을 받고 검색 색인 DB(F40)에서 필요한 조건정보의 값과 비교하여 서비스 코드를 검색하고 검색된 서비스 코드를 이용하여 서비스 DB(F60)의 해당 서비스를 제어명령정보 입력 조건에 따라 검색 절차(S790)를 수행하게 된다.

도 18은 바이너리 질의에 대한 처리 절차를 설명한 일 실시예이다. 바이너리 질의 입력에 대한 처리를 위하여 먼저 바이너리 질의 데이터를 분석(S722, S723, S724)하게 된다.

이때 상기 질의 데이터의 타입이 이미지 기반의 질의이면 영상정보 분석(S200)과 영상정보 색인(S300)을 통하여 객체 패턴을 추출하고 검색 질의를 생성(S291)하게 된다.

여기서 이미지 혹은 동영상을 통한 질의는 유사한 이미지나 동영상의 컨텍스트를 검색 혹은 추출하는 것이다. 가령 특정 이미지를 서버로 질의하여 그 이미지와 비슷한 장면 혹은 프레임을 검색하기 위한 것으로 이때 이미지 혹은 장면에서 특정 객체 등을 지정하여 질의할 수 있다.

또한 상기 바이너리 질의에서 음성을 통한 검색(S723)이면 음성인식(S275)을 수행하게 되는데 이때 HMI DB(70 Human-Machine Interface Data Base)를 참조하여 단말로 부터 전송된 음성인식을 수행하고 추출된 음성 키워드를 추출(S276)하게 된다.

상기 바이너리 질의 데이터 속성분석 분석하는 단계에 있어서 텍스트 기반의 검색 질의이면 입력 질의 텍스트 전처리 과정(S278)을 거치게 된다.

상기 텍스트 전처리(S278)는 입력 질의문의 어절 구분, 어간-어미 구분등을 포함한다.

어휘사전과 규칙사전을 참조하여 어휘 분석 및 핵심어 추출(S279)을 하는데 이때 추출된 어휘 성분 및 속성자질 값과 단말에서 질의 생성시 근접 프레임의 컨텍스트와 프레임의 객체 속성에 대한 자질 값을 참조하여 유사성이 있는 어휘 성분에 대하여 가중치를 부여하는 것을 특징으로 한다.

상기 텍스트 검색에서의 가중치 부여의 과정은 단말에서 텍스트 기반의 질의어 생성시 최 근접 프레임의 객체 자질 정보를 검색하여 사용자가 질의한 텍스트 질의어 내에 존재하는 어휘성분의 자질을 핵심어로 추출하는 규칙을 가지게됨을 의미한다.

상기 핵심어와 부속어를 추출하는 단계에 있어서 텍스트 질의시점의 근접 프레임 객체의 자질 성분과의 유사성을 따져 검색 질의문을 생성(S291)하기 위하여 장면 분할 테이블(20)의 장면 컨텍스트(28)과 프레임 테이블(30)의 프레임 컨텍스트(34)를 참조하여 포함 객체의 자질을 비교하여 추출하는 것이 바람직하다.

상기 생성된 검색을 위한 질의결과는 도 17의 'B'를 통하여 질의 요청정보를 해석하여 검색을 수행(S790)하게 된다.

상기 바이너리 검색에서 이미지 혹은 동영상, 음성 및 텍스트 검색 어느 질의에도 포함되지 않는 인식 불가한 질의 발생시 요청 질의에 대하여 에러 코드를 생성(S795)하고 도 17의 'C'를 통하여 결과를 단말에 전송하게 된다.

도 19는 도 16의 단말 제어 명령 생성 및 처리 과정을 상술한 처리 예시 도면이다. 제어명령이란 통상적으로 동영상 혹은 이미지에서 다양한 검색 옵션을 동적으로 제공하기 위한 목적이다.

상기 동적 검색 옵션의 제공을 위하여 장면, 프레임 혹은 객체에 대하여 제 공할 검색 옵션 정보를 테이블에 저장하는 단계; 저장된 제어 명령 옵션정보를 검색 및 확인하는 단계(S671); 해당 동영상에 필요한 제어 명령을 추출하여 전송하는 단계(S680, S681); 단말에 제어 명령을 표시하는 단계(S770); 제어 명령 정보를 프레임 혹은 객체 검색에서 선택하는 단계(S780); 선택된 제어 명령 셀 혹은 프레임 정보를 해석하여 질의 데이터 포맷을 생성하는 단계(S900);로 이루어 지는 것이 바람직하다.

상기 검색 옵션정보를 테이블에 저장하는 단계는 도 2의 장면 분할 테이블(20), 프레임 테이블(30), 객체 및 서브객체 테이블(40, 50)에 각각 정의되며 정의된 세부 제어 명령의 파라미터나 동작 조건 등은 도 3의 제어명령(F20), 객체 색인DB(F40), 서비스 DB(F60)에 정의되어 있다.

상기 저장된 제어 명령 옵션정보를 검색 및 확인하는 단계는 정의된 제어명령 정보의 제공 조건 및 옵션 설정정보를 확인(S671)하여 제공할 프레임에 따른 제어 명령 코드를 제공하기 위하여 환경 분석(S672)을 하게 된다.

이를 통하여 제어 명령 코드를 생성(S680)하게 되는데 이때, 생성된 제어 명령은 동영상의 경우 서버에서 단말로 영상정보가 제공될 때 특정한 주기로 혹은 일반 제어 명령 코드를 전송(S681)하게 된다.

단말로 전송된 제어 명령 코드는 동영상이 플레이중에 포인팅 디바이스나 검색어 입력 혹은 바이너리 검색 방법을 이용한 검색 요청(S720)이 있으면 프레임과 셀 좌표를 식별(S682)하여 해당 프레임 혹은 셀 대응 제어 명령 데이터를 확인(S683)하여 제어 명령 옵션 정보를 표시할 영역을 설정하게 되는데 이는 사용자 에게 단말에서 제공 정보의 영역 혹은 임의의 영역을 동적으로 할당하기 위함이다.

도 20는 서비스 편집기 예시도이다. 서비스 편집기는 영상 디스플레이 표시 영역(810); 프레임 및 객체 속성 및 자질 관리 영역(820); 장면 분할 표시 영역(830); 영상 서비스 미리보기 및 편집 관리 영역(840); 객체 및 내용 검색 영역(850); 속성, 자질 및 서비스 편집 및 관리 영역(860, 870); 제어 명령 코드 관리 영역(880)으로 나누어진다.

영상 디스플레이 표시영역(810)은 프레임 셀 분할 영역에서 객체 식별 영역이 표시되며 셀의 영역에 식별된 객체는 속성 및 자질 관리 영역(820)에서 자질의 입력 수정 삭제 등이 가능하다.

상기 장면 분할 표시 영역(830)은 영상의 장면 분할된 분할 부분을 각각 장면 시작으로 나타내어준다. 장면을 선택하여 각각 장면에 대한 자질 이나 속성을 지정하고 전체적인 서비스 연결 편집에 사용될 수 있다.

상기 서비스 미리보기 및 편집영역(840)은 편집된 영상의 서비스 혹은 자질 부여의 적합성을 확인하기 위한 인터페이스 화면이다.

객체 및 프레임 검색(850)은 객체의 대표 객체 혹은 타이틀, 컨텍스트 및 자막 색인에 대한 프레임, 객체 매칭 정보 검색 영역이다.

상기 자질 및 서비스 편집 및 관리 영역(860, 870)은 상기 영상 디스플레이 표시 영역(810); 프레임 및 객체 속성 및 자질 관리 영역(820)에서 편집되고 수정된 프레임의 자질 속성 정보, 객체 자질에 대한 정보 및 서비스 연결 정보에 대한 내용을 새로 등록, 수정, 삭제 및 서비스 통계등을 확인하고 생성된 자질, 속성정 보 및 서비스 맵핑정보에 대한 마크업 언어 예컨데 XML(xXtensible Markup Language)등으로 표현된 생성정보를 관리하는 것이 바람직하다.

제어 명령 코드 관리 영역(880)은 서비스를 제공하는 데 필요한 각종 정보 혹은 인터페이스를 화면 혹은 이미지 상에 제공하기 위한 편집화면이다.

도 21은 사용자 단말의 동영상 서비스 인터페이스의 일 실시예이다.

영상 표시 영역(910)과 제어 명령 표시 인터페이스(920), 객체 선택 인터페이스(930), 동영상 제어 기능 인터페이스(940), 검색 카테고리 선택부(950) 및 검색 창(960)을 포함한다.

상기 제어명령 표시 인터페이스(920)은 고정 영역에 표시되기보다는 다양한 영역에 즉 사용자 단말의 설정에 의해 혹은 객체 선택 영역 위치를 고려한 다양한 영역에 설정할 수 있는 것이 바람직하다.

도 22은 이동 휴대단말 검색 단말의 서비스 실시예이다. 이동 휴대 단말 전화기에서는 영상 표시부(970), 제어 명령 표시부(971), 포인팅 디바이스(972) 및 숫자 패드와 셀 영역 맵핑 표시부(973)이 있다. 휴대 단말에서는 영상이나 이미지 정보에서 영역을 선택하는데 필요한 포인팅 디바이스 예컨대 마우스 등의 장치가 제한적이거나 어려움이 있을 수 있다. 이러한 이유로 표시 영상에 대한 가상의 셀 영역에 대하여 숫자 패드와의 영역 맵핑을 설정할 수 있고 이를 통하여 다양한 기능 인터페이스를 통합 제공할 수 있다.

상기 영상 표시부(970)에 제공되는 영상 혹은 이미지에 대하여 키패드의 대응 숫자를 입력하면 가령 키패드 '3'을 입력하면 표시 영상부의 우상의 3번 영역을 선택한 것으로 식별하여 해당 영역에 있는 객체 혹은 서비스를 검색하여 제공하는 방법을 의미한다. 또한 터치스크린 기능을 제공하는 휴대 단말의 경우 해당 영역을 포인팅 할 경우 상기와 같은 검색 요청이 가능하다.

상기 제어명령 표시부의 경우는 다양한 제어 명령 인터페이스 기능을 제공하기 위하여 부가적으로 "*" "0" "#"키를 할애하여 제공하는 것이 가능할 것이다.

이하, 도 23 및 도 24를 참조하여 상술한 폴리곤 모델에 대한 데이터베이스를 구축하는 방법을 설명하기로 한다.

도 23은 본 발명의 실시 예에 따른 폴리곤 모델 DB 구축 절차도이다.

먼저 폴리곤의 샘플 데이터를 구축하는데 이는 샘플의 중심좌표를 기준으로 외각선 및 인접면의 거리비를 기준으로 샘플링(S1010)하게 된다. 그런 다음, 불필요한 데이터 삭제(날카로운 절단면 등)(S1020)하고, 객체의 색상/텍스추어 정보를 포함하여 피부 혹은 털과 같은 색상 및 텍스추어 정보 색인(S1030)하게 된다.

마지막으로, 구축된 데이터를 양자화(S1040)함으로써 폴리곤 모델 데이터베이스가 구축된다.

이와 같이 데이터베이스로 구축된 폴리곤 모델을 이용하여 객체를 식별하는 절차는 다음과 같다.

도 24는 본 발명의 실시 예에 따른 객체 식별 절차도이다.

먼저, 불필요한 데이터를 삭제(S1110)하고, 식별된 객체정보의 외곽선을 추출(S1120)하게 된다. 그런 다음, 객체정보의 중심좌표를 선정(S1130)한 후, 객체 중심좌표와 인접면의 거리비 추출(S1140)하게 된다.

마지막으로, 폴리곤 DB와 형태소 유사도 계산(S1150)함으로써 객체 식별하는 절차가 완료(S1160)된다.

또한, 상술한 바에 따르면, 장면 분할을 함에 있어서, 기준 프레임과 대상 프레임의 분석 정보간의 변이정보 유사성을 판단하여 프레임의 장면 분할 구간을 설정하였으나, 추가로 다음과 같은 방법에 의해 장면 분할을 할 수 있다.

장면 분할은 프레임 내에서의 객체의 속성정보의 변이정보, 영상내 음성을 포함하는 경우 독출된 음성정보의 변화정보를 같이 판단할 수 있다.

객체의 판단정보는 시작 프레임에서부터 배경정보의 유사성, 검출 객체의 프레임간 반복 유지 여부, 음성 분석 정보의 유사성으로 판단할 수 있다. 이때 검출 객체는 영상정보 분석 속성이 동일 내지는 유사성을 가짐을 의미한다.

다음으로, 구간 프레임에서 배경화면의 특징을 추출하며, 상기 배경화면의 특징정보는 야외, 건물-거리, 실내 배경의 집기, 가구정보, 밝기 등의 분석정보를 의미하며 또한 텍스추어, 색상정보 등을 포함할 수 있다.

한편, 본 발명의 실시 예에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허 청구의 범위뿐만 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 실시 예에 따른 영상 서비스 서버와 사용자 단말의 블록도.

도 2a 및 2b는 본 발명의 실시 예에 따른 프레임 및 객체 분석 데이터 테이블.

도 3a 및 3b는 본 발명의 실시 예에 따른 객체 서비스 메타데이터 테이블 및 자질 테이블.

도 4는 본 발명의 실시 예에 따른 영상객체 데이터와 서비스 메타데이터 간의 관계를 표현한 도면.

도 5는 본 발명의 실시 예에 따른 처리 절차도.

도 6은 본 발명의 실시 예에 따른 영상 정보 검색 및 처리에 대한 절차도.

도 7은 본 발명의 실시 예에 따른 영상 이미지 분석을 위한 처리 절차도.

도 8은 본 발명의 실시 예에 따른 객체 식별결과 저장 처리 절차도.

도 9는 본 발명의 실시 예에 따른 객체 분석 예시도.

도 10은 본 발명의 실시 예에 따른 객체의 서브 분석 셀 처리 예시도.

도 11은 본 발명의 실시 예에 따른 서버의 셀 분할 예시도.

도 12는 본 발명의 실시 예에 따른 객체 식별 및 폴리곤 인식 절차도.

도 13은 본 발명의 실시 예에 따른 장면분할 처리 절차도.

도 14는 본 발명의 실시 예에 따른 객체 자질 부여 절차도.

도 15는 본 발명의 실시 예에 따른 객체 논리연관도.

도 16은 본 발명의 실시 예에 따른 서비스 프로파일 생성 절차도.

도 17은 본 발명의 실시 예에 따른 서비스 검색 처리 및 절차도.

도 18은 본 발명의 실시 예에 따른 바이너리 질의에 대한 처리 예시도.

도 19는 본 발명의 실시 예에 따른 단말 제어 명령 생성 및 처리 예시도.

도 20은 본 발명의 실시 예에 따른 메타데이터, 자질정보, 서비스 관리에 대한 서비스 편집기 예시도.

도 21은 본 발명의 실시 예에 따른 사용자 단말의 동영상 서비스 인터페이스를 나타낸 도면.

도 22는 본 발명의 실시 예에 따른 휴대단말을 이용한 인터렉티브 영상 검색 단말을 나타낸 도면.

도 23은 본 발명의 실시 예에 따른 폴리곤 모델 DB 구축 절차도.

도 24는 본 발명의 실시 예에 따른 객체 식별 절차도.

Claims

영상에 포함된 객체를 식별하는 방법에 있어서,

신규 등록된 영상정보가 있는지를 확인하는 영상 정보 검색 단계;

상기 신규 대상 영상정보에 대하여 동영상 포맷, 화면 정보 등을 분석하는 영상 정보 분석 단계;

상기 분석된 원본 영상 정보로부터 영상 정보를 분석하여 셀 영역으로 추출정보를 색인하는 영상 정보 색인 단계;

상기 원본 영상 정보에 포함된 하나 이상의 객체를 기 구축된 폴리곤 모델에 의해 식별하는 객체 식별 단계; 및

상기 식별된 각 객체에 속성을 부여하는 자질 부여 단계;를 더 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제1항에 있어서, 상기 자질 부여 단계 이후에,

상기 속성이 부여된 각 객체에 대해 서비스 프로파일을 생성하는 서비스 프로파일 생성 단계;를 더 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제2항에 있어서, 상기 서비스 프로파일 생성 단계 이후에,

상기 서비스 프로파일이 생성된 각 객체에 대해 서비스 요청 시 해당 서비스를 검색하여 제공하는 서비스 제공 단계;를 더 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제1항에 있어서, 상기 객체 자질 속성은

객체 고유의 대표적인 속성분류를 포함하는 대표객체자질, 대표객체가 가지는 일반속성자질, 객체와 객체 및 서브 객체 간의 관계 속성 자질, 객체의 행위, 시간, 장소, 부속, 조건 성분 등을 포함하는 성분속성자질, 객체의 특수한 내지는 유일한 속성값을 정의하기 위한 특수자질 중에서 선택된 어느 하나인 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제1항에 있어서, 상기 객체 자질 속성 부여 방법은,

프레임 내 추출된 객체에 대하여 분석 객체정보에 먼저 대표 객체 자질값, 일반속성자질, 성분 및 관계자질을 부여하고 해당 객체에 특수자질이 필요하면 특수자질 순으로 자질을 부여하는 단계;

이미지 분석 정보와 폴리곤의 색인 유사도에 따른 자질 값을 부여하는 단계; 및

동일 프레임 내 모든 검출 객체에 대한 자질 값이 부여되었으면 백그라운드 객체에 대한 자질값을 부여하는 단계;를 더 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제5항에 있어서, 상기 자질값을 부여하는 단계 이후에,

상기 부여된 자질 값이 적절한지 미등록 객체인지를 판단하는 단계;

상기의 객체속성자질을 자질집합 패턴으로 관리하는 단계; 및

자질 속성값을 해당 자질 분류항목에 대하여 세부 항목의 자질 속성 유무를 처리하는 단계;를 더 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제6항에 있어서, 상기 세부 항목 자질 속성 유무는 이진 값으로 자질 속성을 관리하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제6항에 있어서, 상기 자질 기반의 연산방법은,

객체의 자질분류별 세부 자질 항목들의 유무를 판단하는 단계;

객체와 객체 혹은 객체의 부속 서브 객체와의 연관 처리 규칙을 적용하는 단 계;

복수의 객체와 복수의 객체 자질의 연관 규칙 처리 단계; 및

복수의 객체 간의 자질 패턴에 대한 패턴 매칭 연산 규칙에 의한 상황 및 이벤트 식별 단계;를 더 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제8항에 있어서, 상기 자질 기반의 연산을 위한 처리 규칙 데이터베이스는,

복수의 객체들 간의 자질 패턴 추출 조건 설정하고, 자질 간의 관계, 자질이 가지고 있는 속성자질의 연관을 분석하여 상황을 인식하고 다양한 부가서비스를 처리하기 위하여 추출 자질 패턴에 따른 처리 알고리즘 적용하며, 자질 패턴 조건에 따른 알고리즘 처리 생성 규칙을 정의하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제2항에 있어서, 상기 서비스 프로파일 생성 단계는,

상기 색인 과정에서 검출된 객체와 연관 있는 서비스 호출 결과 처리 정보, 동작정보, 특정 컨텍스트를 호출하기 위한 것으로 각각의 조건에 대한 동작정보를 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제1항에 있어서, 상기 폴리곤 모델 데이터베이스를 구축하는 방법은,

상기 폴리곤의 샘플 데이터를 구축하는데 이는 샘플의 중심좌표를 기준으로 외각선 및 인접면의 거리비를 기준으로 샘플링하는 단계;

불필요한 데이터를 삭제하는 단계;

객체의 색상/텍스추어 정보를 포함하여 피부 혹은 털과 같은 색상 및 텍스추어 정보 색인하는 단계; 및

구축된 데이터를 양자화하는 단계;를 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.
제1항에 있어서, 상기 객체 식별 단계는,

불필요한 데이터를 삭제하는 단계;

식별된 객체정보의 외곽선을 추출하는 단계;

객체정보의 중심좌표를 선정한 후, 객체 중심좌표와 인접면의 거리비를 추출하는 단계; 및

폴리곤 DB와 형태소 유사도를 계산하는 단계;를 포함하는 것을 특징으로 하는 영상에 포함된 객체를 식별하는 방법.