KR100772788B1 - 동영상의 움직임 활동 특징 기술 방법 및 장치 - Google Patents

동영상의 움직임 활동 특징 기술 방법 및 장치 Download PDF

Info

Publication number
KR100772788B1
KR100772788B1 KR1020000004881A KR20000004881A KR100772788B1 KR 100772788 B1 KR100772788 B1 KR 100772788B1 KR 1020000004881 A KR1020000004881 A KR 1020000004881A KR 20000004881 A KR20000004881 A KR 20000004881A KR 100772788 B1 KR100772788 B1 KR 100772788B1
Authority
KR
South Korea
Prior art keywords
motion
delete delete
video
histogram
statistical
Prior art date
Application number
KR1020000004881A
Other languages
English (en)
Other versions
KR20000057859A (ko
Inventor
심동규
김해광
박철수
정재원
오대일
문주희
Original Assignee
주식회사 팬택앤큐리텔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 팬택앤큐리텔 filed Critical 주식회사 팬택앤큐리텔
Priority to KR1020000004881A priority Critical patent/KR100772788B1/ko
Publication of KR20000057859A publication Critical patent/KR20000057859A/ko
Application granted granted Critical
Publication of KR100772788B1 publication Critical patent/KR100772788B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection

Abstract

본 발명은 동영상의 움직임 활동 (Motion Activity)을 기술하는 방법 및 장치, 특히, 움직임 활동 특징을 동영상으로부터 추출된 움직임 파라메터들의 크기와 방향의 통계적 특성으로 기술하는 것을 특징으로 동영상의 움직임 활동(Motion Activity) 특징 기술 (Description) 방법 및 장치에 관한 것으로, 본 발명의 방법 및 장치에 의하면 기존의 동영상 움직임 색인기법으로는 표현하기 어려운 동영상 전체, 대표 영상 사이, 시간상 특정 구간에 대한 신호적 특성들과 시공간적 분포 및 변화 정도와 패턴 등에 대한 지각적 특징을 기술할 수 있어, 이러한 움직임 정도가 중요한 특징이 되는 동영상 검색(video retrieval), 원격감시(surveilance), 멀티미디어 데이터베이스, 방송 필터링 (broadcasting filtering) 등의 디지털 비디오 서비스 응용들에 효과적으로 활용될 수 있다.
동영상, 움직임 활동 기술자, 움직임 파라메터, 크기, 방향, 동영상 검색(video retrieval), 원격감시(surveilance), 멀티미디어 데이터베이스, 방송 필터링 (broadcasting filtering)

Description

동영상의 움직임 활동 특징 기술 방법 및 장치{MOTION ACTIVITY DESCRIPTION METHOD AND APPARATUS FOR VIDEO}
도 1은 본 발명의 움직임 활동 특징 기술 방법의 흐름도,
도 2는 본 발명의 방법을 구현하기 위한 움직임 활동 특징 기술 장치의 일실시예의 블록도,
도 3은 도 2의 움직임 활동 특징 기술 장치의 구체화예의 블록도,
도 4a 내지 도 4j는 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치의 블록도,
도 5는 도 4b, 도 4d, 도 4f, 도 4g 및 도 4j에서의 움직임 추정치 발산 처리부의 상세 블록도,
도 6은 도 4c 및 도 4d에서의 움직임 필터의 상세 블록도.
도 7는 도 4a 내지 도 4j에서의 움직임 기술자 생성부의 상세 블록도.
도 8는 도 5에서 BMA(Block Matching Algorithm)를 사용한 영상간 움직임 추정기법을 설명하기 위한 도면.
도 9a 내지 도 9c는 움직임 추정의 발산을 설명하기 위한 도면.
도 10은 도 4b, 도 4d, 도 4f, 도 4g 및 도 4j에서의 움직임 추정치 발산 처 리부에서의 움직임 추정치 발산처리를 설명하기 위한 현재영역과 주변영역의 공간적 상관관계를 보인 도면.
도 11은 도 4a 내지 도 4j에서의 움직임 히스토그램 생성부에서 생성된 움직임 방향 데이터에 대한 움직임 히스토그램을 설명하기 위한 도면.
도 12는 도 4a 내지 도 4j에서의 누적 움직임 히스토그램 생성부에서 누적된 움직임 방향 데이터에 대한 누적 움직임 히스토그램을 설명하기 위한 도면.
도 13은 도 4a 내지 도 4j에서의 누적 움직임 히스토그램 생성부에서 누적된 35장의 영상으로 구성된 비디오에 대한 누적 움직임 히스토그램의 예시도.
도 14은 도 4a 내지 도 4j에서의 누적 움직임 히스토그램 생성부에서 누적된 누적 움직임 히스토그램의 색인(클립화)을 설명하기 위한 예시도.
도 15a 내지 도 15j는 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성방법을 설명하기 위한 흐름도.
도 16은 도 15b, 도 15d, 도 15g, 도 15h 및 도 15j에서의 움직임 추정치 발산처리 단계의 상세 흐름도.
도 17는 도 15c 및 도 15d에서의 시각적 특성을 고려한 움직임 크기 및 방향 필터링과정을 설명하기 위한 흐름도.
도 18a 및 도 18b는 도 15a 내지 도 15j에서의 움직임 기술자 생성단계의 상세 흐름도.
도 19은 본 발명의 실시예에 따른 움직임 기술자를 이용한 비디오 검색 시스템의 예시도.
도 20a는 정지 영상의 구조화를 설명하기 위한 도면.
도 20b는 비디오의 구조화를 설명하기 위한 도면.
도 21은 씬 단위의 비디오 구조화를 표현한 도면이다.
* 도면의 주요 부분에 대한 부호의 설명*
1100: 움직임 벡터 추출 수단
2100-1 ∼ 2100-6: 움직임 벡터의 크기 특성 추출 수단;
3100-1 ∼ 3100-6: 움직임 벡터의 방향 특성 추출 수단;
4100: 대표 방향 벡터 계산 수단 5100: 집합 수단(combiner)
2 : 움직임 추정치 발산 처리부 3 : 움직임 필터
4 : 움직임 히스토그램 생성부 5 : 누적 움직임 히스토그램 생성부
6 : 움직임 기술자 생성부 7 : 움직임 크기 계산부
8 : 움직임 크기 히스토그램 생성부
9 : 누적 움직임크기 히스토그램 생성부
10 : 움직임 방향 계산부 11 : 움직임 방향 히스토그램 생성부
12 : 이전영상 저장부 13 : 움직임 크기 계산부
14 : 누적 움직임방향 히스토그램 생성부
15 : 움직임 크기 추정치 발산 처리부
17 : 움직임 방향 추정치 발산 처리부 22 : 현재영상 저장부
23 : 움직임 벡터값 비교 변환부
26 : 움직임 클립 기술자 생성부
32 : 평균치 계산부 33 : 움직임 방향 계산부
36 : 움직임 기술자 생성기 42 : 절대치 계산부
43 : 움직임 방향 양자화/역양자화부 52 : 움직임 벡터값 변환부
본 발명은 동영상의 움직임 활동 (Motion Activity)을 기술하는 방법 및 장치에 관한 것으로(본 명세서에서는 동영상이라는 용어와 비디오라는 용어를 호환적으로 사용한다), 더욱 상세하게는 움직임 활동 특징을 동영상으로부터 추출된 움직임 파라메터들의 크기와 방향의 통계적 특성으로 기술하는 것을 특징으로 동영상의 움직임 활동 특징 기술 방법 및 장치에 관한 것이다.
현재, 표현 미디어(문자, 도형, 음성, 음향 그리고 더욱 광범위하게 영상 등이 모두 포함된 정보를 표현하는 수단)와 전달 미디어(통신 네트워크, 방송 네트워크, 저장 미디어) 그리고 이들 운용하는 시스템 성능의 지속적인 발전으로, 소용량 단일 미디어로 이루어진 모노미디어(가령 데이터는 데이터로만, 음성은 음성으로만 이루어지는 단일 미디어) 보다 복수의 모노미디어로 구성된 대용량 멀티미디어 데이터의 자유로운 생성, 빠른 검색 그리고 편리한 사용 및 재사용에 대한 욕구가 점점 증가되고 있다. 표현 미디어 전자화에 의하여 자유로운 멀티미디어 데이터의 생성에 대한 욕구가 충족됨에 따라, 방대한 양의 모노미디어나 멀티미디어 데이터가 개인 또는 공용 시스템 상에 산재하게 되었다.
그러나, 멀티미디어 데이터 양이 증가에 비례하여, 데이터를 사용 및 재사용하기 위하여 검색하는데 소요되는 시간과 비용 또한 증가하게 되었다. 따라서, 보다 빠르고 효율적인 검색을 위하여 현재 널리 이용되고 있는 문자기반 검색기술을 포함하고, 복합된 정보 속성을 갖는 멀티미디어 데이터의 효과적인 검색에 적합한 검색 기술에 대한 연구 및 개발이 활발하게 진행 되고 있다.
멀티미디어 데이터의 효과적인 색인 및 검색을 위해서는 각 미디어 데이터의 특징을 표현하는 정보속성 크기의 소량화, 전처리 과정의 단순화 및 실시간화, 특징을 표현하는 정보속성의 유효성 및 다형성 그리고 검색에서의 유연성이 필요하다.
아울러, 검색결과의 객관적 유사도 및 주관적 유사도 또한 검색의 성능을 평가하는 중요한 요인이다. 주관적 유사도의 중요성은 미디어 데이터 특징을 표현하는 정보속성 기술/표현 한계에 기인한 것으로, 객관적 유사도가 크다고 할지라도 사용자가 의도하는 검색결과를 얻을 수 없을 경우 검색에 대한 유효성 및 실용성이 저하되기 때문이다. 따라서, 근래에 들어 미디어 데이터 특징을 표현하는 정보속성 기술에 있어 주관적 유사도를 반영할 수 있는 기법들에 대한 연구가 활발히 진행되고 있다.
이미 널리 이용되고 있는 문자 기반 검색과 멀티미디어 데이터 기반 검색의 주된 차이점은 검색에 사용되는 정보속성 추출의 난해도 및 정보속성 표현의 다형 성을 들 수 있다.
정보속성 추출의 난해도 측면에서 문자 데이터의 경우 문서내의 몇 개의 주요단어와 문장을 색인하여 검색이 가능하지만 멀티미디어의 경우 데이터 자체의 크기가 크고 여러 미디어가 혼합되어 있으므로 이들의 정보속성이 유기적으로 상호 결합된 유효한 새로운 정보속성을 얻기 위해서는 적절한 전처리 과정을 거처야 한다.
전처리 과정의 중요 목표는 검색에 유효한 특징 정보 추출과 그 과정의 실효성에 있다. 부연하면, 설령 유효한 특징 정보를 검출할 수 있는 기법이라 할지라도 그 과정상의 하드웨어(H/W) 및 소프트웨어(S/W) 측면의 비용이 많이 소요되면 대량의 멀티미디어 데이터를 빠른 시간에 처리하고 사용해야 하는 응용분야나 시스템 성능이 좋지 못한 단말 시스템을 사용하는 분야에서 실용화 될 수 없기 때문이다.
정보속성 표현의 다형성 측면의 일례로 비디오 검색의 경우를 살펴보면, 비디오는 영상, 음성, 오디오 등의 여러 가지 미디어들의 정보가 혼합되어 있어 비디오의 특징을 표현할 때, 각각의 모노미디어 데이터의 정보속성 만으로, 혹은 두개이상의 미디어가 혼합된 멀티미디어 데이터의 정보속성에 대해 적절한 전처리를 수행하여 데이터의 특징이 될 수 있는 유효한 정보속성을 추출한 후, 추출된 정보속성을 사용하여 보다 다양한 형태의 데이터 검색이 가능하다. 일례로, 상기한 비디오 검색을 위해서 영상의 정보속성을 사용할 수 있고, 영상과 음성의 정보속성을 유기적으로 상호 결합하여 검색 할 수 있다. 따라서 단일 미디어의 속성을 사용 하는 검색보다 다양한 멀티 미디어의 속성들을 사용하는 검색이 보다 효과적이다.
현재 멀티미디어 데이터 색인 및 검색에서 가장 많이 연구되고 있는 분야는 데이터 획득이 손쉬운 정지 영상 분야이다. 정지영상은 디지털 방식의 전자 스틸 카메라나 영상 데이터 베이스와 같은 저장계, 정지화 전송 장치나 오디오 그래픽 회의, 영상 회의 등의 전송계, 나아가서 걸러 프린터 등의 인쇄계 등에 널리 이용되고 있다. 정지영상 색인 및 검색은 내용기반 영상검색 방법으로서 이들의 주된 관심사항은 영상의 색(Color), 질감(Texture) 그리고 모양(Shape) 정보 등에 대해서 회전, 크기변환, 이동 등의 변화에 일관된 특성을 보이는 특징정보 추출과 색인 그리고 이를 활용한 검색방법이다.
비디오 검색분야는 정지 영상에 비해 데이터의 획득이 쉽지 않고, 대용량의 데이터를 저장하고 처리해야 하는 관계로 그 응용이 제한적이었다. 그러나, 디스크, 테이프 그리고 CD ROM등 저장 미디어와 통신 네트워크등 전달 미디어의 급속한 발전으로 인하여 데이터 획득에 소요되는 비용이 저렴해지고, 필요 장치들이 소형화 되면서 근래에 들어 이 분야에 대한 연구가 활발히 진행되고 있다. 통상 비디오는 연속된 시간상에서 획득된 순서를 갖고 있는 일련의 영상들에 대한 총칭이다. 또한 비디오는 연속된 시간에서 영상 데이터를 획득하기 때문에 영상내의 공간적인 용장성(중복성)과 더불어 이웃하는 영상간의 용장성이 매우 커서 영상간 예측이 어느 정도 가능하다. 이러한 용장성에 기인한 비디오에서의 영상간 특성은 정지영상과는 크게 구별되는 것이다. 비디오 검색기법에서 상기한 영상간 유사성은 특징 정보추출에 있어 중요하게 활용된다.
비디오에서 영상간의 용장성은 영상간의 움직임 정도를 이용하여 측정될 수 있다. 일례로, 영상간의 용장성이 클 경우, 두 영상간에 중복되는 영역의 크기가 크다는 것을 나타내고, 이는 영상간 움직임이 작다라고 해석될 수 있다. 반대로, 영상간의 용장성이 작을 경우, 두 영상간의 중복되는 영역이 작고 영상간의 움직임은 크다고 할 수 있다. 현재 표준화가 완료된 비디오 압축 기법들은 데이터 압축효율을 향상시키기 위하여 상기한 영상간의 용장성을 최소화시킬 수 있는 영상간 움직임 추정(BMA-Block Matching Algorithm)을 이용한 압축 기법들을 채택하고 있다 (H.261, H.263, MPEG-1, MPEG-2, MPEG-4).
기존의 비디오 검색 기법들은 영상간의 색상(Color), 질감(Texture), 모양정보(Shape) 그리고 움직임(Motion)에서의 변화에 바탕을 두어 임의의 크기의 시간적 구간(이하, 클립이라함)들로 구조화(Video Structuring)하여, 구간내의 영상들의 의미적/신호적 특성을 대표할 수 있는 몇 개의 대표영상(Key-Frame)을 선별하고, 선별된 대표 영상들의 정보 속성에 대하여 특징정보를 추출하여 색인하거나 검색에 사용하였다.
비디오 구조화에 있어 일반적인 구조는 시간적으로 끊이지 않는 정지화상의 연속인 '쇼트(shot)'라는 단위를 기본 구조 단위로, '쇼트'의 시간적인 연속으로서 내용상 시공간적인 연속성을 갖는 단위인 '씬(Scene)' 및 '씬'들로 구성된 '기승전결' 수준의 이야기 전개의 단위인 '스토리(story)' 등의 계층적 구조를 갖을 수 있다.
이를 도시하면 도 20b와 같다. 비디오 구조화는 신호적 특성을 기반으로 하는 Event Tree 형태의 구조화가 가능하다. 비디오의 구조화에서 상호 연관정보(link)를 바탕으로 신호적 및 의미론적 구조 정보가 모두 존재하기도 한다.
즉, 도 20b의 왼쪽에 도시된 세그먼트 트리(Segment Tree)와 오른쪽에 도시된 이벤트 트리(Event Tree)는 화살표 방향으로 서로 링크(link)되어 있다. 예를 들면, 이벤트 트리(Event Tree)에 구조화된 클린턴 케이스(Clinton Case)를 검색하면, 세스먼트 트리(Segment Tree) 상에 도시된 세그먼트1(Segment 1)에서의 서브 세그먼트 1(Sub-segment1)의 쇼트 2의 비디오와 세그먼트 3(segment 3)의 쇼트 3(shot 3)의 비디오가 링크된다.
하나의 정지화상의 경우에도 구조화가 가능하다. 한 사람이 숲속에 있는 사진의 경우, 이는 사람과 숲이라는 객체로 사람은 다시 얼굴과 몸체, 얼굴은 다시 눈, 코, 귀 등의 객체로 구성되는 구조를 갖는 것이다. 이를 도시하면 도 20a와 같다. 도 20a는 정지화상의 구조화를 설명하는 도면으로서, 영상내의 신호특성을 기반으로 하는 Region Tree 형태의 신호적 구조화와 영상내의 지각적 의미를 갖는 물체에 기반으로 한 Object Tree 형태의 의미론적 구조화가 가능하다. 일반적으로, 신호적 구조화는 반자동 및 자동적 정지화 구조화 기법을 사용하여 수행되며, 의미론적 구조화는 개념적인 구조화 방법이기 때문에 사용자에 의한 수동적 구조화 기법을 사용할 수 있다.
도 20a에 도시된 정지화상의 구조화도 도 20b에 도시된 비디오의 구조화와 마찬가지로 왼쪽에 도시된 영역 트리(Region Tree)와 오른쪽에 도시된 객체 트리(Object Tree)는 서로 화살표 방향으로 링크되어 신호적 및 의미론적 구조 정보가 모두 존재하기도 한다.
음향신호의 경우, 주위의 배경 소음, 대화하는 사람의 소리, 배경음악 등으로 구성되는 구조를 갖는다.
이러한 데이터 구조화는 비디오를 구성하는 영상의 수가 많을수록 보다 정확하고 다양한 특징에 의한 색인과 보다 빠른 검색을 지원할 수 있다는 장점이 있다.
그리고, 도 21은 '씬' 단위의 비디오 구조화를 표현하는 도면이다.
이러한 대표 영상에 의한 색인 및 검색방법은 대표 영상의 특징 정보만으로 표현될 수 없는 비디오 전체, 대표 영상 사이, 시간상 특정구간에 대한 신호적 특성들, 시공간적인 분포 그리고 변화에 대한 주된 패턴 등에 대한 특징을 기술하기 않기 때문에, 이러한 특성이 요구되는 응용에서는 적합하지 않은 단점이 있다.
한편, 동영상 기술방법에 대한 종래의 기술로는 문자, 대표정지영상 (key frame), 대표정지영상의 특징 등을 사용하여 왔으나, 이는 동영상의 고유한 특징인 움직임 활동 정도를 효과적으로 기술하지 못하는 단점이 있었다. 동영상에서의 움직임 활동 특징을 기술하는 종래의 기술로는 카메라 움직임이나 영상 객체의 궤적 등의 특징을 사용하는 방법이 있으나, 이는 동영상 화면 전체에서 나타나는 전체적인 움직임 활동의 특징을 기술하지 못하는 단점이 있다. 또한 기존에 영상에서의 움직임의 크기 자체를 이용하여 움직임의 크기에 대한 성질을 나타낼 수 있었으나 영상의 움직임의 변화량의 개념인 움직임 활동성을 나타내는 특징이 제안되어 있지 않았다.
따라서, 본 발명의 하나의 목적은 동영상에서 움직임 파라메터들의 크기와 방향의 통계적 특성으로 동영상의 움직임 활동을 효율적이며 효과적으로 기술하고 활용할 수 있는 동영상의 움직임 활동 특징 기술 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 영상내 물체들의 움직임의 크기의 대소 뿐만 아니라 움직임의 변화 정도에 따라 움직임 활동을 효과적으로 기술할 수 있는 동영상의 움직임 활동 특징 기술 방법 및 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 동영상내의 내용에 대한 움직임 색인 및 검색에 있어서 사용자의 지각적 특성을 반영하고, 다양한 단계의 색인 및 검색을 지원할 수 있도록 하는 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치 및 그 방법을 제공하는 것이다.
이와 같은 본 발명의 목적을 달성하기 위한 제 1 수단은 동영상으로부터 움직임 파라메터를 추출하는 단계; 전단계에서 추출한 움직임 파라메터의 크기의 통계적 특성을 추출하는 단계; 및 상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 단계를 포함하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법이다.
이와 같은 본 발명의 목적을 달성하기 위한 제 2 수단은 동영상으로부터 움직임 파라메터를 추출하는 움직임 파라메터 추출 수단; 움직임 파라메터 추출 수단 으로부터 입력된 움직임 파라메터의 크기의 통계적 특성을 추출하는 수단; 상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 수단; 및 추출된 통계적 특성들을 모아 움직임 활동 기술자를 정의하는 집합 수단(combiner)을 포함하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 장치이다.
이와 같은 본 발명의 목적을 달성하기 위한 제 3 수단은 입력되는 움직임 크기 데이터 및 방향 데이터에 대해서 움직임 히스토그램을 각각 생성하는 움직임 히스토그램 생성부와, 상기 움직임 히스토그램 생성부에서 생성된 움직임 히스토그램을 정해진 순서에 따라 누적 움직임 히스토그램을 생성하는 누적 움직임 히스토그램 생성부와, 상기 누적 움직임 히스토그램 생성부에서 생성된 누적 움직임 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부를 포함하여 구성된다.
이와 같은 본 발명의 목적을 달성하기 위한 제 4 수단은 입력되는 움직임크기 및 방향 데이터에 대해서 움직임 히스토그램을 생성하는 움직임 히스토그램 생성단계와, 상기 움직임 히스토그램 생성단계에서 생성된 움직임 히스토그램을 정해진 순서에 따라 움직임 히스토그램을 생성하는 누적 움직임 히스토그램 생성단계와, 상기 누적 움직임 히스토그램 생성단계에서 생성된 누적 움직임 히스토그램에 대해서 시간에 대한 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성단계를 포함하여 이루어진다.
이와 같은 본 발명의 목적을 달성하기 위한 제 5 수단은 입력되는 움직임 크기 정보의 크기(정도)를 계산하는 움직임 크기 계산수단과, 상기 움직임 크기 계산수단에서 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성수단과, 상기 움직임 크기 히스토그램 생성수단에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성수단과, 상기 누적 움직임 크기 히스토그램 생성수단에서 생성된 누적 움직임 크기 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성수단을 포함하여 구성된다.
이와 같은 본 발명의 목적을 달성하기 위한 제 6 수단은 입력되는 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산수단과; 상기 움직임 방향 계산수단에서 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성수단과; 상기 움직임 방향 히스토그램 생성수단에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성수단과; 상기 누적 움직임 방향 히스토그램 생성수단에서 생성된 누적 움직임 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성 수단을 포함하여 구성된다.
이와 같은 본 발명의 목적을 달성하기 위한 제 7 수단은 입력되는 움직임 크기 정보의 크기(정도)를 계산하는 움직임 크기 계산수단과; 상기 움직임 크기 계산 수단에서 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성수단과; 상기 움직임 크기 히스토그램 생성수단에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성수단과; 입력되는 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산수단과; 상기 움직임 방향 계산수단에서 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성수단과; 상기 움직임 방향 히스토그램 생성수단에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성수단과; 상기 누적 움직임 크기 히스토그램 생성수단 및 상기 누적 움직임 방향 히스토그램 생성수단에서 생성된 누적 움직임 크기 및 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성수단을 포함하여 구성된다.
이와 같은 본 발명의 목적을 달성하기 위한 제 8 수단은 입력되는 움직임 크기 정보의 크기(정도)를 계산하는 움직임 크기 계산단계와; 상기 움직임 크기 계산단계에서 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성단계와; 상기 움직임 크기 히스토그램 생성단계에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성단계와; 상기 누적 움직임 크기 히스토그램 생성단계에서 생성된 누적 움직임 크기 히스토그램의 변화량에 따라 비디 오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성단계를 포함하여 구성된다.
이와 같은 본 발명의 목적을 달성하기 위한 제 9 수단은 입력되는 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산단계와; 상기 움직임 방향 계산단계에서 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성단계와; 상기 움직임 방향 히스토그램 생성단계에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성단계와; 상기 누적 움직임 방향 히스토그램 생성단계에서 생성된 누적 움직임 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성 단계를 포함하여 구성된다.
이와 같은 본 발명의 목적을 달성하기 위한 제 10 수단은 입력되는 움직임 크기 정보의 크기(정도)를 계산하는 움직임 크기 계산 단계와; 상기 움직임 크기 계산단계에서 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성단계와; 상기 움직임 크기 히스토그램 생성단계에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성단계와; 입력되는 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산단계와; 상기 움직임 방향 계산단계에서 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성단계와; 상기 움직임 방향 히스토그램 생성단계에서 생성된 움 직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성단계와; 상기 누적 움직임 크기 히스토그램 생성단계 및 상기 누적 움직임 방향 히스토그램 생성단계에서 생성된 누적 움직임 크기 및 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성단계를 포함하여 구성된다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.
본 발명에서 동영상에 대한 움직임 활동 특징은 동영상에서 나타나는 움직임 파라메터의 통계적 특성에 의해 기술된다. 즉, 본 발명은 공간축에서 N차의 통계값을 추출하고, 이 값들의 시간축으로 M차의 통계값을 추출하여 하나의 동영상 단위에 대한 특징값으로서 기술한다. 특히, 본 발명의 하나의 실시예는 동영상의 움직임 파라메터의 통계적 특징으로 움직임 파라메터의 크기와 방향을 추출하고 이것의 1차 통계값과 2차 통계값을 움직임 활동 기술자로 추출하는 것을 특징으로 한다. 본 발명에서 1차 통계값은 평균값을 의미하고 2차 통계값은 임의의 차수의 모멘트로, 바람직하게는 표준편차값 또는 분산값을 의미한다. 이하의 설명에서는 설명의 편의를 위해 2차 통계값으로 표준편차값을 예로 들어 설명할 것이다. 동영상은 각각의 영상으로 구성되고 각 영상에서 움직임 파라메터의 크기와 방향의 1차 통계값과 2차 통계값을 특징으로 할 수 있고, 한 개 이상의 영상에서 추출된 이러한 통계값들의 1차 통계값과 2차 통계값을 특징값으로 사용할 수 있다.
동영상은 일반적으로 기존의 아날로그 형태로 저장된 영상과 최근에 제안된 디지털에 바탕을 둔 영상으로 나눌 수 있다. 디지털 영상 압축 기술에 바탕을 둔 MPEG이나 H.263 등과 같은 미디어의 경우 움직임 파라메터를 비트열에 저장하고 있어 이를 이용하여 움직임 활동성을 쉽게 기술할 수 있다. 또한 아날로그 영상에서도 어떠한 움직임 추정 방법에 의하여 움직임 파라메터를 추정하고 이 것을 이용하여 움직임 활동성을 기술하고 이 기술값에 따라 동영상을 검색할 수 있다. 특히 MPEG이나 H.263과 같은 동영상 압축부호화 방식에서는 영상을 여러 블록이나 객체로 나누어 부호화한다. 하나의 블록을 부호화 할 때, 영상정보의 시간적 중복성을 줄이기 위하여 시간적으로 이웃한 영상에서 부호화할 블록과 가장 유사한 참조 블록을 찾아내어 참조할 블록의 화면상의 상대적 위치를 움직임 파라메터로서 이를 부호화하고, 부호화할 블록과 참조 블록의 차이값을 부호화함으로써 압축효율을 높인다. 한 화면의 k번째 블록의 움직임 파라메터는, 예를 들어, 2차원의 MV k =(MV xk , MV yk )로 표현할 수 있다. 여기서 MV xk 는 수평방향의 움직임 성분이고 MV yk 는 수직방향의 움직임 성분이다. 움직임 파라메터는 아래의 수학식 1로 표현되는, 움직임 파라메터의 크기 성분 Ik와 하기 수학식 2로 표현되는 움직임 파라메터의 방향 성분 φk에 의해 표현될 수 있다.
Figure 112000001920242-pat00001
Figure 112000001920242-pat00002
본 발명에서는 움직임 활동 특징을 움직임 파라메터의 크기와 방향에 대한 통계적 특성으로 기술한다. 동영상의 각 화면이 M개의 블록으로 또는 객체로 구성될 때, 각 화면에서 움직임 파라메터의 크기와 방향에 대한 1차 통계값 및 2차 통계값을 추출한다. 한 화면에서의 움직임 파라메터 크기의 1차 통계값(Iav)은 하기 수학식 3에 의해 구해지고, 한 화면에서의 움직임 파라메터 크기의 2차 통계값(예컨대, Idev)은 하기 수학식 4에 따라 구해지며, 움직임 파라메터 방향의 1차 통계값(φav)는 하기 수학식 5에 의해 구해지며, 한 화면에서의 움직임 파라메터 방향의 2차 통계값(φdev)은 하기 수학식 6에 의해 구해질 수 있다.
Figure 112000001920242-pat00003
Figure 112000001920242-pat00004
Figure 112000001920242-pat00005
Figure 112000001920242-pat00006
여러 장의 연속된 화면으로 구성된 하나의 동영상에 대한 움직임 활동 기술자는 동영상을 구성하는 각 화면들로부터 상기 수학식 3 내지 수학식 6에 의해 구한 하나의 화면에서의 움직임 파라메터의 크기와 방향의 1차 통계값 및 2차 통계값으로부터 하기 수학식 7 내지 수학식 15에 의해 구해진다. 이와 같이 본 발명에서 동영상의 움직임 활동 정도를 색인함에 있어서는 수학식 7 내지 수학식 15로 표현되는 움직임 파라메터 통계값의 일부 혹은 전부가 움직임 활동 기술자로 이용될 수 있다.
동영상에서 움직임 파라메터를 추출한 화면의 수가 T라고 하고, 그 중 i 번째 화면의 움직임 파라메터들의 평균을 Iav,I, 움직임 파라메터 2차 통계값을 Idev,i 움직임 파라메터 방향의 평균을 φav,i , 움직임 파라메터 방향의 2차 통계값을 φdev,i 라고 한다.
하기 수학식 7은 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 크기 의 평균값들의 평균으로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용된다.
Figure 112000001920242-pat00007
상기 수학식 7에 의해 구한 특징값은 시간과 공간 축에서의 움직임 파라메터 크기의 평균값으로 동영상 전체의 평균 움직임을 나타내는 통계적값으로 동영상 검색 및 표현시 대표 특징으로 사용될 수 있다.
하기 수학식 8은 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 크기의 평균값들의 표준편차로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용한다.
Figure 112000001920242-pat00008
상기 수학식 8에 의해 구한 특징값은 움직임 파라메터 크기의 시간적 활동성으로 시간적으로 변화하는 움직임 활동성을 표현하는 통계적 특징값으로 동영상 검색에 유용하기 사용할 수 있다. 또한 이 값은 시간에 따른 움직임 파라메터의 크기의 표준편차로 수학식 7의 1차 통계값의 신뢰도를 표현할 수 있다. 예를 들어 수학식 8의 표준편차값이 큰 것은 수학식 7의 1차 통계값을 중심으로 움직임 파라 메터의 크기의 분포가 크다는 것을 의미한다. 즉 이 값이 큰 것은 1차 통계값의 신뢰도가 적다는 것을 의미한다. 이러한 특성을 이용하여 이 값에 의하여 나누어 줌으로써 가중치를 줄 수 있다.
하기 수학식 9는 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 크기의 표준편차값들의 평균으로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용된다.
Figure 112000001920242-pat00009
상기 수학식 9에 의해 구한 특징값은 공간적인 움직임의 활동성을 한 개 이상의 영상에서 평균한 값으로, 공간상의 움직임 활동 정도를 표현하는 통계적 특징값이다. 이러한 특징값으로 공간적인 움직임 활동 정도에 따라 동영상을 검색할 수 있다.
하기 수학식 10은 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 크기의 표준편차값들의 표준편차로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용한다.
Figure 112000001920242-pat00010
상기 수학식 10에 의해 구한 특징값은 공간적인 움직임 활동 정도와 시간적 움직임 활동 정도를 함께 나타내는 특징값이다.
하기 수학식 11은 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 방향의 평균값들의 평균으로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용한다.
Figure 112000001920242-pat00011
상기 수학식 11에 의해 구해지는 특징값은 움직임 파라메터의 방향의 공간 및 시간적 1차 통계값으로 한 개 이상의 동영상의 움직임 방향을 나타내는 특징값이다.
하기 수학식 12는 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 방향의 평균값들의 표준편차로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용한다.
Figure 112000001920242-pat00012
상기 수학식 12에 의해 구한 특징값은 움직임 파라메터값의 방향의 시간적 변화정도, 즉 활동정도를 나타내는 특징값으로 방향의 변화량에 따라 동영상을 검 색할 수 있다.
하기 수학식 13은 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 방향의 표준편차값들의 평균으로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용한다.
Figure 112000001920242-pat00013
상기 수학식 13에 의해 구한 특징값은 움직임 파라메터의 방향의 공간적 2차 통계값의 평균으로 움직임 파라메터의 공간적 활동도를 나태낸다. 이러한 특징값을 이용하여 공간적 방향 변화율에 따라 동영상을 검색할 수 있다.
하기 수학식 14는 T개로 구성된 동영상 각각에서 구한 움직임 파라메터 방향의 표준편차값들의 표준편차로 T개의 영상으로 구성된 동영상을 대표하는 통계적 기술자로 사용한다.
Figure 112000001920242-pat00014
상기 수학식 14에 의해 구한 특징값은 움직임 방향의 공간적, 시간적 활동 정도를 나타내는 특징값이다.
이상에서 설명한 움직임 파라메터의 크기 및 방향에 대한 통계적 특징값 계산은 반드시 상술한 수학식 3 내지 수학식 14에 의해서만 구해지는 것이 아니고 본 발명이 속하는 기술분야의 당업자들에게 자명한 기타의 방법에 의해 산출될 수 있다.
본 발명에서 움직임 활동 기술자를 구성하는 또 다른 요소로 동영상 화면전체에서 M개의 방향으로 양자화된 움직임 파라메터 방향의 빈도수가 포함될 수 있다. 이 값을 서열화하여 가장 빈도수가 높은 방향 벡터로부터 순차적으로 N개를 추출하여 이것을 대표 방향 벡터라고 한다. 여기서 빈도수가 가장 높은 순으로 양자화된 움직임 파라메터는 φ1, φ 2,...φ N 으로 표현될 수 있다.
φmax = 1, φ 2, ... φN>, N ≤M
이러한 특징을 사용함으로써 사용자가 원하는 방향의 움직임을 가진 동영상을 검색할 수 있는 표현자를 제공한다. 각각의 동영상, 혹은 몇 장의 화면으로 구성된 부분 동영상은 앞서 구한 움직임 활동 특징을 나타내는 움직임 파라메터 크기 및 방향의 통계적 요소들로 구성된 움직임 활동 기술자로 대표될 수 있다. 이러한 움직임 활동 기술자는 동영상들을 움직임 활동에 따라 비교하는데 사용될 수 있어, 동영상 검색 등의 다양한 응용에 사용할 수 있다.
도 1은 본 발명의 움직임 활동 특징 기술방법의 흐름도이다. 본 발명의 하나의 양상에 의해 동영상의 움직임 활동 특징을 기술하는 경우에는 먼저 주어진 동영상으로부터 움직임 파라메터를 추출하고(S1100) 동영상의 한 화면이 M개의 블록 혹은 객체로 구성될 때 각 화면에서, 움직임 파라메터의 크기의 통계적 특성을 추출하고(S2100), 움직임 파라메터의 방향의 통계적 특성을 추출한다(S3100). 본 발명에서 움직임 파라메터를 추출하는 방법은 대표적으로는 움직임 벡터를 구하는 것이나, 반드시 이러한 방법으로 국한되는 것은 아니다.
본 발명의 방법의 다른 실시예에서는 이상의 방법에 의해 추출한 움직임 활동 기술자로 동영상을 계층화하여 동영상의 움직임 활동 특징을 계층적으로 기술할 수 있다.
본 발명에서 상기 움직임 파라메터로는 디지털 동영상 부호화에 의하여 부호화된 움직임 파라메터를 사용하는 것이 바람직하다. 또한, 움직임 파라메터의 크기 및 방향의 통계적 특징을 추출함에 있어서는 각 영상의 공간 통계 특징값을 구하고나서 시간 통계 특징값을 구하거나, 여러 영상의 시간 통계 특징값을 구하고나서 공간 통계 특징값을 구할 수 있다.
본 발명의 움직임 파라메터의 크기의 통계적 특성 추출 단계(S2100)에서는 각각의 영상에 대하여 움직임 파라메터의 크기의 1차 통계값을 구한 후, 이 값들의 1차 통계값을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하거나(예컨대, Iav, av), 각각의 영상에 대하여 움직임 파라메터의 크기의 1차 통계값을 구한 후, 이 값들의 2차 통계값(예컨대, Idev,av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용할 수 있다. 이 때, 동영상 전체를 대표하는 통계적 특징값으로 추출된 2차 통계값(Idev,av)은 1차 통계값(Iav, av)의 신뢰도로 사용될 수 있다.
한편, 움직임 파라메터의 크기의 통계적 특성 추출 단계(S2100)에서는 각각의 영상에 대하여 움직임 파라메터의 크기의 2차 통계값을 구한 후, 이 값들의 1차 통계값(예컨대, Iav,dev)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하거나, 각각의 영상에 대하여 움직임 파라메터의 크기의 2차 통계값을 구한 후, 이 값들의 2차 통계값(예컨대, Idev, dev)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용할 수 있다. 이 경우에도 이 때, 동영상 전체를 대표하는 통계적 특징값으로 추출된 2차 통계값(Idev, dev)은 1차 통계값(Iav, dev)의 신뢰도로 사용될 수 있다.
본 발명에서 움직임 파라메터의 방향의 통계적 특성 추출 단계(S3100)에서는 각각의 영상에 대하여 움직임 파라메터의 방향의 1차 통계값을 구한 후, 이 값들의 1차 통계값(예컨대, φav, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하거나, 각각의 영상에 대하여 움직임 파라메터의 방향의 1차 통계값을 구한 후, 이 값들의 2차 통계값(예컨대, φdev, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용할 수 있다. 이 때, 동영상 전체를 대표하는 통계적 특징값으로 추출된 2차 통계값(φdev, av)은 1차 통계값(φav, av)의 신뢰도로 사용될 수 있다.
본 발명에서 움직임 파라메터의 방향의 통계적 특성 추출 단계(S3100)에서는각각의 영상에 대하여 움직임 파라메터의 방향의 2차 통계값을 구한 후, 이 값들의 1차 통계값(예컨대, φav, dev)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하거나, 각각의 영상에 대하여 움직임 파라메터의 방향의 2차 통계값을 구한 후, 이 값들의 2차 통계값(예컨대, φdev, dev)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용할 수 있다. 이 때, 동영상 전체를 대표하는 통계적 특징값으로 추출된 2차 통계값(φdev, dev)은 1차 통계값(φav, dev)의 신뢰도로 사용될 수 있다.
또한, 본 발명의 방법에서는 동영상에서의 움직임 파라메터의 빈도수를 동영상의 전체적인 평균 방향으로 사용할 수 있다.
이러한 본 발명의 움직임 활동 특징 기술 방법의 구체화예를 설명하면, 동영상 입력시, 움직임 파라메터를 추출하고, 각 화면에 대한 움직임 파라메터 크기 및 방향 성분의 1차적 통계값 및 2차 통계값[예컨대, Iav (수학식 3), Idev (수학식 4), φav (수학식 5), φdev (수학식 6)]를 계산한 후, 움직임 활동 기술자 요소 Iav,av (수학식 7), Iav,dev (수학식 8), Idev,av(수학식 9), Idev,dev(수학식 10), φav,av(수학식 11), φav,dev(수학식 12), φdev,av(수학식 13), φdev,dev (수학식 14), φmax (수학식 15)를 계산하고, 이들을 동영상 위치와 동영상 시간적인 길이 정보와 함께 움직임 활동 기술자로서 기록한다. 상기 움직임 활동 기술자들은 응용분야 및 움직임 표현의 정밀도를 고려하여 선택적으로 사용될 수 있다.
도 2는 본 발명의 움직임 활동 특징 기술장치의 일실시예의 블록도이다. 본 발명의 움직임 활동 특징 기술장치는 동영상으로부터 움직임 파라메터를 추출하는 움직임 파라메터 추출 수단(1100); 움직임 파라메터 추출 수단으로부터 입력된 움직임 파라메터의 크기의 통계적 특성을 추출하는 수단(2100); 상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 수단(3100); 및 추출된 통계적 특성들을 모아 움직임 활동 기술자를 정의하는 집합 수단(combiner)(4100)을 포함한다.
도 3은 도 2의 움직임 활동 특징 기술장치의 구체화예의 상세 블록도이다. 움직임 파라메터 추출 수단(1100)이 입력된 동영상으로부터 추출한 움직임 파라메터는 장치 2100-1, 2100-2, 3100-1, 및 3100-2로 입력된다. 장치 2100-1은 움직임 파라메터 추출 수단(1100)으로부터 입력된 움직임 파라메터 값으로부터 Iav (수학식 3)를 구하여 장치 2100-2, 장치 2100-3, 및 장치 2100-5로 출력하고, 장치 3100-1는 φav (수학식 5)를 계산하여 장치 3100-2, 장치 3100-3, 및 장치 3100-5으로 출력한다. 장치 2100-2는 움직임 파라메터 추출 수단(1100)으로부터 입력된 움직임 파라메터 값과 장치 2100-1로부터 입력된 Iav (수학식 3)로부터 Idev (수학식 4)를 계산하여 장치 2100-4 및 장치 2100-6로 출력한다. 장치 3100-2는 장치 3100-1로부터 입력된 φav (수학식 5)와 움직임 파라메터 추출 수단(1100)으로부터 입력된 움직임 파라메터로부터 φdev (수학식 6)를 계산하여 장치 3100-4 및 장치 3100-6로 출력한다. 장치 2100-3은 장치 2100-1로부터 입력된 Iav (수학식 3)로부터 Iav,av (수학식 7)를 계산하여 장치 2100-5와 집합 수단(4100)으로 출력한다. 장치 3100-3은 장치 3100-1로부터 입력된 φav (수학식 5)로부터 φav,av(수학식 11)를 계산하여 장치 3100-5와 집합 수단(4100)으로 출력한다. 장치 2100-4는 장치 2100-2으로부터 입력된 Idev (수학식 4)로부터 Iav,dev (수학식 8) 를 계산하여 장치 2100-6과 집합 수단(4100)으로 출력한다. 장치 3100-4은 장치 3100-2로부터 입력된 φdev (수학식 6)로부터 φav,dev(수학식 12)를 계산하여 장치 3100-6와 집합 수단(4100)으로 출력한다. 장치 2100-5는 장치 2100-1로부터 Iav (수학식 3)를 장치 2100-3으로부터 Iav,av (수학식 7)을 입력받아 Idev,av(수학식 9)을 계산하고 집합 수단(4100)으로 출력한다. 장치 2100-6은 장치 2100-2로부터 Idev (수학식 4)를 장치 2100-4으로부터 Iav,dev (수학식 8)을 입력받아 Idev,av(수학식 9)을 계산하고 집합 수단(4100)으로 Idev,dev(수학식 10)을 출력한다. 장치 3100-5는 장치 3100-1로부터 φav (수학식 5)를 장치 3100-3으로부터 φav,av(수학식 11)을 입력받아 φdev,av(수학식 13)을 계산하고 집합 수단(4100)으로 출력한다. 장치 3100-6은 장치 3100-2로부터 φdev (수학식 6)를 장치 3100-4으로부터 φav,dev (수학식 12)을 입력받아 φdev,dev 수학식 14를 계산하여 집합 수단(4100)으로 출력한다. 대표방향벡터 추출 수단(5100)은 움직임 파라메터 추출 수단(1100)로부터 움직임 파라메터를 입력받아 대표방향벡터 (φmax, 수학식 15)를 계산하여 집합 수단(4100)으로 출력한다. 집합 수단(4100)은 움직임 벡터의 크기 특성 추출 수단(2100) 및 움직임 벡터의 방향 특성 추출 수단(3100)로부터의 출력을 동영상 데이터의 위치와 시간적 길이 정보와 집합시켜 동영상 움직임 활동 기술자를 구성한다.
도 4a 내지 도 4j는 본 발명의 다른 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치의 블록도를 도시한 것이다. 이하에서 설명하는 바와 같이 본 발명에서 움직임 활동 특징 기술자는 누적 움직임 히스토그램을 이용해서 구할 수 있다.
도 4a에 도시된 바와 같이, 본 발명의 다른 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 입력되는 움직임 크기 정보 및 방향 정보에 대해서 움직임 히스토그램을 각각 생성하는 움직임 히스토그램 생성부(4)와, 상기 움직임 히스토그램 생성부(4)에서 생성된 움직임 히스토그램을 정해진 순서에 따라 누적 움직임 히스토그램을 생성하는 누적 움직임 히스토그램 생성부(5)와, 상기 누적 움직임 히스토그램 생성부(5)에서 생성된 누적 움직임 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4b에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 외부 프레임 선택 모드에 의해 움직임 크기 및 방향의 추정치의 발산을 처리하는 움직 추정치 발산 처리부(2)와, 상기 움직임 추정치 발산 처리부(2)에서 발산 처리된 움직임 크기 정보 및 방향 정보에 대해서 움직임 히스토그램을 각각 생성하는 움직임 히스토그램 생성부(4)와, 상기 움직임 히스토그램 생성부(4)에서 생성된 움직임 히스토그램을 정해진 순서에 따라 누적 움직임 히스토그램을 생성하는 누적 움직임 히스토그램 생성부(5)와, 상기 누적 움직임 히스토그램 생성부(5)에서 생성된 누적 움직임 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4c에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 입력되는 움직임 크기 정보 및 방향 정보에 대한 시각적 필터링을 수행하는 움직임 필터(3)와, 상기 움직임 필터(3)에서 필터링된 움직임 크기 정보 및 방향 정보에 대해서 움직임 히스토그램을 각각 생성하는 움직임 히스토그램 생성부(4)와, 상기 움직임 히스토그램 생성부(4)에서 생성된 움직임 히스토그램을 정해진 순서에 따라 누적 움직임 히스토그램을 생성하는 누적 움직임 히스토그램 생성부(5)와, 상기 누적 움직임 히스토그램 생성부(5)에서 생성된 누적 움직임 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4d에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 외부 프레임 선택 모드에 의해 움직임 크기정보 및 방향정보의 추정치의 발산을 처리하는 움직 추정치 발산 처리부(2)와, 상기 움직임 추정치 발산 처리부(2)에서 발산 처리된 움직임 크기정보 및 방향 정보에 대해서 시각적 필터링을 수행하는 움직임 필터(3)와, 상기 움직임 필터(3)에서 필터링된 움직임 크기 정보 및 방향 정보에 대한 움직임 히스토그램을 각각 생성하는 움직임 히스토그램 생성부(4)와, 상기 움직임 히스토그램 생성부(4)에서 생성된 움직임 히스토그램을 정해진 순서에 따라 누적 움직임 히스토그램을 생성하는 누적 움직임 히스토그램 생성부(5)와, 상기 누적 움직임 히스토그램 생성부(5)에서 생성된 누적 움직임 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4e에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 입력되는 움직임 크기 정보의 크기(정도)를 계산하는 움직임 크기 계산부(7)와, 상기 움직임 크기 계산부(7)에 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성부(8)와, 상기 움직임 크기 히스토그램 생성부(8)에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성부(9)와, 상기 누적 움직임 크기 히스토그램 생성부(9)에 서 생성된 누적 움직임 크기 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4f에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 입력되는 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산부(10)와, 상기 움직임 방향 계산부(10)에 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성부(11)와, 상기 움직임 방향 히스토그램 생성부(11)에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성부(14)와, 상기 누적 움직임 방향 히스토그램 생성부(14)에서 생성된 누적 움직임 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4g에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 외부 프레임 선택 모드에 의해 움직임 크기정보의 추정치의 발산을 처리하는 움직임 크기 추정치 발산 처리부(15)와, 상기 움직임 크기 추정치 발산 처리부(15)에서 발산 처리된 움직임 크기정보의 크기(정도)를 계산하는 움직임 크기 계산부(7)와, 상기 움직임 크기 계산부(7)에 계산된 움직 임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성부(8)와, 상기 움직임 크기 히스토그램 생성부(8)에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성부(9)와, 상기 누적 움직임 크기 히스토그램 생성부(9)에서 생성된 누적 움직임 크기 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4h에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 외부 프레임 선택 모드에 의해 움직임 방향 정보의 추정치의 발산을 처리하는 움직임 방향 추정치 발산 처리부(17)와, 상기 움직임 방향 추정치 발산 처리부(17)에서 발산 처리된 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산부(10)와, 상기 움직임 방향 계산부(10)에 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성부(11)와, 상기 움직임 방향 히스토그램 생성부(11)에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성부(14)와, 상기 누적 움직임 방향 히스토그램 생성부(14)에서 생성된 누적 움직임 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4i에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치는 입력되는 움직임 크기 정보의 크기(정도)를 계산하는 움직임 크기 계산부(7)와, 상기 움직임 크기 계산부(7)에 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성부(8)와, 상기 움직임 크기 히스토그램 생성부(8)에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성부(9)와, 입력되는 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산부(10)와, 상기 움직임 방향 계산부(10)에 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성부(11)와, 상기 움직임 방향 히스토그램 생성부(11)에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성부(14)와, 상기 누적 움직임 크기 히스토그램 생성부(9) 및 상기 누적 움직임 방향 히스토그램 생성부(14)에서 생성된 누적 움직임 크기 및 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 4j에 도시된 바와 같이, 본 발명의 실시예에 따른 누적 움직임히스토그램을 이용한 움직임 기술자 생성장치는 외부 프레임 선택 모드에 의해 움직임 크기정 보의 추정치의 발산을 처리하는 움직임 크기 추정치 발산 처리부(15)와, 상기 움직임 크기 추정치 발산 처리부(15)에서 발산 처리된 움직임 크기정보의 크기(정도)를 계산하는 움직임 크기 계산부(7)와, 상기 움직임 크기 계산부(7)에 계산된 움직임 크기정보에 대해서 움직임 크기 히스토그램을 생성하는 움직임 크기 히스토그램 생성부(8)와, 상기 움직임 크기 히스토그램 생성부(8)에서 생성된 움직임 크기 히스토그램을 정해진 순서에 따라 누적 움직임 크기 히스토그램을 생성하는 누적 움직임 크기 히스토그램 생성부(9)와, 외부 프레임 선택 모드에 의해 움직임 방향 정보의 추정치의 발산을 처리하는 움직임 방향 추정치 발산 처리부(17)와, 상기 움직임 방향 추정치 발산 처리부(17)에서 발산 처리된 움직임 방향 정보의 방향을 계산하는 움직임 방향 계산부(10)와, 상기 움직임 방향 계산부(10)에 계산된 움직임 방향 정보에 대해서 움직임 방향 히스토그램을 생성하는 움직임 방향 히스토그램 생성부(11)와, 상기 움직임 방향 히스토그램 생성부(11)에서 생성된 움직임 방향 히스토그램을 정해진 순서에 따라 누적 움직임 방향 히스토그램을 생성하는 누적 움직임 방향 히스토그램 생성부(14)와, 상기 누적 움직임 크기 히스토그램 생성부(9) 및 상기 누적 움직임 방향 히스토그램 생성부(14)에서 각각 생성된 누적 움직임 크기 및 방향 히스토그램의 변화량에 따라 비디오를 임의의 크기로 구조화(계층화)하고, 구조화된 각 단위에 대해 움직임 특성을 기술하는 움직임 기술자를 생성하는 움직임 기술자 생성부(6)로 구성된다.
도 5는 도 4b, 도 4d, 도 4g, 도 4h 및 도 4j에서의 움직임 추정치 발산 처 리부(2)의 상세 블록도를 도시한 것이다.
도 5에 도시된 바와 같이, 상기 움직임 추정치 발산 처리부(2)는 미리 이전 영상이 저장된 이전 영상 저장부(12)와, 미리 현재 영상이 저장된 현재 영상 저장부(22)와, 상기 외부 프레임 선택 모드(frame_select_mode)에 따라 현재 입력 영상중에 움직임 추정치를 갖는 제1 영역(MBc)과 현재 그 제1 영역에 이웃하는 상기 현재 영상 저장부(22)에 저장된 제2 내지 제4 현재 영역, 또는 그 제1 영역(MBc)과 t상기 이전 영상 저장부(12)에 저장된 그 제1 영역(MBc)의 이전 영역 및 이전에 그 제1 영역에 이웃하는 제2 내지 제4 이전 영역의 평균치를 각각 계산하는 평균치 계산부(32)와, 상기 평균치 계산부(32)에서 계산된 제1 영역 및 제2 내지 제4 영역의 차 또는 제1 영역, 그 제1 영역의 이전영역 및 상기 제2 내지 제4 이전영역의 차를 각각 계산하고, 그 차의 절대값을 각각 계산하는 절대치 계산부(42)와, 상기 절대치 계산부(42)에서 각각 계산된 절대치와 기 설정된 임계치를 비교한 후, 그 비교결과에 따라 상기 움직임 추정부(1)에서 입력되는 X, Y 움직임 벡터값(MVx, MVy)을 변환하여 움직임 벡터값(MVox, MVoy)으로 출력하는 움직임 벡터값 비교 변환부(52)로 구성된다.
도 6은 도 4c 및 도 4d에서의 움직임 필터(3)의 상세 블록도를 도시한 것이다.
도 6에 도시된 바와 같이, 상기 움직임 필터(3)는 상기 움직임 추정치 발산 처리부(2)에서 처리된 X,Y 움직임 벡터값(MVox, MVoy)을 이용하여 움직임 크기를 계산하는 움직임 크기 계산부(13)와, 상기 움직임 크기 계산부(13)에서 계산된 움직임 크기와 기 설정된 임계치를 비교하고, 그 비교결과에 따라 움직임 벡터값을 변환하는 움직임 벡터값 비교 변환부(23)와, 상기 움직임 벡터값 비교 변환부(23)에서 변환된 움직임 벡터값을 이용하여 움직임 방향을 계산하는 움직임 방향 계산부(33)와, 상기 움직임 방향 계산부(33)에서 계산된 움직임 방향을 양자화 및 역 양자화시켜 움직임 방향치(θxy)를 출력하는 움직임 방향 양자화/역양자화부(43)로 구성된다.
도 7는 도 4a 내지 도 4j에서의 움직임 기술자 생성부(6)의 상세 블록도를 도시한 것이다.
도 7에 도시된 바와 같이, 상기 움직임 기술자 생성부(6)는 상기 누적 움직임 히스토그램 생성부(5)에서 누적된 누적 움직임 히스토그램의 변화량을 계산하는 움직임 히스토그램 변화량 계산부(161)와, 상기 움직임 히스토그램 변화량 계산부(161)에서 계산된 움직임 히스토그램 변화시간 및 클립갯수를 색인하여 움직임 클립 기술자를 생성하는 클립타임 색인부(162)와, 상기 움직임 히스토그램 변화량 계산부(161)에서 계산된 움직임 히스토그램 변화량과 기 설정된 임계치를 비교한 후, 그 비교결과에 따라 상기 움직임 히스토그램 변화량 계산부(161) 또는 상기 클립 타임 색인부(162)를 인에이블시키는 비교부(163)와, 상기 클립 타임 색인부(162)에서 생성된 움직임 클립 기술자에 의해 기술된 정보를 이용하여 움직임 기술자를 생성하는 움직임 기술자 생성기(36)로 구성된다.
상기 클립 타임 색인부(162) 및 상기 비교부(163)는 상기 누적 움직임 히스토그램 생성부(5)에서 생성된 누적 움직임 히스토그램이 구조화가 않된 경우에만 동작하고, 누적 움직임 히스토그램이 구조화된 경우에는 상기 움직임 히스토그램 변화량 계산부(161)에서 계산된 움직임 히스토그램 변화량은 상기 움직임 기술자 생성기(36)에 바로 제공된다.
이와 같이 구성된 본 발명의 실시예에 따른 누적 움직임 히스토그램을 이용한 움직임 기술자 생성장치 및 그 방법을 상세히 설명하면 다음과 같다.
먼저, 움직임 추정과정을 도 8에 도시된 현재의 비디오 압축 표준에서 주로 사용하고 있는 BMA(Block Matching Algorithm)를 위주로 설명하면 다음과 같다.
BMA는 영상간의 움직임 추정을 수행하기 위하여, 이전과 현재의 두 영상을 필요로 한다. 움직임 추정단위는 16x16 화소들로 구성된 매크로블록(Macroblock :MB)이라 불리는 영역이다. 따라서, 현재 영상을 MB단위로 분할한 후, 현재 영상에서의 추정하려는 MB(이하, MBc라 칭함)과 동일한 위치의 이전 영상내의 위치를 기점으로 하여 미리 정의된 움직임 추정 영역(Sr)을 검색하여, 현재 MB의 영상 데이터와 가장 유사한 MB크기의 데이터에 대한 영상내의 위치를 찾고, 현재 영상내의 MB 위치와의 차분 벡터(MVx, MVy)로 움직임을 표시한다.
통상적으로, 움직임 추정영역내의 모든 위치의 데이터를 비교하여 현재 MB에 대한 움직임 벡터를 추정해야 하지만, 이 방법은 움직인 추정에 많은 시간이 소 요된다는 단점이 있어, 실제 응용에서는 3-Step Search, Spiral Search등의 빠른 움직임 추정 기법을 사용한다. 이러한 기법들은 움직임 추정에 소요되는 시간은 단축하였지만, 항상 최적의 움직임 추정을 보장하지 못한다.
일반적인 움직임 추정 기법들은 움직임 추정영역 내의 영상 데이터가 모두 또는 일부가 동일할 경우, 움직임 추정영역 내의 다수의 위치가 선택될 수 있어 적절한 처리를 하지 않으면 정확한 움직임 추정을 방해받게 되는데, 이를 움직임 추정에서의 발산이라 한다.
다음으로, 도 4b, 도 4d에 도시된 움직임 추정치 발산 처리부(2), 도 4g에 도시된 움직임 크기 추정치 발산 처리부(15), 도 4h에 도시된 움직임 방향 추정치 발산 처리부(17) 및 도 4j에 도시된 움직임 크기 추정치 발산 처리부(15)와 움직임 방향 추정치 발산 처리부(17)의 동작, 및 도12b와 도 15d에 도시된 움직임 추정치 발산 처리단계(S12),(S32), 도 15g에 도시된 움직임 크기 추정치 발산 처리단계(S62), 도 15h에 도시된 움직임 방향 추정치 발산 처리단계(S74) 및 도 15j에 도시된 움직임 크기 추정치 발산 처리단계(S91)와 움직임 방향 추정치 발산 처리단계(S92)를 도 5, 도 9a 내지 도 9c 및 도 16를 참조하여 상세히 설명하면 다음과 같다.
움직임 추정의 발산의 일례를 도시하면, 도 9a 내지 도 9c에 도시된 바와 같다. 도 9a는 움직임 추정 영역 전체가 동일한 화소값을 갖는 경우이고, 도 9b는 수직 방향으로 동일한 화소값을 갖는 영역이 분할되어 있고, 도 9c는 수평 방향으 로 동일한 화소값을 갖는 영역이 분할되어 있다.
위와 같은 경우, 도 9a는 움직임 추정영역 내의 어느 위치에서도 동일한 유사도를 갖게 되며, 도 9b는 수직 방향으로 그리고 도6c는 수평방향으로 동일한 유사도를 갖게 된다. 이처럼 동일 유사도를 갖는 위치가 다수일 경우에는 정확한 움직임 추정을 할 수 없게 되는데, 이를 움직임 추정의 발산이라 한다.
본 발명은 상기 움직임 추정치에 대한 발산을 처리하기 위하여 다음과 같은 2가지 방법을 제시한다.
첫번째 방법은, 현재 영상에 존재하는 입력되는 움직임 추정치를 갖는 영역(MBc)의 이웃하는 영역들(MB1, MB2, MB3)의 DC(Direct Current)을 사용하였고, 두번째 방법은 현재 움직임 추정치를 갖는 영역과 동일한 위치의 이전 영상내의 영역과 그 주변 영역에서의 DC를 사용하였다. 이들에 대한 공간적 위치관계는 도 9에 도시하였다.
첫번째 방법은 추정된 움직임 추정치의 발산여부를 정확히 측정할 수는 없지만, 이웃한 영상간에는 영상의 획득 시간 차이가 작아 용장성 크기 때문에, 실제 움직임 추정에 사용된 이전 영상대신 현재 영상을 사용하여 이전 영상의 영상 특성을 어느 정도 분석할 수 있기 때문이다. 또한 이 방법은 저장 용량의 한계 때문에 이전 영상 전체를 저장할 수 없는 응용에 적합하다. 두번째 방법은 이전 영상의 정보를 사용하기 때문에 첫번째 방법보다 훨씬 정확하게 움직임 추정치의 발산 여부를 측정할 수 있다.
도 10을 참고하면, 도 10은 도 4b, 도 4d, 도 4f, 도 4g 및 도 4j에서의 움직임 추정치 발산 처리부에서의 움직임 추정치 발산처리를 설명하기 위한 현재영역과 주변영역의 공간적 상관관계를 보인 도면이다. 추정된 움직임의 발산 처리에 해당 움직임 추정치를 갖는 영역(MB1, MB2, MB3, MBc, MBp에 해당함)의 DC를 사용하는 이유는 DC값이 영역의 평균치이고 영역 전체를 대표하면서 영역의 국부적인 차이(노이즈)에 덜 민감하기 때문이다. 상기한 DC는 수학식 16을 사용하여 다음과 같이 계산된다.
Figure 112000001920242-pat00015
여기서, 상기 Pi는 움직임 추정치를 갖는 영역의 i번째 화소 값이고, N은 영역 안의 화소의 갯수이며, S는 영역내의 전체 화소의 합이고, DC는 영역내 화소값들의 평균치이다.
여기서, MBp는 영상 내에서 MBc와 동일한 공간적 위치를 갖는 임의의 크기의 이전 영상내의 영역을 나타내고, 도 5의 프레임 선택 모드(frame_select_mode)에 따라 MB1, MB2, MB3는 현재영상이나 이전 영상내의 공간적 위치가 MBc와 이웃하는 주변영역을 나타낸다. 첫번째 발산처리 방법을 사용할 경우(frame_select_mode가 현재 영상선택 모드가 됨), MB1, MB2, MB3은 MBc의 주변 영역들에 해당되며, 두번째 방법을 사용할 경우(frame_select_mode가 이전 영상선택 모드가 됨), MB1, MB2, MB3는 이전 영상내의 MBc의 공간적 위치에 있어 이웃하는 주변 영역들에 해당된다. 본 발명에서는 상기한 움직임 추정 영역의 크기(Sr) 및 추정방법은 응용에 따라 다르기 때문에 특별한 제한을 두지 않는다. 다만, 영역의 크기는 한정될 필요는 없지만, 미리 정의된 크기를 사용하는 것이 계산상에 잇점이 있다.
도 5는 지금까지 설명한 움직임 추정치 발산처리방법을 수행하는 움직임 추정치 발산 처리부(2)의 상세 블록도를 도시한 도면이다.
여기서, 프레임 선택모드(frame_select_mode)는 첫번째 방법이나 두번째 방법에서 사용할 영상을 선택하는 외부 입력모드이고, MVx와 MVy는 상기 움직임 추정부(1)에서 MBc의 수평/수직 방향의 추정된 움직임 벡터이다. 상기 평균치 계산부(32)에서 계산된 MB1, MB2, MB3, MBc그리고 MBp의 DC값을 각각 MB1_DC, MB2_DC, MB3_DC, MBc_DC, MBp_DC라 했을 때, 추정된 움직임 벡터에 대해서 도 5의 움직임 추정치 발산 처리부(2)의 동작 및 도 16의 움직임 추정치 발산 처리단계(S13-S93)를 살펴보면 다음과 같다.
먼저, 상기 프레임 선택모드(frame_select_mode)가 현재 영상선택 모드(S33), 즉 첫번째 발산처리 방법임을 가르킬 때에, 상기 평균치 계산부(32)에서 계산된 MB1_DC, MB2_DC, MB3_DC, MBc_DC는 현재 영상 내의 각 영역들에서 구해진 영역의 평균치들이다(S43).
첫번째, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MB2_DC 그리고 MBc_DC와 MB3_DC 차의 절대치(S53)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 움직임이 없는 것으로 간주하여 움직임 벡터값 MVox와 MVoy를 모두 0으로 변환한다(S63).
두번째, 상기 첫번째에 해당되지 않고, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MB3_DC 차의 절대치(S53)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 수평방향으로 움직임이 없는 것으로 간주하여 MVox를 0 으로 변환하고, MVoy는 MVy를 그대로 출력한다(S63).
세번째, 상기 첫 번째 및 두번째에 해당되지 않고, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MB2_DC 차의 절대치(S53)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 수직방향으로 움직임이 없는 것으로 간주하여 MVoy를 0으로 변환하고 MVox를 MVx와 동일하게 출력한다(S63).
네번째, 상기 첫 번째 내지 세번째에 해당되지 않으면, 상기 움직임 벡터값 비교 변환부(52)는 움직임 추정치가 발산이 되지 않는 것으로 간주하여 MVox와 MVoy는 MVx와 MVy를 그대로 출력한다(S63).
한편, frame_select_mode가 이전 영상 선택모드, 즉 두번째 발산 처리방법 임을 가르킬 때, 상기 평균치 게산부(32)에서 계산된 MBc_DC는 현재 영상 그리고 MBp_DC, MB1_DC, MB2_DC, MB3_DC 이전 영상 내의 각 영역들에서 구해진 영역의 평균치들이다(S73).
첫 번째, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MBp_DC 차의 절대치(S83)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 움직임이 없는 것으로 간주하여 MVox 와 MVoy를 모두 0으로 변환한다(S93).
두번째, 상기 첫번째에 해당되지 않고, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MB2_DC 그리고 MBc_DC와 MB3_DC 차의 절대치(S83)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 움직임이 없는 것으로 간주하여 MVox 와 MVoy를 모두 0으로 변환한다(S93).
세번째, 상기 첫 번째 및 두번째에 해당되지 않고, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MB3_DC 차의 절대치(S83)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 수평방향으로 움직임이 없는 것으로 간주하여 MVox를 0으로 변환하고, MVoy를 MVy와 동일하게 출력한다(S93).
네번째, 상기 첫 번째 내지 세번째에 해당되지 않고, 상기 절대치 계산부(42)에서 계산된 MBc_DC와 MB2_DC 차의 절대치(S83)가 정의된 임계치 THO보다 작으면, 상기 움직임 벡터값 비교 변환부(52)는 수직방향으로 움직임이 없는 것으로 간주하여 MVoy를 0으로 변환하고, MVox를 MVx와 동일하게 출력한다(S93).
다섯번째, 상기 첫 번째 내지 네번째에 해당되지 않으면, 상기 움직임 벡터값 비교 변환부(52)는 움직임 추정치가 발산이 되지 않는 것으로 간주하여 계산된 MVox와 MVoy를 MVx와 MVy로 그대로 출력한다(S93).
상기한 발산처리 방법들에서 MBc_DC를 기준으로 MBp_DC, MB1_DC, MB2_DC, MB3_DC들과의 차를 사용한 이유는 DC 차의 절대치가 정의된 임계치보다 작으면 MVx, MVy의 움직임 추정영역의 영상이 전체적, 수평 혹은 수직 방향으로 MBc와 동일하거나 거의 차이가 없을(움직임이 발생하지 않을) 가능성이 높은데 움직임 벡터가 존재하므로 이는 잘못된 움직임 추정치라 여겨 상기한 2가지 방법중 적당한 것을 선택하여 발산에 대한 처리를 행한다.
다음으로, 도 4c와 도 4d에 도시된 움직임 필터(3)의 동작 및 도 15c와 도 16d에 도시된 움직임 필터링 단계(S22),(S33)를 도 6 및 도 17를 참조하여 상세히 설명하면 다음과 같다.
움직임 필터링은 움직임에 대해 주관적 유사도 향상을 위하여 인간의 시각적 느낌을 반영하고 영상내의 주된 움직임과 움직임을 추출하기 위한 과정이며, 시각적 한계를 적절히 이용하여 움직임을 표현하는 데이터를 줄이는데 그 목적이 있다. 움직임 필터링은 움직임 크기의 필터링단계와 움직임 방향의 필터링단계로 구성된다.
도 17에 도시된 바와 같이, 움직임 크기의 필터링 단계(S14-S54)를 상세히 설명하면 다음과 같다.
상기 움직임 추정치 발산처리부(2)에서 발산 처리된 움직임 벡터값(MVox, MVoy)의 입력(S14)시 움직임 크기 계산부(13)는 움직임의 크기(Lmv)를 다음 수학식 17을 이용하여 계산한다(S11).
Figure 112000001920242-pat00016
상기 움직임 벡터 비교 변환부(23)는 상기 계산된 움직임 크기(Lmv)가 정의된 임계치(THL)보다 작은지 판단하여 작을 경우(S34), 실제로 영상내에서 움직임이 발생하였다고 할지라도 인간이 시각적으로 느낄 수 없는 크기이거나 영상획득과정이나 처리과정에서 영상 내에 랜덤한 노이즈가 발생한 것으로 간주하여, 추정된 움직임 값, MVfx와 MVfy를 모두 0으로 변환한다(S44).
한편, 계산된 움직임 크기(Lmv)가 정의된 임계치(THL)보다 크면(S34), 상기 움직임 벡터값 비교 변환부(23)는 추정된 움직임 값, MVfx와 MVfy을 상기 움직임 벡터(MVx, MVy)값으로 변환한다(S54).
이는 종래기술의 설명에서 언급한 바와 같이, 멀티미디어 데이터 검색에서 주관적 유사도가 검색의 성능에 영향을 미치는 중요한 요인이기 때문이다. 크기 필터링의 임계치(THL)는 인간의 시각적 특성이나 응용분야의 특성에 따라 실험적 혹은 통계적인 방법을 사용하여 산출될 수 있다.
다음으로, 움직임 방향 필터링 단계 (S64-74)를 상세히 설명하면 다음과 같다. 상기 움직임 크기 필터링 단계와 마찬 가지로 움직임에 대해서도 인간이 시각적으로 느끼는 한계를 반영하고, 그 한계치를 효과적으로 이용하여 영상의 움직임을 표현하는데 필요한 데이터의 크기를 줄이고자 하는데 목적이 있다.
삭제
움직임에 대한 시각적 한계를 반영하는데 있어, 상기 움직임 방향 계산부(33)는 상기 움직임 벡터값 비교 변환부(23)에서 변환된 움직임 벡터값 MVfx, MVfy를 이용하여 다음 수학식 18과 같이 움직임 방향 데이터(θxy)를 계산한다(S64).
Figure 112000001920242-pat00017
상기 움직임 방향 양자화/역양자화부(43)는 히스토그램을 생성하기 전에 상기 움직임 방향 계산부(33)에서 계산된 방향 데이터(θxy)에 대해서 양자화와 역양 자화를 다음 수학식 19와 같이 수행한다(S74)). 이때 사용된 양자화 방법은 선형적인 방법일 수 도 있고 시각적 특성을 반영한 비선형적 양자화 방법을 사용할 수 있다.
Figure 112000001920242-pat00018
Figure 112000001920242-pat00019
Figure 112000001920242-pat00020
여기서, q는 방향에 대한 양자화 인자이며 p는 크기에 대한 양자화 인자이고, θxy는 MVfx, MVfy의 방향치이며, R(x)는 x보다 크지 않은 정수이다.
다음으로, 도 4a 내지 4d에 도시된 움직임 히스토그램 생성부(4), 도 4e와 도 4g에 도시된 움직임 크기 히스토그램 생성부(8), 도 4f와 도 4h에 도시된 움직임 방향 히스토그램 생성부(11) 및 도 4i와 도 4j에 도시된 움직임 크기 히스토그램 생성부(8)와 움직임 방향 히스토그램 생성부(11)의 동작, 및 도 15a 내지 12d에 도시된 움직임 히스토그램 생성단계(S2),(S13),(S23),(S342), 도 15e와 도 15g에 도시된 움직임 크기 히스토그램 생성단계(S43),(S64), 도 15f와 도 15h에 도시된 움직임 방향 히스토그램 생성단계(S53),(S74) 및 도 15i와 도 15j에 도시된 움직임 크기 히스토그램 생성단계(S83),(S95)와 움직임 방향 히스토그램 생성단계(S84),(S96)를 도 11를 참조하여 상세히 설명하면 다음과 같다.
히스토그램은 분석하고자 하는 데이터의 전체적인 통계적인 특성을 2-D, 3-D등으로 계층적으로 표현할 수 있기 때문에 영상신호 처리나 패턴 인식 등의 분야에서 자주 사용되는 방법이다. 본 발명에서는 비디오의 움직임에 대한 통계적 특성을 기술하기 위하여 움직임 히스토그램을 사용한다.
본 발명에서 제안하는 움직임 히스토그램은 비디오내의 내용물의 움직임 정보(움직임 방향(θxy), 움직임 크기(Lmv) 그 밖의 움직임을 표현하는 파라메터)를 상기한 움직임 필터링 기법중의 양자화/역양자화 방법이나 일반적인 방법을 사용하여 정보가 표현하는 영역을 몇 개의 그룹(bin)으로 나누고, 각 그룹에 해당하는 정보가 발생하는 빈도를 나타낸다. 움직임 히스토그램을 구하는 방법은 수학식 20과 같이 표현될 수 있다.
H(MVi) = SMVi/M
여기서,
Figure 112000001920242-pat00021
상기 SMVi는 히스토그램으로 표현하고자 하는 움직임 정보의 i번째 그룹이 발생한 빈도수의 합이고, M은 히스토그램으로 표현하려는 움직임 데이터의 총 발생 빈도수이고, H(MVi)는 i번째 그룹의 움직임 정보가 발생한 확률을 나타낸다. 상기한 SMV는 움직임 방향, 움직임 크기, 움직임을 표현하는 파라메터에 대한 지칭이 다.
움직임 히스토그램으로 영상내의 전체적이고 특징적인 움직임의 흐름과 패턴에 대해서 분석 및 표현이 가능하다. 도 11은 한 영상내의 움직임 방향에 대한 움직임 히스토그램이고, 선의 굵기가 굵을수록 한 영상 내에 해당하는 방향의 움직임을 갖는 영역의 수가 많다는 것을 의미한다. 따라서, 도 11의 2-D 움직임 히스토그램은 구조화된 비디오에서 각 대표 영상이나 임의의 크기의 비디오 클립에 대한 전체적인 통계적 특성을 기술하고자 할 경우에 유용하게 사용할 수 있다. 그러나, 2-D의 움직임 히스토그램은 비디오 클립내의 움직임 정보에 대한 자세한 흐름을 표현할 수 없기 때문에, 본 발명에서는 도 12에 도시된 3-D 누적 움직임 히스토그램을 사용하여 움직임 특징을 기술한다.
다음으로, 도 4a 내지 도 4d에 도시된 누적 움직임 히스토그램 생성부(5), 도 4e와 도 4g에 도시된 누적 움직임 크기 히스토그램 생성부(9), 도 4f와 도 4h에 도시된 누적 움직임 방향 히스토그램 생성부(14) 및 도 4i와 도 4j에 도시된 누적 움직임 크기 히스토그램 생성부(9)과 누적 움직임 방향 히스토그램 생성부(14)의 동작, 및 도 15a 내지 도 15d에 도시된 누적 움직임 히스토그램 생성단계(S3),(S14),(S24),(S35), 도 15e와 도 15g에 도시된 누적 움직임 크기 히스토그램 생성단계(S44),(S65), 도 15f와 도 15h에 도시된 누적 움직임 방향 히스토그램 생성단계(S54),(S75) 및 도 15i와 도 15j에 도시된 누적 움직임 크기 히스토그램 생성단계(S85),(S97)과 누적 움직임 방향 히스토그램 생성단계(S86),(S98) 의 과정을 도 12 및 도 13을 참조하여 상세히 설명하면 다음과 같다.
상기 누적 움직임 히스토그램 생성부(5), 누적 움직임 크기 히스토그램 생성부(9) 및 누적 움직임 방향 히스토그램 생성부(14)는 상기한 움직임 히스토그램을 정해진 순서에 따라 누적시켜 3-D 움직임 히스토그램을 생성하고, 이를 비디오의 움직임 특징을 표현하는 데 사용한다. 본 발명에서는 이를 누적 움직임 히스토그램이라 칭한다. 누적 움직임 히스토그램의 형태를 도시하면, 도 12에 도시된 바와 같이, 표현될 수 있다. 도 12에서 fmv 는 각 영상에서의 움직임 크기, 방향 등의 움직임 정보이고, F= {fmv(1), ...., fmv(n)}은 임의의 크기의 움직임 정보를 갖는 영상 집합을 나타낸다. 그리고, H(x)는 각 움직임 정보에 대한 움직임 히스토그램 값에 해당되고, 누적 히스토그램의 비의 값이다.
누적 움직임 히스토그램 생성에 있어, 어떤 움직임 정보를 사용하는가와 누적에 있어 y축의 기준으로 무엇을 사용하느냐는 그 응용에 따라 선택적인 사항이다.
누적 움직임 히스토그램은 본 발명에서 제안한 움직임 필터링 기법을 사용하여 인간의 시각적인 특성을 적절히 반영할 수 있으며, 적은 양의 움직임 특징 정보를 사용하여 비디오 전체나 특정 시간동안의 움직임 흐름과 패턴을 표현할 수 있다. 일례로 도 13은, "한적한 거리를 사람과 자동차가 지나가고 어떤 이유에서 지상과 하늘에서 연속적인 폭발이 발생하였고 이를 피하려는 사람들의 국부적인 움직임이 있은 후 다시 폭발이 있는 장면"이 35장의 영상으로 구성된 비디오로 구성될 때, 움직임 방향 정보에 대하여 수학식 19의 q를 45°로 하여 움직임 필터링을 적용하여 생성된 누적 움직임 히스토그램을 형상화한 것이다.
여기서, x 축은 비디오에서의 각 영상들의 시간적 위치를 나타내고, y축은 각 영상에 대한 움직임 방향 정보를 표시한 것이다. 상기한 일례와 같은 복잡한 움직임을 갖는 장면도 누적 움직임 히스토그램을 사용하여 장면 전체의 움직임 흐름과 패턴을 도 13과 같이 아주 분명하고 명확하게 표현할 수 있음을 볼 수 있다.
상기한 바와 같이, 통상 비디오는 많은 영상들로 구성될 수 있기 때문에, 영상의 수의 증가에 비례하여 각 영상의 움직임 특징을 2-D 혹은 3-D로 표현하는 움직임 히스토그램과 누적 움직임 히스토그램의 데이터량도 증가하게 된다. 아울러, 검색에 소요되는 시간 또한 증가하게 된다. 이러한 문제 등에 적절히 대응하기 위하여, 본 발명에서는 상기에 기술한 히스토그램을 이용한 움직임 기술방법을 포함하고, 보다 다양한 단계의 검색(Search/Retrieval from Coarse to Fine Level)에 대응할 수 있는 비디오 움직임 특징을 기술하는 움직임 기술자 생성 방안을 제안한다. 제안하는 움직임 기술자는 다단계의 계층적으로 구성되어 있으며, 본 발명의 사용자나 응용분야에 따라 검색 단계를 선택할 수 있다.
다음으로, 도 4a 내지 도 4j에 도시된 움직임 기술자 생성부(6)의 동작 및 도 15a 내지 도 15j에 도시된 움직임 기술자 생성단계(S4),(S15),(S25),(S36),(S45),(S55),(S66),(S76),(S87),(S99)를 도 7, 도 14, 도 18a 및 도 18b를 참조하여 상세히 설명하면 다음과 같다.
일반적으로, 비디오는 위에서 일례로든 장면보다 훨씬 많은 영상들로 구성될 수 있으므로, 움직임 특징을 표현하는 누적 움직임 히스토그램의 데이터양도 증가하게 된다. 이와 같이 누적 움직임 히스토그램의 데이터 양의 증가에 따라 검색에 소요되는 시간의 증가를 적절히 대응하기 위하여, 본 발명에서는 누적 움직임 히스토그램에 대한 효과적인 색인을 위한 움직임 기술자를 제안한다. 제안하는 움직임 기술자는 누적 움직임 히스토그램의 특징들을 분석하여 유사한 특징을 갖는 구간을 클립으로 분할하고 클립에 포함되는 누적 움직임 히스토그램 데이터의 움직임 특징들을 효과적이고 유연하게 움직임 기술자에 반영함으로써 신속한 검색을 위한 방안을 제시한다. 움직임 기술자 생성과정의 전체적인 흐름은 도 18a와 같다.
이를 상세히 설명하면, 상기 움직임 히스토그램 변화량 계산부(161)는 상기 움직임 히스토그램 누적부(5)에서 누적된 누적 움직임 히스토그램이 입력되면(S17), 누적 움직임 히스토그램의 변화량을 계산하고, 클립타임 색인부(162)는 상기 움직임 히스토그램 변화량 계산부(161)에서 계산된 움직임 히스토그램 변화시간 및 클립갯수를 색인(S27)하여 움직임 클립 기술자를 생성한다(S37).
그리고, 움직임 기술자 생성기(36)는 상기 클립 타임 색인부(162)에서 생성된 움직임 클립 기술자에 의해 기술된 정보를 이용하여 움직임 기술자를 생성하게 된다(S47).
상기한 움직임 기술자에 대해서 자세히 살펴보면 다음과 같다. 움직임 기술자는 비디오 전체를 표현하는 누적 움직임 히스토그램에 대해서 시간에 대한 변화량에 따라 클립으로 분할하고 각 분할된 클립에 대한 움직임 특징을 기술한다. 여기서 클립은 변화량(△Ht)이 정의된 임계치(TH△H)를 초과하는 시간적 위치들 사이의 히스토그램 데이터에 대한 특징정보로 표현된다. 클립화 과정에서 사용되는 변화량(△Ht)에 대한 임계치(TH△H)의 결정은 본 발명의 응용에 따라 다를 수 있으면, 임계치의 산출은 실험적인 방법이나 통계적인 방법을 사용하여 결정될 수 있다. 클립화 과정은 도 18b와 같이 도시될 수 있다.
이를 상세히 설명하면, 움직임 히스토그램 변화량 계산부(161)는 상기 움직임 히스토그램 누적부(5)에서 누적된 누적 움직임 히스토그램의 다음 수학식 21과 같이 입력되면(S17), 움직임 히스토그램의 변화량(△Ht)을 다음 수학식 22와 같이 계산한다(S271).
Figure 112000001920242-pat00022
Figure 112000001920242-pat00023
비교부(163)는 상기 움직임 히스토그램 변화량 계산부(161)에서 계산된 변화량(△Ht)와 기 설정된 임계치(TH△H)를 비교(S272)한 후, 상기 임계치(TH△H)가 변화량(△Ht)보다 크면, 상기 움직임 히스토그램 변화량 계산부(161)를 인에이블시켜 상기 단계(S271)를 반복 실행시키고, 상기 임계치(TH△H)가 변화량(△Ht)과 같거나 작으면, 클립 타임 색인부(162)를 인에이블시킨다.
상기 클립 타임 색인부(162)는 상기 비교부(163)에 의해 인에이블되어 상기 움직임 히스토그램 변환량 계산부(161)에서 계산된 변화량의 변화시간(t) 및 클립 개수(c)를 순차적으로 증가시켜 클립 타임(Clip Time)을 색인한다(S273)
도 14은 도 13에 대하여 상기한 방법으로 클립화를 수행한 예시도이다. 도 14에서 누적 움직임 히스토그램은 8개의 클립으로 분할되었고, 각 클립은 8개의 각 방향에 대한 빈도와 각 방향에 대해서 움직임 크기의 평균에 대한 특징정보를 가지고 있으며, 클립으로 표현되는 누적 움직임 히스토그램에 대한 시간 축상의 구간(Duration)을 표시한다. 클립의 크기와 클립이 표현하는 누적 히스토그램의 구간은 겹침 정도에는 제한이 없다. 또한, 표현에 있어서도 한 클립을 다시 세분화하여 계층적으로 표현할 수 있다. 하지만, 검색의 정확성 및 표현의 유효성을 위하여 비디오를 표현하는 모든 움직임 히스토그램은 반드시 하나 이상의 클립에 속해야 한다.
지금까지 설명한 움직임 기술자는 도 18a과 같은 과정을 거처 생성되며, 하기와 같이 표현될 수 있다. 움직임 기술자(MotionDescripor)가 기술하는 각 정보의 길이를 표현하는 xbits는 각 데이터를 표현하는데 필요한 임의의 크기의 비트 수인데, 본 발명은 움직임 특징정보의 효과적인 압축 방법에 관한 사항에 아니고, 응용에 따라 각 데이터를 표현하는데 필요한 비트수가 다를 수 있기 때문에 이에 대한 한정 및 정의는 하지 않는다.
도 7에 도시된 움직임 기술자 생성기(36)에서 각각 생성된 움직임클립 기술 자(MotionClipDescriptor)가 기술하는 정보를 설명하면 다음과 같다.
움직임 기술자(MotionDescriptor)는 본 발명에서 제안하는 움직임 기술자중 최상위에 위치하는 기술자로서 다음과 같이 표현된다.
MotionDescriptor는 비디오 구별자 VideoID를 기술하는 video_id와, 해당 MotionDescriptor가 기술하는 비디오의 시간적위치를 표시하는 TimeDescriptor인 time_des와, 기술된 움직임 특징정보 기술 단계를 표시하는 MotionDescriptionLevel의 레벨과, 움직임 방향에 대한 2-D 내지는 3-D 형태의 특징 정보를 기술하는 MotionDirectionDescriptor의 direction_des와, 움직임 크기에 대한 2-D 내지는 3-D 형태의 특징 정보를 기술하는 MotionIntensityDescriptor의 intensity_des와, 비디오 검색에서 유용하게 사용될 수 있는 방향과 크기에 대한 선택 플래그정보인 flag_used_des와, 그리고 다음 단계의 움직임 특징을 기술하는 MotionDescriptor의 mot_sub_des와, 이를 표시하는 flag_exist_sub_des와 mot_sub_des의 개수를 표시하는 NumberOfSubDescriptor의 n으로 구성된다.
본 발명에서는 상기한 비디오 구조화에서 언급한 video, story, scene, shot, segment 그리고 subsegment등의 구조화 단위에 대한 대표영상들이나 구조화 단위에 대한 움직임 특징을 통계적으로 기술하기 위하여 MotionDescriptor로 표현되는 움직임 방향과 크기에 대한 평균, 평균과 2차 통계값에 대한 Central Momonent 그리고 움직임 데이터에 대한 2-D/3-D 누적 움직임 히스토그램등을 사용하여 색인하고 이를 이용한 검색 기술자를 표현하면 표 1과 같다.
움직임 특징 기술자(MotionDescriptor)
비디오 구별자 (VideoID) 기술범위 식별자 (TimeDescriptor) 방향 기술자 (DirectionDescriptor)
video_id time_des direction_des
크기 기술자 (IntensityDescriptor) 부가 기술자 (MotionDescriptor)
intensity_des sub_des[1] … sub_des[n]
Figure 112000001920242-pat00024
표 1에서의 부가 기술자는 움직임 기술자를 사용한 특성 기술시에 표 2에서의 비디오 데이터 구조화에 따른 MotionDescriptor(MD)의 개념적 표현에서와 같이 구조화된 비디오의 움직임 특성을 계층적으로 표현할 필요성이 있을 경우나 보다 자세한 특성을 표시할 필요성이 있을 시에 사용되는 재귀적인 구조의 구문이다.
상기 MotionDescriptor로 움직임 특성이 기술되는 비디오에 대한 식별자인 VideoID는 동일한 이름의 다른 버전(version)등을 구별하기 위하여 표 3과 같이 기술된다.
비디오 식별자(VideoID)
비디오 이름 (VideoName) 크레디트 (VideoCredits) 시기/시점 (VideoDate) 버전 (VideoVersions)
title credit date version
Figure 112000001920242-pat00025
표 3에서의 비디오 식별자(VideoID)는 비디오 이름의 VideoName을 기술하는 title과, 비디오의 제작자, 지료의 출처 그리고 제공자등을 기술하는 크레디트(VideoCredits)의 credit와, 비디오 제작시기(VideoDate)를 기술하는 date와, 그리고 버전(VideoVersion)을 기술하는 version등으로 구성된다.
본 발명에서는 비디오 식별자의 사용에 있어 표 3에서의 각 필드들을 상황에 따라 선택적으로 사용될 수 있으며, 표 3에서의 식별자외에 기존의 비디오 식별자를 사용하여도 무방하다. 아울러, 비디오 식별자 기술에 있어 제안하는 움직임 특징 기술자의 적용분야에 따라 가변적인 상황이 발생 가능하기 때문에 움직임 기술자(MotionDescriptor)내의 비디오 식별자의 기술에 대한 제한은 두지 않는다. 표 4는 표 3에서의 비디오 식별자의 신텍스이다.
다음으로, 기술범위 식별자(TimeDescriptor)는 움직임 기술자가 기술 범위내의 모든 움직임 데이터를 대표하는 지의 여부에 따라 순차적 범위 기술자(Sequential TimeDescription)와 무작위 범위 기술자(Random TimeDescription)로 분류된다.
상기 순차 범위 기술자(Sequential Time Descriptor)는 제안하는 움직임 기술자(MotionDescriptor)가 기술 범위내의 모든 움직임 데이터와 특성를 표현한다는 의미이며, 표현되는 움직임 데이터의 시작시간(Start_Time), 종료시간(End_Time) 그리고 기간(Duration)으로 구성되는데, 기간(Duration)은 시작과 종료 시간 사이의 구간을 지칭하며, 전체 누적 히스토그램 데이터의 시간에 대한 정보이다. 따라서 종료시간이나 기간은 선택적으로 사용될 수 있다.
무작위 범위 기술자(Random Time Descriptor)는 기술범위내의 일부분의 움직임 데이터와 특성들 만을 표현한다는 의미이며 표 5와 같이 정의된다. 기술범위 식별자의 효율적 표현을 위하여 순차적 범위 기술자와 무작위 범위 기술자를 함께 사용할 수 있다.
기술범위 식별자(TimeDescriptor)
순차적 범위 기술 (Sequential TimeDescription) 무작위 범위 기술 (Random TimeDescriptor)
시작시간 (Start_Time) 기간 (Duration) 종료시간 (End_Time) 시간적 위치 (TemporalPosition)
start duration end s[1] .......s[n]
Figure 112000001920242-pat00026
표 6의 기술범위 식별자 신텍스에서의 usedSequential 플래그(Flag) 필드는 순차적 범위 기술을 사용하는지에 대한 여부를 나타내고, usedRandom 플래그(Flag) 필드는 무작위 범위 기술을 사용하는지에 대한 여부를 나타낸다. 그리고 NumberOfPosition은 무작위 범위기술에서 표현하는 Position의 전체 수에 해당한다.
본 발명에서는 움직임 기술자(MotionDescriptor)내의 기술범위 식별자의 사용에 있어 표 5의 각 필드들을 상황에 따라 선택적으로 사용될 수 있으며, 표 5의 식별자외에 기존의 효율적인 비디오 기술범위 식별자를 사용할 수도 있다.
다음으로, 방향 기술자 (DirectionDescritpor)는 기술범위 식별자가 의도하는 기술범위내의 각 영상이나 전체 영상에 대한 움직임 데이터에 대하여 움직임 방향의 통계적 특성을 표현하는 기술자로 방향에 대한 평균, 평균과 2차 통계값에 대 한 Central Moment들, 지배적인 방향(dominant directions), 누적 움직임 히스토그램 그리고 방향에 대한 데이터로 구성된다. 상기한 바와 같이 기본적으로 2차원적인 움직임 정보는 방향과 크기로 구성되며 움직임 정보를 벡터형태(MV-Motion Vector)의 MV=(MVx, MVy)로 표현할 수 있고, 여기서 MVx는 수평방향의 움직임 성분(크기)이고 MVy는 수직방향의 움직임 성분(크기)이다.
움직임 벡터에서 움직임의 방향(ψ)은 다음 수학식 2에 의해서 얻을 수 있다.
[수학식 2]
Figure 112000001920242-pat00027
아울러, 움직임 벡터를 사용하여 방향을 계산하는 방법은 다수가 존재할 수 있으며, 그 사용에는 제한을 두지 않는다. 수학식 2에서의 (MVxk, MVyk)는 한 영상을 임의의 크기를 갖는 M개의 영역으로 분할 하였을 때, k번째 영역에 대한 움직임 정보이다.
ρi는 비디오 내의 i번째 영상의 움직임 방향에 대한 평균이고 수학식 9에 의해서 구할 수 있다. 움직임 방향에 대한 평균을 구하는 방법은 수학식23 이외에도 다수의 방법이 존재한다.
Figure 112000001920242-pat00028
θ1(MeanOfClipMotionHistogram)는 움직임 기술자내의 기술범위 기술자가 의도하는 범위내의 T개의 영상에서의 움직임 방향의 평균(ρ)에 대한 평균이고, 수학식 24에 의해서 구할 수 있다. 움직임 방향의 평균(ρ)에 대한 평균을 구하는 방법은 수학식 24 이외에도 다수가 존재한다. 상기 MeanOfClipMotionHistogram은 움직임 방향에 대한 누적 움직임 히스토그램 전체의 평균치이다.
Figure 112000001920242-pat00029
여기서, T는 기술범위의 모든 영상의 수와 동일하지 않을 수 있다.
움직임 방향에 대한 Central Moment는 방향 평균(θ1)에서 각 영상의 방향 평균(ρ)에 대한 시간적 분포 및 왜곡정도에 대한 특징을 나타내며, p차원의 모멘트(θp)를 갖을 수 있다. 그 p차원의 모멘트(θp)는 다음 수학식 25에 의해서 구할 수 있다. p차원의 모멘트(θp)를 구하는 방법은 수학식 25 이외에도 다수가 존재한다.
Figure 112000001920242-pat00030
기술범위 기술자가 의도하는 범위내의 T개의 영상에서 i번째 영상에 대한 움직임 방향에 대한 공간적 분포에 대한 특징을 표현하는 방향 표준편차(στi)를 다 음 수학식 26에 의해서 구할 수 있다. 방향 표준편차(στi)를 구하는 방법은 수학식 26에 의한 방법이외에도 다수가 존재한다.
Figure 112000001920242-pat00031
범위내의 T개의 전체 영상들에 대한 방향의 공간적 분포의 평균를 표시하는 2차 통계값의 평균(σθ1)은 다음 수학식 27에 의해서 구할 수 있다. 2차 통계값의 평균(σθ1)을 구하는 방법은 수학식 27에 의한 방법이외에도 다수의 방법이 존재한다.
Figure 112000001920242-pat00032
방향의 2차 통계값에 대한 Central Moment는 2차 통계값 평균(σθ1)에서 각 영상의 2차 통계값(στi)에 대한 공간적 분포 및 왜곡 정도에 대한 특징을 나타내며 p차원의 모멘트(σθp)를 갖을 수 있다. 그 p차원의 모멘트(σθp)는 다음 수학식 28에 의해서 구할 수 있다. 그 p차원의 모멘트(σθp)를 구하는 방법은 수학식 28에 의한 방법이외에도 다수의 방법이 존재한다.
Figure 112000001920242-pat00033
움직임의 지배적인 방향(dominant direction)을 나타내는 β는 수학식 20를 사용하여 방향에 대한 움직임 히스토그램을 생성한 후, 히스토그램 값이 가장 큰 방향이 β에 해당되며, 복수개의 β를 산출하고자 할 경우에는 히스토그램 값의 크기에 따라 정렬하여 큰 값의 순으로 결정된다. DataOfVideoMotionLength는 움직임 방향에 대한 누적 움직임 히스토그램의 각 빈에 대한 움직임 크기의 평균치를 나타낸다.
상기한 바와 같이 비디오 내의 내용물의 움직임 방향에 대한 특징을 기술하는 DirectionDescriptor를 정리하면 다음 표 7과 같다.
움직임 방향 기술자(DirectionDescriptor)
움직임 방향 평균 움직임 방향 시간적 분포 움직임 방향 편차 평균 움직임 방향 공간적 분포
θ1 θ2…θp σθ1 σθ1…σθp
지배적 움직임 방향 움직임방향 누적 히스토그램 DataOfVideoMotionLength
β1…βk Hθ n 1 … nM
다음 표 8은 상기 움직임 방향 기술자(DirectionDescriptor)의 신텍스를 나타낸 것으로, 비디오 데이터 구조화에 따른 MotionDescriptor(MD)를 개념적으로 표현한 것이다. flag_exist_sub_des의 플래그는 움직임 방향 기술자를 사용한 방향 특성 기술시에 다음 표 8에서와 같이 구조화된 비디오의 움직임 특성을 계층적으로 표현할 필요성이 있을 경우나 보다 자세한 방향특성을 표시할 필요성이 있을 시에 사용되는 재귀적인 구조의 구문이다.
Figure 112000001920242-pat00034
다음으로, 크기 기술자(IntensityDescritpor)는 기술범위 식별자가 의도하는 기술범위내의 각 영상이나 전체 영상에 대한 움직임 데이터에 대하여 움직임 크기의 통계적 특성을 표현하는 기술자로 크기에 대한 평균과, 평균과 2차 통계값에 대한 Central Moment들과, 누적 크기 히스토그램 그리고 크기에 대한 데이터로 구성된다.
상기한 바와 같이 기본적으로 2차원적인 움직임 정보는 방향과 크기로 구성 되며 움직임 정보를 벡터형태(MV-Motion Vector)의 MV=(MVx, MVy)로 표현할 수 있고, 여기서 MVx는 수평방향의 움직임 성분(크기)이고 MVy는 수직방향의 움직임 성분(크기)이다.
움직임 벡터에서 움직임의 크기(I)는 다음 수학식 1에 의해서 구할 수 있다. 아울러 수학식 1 이외의 방법을 사용하여서도 계산될 수 있으며, 움직임 크기를 계산하는 방법에는 제한을 두지 않는다.
[수학식 1]
Figure 112000001920242-pat00035
여기서, (MVxk, MVyk)는 한 영상을 임의의 크기를 갖는 M개의 영역으로 분할 하였을 때, k번째 영역에 대한 움직임 정보이다.
λi는 비디오 내의 i번째 영상의 움직임 크기에 대한 평균이고, 다음 수학식 29에 의해서 구할 수 있다. 아울러 수학식 29 이외의 방법을 사용하여서도 계산될 수 있으며, 움직임 크기에 대한 평균을 계산하는 방법에는 제한을 두지 않는다.
Figure 112000001920242-pat00036
ω1(MeanOfClipMotionLength)은 움직임 기술자내의 기술범위 기술자가 의도하는 범위내의 T개의 영상에서의 움직임 크기의 평균(λ)에 대한 평균이고, 다음 수학식 30에 의하여 구할 수 있다. 아울러 수학식 30 이외의 방법을 사용하여서도 계산될 수 있으며, 움직임 크기에 대한 평균을 계산하는 방법에는 제한을 두지 않는다. 즉, 상기 MeanOfClipMotionLength는 누적 움직임 히스토그램 전체의 움직임 크기에 대한 평균치를 나타낸다.
Figure 112000001920242-pat00037
여기서, T는 기술범위의 모든 영상의 수와 동일하지 않을 수 있다.
움직임 크기에 대한 Central Moment는 상기 크기 평균(ω1)에서 각 영상의 상기 크기 평균(λ)에 대한 시간적 분포 및 왜곡정도에 대한 특징을 나타내며 q차원의 모멘트(ωq)를 갖을 수 있다. 그 q 차원의 모멘트(ωq)는 다음 수학식 31에 의해서 구할 수 있다. 아울러 수학식 31 이외의 방법을 사용하여서도 계산될 수 있으며, 그 q 차원의 모멘트(ωq)를 계산하는 방법에는 제한을 두지 않는다.
Figure 112000001920242-pat00038
기술범위 기술자가 의도하는 범위내의 T개의 영상에서 i번째 영상에 대한 움직임 크기에 대한 공간적 분포에 대한 특징을 표현하는 크기 2차 통계값(σλi)는 다음 수학식 32에 의해서 구할 수 있다. 아울러 수학식 32 이외의 방법을 사용하여서도 계산될 수 있으며, 그 크기 2차 통계값(σλi)를 계산하는 방법에는 제한을 두지 않는다.
Figure 112000001920242-pat00039
범위내의 T개의 전체 영상들에 대한 크기의 공간적 분포의 평균를 표시하는 2차 통계값의 평균(σω1)은 다음 수학식 33에 의하여 구할 수 있다. 아울러 수학식 33 이외의 방법을 사용하여서도 계산될 수 있으며, 그 2차 통계값의 평균(σω1)를 계산하는 방법에는 제한을 두지 않는다.
Figure 112000001920242-pat00040
크기의 2차 통계값에 대한 Central Moment는 2차 통계값 평균(σω1)에서 각 영상의 2차 통계값(σλi)에 대한 공간적 분포 및 왜곡정도에 대한 특징을 나타내며, q차원의 모멘트(σωq)를 갖을 수 있다. 그 q차원의 모멘트(σωq)는 다음 수학식 34에 의해서 구할 수 있다. 아울러 수학식 34 이외의 방법을 사용하여서도 계산될 수 있으며, 그 q차원의 모멘트(σωq)를 계산하는 방법에는 제한을 두지 않는다.
Figure 112000001920242-pat00041
DataOfVideoMotionDirection은 움직임 크기에 대한 누적 움직임 히스토그램의 각 빈에 대한 움직임 방향의 평균치를 나타낸다.
상기한 바와 같이 비디오 내의 내용물의 움직임 크기에 대한 특징을 기술하는 IntensityDescriptor를 정리하면 다음 표 9와 같다.
움직임 크기 기술(IntensityDescriptor)
움직임 크기평균 움직임 크기 시간적 분포 움직임 크기 편차 평균
ω1 ω2 … ωq σω1
움직임 크기 공간적 분포 움직임 크기 누적 히스토그램 DataOfVideoMotionDirection
σω2 … σωq Hω n1 … nm
다음 표 10은 상기 움직임 크기 기술자의 신텍스를 나타낸 것으로, 비디오 데이터 구조화에 따른 MotionDescriptor(MD)를 개념적으로 표현한 것이다. 표 10에서, flag_exist_sub_des의 플래그는 움직임 크기 기술자를 사용한 크기 특성기술시에, 구조화된 비디오의 움직임 특성을 계층적으로 표현할 필요성이 있을 경우나 보다 자세한 크기 특성을 표시할 필요성이 있을 시에 사용되는 재귀적인 구조의 구문이다.
Figure 112000001920242-pat00042
다음으로, 움직임 히스토그램 기술자(MotionHistogramDescritptor)는 방향이나 크기등의 움직임 정보에 대한 통계적인 특성을 기술하는 방법으로서, 히스토그램이 표시하고 있는 빈수(NumberOfBins 혹은 NumberOfHistogramBin)와, 각 빈에서의 빈도치(BinValueOfHistogram 혹은 DataOfVideoMotionHistogram) 그리고 빈이 의미하는 실제 데이터에서 대표치(RepresentativeValueOfBin)를 의미한다.
상기 NumberOfMotionHistogramBin은 움직임 크기 및 방향에 대한 누적 히스토그램의 빈(bin)수, 즉 히스토그램이 표현하고자 하는 움직임 데이터의 그룹 수에 해당된다. 상기 DataOfVideoMotionHistogram은 움직임 크기 및 방향에 대한 누적 움직임 히스토그램의 데이터를 의미한다.
그 움직임 히스토그램 기술자(MotionHistogramDescritptor)를 정리하면 다음 표 11과 같다.
일반적으로 히스토그램의 빈수(n)는 응용분야, 히스토그램으로 표현하고자 하는 특성치의 정밀도 그리고 전체적인 데이터 크기등을 고려하여 사용자가 선택적으로 결정할 수 있다.
움직임 히스토그램 기술자(MotionHistogramDescriptor)
히스토그램 빈수 (NumberOfBins) 히스토그램값 (BinValueOfHistogram)
n bin_value[1] … bin_value[n]
빈의 대표치 (RepresentativeValueOfBin) 움직임 하위 누적 히스토그램
rvalue_of_each_bin[1] … rvalue_of_each_bin[n] H1 … Hm
다음 표 12는 움직임 히스토그램 기술자의 신텍스를 나타낸 것이다.
표 12에서, NumberOfSubHistogram과 MotionHistogramDescriptor는 움직임 특징정보에 대한 보다 자세하거나 보정되는 정보를 2-D 혹은 3-D 형태의 보조 히스토그램으로 기술하기 위한 것이다. 일례로, 움직임 방향 누적 히스토그램(Hθ)을 사용하는 경우, 상기 MotionHistogramDescriptor는 각 빈에 따른 움직임 크기에 대한 정보를 표시할 수 있고, 움직임 방향 누적 히스토그램(Hθ)과는 다른 방법을 사용하여 생성된 움직임 누적 히스토그램일 수 있다.
Figure 112000001920242-pat00043
본 발명에서 제안하는 MotionDescriptor를 사용하여 일반적인 비디오 구조화에 따라 계층적으로 움직임 특징정보 기술하면, 다음 표 13 및 표 14와 같이 기술될 것이다. 표 13에서 MD는 MotionDescriptor의 약어이다.
Figure 112000001920242-pat00044

Figure 112000001920242-pat00045
상기 표 14는 비디오 데이터 구조화에 따른 MotionDescriptor(MD)를 개념적으로 표현한 것이다. 상기 표 14에 도시한 바와 같이, MotionDescriptor는 비디오 전체 혹은 Story, Scene, Shot 그리고 Segment등 임의의 크기의 구조화 단위에서 기술이 가능하며, 각 단위내의 비디오 움직임 데이터의 특성을 기술할 수 있으며, 상위 레벨의 개괄적인 움직임 특성 기술에서 하위 레벨의 보다 구체적인 특징 기술으로 계층적인 표현이 가능하다.
또한 MotionDescriptor로 기술된 비디오 움직임 특성을 이용한 검색에 있어 다음의 표 15와 같이 기술자내의 각 필드에 사용가능 플래그(Flag used_direction_des, used_intensity_des)를 부여 함으로서 사용자가 원하는 특징정보들을 사용하여 검색할 수 있다. 아울러 exist_sub_des 플래그를 사용하여 비디오 전체나 혹은 특정 단위 구간에 대한 검색을 수행할 수 있다.
MotionDescriptor { VideoID video_id TimeDescriptor time_des MotionDescriptionLevel level Flag used_direction_des Flag used_intensity_des if (used_direction_des) MotionDirectionDescriptor direction_des if (used_intensity_des) MotionIntensityDescriptor intensity_des
방향 기술자(DirectionDescriptor)와 크기 기술자(IntensityDescriptor)에 대해서도 평균, Central Moment들 그리고 히스토그램에 대하여 사용 가능 플래그를 설정함으로서 상기의 일례와 같이 단계적인 검색이 가능하다.
본 발명에서 제안한 움직임 기술자를 적용할 수 있는 비디오 검색을 위한 시스템은 도 19과 같다. 도 19에 도시된 움직임 기술자를 이용한 비디오 검색시스템의 동작을 설명하면 다음과 같다.
먼저, 그래픽 유저 인터페이스(100)에 의해 인터페이싱되거나 데이터 베이스(DB)에서 인출된 질의 비디오(101)에서 움직임 기술자 추출장치(102)에 의해 움직임 기술자가 추출된다. 그 추출된 움직임 기술자는 움직임 기술자 부호화장 치(103)에서 부호화되고, 다중화장치(104)를 거쳐 다중화된 후, 네트워크를 통해 서버측으로 송신된다.
서버측에서의 역다중화장치(105)는 다중화된 움직임 기술자를 역다중화하고, 움직임 기술자 복호화장치(106)는 이를 복호화한다. 검색엔진(106)에서의 움직임 기술자 유사도 비교기(107)는 상기 움직임 기술자 복호화장치(106)에서 복호화된 움직임 기술자와 데이터 베이스 엔진(112)에서의 멀티미디어 데이터 베이스(114)에 저장된 움직임 기술자의 유사도를 비교한 후, 그 비교결과에 따라 유사도가 높은 움직임 기술자를 기 설정된 수 만큼 랭킹한다.
한편, 클라이언트측에서의 질의 비디오(101)은 멀티미디어 복호기(109)를 거쳐서 복호화된 후, 상기 과정을 반복 실행하게 된다.
한편, 서버측에서의 비디오(110)는 움직임 기술자 추출장치(111)에 의해 움직임 기술자가 추출된 후, 데이터 베이스 구축장치(113)를 거쳐 멀티미디어 데이터 베이스(114)에 저장된다.
이와 같이, 본 발명에서 제안하는 기술은 움직임 기술자 추출 장치에 적용될 수 있고, 이에 대한 간략한 예시는 도 19과 같다.
본 발명은 비디오 검색에서 상기한 누적 움직임 히스토그램 데이터와 이를 보다 효과적으로 기술한 MotionDescripor 기술자를 사용하고, 유사도 측정에서 MotionDescripor내의 움직임 특징정보, MotionClipDescriptor 내의 움직임 특징 정보, MotionDescriptor를 표현하는 MotionClipDescriptor의 계층적 형태 등을 이용하여 비디오의 전체적이나 특정 구간에 대한 움직임의 흐름과 패턴에 대한 기존의 유사도 측정방법(SAD-Sum Of Absolute Difference, MSE Mean Square Error 등의)들을 적용할 수 있다. 또한 보다 정확한 유사도 측정이 요구될 시에는 MotionDescripor내의 DataOfVideoMotionHistogram 나 DataOfVideoMotionLength를 사용할 수 있다. 아울러, Start_Time과 End_Time를 사용하여 시간을 이용한 비디오 검색도 가능하다.
본 발명을 활용한 디지털 비디오 응용 서비스
본 발명의 움직임 기술자는 인터넷과 IMT-2000과 같은 디지털 비디오 서비스가 지원되는 이동통신 환경, 화상회의, 디지털 방송 그리고 VOD와 같은 제한된 대역폭과 시스템 리소스를 효율적으로 활용하는데 움직임 정도가 중요하게 사용될 수 있는 다양한 디지털 비디오 서비스 분야에 사용될 수 있다. 그 중 대표적인 활용 일례로서 비디오 브라우징, 원격감시, 검색 그리고 리퍼포징을 설명한다.
1) 브라우징(Browising)
브라우징은 사용자가 멀티미디어 데이터 베이스를 통하여 데이터들 사이에 존재하는 다양한 형태의 링크를 따라 이동하는 정보검색 활동을 칭한다. 비디오 같은 대용량의 미디어 데이터에 대하여 빠르고 효율적인 브라우징을 수행하기 위하여 지원이 되어야 할 필수적인 기능 요소 중에 하나는 사용자에게 사용중인 비디오에 대안 비디오의 구조, 요약정보 , 대표영상 그리고 특징정보를 비주얼 형태로 유저 인터페이스를 통하여 제공하는 것이고 이를 위하여 사용자가 볼 수 있거나 들을 수 있는 수단을 사용할 수 있다. 또한 움직임 정도에 따라 몇 개의 범주로 분류하여 동일한 범주나 상이한 범주의 비디오 세그먼트를 빠르게 브라우징 할 수 있는 기능이 필요하다.
2) 원격감시(Surveilance)
원격감시는 제한된 공간상에 발생하는 사건들을 기록하고 감시해야 하는 통상적으로 발생 가능한 움직임 특성의 기대치가 존재하는 응용이다. 따라서, 통상적인 기대치와 다른 상이한 범주에 속한 움직임 특성을 갖는 비디오 세크먼트는 사건에 대한 중요한 정보를 담고 있기 때문에 움직임 정도를 사용할 경우 정도에 따라 기록해야 할 데이터량을 제어할 수 있으며 중요사건에 대한 효율적인 검색도 지원할 수 있다.
3) 비디오 검색(Video Retrieval)
비디오 검색은 브라우징과 함께 필요한 정보를 찾는 탐색 활동의 다른 형태로서 통상 자연언어, 구조화된 컴퓨터 언어등을 사용하여 질의를 표현하거나 비슷한 예제를 부가정보로 제시하는 형태로 진행된다. 비디오 검색은 시간적 순서를 갖는 복수의 프레임들로 구성된 비디오 세그먼트 단위로 진행되며 통상 다양한 형태의 복수의 물체가 세그먼트 내에 존재하게 된다. 이러한 다양한 색상과 모양 그리고 질감의 영역이나 물체가 존재하게 된다. 따라서, 특정한 색상이나 형태의 모양 그리고 구성의 질감에 의한 검색 보다는 움직임 정도와 같은 통상적인 움직임 정도에 대한 정보를 검색의 초기단계에 사용하면 검색의 범위를 크게 줄일 수 있어 보다 빠른 검색이 가능하다. 또한 특정한 색상이나 모양 그리고 질감에 대한 특징을 사용할 수 없을 시에 컨텐츠의 변화에 기반을 둔 움직임 정보를 사용하면 보다 효율적인 검색을 할 수 있다 일례로, 뉴스 프로그램의 데이터 베이스에서 앵커가 등장하는 장면을 검색하고자 할 경우, 매일 다른 의상과 다른 스튜디오와 다른 사람에 의해 진행되는 경우가 보통이므로 색상, 모양 그리고 질감을 사용하는 것보다 "움직임 정도가 거의 없는 장면을 검색"한 후 보다 구체적인 특징정보를 사용하는 것이 바람직하다. 또한, 비디오 내의 일관된 방향을 갖는 물체가 존재할 경우 방향에 대한 정보는 매우 유용하게 사용될 수 있다.
4) 비디오 리퍼포징(Video Repurposing)
비디오 리퍼포징은 서버상의 부호화된 스트림을 사용하는 사용자 시스템 성능과 사용자 요구에 따라 적절하게 재가공하여 서비스-하는 응용을 지칭한다. 특히, 이동통신 단말과 같이 제한된 대역폭과 성능을 갖는 시스템을 위하여 디지털 비디오 서비스를 수행할 경우, 움직임 정도는 대역폭을 보다 효율적으로 사용하기 위하여 전송 프레임 수, 즉 비트율을 제어하는데 다음과 같이 사용될 수 있다. 가령, 전송해야 할 GOP(Group Of Picture)에 대한 움직임 정도가 작을 경우 컨텐트에 대한 중요한 변화가 발생하기 않은 것으로 간주하여 데이터를 전송하지 않거나 전송할 프레임 수를 줄이고, 반대로 움직임 정도가 크면 의미 있는 사건들이 발생한 것으로 간주하여 보다 많은 수의 프레임을 전송하여 사용자에 보다 정확한 정보를 제공할 수 있다.
본 발명은 멀티미디어 데이터 검색에서 사용될 비디오의 움직임 특징 정보의 기술자를 제안함으로써 비디오의 검색에 본 발명에서 제안한 방법을 사용하게 될 경우 경제적인 이득이 있다.
또한 본 발명의 움직임 활동 기술자는 비디오나 부분 비디오의 컨텐츠를 검색하고 식별하는데 있어 몇 개의 대표영상의 특징 정보만을 사용하는 기존의 비디오 움직임 색인기법으로는 표현하기 어려운 비디오 전체, 대표영상 사이, 시간상 특정 구간에 대한 신호적 특성들과 시공간적 분포 그리고 변화 정도와 패턴등에 대한 지각적 특징을 기술할 수 있어 이러한 움직임 정도가 중요한 특징이 되는 디지털 비디오 서비스 응용들에 활용될 수 있다. 또한, 움직임 활동 기술자의 특징정보는 응용분야와 움직임 표현의 정밀도를 고려하여 선택적으로 사용할 수 있으며, 기존의 동영상 압축 기법인 MPEG-1,-2,-4와 H.263를 사용하여 압축된 비디오 스트림의 경우, 비디오 스트림 내의 움직임 정보를 특별한 부가 처리 없이 직접 사용할 수 있어 특징정보 추출에 소요되는 복잡도가 아주 작아 실시간 처리가 필요한 응용분야에도 적용 가능하다.




Claims (135)

  1. 동영상으로부터 움직임 파라메터를 추출하는 단계;
    전단계에서 추출한 움직임 파라메터의 크기의 통계적 특성을 추출하는 단계; 및
    상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 단계를 포함하고,
    상기 움직임 파라메터의 크기의 통계적 특성을 추출하는 단계가 각각의 영상에 대하여 움직임 파라메터의 크기의 평균값(Iav)을 구한 후, 이러한 평균값들의 평균값(Iav, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하는 단계임을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법.
  2. 제 1항에 있어서, 상기 방법이 상기 움직임 파라메터로 디지털 동영상 부호화에 의하여 부호화된 움직임 파라메터를 사용하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법.
  3. 제 1항에 있어서, 상기 방법이 통계적 특징을 추출함에 있어서 각 영상의 공간 통계 특징값을 구하고나서 시간 통계 특징값을 구하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법.
  4. 제 1항에 있어서, 상기 방법이 통계적 특징을 추출함에 있어서, 여러 영상의 시간 통계 특징값을 구하고나서 공간 통계 특징값을 구하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법.
  5. 제 1항에 있어서, 상기 움직임 파라메터의 크기의 평균값(Iav)은 하기 수학식 3에 의해서 구하고, 움직임 파라메터의 크기의 평균값들의 평균값(Iav, av)은 하기 수학식 7에 의해 구하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법.
    [수학식 3]
    Figure 112007067829744-pat00107
    상기 식에서, Ij는 움직임 파라메터의 크기 성분이고,
    M은 하나의 화면을 구성하는 블록 또는 객체수이다.
    [수학식 7]
    Figure 112007067829744-pat00108
    상기 식에서, Iav,i는 i 번째 화면의 움직임 파라메터들의 평균이고,
    T는 동영상에서 움직임 파라메터를 추출한 화면의 수이다.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제 1항에 있어서, 상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 단계가 각각의 영상에 대하여 하기 수학식 5에 의해 움직임 파라메터의 방향의 평균값(φav)을 구한 후, 하기 수학식 11에 의해 구한 이 값들의 평균값(φav, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하는 단계를 포함하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 방법.
    [수학식 5]
    Figure 112007067829744-pat00115
    상기 식에서, φj 움직임 파라메터의 방향 성분이고,
    M은 하나의 화면을 구성하는 블록 또는 객체 수이다.
    [수학식 11]
    Figure 112007067829744-pat00116
    상기 식에서, φav,i는 i번째 화면의 움직임 파라메터의 방향의 평균값이고,
    T는 동영상에서 움직임 파라메터를 추출한 화면의 수이다.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 제 1항에 있어서, 상기 방법이 동영상 화면 전체에서 M개의 방향으로 양자화된 움직임 파라메터 방향의 빈도수를 구해 하기 수학식 15와 같이 가장 많이 발생하는 몇 개의 움직임 파라메터 방향 (φ1, φ2,...φN )과 그 수 N (M≥N)으로 구성되는 벡터를 움직임 활동 기술자로 추출하는 단계를 추가로 포함하는 것을 특징으로 하는 움직임 활동 특징 기술 방법.
    [수학식 15]
    φmax = < N, φ1, φ 2,...φ N>
  19. 동영상으로부터 움직임 파라메터를 추출하는 움직임 파라메터 추출 수단;
    움직임 파라메터 추출 수단으로부터 입력된 움직임 파라메터의 크기의 통계적 특성을 추출하는 수단;
    상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 수단; 및
    추출된 통계적 특성들을 모아 움직임 활동 기술자를 정의하는 집합수단 (combiner)을 포함하고,
    상기 움직임 파라메터의 크기의 통계적 특성을 추출하는 수단이 각각의 영상에 대하여 움직임 파라메터의 크기의 평균값(Iav)을 구한 후, 이러한 평균값들의 평균값(Iav, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하는 것임을 특징으로 하는 동영상의 움직임 활동 특징 기술장치.
  20. 제 19항에 있어서, 상기 장치가 상기 움직임 파라메터로 디지털 동영상 부호화에 의하여 부호화된 움직임 파라메터를 사용하는 것임을 특징으로 하는 동영상의 움직임 활동 특징 기술 장치.
  21. 제 19항에 있어서, 상기 특성 추출 수단이 각 영상의 공간 통계 특징값을 구하고나서 시간 통계 특징값을 구하는 수단인 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 장치.
  22. 제 19항에 있어서, 상기 특성 추출 수단이 여러 영상의 시간 통계 특징값을 구하고나서 공간 통계 특징값을 구하는 수단인 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 장치.
  23. 제 19항에 있어서, 상기 움직임 파라메터의 크기의 통계적 특성을 추출하는 수단이 하기 수학식 3에 의해서 각각의 영상에 대하여 움직임 파라메터의 크기의 평균값(Iav)을 구한 후, 하기 수학식 7에 의해서 이러한 평균값들의 평균값(Iav, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하는 수단을 포함하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 장치.
    [수학식 3]
    Figure 112007067829744-pat00117
    상기 식에서, Ij는 움직임 파라메터의 크기 성분이고,
    M은 하나의 화면을 구성하는 블록 또는 객체수이다.
    [수학식 7]
    Figure 112007067829744-pat00118
    상기 식에서, Iav,i는 i 번째 화면의 움직임 파라메터들의 평균이고,
    T는 동영상에서 움직임 파라메터를 추출한 화면의 수이다.
  24. 제 19항에 있어서, 상기 움직임 파라메터의 방향의 통계적 특성을 추출하는 수단이 각각의 영상에 대하여 하기 수학식 5에 의해서 움직임 파라메터의 방향의 평균값(φav)을 구한 후, 하기 수학식 11에 의해서 이러한 평균값들의 평균값(φav, av)을 그 동영상 전체를 대표하는 통계적 특징값으로 사용하는 수단을 포함하는 것을 특징으로 하는 동영상의 움직임 활동 특징 기술 장치.
    [수학식 5]
    Figure 112007067829744-pat00119
    상기 식에서, φj 움직임 파라메터의 방향 성분이고,
    M은 하나의 화면을 구성하는 블록 또는 객체 수이다.
    [수학식 11]
    Figure 112007067829744-pat00120
    상기 식에서, φav,i는 i번째 화면의 움직임 파라메터의 방향의 평균값이고,
    T는 동영상에서 움직임 파라메터를 추출한 화면의 수이다.
  25. 제 19항에 있어서, 상기 장치가 동영상 화면 전체에서 M개의 방향으로 양자화된 움직임 파라메터 방향의 빈도수를 구해 하기 수학식 15와 같이 가장 많이 발생하는 몇 개의 움직임 파라메터 방향 φ1, φ2,...φN과 그 수 N(M≥N)으로 구성되는 벡터를 움직임 활동 기술자로 추출하는 수단을 추가로 포함하는 것을 특징으로 하는 움직임 활동 특징 기술 장치.
    [수학식 15]
    φmax = < N, φ1, φ 2,...φ N>__
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
  91. 삭제
  92. 삭제
  93. 삭제
  94. 삭제
  95. 삭제
  96. 삭제
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
  103. 삭제
  104. 삭제
  105. 삭제
  106. 삭제
  107. 삭제
  108. 삭제
  109. 삭제
  110. 삭제
  111. 삭제
  112. 삭제
  113. 삭제
  114. 삭제
  115. 삭제
  116. 삭제
  117. 삭제
  118. 삭제
  119. 삭제
  120. 삭제
  121. 삭제
  122. 삭제
  123. 삭제
  124. 삭제
  125. 삭제
  126. 삭제
  127. 삭제
  128. 삭제
  129. 삭제
  130. 삭제
  131. 삭제
  132. 삭제
  133. 삭제
  134. 삭제
  135. 삭제
KR1020000004881A 1999-02-01 2000-02-01 동영상의 움직임 활동 특징 기술 방법 및 장치 KR100772788B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000004881A KR100772788B1 (ko) 1999-02-01 2000-02-01 동영상의 움직임 활동 특징 기술 방법 및 장치

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR19990003259 1999-02-01
KR1019990003259 1999-02-01
KR1019990031942 1999-08-04
KR19990031942 1999-08-04
KR1020000004881A KR100772788B1 (ko) 1999-02-01 2000-02-01 동영상의 움직임 활동 특징 기술 방법 및 장치

Related Child Applications (3)

Application Number Title Priority Date Filing Date
KR1020050007528A Division KR100714548B1 (ko) 1999-02-01 2005-01-27 동영상의 움직임 활동 특징 기술 방법 및 장치
KR1020070095214A Division KR100841181B1 (ko) 2007-09-19 2007-09-19 동영상의 움직임 활동 특징 기술 방법 및 장치
KR1020070095213A Division KR100841176B1 (ko) 2007-09-19 2007-09-19 동영상의 움직임 활동 특징 기술 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20000057859A KR20000057859A (ko) 2000-09-25
KR100772788B1 true KR100772788B1 (ko) 2007-11-01

Family

ID=27349900

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000004881A KR100772788B1 (ko) 1999-02-01 2000-02-01 동영상의 움직임 활동 특징 기술 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100772788B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100368324B1 (ko) * 1999-06-23 2003-01-24 한국전자통신연구원 의미 정보를 이용한 비디오 검색 장치 및 방법
KR100388795B1 (ko) * 2000-12-18 2003-06-25 주식회사 신정기연 무인 감시 시스템
JP4219805B2 (ja) * 2001-06-19 2009-02-04 フェユル キム 画像シーケンス検索のための形状変化記述子の抽出方法
AU2002348647A1 (en) * 2002-10-10 2004-05-04 Virtualmedia Co., Ltd. Method and apparatus for separately providing additional information on each object in digital broadcasting image

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207897A (ja) 1997-01-17 1998-08-07 Fujitsu Ltd 動画像検索システム
US5802361A (en) 1994-09-30 1998-09-01 Apple Computer, Inc. Method and system for searching graphic images and videos
KR19980065380A (ko) * 1997-01-09 1998-10-15 김광호 움직임 벡타 검출 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802361A (en) 1994-09-30 1998-09-01 Apple Computer, Inc. Method and system for searching graphic images and videos
KR19980065380A (ko) * 1997-01-09 1998-10-15 김광호 움직임 벡타 검출 방법
JPH10207897A (ja) 1997-01-17 1998-08-07 Fujitsu Ltd 動画像検索システム

Also Published As

Publication number Publication date
KR20000057859A (ko) 2000-09-25

Similar Documents

Publication Publication Date Title
KR100714548B1 (ko) 동영상의 움직임 활동 특징 기술 방법 및 장치
KR100492437B1 (ko) 화상 검색 시스템 및 화상 검색 방법
Cavallaro et al. Semantic video analysis for adaptive content delivery and automatic description
Jeannin et al. MPEG-7 visual motion descriptors
Gunsel et al. Temporal video segmentation using unsupervised clustering and semantic object tracking
US5821945A (en) Method and apparatus for video browsing based on content and structure
US8442384B2 (en) Method and apparatus for video digest generation
US9628673B2 (en) Near-lossless video summarization
US7003038B2 (en) Activity descriptor for video sequences
JP2004526372A (ja) ストリーミング映像ブックマーク
EP1067786B1 (en) Data describing method and data processor
van den Branden Lambrecht et al. Quality assessment of motion rendition in video coding
Doulamis et al. Non-sequential video content representation using temporal variation of feature vectors
Wang et al. Classification-based multidimensional adaptation prediction for scalable video coding using subjective quality evaluation
KR20010009273A (ko) 움직임 정도 기술방법을 이용한 동영상 색인 및 검색방법
Doulamis et al. Optimal content-based video decomposition for interactive video navigation
KR101163774B1 (ko) 비디오 압축용 장치 및 프로세스
KR100772788B1 (ko) 동영상의 움직임 활동 특징 기술 방법 및 장치
JP4770875B2 (ja) 画像特徴データ生成装置、画像特徴判定装置および画像検索システム
KR100841181B1 (ko) 동영상의 움직임 활동 특징 기술 방법 및 장치
KR100841176B1 (ko) 동영상의 움직임 활동 특징 기술 방법 및 장치
Bertini et al. Semantic adaptation of sport videos with user-centred performance analysis
Bezerra et al. Using string matching to detect video transitions
JP2006018831A (ja) 画像検索システムおよび画像検索方法
Bashir et al. Multimedia systems: content-based indexing and retrieval

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A107 Divisional application of patent
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E902 Notification of reason for refusal
A107 Divisional application of patent
B701 Decision to grant
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20101014

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee