KR102214922B1

KR102214922B1 - 행동 인식을 위한 특징 벡터 생성 방법, 히스토그램 생성 방법, 및 분류기 학습 방법

Info

Publication number: KR102214922B1
Application number: KR1020140013706A
Authority: KR
Inventors: 김원준; 유병인; 한재준
Original assignee: 삼성전자주식회사
Priority date: 2014-01-23
Filing date: 2014-02-06
Publication date: 2021-02-15
Anticipated expiration: 2034-02-06
Also published as: KR20150088157A

Abstract

특징 벡터 생성 방법, 히스토그램 생성 방법, 학습기 분류 장치, 인식 장치 및 검출 장치가 개시된다. 실시예들은 그레디언트 분포의 주 방향 분석을 이용하여 입력 영상으로부터 특징점을 검출하고, 검출된 특징점에 대응하는 특징 벡터를 생성한다.

Description

행동 인식을 위한 특징 벡터 생성 방법, 히스토그램 생성 방법, 및 분류기 학습 방법{METHOD OF GENERATING FEATURE VECTOR, GENERATING HISTOGRAM, AND LEARNING CLASSIFIER FOR RECOGNITION OF BEHAVIOR}

아래 실시예들은 행동 인식 기법에 관한 것이다.

입력 영상으로부터 행동을 인식하는 기술은, 컴퓨터 비전 응용 시스템에 적용된다. 일반적으로, 입력 영상으로부터 행동을 인식하는 기술은, 패치(patch)를 설정하고, 그 패치로부터 추출된 특징을 벡터로 표현하고, 특징 벡터를 학습 분류기에 적용하여 행동을 인식하는 방법이 이용된다. 간단한 구조의 분류기는 유클리디언 거리(Euclidian distance) 등 벡터 사이 거리, 또는 정규화된 상관성(normalized correlation) 등 유사도를 구하고, 벡터 사이 거리나 유사도를 문턱치와 비교하여 행동을 인식한다. 좀더 정교한 분류기로서 신경망이나 베이지안 분류기(Bayesian classifier), SVM(Support Vector Machine) 학습 분류기, 에이다부스트(Adaboost) 학습 분류기 등이 이용된다.

일 측에 따른 행동 인식을 위한 특징 벡터 생성 방법은 그레디언트(gradient) 분포의 주 방향 분석을 이용하여 입력 영상으로부터 특징점을 검출하는 단계; 및 상기 특징점에 대응하는 특징 벡터(feature vector)를 생성하는 단계를 포함한다.

이 때, 상기 특징점을 검출하는 단계에서, 주 방향의 일관성 대비(contrast of coherence)를 가지는 윈도우에 대응하는 픽셀이 상기 특징점으로 검출될 수 있다. 또한, 상기 특징 벡터를 생성하는 단계에서, 상기 특징 벡터를 생성하기 위하여 상기 특징점에 대응하는 로컬 영역 내 주 방향의 일관성 강도(strength of coherence)가 축적될 수 있다.

또한, 상기 특징점을 검출하는 단계는 상기 입력 영상에 포함된 복수의 픽셀들 각각의 그레디언트를 계산하는 단계; 상기 그레디언트에 기초하여 상기 복수의 픽셀들 각각의 구조 텐서(structure tensor)를 계산하는 단계; 상기 구조 텐서를 고유 분석(Eigen analysis)함으로써, 상기 복수의 픽셀들 각각의 최대 고유값(Eigen value)을 계산하는 단계; 및 최대 고유값들 사이의 대비를 통하여 상기 특징점을 결정하는 단계를 포함할 수 있다.

또한, 상기 특징 벡터를 생성하는 단계는 상기 특징점에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들에 대하여, 로컬 픽셀의 주 방향을 미리 정해진 빈(bin)들로 매핑하는 단계; 및 상기 매핑된 빈에 상기 로컬 픽셀의 주 방향 에너지를 누적시키는 단계를 포함할 수 있다. 또한, 상기 입력 영상에 대한 주파수 분석을 이용하여 상기 입력 영상에 대응하는 특징 벡터를 생성하는 단계를 더 포함할 수 있다.

다른 일 측에 따른 영상 처리 방법은 그레디언트 분포의 주 방향 분석을 이용하여 입력 영상에 포함된 복수의 특징점들을 검출하는 단계; 상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 단계; 및 상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 입력 영상에 대응하는 히스토그램을 생성하는 단계를 포함한다.

이 때, 상기 영상 처리 방법은 학습된 파라미터와 상기 히스토그램에 기초하여 상기 입력 영상을 분석하는 단계를 더 포함할 수 있다. 여기서, 상기 학습된 파라미터는 상기 그레디언트 분포의 주 방향 분석을 이용하여 복수의 트레이닝 영상들을 미리 학습시킴으로써 생성될 수 있다. 또한, 상기 입력 영상을 분석하는 단계는 상기 입력 영상의 내용을 인식하는 단계를 포함할 수 있다.

또한, 상기 영상 처리 방법은 상기 주 방향 분석을 이용하여 복수의 트레이닝 영상들로부터 특징점 세트를 검출하는 단계; 상기 특징점 세트 중 랜덤하게 선택된 일부 특징점들에 대응하는 특징 벡터들을 생성하는 단계; 및 상기 일부 특징점들에 대응하는 특징 벡터들을 군집화함으로써, 상기 코드북을 생성하는 단계를 더 포함할 수 있다.

또 다른 일 측에 따른 분류기 학습 장치는 그레디언트 분포의 주 방향 분석을 이용하여 복수의 트레이닝 영상들에 포함된 복수의 특징점들을 검출하는 검출부; 상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 생성부; 상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 복수의 트레이닝 영상들에 대응하는 히스토그램들을 생성하는 매핑부; 및 상기 히스토그램들에 기초하여 분류기를 학습시키는 학습부를 포함한다.

이 때, 상기 학습부는 상기 분류기를 학습시키기 위하여, 상기 히스토그램들 및 상기 복수의 트레이닝 영상들의 레이블들을 상기 분류기에 입력할 수 있다. 또한, 상기 분류기 학습 장치는 상기 복수의 특징 벡터들을 군집화함으로써, 상기 코드북을 생성하는 군집화부를 더 포함할 수 있다.

또 다른 일 측에 따른 인식 장치는 그레디언트 분포의 주 방향 분석을 이용하여 입력 영상에 포함된 복수의 특징점들을 검출하는 검출부; 상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 생성부; 상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 입력 영상에 대응하는 히스토그램을 생성하는 매핑부; 및 학습된 파라미터 및 상기 히스토그램에 기초하여 상기 입력 영상의 내용을 인식하는 인식부를 포함한다.

이 때, 상기 입력 영상의 내용은 상기 입력 영상에 포함된 행위자의 행동; 및 상기 입력 영상에 포함된 객체 중 적어도 하나를 포함할 수 있다. 또한, 상기 학습된 파라미터는 상기 그레디언트 분포의 주 방향 분석을 이용하여 복수의 트레이닝 영상들을 미리 학습시킴으로써 생성될 수 있다.

또 다른 일 측에 따른 검출 장치는 그레디언트 분포의 주 방향 분석을 이용하여 입력 영상의 적어도 일부 영역에 포함된 복수의 특징점들을 검출하는 특징점 검출부; 상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 생성부; 상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 적어도 일부 영역에 대응하는 히스토그램을 생성하는 매핑부; 및 기준 히스토그램과 상기 히스토그램을 비교함으로써 상기 기준 히스토그램에 대응하는 영역을 검출하는 영역 검출부를 포함한다.

이 때, 상기 특징점 검출부는 상기 그레디언트 분포의 주 방향 분석을 이용하여 기준 영상에 포함된 복수의 기준 특징점들을 검출하고, 상기 생성부는 상기 복수의 기준 특징점들에 대응하는 복수의 기준 특징 벡터들을 생성하며, 상기 매핑부는 상기 복수의 기준 특징 벡터들을 상기 코드워드들에 매핑함으로써 상기 기준 영상에 대응하는 상기 기준 히스토그램을 생성할 수 있다.

도 1a 내지 도 1d는 일 실시예에 따른 분류기 학습 기법을 설명하는 도면들.
도 2a는 일 실시예에 따른 행동 인식 기법을 설명하는 도면.
도 2b 및 도 2c는 실시예들에 따른 인식 장치 및 검출 장치를 나타낸 블록도.
도 3a 및 도 3b는 일 실시예에 따른 코드북의 생성을 설명하는 도면들.
도 4는 일 실시예에 따른 분류기 학습 장치를 나타낸 블록도.
도 5a 및 도 5b는 일 실시예에 따른 주 방향을 설명하는 도면.
도 6a는 일 실시예에 따른 시공간 그레디언트 분포의 주 방향 분석을 설명하는 도면.
도 6b는 일 실시예에 따른 구조 텐서(structure tensor)의 계산을 설명하는 도면.
도 6c는 일 실시예에 따른 주 방향의 일관성 대비를 이용한 특징점의 검출을 설명하는 도면.
도 6d는 일 실시예에 따른 공간 그레디언트 분포의 주 방향 분석을 설명하는 도면.
도 7a 및 도 7b는 일 실시예에 따른 특징 벡터의 생성을 설명하는 도면들.
도 8은 일 실시예에 따른 히스토그램의 생성을 설명하는 도면.
도 9는 일 실시예에 따른 글로벌 특징 벡터의 생성을 설명하는 도면.
도 10은 일 실시예에 따른 무 감독 학습부 및 트레이닝 영상 생성부를 설명하는 도면.
도 11은 일 실시예에 따른 중간레벨 변환부를 설명하는 도면.
도 12는 일 실시예에 따른 트레이닝 영상의 생성을 설명하는 도면.
도 13은 일 실시예에 따른 특징점 검출 성능을 설명하는 도면.
도 14는 일 실시예에 따른 특징 벡터 성능을 설명하는 도면.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

도 1a 내지 도 1d는 일 실시예에 따른 분류기 학습 기법을 설명하는 도면들이다. 도 1a를 참조하면, 일 실시예에 따른 분류기 학습 장치(100)는 트레이닝 영상들(121)을 이용하여 분류기를 학습시킬 수 있다. 여기서, 트레이닝 영상들(121)은 동영상 및 정지영상을 모두 포함하며, 예를 들어, 행위자가 축구 하는 영상, 행위자가 자전거를 타는 영상, 행위자가 수영하는 영상, 행위자가 다른 사람과 키스하거나 포옹하는 영상 등을 포함할 수 있다. 트레이닝 영상이 동영상인 경우, 단일 트레이닝 영상은 복수의 연속적인 프레임들로 구성될 수 있다. 복수의 트레이닝 영상들(121)은 서로 다른 프레임 수 및 서로 다른 해상도(resolution)를 가질 수 있다.

분류기 학습 장치(100)는 히스토그램 생성부(110) 및 분류기 학습부(130)를 포함한다. 히스토그램 생성부(110)는 트레이닝 영상들(121)과 코드북(122)을 이용하여 히스토그램들(123)을 생성할 수 있다. 예를 들어, 히스토그램 생성부(110)는 코드북(122)에 기초하여 트레이닝 영상들(121) 각각에 대응하는 히스토그램을 생성할 수 있다. 이 경우, 하나의 트레이닝 영상은 하나의 코드북 기반 히스토그램으로 표현될 수 있다.

히스토그램 생성부(110)는 트레이닝 영상으로부터 특징점(key point)을 검출한다. 예를 들어, 도 1b의 특징점 열(141)을 참조하면, 각각의 트레이닝 영상들로부터 복수의 특징점들이 검출될 수 있다. 이 때, 히스토그램 생성부(110)는 시공간 그레디언트(gradient) 분포의 주 방향 분석을 이용하여 특징점을 검출할 수 있다. 일반적으로 트레이닝 영상이 정지영상인 경우에 비하여 트레이닝 영상이 동영상인 경우 행동 인식을 위한 분류기를 학습하기 위한 복잡도가 훨씬 크다. 실시예들은 시공간 그레디언트 분포의 주 방향 분석을 이용함으로써, 복수의 트레이닝 영상들(121)이 서로 다른 프레임 수 및/또는 해상도를 가지는 동영상인 경우에도 우수한 성능을 보장할 수 있다.

보다 구체적으로, 히스토그램 생성부(110)는 입력 받은 영상에 포함된 복수의 픽셀들에 대한 시공간 그레디언트 분포를 계산할 수 있다. 시공간 그레디언트는 시간 및 공간에 대한 그레디언트로, 예를 들어 특정 프레임의 x축 방향의 그레디언트, 특정 프레임의 y축 방향의 그레디언트 및 복수의 프레임들 사이의 시간 축 방향의 그레디언트로 구성될 수 있다. 만약 트레이닝 영상이 정지영상인 경우 시공간 그레디언트는 영상의 x축 방향의 그레디언트 및 영상의 y축 방향의 그레디언트로 구성될 수 있다. 이 경우, 시공간 그레디언트는 공간 그레디언트로 지칭될 수 있다.

히스토그램 생성부(110)는 시공간 그레디언트 분포의 주 방향 분석을 통해 트레이닝 영상에 포함된 주 방향 및 주 방향 에너지를 계산할 수 있다. 또한, 히스토그램 생성부(110)는 주 방향의 일관성 대비(contrast of coherence)에 기초하여 특징점을 검출할 수 있다. 시공간 그레디언트 분포, 시공간 그레디언트 분포의 주 방향 분석, 주 방향, 주 방향 에너지, 및 주 방향의 일관성 대비 등에 대한 보다 상세한 사항들은 후술한다.

히스토그램 생성부(110)는 검출된 특징점에 대응하는 특징 벡터(feature vector)를 생성한다. 예를 들어, 도 1b의 특징벡터 열(142)을 참조하면, 검출된 각각의 특징점들에 대응하는 특징 벡터가 생성될 수 있다. 이 때, 히스토그램 생성부(110)는 이미 계산된 주 방향 및 주 방향 에너지에 기초하여 특징 벡터를 생성할 수 있다. 단일 트레이닝 영상에는 복수의 특징점들이 포함되므로, 히스토그램 생성부(110)는 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성할 수 있다.

히스토그램 생성부(110)는 복수의 특징 벡터들을 코드북에 매핑함으로써, 단일 트레이닝 영상을 위한 히스토그램을 생성할 수 있다. 예를 들어, 도 1b의 코드북 열(143)을 참조하면, 생성된 각각의 특징 벡터들은 코드북에 포함된 코드워드들 중 어느 하나로 매핑될 수 있다. 도 1b의 히스토그램 열(144)을 참조하면, 하나의 트레이닝 영상으로부터 생성된 특징 벡터들이 코드북의 코드워드들에 매핑된 결과가 해당 트레이닝 영상의 히스토그램이 될 수 있다.

도 1b의 특징점 열(141)을 참조하면, 프레임 수가 많은 트레이닝 영상으로부터 검출되는 특징점들의 수는 프레임 수가 적은 트레이닝 영상으로부터 검출되는 특징점들의 수보다 많을 수 있다. 다시 말해, 트레이닝 영상마다 생성되는 특징 벡터들의 수가 상이할 수 있다. 이 경우, 트레이닝 영상마다 코드북의 코드워드들에 특징 벡터들이 매핑되는 횟수가 상이하므로, 각각의 트레이닝 영상으로부터 생성되는 히스토그램은 정규화(normalize)될 수 있다.

실시예들은 코드북 기반 히스토그램을 이용함으로써, 개별 특징점 단위 또는 개별 프레임 단위가 아닌 복수의 프레임들을 포함하는 단일 영상 단위로 영상의 특성(characteristic)을 분석할 수 있다. 또한, 실시예들은 코드북 기반 히스토그램을 이용함으로써, 특징 벡터의 분별력(discriminative power)를 향상시킬 수 있다. 여기서, 코드북이 생성되는 동작 및 코드북의 구조 등에 대한 상세한 설명은 후술한다.

분류기 학습부(130)는 복수의 히스토그램들을 입력 받아 기존에 알려진 다양한 기법을 이용하여 분류기를 학습시킬 수 있다. 분류기 학습부(130)는 복수의 히스토그램들을 이용하여 분류기를 학습시킴으로써, 학습된 파라미터(learned parameter)(135)를 출력할 수 있다. 여기서, 학습된 파라미터(135)는 분류기가 학습된 결과로, 입력 영상이 특정 클래스에 속하는지 여부를 결정하는 디시즌 바운더리(decision boundary) 또는 입력 영상이 복수의 클래스들 중 어느 클래스에 속하는지 여부를 결정하는 클래스 별 가중치(weight) 등을 포함할 수 있다.

예를 들어, 분류기 학습부(130)는 히스토그램 생성부(110)에 의해 생성된 복수의 히스토그램들을 서포트 벡터 머신(Support Vector Machine, SVM) 또는 랜덤 포레스트(random forest) 등에 입력시킬 수 있다. 서포트 벡터 머신은 머신 러닝(machine learning)에 기초한 분류(classification) 기법의 일종으로, 주어진 자료에 대하여 그 자료들을 분리하는 초평면 중에서 자료들과 가장 거리가 먼 초평면을 찾는 기법이다. 랜덤 포레스트도 머신 러닝에 기초한 분류 기법의 일종으로, 랜덤하게 생성되는 결정 트리(decision tree)들을 이용하여 주어진 자료를 분류하는 기준을 찾는 기법이다.

도 1c를 참조하면, 분류기 학습부(130)는 히스토그램 열(151)의 히스토그램들뿐만 아니라 행동 레이블 열(152)의 값들도 함께 입력 받을 수 있다. 행동 레이블 열(152)은 복수의 클래스들로 구성될 수 있다. 각각의 클래스들은 특정 행동에 대응될 수 있다. 예를 들어, 행동 레이블 열(152)은 키스 행동에 대응하는 키스 클래스, 악수 행동에 대응하는 악수 클래스, 허그 행동에 대응하는 허그 클래스, 축구슈팅 행동에 대응하는 축구슈팅 클래스, 및 농구드리블 행동에 대응하는 농구드리블 클래스를 포함할 수 있다.

행동 레이블 열(152)의 값들은 각각의 트레이닝 영상이 어떤 클래스에 대응하는지를 지시할 수 있다. 예를 들어, 제1 트레이닝 영상(153)은 키스 행동에 대응할 수 있다. 이 경우, 제1 트레이닝 영상(153)의 행동 레이블 열(152)에서 키스 클래스만 '1'의 값을 가지고, 나머지 클래스들은 '-1'의 값을 가질 수 있다. 또는, 제2 트레이닝 영상(154)은 축구슈팅 행동에 대응할 수 있다. 이 경우, 제2 트레이닝 영상(154)의 행동 레이블 열(152)에서 축구슈팅 클래스만 '1'의 값을 가지고, 나머지 클래스들은 '-1'의 값을 가질 수 있다.

경우에 따라서, 트레이닝 영상은 복수의 행동들에 대응될 수 있다. 이 경우, 행동 레이블 열(152)은 트레이닝 영상에 포함된 복수의 행동들의 가중치가 고려된 값들을 포함할 수 있다. 예를 들어, 트레이닝 영상에 허그 행동이 75% 포함되고 키스 행동이 25% 포함될 수 있다. 이 경우, 허그 클래스는 '3'의 값을 가지고 키스 클래스는 '1'의 값을 가질 수 있다. 나머지 클래스들은 '-1'의 값을 가질 수 있다.

물론 행동 레이블 열(152)은 '1' 또는 '-1' 이외의 값을 가지도록 설계될 수 있다. 예를 들어, 행동 레이블 열(152)은 '1' 또는 '-1' 대신 논리값 TRUE 또는 논리값 FALSE의 값을 가지도록 설계될 수 있다. 또한, 행동 레이블 열(152)의 구성은 다양하게 변형될 수 있다. 예를 들어, 행동 레이블 열(152)은 격투 신(scene), 러브 신, 추격 신 등 트레이닝 영상의 카테고리를 분류하는 클래스들로 구성될 수 있다.

분류기 학습부(130)는 복수의 히스토그램들 및 그에 대응하는 행동 레이블 값들에 기초하여 분류기를 학습시킬 수 있다. 이 때, 분류기 학습부(130)는 다양한 분류 유형(classification type)에 기초하여 분류기를 학습시킬 수 있다. 일 예로, 학습부(130)는 바이너리 분류(binary classification)(155)에 따라 분류기를 학습시킬 수 있다. 이 경우, 학습된 파라미터는 행동 레이블 열(152)을 구성하는 각각의 클래스들에 대한 디시즌 바운더리일 수 있다. 바이너리 분류에 의한 디시즌 바운더리는 다양하게 구현될 수 있으나, 이하 설명의 편의를 위하여 1차 함수로 구현되는 실시예를 설명한다.

디시즌 바운더리가 1차 함수로 구현되는 경우, 키스 클래스를 위한 디시즌 바운더리는 (

, b₁)이고, 악수 클래스를 위한 디시즌 바운더리는 (

, b₂)이며, 허그 클래스를 위한 디시즌 바운더리는 (

, b₃)이고, 축구슈팅을 위한 디시즌 바운더리는 (

, b₄)이며, 농구드리블을 위한 디시즌 바운더리는 (

, b₅)일 수 있다. 여기서,

,

, 및

는 트레이닝 영상의 히스토그램과 동일한 디멘션(dimension)의 벡터일 수 있다. 아래에서 상세히 설명하겠으나, 트레이닝 영상의 히스토그램은 코드북에 포함된 코드워드들의 수에 의하여 결정되며, 예를 들어 트레이닝 영상의 히스토그램은 4000 디멘션의 벡터일 수 있다. 또한, b₁, b₂, b₃, b₄, 및 b₅는 신뢰도의 바이어스(bias)를 위한 스칼라일 수 있다.

또한, 각각의 클래스를 위한 디시즌 바운더리는 행동 인식 장치에 저장되어, 입력 영상의 클래스를 분류하는 데 이용될 수 있다. 예를 들어, 입력 영상로부터 생성된 히스토그램을

라고 정의하는 경우, 입력 영상이 특정 클래스에 속하는지 여부를 지시하는 신뢰도는 수학식 1로 계산될 수 있다.

여기서, y_i는 i번째 클래스에 대한 신뢰도이고, (

, b_i)는 i번째 클래스에 대한 학습된 파라미터이다. 다시 말해, 입력 영상이 i번째 클래스에 속하는지 여부를 지시하는 신뢰도는 입력 영상의 히스토그램

와

를 내적한 값에 바이어스를 위한 b_i를 더함으로써 계산될 수 있다.

특정 클래스에 대한 신뢰도가 미리 정해진 값(예를 들어, 0)보다 큰 경우, 입력 영상은 해당 클래스로 분류될 수 있다. 반면, 특정 클래스에 대한 신뢰도가 미리 정해진 값(예를 들어, 0)보다 작은 경우, 입력 영상은 해당 클래스 이외의 그룹으로 분류될 수 있다. 결정 트리 열(157)을 참조하면, 각각의 디시즌 바운더리에 대응하는 결정 트리는 입력 영상을 하나의 클래스 및 나머지 클래스들로 분류할 수 있다.

예를 들어, 입력 영상이 키스 클래스로 분류되는지 여부를 판단하기 위하여, 키스 클래스를 위한 디시즌 바운더리 (

, b₁)을 이용하여 키스 클래스에 대한 신뢰도 y₁이 계산될 수 있다. 키스 클래스에 대한 신뢰도 y₁의 값이 0보다 큰 경우 입력 영상은 키스 클래스로 분류되고, 그렇지 않은 경우 입력 영상은 키스 클래스가 아닌 그룹으로 분류될 수 있다. 또는, 입력 영상이 축구슈팅 클래스로 분류되는지 여부를 판단하기 위하여, 축구슈팅 클래스를 위한 디시즌 바운더리 (

, b₄)를 이용하여 축구슈팅 클래스에 대한 신뢰도 y₄가 계산될 수 있다. 축구슈팅 클래스에 대한 신뢰도 y₄의 값이 0보다 큰 경우 입력 영상은 축구슈팅 클래스로 분류되고, 그렇지 않은 경우 입력 영상은 축구슈팅 클래스가 아닌 그룹으로 분류될 수 있다.

다른 예로, 학습부(130)는 멀티 클래스 분류(multi-class classification)(156)에 따라 분류기를 학습시킬 수 있다. 이 경우, 학습된 파라미터는 행동 레이블 열(152)을 구성하는 각각의 클래스들에 대한 가중치일 수 있다. 예를 들어, 키스 클래스를 위한 가중치는

이고, 악수 클래스를 위한 가중치는

이며, 허그 클래스를 위한 가중치는

이고, 축구슈팅을 위한 가중치는

이며, 농구드리블을 위한 가중치는

일 수 있다. 여기서,

,

, 및

는 트레이닝 영상의 히스토그램과 동일한 디멘션의 벡터일 수 있다. 트레이닝 영상의 히스토그램은 코드북에 포함된 코드워드들의 수에 의하여 결정되며, 예를 들어 트레이닝 영상의 히스토그램은 4000 디멘션의 벡터일 수 있다.

각각의 클래스를 위한 가중치는 행동 인식 장치에 저장되어, 입력 영상의 클래스를 분류하는 데 이용될 수 있다. 예를 들어, 입력 영상로부터 생성된 히스토그램을

라고 정의하는 경우, 입력 영상이 복수의 클래스들 중 특정 클래스에 속할 신뢰도는 수학식 2로 계산될 수 있다.

여기서, y_i는 i번째 클래스에 대한 신뢰도이고,

는 i번째 클래스에 대한 학습된 파라미터이다. 다시 말해, 입력 영상이 i번째 클래스에 속할 신뢰도는 입력 영상의 히스토그램

와

를 내적한 값으로 계산될 수 있다. 이 경우, 입력 영상은 가장 큰 신뢰도를 가지는 클래스로 분류될 수 있다. 결정 트리 열(157)을 참조하면, 하나의 결정 트리는 입력 영상을 복수의 클래스들로 분류할 수 있다. 예를 들어, 입력 영상을 어느 하나의 클래스로 분류하기 위하여, 키스 클래스에 대한 신뢰도 y₁, 악수 클래스에 대한 신뢰도 y₂, 허그 클래스에 대한 신뢰도 y₃, 축구슈팅 클래스에 대한 신뢰도 y₄, 농구드리블 클래스에 대한 신뢰도 y₅가 계산될 수 있다. 만약 농구드리블 클래스에 대한 신뢰도 y₅가 가장 큰 값을 가진다면, 입력 영상은 농구 드리블 클래스로 분류될 수 있다.

다시 도 1a를 참조하면, 히스토그램 생성부(110)는 특징 벡터 및 히스토그램 이외에 글로벌 특징 벡터를 더 생성할 수 있다. 히스토그램 생성부(110)는 트레이닝 영상에 포함된 복수의 프레임들 중 어느 하나의 프레임을 선택하고, 선택된 프레임에 대하여 주파수 분석을 수행함으로써 글로벌 특징 벡터를 생성할 수 있다. 히스토그램 생성부(110)는 트레이닝 영상에 포함된 복수의 프레임들 중 어느 하나의 프레임을 랜덤하게 선택하거나, 미리 정해진 방식(예를 들면, 중간 프레임)에 따라 선택할 수 있다. 또는, 히스토그램 생성부(110)는 트레이닝 영상에 포함된 복수의 프레임들 중 일부 프레임들을 랜덤하게 선택하거나, 미리 정해진 방식(예를 들면, 동일한 시간 간격을 가지는 10개의 프레임들)에 따라 선택할 수 있다.

히스토그램 생성부(110)는 선택된 프레임들 각각에 대하여 주파수 분석을 수행함으로써 글로벌 특징 벡터들을 생성하고, 생성된 글로벌 특징 벡터들을 평균 냄으로써 트레이닝 영상에 대응하는 글로벌 특징 벡터를 생성할 수 있다. 히스토그램 생성부(110)는 트레이닝 영상 별로 글로벌 특징 벡터를 생성할 수 있다. 이 경우, 트레이닝 영상 하나당 히스토그램 하나와 글로벌 특징 벡터 하나가 생성될 수 있다. 이하, 글로벌 특징 벡터와의 구분을 위하여 특징점에 대응하는 특징 벡터는 로컬 특징 벡터라고 지칭될 수 있다. 또한, 글로벌 특징 벡터는 글로벌 디스크립터(descriptor)라고 지칭되고 로컬 특징 벡터는 로컬 디스크립터라고 지칭될 수 있다.

히스토그램 생성부(110)에서 글로벌 특징 벡터가 생성되는 경우, 분류기 학습부(130)는 히스토그램과 글로벌 특징 벡터를 함께 이용하여 하나의 분류기를 학습시킬 수 있다. 예를 들어, 분류기 학습부(130)는 복수의 트레이닝 영상들에 대한 (히스토그램, 글로벌 특징 벡터) 페어들을 이용하여, 학습된 파라미터를 생성 및 출력할 수 있다. 학습된 파라미터는 (히스토그램, 글로벌 특징 벡터) 페어의 클래스를 분류하는 데 이용될 수 있다.

또는, 분류기 학습부(130)는 히스토그램을 이용하여 분류기를 학습시키고, 글로벌 특징 벡터를 이용하여 별도의 분류기를 학습시킬 수도 있다. 예를 들어, 분류기 학습부(130)는 복수의 트레이닝 영상들에 대한 히스토그램들을 이용하여, 학습된 파라미터를 생성 및 출력할 수 있다. 이와 별도로, 분류기 학습부(130)는 복수의 트레이닝 영상들에 대한 글로벌 특징 벡터들을 이용하여, 별도의 학습된 파라미터를 생성 및 출력할 수 있다. 학습된 파라미터는 히스토그램의 클래스를 분류하는 데 이용되고, 별도의 학습된 파라미터는 글로벌 특징 벡터의 클래스를 분류하는 데 이용될 수 있다. 아래에서 다시 설명하겠으나, 분류된 히스토그램의 클래스 및 분류된 글로벌 특징 벡터의 클래스를 조합함으로써, 입력 영상이 분류되는 최종 클래스가 결정될 수 있다.

실시예들은 히스토그램에 포함된 지역적 특징과 글로벌 특징 벡터에 포함된 전역적 특징을 함께 이용함으로써, 영상 내 컨텍스트(context)를 효과적으로 표현하는 기술을 제공할 수 있다.

도 1d를 참조하면, 일 실시예에 따른 트레이닝 영상들은 정지영상일 수 있다. 도 1a 내지 도1c를 통하여 기술된 사항들은 트레이닝 영상들이 정지영상인 경우에도 그대로 적용될 수 있다. 예를 들어, 각각의 트레이닝 영상들로부터 복수의 특징점들이 추출되고, 추출된 특징점들에 대응하는 특징 벡터들이 생성되며, 생성된 특징 벡터들은 코드북에 매핑될 수 있다. 특징 벡터들이 매핑된 코드북 기반 히스토그램은 각각의 트레이닝 영상들을 표현한다.

트레이닝 영상들이 정지영상인 경우, 도 1c의 행동 레이블 열(152)은 객체 레이블 열로 대체될 수 있다. 이 경우, 트레이닝 영상들 각각은 특정 행동에 대응하는 대신, 특정 객체에 대응할 수 있다. 예를 들어, 제1 트레이닝 영상은 자동차 객체에 대응하고, 제2 트레이닝 영상은 사람의 얼굴 객체에 대응할 수 있다.

도 1c의 분류기 학습부(130)는 분류 유형에 따른 학습된 파라미터를 생성할 수 있다. 예를 들어, 분류기 학습부(130)는 바이너리 분류에 따라 분류기를 학습시키는 경우 복수의 객체들에 대한 디시즌 바운더리들을 생성할 수 있다. 또는, 분류기 학습부(130)는 멀티 클래스 분류에 따라 분류기를 학습시키는 경우 복수의 객체들에 대한 가중치들을 생성할 수 있다. 디시즌 바운더리들 및 가중치들은 학습된 파라미터로 지칭될 수 있으며, 학습된 파라미터는 입력 영상에 포함된 객체를 인식하는 데 이용될 수 있다.

도 2a는 일 실시예에 따른 행동 인식 기법을 설명하는 도면이다. 도 2a를 참조하면, 일 실시예에 따른 행동 인식 장치(200)는 실제 영상을 이용하여 행동을 인식할 수 있다. 행동 인식 장치(200)는 히스토그램 생성부(210), 인식기(220), 및 메모리(230)를 포함한다. 히스토그램 생성부(210)는 실제 영상으로부터 특징점을 검출한다. 특징점은 시공간 그레디언트 분포의 주 방향 분석을 이용하여 검출될 수 있다.

또한, 히스토그램 생성부(210)는 복수의 픽셀들에 대한 시공간 그레디언트 분포를 계산하고 시공간 그레디언트 분포의 주 방향 분석을 통해 실제 영상에 포함된 주 방향 및 주 방향 에너지를 계산할 수 있다. 주 방향의 일관성 대비에 기초하여 히스토그램 생성부(210)는 특징점을 검출할 수 있고, 검출된 특징점에 대응하는 특징 벡터를 생성할 수 있다. 실제 영상에는 복수의 특징점들이 포함되므로, 히스토그램 생성부(210)는 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성할 수 있다.

히스토그램 생성부(210)는 복수의 특징 벡터들을 코드북에 매핑함으로써, 실제 영상을 위한 히스토그램을 생성할 수 있다. 여기서, 히스토그램 생성부(210)는 메모리(230)에 저장된 코드북을 이용할 수 있다. 인식기(220)는 히스토그램 생성부(210)에 의해 생성된 히스토그램과 메모리(230)에 저장된 학습된 파라미터를 이용하여, 실제 영상에 포함된 행동을 인식할 수 있다. 예를 들어, 인식기(220)는 도 1c를 통하여 전술한 바와 같이, 학습된 파라미터를 이용하여 히스토그램의 클래스를 분류할 수 있다. 인식기(220)는 인식부 또는 분류부라고 지칭될 수 있다.

히스토그램 생성부(210)는 글로벌 특징 벡터를 더 생성할 수 있다. 히스토그램 생성부(210)는 실제 영상에 포함된 복수의 프레임들 중 일부 프레임을 랜덤 또는 미리 정해진 방식에 따라 선택하고, 선택된 일부 프레임을 주파수 분석함으로써 글로벌 특징 벡터를 생성할 수 있다.

행동 인식 장치(200)는 히스토그램과 글로벌 특징 벡터를 함께 인식기(220)에 입력함으로써, 실제 영상 내 행위자의 행동을 인식할 수 있다. 이 경우, 인식기(220)는 히스토그램과 글로벌 특징 벡터를 함께 이용하여 생성된 학습된 파라미터를 메모리(230)로부터 수신할 수 있다. 인식기(220)는 학습된 파라미터를 이용하여 (히스토그램, 글로벌 특징 벡터) 페어의 클래스를 분류할 수 있다

또는, 행동 인식 장치(200)는 히스토그램을 인식기(220)에 입력함으로써 제1 출력 값을 획득할 수 있다. 이 경우, 인식기(220)는 히스토그램을 이용하여 생성된 학습된 파라미터를 메모리(230)로부터 수신할 수 있고, 학습된 파라미터를 이용하여 히스토그램의 클래스를 분류할 수 있다. 인식기(220)는 분류된 히스토그램의 클래스를 제1 출력으로 출력할 수 있다. 나아가, 행동 인식 장치(200)는 글로벌 특징 벡터를 인식기(220)에 입력함으로써 제2 출력 값을 획득할 수 있다. 이 경우, 인식기(220)는 글로벌 특징 벡터를 이용하여 생성된 별도의 학습된 파라미터를 메모리(230)로부터 수신하고, 별도의 학습된 파라미터를 이용하여 글로벌 특징 벡터의 클래스를 분류할 수 있다. 인식기(220)는 분류된 글로벌 특징 벡터의 클래스를 제2 출력으로 출력할 수 있다. 행동 인식 장치(200)는 제1 출력 값과 제2 출력 값의 조합을 통하여 최종 클래스를 결정할 수 있다.

도 1a의 히스토그램 생성부(110) 및 도 2a의 히스토그램 생성부(210)는 실질적으로 동일하게 동작할 수 있다. 도 1a의 히스토그램 생성부(110) 및 도 2a의 히스토그램 생성부(210)의 동작은 도 5a 내지 도 9를 참조하여 상세하게 설명한다. 이하, 히스토그램 생성부는 도 1a의 히스토그램 생성부(110) 및 도 2a의 히스토그램 생성부(210) 중 어느 하나를 지칭할 수 있으며, 특징점 검출부, 로컬 특징 벡터 생성부, 글로벌 특징 벡터 생성부, 및 코드북 매핑부는 도 1a의 히스토그램 생성부(110) 및 도 2a의 히스토그램 생성부(210) 중 어느 하나에 포함된 구성으로 이해될 수 있다.

도 2b 및 도 2c는 실시예들에 따른 인식 장치 및 검출 장치를 나타낸 블록도들이다. 도 2b를 참조하면, 일 실시예에 따른 인식 장치(240)는 입력 영상의 클래스를 분류함으로써, 입력 영상에 포함된 행동을 인식하거나 입력 영상에 포함된 객체를 인식할 수 있다. 예를 들어, 입력 영상이 동영상인 경우, 인식 장치(240)는 입력 영상에 포함된 행위자의 행동을 지시하는 행동 레이블을 출력할 수 있다. 행동 레이블을 통하여 입력 영상이 농구슈팅 영상인지, 키스 영상인지 등이 인식될 수 있다. 또는, 입력 영상이 정지영상인 경우, 인식 장치(240)는 입력 영상에 포함된 객체를 지시하는 객체 레이블을 출력할 수 있다. 객체 레이블을 통하여 입력 영상이 얼굴 사진인지, 자동차 사진인지 등이 인식될 수 있다. 인식 장치(240)에 포함된 히스토그램 생성부(241), 인식기(242), 및 메모리(243)는 각각 도 2a의 히스토그램 생성부(210), 인식기(220), 및 메모리(230)에 대응할 수 있다.

도 2c를 참조하면, 일 실시예에 따른 검출 장치(250)는 복수의 입력 영상들 중 기준 영상에 대응하는 적어도 하나의 영상을 검출할 수 있다. 일 예로, 복수의 입력 영상들은 각종 스포츠 동영상들이고, 기준 영상은 축구드리블 동영상일 수 있다. 이 경우, 검출 장치(250)는 기준 영상인 축구드리블 동영상의 히스토그램을 생성하고, 복수의 입력 영상들인 각종 스포츠 동영상들의 히스토그램들을 생성할 수 있다. 다른 예로, 복수의 입력 영상들은 각종 사진들이고, 기준 영상은 사람의 얼굴 사진일 수 있다. 이 경우, 검출 장치(250)는 기준 영상인 사람의 얼굴 사진의 히스토그램을 생성하고, 복수의 입력 영상들인 각종 사진들의 히스토그램들을 생성할 수 있다.

검출 장치(250)는 기준 영상의 히스토그램과 학습된 파라미터를 인식기(252)에 입력함으로써, 기준 영상의 클래스를 분류할 수 있다. 마찬가지로 검출 장치(250)는 복수의 입력 영상들의 히스토그램들과 학습된 파라미터를 인식기(252)에 입력함으로써, 복수의 입력 영상들의 클래스를 분류할 수 있다. 검출 장치(250)는 분류된 클래스들을 비교하여 기준 영상의 클래스와 동일한 클래스로 분류되는 적어도 하나의 입력 영상을 검출할 수 있다. 경우에 따라서, 검출 장치(250)는 학습된 파라미터를 이용하지 않을 수 있다. 예를 들어, 검출 장치(250)는 기준 영상의 히스토그램과 복수의 입력 영상들의 히스토그램들을 직접 비교할 수 있다. 검출 장치(250)는 기준 영상의 히스토그램과 미리 정해진 범위 이내로 유사하다고 판단되는 적어도 하나의 입력 영상을 검출할 수 있다.

다른 예로, 검출 장치(250)는 입력 영상 내에서 기준 영상에 대응하는 영역을 검출할 수 있다. 검출 장치(250)는 기준 영상을 이용하여 기준 히스토그램을 생성하고, 입력 영상 내에서 기준 히스토그램에 대응하는 영역을 검출할 수 있다. 일 예로, 입력 영상은 단체 사진이고, 기준 영상은 사람의 얼굴 사진일 수 있다. 기준 영상은 쿼리 영상(query image)라고 지칭될 수 있다. 이 경우, 검출 장치(250)는 기준 영상인 사람의 얼굴 사진을 이용하여 기준 히스토그램을 생성할 수 있다. 검출 장치(250)는 입력 영상인 단체 사진을 스캔하면서, 기준 히스토그램과 미리 정해진 범위 이내로 유사하다고 판단되는 적어도 하나의 영역을 검출할 수 있다.

또 다른 예로, 입력 영상이 동영상인 경우, 검출 장치(250)는 기준 영상에 의하여 로컬라이즈 되는(localized) 영역을 검출할 수 있다. 기준 영상이 이삭을 줍는 동영상인 경우, 검출 장치(250)는 입력되는 동영상으로부터 이삭을 줍는 행동에 대응하는 영역을 검출할 수 있다. 인식 장치(250)에 포함된 히스토그램 생성부(251), 인식기(252), 및 메모리(253)는 각각 도 2a의 히스토그램 생성부(210), 인식기(220), 및 메모리(230)에 대응할 수 있다.

도 3a 및 도 3b는 일 실시예 따른 코드북의 생성을 설명하는 도면들이다. 도 3a를 참조하면, 일 실시예에 따른 코드북 생성부(300)는 특징 벡터 생성부(310) 및 군집화부(320)를 포함한다. 특징 벡터 생성부(310)는 특징점 검출부, 로컬 특징 벡터 생성부를 포함한다. 특징 벡터 생성부(310)는 글로벌 특징 벡터 생성부를 더 포함할 수 있다. 특징 벡터 생성부(310)에 포함된 특징점 검출부, 로컬 특징 벡터 생성부, 및 글로벌 특징 벡터 생성부의 동작들은 도 1a의 히스토그램 생성부(110)에 포함된 특징점 검출부, 로컬 특징 벡터 생성부, 및 글로벌 특징 벡터 생성부의 동작들에 대응할 수 있다.

특징 벡터 생성부(310)는 트레이닝 영상들(305)로부터 특징 벡터들(315)을 생성할 수 있다. 예를 들어, 특징 벡터 생성부(310)는 트레이닝 영상들(305)에 포함된 모든 특징점들을 추출하고, 추출된 모든 특징점들 중 일부를 랜덤하게 선택할 수 있다. 특징 벡터 생성부(310)는 랜덤하게 선택된 일부의 특징점들을 위한 특징 벡터들(315)을 생성할 수 있다.

군집화부(320)는 특징 벡터들(315)을 미리 정해진 수의 군집들로 군집화(clustering)함으로써, 미리 정해진 수의 코드워드들을 포함하는 코드북(325)을 생성할 수 있다. 예를 들어, 군집화부(320)는 특징 벡터들(315)을 K-평균 군집화(K-means clustering) 함으로써, 특징 벡터들(315)을 K개의 군집들로 군집화할 수 있다. 여기서, K는 미리 정해진 군집들의 수이다. 군집화부(320)는 K개의 군집들 각각을 대표하는 대표값을 모아, 코드북(325)을 생성할 수 있다. 이 경우, 코드북(325)에 포함된 코드워드들 각각은 유사 특징 벡터들이 모인 군집의 대표 특징 벡터일 수 있다.

도 3b를 참조하면, 코드북 생성부는 트레이닝 영상들(340)에 포함된 특징점들을 모두 검출하고, 검출된 특징점들 중 일부를 랜덤하게 선택하며, 선택된 일부의 특징점들(341, 342, 343, 344, 345, 346, 347, 348, 349)의 로컬 벡터들을 군집화함으로써 복수의 코드워드들(361, 362, 363)을 생성할 수 있다. 구체적으로 설명하면, 코드북 생성부는 시공간 그레디언트 분포의 주 방향 분석을 이용하여 트레이닝 영상(340)로부터 특징점들을 검출할 수 있다. 일 예로, 코드북 생성부는 시공간 그레디언트 분포의 주 방향 분석을 이용하여 10000개의 트레이닝 영상들로부터 700만개의 특징점들을 검출할 수 있다. 코드북 생성부는 700만개의 특징점들로부터 10만개의 특징점들을 랜덤하게 선택할 수 있다. 코드북 생성부는 랜덤하게 선택된 일부의 특징점들(341, 342, 343, 344, 345, 346, 347, 348, 349)에 대응하는 로컬 특징 벡터들을 생성할 수 있다. 특징점 검출을 위한 동작 및 로컬 특징 벡터 생성을 위한 동작은 아래에서 상세히 설명한다.

코드북 생성부는 생성된 로컬 특징 벡터들을 군집화할 수 있다. 예를 들어, 코드북 생성부는 K-평균 군집화 기법을 이용하여 로컬 특징 벡터들을 K개의 군집들(351, 352, 353)로 군집화할 수 있다. 여기서, 군집들(351, 352, 353)의 개수 K는 코드북(360)에 포함되는 코드워드들(361, 362, 363)의 개수에 대응될 수 있다. 코드워드(361)는 군집(351)을 대표하는 특징 벡터이고, 코드워드(362)는 군집(352)을 대표하는 특징 벡터이며, 코드워드(363)은 군집(353)을 대표하는 특징 벡터일 수 있다.

일 예로, K는 4000일 수 있다. 코드북 생성부는 10만개의 로컬 특징 벡터들을 4000개의 군집들로 군집화할 수 있다. 이 경우, 코드북(360)에는 4000개의 군집들을 대표하는 4000개의 코드워드들이 포함될 수 있다. 따라서, 코드북(360)에 포함되는 각각의 코드워드들은 각각의 군집들을 대표하는 로컬 특징 벡터의 특성에 대응될 수 있다.

도 4는 일 실시예에 따른 분류기 학습 장치를 나타낸 블록도이다. 도 4를 참조하면, 일 실시예에 따른 분류기 학습 장치(400)는 코드북 생성부(410), 히스토그램 생성부(420), 및 분류기 학습부(430)를 포함한다. 코드북 생성부(410)는 특징 벡터 생성부(415)와 군집화부(411)를 포함할 수 있다. 히스토그램 생성부(420)는 특징 벡터 생성부(415)와 코드북 매핑부(421)를 포함할 수 있다. 코드북 생성부(410)와 히스토그램 생성부(420)는 특징 벡터 생성부(415)를 공유할 수 있다.

히스토그램 생성부(420) 및 분류기 학습부(430)는 도 1a의 히스토그램 생성부(110) 및 분류기 학습부(130)에 그대로 대응될 수 있다. 코드북 생성부(410)는 도 3a의 코드북 생성부(300)에 그대로 대응될 수 있다. 예를 들어, 코드북 생성부(410)는 트레이닝 영상들을 입력 받아, 코드북을 출력할 수 있다. 히스토그램 생성부(420)는 트레이닝 영상들과 코드북을 입력 받아, 히스토그램들을 출력할 수 있다. 분류기 학습부(430)는 히스토그램들을 입력 받아, 학습된 파라미터를 출력할 수 있다.

이하, 도 5a 내지 도 9를 통하여, 특징점 검출을 위한 동작 및 특징 벡터 생성을 위한 동작을 상세하게 설명한다. 우선, 도 5a 및 도 5b를 참조하여 주 방향의 의미를 설명한다.

도 5a를 참조하면, 일 실시예에 따른 입력 영상(500)은 복수의 프레임들로 구성된 동영상으로, 입력 영상(500)에 포함된 각각의 프레임은 축구를 하는 행위자와 축구 골대, 나무 등 배경으로 분류될 수 있다. 입력 영상(500)을 이용하여 행동 인식을 할 때, 배경보다는 행위자를 위주로, 다시 말해, 입력 영상(500)에 포함된 복수의 픽셀들 중 행위자에 해당하는 픽셀들을 위주로 분석하는 것이 바람직하다. 행위자에 해당하는 픽셀들과 같이 인식하려는 행동과 밀접한 관련이 있는 픽셀을 특징점이라고 할 수 있다. 다만, 입력 영상(500)에 노이즈가 있거나 입력 영상(500)에 포함된 복수의 프레임들마다 밝기가 변하는 경우, 일반적으로 입력 영상(500)으로부터 특징점을 정확히 검출하는 것이 어렵다. 실시예들은 주 방향이라는 개념을 도입함으로써, 입력 영상(500)으로부터 특징점을 정확하게 검출하는 기술을 제공할 수 있다.

주 방향은 시공간 그레디언트의 분포와 관련된다. 시공간 그레디언트는 시간 및 공간에 대한 그레디언트로, 예를 들어, 시공간 그레디언트는 단일 프레임 내 x축 방향의 그레디언트(541), 단일 프레임 내 y축 방향의 그레디언트(542), 및 복수의 프레임들 사이의 시간 축 방향의 그레디언트(543)로 구성될 수 있다. x축 방향의 그레디언트(541)는 x축 방향으로 변하는 밝기의 정도를 나타내고, y축 방향의 그레디언트(542)는 y축 방향으로 변하는 밝기의 정도를 나타내며, 시간 축 방향의 그레디언트(543)는 연속된 프레임들 사이에서 변하는 밝기의 정도를 나타낼 수 있다.

주 방향은 일정 크기의 패치(patch) 내 분포된 시공간 그레디언트의 분포로부터 계산될 수 있다. 일 예로, 축구를 하는 행위자에 해당하는 패치(510)는 뚜렷한 경계선을 가진다. 패치(510)가 확대된 패치(511)를 참조하면, 패치(510)에 포함된 복수의 픽셀들의 시공간 그레디언트들은 그룹(512)과 같이 경계선 주변에서 뚜렷한 방향성을 가질 수 있다. 그룹(512)에 포함된 각각의 벡터는 해당하는 픽셀에서의 시공간 그레디언트를 나타낸다. 여기서, 각각의 벡터의 시작점은 해당하는 픽셀에 위치하며, 각각의 벡터는 해당하는 픽셀에 비하여 더 밝은 방향으로 향한다. 설명의 편의를 위하여 그룹(512)에 포함된 각각의 벡터가 2차원으로 도시되었으나, 그룹(512)에 포함된 각각의 벡터는 시간 축 방향의 그레디언트(543)까지 포함하는 3차원 벡터이다.

패치(510)의 주 방향은 패치(510)에 포함된 복수의 픽셀들 각각의 시공간 그레디언트 분포로부터 계산될 수 있다. 예를 들어, 패치(510)의 주 방향은 그룹(512)에 포함된 복수의 벡터들의 조합으로 계산될 수 있다. 패치(510)의 주 방향은 그룹(512)에 포함된 복수의 벡터들이 가리키는 지배적인 방향일 수 있다. 패치(510)의 주 방향은 화살표(513)와 같이 표현될 수 있다. 여기서, 화살표(513)의 방향은 주 방향을 의미하고, 화살표(513)의 두께는 주 방향의 에너지를 의미한다. 주 방향의 에너지는 주 방향의 크기를 나타낸다. 주 방향의 에너지는 주 방향의 일관성 강도(strength of coherence)라고도 지칭될 수 있다. 예를 들어, 패치(510)에 포함된 시공간 그레디언트들은 경계선 주변에서 일관된 방향성을 가지므로, 패치(510)의 주 방향은 일관성 강도가 높다고 해석될 수 있다.

다른 예로, 플랫 영역(flat region)의 패치(520)에는 특별한 밝기 변화가 없다. 패치(520)가 확대된 패치(521)를 참조하면, 패치(520)에는 유의미한 값을 가지는 시공간 그레디언트가 존재하지 않는다. 이 경우, 패치(520)의 주 방향은 없다고 해석될 수 있다.

또 다른 예로, 고도로 텍스처된 영역(highly textured region)의 패치(530)는 규칙성이 없는 밝기 변화를 포함한다. 패치(530)가 확대된 패치(531)를 참조하면, 패치(530)에 포함된 복수의 픽셀들의 시공간 그레디언트들은 그룹(532)과 같이 규칙성이 없는 방향성을 가질 수 있다. 패치(530)의 주 방향은 패치(530)에 포함된 복수의 픽셀들 각각의 시공간 그레디언트 분포로부터 계산될 수 있다. 예를 들어, 앞서 설명한 것과 같이 패치(530)의 주 방향은 그룹(532)에 포함된 복수의 벡터들의 조합으로 계산될 수 있고 복수의 벡터들이 가리키는 지배적인 방향일 수 있다. 다만, 패치(510)의 경우와는 달리 패치(530)의 그룹(532)에 포함된 복수의 벡터들은 각기 다른 방향을 가리킨다. 이 경우, 패치(530)의 주 방향의 일관성 강도는 낮다고 해석될 수 있다. 패치(530)의 주 방향은 화살표(533)와 같이 표현될 수 있으며, 화살표(533)의 두께가 화살표(513)의 두께보다 얇게 표현된 것은 패치(530)의 주 방향의 에너지가 패치(510)의 주 방향의 에너지보다 작은 것을 의미한다.

특징점 검출부는 특징점 검출을 위하여 패치(510), 패치(520), 및 패치(530) 중에서 패치(510)을 선택할 수 있다. 다시 말해, 특징점 검출부는 주 방향이 뚜렷한 패치를 선택할 수 있다. 혹은, 특징점 검출부는 뚜렷한 경계선을 포함하는 패치를 선택할 수 있다. 아래에서 상세히 설명하겠지만, 특징점 검출부는 실질적으로 주 방향의 일관성 대비가 큰 패치를 선택한다. 주 방향의 일관성 대비에 관한 보다 상세한 설명은 후술한다. 특징점 검출부는 선택된 패치(510)에 대응하는 픽셀을 특징점으로 검출할 수 있다. 패치(510)에 대응하는 픽셀은 패치(510)의 중심에 위치한 픽셀일 수 있다.

도 5b를 참조하면, 일 실시예에 따른 입력 영상(550)은 사진 등 정지영상으로, 입력 영상(550)은 축구를 하는 행위자와 축구 골대, 나무 등 배경으로 분류될 수 있다. 입력 영상(550)이 사진 등 정지영상인 경우, 주 방향은 공간 그레디언트의 분포와 관련된다. 공간 그레디언트는 공간에 대한 그레디언트로, 예를 들어, 공간 그레디언트는 x축 방향의 그레디언트(541) 및 y축 방향의 그레디언트(542)로 구성될 수 있다.

주 방향은 일정 크기의 패치(patch) 내 분포된 공간 그레디언트의 분포로부터 계산될 수 있다. 일 예로, 축구를 하는 행위자에 해당하는 패치(560)는 뚜렷한 경계선을 가진다. 패치(560)가 확대된 패치(561)를 참조하면, 패치(560)에 포함된 복수의 픽셀들의 공간 그레디언트들은 그룹(562)과 같이 경계선 주변에서 뚜렷한 방향성을 가질 수 있다. 그룹(562)에 포함된 각각의 벡터는 해당하는 픽셀에서의 공간 그레디언트를 나타낸다. 여기서, 각각의 벡터의 시작점은 해당하는 픽셀에 위치하며, 각각의 벡터는 해당하는 픽셀에 비하여 더 밝은 방향으로 향한다.

패치(560)의 주 방향은 패치(560)에 포함된 복수의 픽셀들 각각의 공간 그레디언트 분포로부터 계산될 수 있다. 예를 들어, 패치(560)의 주 방향은 그룹(562)에 포함된 복수의 벡터들의 조합으로 계산될 수 있다. 패치(560)의 주 방향은 그룹(562)에 포함된 복수의 벡터들이 가리키는 지배적인 방향일 수 있다. 패치(560)의 주 방향은 화살표(563)와 같이 표현될 수 있다.

다른 예로, 플랫 영역의 패치(570)에는 특별한 밝기 변화가 없다. 패치(570)가 확대된 패치(571)를 참조하면, 패치(570)에는 유의미한 값을 가지는 공간 그레디언트가 존재하지 않는다. 이 경우, 패치(570)의 주 방향은 없다고 해석될 수 있다.

또 다른 예로, 고도로 텍스처된 영역의 패치(580)는 규칙성이 없는 밝기 변화를 포함한다. 패치(580)가 확대된 패치(581)를 참조하면, 패치(580)에 포함된 복수의 픽셀들의 공간 그레디언트들은 그룹(582)과 같이 규칙성이 없는 방향성을 가질 수 있다. 패치(580)의 주 방향은 패치(580)에 포함된 복수의 픽셀들 각각의 공간 그레디언트 분포로부터 계산될 수 있다. 예를 들어, 앞서 설명한 것과 같이 패치(580)의 주 방향은 그룹(582)에 포함된 복수의 벡터들의 조합으로 계산될 수 있고 복수의 벡터들이 가리키는 지배적인 방향일 수 있다. 다만, 패치(560)의 경우와는 달리 패치(580)의 그룹(582)에 포함된 복수의 벡터들은 각기 다른 방향을 가리킨다. 이 경우, 패치(580)의 주 방향의 일관성 강도는 낮다고 해석될 수 있다. 패치(580)의 주 방향은 화살표(583)와 같이 표현될 수 있다.

특징점 검출부는 특징점 검출을 위하여 패치(560), 패치(570), 및 패치(580) 중에서 패치(560)을 선택할 수 있다. 다시 말해, 특징점 검출부는 주 방향이 뚜렷한 패치를 선택할 수 있다. 혹은, 특징점 검출부는 뚜렷한 경계선을 포함하는 패치를 선택할 수 있다. 아래에서 상세히 설명하겠지만, 특징점 검출부는 실질적으로 주 방향의 일관성 대비가 큰 패치를 선택한다. 주 방향의 일관성 대비에 관한 보다 상세한 설명은 후술한다. 특징점 검출부는 선택된 패치(560)에 대응하는 픽셀을 특징점으로 검출할 수 있다. 패치(560)에 대응하는 픽셀은 패치(560)의 중심에 위치한 픽셀일 수 있다.

도 6a 내지 도 7를 통하여, 특징점 검출을 위한 동작 및 특징 벡터 생성을 위한 동작을 상세하게 설명하기에 앞서, 실시예들에 의해 이용되는 다양한 영역들을 간략하게 소개한다. 실시예들은 픽셀의 시공간 그레디언트를 계산하기 위한 영역, 구조텐서의 고유 분석을 통해 픽셀의 주 방향 및 주 방향 에너지를 계산하기 위한 영역, 주 방향 대비를 통해 특징점을 검출하기 위한 영역, 및 주 방향의 양자화와 주 방향 에너지의 누적을 통해 로컬 특징 벡터를 생성하기 위한 영역 등 다양한 영역들을 설정할 수 있다.

예를 들어, 픽셀의 시공간 그레디언트를 계산하기 위한 영역은 픽셀 주변의 8개의 인접 픽셀들 및 이전 프레임의 적어도 하나의 인접 픽셀을 포함하도록 설정될 수 있다. 또한, 픽셀의 주 방향 및 주 방향 에너지를 계산하기 위한 영역은 픽셀을 포함하는 3 x 3 픽셀 크기의 영역으로 설정될 수 있다. 또한, 특징점을 검출하기 위한 영역은 5 x 5 픽셀 크기의 영역으로 설정될 수 있다. 또한, 로컬 특징 벡터를 생성하기 위한 영역은 특징점을 포함하는 5 x 5 픽셀 크기의 영역으로 설정될 수 있다.

물론 이러한 설정들은 다양하게 변형될 수 있다. 예를 들어, 픽셀의 주 방향 및 주 방향 에너지를 계산하기 위한 영역, 특징점을 검출하기 위한 영역, 및 로컬 특징 벡터를 생성하기 위한 영역 모두 3 x 3 픽셀 크기의 영역으로 설정될 수 있다.

도 6a는 일 실시예에 따른 시공간 그레디언트 분포의 주 방향 분석을 설명하는 도면이다. 도 6a를 참조하면, 일 실시예에 따른 특징점 검출부는 입력 영상(610)에 포함된 복수의 픽셀들의 시공간 그레디언트들을 계산한다. 특징점 검출부는 특정 픽셀의 시공간 그레디언트를 계산하기 위하여 특정 픽셀이 속한 프레임(이하, 현재 프레임이라고 함) 및 현재 프레임의 바로 이전 프레임(이하, 이전 프레임이라고 함)을 이용할 수 있다. 예를 들어, 특징점 검출부는 전술한 "픽셀의 시공간 그레디언트를 계산하기 위한 영역"을 이용할 수 있다. 특징점 검출부는 현재 프레임에서 특정 픽셀과 인접한 픽셀들을 이용하여 공간 그레이언트를 계산할 수 있다. 특정점 검출부는 복수의 인접 픽셀들과 특정 픽셀 사이의 밝기 차이를 이용하여 특정 픽셀의 공간 그레디언트를 계산할 수 있다. 나아가, 특징점 검출부는 이전 프레임에서 특정 픽셀과 인접한 적어도 하나의 픽셀을 이용하여 시간 그레디언트를 계산할 수 있다. 특징점 검출부는 적어도 하나의 인접 픽셀과 특정 픽셀 사이의 밝기 차이를 이용하여 특정 픽셀의 시간 그레디언트를 계산할 수 있다.

입력 영상(610)에 포함된 패치(620)을 참조하면, 좌 상단에 위치한 픽셀들의 밝기는 어둡고 우 하단에 위치한 픽셀들의 밝기는 밝다. 이 경우, 패치(620)에 포함된 복수의 픽셀들의 시공간 그레디언트들은 매트릭스(630)과 같이 표현될 수 있다. 여기서, 매트릭스(630)에 포함된 각각의 벡터는 해당하는 픽셀의 시공간 그레디언트를 의미한다. 매트릭스(630)에 포함된 각각의 벡터의 시작점은 해당하는 픽셀에 위치하며, 각각의 벡터는 해당하는 픽셀에 비하여 더 밝은 방향으로 향한다. 설명의 편의를 위하여 매트릭스(630)에 포함된 각각의 벡터가 2차원으로 도시되었으나, 매트릭스(630)에 포함된 각각의 벡터는 x축 방향의 그레디언트, y축 방향의 그레디언트, 및 시간 축 방향의 그레디언트를 포함하는 3차원 벡터이다.

도 6b는 일 실시예에 따른 구조 텐서의 계산을 설명하는 도면이다. 특징점 검출부는 계산된 시공간 그레디언트를 이용하여 구조 텐서(structure tensor)를 계산할 수 있다. 구조 텐서는 수학식 3과 같이 정의된다.

여기서, i는 픽셀의 인덱스이고, G_x는 i번째 픽셀에서 x축 방향의 그레디언트이며, G_y는 i번째 픽셀에서 y축 방향의 그레디언트이고, G_t는 i번째 픽셀에서 시간 축 방향의 그레디언트이다. G_t는 t번째 프레임과 (t-1)번째 프레임과 같이 연속하는 프레임들을 이용하여 계산될 수 있다. 또는, G_t는 t번째 프레임과 (t-N)번째 프레임과 같이 연속하지 않는 프레임들을 이용하여 계산될 수 있다. 여기서, N은 1 보다 큰 양의 정수이다.

B는 구조 텐서를 계산하기 위한 블록, 또는 주 방향을 계산하기 위한 윈도우이다. 여기서, B는 전술한 "픽셀의 주 방향 및 주 방향 에너지를 계산하기 위한 영역"에 대응할 수 있다. B의 크기는 미리 설정될 수 있으며, 예를 들어 B는 i번째 픽셀을 포함하는 3 x 3 픽셀 크기의 이미지 블록, i번째 픽셀을 포함하는 5 x 5 픽셀 크기의 이미지 블록 등으로 다양하게 설정될 수 있다. 여기서, B의 크기는 (x축 방향의 픽셀 수) x (y축 방향의 픽셀 수)로 이해될 수 있다.

도 6b의 매트릭스(630)을 참조하면, B가 3 x 3 픽셀 크기의 영역으로 설정되는 경우, 픽셀 i의 구조 텐서는 블록(631) 내 픽셀들(a, b, c, d, i, e, f, g, h)의 시공간 그레디언트들을 이용하여 계산될 수 있다. 또한, 픽셀 f의 구조 텐서는 블록(632) 내 픽셀들(A, d, i, B, f, g, C, D, E)의 시공간 그레디언트들을 이용하여 계산될 수 있다.

특징점 검출부는 구조 텐서에 대한 고유 분석(Eigen analysis)를 통하여 시공간 그레디언트 분포의 주 방향 및 주 방향 에너지를 계산할 수 있다. 예를 들어, 특징점 검출부는 S_i e_i = λ_i e_i를 만족하는 고유값(Eigen value) λ_i 및 고유 벡터(Eigen vector) e_i를 계산할 수 있다. S_i가 수학식 3과 같이 3 x 3 매트릭스인 경우, S_i에 대하여 세 개의 고유값들 λ_i= [λ¹ _i λ² _i λ³ _i]이 계산될 수 있다. 또한, S_i에 대하여 세 개의 고유벡터들 e_i = [e¹ _i e² _i e³ _i]이 계산될 수 있다. 여기서, λ¹ _i는 e¹ _i에 대응되고, λ² _i는 e² _i에 대응되며, λ³ _i는 e³ _i에 대응되고, λ¹ _i > λ² _i > λ³ _i 일 수 있다.

이처럼 특징점 검출부는 각각의 픽셀에 대하여 최대 고유값 및 최대 고유값에 대응하는 고유 벡터의 페어를 계산할 수 있다. 각각의 픽셀에 대하여 계산된 고유 벡터의 페어는 도 6a의 매트릭스(640)처럼 표현될 수 있다. 매트릭스(640)을 참조하면, i번째 픽셀을 위한 페어 A_i는 (λ¹ _i, e¹ _i)일 수 있다. 여기서, 최대 고유값 λ¹ _i이 주 방향 에너지에 해당하고, 최대 고유값에 대응하는 고유 벡터 e¹ _i가 주 방향에 해당한다.

경우에 따라서, i번째 픽셀을 위한 페어 A_i는 다양하게 변형될 수 있다. 예를 들어, i번째 픽셀을 위한 페어 A_i는 (c, e¹ _i)일 수 있다. 여기서, 일관성 강도 c는 (λ¹ _i - λ² _i) 또는 (λ¹ _i - λ³ _i) 등 미리 정해진 관계에 있는 고유값들의 차이로 계산될 수 있다. 일관성 강도 c는 주 방향 에너지로 지칭될 수 있다.

도 6c는 일 실시예에 따른 주 방향의 일관성 대비를 이용한 특징점의 검출을 설명하는 도면이다. 도 6c를 참조하면, 특징점 검출부는 주 방향의 일관성 대비에 기초하여 특징점을 검출할 수 있다. 보다 구체적으로, 특징점 검출부는 수학식 4를 이용하여 각 픽셀에서의 D_i를 계산할 수 있다.

여기서, W_i는 i번째 픽셀이 특징점인지 여부를 판단하기 위한 윈도우(window), 또는 주 방향 대비를 계산하기 위한 윈도우이다. 여기서, W_i는 전술한 "특징점을 검출하기 위한 영역"에 대응할 수 있다. W_i의 크기는 미리 설정될 수 있으며, 예를 들어 W는 i번째 픽셀을 포함하는 3 x 3 픽셀 크기의 이미지 블록, i번째 픽셀을 포함하는 5 x 5 픽셀 크기의 이미지 블록, i번째 픽셀을 포함하는 7 x 7 픽셀 크기의 이미지 블록 등으로 다양하게 설정될 수 있다. 여기서, W_i의 크기는 (x축 방향의 픽셀 수) x (y축 방향의 픽셀 수)로 이해될 수 있다.

D_i는 i번째 픽셀의 최대 고유값과 W_i 내 이웃 픽셀들의 최대 고유값들 사이의 차이들의 합이다. 도 6c의 매트릭스(640)을 참조하면, 8번째 픽셀의 D₈은 λ¹ ₈과 윈도우(641) 내 주변 픽셀들의 최대 고유값들 사이의 차이를 합산함으로써 계산될 수 있다. 또는, 17번째 픽셀의 D₁₇은 λ¹ ₁₇과 윈도우(642) 내 주변 픽셀들의 최대 고유값들 사이의 차이를 합산함으로써 계산될 수 있다.

다른 실시예에 따라 i번째 픽셀을 위한 페어 A_i가 (c, e¹ _i)인 경우, 특징점 검출부는 수학식 5를 이용하여 각 픽셀에서의 D_i를 계산할 수 있다.

특징점 검출부는 수학식 4 또는 수학식 5를 통하여 계산된 D_i가 임계값 τ보다 큰 경우, i번째 픽셀을 특징점으로 결정할 수 있다. 예를 들어, 특징점 검출부는 D₈> τ 이라는 판단에 따라 8번째 픽셀을 특징점으로 결정할 수 있다. 또한, 특징점 검출부는 D₁₇> τ 이라는 판단에 따라 17번째 픽셀을 특징점으로 결정할 수 있다. 반면, 특징점 검출부는 D₁₉< τ 이라는 판단에 따라 19번째 픽셀을 특징점이 아니라고 결정할 수 있다. 또는, 특징점 검출부는 D_i가 상위 N%(예를 들어, 상위 2%)에 속하는 경우, i번째 픽셀을 특징점으로 결정할 수 있다.

다시 도 6a를 참조하면, 특징점 검출부는 매트릭스(650)에서 픽셀(651)과 픽셀(653)을 특징점으로 검출할 수 있다. 픽셀(651)은 도 6c의 매트릭스(640)에 포함된 8번째 픽셀에 대응하고, 픽셀(653)은 도 6c의 매트릭스(640)에 포함된 17번째 픽셀에 대응할 수 있다. 또한, 픽셀(651)을 위한 윈도우(652)는 도 6c의 윈도우(641)에 대응하고, 픽셀(653)을 위한 윈도우(654)는 도 6c의 윈도우(642)에 대응할 수 있다. 특징점 검출부는 전술한 동작을 통하여 입력 영상에 포함된 복수의 특징점들을 검출할 수 있다.

도 6d는 일 실시예에 따른 공간 그레디언트 분포의 주 방향 분석을 설명하는 도면이다. 도 6d를 참조하면, 입력 영상(661)은 사진 등 정지영상일 수 있다. 입력 영상(661)이 동영상이 아닌 정지영상인 경우, 일 실시예에 따른 특징점 검출부는 시공간 그레디언트 분포의 주 방향 분석 대신 공간 그레디언트 분포의 주 방향 분석을 이용하여 특징점을 검출할 수 있다.

특징점 검출부는 입력 영상에 포함된 복수의 픽셀들의 공간 그레디언트들을 계산할 수 있다. 공간 그레디언트는 x축 방향의 그레디언트 G_x 및 y축 방향의 그레디언트 G_y를 포함하는 2차원 벡터일 수 있다. 입력 영상(661)에 포함된 패치(662)에서, 각 픽셀들의 공간 그레디언트는 매트릭스(663)과 같이 표현될 수 있다. 매트릭스(663)에 도시된 화살표들 각각은 2차원 벡터를 나타낸다.

특징점 검출부는 계산된 공간 그레디언트를 이용하여 구조 텐서를 계산할 수 있다. 이 경우, 구조 텐서는 수학식 6과 같이 정의된다.

여기서, i는 픽셀의 인덱스이고, G_x는 i번째 픽셀에서 x축 방향의 그레디언트이며, G_y는 i번째 픽셀에서 y축 방향의 그레디언트이다. B는 구조 텐서를 계산하기 위한 블록, 또는 주 방향을 계산하기 위한 윈도우이며, 전술한 "픽셀의 주 방향 및 주 방향 에너지를 계산하기 위한 영역"에 대응할 수 있다.

특징점 검출부는 구조 텐서에 대한 고유 분석을 통하여 공간 그레디언트 분포의 주 방향 및 주 방향 에너지를 계산할 수 있다. 예를 들어, 특징점 검출부는 S_i e_i = λ_i e_i를 만족하는 고유값 λ_i 및 고유 벡터 e_i를 계산할 수 있다. S_i가 수학식 6과 같이 2 x 2 매트릭스인 경우, S_i에 대하여 두 개의 고유값들 λ_i= [λ¹ _i λ² _i]이 계산될 수 있다. 또한, S_i에 대하여 두 개의 고유벡터들 e_i = [e¹ _i e² _i]이 계산될 수 있다. 여기서, λ¹ _i는 e¹ _i에 대응되고, λ² _i는 e² _i에 대응되며, λ¹ _i > λ² _i 일 수 있다.

특징점 검출부는 각각의 픽셀에 대하여 최대 고유값 및 최대 고유값에 대응하는 고유 벡터의 페어를 계산할 수 있다. 각각의 픽셀에 대하여 계산된 고유 벡터의 페어는 매트릭스(664)처럼 표현될 수 있다. 매트릭스(664)를 참조하면, i번째 픽셀을 위한 페어 A_i는 (λ¹ _i, e¹ _i)일 수 있다. 여기서, 최대 고유값 λ¹ _i이 주 방향 에너지에 해당하고, 최대 고유값에 대응하는 고유 벡터 e¹ _i가 주 방향에 해당한다.

특징점 검출부는 주 방향의 일관성 대비에 기초하여 특징점을 검출할 수 있다. 보다 구체적으로, 특징점 검출부는 수학식 4를 이용하여 각 픽셀에서의 D_i를 계산할 수 있다.

경우에 따라서, i번째 픽셀을 위한 페어 A_i는 다양하게 변형될 수 있다. 예를 들어, i번째 픽셀을 위한 페어 A_i는 (c,

)일 수 있다. 여기서, 주 방향

는 최대 고유값 λ¹ _i에 대응하는 고유 벡터 e¹ _i의 방향이다. 주 방향

는 tan^-1(e¹ _i,y / e¹ _i,x)로 계산될 수 있다. e¹ _i,y는 고유 벡터 e¹ _i의 y축 방향 성분이고, e¹ _i,x는 고유 벡터 e¹ _i의 x축 방향 성분이다. 또한, 일관성 강도 c는 (λ¹ _i - λ² _i)로 계산될 수 있다. 일관성 강도 c는 주 방향 에너지로 지칭될 수 있다. 이 경우, 특징점 검출부는 주 방향의 일관성 대비에 기초하여 특징점을 검출하기 위하여, 수학식 5를 이용하여 각 픽셀에서의 D_i를 계산할 수 있다.

D_i는 i번째 픽셀의 일관성 강도와 W_i 내 이웃 픽셀들의 일관성 강도들 사이의 차이들의 합이다. 특징점 검출부는 D_i가 임계값 τ보다 큰 경우, i번째 픽셀을 특징점으로 결정할 수 있다. 또는, 특징점 검출부는 D_i가 상위 N%(예를 들어, 상위 2%)에 속하는 경우, i번째 픽셀을 특징점을 결정할 수 있다. 예를 들어, 특징점 검출부는 매트릭스(665)에서 픽셀(666)과 픽셀(667)을 특징점으로 검출할 수 있다.

다른 실시예에 따르면, 입력 영상이 정지영상인 경우, 픽셀들의 수가 많지 않으므로 특징점을 검출하는 과정을 생략할 수 있다. 이 경우, 입력 영상에 포함된 모든 픽셀들을 위한 로컬 특징 벡터들이 생성될 수 있다. 로컬 특징 벡터들의 생성과 관련된 보다 상세한 사항들은 후술한다.

도 7a는 일 실시예에 따른 특징 벡터의 생성을 설명하는 도면들이다. 일 실시예에 따른 로컬 특징 벡터 생성부는 특징점에 대응하는 특징 벡터를 생성한다. 전술한 바와 같이, 특징점에 대응하는 특징 벡터는 로컬 특징 벡터 또는 로컬 디스크립터라고 지칭될 수 있다. 로컬 특징 벡터 생성부는 검출된 특징점의 주 방향을 양자화(quantization)할 수 있다. 예를 들어, 로컬 특징 벡터 생성부는 검출된 특징점의 주 방향을 미리 정해진 크기의 빈(bin)들에 매핑할 수 있다. 여기서, 미리 정해진 크기의 빈들은 (x, y, t)의 3차원 시공간을 미리 정해진 크기로 양자화한다. 도 7a를 참조하면, (x, y, t)의 3차원 시공간은 (

,

)로 표현될 수 있다. 로컬 특징 벡터 생성부는 수학식 7을 이용하여 검출된 특징점의 주 방향을 (

,

)로 변환할 수 있다.

여기서, e¹은 검출된 특징점의 주 방향에 대응하는 고유 벡터이고, e¹ _x, e¹ _y, e¹ _t는 각각 고유 벡터의 x축 성분, y축 성분, t축 성분이다. 일 예로, 미리 정해진 크기의 빈들은

를 8개의 빈들로 양자화하고,

를 5개의 빈들로 양자화할 수 있다. 이 경우, 3차원 시공간은 총 40개의 빈들로 양자화될 수 있다.

로컬 특징 벡터 생성부는 특징점의 주 방향을 미리 정해진 크기의 빈들 중 어느 하나의 빈에 매핑한 뒤, 매핑된 빈에 특징점의 주 방향 에너지를 누적시킬 수 있다. 예를 들어, 검출된 특징점의 주 방향이 고유 벡터(710)인 경우, 로컬 특징 벡터 생성부는

(711),

(712)의 쌍으로 지시되는 고유 벡터(710)을 미리 정해진 크기의 빈들(730) 중 어느 하나의 빈으로 매핑할 수 있다. 또한, 로컬 특징 벡터 생성부는 특징점에 대응하는 로컬 영역을 설정하고, 로컬 영역에 포함된 복수의 픽셀들에 대하여 전술한 주 방향 매핑 및 주 방향 에너지의 누적을 적용할 수 있다. 여기서, 로컬 영역은 특징점과 특징점 주변의 픽셀들을 포함하는 매트릭스로, 전술한 "로컬 특징 벡터를 생성하기 위한 영역"에 대응할 수 있다. 이 경우, 로컬 특징 벡터 생성부는 특징점뿐만 아니라 특징점 주변의 로컬 영역 내 모든 픽셀들 각각의 주 방향을 미리 정해진 빈들로 매핑하고, 매핑된 빈에 주 방향 에너지를 누적시킬 수 있다. 예를 들어, 로컬 영역에 포함된 제1 특징점의 주 방향 고유 벡터(710)에 추가하여 로컬 영역에 포함된 각각의 픽셀에 대하여 주 방향 고유 벡터(720)를 매핑하여 주 방향 에너지를 누적시킬 수 있다. 누적된 결과는 특징점에 대응하는 특징 벡터가 된다.

그 결과, 미리 정해진 빈들(730) 각각에는 누적 에너지(731), 누적 에너지(732)와 같이 다양한 크기의 주 방향 에너지들이 누적될 수 있다. 여기서, 주 방향 에너지는 주 방향의 일관성 강도라고 표현될 수 있으므로, 각각의 빈들에 주 방향의 일관성 강도가 누적된다고 표현될 수 있다. 보다 구체적으로, 로컬 특징 벡터 생성부는 수학식 8을 이용하여 검출된 특징점 i에 대응하는 로컬 영역에서 f^local _i를 계산할 수 있다.

여기서,

는 K개의 빈들로 양자화되고,

는 L개의 빈들로 양자화되며,

와

는 특징점 i의 주 방향이 양자화된 각도를 의미한다. f^local _i는 특징점 i에 대응하는 로컬 특징 벡터이다.

도 7b를 참조하면, 입력 영상이 정지영상인 경우, 주 방향은 2차원 벡터로 계산될 수 있다. 이 경우, (x, y)의 2차원 시공간은

로 표현될 수 있고,

는 tan^-1(e¹ _i,y / e¹ _i,x)로 계산될 수 있다. 여기서, e¹ _i,y는 고유 벡터 e¹ _i의 y축 방향 벡터 성분이고, e¹ _i,x는 고유 벡터 e¹ _i의 x축 방향 벡터 성분이다. 로컬 특징 벡터 생성부는 특징점의 주 방향

(740)을 양자화할 수 있다. 예를 들어, 로컬 특징 벡터 생성부는 특징점의 주 방향

(740)을 미리 정해진 크기의 빈들(760)에 매핑할 수 있다. 여기서, 미리 정해진 크기의 빈들(760)은 1차원 공간을 미리 정해진 크기로 양자화한다. 일 예로, 미리 정해진 크기의 빈들(760)은

를 8개의 빈들로 양자화할 수 있다. 이 경우, 1차원 공간은 8개의 빈들로 양자화될 수 있다.

로컬 특징 벡터 생성부는 특징점의 주 방향을 미리 정해진 크기의 빈들 중 어느 하나의 빈에 매핑한 뒤, 매핑된 빈에 특징점의 주 방향 에너지를 누적시킬 수 있다. 예를 들어, 로컬 특징 벡터 생성부는 특징점에 대응하는 로컬 영역을 설정하고, 로컬 영역에 포함된 복수의 픽셀들에 대하여 전술한 주 방향 매핑 및 주 방향 에너지의 누적을 적용할 수 있다. 이 경우, 로컬 특징 벡터 생성부는 특징점뿐만 아니라 특징점 주변의 로컬 영역 내 모든 픽셀들 각각의 주 방향을 미리 정해진 빈들로 매핑하고, 매핑된 빈에 주 방향 에너지를 누적시킬 수 있다. 예를 들어, 로컬 영역에 포함된 제1 특징점의 주 방향에 추가하여 로컬 영역에 포함된 각각의 다른 픽셀에 대하여 주 방향을 매핑하여 주 방향 에너지를 누적시킬 수 있다. 누적된 결과는 특징점에 대응하는 특징 벡터가 된다.

그 결과, 미리 정해진 빈들(760) 각각에는 누적 에너지(761 내지 764)와 같이 다양한 크기의 주 방향 에너지들이 누적될 수 있다. 여기서, 주 방향 에너지는 주 방향의 일관성 강도라고 표현될 수 있으므로, 각각의 빈들에 주 방향의 일관성 강도가 누적된다고 표현될 수 있다.

다른 실시예에 따르면, 입력 영상이 정지영상인 경우, 특징점을 검출하는 과정이 생략될 수 있다. 이 경우, 로컬 특징 벡터 생성부는 입력 영상에 포함된 모든 픽셀들 각각의 주 방향

을 양자화하고 미리 정해진 크기의 빈들 중 어느 하나의 빈에 매핑하여 주 방향 에너지를 누적시킬 수 있다. 로컬 특징 벡터 생성부는 입력 영상에 포함된 모든 픽셀들 각각에 대응하는 로컬 영역을 설정할 수 있다. 로컬 특징 벡터 생성부는 로컬 영역 단위로 주 방향 매핑 및 주 방향 에너지의 누적을 적용함으로써, 로컬 영역 각각에 대응하는 로컬 특징 벡터를 생성할 수 있다.

도 8은 일 실시예에 따른 히스토그램의 생성을 설명하는 도면이다. 도 8을 참조하면, 하나의 입력 영상으로부터 복수의 특징점들(810, 820)이 검출될 수 있다. 일 실시예에 따른 히스토그램 생성부는 복수의 특징점들(810, 820)에 대응하는 특징 벡터들(815, 825)을 코드북(830)에 매핑함으로써, 입력 영상에 대응하는 히스토그램(835)을 생성할 수 있다. 실시예들은 코드북 기반 히스토그램을 이용함으로써, 개별 특징점 단위 또는 개별 프레임 단위가 아닌 복수의 프레임들을 포함하는 단일 영상 단위로 영상의 특성을 분석할 수 있다.

일 예로, 히스토그램 생성부는 제1 특징점(810)에 대응하는 제1 특징 벡터(815)를 코드북(830)에 포함된 복수의 코드워드들 중 어느 하나로 매핑할 수 있다. 여기서, 코드북(830)에 포함된 복수의 코드워드들 각각은 전술한 군집화 기법을 이용하여 생성된 벡터들로서 트레이닝 영상을 대표하는 로컬 특징 벡터의 특성일 수 있다.

히스토그램 생성부는 코드북(830)에 포함된 복수의 코드워드들 중 제1 특징 벡터(815)와 가장 유사한 코드워드로 제1 특징 벡터(815)를 매핑할 수 있다. 예를 들어, 히스토그램 생성부는 하드 양자화(hard quantization) 기법, 소프트 양자화(soft quantization) 기법, 및 스파스 코딩(sparse coding) 기법 등 다양한 매핑 기법을 이용하여 코드북 매핑을 수행할 수 있다. 또한, 히스토그램 생성부는 제n 특징점(820)에 대응하는 제n 특징 벡터(825)를 코드북(830)에 포함된 복수의 코드워드들 중 어느 하나로 매핑할 수 있다. 히스토그램 생성부는 코드북(830)에 포함된 복수의 코드워드들 중 제n 특징 벡터(825)와 가장 유사한 코드워드로 제n 특징 벡터(825)를 매핑할 수 있다. 다른 특징 벡터가 동일한 코드워드로 매핑되는 경우 히스토그램 생성부는 매핑된 코드워드의 카운트(count)를 증가시킬 수 있다.

이처럼 하나의 입력 영상으로부터 검출된 복수의 특징점들에 대응하는 복수의 특징 벡터들이 코드북(830)에 매핑됨으로써 히스토그램(835)이 생성되므로, 히스토그램(835)은 입력 영상 단위의 특성을 반영할 수 있다. 다만, 영상마다 프레임 수가 다르고, 그로 인하여 검출되는 특징점들의 수도 다를 수 있다. 특징점들이 상대적으로 많이 검출되는 영상(예를 들어, 프레임 수가 많은 영상)의 히스토그램은 특징점이 상대적으로 적게 검출되는 영상(예를 들어, 프레임 수가 적은 영상)의 히스토그램에 비하여 히스토그램의 진폭(amplitude)이 전체적으로 클 수 있으므로, 히스토그램 생성부는 히스토그램(835)을 정규화할 수 있다. 예를 들어, 히스토그램 생성부는 L-1 norm, L-2 norm 등을 이용하여 히스토그램(835)를 정규화할 수 있다.

다른 실시예에 따르면, 입력 영상이 정지영상인 경우 특징점을 검출하는 과정이 생략될 수 있다. 이 경우, 히스토그램 생성부는 입력 영상에 포함된 모든 픽셀들에 대응하는 특징 벡터들을 코드북에 매핑함으로써, 입력 영상에 대응하는 히스토그램을 생성할 수 있다.

도 9는 일 실시예에 따른 글로벌 특징 벡터의 생성을 설명하는 도면이다. 도 9를 참조하면, 일 실시예에 따른 글로벌 특징 벡터 생성부는 입력 영상을 주파수 분석함으로써 글로벌 특징 벡터를 생성할 수 있다. 일 예로, 글로벌 특징 벡터 생성부는 입력 영상에 포함된 복수의 프레임들 중 어느 하나의 프레임(910)을 랜덤하게 또는 미리 정해진 방식에 따라 선택할 수 있다. 글로벌 특징 벡터 생성부는 선택된 프레임(910)을 주파수 분석할 수 있다. 주파수 분석 결과 복수의 (진폭, 위상) 페어들이 도출된다. 글로벌 특징 벡터 생성부는 복수의 위상들을 미리 정해진 수(예를 들어, 8개)의 빈들로 양자화할 수 있다. 글로벌 특징 벡터 생성부는 각각의 페어들에 포함된 위상을 미리 정해진 수의 빈들 중 어느 하나의 빈으로 매핑하고, 매핑된 빈에 해당 페어의 진폭을 누적시킬 수 있다. 그 결과, 글로벌 특징 벡터(915)가 생성될 수 있다. 복수의 위상들이 8개의 빈들로 양자화되는 경우, 글로벌 특징 벡터(915)는 8 디멘션을 가질 수 있다.

다른 예로, 글로벌 특징 벡터 생성부는 공간적 피라미드(spatial pyramid)를 이용하여 글로벌 특징 벡터를 생성할 수 있다. 글로벌 특징 벡터 생성부는 입력 영상에 포함된 복수의 프레임들 중 어느 하나의 프레임을 랜덤하게 또는 미리 정해진 방식에 따라 선택할 수 있다. 글로벌 특징 벡터 생성부는 프레임을 다양한 글로벌 영역들의 조합으로 분할할 수 있다. 예를 들어, 글로벌 특징 벡터 생성부는 프레임을 4개의 글로벌 영역들(920)로 분할할 수 있다. 또한, 글로벌 특징 벡터 생성부는 프레임을 16개의 글로벌 영역들(930)로 분할할 수 있다.

하나의 글로벌 영역(910)인 경우와 마찬가지로, 글로벌 특징 벡터 생성부는 4개의 글로벌 영역들(920) 각각을 주파수 분석할 수 있다. 주파수 분석 결과 각각의 글로벌 영역들에 대하여 복수의 (진폭, 위상) 페어들이 도출된다. 글로벌 특징 벡터 생성부는 각각의 글로벌 영역들에 대하여 도출된 복수의 위상들을 미리 정해진 수(예를 들어, 8개)의 빈들로 양자화할 수 있다. 글로벌 특징 벡터 생성부는 각각의 페어들에 포함된 위상을 미리 정해진 수의 빈들 중 어느 하나의 빈으로 매핑하고, 매핑된 빈에 해당 페어의 진폭을 누적시킬 수 있다. 그 결과, 4개의 글로벌 특징 벡터들(925)이 생성될 수 있다. 16개의 글로벌 영역들(930)의 경우에도 마찬가지로 16개의 특징벡터들(935)이 생성될 수 있다. 복수의 위상들이 8개의 빈들로 양자화되는 경우, 글로벌 특징 벡터들(925) 및 글로벌 특징 벡터들(935)은 각각 8 디멘션을 가질 수 있다.

글로벌 특징 벡터 생성부는 총 21개의 글로벌 특징 벡터들을 결합시켜, 최종 글로벌 특징 벡터(940)를 생성할 수 있다. 복수의 위상들이 8개의 빈들로 양자화되는 경우 21개의 글로벌 특징 벡터들 각각은 8 디멘션을 가지므로, 최종 글로벌 특징 벡터(940)는 168 디멘션을 가질 수 있다.

또 다른 예로, 글로벌 특징 벡터 생성부는 입력 영상에 포함된 복수의 프레임들 중 일부 프레임들을 랜덤하게 또는 미리 정해진 방식에 따라 선택할 수 있다. 예를 들어, 글로벌 특징 벡터 생성부는 복수의 프레임들 중 10개의 프레임들을 랜덤하게 선택할 수 있다. 글로벌 특징 벡터 생성부는 전술한 방법에 따라 일부 프레임들 각각에 대하여 글로벌 특징 벡터를 생성할 수 있다. 예를 들어, 글로벌 특징 벡터 생성부는 랜덤하게 선택된 10개의 프레임들 각각에 대하여 공간적 피라미드를 이용한 글로벌 특징 벡터들을 생성할 수 있다. 글로벌 특징 벡터 생성부는 생성된 10개의 글로벌 특징 벡터들을 평균 냄으로써, 최종 글로벌 특징 벡터를 생성할 수 있다.

도 10은 일 실시예에 따른 무 감독 학습부 및 트레이닝 영상 생성부를 설명하는 도면이다. 도 10을 참조하면, 일 실시예에 따른 무 감독 학습부(1010)는 히스토그램 생성부(420)에 의해 생성된 히스토그램을 무 감독 학습함으로써, 중간 레벨 특징 벡터를 생성한다. 예를 들어, 무 감독 학습부(1010)는 제한 볼츠만 머신(Restricted Boltzmann Machine, RBM) 또는 콘볼루션 스파스 RBM(Convolution Sparse RBM) 등을 통해 가중치(weight)를 학습하고, 생성된 히스토그램에 포함된 복수의 코드워드들에 대한 콘볼루션(convolution)을 통해 중간 레벨 특징 벡터를 추출할 수 있다. 이 경우, 분류기 학습부(430)는 무 감독 학습부(1010)에 의해 생성된 중간 레벨 특징 벡터를 이용하여 분류기를 학습시킬 수 있다.

또한, 따른 무 감독 학습부(1010)는 입력 영상으로부터 랜덤하게 추출한 영상 패치를 무 감독 학습할 수 있다. 무 감독 학습부(1010)는 히스토그램 및 영상 패치에 대한 무 감독 학습을 통하여 추출된 특징을 조합함으로써, 중간 레벨 특징 벡터를 생성할 수 있다.

도 11은 일 실시예에 따른 중간레벨 변환부를 설명하는 도면이다. 도 11을 참조하면, 일 실시예에 따른 중간 레벨 변환부(1110)는 히스토그램 생성부(210)에 의해 생성된 히스토그램을 중간 레벨 특징 벡터로 변환할 수 있다. 예를 들어, 중간 레벨 변환부(1110)는 도 10의 무 감독 학습부(1010)에 의해 학습된 가중치를 이용하여, 히스토그램에 포함된 복수의 코드워드들에 대한 콘볼루션을 통해 중간 레벨 특징 벡터를 추출할 수 있다. 이 경우, 인식기(220)는 중간 레벨 변환부(1110)에 의해 추출된 중간 레벨 특징 벡터를 이용하여 실제 영상에 포함된 행동을 인식할 수 있다. 도 11에 도시된 각 모듈들에는 도 1a 내지 도 9를 통하여 기술한 사항들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

도 10의 트레이닝 영상 생성부(1020)는 행위자 모델을 이용하여 트레이닝 영상을 생성할 수 있다. 도 12를 참조하면, 트레이닝 영상 생성부(1020)는 행위자 모델(1210)을 이용하여 트레이닝 영상을 합성할 수 있다. 예를 들어, 트레이닝 영상 생성부(1020)는 행위자 모델(1210)에 기초하여 다양한 체형들(1221, 1222)에 대한 합성 트레이닝 영상들을 생성할 수 있다. 또는, 트레이닝 영상 생성부(1020)는 행위자 모델(1210)에 기초하여 다양한 배경들(1231, 1232)에 대한 합성 트레이닝 영상들을 생성할 수 있다. 또는, 트레이닝 영상 생성부(1020)는 행위자 모델(1210)에 기초하여 다양한 영상 시점들에 대한 합성 트레이닝 영상들을 생성할 수 있다. 또는, 트레이닝 영상 생성부(1020)는 행위자 모델(1210)에 기초하여 다양한 행위 속도에 대한 합성 트레이닝 영상들을 생성할 수 있다. 또는, 트레이닝 영상 생성부(1020)는 전술한 합성들의 다양한 조합에 따른 다양한 합성 트레이닝 영상들을 생성할 수 있다. 실시예들은 트레이닝 영상 생성부(1020)에 의해 생성된 수많은 트레이닝 영상들을 기반으로 각 행동의 다양한 변이(intra-class variation) 및 유사 행동 구분(inter-class variation)을 효과적으로 학습하도록 하는 기술을 제공할 수 있다. 도 10에 도시된 각 모듈들에는 도 1a 내지 도 9를 통하여 기술한 사항들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

도 13은 일 실시예에 따른 특징점 검출 성능을 설명하는 도면이다. 도 13을 참조하면, 입력 영상에 포함된 복수의 프레임들 사이에 조명이 변하는 경우, 특징점 검출 성능에 영향을 미칠 수 있다. 예를 들어, 75번째 프레임(1310)의 밝기와 그 다음 프레임인 76번째 프레임(1320)의 밝기가 서로 다를 수 있다. 이 경우, 행위자가 아닌 배경에서도 밝기의 변화가 일어날 수 있고, 배경에서의 밝기의 변화로 인하여 배경에서 특징점들이 다수 검출될 수 있다. 배경에서 검출된 특징점들은 영상에 포함된 행위자의 행동을 인식하는데 노이즈로 작용하여, 행동 인식의 성능을 열화시킬 수 있다.

보다 구체적으로, 프레임(1330)과 프레임(1340)을 참조하면, 코너점을 이용하여 특징점을 검출하는 경우, 배경에서의 밝기의 변화로 인하여 배경에 해당하는 영역에서 특징점들이 다수 검출될 수 있다. 예를 들어, 프레임(1330)과 프레임(1340) 사이에 밝기의 차이로 인하여 프레임(1340)에서 배경에 해당하는 특징점들이 다수 검출됨으로써, 특징점 검출 성능이 열화될 수 있다.

반면, 실시예들은 영상 내 주 방향의 일관성 대비를 이용한 특징점 검출을 통하여, 조명의 변화에 강인한 행동 인식 기술을 제공할 수 있다. 예를 들어, 프레임(1350)과 프레임(1360)을 참조하면, 실시예들에 따른 주 방향 개념을 도입하여 특징점들을 검출하는 경우 특징점 검출 성능이 향상될 수 있다. 프레임(1350)과 프레임(1360) 사이에 밝기의 차이가 있음에도 불구하고, 프레임(1360)에서 배경에 해당하는 특징점들은 거의 검출되지 않고 행위자에 해당하는 특징점들이 주로 검출된다.

도 14는 일 실시예에 따른 특징 벡터 성능을 설명하는 도면이다. 도 14를 참조하면, 입력 영상에 노이즈가 포함되는 경우, 특징 벡터 성능에 영향을 미칠 수 있다. 노이즈에 의하여 영상에 포함된 행동이 변하는 것은 아니므로, 노이즈가 없는 원본 영상(1410)에 대한 특징 벡터가 노이즈가 포함된 잡음 영상(1420)에 대한 특징 벡터와 동일할수록 특징 벡터 성능이 우수하다고 볼 수 있다. 다만, 코너점을 특징점으로 이용하는 일반적인 특징 벡터의 경우(1430), 원본 영상(1410)에 대한 특징 벡터와 노이즈가 포함된 잡음 영상(1420)에 대한 특징 벡터는 서로 다르다. 다시 말해, 일반적인 특징 벡터의 경우(1430), 노이즈에 의하여 특징 벡터가 영향을 받는다.

실시예들에 따른 주 방향 개념을 도입하여 생성된 특징 벡터의 경우(1440), 원본 영상(1410)에 대한 특징 벡터와 노이즈가 포함된 잡음 영상(1420)에 대한 특징 벡터는 거의 동일하다. 다시 말해, 실시예들에 따른 특징 벡터의 경우(1440), 노이즈에 대한 내성이 강하다. 이처럼 실시예들은 영상 내 지역적 영역의 주 방향과 일관성 강도를 이용한 디스크립터를 정의함으로써, 잡음에 강인한 행동 인식 기술을 제공할 수 있다.

실시예들은, 제한된 환경을 기반으로 하는 일반적인 행동 인식 기법들과는 달리, 영화, 스포츠 영상과 같은 일반적인 콘텐츠 및 카메라 움직임, 조명 변화, 복잡한 배경 등이 존재하는 실생활 영상에도 적용 가능한 행동 인식 기술을 제공할 수 있다. 일 예로, 실시예들은 스마트 폰 등 다양한 사용자 단말에서 행동 기반의 콘텐츠를 검색하는 기술에 적용될 수 있다. 예를 들어, 실시예들은 사용자의 키스 행동을 인식하고, 인식된 키스 행동에 대응하는 콘텐츠를 검색하는 기술에 적용될 수 있다. 다른 예로, 실시예들은 영화나 스포츠 영상 내 행동을 기반으로 장면을 검색하거나 장면을 요약하는 응용(application)에 적용될 수 있다. 또 다른 예로, 실시예들은 가족 구성원의 관심 행동을 검출하는 스마트 홈 시스템에 적용될 수 있다. 또 다른 예로, 실시예들은 공공 장소에서의 이상 행동을 검출하는 감시 시스템에 적용되거나 의료 진단을 위한 응용에 적용될 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

그레디언트(gradient) 분포의 주 방향 분석을 이용하여 입력 영상으로부터 특징점을 검출하는 단계; 및
상기 특징점에 대응하는 특징 벡터(feature vector)를 생성하는 단계
를 포함하고,
상기 특징 벡터를 생성하는 단계에서,
상기 특징 벡터를 생성하기 위하여 상기 특징점에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들의 주 방향들을 미리 정해진 빈들로 매핑하여 상기 매핑된 빈들에 해당하는 로컬 픽셀들의 주 방향 에너지를 누적시킴으로써, 주 방향의 일관성 강도(strength of coherence)가 축적되는,
특징 벡터 생성 방법.
제1항에 있어서,
상기 특징점을 검출하는 단계에서,
주 방향의 일관성 대비(contrast of coherence)를 가지는 윈도우에 대응하는 픽셀이 상기 특징점으로 검출되는 특징 벡터 생성 방법.
삭제
그레디언트(gradient) 분포의 주 방향 분석을 이용하여 입력 영상으로부터 특징점을 검출하는 단계; 및
상기 특징점에 대응하는 특징 벡터(feature vector)를 생성하는 단계
를 포함하고,
상기 특징점을 검출하는 단계는
상기 입력 영상에 포함된 복수의 픽셀들 각각의 그레디언트를 계산하는 단계;
상기 그레디언트에 기초하여 상기 복수의 픽셀들 각각의 구조 텐서(structure tensor)를 계산하는 단계;
상기 구조 텐서를 고유 분석(Eigen analysis)함으로써, 상기 복수의 픽셀들 각각의 최대 고유값(Eigen value)을 계산하는 단계; 및
최대 고유값들 사이의 대비를 통하여 상기 특징점을 결정하는 단계
를 포함하는 특징 벡터 생성 방법.
제4항에 있어서,
상기 복수의 픽셀들 각각의 구조 텐서를 계산하는 단계에서,
상기 입력 영상이 동영상인 경우,
단일 픽셀의 구조 텐서는
에 의해 계산되고,
상기 G_x는 x축 방향의 그레디언트이며, 상기 G_y는 y축 방향의 그레디언트이고, 상기 G_t는 시간 축 방향의 그레디언트이며, 상기 B는 상기 단일 픽셀을 포함하는 미리 정해진 크기의 블록인 특징 벡터 생성 방법.
제4항에 있어서,
상기 복수의 픽셀들 각각의 구조 텐서를 계산하는 단계에서,
상기 입력 영상이 정지영상인 경우,
단일 픽셀의 구조 텐서는
에 의해 계산되고,
상기 G_x는 x축 방향의 그레디언트이며, 상기 G_y는 y축 방향의 그레디언트이고, 상기 B는 상기 단일 픽셀을 포함하는 미리 정해진 크기의 블록인 특징 벡터 생성 방법.
제4항에 있어서,
상기 특징점을 결정하는 단계는
단일 픽셀의 일관성 강도와 상기 단일 픽셀에 대응하는 윈도우 내 이웃 픽셀들의 일관성 강도들 사이의 차이들을 합산하는 단계; 및
합산된 결과가 임계값보다 큰 경우, 상기 단일 픽셀을 상기 특징점으로 결정하는 단계
를 포함하는 특징 벡터 생성 방법.
제7항에 있어서,
상기 일관성 강도는
상기 단일 픽셀 픽셀의 최대 고유값; 및
상기 단일 픽셀의 최대 고유값과 상기 단일 픽셀의 다른 고유값 사이의 차이
중 적어도 하나를 포함하는, 특징 벡터 생성 방법.
그레디언트(gradient) 분포의 주 방향 분석을 이용하여 입력 영상으로부터 특징점을 검출하는 단계; 및
상기 특징점에 대응하는 특징 벡터(feature vector)를 생성하는 단계
를 포함하고,
상기 특징 벡터를 생성하는 단계는
상기 특징점에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들에 대하여,
로컬 픽셀의 주 방향을 미리 정해진 빈(bin)들로 매핑하는 단계; 및
상기 매핑된 빈에 상기 로컬 픽셀의 주 방향 에너지를 누적시키는 단계
를 포함하는 특징 벡터 생성 방법.
제9항에 있어서,
상기 주 방향 에너지는 상기 로컬 픽셀의 그레디언트와 관련된 일관성 강도이고, 상기 주 방향은 상기 로컬 픽셀의 그레디언트와 관련된 최대 고유값에 대응하는 고유벡터(Eigen vector)의 방향인 특징 벡터 생성 방법.
제9항에 있어서,
상기 미리 정해진 빈(bin)들은
상기 입력 영상이 동영상인 경우 상기 입력 영상의 시공간을 미리 정해진 수로 양자화하는 특징 벡터 생성 방법.
제9항에 있어서,
상기 미리 정해진 빈(bin)들은
상기 입력 영상이 정지영상인 경우 상기 입력 영상의 공간을 미리 정해진 수로 양자화하는 특징 벡터 생성 방법.
제1항에 있어서,
상기 그레디언트는
상기 입력 영상이 동영상인 경우 상기 입력 영상에 포함된 프레임 내 x축 방향의 그레디언트, 상기 입력 영상에 포함된 프레임 내 y축 방향의 그레디언트, 및 상기 입력 영상에 포함된 프레임들 사이의 시간 축 방향의 그레디언트를 포함하는 특징 벡터 생성 방법.
제1항에 있어서,
상기 그레디언트는
상기 입력 영상이 정지영상인 경우 상기 입력 영상에 포함된 프레임 내 x축 방향의 그레디언트, 및 상기 입력 영상에 포함된 프레임 내 y축 방향의 그레디언트를 포함하는 특징 벡터 생성 방법.
제1항에 있어서,
상기 입력 영상에 대한 주파수 분석을 이용하여 상기 입력 영상에 대응하는 특징 벡터를 생성하는 단계
를 더 포함하는 특징 벡터 생성 방법.
제1항에 있어서,
공간적 피라미드(spatial pyramid)를 이용하여 상기 입력 영상을 다양한 글로벌 영역들의 조합으로 분할하는 단계; 및
상기 다양한 글로벌 영역들의 조합에 포함되는 각각의 글로벌 영역들을 주파수 분석함으로써, 상기 각각의 글로벌 영역들에 대응하는 특징 벡터를 생성하는 단계
를 더 포함하는 특징 벡터 생성 방법.
그레디언트 분포의 주 방향 분석을 이용하여 입력 영상에 포함된 복수의 특징점들을 검출하는 단계;
상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 단계; 및
상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 입력 영상에 대응하는 히스토그램을 생성하는 단계
를 포함하고,
상기 특징 벡터들을 생성하는 단계에서,
상기 특징 벡터들을 생성하기 위하여 상기 특징점들 각각에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들의 주 방향들을 미리 정해진 빈들로 매핑하여 상기 매핑된 빈들에 해당하는 로컬 픽셀들의 주 방향 에너지를 누적시킴으로써, 주 방향의 일관성 강도(strength of coherence)가 축적되는 영상 처리 방법.
제17항에 있어서,
학습된 파라미터와 상기 히스토그램에 기초하여 상기 입력 영상을 분석하는 단계
를 더 포함하는 영상 처리 방법
제18항에 있어서,
상기 학습된 파라미터는
상기 그레디언트 분포의 주 방향 분석을 이용하여 복수의 트레이닝 영상들을 미리 학습시킴으로써 생성되는, 영상 처리 방법.
제18항에 있어서,
상기 입력 영상을 분석하는 단계는
상기 입력 영상의 내용을 인식하는 단계
를 포함하는, 영상 처리 방법
제20항에 있어서,
상기 입력 영상의 내용은
상기 입력 영상에 포함된 행위자의 행동; 및
상기 입력 영상에 포함된 객체
중 적어도 하나를 포함하는, 영상 처리 방법.
제17항에 있어서,
상기 히스토그램을 생성하는 단계는
상기 코드워드들에 대응하는 값들을 정규화함으로써, 정규화된 히스토그램을 생성하는 단계
를 포함하는 영상 처리 방법.
그레디언트 분포의 주 방향 분석을 이용하여 입력 영상에 포함된 복수의 특징점들을 검출하는 단계;
상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 단계;
상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 입력 영상에 대응하는 히스토그램을 생성하는 단계
상기 주 방향 분석을 이용하여 복수의 트레이닝 영상들로부터 특징점 세트를 검출하는 단계;
상기 특징점 세트 중 랜덤하게 선택된 일부 특징점들에 대응하는 특징 벡터들을 생성하는 단계; 및
상기 일부 특징점들에 대응하는 특징 벡터들을 군집화함으로써, 상기 코드북을 생성하는 단계
를 포함하는 영상 처리 방법.
제17항에 있어서,
상기 복수의 특징점들을 검출하는 단계에서,
주 방향의 일관성 대비를 가지는 윈도우들에 대응하는 픽셀들이 상기 복수의 특징점들로 검출되는 영상 처리 방법.
제17항에 있어서,
상기 복수의 특징 벡터들을 생성하는 단계에서,
상기 복수의 특징 벡터들 각각을 생성하기 위하여 상기 복수의 특징점들 각각에 대응하는 로컬 영역 내 주 방향의 일관성 강도가 축적되는 영상 처리 방법.
제17항에 있어서,
상기 입력 영상에 대한 주파수 분석을 이용하여 상기 입력 영상에 대응하는 글로벌 특징 벡터를 생성하는 단계; 및
상기 히스토그램과 상기 글로벌 특징 벡터를 결합시키는 단계
를 더 포함하는 영상 처리 방법.
제17항에 있어서,
상기 히스토그램을 무 감독 학습함으로써, 중간 레벨 특징 벡터를 생성하는 단계
를 더 포함하는 영상 처리 방법.
제1항, 제2항 및 제4항 내지 제27항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
그레디언트 분포의 주 방향 분석을 이용하여 복수의 트레이닝 영상들에 포함된 복수의 특징점들을 검출하는 검출부;
상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 생성부;
상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 복수의 트레이닝 영상들에 대응하는 히스토그램들을 생성하는 매핑부; 및
상기 히스토그램들에 기초하여 분류기를 학습시키는 학습부
를 포함하고,
상기 생성부는,
상기 특징 벡터들을 생성하기 위하여 상기 특징점들 각각에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들의 주 방향들을 미리 정해진 빈들로 매핑하여 상기 매핑된 빈들에 해당하는 로컬 픽셀들의 주 방향 에너지를 누적시킴으로써, 주 방향의 일관성 강도(strength of coherence)를 축적하는 분류기 학습 장치.
제29항에 있어서,
상기 학습부는
상기 분류기를 학습시키기 위하여, 상기 히스토그램들 및 상기 복수의 트레이닝 영상들의 레이블들을 상기 분류기에 입력하는, 분류기 학습 장치.
제29항에 있어서,
상기 복수의 특징 벡터들을 군집화함으로써, 상기 코드북을 생성하는 군집화부
를 더 포함하는 분류기 학습 장치.
제29항에 있어서,
상기 검출부는
주 방향의 일관성 대비를 가지는 윈도우들에 대응하는 픽셀들을 상기 복수의 특징점들로 검출하는, 분류기 학습 장치.
제29항에 있어서,
상기 생성부는
상기 복수의 특징 벡터들 각각을 생성하기 위하여 상기 복수의 특징점들 각각에 대응하는 로컬 영역 내 주 방향의 일관성 강도를 축적하는, 분류기 학습 장치.
제29항에 있어서,
상기 매핑부는
각각의 트레이닝 영상에 대하여, 해당하는 트레이닝 영상으로부터 생성된 특징 벡터들을 매핑함으로써 상기 해당하는 트레이닝 영상에 대응하는 히스토그램을 생성하는, 분류기 학습 장치.
제29항에 있어서,
상기 매핑부는
상기 코드워드들에 대응하는 값들을 정규화함으로써, 정규화된 히스토그램을 생성하는, 분류기 학습 장치.
그레디언트 분포의 주 방향 분석을 이용하여 입력 영상에 포함된 복수의 특징점들을 검출하는 검출부;
상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 생성부;
상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 입력 영상에 대응하는 히스토그램을 생성하는 매핑부; 및
학습된 파라미터 및 상기 히스토그램에 기초하여 상기 입력 영상의 내용을 인식하는 인식부
를 포함하고,
상기 생성부는,
상기 특징 벡터들을 생성하기 위하여 상기 특징점들 각각에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들의 주 방향들을 미리 정해진 빈들로 매핑하여 상기 매핑된 빈들에 해당하는 로컬 픽셀들의 주 방향 에너지를 누적시킴으로써, 주 방향의 일관성 강도(strength of coherence)를 축적하는 인식 장치.
제36항에 있어서,
상기 입력 영상의 내용은
상기 입력 영상에 포함된 행위자의 행동; 및
상기 입력 영상에 포함된 객체
중 적어도 하나를 포함하는, 인식 장치.
제36항에 있어서,
상기 학습된 파라미터는
상기 그레디언트 분포의 주 방향 분석을 이용하여 복수의 트레이닝 영상들을 미리 학습시킴으로써 생성되는, 인식 장치.
제36항에 있어서,
상기 검출부는
주 방향의 일관성 대비를 가지는 윈도우들에 대응하는 픽셀들을 상기 복수의 특징점들로 검출하는, 인식 장치.
제36항에 있어서,
상기 생성부는
상기 복수의 특징 벡터들 각각을 생성하기 위하여 상기 복수의 특징점들 각각에 대응하는 로컬 영역 내 주 방향의 일관성 강도를 축적하는, 인식 장치.
그레디언트 분포의 주 방향 분석을 이용하여 입력 영상의 적어도 일부 영역에 포함된 복수의 특징점들을 검출하는 특징점 검출부;
상기 복수의 특징점들에 대응하는 복수의 특징 벡터들을 생성하는 생성부;
상기 복수의 특징 벡터들을 미리 구비된 코드북에 포함된 코드워드들에 매핑함으로써, 상기 적어도 일부 영역에 대응하는 히스토그램을 생성하는 매핑부; 및
기준 히스토그램과 상기 히스토그램을 비교함으로써 상기 기준 히스토그램에 대응하는 영역을 검출하는 영역 검출부
를 포함하고,
상기 생성부는,
상기 특징 벡터들을 생성하기 위하여 상기 특징점들 각각에 대응하는 로컬 영역에 포함된 복수의 로컬 픽셀들의 주 방향들을 미리 정해진 빈들로 매핑하여 상기 매핑된 빈들에 해당하는 로컬 픽셀들의 주 방향 에너지를 누적시킴으로써, 주 방향의 일관성 강도(strength of coherence)를 축적하는 검출 장치.
제41항에 있어서,
상기 특징점 검출부는 상기 그레디언트 분포의 주 방향 분석을 이용하여 기준 영상에 포함된 복수의 기준 특징점들을 검출하고,
상기 생성부는 상기 복수의 기준 특징점들에 대응하는 복수의 기준 특징 벡터들을 생성하며,
상기 매핑부는 상기 복수의 기준 특징 벡터들을 상기 코드워드들에 매핑함으로써 상기 기준 영상에 대응하는 상기 기준 히스토그램을 생성하는, 검출 장치.