WO2020080616A1

WO2020080616A1 - 인공 신경망에 기반한 영상 처리 방법 및 장치

Info

Publication number: WO2020080616A1
Application number: PCT/KR2019/002099
Authority: WO
Inventors: 노준용; 서광균; 서형국; 박상훈; 김재동; 유정은; 이다원
Original assignee: 한국과학기술원
Priority date: 2018-10-18
Filing date: 2019-02-21
Publication date: 2020-04-23
Also published as: US20220044414A1

Abstract

인공 신경망에 기반한 영상 처리 방법 및 장치가 개시된다. 영상 처리 방법은 입력 영상으로부터 피사체를 포함하는 전경 영상 및 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리하고, 입력 영상, 및 전경 영상을 기초로 피사체에 대한 카메라 프레이밍을 추정하고, 입력 영상으로부터 추출한 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성하고, 특징 벡터를 이용하여 카메라 워크를 추정하며, 카메라 프레이밍 및 카메라 워크 중 적어도 하나를 출력한다.

Description

인공 신경망에 기반한 영상 처리 방법 및 장치

신경망을 이용하여 입력 영상으로부터 카메라 프레이밍 및 카메라 워크를 분류하는 영상 처리 기술이 개시된다.

OTT(Over The Top)는 인터넷을 통해 볼 수 있는 TV 서비스를 일컫는다. OTT는 전파나 케이블이 아닌 범용 인터넷망(Public internet)을 통해 영상 콘텐츠를 제공할 수 있다. OTT에서 ‘Top’은 TV에 연결되는 셋톱 박스(set-top box)를 의미하지만, 넓게는 셋톱 박스가 있고 없음을 떠나 인터넷 기반의 동영상 서비스 모두를 포괄하는 의미로 사용될 수 있다.

초고속 인터넷의 발달과 보급으로 인해 OTT 서비스를 통한 동영상 서비스가 제공되고 있다. 이러한 OTT 서비스와 관련하여, 카메라 프레이밍 및 문법은 영상 제작뿐만 아니라 편집, 및 추출 과정에서 중요한 요소가 될 수 있다. 현재 편집자와 컨텐츠 크리에이터들(contents creators)은 모든 영상을 보면서 컨텐츠에 적당한 썸네일 또는 짧은 영상을 제작하거나, 또는 자동화된 시스템을 통해 제한적인 출력 컨텐츠만을 제공받을 수 있다.

일 실시예에 따르면, 인공 신경망에 기반한 자동 카메라 프레이밍 및 카메라 워크의 자동 분석을 통해 컨텐츠 제작 시에 사용자가 영상을 모두 살펴봐야하는 번거로움을 줄일 수 있다.

일 실시예에 따르면, 카메라 프레이밍 및 카메라 워크의 분석을 통해 입력 영상으로부터 주요 피사체에 해당하는 전경과 배경을 분리함으로써 사용자의 편집 용이성을 향상시킬 수 있다.

일 실시예에 따르면, 카메라 프레이밍 그리고 카메라 워크 분석을 통해 영상 하이라이트 및 썸네일을 추출하는 한편, 분석 결과를 카메라 모션 스테빌라제이션(camera motion stabilization) 및 영상 압축에 활용할 수 있다.

일 실시예에 따르면, 영상 처리 방법은 입력 영상으로부터 피사체를 포함하는 전경 영상 및 상기 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리하는 단계; 상기 입력 영상, 및 상기 전경 영상을 기초로 상기 피사체에 대한 카메라 프레이밍(camera framing)을 추정하는 단계; 상기 입력 영상으로부터 옵티컬 플로우 맵(optical flow maps)을 추출하는 단계; 상기 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성하는 단계; 상기 특징 벡터를 이용하여 카메라 워크(camera work)를 추정하는 단계; 및 상기 카메라 프레이밍 및 상기 카메라 워크 중 적어도 하나를 출력하는 단계를 포함한다.

상기 전경 영상 및 상기 배경 영상을 분리하는 단계는 미리 트레이닝된 제1신경망을 이용하여 상기 입력 영상으로부터 상기 전경 영상 및 상기 배경 영상을 분리하는 단계를 포함할 수 있다.

상기 제1 신경망은 컨볼루션 뉴럴 네트워크(Convolutional Neural Network; CNN)를 포함할 수 있다.

상기 카메라 프레이밍을 추정하는 단계는 상기 전경 영상에 포함된 피사체 정보를 이용하여 상기 입력 영상으로부터 상기 피사체의 특징점들을 추출하는 단계; 및 상기 피사체의 특징점들로부터 상기 피사체에 대한 카메라 프레이밍을 추정하는 단계를 포함할 수 있다.

상기 피사체는 사람을 포함하고, 상기 피사체의 특징점들은 상기 사람의 눈, 코, 귀, 목, 어깨, 팔꿈치, 손목, 골반, 무릎, 발목 중 적어도 하나를 포함할 수 있다.

상기 카메라 프레이밍은 클로즈 업(close-up), 바스트(bust), 미디엄(medium), 니(knee), 풀(full), 및 롱(long) 중 적어도 하나의 피사체 배치 구조를 포함할 수 있다.

상기 옵티컬 플로우 맵을 추출하는 단계는 상기 입력 영상에 대응하는 현재 프레임 및 상기 현재 프레임의 이전 프레임을 이용하여 상기 옵티컬 플로우 맵을 추출할 수 있다.

상기 옵티컬 플로우 멥에 포함된 각 픽셀들은 방향성 및 움직임 크기를 포함하는 벡터를 가질 수 있다.

상기 특징 벡터를 구성하는 단계는 삼등분 법칙을 이용하여 상기 옵티컬 플로우 맵을 복수의 구역들로 분할하는 단계; 및 상기 분할된 복수의 구역들 중 적어도 일부 구역에 대응하는 벡터들에 기초하여 상기 특징 벡터를 구성하는 단계를 포함할 수 있다.

상기 벡터들에 기초하여 상기 특징 벡터를 구성하는 단계는 상기 벡터들의 방향성 성분을 이용하여 상기 구역들 별로 히스토그램(histogram)을 생성하는 단계; 및 상기 구역 별 히스토그램을 통합함으로써 상기 특징 벡터를 구성하는 단계를 포함할 수 있다.

상기 카메라 워크를 추정하는 단계는 상기 특징 벡터를 미리 트레이닝된 제2 신경망에 인가함으로써 상기 카메라 워크를 추정하는 단계를 포함할 수 있다.

상기 제2 신경망은 카메라 프레이밍 및 카메라 워크가 레이블링된 복수의 트레이닝 영상들을 이용하여 트레이닝된 것일 수 있다.

상기 제2 신경망은 MLP(Multi-Layer Perceptrons) 모델을 포함할 수 있다.

상기 카메라 워크는 팬(fan), 틸트(tilt), 오빗(orbit), 크레인(crane), 트랙(track), 및 스테틱(static) 중 적어도 하나의 카메라 움직임을 포함할 수 있다.

일 실시예에 따르면, 영상 처리 장치는 입력 영상을 수신하는 통신 인터페이스; 및 상기 입력 영상으로부터 피사체를 포함하는 전경 영상 및 상기 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리하고, 상기 입력 영상, 및 상기 전경 영상을 기초로 상기 피사체에 대한 카메라 프레이밍을 추정하고, 상기 입력 영상으로부터 옵티컬 플로우 맵을 추출하고, 상기 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성하며, 상기 특징 벡터를 이용하여 카메라 워크를 추정하는 프로세서를 포함하고, 상기 통신 인터페이스는 상기 카메라 프레이밍, 및 상기 카메라 워크 중 적어도 하나를 출력한다.

상기 프로세서는 미리 트레이닝된 제1신경망을 이용하여 상기 입력 영상으로부터 상기 전경 영상 및 상기 배경 영상을 분리할 수 있다.

상기 프로세서는 상기 입력 영상에 대응하는 현재 프레임 및 상기 현재 프레임의 이전 프레임을 이용하여 상기 옵티컬 플로우 맵을 추출할 수 있다.

상기 프로세서는 삼등분 법칙을 이용하여 상기 옵티컬 플로우 맵을 복수의 구역들로 분할하고, 상기 분할된 복수의 구역들 중 적어도 일부 구역에 대응하는 벡터들의 방향성 성분을 이용하여 구역 별 히스토그램을 생성하며, 상기 구역 별 히스토그램을 통합함으로써 상기 특징 벡터를 구성할 수 있다.

일 측에 따르면, 인공 신경망에 기반한 자동 카메라 프레이밍 및 카메라 워크의 자동 분석을 통해 컨텐츠 제작 시에 사용자가 영상을 모두 살펴봐야하는 번거로움을 줄일 수 있다.

일 측에 따르면, 카메라 프레이밍 그리고 카메라 워크 분석을 통해 입력 영상으로부터 주요 피사체에 해당하는 전경과 배경을 분리함으로써 사용자의 편집 용이성을 향상시킬 수 있다.

일 측에 따르면, 카메라 프레이밍 그리고 카메라 워크 분석을 통해 영상 하이라이트 및 썸네일을 추출하는 한편, 분석 결과를 카메라 모션 스테빌라제이션 및 영상 압축 알고리즘에 사용할 수 있다.

도 1은 일 실시예에 따른 영상 처리 방법을 나타낸 흐름도.

도 2는 일 실시예에 따라 전경 영상 및 배경 영상을 분리하는 방법을 설명하기 위한 도면.

도 3은 일 실시예에 따라 카메라 프레이밍을 추정하는 방법을 설명하기 위한 도면.

도 4는 일 실시예에 따라 특징 벡터를 구성하는 방법을 나타낸 흐름도.

도 5는 일 실시예에 따라 삼등분 법칙을 이용하여 특징 벡터를 구성하는 방법을 설명하기 위한 도면.

도 6은 다른 실시예에 따른 영상 처리 방법을 나타낸 흐름도.

도 7은 일 실시예에 따른 제2 신경망을 트레이닝하는 방법을 설명하기 위한 도면.

도 8은 일 실시예에 따른 영상 처리 장치의 블록도.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, “포함하다” 또는 “가지다” 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 영상 처리 방법을 나타낸 흐름도이다. 도 1을 참조하면, 일 실시예에 따른 영상 처리 장치는 입력 영상으로부터 피사체를 포함하는 전경 영상 및 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리한다(110). 입력 영상을 복수의 프레임들을 포함할 수 있다. 여기서,피사체는 예를 들어, 사람일 수 있다. 피사체는 단수일 수도 있고, 복수일 수도 있다. 피사체는 '관심 객체'라고도 부를 수 있다. 영상 처리 장치가 입력 영상으로부터 전경 영상과 배경 영상을 분리하는 방법은 아래의 도 2를 참조하여 구체적으로 설명한다.

영상 처리 장치는 입력 영상, 및 전경 영상을 기초로 피사체에 대한 카메라 프레이밍(camera framing)을 추정한다(120). '카메라 프레이밍(framing)'은 카메라의 화면 구성, 다시 말해 촬영 시에 화면을 정리하여 트리밍을 하지 않더라도 필름 면 가득히 확대해서 작화할 수 있도록 처음부터 파인더에서 구성하는 것을 의미할 수 있다. 카메라 프레이밍은 '카메라 구도'라고도 부를 수 있다. 카메라 프레이밍은 예를 들어, 클로즈 업(close-up), 바스트(bust), 웨이스트(waist), 미디엄(medium), 니(knee), 풀(full), 롱(long) 등과 같은 피사체 배치 구조들을 포함할 수 있다.

클로즈 업(close-up)은 예를 들어, 인물의 얼굴을 강조하거나 대상을 부각시키는 등과 같이 영상의 어느 한 부분만을 확대한 것으로서 주로 긴장, 불안 등 심리 묘사에 사용될 수 있다. 클로즈 업에 의해 확장된 피사체를 통해 박진감 있는 장면이 구성될 수 있다.

바스트(bust) 또는 바스트 샷(bust shot)은 화면에 피사체의 머리에서 가슴까지의 모습이 배치되도록 하며, 예를 들어, 영화나 드라마에서 인물 간의 대화 장면, 뉴스나 다큐에서의 인터뷰 장면 외에도 다양한 씬에서 이용될 수 있다.

웨이스트(waist) 또는 웨이스트 샷(waist shot)은 화면에 머리에서 허리까지의 모습이 배치되도록 하며, 예를 들어, 상반신의 움직임을 나타내거나 대화 장면 및 인터뷰 장면 등에서 자주 사용될 수 있다.

미디엄(medium) 또는 미디엄 샷(Medium Shot)은 전술한 바스트-웨이스트-니샷'을 어우르는 샷의 통칭이라고 할수 있다. 예를 들어, 샷을 클로즈업 - 미디엄 샷 - 롱 샷의 크게 3개로 구분한 경우, 미디엄 샷은 중간 단계의 샷에 해당할 수 있다.

니(knee) 또는 니 샷(Knee Shot)은 화면에 머리에서 무릎까지의 모습이 배치되도록 하며, 예를 들어, 피사체의 상반신의 움직임을 잡을 때나 여러 피사체를 담을 때 사용될 수 있다. 니 샷은 적당한 거리감을 주기 때문에 안정감을 줄 수 있다.

풀(full) 또는 풀 샷(Full Shot)은 화면에 머리부터 발까지의 모습이 모두 배치되도록 하며, 예를 들어, 인물 전체를 표현하거나 배경과 함께 상황을 보여주는 경우에 사용될 수 있다.

롱(long) 또는 롱 샷은 피사체를 멀리서 찍는 샷에 해당한다. 롱 샷은 촬영 주체와의 관계와 위치 등을 설명하는 수단으로 사용되는 경우도 있으며, 시각적인 효과를 노리는 수단으로 사용될 수도 있다. 또한, 어떠한 사건이 시작되거나 다른 장소의 이야기가 전개될 때 상황을 설명하기 위해 사용될 수 있다.

실시예에 따라서, 영상 처리 장치는 입력 영상, 전경 영상 및 배경 영상 중 적어도 하나를 기초로 피사체에 대한 카메라 프레이밍을 추정할 수도 있다. 영상 처리 장치는 예를 들어, 후술하는 신경망(730)을 이용하여 카메라 프레이밍을 추정할 수도 있다.

영상 처리 장치가 카메라 프레이밍을 추정하는 방법을 아래의 도 3을 참조하여 구체적으로 설명한다.

영상 처리 장치는 입력 영상으로부터 옵티컬 플로우 맵(optical flow maps)을 추출한다(130). '옵티컬 플로우'는 시각적 자극을 설명하기 위해 도입된 개념으로서, 관찰자와 장면 사이의 상대적인 움직임에 의해 유발되는 시각적 장면에서의 물체, 표면 및 가장 자리의 명백한 움직임 패턴으로 이해될 수 있다. 옵티컬 플로우는 이미지의 밝기 패턴의 움직임의 겉보기 속도의 분포로 정의될 수도 있다. 영상 처리 장치는 옵티컬 플로우 맵을 이용함으로써 프레임 장면에 대한 사전 지식없이 두 프레임 사이의 움직임 (정보)을 추정할 수 있다. 여기서, 움직임 (정보)는 관심 객체가 어떻게 움직이고 있는지(예를 들어, 움직임의 크기 및 움직임의 방향 등)를 나타내는 정보일 수 잇다.

영상 처리 장치는 예를 들어, 입력 영상에 대응하는 현재 프레임 및 현재 프레임의 이전 프레임을 이용하여 옵티컬 플로우 맵을 추출할 수 있다.

일 실시예에 따른 옵티컬 플로우 맵은 예를 들어, 밀집 옵티컬 플로우 맵일 수 있다. 밀집 옵티컬 플로우 맵은 예를 들어, 옵티컬 플로우 맵을 구성하는 벡터들의 밀도가 미리 설정된 기준보다 높은 영역을 기초로 생성한 옵티컬 플로우 맵일 수 있다.

밀집 옵티컬 플로우에 의해 영상 내부의 모든 픽셀에서 속도를 구할 수 있다. 밀집 옵티컬 플로우의 일 예시로는 루카스-카나데 방법을 들 수 있다. 루카스-카나데 방법은 i) 어떤 객체 상의 픽셀은 프레임이 바뀌어도 그 값이 별하지 않는 밝기 향상성, ii) 영상 내 연속된 프레임 사이에서 객체의 이동량은 많지 않는 시간 영속성, 및 iii) 공간적으로 서로 인접하는 점들은 동일한 객체에 속할 가능성이 높고 같은 움직임을 갖는다는 공간 일관성과 같은 3가지 가정을 기초로 할 수 있다.

영상 처리 장치는 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성한다(140). 영상 처리 장치는 예를 들어, 삼등분 법칙을 이용하여 옵티컬 플로우 맵을 복수의 구역들로 분할할 수 있다. 영상 처리 장치는 분할된 복수의 구역들 중 적어도 일부 구역에 대응하는 벡터들에 기초하여 특징 벡터를 구성할 수 있다. 영상 처리 장치는 카메라 워크(camera work)를 분류하기 위해 옵티컬 플로우 맵을 사용할 수 있다. 영상 처리 장치가 특징 벡터를 구성하는 방법을 아래의 도 4를 참조하여 구체적으로 설명한다.

영상 처리 장치는 특징 벡터를 이용하여 카메라 워크를 추정한다(150). '카메라 워크'는 카메라를 고정하거나, 이동하거나, 또는 렌즈의 이동에 의해 영상을 촬영하는 기법을 의미하며, '카메라 문법' 또는 '카메라 움직임'이라고도 부를 수 있다. 영상 처리 장치는 예를 들어, 특징 벡터를 미리 트레이닝된 제2 신경망에 인가함으로써 카메라 워크를 추정할 수 있다. 제2 신경망은 예를 들어, 카메라 프레이밍 및 카메라 워크가 레이블링된 복수의 트레이닝 영상들을 이용하여 트레이닝된 것일 수 있다. 제2 신경망은 예를 들어, 후술하는 신경망(730)일 수 있다. 제2 신경망은 예를 들어, 다층 퍼셉트론(Multi-Layer Perceptrons; MLP) 모델을 포함할 수 있다. 다층 퍼셉트론(MLP) 모델은 일종의 피드 포워드 (feedforward) 인공 신경망으로서 입력 레이어(input layer), 히든 레이어(hidden layer) 및 출력 레이어(output layer)의 세 가지 노드로 구성될 수 있다. 다층 퍼셉트론(MLP) 모델에서 입력 노드를 제외한 각 노드는 비선형 활성화 함수를 사용하는 뉴런일 수 있다. 다층 퍼셉트론은 훈련을 위해 역전파(backpropagation)라 불리는 감독 트레이닝(supervised learning) 기술을 사용할 수 있다.

제2 신경망은 제1 신경망과 동일한 신경망일 수도 있고, 서로 구분되는 신경망일 수도 있다.

영상 처리 장치는 단계(140)에서 구성한 특징 백터를 이용하여 다층 퍼셉트론 모델을 트레이닝할 수 있다. 영상 처리 장치는 미리 준비한 가상(CG) 데이터로 제2 신경망을 트레이닝 함으로써 카메라 워크를 추정할 수 있다.

카메라 워크는 예를 들어, 팬(fan), 틸트(tilt), 오빗(orbit), 크레인(crane), 트랙(track), 스테틱(static), 및 달리(dolly) 등과 같은 카메라 움직임을 포함할 수 있다.

팬 또는 패닝(panning)은 파노라마, 또는 연결 기법이라고도 불리며, 카메라 축에 카메라를 고정시킨 후, 카메라의 앵글을 좌우로 움직여서 촬영하는 기법을 의미한다. 패닝은 카메라를 고정된 시점에서 수평으로 움직여서 넓은 풍경 등을 연속적으로 보여주기 위해 이용될 수 있다. 패닝은 카메라를 수평 방향으로 이동할 때, 일반적으로 피사체의 움직임에 맞추어 속도를 조절할 수 있다. 카메라를 왼쪽으로 움직이는 것을 팬 레프트(Pan left)라 하고, 오른쪽으로 움직이는 것을 팬 라이프(Pan right)라고 한다. 패닝은 예를 들어, 고정 샷에서 이어지는 지루함과 따분함에 활력을 줄 수 있으며, 시간 축의 연결 기법으로 활용될 수 있다.

틸트(tilt)는 카메라 축에 카메라가 고정된 상태에서 카메라의 앵글을 위, 아래 수직 방향으로 움직여서 촬영하는 기법을 의미한다. 카메라의 앵글을 위로 움직이는 것을 틸트 업(tilt up)이라 하고, 아래로 움직이는 것을 틸트 다운(tilt down)이라고 한다. 틸트는 예를 들어, 영상의 오프닝이나 높은 빌딩의 건물 등을 보여줄 때 이용될 수 있다.

오빗(orbit)은 원형의 트랙을 설치하여 피사체를 둘러 감싸며 촬영 하는 기법을 의미한다. 오빗은 '아크(Arc)'라고도 불릴 수 있다. 오빗 또는 아크는 후술하는 달리와 트랙이 결합된 것으로서 피사체를 중심으로 반원형으로 움직이는 촬영 기법을 의미한다. 아크는 움직이는 방향에 따라 아크 레프트(Arc left)와 아크 라이트(Arc right)로 나눌 수 있다. 아크 레프트는 피사체를 중심으로 왼쪽으로 180도 원을 그리며 촬영하는 것을 말하고, 아크 라이트는 피사체를 중심으로 오른쪽으로 180도 원을 그리며 촬영하는 것을 말한다. 아크는 고정된 피사체를 여러 각도에서 보여줄 때, 배경을 다양하게 변화시켜 관객들에게 흥미를 유발시킬 수 있다.

크레인(crane)은 카메라를 크레인 또는 지미집 등과 같은 장비에 의지한 채로 위아래로 움직여 촬영하는 기법을 의미한다.

트랙(track) 또는 트랙킹 (tracking)은 카메라가 좌우로 이동하는 피사체를 따라가면서 촬영하는 기법을 의미한다. 이때, 카메라는 피사체와 같은 방향으로 이동하며 촬영한다. 트랙은 오른쪽에서 왼쪽으로 이동하며 촬영하는 방법과 왼쪽에서 오른쪽으로 이동하며 촬영하는 방법과 같이 피사체의 움직임 방향에 따라서 촬영의 시작 지점이 달라질 수 있다. 트래킹은 움직이는 피사체를 따라가면서 촬영하기 때문에 주변의 배경이 변해 역동적이고 박진감있는 영상을 표현할 수 있다.

스테틱(static)은 트라이포드와 같은 고정 장치에 카메라를 고정시켜 피사체의 움직임과 상관없이 일체의 카메라 이동이나 카메라 조작 없이 촬영하는 기법을 의미한다.

달리(dolly)는 이동하는 수단 위에서 카메라 자체가 앞뒤로 움직이면서 촬영하는 기법을 의미한다. 따라서, 달리는 초점을 적절하게 조절해야 선명한 영상을 얻을 수 있고, 활동적인 영상을 얻을 수 있다. 달리에는 카메라를 어깨에 메고 찍기, 들고 찍기, 낮춰서 찍기 방법 등이 있으며, 최대한 충격이 없이 촬영하는 것이 중요하다.

영상 처리 장치는 카메라 프레이밍 및 카메라 워크 중 적어도 하나를 출력한다(160). 실시예에 따라서, 영상 처리 장치는 카메라 프레이밍 및 카메라 워크 이외에도 앞서 분리한 전경 영상 및 배경 영상을 더 출력할 수 있다.

도 2는 일 실시예에 따라 전경 영상 및 배경 영상을 분리하는 방법을 설명하기 위한 도면이다. 도 2를 참조하면, 입력 영상(210) 및 입력 영상(210)으로부터 분리된 전경 영상(220) 및 배경 영상(230)이 도시된다.

영상 처리 장치는 예를 들어, 미리 트레이닝된 제1신경망을 이용하여 입력 영상(210)으로부터 전경 영상(220) 및 배경 영상(230)을 분리할 수 있다. 이때, 제1 신경망은 입력 영상(210)으로부터 사람 또는 관심 영역과 같은 피사체 및 가구, 거리, 도로 등과 같은 그 밖의 배경 영상을 분리하도록 트레이닝된 것일 수 있다. 제1 신경망은 예를 들어, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network; CNN)를 포함할 수 있다. 예를 들어, 분리하고자 하는 피사체가 다수의 사람인 경우, 제1 신경망은 사람 분리 데이터를 이용하여 트레이닝될 수 있다.

영상 처리 장치는 제1신경망을 이용하여 입력 영상(210)으로부터 전경 영상(220) 및 배경 영상(230)을 분리함으로써 전경 마스크 영상 및 배경 마스크 영상을 생성할 수 있다.

도 3은 일 실시예에 따라 카메라 프레이밍을 추정하는 방법을 설명하기 위한 도면이다. 도 3을 참조하면, 입력 영상으로부터 추출된 피사체의 특징점들로부터 피사체에 대한 카메라 프레이밍을 추정하는 장면이 도시된다.

영상 처리 장치는 예를 들어, 전경 영상에 포함된 피사체 정보를 이용하여 입력 영상으로부터 피사체의 특징점들을 추출할 수 있다. 여기서, 피사체는 예를 들어, 사람을 포함하고, 피사체의 특징점들은 예를 들어, 사람의 눈, 눈썹, 코, 입, 귀, 목, 어깨, 팔꿈치, 손목, 골반, 무릎, 및 발목 등을 포함할 수 있다. 다만, 피사체 및 피사체의 특징점들이 반드시 이에 한정되는 것은 아니며, 이 밖에도, 다양한 대상들이 피사체 및/또는 피사체의 특징점들이 될 수 있다. 영상 처리 장치는 예를 들어, 전경 영상에 포함된 피사체의 식별 정보, 피사체의 위치 및/또는 피사체의 일정 영역에 대응하는 픽셀 좌표 등과 같은 피사체 정보를 이용하여 피사체의 특징점들을 추출할 수 있다.

영상 처리 장치는 피사체의 특징점들로부터 피사체에 대한 카메라 프레이밍, 다시 말해 피사체의 구도를 추정할 수 있다. 영상 처리 장치는 예를 들어, 피사체의 얼굴, 눈, 코, 입의 위치 및 피사체의 얼굴 또는 가슴, 허리 등과 같은 기타 영역이 화면에서 차지하는 비율(또는 화면에 배치되는 피사체의 영역) 등을 통해 피사체에 대한 카메라 프레이밍이 클로즈 업인지 또는 바스트, 웨이스트 인지 등을 추정할 수 있다.

도 4는 일 실시예에 따라 특징 벡터를 구성하는 방법을 나타낸 흐름도이다. 도 4를 참조하면, 일 실시예에 따른 영상 처리 장치는 삼등분 법칙을 이용하여 옵티컬 플로우 맵을 9개의 구역들로 나눌(분할할) 수 있다(410). 삼등분 법칙(Rule of Thirds)은 촬영, 회화, 또는 디자인에서 사용하는 일종의 경험 법칙이다. 삼등분 법칙은 하나의 프레임의 상하, 좌우를 가상의 선으로 삼등분한 뒤 피사체를 가상 선상이나 또는 화면의 인상적인 포인트를 세 개의 가상선이 만나는 네 개의 꼭짓점 위에 위치시키는 것을 말한다. 삼등분 법칙은 옵티컬 플로우 맵의 위치 정보를 보전하기 위해 이용될 수 있다.

영상 처리 장치는 9개의 구역들 중 가운데에 위치하는 5번 구역을 제외한 나머지 8개의 구역들에 대응하는 벡터들을 구성할 수 있다(420).

영상 처리 장치는 구역 별 히스토그램을 생성할 수 있다(430). 영상 처리 장치는 구역 별 벡터들의 방향성 성분을 이용하여 히스토그램(histogram)을 생성할 수 있다. 영상 처리 장치는 각 구역들에서 움직임 크기가 미리 설정된 기준보다 작은 픽셀들을 제외한 나머지 픽셀들을 기초로 히스토그램을 생성할 수 있다.

영상 처리 장치는 구역 별 히스토그램을 통합함으로써 특징 벡터를 구성할 수 있다(440).

영상 처리 장치가 삼등분 법칙을 이용하여 특징 벡터를 구성하는 방법은 아래의 도 5를 참조하여 구체적으로 설명한다.

도 5는 일 실시예에 따라 삼등분 법칙을 이용하여 특징 벡터를 구성하는 방법을 설명하기 위한 도면이다. 도 5를 참조하면, 삼등분 법칙을 이용하여 9개의 구역들로 분할된 밀집 옵티컬 플로우 맵(510)이 도시된다.

영상 처리 장치는 밀집 옵티컬 플로우 맵(510)을 삼등분 법칙을 이용하여 9개의 구역들로 나눌 수 있다. 이때, 밀집 옵티컬 플로우 멥에 포함된 각 픽셀들은 방향성 및 움직임 크기를 포함하는 벡터를 가질 수 있다.

영상 처리 장치는 9개의 구역들 중 가장 가운데에 있는 5번 구역(530)을 제외한 나머지 8개의 구역들에 대응하는 벡터들을 구성할 수 있다. 영상 처리 장치는 8개의 구역들 각각에 대응하는 벡터들의 방향성 성분만을 이용하여 8개의 구역들 각각에 대응하는 히스토그램들을 생성할 수 있다. 이때, 영상 처리 장치는 8개의 구역들 각각에서 미리 설정된 기준보다 작은 움직임 크기를 갖는 픽셀들은 제외하고 히스토그램을 생성할 수 있다. 영상 처리 장치는 8개 구역 별 히스토그램을 통합하여 하나의 특징 벡터를 구성할 수 있다.

도 6은 다른 실시예에 따른 영상 처리 방법을 나타낸 흐름도이다. 도 6을 참조하면, 일 실시예에 따른 영상 처리 장치는 입력 영상을 수신할 수 있다(610). 입력 영상은 영상 처리 장치에 의해 촬영 또는 캡쳐된 영상일 수도 있고, 영상 처리 장치 외부의 촬영 장치에 의해 촬영되고, 영상 처리 장치의 통신 인터페이스를 통해 전달된 영상일 수도 있다.

영상 처리 장치는 입력 영상으로부터 피사체를 포함하는 전경 영상 및 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리할 수 있다(620). 영상 처리 장치는 단계(610)에서 수신한 입력 영상, 및 단계(620)에서 분리된 전경 영상을 기초로 심층 인공 신경망(625)을 통해 피사체에 대한 카메라 프레이밍(camera framing)을 추정할 수 있다(630).

또한, 영상 처리 장치는 단계(610)에서 수신한 입력 영상으로부터 밀집 옵티컬 플로우 맵(concentrated optical flow maps)을 추출할 수 있다(640). 영상 처리 장치는 밀집 옵티컬 플로우 맵을 이용함으로써 프레임 장면에 대한 사전 지식없이도 이전 프레임과 현재 프레임 사이의 움직임 (정보)을 추정할 수 있다. 여기서, 움직임 정보는 관심 객체가 어떻게 움직이고 있는지에 대한 정보이다. 이전 프레임은 예를 들어, 이전 입력 영상에 대응되고, 현재 프레임은 현재 입력 영상에 대응될 수 있다. 이전 프레임과 현재 프레임은 서로 연속하는 프레임일 수 있다. 영상 처리 장치는 예를 들어, 이전 프레임과 현재 프레임에서 각 픽셀의 방향성 및 크기를 이용하여 밀집 옵티컬 플로우 맵을 추출할 수 있다.

영상 처리 장치는 삼등분 법칙을 이용하여 단계(640)에서 추출한 밀집 옵티컬 플로우 맵에 대한 특징 벡터를 구성할 수 있다(650).

영상 처리 장치는 심층 인공 신경망(625) 을 통해 카메라 워크를 추정할 수 있다(660). 영상 처리 장치는 단계(650)에서 구성한 특징 벡터를 심층 인공 신경망(625)에 인가함으로써 카메라 워크를 추정할 수 있다.

영상 처리 장치는 단계(630)을 통해 추정된 카메라 프레이밍 및 단계(660)을 통해 추정된 카메라 워크 중 적어도 하나를 출력할 수 있다(680).

실시예에 따라서, 단계(620) 내지 단계(630)의 카메라 프레이밍 추정 과정과 단계(640) 내지 단계(660)의 카메라 워크 추정 과정은 병렬적으로 처리될 수도 있고, 순차적으로 처리될 수도 있다.

도 7은 일 실시예에 따른 제2 신경망을 트레이닝하는 방법을 설명하기 위한 도면이다. 도 7을 참조하면, 일 실시예에 따른 트레이닝 장치는 카메라 워크 및 카메라 프레이밍을 분류하는 신경망(730)을 포함할 수 있다. 이때, 신경망(730)은 예를 들어, 1,637개의 영상들을 포함하는 Motiff CG dataset에 의해 영상에 대응하는 카메라 워크 및 카메라 프레이밍을 분류하도록 미리 트레이닝될 수 있다.

트레이닝 장치는 앞서의 트레이닝 과정에서 이용된 트레이닝 데이터(Motiff CG dataset)에 포함되지 않은 새로운 시험 영상(Unseen)을 준비할 수 있다(710).

트레이닝 장치는 단계(710)에서 준비한 새로운 시험 영상 각각에 대응하는 카메라 워크와 카메라 프레이밍을 레이블링할 수 있다(720).

트레이닝 장치는 단계(710)에서 준비된 새로운 시험 영상을 앞서 트레이닝된 신경망(730)에 입력할 수 있다. 트레이닝 장치는 신경망(730)의 출력 결과와 단계(720)에서 레이블링한 결과를 비교할 수 있다(740).

트레이닝 장치는 단계(740)의 비교 결과를 기초로, 신경망(730)을 통해 분류된 카메라 워크 및 카메라 프레이밍의 정확도를 계산할 수 있다(750).

트레이닝 장치는 카메라 워크 및 카메라 프레이밍의 정확도가 향상되도록 신경망(730)을 트레이닝할 수 있다.

도 8은 일 실시예에 따른 영상 처리 장치의 블록도이다. 도 8을 참조하면, 일 실시예에 따른 영상 처리 장치(800)는 통신 인터페이스(810), 프로세서(830), 및 메모리(850)를 포함한다. 통신 인터페이스(810), 프로세서(830), 및 메모리(850)는 통신 버스(805)를 통해 서로 통신할 수 있다.

통신 인터페이스(810)는 입력 영상을 수신한다. 또한, 통신 인터페이스(810)는 프로세서(830)에 의해 추정된 카메라 프레이밍, 및 카메라 워크 중 적어도 하나를 출력한다. 통신 인터페이스(810)는 프로세서(830)에 의해 분리된 전경 영상, 및 배경 영상을 더 출력할 수 있다.

프로세서(830)는 입력 영상으로부터 피사체를 포함하는 전경 영상 및 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리한다. 프로세서(830)는 입력 영상, 및 전경 영상을 기초로 피사체에 대한 카메라 프레이밍을 추정한다. 프로세서(830)는 입력 영상으로부터 옵티컬 플로우 맵을 추출한다. 프로세서(830)는 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성한다. 프로세서(830)는 특징 벡터를 이용하여 카메라 워크를 추정한다.

프로세서(830)는 미리 학습된 제1신경망을 이용하여 입력 영상으로부터 전경 영상 및 배경 영상을 분리할 수 있다.

프로세서(830)는 입력 영상에 대응하는 현재 프레임 및 현재 프레임의 이전 프레임을 이용하여 옵티컬 플로우 맵을 추출할 수 있다.

프로세서(830)는 삼등분 법칙을 이용하여 옵티컬 플로우 맵을 복수의 구역들로 분할할 수 있다. 프로세서(830)는 분할된 복수의 구역들 중 적어도 일부 구역에 대응하는 벡터들의 방향성 성분을 이용하여 히스토그램을 생성할 수 있다. 프로세서(830)는 구역들 별로 움직임 크기가 미리 설정된 기준보다 작은 픽셀들을 제외한 나머지 픽셀들을 기초로 히스토그램을 생성할 수 있다. 프로세서(830)는 각 구역 별 히스토그램을 통합함으로써 특징 벡터를 구성할 수 있다.

또한, 프로세서(830)는 도 1 내지 도 7을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(830)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(830)는 프로그램을 실행하고, 영상 처리 장치 (800)를 제어할 수 있다. 프로세서(830)에 의하여 실행되는 프로그램 코드는 메모리(850)에 저장될 수 있다.

메모리(850)은 입력 영상 및/또는 프로세서(830)에 의해 분리된 전경 영상 및 배경 영상을 저장할 수 있다. 또한, 메모리(850)는 프로세서(830)에 의해 추정된 피사체에 대한 카메라 프레이밍 및/또는 카메라 워크를 저장할 수 있다.

이 밖에도, 메모리(850)는 상술한 프로세서(830)에서의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 메모리(850)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(850)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(850)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

입력 영상으로부터 피사체를 포함하는 전경 영상 및 상기 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리하는 단계;

상기 입력 영상, 및 상기 전경 영상을 기초로 상기 피사체에 대한 카메라 프레이밍(camera framing)을 추정하는 단계;

상기 입력 영상으로부터 옵티컬 플로우 맵(optical flow maps)을 추출하는 단계;

상기 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성하는 단계;

상기 특징 벡터를 이용하여 카메라 워크(camera work)를 추정하는 단계; 및

상기 카메라 프레이밍 및 상기 카메라 워크 중 적어도 하나를 출력하는 단계

를 포함하는, 영상 처리 방법.
제1항에 있어서,

상기 전경 영상 및 상기 배경 영상을 분리하는 단계는

미리 트레이닝된 제1신경망을 이용하여 상기 입력 영상으로부터 상기 전경 영상 및 상기 배경 영상을 분리하는 단계

를 포함하는, 영상 처리 방법.
제2항에 있어서,

상기 제1 신경망은

컨볼루션 뉴럴 네트워크(Convolutional Neural Network; CNN)를 포함하는, 영상 처리 방법.
제1항에 있어서,

상기 카메라 프레이밍을 추정하는 단계는

상기 전경 영상에 포함된 피사체 정보를 이용하여 상기 입력 영상으로부터 상기 피사체의 특징점들을 추출하는 단계; 및

상기 피사체의 특징점들로부터 상기 피사체에 대한 카메라 프레이밍을 추정하는 단계

를 포함하는, 영상 처리 방법.
제4항에 있어서,

상기 피사체는 사람을 포함하고,

상기 피사체의 특징점들은

상기 사람의 눈, 코, 귀, 목, 어깨, 팔꿈치, 손목, 골반, 무릎, 발목 중 적어도 하나를 포함하는, 영상 처리 방법.
제1항에 있어서,

상기 카메라 프레이밍은

클로즈 업(close-up), 바스트(bust), 미디엄(medium), 니(knee), 풀(full), 및 롱(long) 중 적어도 하나의 피사체 배치 구조를 포함하는, 영상 처리 방법.
제1항에 있어서,

상기 옵티컬 플로우 맵을 추출하는 단계는

상기 입력 영상에 대응하는 현재 프레임 및 상기 현재 프레임의 이전 프레임을 이용하여 상기 옵티컬 플로우 맵을 추출하는 단계

를 포함하는, 영상 처리 방법.
제7항에 있어서,

상기 옵티컬 플로우 멥에 포함된 각 픽셀들은 방향성 및 크기를 포함하는 벡터를 가지는, 영상 처리 방법.
제1항에 있어서,

상기 특징 벡터를 구성하는 단계는

삼등분 법칙을 이용하여 상기 옵티컬 플로우 맵을 복수의 구역들로 분할하는 단계; 및

상기 분할된 복수의 구역들 중 적어도 일부 구역에 대응하는 벡터들에 기초하여 상기 특징 벡터를 구성하는 단계

를 포함하는, 영상 처리 방법.
제9항에 있어서,

상기 벡터들에 기초하여 상기 특징 벡터를 구성하는 단계는

상기 벡터들의 방향성 성분을 이용하여 상기 구역들 별로 히스토그램(histogram)을 생성하는 단계; 및

상기 구역 별 히스토그램을 통합함으로써 상기 특징 벡터를 구성하는 단계

를 포함하는, 영상 처리 방법.
제1항에 있어서,

상기 카메라 워크를 추정하는 단계는

상기 특징 벡터를 미리 트레이닝된 제2 신경망에 인가함으로써 상기 카메라 워크를 추정하는 단계

를 포함하는, 영상 처리 방법.
제11항에 있어서,

상기 제2 신경망은

카메라 프레이밍 및 카메라 워크가 레이블링된 복수의 트레이닝 영상들을 이용하여 트레이닝된 것인, 영상 처리 방법.
제11항에 있어서,

상기 제2 신경망은

MLP(Multi-Layer Perceptrons) 모델을 포함하는, 영상 처리 방법.
제1항에 있어서,

상기 카메라 워크는

팬(fan), 틸트(tilt), 오빗(orbit), 크레인(crane), 트랙(track), 및 스테틱(static) 중 적어도 하나의 카메라 움직임을 포함하는, 영상 처리 방법.
하드웨어와 결합되어 제1항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
입력 영상을 수신하는 통신 인터페이스; 및

상기 입력 영상으로부터 피사체를 포함하는 전경 영상 및 상기 피사체를 제외한 나머지 객체들을 포함하는 배경 영상을 분리하고, 상기 입력 영상, 및 상기 전경 영상을 기초로 상기 피사체에 대한 카메라 프레이밍을 추정하고, 상기 입력 영상으로부터 옵티컬 플로우 맵을 추출하고, 상기 옵티컬 플로우 맵에 기초하여 특징 벡터를 구성하며, 상기 특징 벡터를 이용하여 카메라 워크를 추정하는 프로세서

를 포함하고,

상기 통신 인터페이스는

상기 카메라 프레이밍, 및 상기 카메라 워크 중 적어도 하나를 출력하는,

영상 처리 장치.
제16항에 있어서,

상기 프로세서는

미리 트레이닝된 제1신경망을 이용하여 상기 입력 영상으로부터 상기 전경 영상 및 상기 배경 영상을 분리하는, 영상 처리 장치.
제16항에 있어서,

상기 프로세서는

상기 입력 영상에 대응하는 현재 프레임 및 상기 현재 프레임의 이전 프레임을 이용하여 상기 옵티컬 플로우 맵을 추출하는, 영상 처리 장치.
제16항에 있어서,

상기 프로세서는

삼등분 법칙을 이용하여 상기 옵티컬 플로우 맵을 복수의 구역들로 분할하고, 상기 분할된 복수의 구역들 중 적어도 일부 구역에 대응하는 벡터들의 방향성 성분을 이용하여 구역 별 히스토그램을 생성하며, 상기 구역 별 히스토그램을 통합함으로써 상기 특징 벡터를 구성하는, 영상 처리 장치.