KR20120119725A

KR20120119725A - 비디오 객체 탐색 장치, 비디오 객체 변형 장치 및 그 방법

Info

Publication number: KR20120119725A
Application number: KR1020110037877A
Authority: KR
Inventors: 유병인; 최창규; 한재준
Original assignee: 삼성전자주식회사
Priority date: 2011-04-22
Filing date: 2011-04-22
Publication date: 2012-10-31
Also published as: KR101804848B1; US20120268609A1; US9700788B2

Abstract

비디오 객체 탐색 장치, 비디오 객체 변형 장치 및 그 방법이 개시된다. 본 발명의 일실시예에 따른 비디오 객체 탐색 장치에 따르면, 사용자는 기존의 비디오를 단순 시청하던 것과 달리, 사용자의 동작/자세를 이용하여 비디오를 탐색할 수 있다. 또한 사용자는 마우스나 터치 등의 기존 입력 방식 대신 몸의 동작을 이용해 비디오를 조작할 수 있어, 비디오 시청에 있어서 높은 몰입감을 가질 수 있다. 또한, 본 발명의 일실시예에 따른 비디오 객체 변형 장치에 따르면, 사용자는 인터렉티브 비디오와 자신의 동작의 차이점을 인지할 수 있다. 또한, 사용자는 인터렉티브 비디오와 자신의 동작의 차이점이 반영된 비디오를 제공 받을 수 있다.

Description

비디오 객체 탐색 장치, 비디오 객체 변형 장치 및 그 방법{Video Object Detecting Apparatus, Video Object Deforming Apparatus and Method thereof}

본 발명의 실시예들은 비디오 객체 탐색 장치 및 비디오 객체 변형 장치에 관한 것으로서, 보다 구체적으로는 인터렉티브 비디오의 비디오 객체를 탐색, 변형할 수 있는 장치에 관한 것이다.

최근 사용자의 몸 동작을 센싱하여 사용자 인터페이스를 제어하는 기술에 대한 연구 및 개발이 가속화되고 있다. 그러나 현재의 동작 센싱 기술은 일반적으로 그래픽 기반의 게임 입력 수단이나 전자기기의 리모콘을 대체하는 UI 조작에 한정되어 있다.

2007년 전세계 영화산업시장의 규모는 극장 매출 27,403백만 달러, 홈비디오 55,837백만 달러, 온라인 2,664백만 달러로 총 합계 85,904백만 달러이다. 지역별로는 미국 33,717백만 달러, 서유럽 22,238백만 달러이다.

이는 2007년 전세계 게임시장의 규모인 86,418백만 달러(아케이드: 35,837백만달러, PC: 3,042백만달러, 콘솔: 37,415백만달러, 온라인: 7,155백만달러, 모바일: 2,969백만 달러)와 동등한 수준으로서, 향후 몸 동작에 기반한 사용자 인터페이스 기술이 현재의 그래픽 기반 게임을 입력수단을 넘어서 인터렉티브 비디오(Interactive Video)를 제어하기 위한 UI 기술로서 적극 활용될 가능성을 보여 준다. 여기에 뮤직비디오 및 음악방송 시장, 건강 비디오 시장을 더하면 인터렉티브 비디오를 제어하기 위한 기술 가치의 중요성은 더욱 증대 된다.

그러나 2D/3D 객체(Object)를 실시간 렌더링 엔진에 의해 표현(representation)하는 그래픽을 기반으로 하는 기술은, 동작 센싱과 같은 새로운 양상(modality)에 의한 인터렉티브 컨텐츠(interactive contents)를 제작하기에 손쉬운 특성이 있어서, 동작 인식 기술이 급격히 확산된 반면에, 2D/3D 카메라(camera)를 이용해 정해진 씬(scene)을 촬영한 후, 후작업(보정, 편집등)을 통하여 정해진 순서(sequence)에 따라 재생(playback)하는 방식인 현재의 비디오 컨텐츠(video contents)의 경우, 인터렉티브 비디오(interactive video)를 제작/감상하기 위한 혁신적인 기술개발이 있어야만 비로소 사용자의 자연스러운 동작과 같은 양상(modality)의 비디오 컨텐츠(video contents)를 감상하는데 활용 될 수 있다.

따라서, 본 명세서에서는 인터렉티브 비디오를 활용할 수 있는 새로운 비디오 객체 탐색, 변형 장치에 대해서 설명한다.

본 발명의 일실시예에 따른 비디오 객체 탐색 장치는, 사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)하고, 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색하는 객체 검색부; 상기 센싱 객체 및 상기 비디오 객체 사이의 유사도(Similarity)를 연산하는 연산부; 및 상기 인터렉티브 비디오로부터 상기 유사도가 가장 큰 프레임(Frame)을 추출하는 프레임 추출부를 포함한다.

본 발명의 일실시예에 따른 비디오 객체 탐색 장치는 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색하는 객체 검색부; 사용자로부터 입력되는 상기 비디오 객체를 제어하기 위한 제어점(Control Point)의 위치를 트래킹(Tracking)하는 트래킹부; 상기 비디오 객체의 ID 및 상기 제어점의 위치에 기반하여, 상기 비디오 객체의 모멘트(Moment) 및 상기 제어점의 위치의 차이(Difference)를 연산하는 연산부; 및 상기 인터렉티브 비디오로부터 상기 연산된 차이가 가장 작은 프레임(Frame)을 추출하는 프레임 추출부를 포함한다.

본 발명의 일실시예에 따른 비디오 객체 변형 장치는, 사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)하고, 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색하는 객체 검색부; 상기 센싱 객체에 대한 객체 형상(Object Shape) 및 상기 비디오 객체에 대한 깊이 영상 사이의 차이를 연산하는 연산부; 및 상기 연산된 차이에 기반하여, 차이 맵(Difference Map)을 생성하는 생성부를 포함한다.

본 발명의 일실시예에 따른 비디오 객체 탐색 방법은, 사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)하고, 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색하는 단계; 상기 센싱 객체 및 상기 비디오 객체 사이의 유사도(Similarity)를 연산하는 단계; 및 상기 인터렉티브 비디오로부터 상기 유사도가 가장 작은 프레임(Frame)을 추출하는 단계를 포함한다.

본 발명의 일실시예에 따른 비디오 객체 탐색 방법은, 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색하는 단계; 사용자로부터 입력되는 상기 비디오 객체를 제어하기 위한 제어점(Control Point)의 위치를 트래킹(Tracking)하는 단계; 상기 비디오 객체의 ID 및 상기 제어점의 위치에 기반하여, 상기 비디오 객체의 모멘트(Moment) 및 상기 제어점의 위치 사이의 차이(Difference)를 연산하는 단계; 및 상기 인터렉티브 비디오로부터 상기 연산된 차이가 가장 작은 프레임(Frame)을 추출하는 단계를 포함한다.

본 발명의 일실시예에 따른 비디오 객체 변형 방법은, 사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)하고, 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색하는 단계; 상기 센싱 객체에 대한 객체 형상(Object Shape) 및 상기 비디오 객체에 대한 깊이 영상 사이의 차이를 연산하는 단계; 및 상기 연산된 차이에 기반하여, 차이 맵(Difference Map)을 생성하는 단계를 포함한다.

본 발명의 일실시예에 따른 비디오 객체 탐색 장치에 따르면, 사용자는 기존의 비디오를 단순 시청하던 것과 달리, 사용자의 동작/자세를 이용하여 비디오를 탐색할 수 있다. 또한 사용자는 마우스나 터치 등의 기존 입력 방식 대신 몸의 동작을 이용해 비디오를 조작할 수 있어, 비디오 시청에 있어서 높은 몰입감을 가질 수 있다.

또한, 본 발명의 일실시예에 따른 비디오 객체 변형 장치에 따르면, 사용자는 인터렉티브 비디오와 자신의 동작의 차이점을 인지할 수 있다. 또한, 사용자는 인터렉티브 비디오와 자신의 동작의 차이점이 반영된 비디오를 제공 받을 수 있다.

도 1은 본 발명의 일실시예에 따른 인터렉티브 비디오를 처리하는 시스템을 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 인터렉티브 비디오를 나타내는 도면이다.
도 3은 본 발명의 일실시예에 따른 비디오 객체 탐색 장치의 구성을 나타내는 도면이다.
도 4는 본 발명의 또 다른 일실시예에 따른 비디오 객체 탐색 장치의 구성을 나타내는 도면이다.
도 5는 본 발명의 일실시예에 따른 비디오 객체 변형 장치의 구성을 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 비디오 객체 탐색 방법을 나타내는 흐름도이다.
도 7은 본 발명의 일실시예에 따른 비디오 객체 탐색 방법을 나타내는 흐름도이다.
도 8은 본 발명의 일실시예에 따른 비디오 객체 변형 방법을 나타내는 흐름도이다.

이하에서, 본 발명에 따른 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른 인터렉티브 비디오를 처리하는 시스템을 나타내는 도면이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 인터렉티브 비디오를 처리하는 시스템은 비디오 객체 탐색 장치(110) 및 비디오 객체 변형 장치(120)를 포함할 수 있다.

본 발명의 일실시예에 따른 비디오 객체 탐색 장치(110)는, 사용자에 대하여 센싱(Sensing)한 센싱 영상(Sensing Image)(101) 및 인터렉티브 비디오(Interactive Video)(102)를 입력 받아, 사용자의 동작, 자세와 가장 유사한 비디오 객체(Video Object)를 포함하는 프레임(Frame)을 탐색(Exploration)할 수 있다. 예를 들어, 사용자가 요가에 대한 인터렉티브 비디오를 재생하는 경우로서, 사용자가 특정한 요가 자세를 취하는 경우, 본 발명의 일실시예에 따른 비디오 객체 탐색 장치(110)는 사용자가 취한 특정한 요가 자세와 유사한 요가 자세를 취하는 객체(사람)가 포함된 비디오 프레임을 탐색하여, 비디오 재생 장치(130)로 출력할 수 있다. 따라서, 사용자는 요가에 대한 인터렉티브 비디오 중에서 자신이 원하는 동작에 대한 부분을 탐색하고 재생할 수 있다.

센싱 영상(101)은, 카메라, 모션 센서 등을 포함하는 센서(Sensor)를 이용하여, 사용자의 동작, 자세 등을 촬영한 영상(Video)일 수 있다. 센싱 객체(Sensing Object)는 센싱 영상(101)에 포함되는 사용자를 나타내는 객체일 수 있다.

인터렉티브 비디오(102)는 색상 영상을 촬영할 수 있는 색상 카메라(Color Camera) 및 깊이 영상을 촬영할 수 있는 깊이 카메라(Depth Camera) 중 적어도 하나를 이용하여 객체(Object)를 촬영한 영상일 수 있다. 비디오 객체(Video Object)는 인터렉티브 비디오(102)에 포함되는 사람, 물건 등의 객체일 수 있다.

인터렉티브 비디오(102)에 대해서는 도 2를 참조하여 뒤에서 상세히 설명한다.

본 발명의 일실시예에 따른 비디오 객체 변형 장치(120)는, 센싱 영상(Sensing Image)(101) 및 인터렉티브 비디오(102)를 입력 받아, 사용자와 비디오 객체 사이의 차이를 생성하거나, 생성된 차이를 이용하여 비디오 객체를 변형할 수 있다. 예를 들어, 사용자가 요가에 대한 인터렉티브 비디오를 재생하는 경우, 본 발명의 일실시예에 따른 비디오 객체 변형 장치(120)는 사용자의 요가 자세와 재생되고 있는 인터렉티브 비디오의 요가 자세의 차이점을 비디오 재생 장치(130)를 통하여 사용자에게 제공할 수 있다. 따라서, 사용자는 자신의 요가 자세의 잘못된 점을 파악하고, 자세를 수정할 수 있다. 또한, 일실시예에 따른 비디오 객체 변형 장치(120)는 생성된 자세의 차이점을 이용하여 비디오 객체를 변형하고, 변형된 비디오 객체를 비디오 재생 장치(130)를 통하여 사용자에게 제공할 수 있다.

본 발명의 일측에 따르면, 비디오 객체 탐색 장치(110) 및 비디오 객체 변형 장치(120)는 개별적 또는 병렬적으로 제공될 수 있다.

도 2는 본 발명의 일실시예에 따른 인터렉티브 비디오를 나타내는 도면이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 인터렉티브 비디오는 적어도 하나의 색상 영상을 포함한다.

예를 들어, 인터렉티브 비디오는 프레임 t(201)에서 요가 자세를 취하고 있는 비디오 객체(사람)를 포함하는 색상 영상(210)을 n개 포함할 수 있다.

본 발명의 일측에 따르면, 인터렉티브 비디오는 적어도 하나의 깊이 영상(220)을 더 포함할 수 있다.

본 발명의 또 다른 일측에 따르면, 인터렉티브 비디오는 비디오 객체를 스켈레톤(Skeleton) 형태로 나타내는 비디오 객체 스켈레톤(Video Object Skeleton)(230)을 적어도 하나 더 포함할 수 있다.

본 발명의 또 다른 일측에 따르면, 인터렉티브 비디오는 비디오 객체의 형상을 나타내는 비디오 객체 형상(Video Object Shape)(240)을 적어도 하나 더 포함할 수 있다.

도 3은 본 발명의 일실시예에 따른 비디오 객체 탐색 장치의 구성을 나타내는 도면이다.

도 3을 참조하면, 본 발명의 일실시예에 따른 비디오 객체 탐색 장치(300)는 객체 검색부(310), 연산부(320) 및 프레임 추출부(330)를 포함할 수 있다.

객체 검색부(310)는 사용자(301)에 대하여 센싱한 센싱 영상(302)으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 객체 검색부(310)는 센싱 영상(302)으로부터 사용자(301)를 나타내는 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(310)는 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 센싱 영상(302)으로부터 센싱 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(310)는 센싱 영상(302)으로부터 센싱 객체를 스켈레톤 형태의 센싱 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 객체 검색부(310)는 센싱 영상(302)으로부터 센싱 객체를 형상을 나타내는 센싱 객체 형상으로 검색할 수 있다.

객체 검색부(310)는 인터렉티브 비디오(303)로부터 비디오 객체(Video Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 객체 검색부(310)는 인터렉티브 비디오(303)로부터 사람, 물건 등의 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(310)는 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 인터렉티브 비디오(303)로부터 비디오 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(310)는 인터렉티브 비디오(303)로부터 비디오 객체를 스켈레톤 형태의 비디오 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 객체 검색부(310)는 인터렉티브 비디오(303)로부터 비디오 객체를 형상을 나타내는 비디오 객체 형상으로 검색할 수 있다.

연산부(320)는 센싱 객체 및 비디오 객체 사이의 유사도(Similarity)를 연산할 수 있다.

프레임 추출부(330)는 인터렉티브 비디오(303)로부터 유사도가 가장 큰 프레임(Frame)(304)을 추출할 수 있다. 따라서, 프레임 추출부(330)는 인터렉티브 비디오(303)에서 사용자(301)와 가장 유사한 비디오 객체가 포함된 프레임(304)을 추출할 수 있다.

일실시예에 따른 프레임 추출부(330)는 추출된 프레임을 비디오 재생 장치로 출력할 수 있고, 비디오 재생 장치는 추출된 프레임(304)을 재생할 수 있다.

이하, 본 발명의 일실시예에 따른 객체 검색부(310)가 센싱 객체를 센싱 객체 스켈레톤으로 검색하고, 비디오 객체를 비디오 객체 스켈레톤으로 검색한 경우의 비디오 객체 탐색 장치(300)의 동작에 대해서 상세히 설명한다.

일실시예에 따른 객체 검색부(310)는 센싱 영상(302)으로부터 센싱 객체를 센싱 객체 스켈레톤으로 검색할 수 있다.

이 때, 검색된 센싱 객체 스켈레톤은 수식 1과 같은 위치를 갖는 n 개의 조인트를 포함할 수 있다.

수식 1

또한, 객체 검색부(310)는 인터렉티브 비디오(303)로부터 비디오 객체를 비디오 객체 스켈레톤으로 검색할 수 있다.

이 때, 인터렉티브 비디오(303)의 라이프타임 T(Lifetime T)에 속하는 각각의 프레임 t는 수식 2와 같이 나타날 수 있다.

수식 2

이 때, 일실시예에 따른 인터렉티브 비디오(303)의 프레임 t에 저장된 비디오 객체 스켈레톤은 수식 3과 같은 위치를 갖는 n 개의 조인트(Joint)를 포함할 수 있다.

수식 3

일실시예에 따른 연산부(320)는 수식 4를 이용하여, 센싱 객체 및 비디오 객체 사이의 유사도(Similarity)를 연산할 수 있다.

수식 4

일실시예에 따른 프레임 추출부(330)는, 수식 5와 같이, 수식 4의 D(t) 값이 최소가 되는 프레임을 유사도가 가장 큰 프레임(Frame)(304)으로 추출할 수 있다.

수식 5

도 4는 본 발명의 또 다른 일실시예에 따른 비디오 객체 탐색 장치의 구성을 나타내는 도면이다.

도 4를 참조하면, 본 발명의 일실시예에 따른 비디오 객체 탐색 장치(400)는 객체 검색부(410), 트래킹부(420), 연산부(430) 및 프레임 추출부(440)를 포함할 수 있다.

객체 검색부(410)는 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색할 수 있다. 실시예에 따라서는, 각각의 비디오 객체는 고유의 식별자(ID)를 포함할 수 있다.

트래킹부(420)는 사용자(401)로부터 입력되는 비디오 객체를 제어하기 위한 제어점(Control Point)(402)의 위치를 트래킹(Tracking)할 수 있다.

실시예에 따라서는, 손, 얼굴, 발과 같은 대표적인 인체의 바디 파트(Body Part)가 제어점(402)으로 설정될 수 있다.

연산부(430)는 제어점(402)에 대응하는 비디오 객체(403)의 ID 및 제어점(402)의 위치에 기반하여, 비디오 객체(402)의 모멘트(Moment) 및 제어점(402)의 위치의 차이(Difference)를 연산할 수 있다.

프레임 추출부(440)는 인터렉티브 비디오(404)로부터 연산된 차이가 가장 작은 프레임(Frame)을 추출할 수 있다.

따라서, 사용자(401)가 제어점(402)을 이용하여 인터렉티브 비디오(404)의 비디오 객체(402)를 움직이고자 하는 경우, 본 발명의 일실시예에 따른 비디오 객체 탐색 장치(400)는 비디오 객체(402)와 가장 유사한 프레임을 검색할 수 있다.

이하, 본 발명의 일실시예에 따른 객체 검색부(410)가 비디오 객체를 비디오 객체 스켈레톤으로 검색한 경우의 비디오 객체 탐색 장치(400)의 동작에 대해서 상세히 설명한다.

일실시예에 따른 객체 검색부(410)는 인터렉티브 비디오(404)로부터 비디오 객체를 비디오 객체 스켈레톤으로 검색할 수 있다.

일실시예에 따른 트래킹부(420)는 비디오 객체 스켈레톤에서 사용자(301)의 손에 대응하는 조인트(Joint)를 검색할 수 있다. 또한, 트래킹부(420)는 검색된 조인트를 제어점(Control Point)(402)의 위치로 트래킹(Tracking)할 수 있다.

본 발명의 일측에 따르면, 비디오 객체 스켈레톤의 모멘트(Moment)는 수식 6과 같이 나타날 수 있다.

수식 6

연산부(430)는 제어점(402)에 대응하는 비디오 객체 스켈레톤의 ID 및 제어점(402)의 위치에 기반하여, 비디오 객체 스켈레톤의 모멘트(Moment) 및 제어점(402)의 위치의 차이(Difference)를 연산할 수 있다.

프레임 추출부(440)는, 수식 7과 같이, 인터렉티브 비디오(404)로부터 연산된 차이가 가장 작은 프레임(Frame)을 추출할 수 있다.

수식 7

이 때, p: 제어점(402)의 위치

도 5는 본 발명의 일실시예에 따른 비디오 객체 변형 장치의 구성을 나타내는 도면이다.

도 5를 참조하면, 본 발명의 일실시예에 따른 비디오 객체 변형 장치(500)는 객체 검색부(510), 연산부(520) 및 생성부(530)를 포함한다.

객체 검색부(510)는 사용자(501)에 대하여 센싱한 센싱 영상(502)으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 객체 검색부(510)는 센싱 영상(502)으로부터 사용자(501)를 나타내는 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(510)는 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 센싱 영상(502)으로부터 센싱 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(510)는 센싱 영상(502)으로부터 센싱 객체를 스켈레톤 형태의 센싱 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 객체 검색부(510)는 센싱 영상(502)으로부터 센싱 객체를 형상을 나타내는 센싱 객체 형상으로 검색할 수 있다.

객체 검색부(510)는 인터렉티브 비디오(505)로부터 비디오 객체(Video Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 객체 검색부(510)는 인터렉티브 비디오(505)로부터 사람, 물건 등의 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(510)는 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 인터렉티브 비디오(505)로부터 비디오 객체를 검색할 수 있다.

실시예에 따라서는, 객체 검색부(510)는 인터렉티브 비디오(505)로부터 비디오 객체를 스켈레톤 형태의 비디오 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 객체 검색부(510)는 인터렉티브 비디오(505)로부터 비디오 객체를 형상을 나타내는 비디오 객체 형상으로 검색할 수 있다.

연산부(520)는 센싱 객체에 대한 객체 형상(Object Shape) 및 비디오 객체에 대한 깊이 영상 사이의 차이를 연산할 수 있다.

생성부(530)는 연산된 차이에 기반하여, 차이 맵(Difference Map)을 생성할 수 있다. 따라서, 생성된 차이 맵은 비디오 객체와 센싱 객체 사이의 차이를 보여줄 수 있다.

본 발명의 일측에 따르면, 비디오 객체 변형 장치(500)는 분할부(540), 데이터 베이스(550) 및 변형부(560)를 더 포함할 수 있다.

분할부(540)는 비디오 객체에 대한 깊이 영상에 기반하여, 비디오 객체에 대한 색상 영상(Color Image)으로부터 색상 비디오 객체(Color Video Object)를 분할(Segment)할 수 있다.

데이터 베이스(550)는 3차원 가변 객체 모델(3D Morphable Object Model)을 저장할 수 있다.

변형부(560)는 생성된 차이 맵, 분할된 색상 비디오 객체 및 데이터 베이스(550)에 저장된 3차원 가변 객체 모델에 기반하여, 비디오 객체를 변형(Deformation)할 수 있다.

본 발명의 일측에 따르면, 변형부(560)는 데이터 베이스(550)에 저장된 3차원 가변 객체 모델에 색상 비디오 객체를 텍스처링(Texturing)할 수 있다. 또한, 변형부(560)는 생성된 차이 맵에 기반하여, 텍스처링된 3차원 가변 객체 모델에 대하여 3차원 모델 변형(3D Model Deformation)을 수행할 수 있다. 또한, 변형부(560)는 3차원 모델 변형이 수행된 3차원 가변 객체 모델을 2차원 영상으로 투사(Projection)하여 비디오 객체를 변형할 수 있다.

본 발명의 일측에 따르면, 비디오 객체 변형 장치(500)는 합성부(570)를 더 포함할 수 있다.

합성부(570)는 인터렉티브 비디오(505)에 변형된 비디오 객체를 합성할 수 있다. 따라서, 사용자(501)는 변형이 되지 않은 오리지날 비디오 객체(Original Video Object)(503)뿐만 아니라, 사용자(501)와 오리지날 비디오 객체(503) 사이의 차이점이 반영되어 변형된 비디오 객체(504)를 제공 받을 수 있다.

도 6은 본 발명의 일실시예에 따른 비디오 객체 탐색 방법을 나타내는 흐름도이다.

도 6을 참조하면, 본 발명의 일실시예에 따른 비디오 객체 탐색 방법은 센싱 영상으로부터 센싱 객체를 검색하고, 인터렉티브 비디오로부터 비디오 객체를 검색할 수 있다(610).

일실시예에 따른 비디오 객체 탐색 방법은 사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 비디오 객체 탐색 방법은 센싱 영상으로부터 사용자를 나타내는 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 탐색 방법은 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 센싱 영상으로부터 센싱 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 탐색 방법은 센싱 영상으로부터 센싱 객체를 스켈레톤 형태의 센싱 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 비디오 객체 탐색 방법은 센싱 영상으로부터 센싱 객체를 형상을 나타내는 센싱 객체 형상으로 검색할 수 있다.

비디오 객체 탐색 방법은 인터렉티브 비디오로부터 비디오 객체(Video Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 비디오 객체 탐색 방법은 인터렉티브 비디오로부터 사람, 물건 등의 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 탐색 방법은 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 인터렉티브 비디오로부터 비디오 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 탐색 방법은 인터렉티브 비디오로부터 비디오 객체를 스켈레톤 형태의 비디오 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 비디오 객체 탐색 방법은 인터렉티브 비디오로부터 비디오 객체를 형상을 나타내는 비디오 객체 형상으로 검색할 수 있다.

비디오 객체 탐색 방법은 센싱 객체 및 비디오 객체 사이의 유사도(Similarity)를 연산할 수 있다(620).

비디오 객체 탐색 방법은 인터렉티브 비디오로부터 유사도가 가장 큰 프레임(Frame)을 추출할 수 있다(630). 따라서, 비디오 객체 탐색 방법은 인터렉티브 비디오에서 사용자와 가장 유사한 비디오 객체가 포함된 프레임을 추출할 수 있다.

일실시예에 따른 비디오 객체 탐색 방법은 추출된 프레임을 비디오 재생 장치로 출력할 수 있고, 비디오 재생 장치는 추출된 프레임을 재생할 수 있다.

이하, 본 발명의 일실시예에 따른 비디오 객체 탐색 방법이 센싱 객체를 센싱 객체 스켈레톤으로 검색하고, 비디오 객체를 비디오 객체 스켈레톤으로 검색한 경우의 비디오 객체 탐색 방법의 동작에 대해서 상세히 설명한다.

일실시예에 따른 비디오 객체 탐색 방법은 센싱 영상으로부터 센싱 객체를 센싱 객체 스켈레톤으로 검색할 수 있다.

이 때, 검색된 센싱 객체 스켈레톤은 수식 1-2과 같은 위치를 갖는 n 개의 조인트를 포함할 수 있다.

수식 1-2

또한, 비디오 객체 탐색 방법은 인터렉티브 비디오로부터 비디오 객체를 비디오 객체 스켈레톤으로 검색할 수 있다.

이 때, 인터렉티브 비디오의 라이프타임 T(Lifetime T)에 속하는 각각의 프레임 t는 수식 2-2와 같이 나타날 수 있다.

수식 2-2

이 때, 일실시예에 따른 인터렉티브 비디오의 프레임 t에 저장된 비디오 객체 스켈레톤은 수식 3-2과 같은 위치를 갖는 n 개의 조인트(Joint)를 포함할 수 있다.

수식 3-2

일실시예에 따른 비디오 객체 탐색 방법은 수식 4-2를 이용하여, 센싱 객체 및 비디오 객체 사이의 유사도(Similarity)를 연산할 수 있다.

수식 4-2

일실시예에 따른 비디오 객체 탐색 방법은, 수식 5-2와 같이, 수식 4-2의 D(t) 값이 최소가 되는 프레임을 유사도가 가장 큰 프레임(Frame)으로 추출할 수 있다.

수식 5-2

도 7은 본 발명의 일실시예에 따른 비디오 객체 탐색 방법을 나타내는 흐름도이다.

도 7을 참조하면, 본 발명의 일실시예에 따른 비디오 객체 탐색 방법은 인터렉티브 비디오(Interactive Video)로부터 비디오 객체(Video Object)를 검색할 수 있다(710). 실시예에 따라서는, 각각의 비디오 객체는 고유의 식별자(ID)를 포함할 수 있다.

비디오 객체 탐색 방법은 사용자로부터 입력되는 비디오 객체를 제어하기 위한 제어점(Control Point)의 위치를 트래킹(Tracking)할 수 있다(720).

실시예에 따라서는, 손, 얼굴, 발과 같은 대표적인 인체의 바디 파트(Body Part)가 제어점으로 설정될 수 있다.

비디오 객체 탐색 방법은 제어점에 대응하는 비디오 객체의 ID 및 제어점의 위치에 기반하여, 비디오 객체의 모멘트(Moment) 및 제어점의 위치의 차이(Difference)를 연산할 수 있다(730).

비디오 객체 탐색 방법은 인터렉티브 비디오로부터 연산된 차이가 가장 작은 프레임(Frame)을 추출할 수 있다(740).

따라서, 사용자가 제어점을 이용하여 인터렉티브 비디오의 비디오 객체를 움직이고자 하는 경우, 본 발명의 일실시예에 따른 비디오 객체 탐색 방법은 비디오 객체와 가장 유사한 프레임을 검색할 수 있다.

이하, 본 발명의 일실시예에 따른 비디오 객체 탐색 방법이 비디오 객체를 비디오 객체 스켈레톤으로 검색한 경우의 비디오 객체 탐색 방법의 동작에 대해서 상세히 설명한다.

일실시예에 따른 비디오 객체 탐색 방법은 인터렉티브 비디오로부터 비디오 객체를 비디오 객체 스켈레톤으로 검색할 수 있다.

일실시예에 따른 비디오 객체 탐색 방법은 비디오 객체 스켈레톤에서 사용자의 손에 대응하는 조인트(Joint)를 검색할 수 있다. 또한, 비디오 객체 탐색 방법은 검색된 조인트를 제어점(Control Point)의 위치로 트래킹(Tracking)할 수 있다.

본 발명의 일측에 따르면, 비디오 객체 스켈레톤의 모멘트(Moment)는 수식 6-2과 같이 나타날 수 있다.

수식 6-2

비디오 객체 탐색 방법은 제어점에 대응하는 비디오 객체 스켈레톤의 ID 및 제어점의 위치에 기반하여, 비디오 객체 스켈레톤의 모멘트(Moment) 및 제어점의 위치의 차이(Difference)를 연산할 수 있다.

비디오 객체 탐색 방법은, 수식 7-2과 같이, 인터렉티브 비디오로부터 연산된 차이가 가장 작은 프레임(Frame)을 추출할 수 있다.

수식 7-2

이 때, p: 제어점의 위치

도 8은 본 발명의 일실시예에 따른 비디오 객체 변형 방법을 나타내는 흐름도이다.

도 8을 참조하면, 본 발명의 일실시예에 따른 비디오 객체 변형 방법은 센싱 영상으로부터 센싱 객체를 검색하고, 인터렉티브 비디오로부터 비디오 객체를 검색할 수 있다(810).

비디오 객체 변형 방법은 사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체(Sensing Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 비디오 객체 변형 방법은 센싱 영상으로부터 사용자를 나타내는 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 변형 방법은 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 센싱 영상으로부터 센싱 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 변형 방법은 센싱 영상으로부터 센싱 객체를 스켈레톤 형태의 센싱 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 비디오 객체 변형 방법은 센싱 영상으로부터 센싱 객체를 형상을 나타내는 센싱 객체 형상으로 검색할 수 있다.

비디오 객체 변형 방법은 인터렉티브 비디오로부터 비디오 객체(Video Object)를 검색(Retrieval)할 수 있다. 자세히 설명하면, 비디오 객체 변형 방법은 인터렉티브 비디오로부터 사람, 물건 등의 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 변형 방법은 모델(Model)에 기반하여 트래킹(Tracking) 방법을 이용하여, 인터렉티브 비디오로부터 비디오 객체를 검색할 수 있다.

실시예에 따라서는, 비디오 객체 변형 방법은 인터렉티브 비디오로부터 비디오 객체를 스켈레톤 형태의 비디오 객체 스켈레톤으로 검색할 수 있다. 또 다른 실시예에 따라서는, 비디오 객체 변형 방법은 인터렉티브 비디오로부터 비디오 객체를 형상을 나타내는 비디오 객체 형상으로 검색할 수 있다.

비디오 객체 변형 방법은 센싱 객체에 대한 객체 형상(Object Shape) 및 비디오 객체에 대한 깊이 영상 사이의 차이를 연산할 수 있다(820).

비디오 객체 변형 방법은 연산된 차이에 기반하여, 차이 맵(Difference Map)을 생성할 수 있다(830). 따라서, 생성된 차이 맵은 비디오 객체와 센싱 객체 사이의 차이를 보여줄 수 있다.

본 발명의 일측에 따르면, 비디오 객체 변형 방법은 색상 영상으로부터 색상 비디오 객체를 분할하는 단계 및 비디오 객체를 변형(Deformation)하는 단계를 더 포함할 수 있다.

일실시예에 따른 비디오 객체 변형 방법은 비디오 객체에 대한 깊이 영상에 기반하여, 비디오 객체에 대한 색상 영상(Color Image)으로부터 색상 비디오 객체(Color Video Object)를 분할(Segment)할 수 있다(840).

또한, 비디오 객체 변형 방법은 생성된 차이 맵, 분할된 색상 비디오 객체 및 데이터 베이스에 저장된 3차원 가변 객체 모델에 기반하여, 비디오 객체를 변형(Deformation)할 수 있다(850).

본 발명의 일측에 따르면, 비디오 객체 변형 방법은 데이터 베이스에 저장된 3차원 가변 객체 모델에 색상 비디오 객체를 텍스처링(Texturing)할 수 있다. 또한, 비디오 객체 변형 방법은 생성된 차이 맵에 기반하여, 텍스처링된 3차원 가변 객체 모델에 대하여 3차원 모델 변형(3D Model Deformation)을 수행할 수 있다. 또한, 비디오 객체 변형 방법은 3차원 모델 변형이 수행된 3차원 가변 객체 모델을 2차원 영상으로 투사(Projection)하여 비디오 객체를 변형할 수 있다.

본 발명의 일측에 따르면, 비디오 객체 변형 방법은 인터렉티브 비디오에 변형된 비디오 객체를 합성하는 단계를 더 포함할 수 있다(860).

따라서, 사용자는 변형이 되지 않은 오리지날 비디오 객체(Original Video Object)뿐만 아니라, 사용자와 오리지날 비디오 객체 사이의 차이점이 반영되어 변형된 비디오 객체를 제공 받을 수 있다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

101: 센싱 영상
110: 비디오 객체 탐색 장치
120: 비디오 객체 변형 장치
130: 비디오 재생 장치

Claims

사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체를 검색하고, 인터렉티브 비디오로부터 비디오 객체를 검색하는 객체 검색부;
상기 센싱 객체 및 상기 비디오 객체 사이의 유사도를 연산하는 연산부; 및
상기 인터렉티브 비디오로부터 상기 유사도가 가장 큰 프레임을 추출하는 프레임 추출부
를 포함하는 비디오 객체 탐색 장치.
인터렉티브 비디오로부터 비디오 객체를 검색하는 객체 검색부;
사용자로부터 입력되는 상기 비디오 객체를 제어하기 위한 제어점의 위치를 트래킹하는 트래킹부;
상기 비디오 객체의 ID 및 상기 제어점의 위치에 기반하여, 상기 비디오 객체의 모멘트 및 상기 제어점의 위치의 차이를 연산하는 연산부; 및
상기 인터렉티브 비디오로부터 상기 연산된 차이가 가장 작은 프레임을 추출하는 프레임 추출부
를 포함하는 비디오 객체 탐색 장치.
사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체를 검색하고, 인터렉티브 비디오로부터 비디오 객체를 검색하는 객체 검색부;
상기 센싱 객체에 대한 객체 형상 및 상기 비디오 객체에 대한 깊이 영상 사이의 차이를 연산하는 연산부; 및
상기 연산된 차이에 기반하여, 차이 맵을 생성하는 생성부
를 포함하는 비디오 객체 변형 장치.
제3항에 있어서,
상기 깊이 영상에 기반하여, 상기 비디오 객체에 대한 색상 영상으로부터 색상 비디오 객체를 분할하는 분할부;
3차원 가변 객체 모델을 저장하는 데이터 베이스; 및
상기 차이 맵, 상기 색상 비디오 객체 및 상기 3차원 가변 객체 모델에 기반하여, 상기 비디오 객체를 변형하는 변형부
를 더 포함하는 비디오 객체 변형 장치.
제4항에 있어서,
상기 변형부는
상기 3차원 가변 객체 모델에 상기 색상 비디오 객체를 텍스처링하고,
상기 차이 맵에 기반하여, 상기 텍스처링된 3차원 가변 객체 모델에 대하여 3차원 모델 변형을 수행하며,
상기 3차원 모델 변형이 수행된 3차원 가변 객체 모델을 2차원 영상으로 투사하여 상기 비디오 객체를 변형하는 비디오 객체 변형 장치.
제4항에 있어서,
상기 인터렉티브 비디오에 상기 변형된 비디오 객체를 합성하는 합성부
를 더 포함하는 비디오 객체 변형 장치.
사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체를 검색하고, 인터렉티브 비디오로부터 비디오 객체를 검색하는 단계;
상기 센싱 객체 및 상기 비디오 객체 사이의 유사도를 연산하는 단계; 및
상기 인터렉티브 비디오로부터 상기 유사도가 가장 작은 프레임을 추출하는 단계
를 포함하는 비디오 객체 탐색 방법.
인터렉티브 비디오로부터 비디오 객체를 검색하는 단계;
사용자로부터 입력되는 상기 비디오 객체를 제어하기 위한 제어점의 위치를 트래킹하는 단계;
상기 비디오 객체의 ID 및 상기 제어점의 위치에 기반하여, 상기 비디오 객체의 모멘트 및 상기 제어점의 위치 사이의 차이를 연산하는 단계; 및
상기 인터렉티브 비디오로부터 상기 연산된 차이가 가장 작은 프레임을 추출하는 단계
를 포함하는 비디오 객체 탐색 방법.
사용자에 대하여 센싱한 센싱 영상으로부터 센싱 객체를 검색하고, 인터렉티브 비디오로부터 비디오 객체를 검색하는 단계;
상기 센싱 객체에 대한 객체 형상 및 상기 비디오 객체에 대한 깊이 영상 사이의 차이를 연산하는 단계; 및
상기 연산된 차이에 기반하여, 차이 맵을 생성하는 단계
를 포함하는 비디오 객체 변형 방법.
제9항에 있어서,
상기 깊이 영상에 기반하여, 상기 비디오 객체에 대한 색상 영상으로부터 색상 비디오 객체를 분할하는 단계; 및
상기 차이 맵, 상기 색상 비디오 객체 및 데이터 베이스에 저장된 3차원 가변 객체 모델에 기반하여, 상기 비디오 객체를 변형하는 단계
를 더 포함하는 비디오 객체 변형 방법.
제10항에 있어서,
상기 인터렉티브 비디오에 상기 변형된 비디오 객체를 합성하는 단계
를 더 포함하는 비디오 객체 변형 방법.
제7항 내지 제11항 중 어느 한 항의 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.