KR20090092839A - 2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법 - Google Patents

2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법

Info

Publication number
KR20090092839A
KR20090092839A KR1020097015008A KR20097015008A KR20090092839A KR 20090092839 A KR20090092839 A KR 20090092839A KR 1020097015008 A KR1020097015008 A KR 1020097015008A KR 20097015008 A KR20097015008 A KR 20097015008A KR 20090092839 A KR20090092839 A KR 20090092839A
Authority
KR
South Korea
Prior art keywords
audio
scene
depth
video
visible
Prior art date
Application number
KR1020097015008A
Other languages
English (en)
Inventor
데브데트 브라제로빅
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20090092839A publication Critical patent/KR20090092839A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

2D/3D 비디오 변환은 비디오 시퀀스(video sequence)에 대한 가시적 깊이 추정(estimation of visual depth)을 제공하기 위한 방법을 이용하고, 상기 방법은 장면의 가시적 깊이(37)의 가시적 깊이 범주화 색인(visual depth categorization index)이 장면에 대한 오디오 정보(32)의 분석을 기초로 행해지는 오디오 장면 분류(audio scene classification)(34)를 포함하고, 상기 가시적 깊이 범주화 색인(37)은 동일한 장면에 대한 비디오 정보(33)를 기초로 다음 가시적 깊이 추정(38)에 사용됨으로써, 계산 부하를 감소시키고 처리 속도를 상승시킨다.

Description

2D 비디오를 3D 비디오로 변환하기 위한 시스템 및 방법 {METHOD AND SYSTEM TO CONVERT 2D VIDEO INTO 3D VIDEO}
본 발명은 비디오 시퀀스(video sequence)에 대한 가시적 깊이(visual depth)를 추정하기 위한 방법에 관한 것이다.
본 발명은 또한 2D 영상을 3D 영상으로 변환하는 방법에 관한 것으로서, 상기 방법은 가시적 깊이의 추정을 포함한다.
본 발명은 또한 비디오 시퀀스에 대한 가시적 깊이를 추정하는 시스템에 관한 것이다.
가시적 깊이, 즉 영상에서 관찰점(point of view) 및 물체 간의 거리는 원래의 2D 영상을 3D 영상으로 변환하는 중요한 매개변수이다. 2D 영상을 3D 영상으로 변환하기 위해 가시적 깊이 지도(visual depth map)가 생성되어야만 하는데, 일반적으로 Z-값으로 불리는 깊이 값을 각 픽셀에 제공한다. 상기 Z-값은 절대적 또는 상대적일 수 있다. 픽셀 상의 데이터 및 깊이 지도를 사용하면, 2개의 영상들, 즉 좌 및 우 영상 생성할 수 있다. 상기 좌 및 우 영상들은 3D 데이터 스트림으로 결합된다. 3D 영상 디스플레이 디바이스들은 2개의 다소 상이한 영상들을 생성할 수 있도록 구성되는데, 이들 두 개의 다소 상이한 영상들은 관찰자(viewer)에 의해 좌 및 우 영상으로서 인식됨으로써, 3D 영상의 모습 및 느낌(appearance and sensation)을 제공한다.
상기 좌 및 우 영상을 정확하게 생성하기 위해 가시적 깊이의 지식은 유용하거나 필요로 된다.
영상 단서들(image cues)로부터 영상 내의 픽셀들의 깊이 값들을 추정하고자 하는 것이 공지되어 있다. 이러한 영상 단서들은 예들 들어 폐색(occlusion)(한 영상의 다른 요소 뒤에 위치한 한 요소), 물체들간의 초점의 차이들, 물체들의 상대적 크기, 이전 영상들과의 비교를 들 수 있다.
이런 방법들이 합리적인 결과들을 제공할 수 있지만, 가시적 깊이 추정을 위하여 필요로 되는 계산력은 관련된 데이터 량과 마찬가지로 통상적으로 크게 요구된다. 실시간 2D에서 3D 변환은 가능할지라도 어렵다.
계산의 부하를 줄임으로써 더욱 효율적인 깊이 추정을 실행할 수 있는 방법이 필요하다.
도 1은 영상 부분 및 두 방위들(orientations)의 기하 형태를 도시한 도면.
도 2는 영상의 일부의 영상을 도시한 도면.
도 3은 본 발명에 따른 방법 및 시스템을 개요적으로 도시한 도면.
도 4는 전형적인 카메라 위치들을 도시한 도면.
도 5는 일부 실험 결과들을 도시한 도면.
도 6은 전형적 가시적 깊이 단서의 종속성을 도시한 도면.
도 7은 상기 방법의 한 예시적인 구현방식을 전체적으로 도시한 도면.
도 8은 오디오 분류(좌) 및 오디오- 및 비디오-프레임 데이터의 시간적 정렬(우)을 도시한 도면;
도 9는 결정 수목의 한 예를 도시한 도면;
도 10은 카메라 방위 및 이동에 관련된 한 예를 도시한 도면.
이를 위하여, 본 발명에 따른 방법은 장면의 가시적 깊이의 가시적 깊이 범주화 색인(visual depth categorization index)이 장면을 위한 오디오 정보의 분석을 기초로 행해지는 오디오 장면 분류(audio scene classification)를 포함하고, 상기 가시적 깊이 범주화 색인은 동일한 장면을 위한 비디오 정보를 기초로 다음 가시적 깊이 추정시에 사용된다.
본 발명에 따른 시스템은 장면 오디오 정보에 대한 분석 및 상기 분석을 기초로 가시적 깊이 범주로 상기 장면을 분류하기 위한 오디오 분류기를 포함하고, 상기 오디오 분류기는 상기 장면의 가시적 깊이 범주화 색인을 제공하는 출력을 갖고 상기 가시적 깊이 범주화 색인은 동일 장면의 비디오 정보의 비디오 가시적 깊이 분석기에 제공된다.
본 발명은 오디오 장면 및 카메라 (관찰(viewing)) 거리간 상관성이 존재한다는 점을 기반으로 한다.
오디오 정보 장면들을 이용하여, 익스트림 클로우즈-업(extreme close-up), 클로우즈-업, 미디엄 뷰(medium view) 등 같은 가시적 깊이 범주로 분류될 수 있다. 즉, 가시적 깊이 범주화 색인은 장면에 제공될 수 있다.
그 후, 이 가시적 깊이 범주화 색인은 동일 장면에 대한 비디오 정보를 기반으로 한 가시적 깊이 결정에 대한 정보로서 추가적인 단계에서 사용된다.
비디오 대신에 오디오의 분석은, 오디오의 훨씬 낮은 데이터 처리량으로 인해 계산 지연을 낮춘다는 것을 의미한다. 한 비디오 프레임보다 수 배나 짧은 시간 프레임을 기반으로 하여, 실시간보다 수 십배나 빠르게 동작하는 오디오 분류기들이 문헌에 서술되어 있다. 따라서, 오디오 분석에 의해 수집된 상기 정보는 임의 인식가능한 계산 부하가 없고 실시간으로 (또는, 비디오 프로그램의 전체 오디오 트랙이 메모리에서 이미 이용가능하다면 훨씬 더 빠르게) 수행될 수 있다. 그러나, 오디오 분석으로부터 수집된 상기 정보는 다음 비디오 분석에서 계산 부하를 크게 감소시키는데, 그 이유는 오디오 분류기로부터의 정보가 양호한 시작점이기 때문이다.
바람직하게는, 가시적 깊이 범주 색인은 장면이 하나 이상의 가시적 깊이 범주들에 속하는 확률을 나타내는 오디오 분석된 장면에 대한 확률들을 포함한다.
본 발명의 프레임워크 내에서, "색인"이 가시적 깊이 범주의 단일 표시 같은, 단일 표시, 예를 들어, "이 장면은 익스트림 클로우즈-업" 또는 더욱 복잡한 데이터일 수 있다. 바람직한 실시예에서 상기 색인은 장면이 특정 가시적 깊이 범주에 속하는 확률들을 제공한다. 이러한 표시는 비디오 정보를 기초로한 다음 가시적 깊이 분석에 의해 사용되어, 상대적으로 고속이고 간단한 알고리즘에 의해 가장 높은 확률을 갖는 깊이 범주가 정확한 시작점인지 또는 다음으로 가능한 시작점인지 여부를 신속히 확인한다.
따라서, 상기 확률 정보는 가시적 깊이 결정을 위한 더욱 적절한 시작점의 기회를 제공한다. 이는 다음의 비디오 깊이 분석이 오디오 분류기로부터의 정보에 의해 도움받기 보다는, 이 정보에 의해 잘못 유도될 확률을 감소시킨다.
실시예들에서, 상기 오디오 장면 분류는 결정 수목(decision tree)을 기반으로 하고, 오디오 단서들(audio cues)은 결정 수목 형태로 분석된다.
실시예들에서, 상기 오디오 장면 분류는 오디오 단서들 각각이 별도의 분류를 제공하도록 사용되고 각 분류에는 오디오 단서의 가중치에 상응하는 가중치가 부여되는 방법에 기초된다.
제 1 실시예에서, 오디오 단서는 발화 컨텐트(speech content)를 기반으로 한다. 상기 음성과 카메라 거리간의 대응은 상대적으로 높은 것으로 밝혀졌다.
추가적인 한 실시예에서, 오디오 단서는 음악 컨텐트를 기반으로 한다. 이는 음악의 분위기 및/또는 그 세기는 카메라 거리와 관련된 것으로 밝혀졌다.
또한 다른 실시예에서 오디오 단서는 잡음을 기반으로 한다.
본 발명의 이들 및 다른 유용한 양상들이 다음 도면들을 이용하여 더욱 상세하게 설명될 것이다.
이 도면들은 원래 크기대로 도시되지 않는다. 일반적으로 동일한 구성요소들에는 도면들에서 동일한 참조 번호들이 붙여진다.
3D-TV의 개념은 현재 기존 및 새로운 3D 패러다임과 기술 및 그 주변에 증가하는 투자로 반영되는 실제 부흥을 맞고 있다. 과거와 달리, 현재의 노력들은, 예를 들어, 컨텐트와 디스플레이 모두를 동시에 생산-소비 사슬의 모든 양태들을 처리한다. 필름 산업이 스테레오 영상 녹화 및 관람을 기반으로 한 3D-시네마 경험을 지지하지만, 회사들은 오토-스테레오스코픽(auto-stereoscopic) (소비자) 디스플레이들 상에 랜더링하는데 적합한 포맷들로 이런 스테레오- 또는 레귤러(regular) 2D 비디오를 변환시키기 위한 해결법을 제공하고 있다. 동시에, 이러한 포맷들의 표준화는 MPEG와 같은 포럼들(forums)에서 논의되어지고 있다. 이는 모두 3D-TV가 많은 이들에게 차세대 주요 미디어 추진력의 촉매인 것으로 여겨지게 한다.
시장에 3D-TV의 성공적인 도입을 위하여 (자동적인) 2D에서 3D 변환의 이용성은 중요한 요소이다. 스테레오 재료의 단지 제한된 양이 이용될 수 있기 때문에, 기존 재료(예를 들어, DVDs)가 또한 3D로 도시될 수 있으면 3D-TV는 많은 청중에게 매우 매력적이다. 이 변환의 핵심 아이디어는 깊이의 추정이다, 즉, 장면에서(영상 내의 픽셀들) 어느 물체들이 다른 물체들보다 관찰자에게 더욱 근접한지에 대한 양자화이다. 이런 변환은 방송사업자에 의해 행해질 수 있고 결과적인 픽셀 깊이-지도는 레귤러 TV 신호에 탑재되어 전송된다. 그러나, 상기 소비자 측에서 변환은 방송 기반구조에 대한 적응성을 필요로 하지 않는 고급 3D-TV 도입을 허용한다,
도 1은 영상(10)의 일부 및 두 개의 방위들(12a 및 12b)의 기하학적 형태를 도시한다. 영상의 일부는 예를 들어 영상 내의 사람 또는 어떠한 물체일 수 있다. 본 발명은 영상의 깊이 지도를 제공하기 위한 방법에 관한 것이다. 깊이 지도는 물체들의 지점들로의 z-값, 즉 깊이 값을 부여하는 것으로서 간주될 수 있다. 영상(10)의 부분을 포함하는 장면의 영상들이 상이한 방위들(12a 및 12b)로부터의 점 투영(point projection)을 이용하여 얻어질 때, 영상의 부분 상의 점들(14 및 15)이 영상에서 가시화될 위치는 점들(14 및 15)의 투영들(16a, 16b, 17a, 및 17b)이다. 이 투영들은 점들(14 및 15)로부터 방위들(12a 및 12b)로 영상 평면(18)으로 그어진 선들(19a 내지 19d)에 의해 도시될 수 있다. 기본적인 원리들을 설정하기 위하여, 방위들(12a 및 12b)은 영상 평면(18)에 평행한 평면에서 선택되지만, 본 발명은 그와 같은 방위들(12a 및 12b)의 선택으로 제한되지 않는다. 이들 라인들(19a 내지 19d)과 영상 평면(18) 간의 교차점들은 영상(10)의 일부의 점들(14 및 15)이 영상들에서 가시화될 위치들을 나타낸다.
관찰점(12a 및 12b)의 변화가 영상의 일부 상의 점(14 및 15)가 영상 평면(18)에서 가시화될 위치(16a, 16b, 17a, 및 17b)의 이동(translation)을 가져온다는 것에 유의한다. 이 이동은 관찰점 및 상기 지점 간의 깊이 "z"에 역비례하고 관찰점의 위치의 변화량에 비례한다. 결과적으로, 이 이동은 방위들(12a 및 12b)로부터 상이한 깊이들 "z"을 갖는 영상의 일부의 지점들(14 및 15)에 대해서 상이하게 될 것이다. 2차원 영상으로부터 z-깊이 지도가 만들어질 때, 통상적으로 폐색, 물체의 크기, 유사한 물체들의 상대 크기들, 물체의 끝변의 선명도 등과 같은 가시적 단서들이 사용된다. 그러나, 종종 이 결과들은 불확실하다. 픽셀 크기가 작은 나무는 근처의 작은 나무일 수 있거나 먼 거리의 큰 나무일 수 있으므로, 크기는 단서이지만 오도할 수 있다. 물체가 초점 내에 있는지 여부는 더욱 멀리 떨어진 물체들과 비교하여 전경 물체이라는 것을 나타낼 수 있다. 그러나, 카메라 및 물체 간의 거리가 작거나 상대적으로 큰지 여부는 구별될 수 없다. 따라서, 초점 내 또는 초점을 벗어난 것은 가시적 단서를 형성하지만 잘못 유도될 수 있다. 이하에, 잘못유도된 단서들의 더 많은 예들이 제공될 것이다.
종종 다수의 상대적으로 고정된 설정들, 예를 들어, 익스트림 클로우즈-업, 클로우즈-업, 미디엄 뷰, 풀-뷰(full-view) 및 롱-뷰(long-view)가 사용된다는 것을 본 발명가들은 인식하였다. 이들 설정들 각각은 다소간의 카메라 물체 거리의 특성 범위를 갖는다.
또한, 본 발명가들은 오디오 장면, 즉 장면과 관련된 소리 트랙과 카메라 거리 간에 상관성이 존재한다는 것을 알게 되었다.
이는 본 발명의 핵심을 형성한다. 오디오 정보를 이용하여 카메라 거리를 나타내는 색인이 장면에 제공된다. 오디오 정보는 비디오 데이터보다 훨씬 적은 데이터 및 계산력을 필요로 하고 크기 차수들만큼 더욱 빠르게 분석될 수 있다.
도 3은 본 발명에 따른 방법 및 시스템의 기본적인 셋-업을 도시한다. 이는 2D에서 3D 변환을 허용한다.
입력 신호 I(2D), 즉 2D 내의 비디오 장면은 입력 (31)에서 오디오 장면 부부분(32) 및 비디오 장면 부분(33)으로 분리된다. 오디오 장면은 오디오 분류기(34)로 전송된다. 분류기는 발화의 존재, 음악의 존재, 발화 음악의 크기, 잡음 존재 등과 같은 특정 특성들을 발생시키는 오디오 장면을 분석하는 분석기(35)를 포함한다. 이하에 예들이 제공될 것이다. 이 정보는 오디오 장면을 분류하고 색인(37)을 이것에 제공하기 위하여 이 분석의 결과들을 이용하는 내부 분류기(36)에서 사용되고, 상기 색인은 예를 들어 익스트림 클로우즈-업으로서 장면을 나타내는 숫자이거나 익스트림 클로우즈-업, 클로우즈-업, 미디엄 뷰 등인 장면의 확률들을 제공하는 본 발명을 따른 표이다.
색인(37)은 가시적 깊이 추정기(estimator)(38)에 사용된다. 가시적 깊이 추정기(38)는 한편으로 색인 데이터를 이용하고, 다른 한편으로 동일한 비디오 장면에서 가시적 단서들을 이용하여 깊이 지도를 만든다. 이 깊이 지도는 영상 데이터에 추가된다. 깊이 지도를 이용함으로써, 영상은 이제 3D 영상 디바이스 상에 디스플레이될 수 있다.
본 발명의 이점은 결합된 오디오 및 가시적 단서들을 이용함으로써 2D에서 3D 변환은 더 고속화되고 종종 실시간으로 행해질 수 있다는 것이다.
도 4는 전형적인 카메라 위치들, 익스트림 클로우즈-업(익스트림 CU), 클로우즈-업(CU), 미디엄 뷰, 풀-뷰, 및 롱-뷰를 도시한다. 이들 카메라 설정들 각각에, 가장 중요한 물체들 및 카메라 간의 일반적인 거리 또는 일반적인 거리 범위가 연관된다. 인간의 눈 또는 더욱 정확하게는 인간의 두뇌는 각종 카메라 셋-업들을 거의 순간적으로 구별할 수 있지만, 비디오 파일에서 가시적 단서들에 의해 동일한 것을 행하는 것은 종종 대량의 계산력을 필요로 하고 또한 심지어 모호한 결과들이 발생될 수 있다. 2D 비디오로부터 깊이의 자동적인 추정은 본래 각각이 피할 수 없게 불완전하고 상이한 유형들의 장면(예를 들어, 클로우즈-업 대 미디엄-뷰, 실내 대 실외)에 대해 더욱 좋거나 나쁘게 동작할 수 있는 휴리스틱(heuristic) 깊이 단서들에 좌우된다. 영상들로부터의 가시적 장면 분류는 별도의 문제로서 연구되어 왔고 많은 해법들이 제안되어 왔는데, 이 해법들은 한 방식 또는 또 다른 방식으로 (다변량) 패턴 분석(multivariate pattern analysis) 및/또는 감독된 학습(supervised learning)과 같은 기술들을 포함한다. 그러나, 고처리량 비디오 데이터(초당 다수의 영상들)를 입력으로서 취할 때, 이들 기술들은 종종 상당한 계산적인 지연을 야기하는데, 이 때문에, 이들은 실제적인 2D에서 3D로 비디오 변환 시스템들로 유도하지 않는다.
이는 상이한 유형들의 장면들을 검출함으로써, 단서들 간의 적절한(동적) 혼합 또는 스위칭이 가능하도록 하는 메커니즘을 갖는 것이 매우 바람직하다는 것을 의미한다.
본 발명가들은 오디오 장면 및 카메라 설정 간의 상관성이 존재한다는 것을 알게 되었다. 오디오 장면들은 데이터 량이 크기의 차수들만큼 더욱 작게 되기 때문에 크기 차수들만큼 더욱 빠르게 분석되고 분류될 수 있다. 오디오에 의한 이 검출은 카메라 셋업들 중 하나에서 장면들의 매우 빠르고 조악한(crude) 범주화를 가능하게 한다. 이 범주화는 통상적으로 가시적 깊이 분석기(38)에서 사용되는 알고리즘들을 위한 파라미터들 중 하나 이상에 대한 시작점으로서 가시적 분석에서 사용될 매우 중요한 단서를 제공한다. 본 발명은 비디오 특히 필름에서, 각종 음향 소스들(예를 들어, 음성, 필름 음악, 환경적인 소리들 등)의 결합 및 특정사항들이 장면에 대해서 많은 것을 말해줄 수 있다는 사실을 이용한다. 오디오 장면 및 카메라 (관찰) 거리 간에 상관성이 존재한다.
예를 들어 독백(monologue) 및 대화(dialog), 실내-실외 장면들 등으로 오디오 장면을 범주화하도록 하는 것이 알려져 있지만, 카메라 설정들의 범주화 또는 영상들의 2D에서 3D로의 변환에서 이와 같은 범주화의 이용과 아무런 링크가 만들어지지 않았다는 점에 유의하라.
도 5는 일부 실험 결과들을 도시한다. 도 5는 오디오 장면 구성 및 카메라 거리 간의 상관성을 도시하는데, 여기서 1 = "익스트림 클로우즈-업", 2 = "클로우즈-업", 3 = " 미디엄 뷰", 4 = "풀-뷰", 5= "롱-뷰". 도 5는 영화("캐러비안의 해적들")로부터 임의로 선택된(~7분 길이) 발췌본(excerpt)으로의 실험들을 도시한 것이다. 상부 부분들은 이 비디오 시퀀스의 오디오 트랙 상에서 실행되는 오디오 분류기의 결과들을 도시한다. 피할 수 없게 불완전할지라도, 이들 결과들은 실제 상황에 양호하게 접근한다는 것이 밝혀졌다. 이 도면의 최하부는 카메라 거리에서 이 비디오의 프레임-정확한 수동 주석(manual annotation)을 도시한다. 상이한 도면들을 비교함으로써, 몇 개의 중요한 관찰들이 이루어질 수 있다.
1. 높은 발화 활동도(speech activity)를 갖는 간격들은 더 작은 카메라 거리(클로우즈-업들 및 익스트림 클로우즈-업들)에 거의 항상 대응한다.
2. 발음된 배경-음악 및 부족한 발화(그러나 다른 음향 소스들을 포함)를 갖는 간격들은 종종 더 긴 카메라 거리들(미디엄-뷰, 풀-뷰, 및 롱-뷰)에 대응한다.
따라서, 오디오 분류기는 많은 예들에서 카메라 거리에 대한 예측을 행하도록 한다.
2D에서 3D로의 변환과 관련된 문제들이 이제 더욱 상세하게 논의될 것이다.
2D 비디오로부터 깊이를 추정하기 위한 많은 시스템들은 처리를 위한 시작 점으로서 또는 심지어 전체 단서로서 정적인(static) 깊이 프로파일들을 이용한다. 도 6은 가시적 장면의 유형에 이와 같은 깊이 프로파일의 의존성을 도시한 것이다. 깊이-지도에서, 어두울수록 (관찰자로부터) 더욱 멀다는 것을 의미한다.
도 6은 명백하게 이 단서가 지면 및 수평선 간의 명백한 분할을 갖는 양호한 미디엄-뷰 샷들(예를 들어, 실외)로 적합하지만, 분명히 동일한 물체가 큰 부분 또는 전체 도면 높이를 걸쳐서 연장되는 클로우즈-업 및 익스트림 클로우즈-업들은 아님을 보여준다.
장면 유형이 컴퓨터 기반 깊이 추정의 과정 및 성능을 결정할 수 있는 일부 다른 예들은 다음과 같다.
- 모션(motion) 장면들 - 장면을 녹화하는 카메라 또는 물체들의 모션을 때때로 동시에 포함한다. 모션의 복잡도의 존재 및 레벨은 중요한 파라미터들일 수 있는데, 그 이유는 모션 흐름의 정확한 추정은 장면에서 폐색(및 깊이) 관계들을 추론하도록 할 수 있기 때문이다.
- 복합 장면들 - 복수의 물체들 및 (텍스쳐된) 배경들을 포함한다. 가시적 이질성(visual heterogeneity)의 레벨은 적절한 물체-경계 분절(segmentation)을 수행할 능력에 대해 결정적일 수 있으며, 반면 이는 깊이(불)연속성들을 추론하도록 사용될 수 있다.
컴퓨터-생성된 가시적 깊이 단서들의 성능에 대한 가시적 장면의 다양성의 영향을 금지하는 것을 피하기 위하여, 우리는 일부 장면의 특성 유형들을 구별하고 이에 따라서 이들 깊이 단서들의 계산, 혼합, 및 후처리(post-processing)를 조절하도록 제안한다.
본 발명의 특징들 및 실시예들은 다음과 같다.
1. 우리는 비디오의 많은 장면이 전문적 TV 및 영화 제작으로부터 나온 설명적(narrative) 컨텐트에 대한 가장 사실인 오디오에 의해 고유하게 구동된다는 관찰로부터 시작한다.
2. 본 발명의 핵심 사상은 변환될 비디오의 오디오 트랙을 입력으로서 취하여 오디오 분류기의 출력으로 2D에서 3D로 비디오 변환 방식 액세스를 제공할 것이다. 오디오 분류기는 발화, 음악, 침묵(silence), 잡음, 환경 소리 등과 같은 오디오 클래스들의 세트 또는 하나로 각각에 각 오디오 프레임을 할당시키는 확률들을 포함할 수 있는 가시적 깊이 범주화 색인을 출력한다. 비디오(여러 프레임들)의 특정 간격 동안 이들 확률들을 분석함으로써, 장면 유형에 대한 실마리들을 얻을 수 있다. 예를 들어,
- 발화의 고 활동도는 대화를 가질 높은 확률, 그러므로 클로우즈-업 샷을 나타낸다.
- 배경 음악 및/또는 환경적인 소리들(발화와의 결합이 가능함)의 고 활동도는 동작(action) 그러므로 복합(모션) 장면을 가질 높은 확률을 나타낸다.
더욱 복잡한 결정 전략들이 확실하게 가능하고 일부는 나중에 논의될 것이다.
게다가, 오디오 분절(segment)이 단일 (지배적인) 오디오 클래스에 속한다라는 것이 발견되면, 이는 이 클래스에 대한 특정한 추가적인 분석에 제출될 수 있다.
- 발화자 (변화) 추적 - 발화의 분절이 상호교환적으로 상이한 발화자들에 속하는 것을 아는 것은 대화 그러므로 클로우즈-업 샷(shot)의 확률을 증가시킨다.
- 음악 빠르기(tempo) 분석 - 동적 필름 음악은 통상적으로 격렬한 동작을 따르도록 사용되고 이에 따라서, 이는 (복합) 모션 장면을 나타낼 수 있다.
- 음악 무드(mood) 분석 - "극적인(dramatic)" 필름 음악은 종종 통상적으로 클로우즈-업들 및 미디엄-뷰들의 상호교환으로서 필름화되는 다음 긴장상태(suspense)를 알리도록 사용된다.
- 예를 들어, "잡음" 또는 군중, 박수, 샷들, 폭발들 등과 같은 "환경적인 소리들"의 부-분류화(sub-classification)는 동작 및 그것의 환경(실내, 실외 등)에 대한 유용한 단서들을 제공할 수 있다.
비디오 대신에 오디오의 분석은 오디오의 훨씬 낮은 데이터 처리량으로 인해 계산적인 지연을 낮춘다는 것을 의미한다.
이와 같은 속도로 얻어지면, 오디오 정보로부터 얻어진 이 결정들(장면 분류 색인)은 추가적인 영상 분석으로부터 나오는 결정들로 보충되어 신뢰도를 개선시킨다.
도 7은 이 방법의 한 예시적인 구현을 전반적으로 도시한다. 상이한 처리 단계들은 이하에 더욱 상세하게 설명된다. 점선으로 도시된 구성요소들은 기본적인 제안에 대해서 선택적이라는 점에 유의하라.
- 데이터 버퍼링 - 이것은 특히 비실시간 2D에서 3D로 비디오 변환에서 유용하고, 이 경우 장면 분류는, 예를 들어, 한 쌍의 키 프레임들 (예를 들어, 카메라 샷의 검출된 경계들) 사이에 포함되는 다수 프레임들과 같은 더 큰 비디오 간격들에 적용될 수 있다.
- 오디오 분류기 -각 오디오 프레임에 확률을 할당하는데, 이 확률에 의해 이 프레임에 발화, 음악, 침묵, 잡음, 환경적인 소리들 등과 같은 소정의 클래스들 세트의 각각에 할당될 수 있다. 문헌에서, 각종 오디오 클래스들의 확률들이 종종 계산된 비누적적으로(non-cumulatively), 즉 상호 독립적으로 계산되는 고속이고 신뢰가능한 오디오 분류를 수행할 수 있는 각종 알고리즘들이 보고되었다. 도 8은 이와 같은 기존의 분류기의 가능한 출력을 도시한다.
- 임계값들 - 오디오 프레임이 단일 음향 소스(오디오 클래스)로부터 나온다는 것을 결정하는 방식으로서, 지배적인(최고의) 및/또는 다른 0이 아닌 확률들에 적용될 수 있다.
- 2차 오디오 분석 - 다음과 같은 특정 오디오 클래스에 대한 프로세싱 특정사항을 참조한다.
- 발화자 (변화) 추적: 발화자 인식이 일반적으로 난해한 문제이지만, 이들의 정확한 신원에 대한 걱정없이 발화자들의 변화만을 인식할 수 있다.
- 음악 빠르기 분석: 이것은 무드, 비트(beat), 음조(tonality) 등에 관한 음악의 일부 더욱 개선된 분석을 포함한 시스템의 확장에 의해 커버된다.
- 군중, 총성들, 폭발들 등으로 환경적인 소리들의 분류.
- 오디오-기반의 가시적 장면 분류 - 특정 비디오 시간 프레임이 나타내는 장면 유형에 따라서 이것을 분류하기 위하여 오디오-클래스 확률들의 분석 및 2차 오디오 분석으로부터 얻어진 가능한 다른 정보를 참조한다. 이 분석은 이하에 설명될 바와 같이 간단한 규칙-기반의 논리 또는 더욱 복잡한 처리를 의미할 수 있다.
- 시간적 정렬 - 비디오의 속도로 오디오로부터 얻어진 분류를 정렬한다. 이것은 보간(interpolating) 오디오-프레임 기반 데이터를 평균화하고, 각 비디오 및 오디오 프레임에 대해서 이용가능한 타임스탬프들(timestamps)을 염두에 두어 성취할 수 있다. 이것은 또한 도 8에 도시된다.
- 제어 논리 - 특정 깊이 색인을 스위칭하거나 검출된 장면 유형에 따라서 계산(예를 들어, 초기화, 파라미터-설정) 또는 가중치를 조정하기 위한 규칙들을 의미한다.
- 깊이 추정 - 통상적으로 각 단서가 특정 가중치로 취해진 모든 단서들로부터 나오는 깊이-지도들의 합에 의해 수행되는 임의의 깊이 색인으로부터 영상에 대한 깊이-지도의 생성을 참조한다.
도 8은 오디오 분류(좌) 및 오디오- 및 비디오-프레임 데이터의 시간적 정렬(우)을 도시한 것이다. 이 정렬은 각 2개의 연속적인 비디오 프레임들 간의 (높은 속도) 오디오-프레임 데이터를 평균함으로써 성취된다. 특징 벡터가 효과적으로 장면 분류의 결과를 나타내는 스칼라, "장면-라벨 색인"일 수 있음에 유의하라.
가시적 깊이 범주화 색인을 위해 제공하도록 오디오 단서들을 이용하는 여러가지 방식들이 존재한다. 오디오 단서들을 이용하는 간단한 방식은 결정 수목들을 통해서 규칙-기반 로직을 이용하는 것이다. 결정 수목들은 질문들의 시퀀스를 통한 패턴을 분류하는데, 다음 질문은 현재 질문에 대한 응답에 종속한다. 도 9는 한 예를 도시한 것이다. 오디오 분류화, 발화자-변화 추적 및 음악-빠르기 분석의 의미 및 구현방식은 앞서 언급되어 있다. 발화 속도 및 무드의 양자화는, 예를 들어, 피치(pitch), 지속기간, 크기 및 음색(timbre)의 변화들과 같이, 발화된 언어의 "초분절적(supersegmental)인" 양상들을 참조하는 운율체계의 표준 분석의 한 양태이다. 이와 같은 인식의 분석은 음악에 대해서 더욱 어렵다. 여전히 음향 신호로부터 추출되는 강도, 음색 및 리듬 관련된 특징들을 취하는 신호 처리 및 패턴 분류화 기술들(예를 들어, 신경망들)을 이용하는 각종 연구들이 보고되어 왔다. 카메라 거리 면에서 분류가 5개의 거리들인, 익스트림 클로우즈-업, 클로우즈-업, 미디엄 뷰, 풀-뷰, 및 롱-뷰가 규정된 것에 따름을 유의하라. 또한, 일부 분기들(branches)은 모호한 분류들로 종료되는데, 이는 추가적인(영상-기반) 분석에 의해 소거된다.
유용한 한 실시예는 결정이 적어도 부분적으로 문자 정보를 기반으로 하는 것이다. 문자 정보는 예를 들어 감독의 이름 또는 배우들의 이름이다. 특정 감독들은 특정한 스타일을 갖는다. 일부 감독들은 다른 감독들 보다 클로우즈-업들을 훨씬 더 이용한다. 마찬가지로, 일부 배우들은 클로우즈-업(통상적으로 주연들)되는 경향이 많은 반면에, 다른 배우들은 훨씬 덜 클로우즈-업된다. 통상적으로, 이용할 수 있는 이 정보를 이용하여 더욱 정확한 예측이 가능하다.
본 발명을 구현하기 위한 또 다른 적절한 방법은 베이지안(Bayesian) 추론이다. 이것은 특성 상태(예를 들어, 가시적 장면의 유형)의 사후 확률(posterior probability), 이 상태의 사전 확률(prior probability), 및 특성으로부터의 일부 특징들의 측정(예를 들어, 오디오 분류)을 상호연결하는 기본 규칙을 기술한다. 식(1)은 이 규칙을 도시하는 반면에, 식(1) 아래에 추가적인 분류가 표기적 예에 의해 제공된다. 각 Bayesian 빌리프 네트(belief net)는 노드들 및 이들의 관련된 상태들로 이루어진다. 노드들 간의 링크들은 증거를 기초로 한 직접적인 원인적 영향(casual influence)을 나타낸다. 예를 들어, 노드 B는 집합적으로 b로 표시되는 상태들{b1, b2,...}을 가지며, P(b)는 사전 확률들{P(b1), P(b2),..} 그리고 p(c|b)는 b의 발생이 제공되면 c의 조건부 확률들(우도)을 지칭한다. 모든 사전확률들 및 확률은 식(1)을 통해서 결정 규칙을 형성하도록 사용되는 사후 확률들을 계산하는데 사용된다.
베이지안 분류기에서, (클래스-조건부) 확률들의 추정은 결정적 역할을 수행한다. 일부 경우들에서, 다양한 확률들에 대한 표준 분산들(예를 들어, 가우시안(Gaussian))를 취하면 충분할 것이다. 다른 경우들에서, 훈련 샘플로부터 이들 분산들을 추정하는 것이 (예를 들어, 오프-라인) 더욱 적절할 것이다.
제어 논리는 검출된 장면-클래스 정보에 따른 각종 가시적 깊이 단서들의 스위칭(가중화), 또는 이들의 계산(초기화, 파라미터-설정 등)의 적응화 및 가능한 후처리를 위한 규칙들을 의미한다. 이와 같은 여러 가지 규칙들이 고려될 수 있고 이들은 경험적인 증거에 따라서 다소간 보수적일 수 있고, 한편 장면(예를 들어, 카메라 거리와 관련하여)의 특정 특성이 일부 깊이 단서들에 대해서 결정적일 수 있지만, 이것이 다른 것들에 대해서 더욱 "중립적"일 수 있다. 각종 옵션들의 평가는 다음 섹션에서 또한 논의된 바와 같이 진행중인 조사의 과제이다. 이제, 우리는 주요 개념을 양호하게 설명한 일부 가능한 구성들을 보인다.
장면 분류를 기초로 한 깊이-추정을 제어하기 위한 가능한 논리의 의사 코드(pseudo-code)가 이하에 주어진다. 이는 일부 공통 깊이 단서들 또는 깊이-추정 전략들의 선택 및 배치가 얻어진 분류에 의해 어떻게 관리될 수 있는지를 보여준다. 이와 같은 깊이 단서들의 구현방식은 달라질 수 있고, 문헌에서 보고된 복수의 알고리즘들로부터의 임의 것을 포함할 수 있다.
"가시적 깊이 범주화 색인"은 영상의 깊이의 표시를 제공하는 간단한 색인일 수 있지만, 또한 더욱 자세할 수 있다는 점에 유의하라.
관찰 거리 이외에도, 영화 제작자들은 많은 다른 공식적 정의들 및 관례들을 이용한다. 도 10은 카메라 방위 및 이동과 관련된 한 예를 도시한다. 예를 들어, 물체(이하의 도 10 참조)의 "트랙킹(tracking)"은 많은 대화(발화)를 수반하지 않을 수 있다. 동시에, 물체-트랙킹은 모션(여기서 물체 이동 뿐만 아니라 배경 변화) 및/또는 가시적 이질성에 대한 가정을 이용하여 깊이를 추정하는 알고리즘들에 영향을 크게 미칠 수 있다. 따라서, 오디오 장면은 카메라 위치확인(관찰 거리, 가시적 깊이) 및 장면의 이동에 대한 영화 신택스(syntax) 요소들에 관계하는 가시적 깊이 범주들을 생성하도록 사용된다. 그 후, 가시적 범주화 색인은 적어도 2개의 컴포넌트들인, 가시적 깊이 및 이동 및/또는 가시적 이질성을 갖는다. 이동은 속도 표시를 포함할 수 있고, 종종 이동의 소리 및 속도 간에 상관성이 존재하며, 크고 빠른 음악 및 발화는 카메라 위치의 고속 이동 또는 고속 변화를 표시하는 반면에, 편안한 음악은 상대적으로 느리게 이동하는 것과 관련된다.
바람직한 실시예들에서, 퍼지 논리(Fuzzy logic)를 이용하여 오디오 단서들로부터 가시적 깊이 범주화 색인을 추출한다.
본 발명은 또한, 프로그램이 컴퓨터 상에서 실행될 때 본 발명에 따른 방법을 수행하기 위한 프로그램 코드 수단을 포함하는 임의의 컴퓨터 프로그램에서 뿐만 아니라, 본 발명에 따른 방법을 수행하기 위한 컴퓨터 판독가능한 매체상에 저장된 프로그램 코드 수단을 포함한 임의의 컴퓨터 프로그램 제품에서 구현된다. 컴퓨터 프로그램 제품들은 예를 들어 게임-콘솔용 그래픽 프로세서를 포함할 수 있다.
본 발명의 프레임워크 내에서, 많은 변형들이 가능하다는 것이 명백하다. 당업자는 본 발명이 상술되고 도시된 것에 의해 제한되지 않는다는 것을 인지할 것이다. 본 발명은 각각 그리고 모든 새로운 특징적인 특징과 각각 그리고 모든 특성적인 특징들의 조합에 존재한다. 청구범위들 내의 참조 번호들은 이들의 보호 범위를 제한하지 않는다. 동사 "포함하는" 그리고 이것의 파생어들을 이용하는 것은 청구항들에 기재된 것들 이외의 소자들의 존재를 배제하지 않는다. 소자 앞의 관사 "a" 또는 "an"의 이용은 복수의 이와 같은 소자들의 존재를 배제하지 않는다.
본 발명은 본 발명을 예시하지만 이들로 제한되지 않는 것으로 해석되어야 하는 특정 실시예들과 관련하여 서술되었다. 본 발명은 방법 및 디바이스, 하드웨어, 펌웨어 또는 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 다른 실시예들 또한 다음 청구항들의 범위 내에 있다.

Claims (18)

  1. 비디오 시퀀스(video sequence)에 대한 가시적 깊이(visual depth)를 추정하기 위한 방법에 있어서,
    상기 방법은 장면의 가시적 깊이(37)의 가시적 깊이 범주화 색인(visual depth categorization index)이 상기 장면을 위한 오디오 정보(32)의 분석을 기초로 만들어지는 오디오 장면 분류(audio scene classification)(34)를 포함하고, 상기 가시적 깊이 범주화 색인(37)은 동일한 장면을 위한 비디오 정보(33)를 기초로 다음 가시적 깊이 추정(estimation)(38)에 사용되는, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  2. 제 1 항에 있어서, 상기 가시적 깊이 범주화 색인은 장면이 하나 이상의 가시적 깊이 범주들에 속할 확률을 나타내는 오디오 분석된 장면에 대한 확률들을 포함하는, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  3. 제 1 항에 있어서, 상기 가시적 깊이 색인은 카메라 위치확인(positioning)(관찰 거리(viewing distance)) 및 이동 및/또는 가시적 이질성(visual heterogeneity)에 대한 영화 신택스(syntax) 및 관례들(conventions)에 관한 데이터를 포함하는, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 오디오 장면 분류는 결정 수목(decision tree)을 기반으로 하며, 오디오 단서들(audio cues)은 상기 결정 수목의 형태로 분석되는, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 오디오 장면 분류는 오디오 단서들 각각이 별도의 분류를 제공하도록 사용되고 각 분류에 상기 오디오 단서의 가중치에 대응하는 가중치를 부여하는 방법을 기초로 한, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 오디오 및 비디오 장면 분류 간의 상관성은 퍼지 논리(Fuzzy logic)(클러스터링(clustering))을 이용하여 확립되는, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 발화 컨텐트(speech content)는 단서인, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 음악 컨텐트는 단서인, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 가시적 장면으로부터 녹화되거나 필름 사후 제작 동안 생성되는 비발화(non-speech) 및 비음악(non-music) 소리들의 결합은 단서인, 비디오 시퀀스에 대한 가시적 깊이 추정 방법.
  10. 2D 비디오를 3D 비디오로 변환시키는 방법에 있어서, 제 1 항 내지 제 9 항중 어느 한 항에 청구된 바와 같은 가시적 깊이를 추정하는 방법이 사용되는, 2D 비디오를 3D 비디오로 변환시키는 방법.
  11. 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 제 1 항 내지 제 10 항 중 어느 한 항에 청구된 바와 같은 방법을 수행하기 위한 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램.
  12. 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 제 1 항 내지 제 10 항 중 어느 한 항에 청구된 바와 같은 방법을 수행하기 위하여 컴퓨터 판독가능한 매체 상에 저장된 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
  13. 비디오 시퀀스에 대한 가시적 깊이 추정을 제공하는 시스템에 있어서,
    장면 오디오 정보(32)를 분석하고 상기 분석을 기초로 상기 장면을 가시적 깊이 범주로 분류하는 오디오 분류기(34)를 포함하며, 상기 오디오 분류기(34)는 상기 장면의 가시적 깊이 범주화 색인(37)을 제공하는 출력을 가지며, 상기 가시적 깊이 범주화 색인(37)은 동일 장면의 비디오 정보의 비디오 가시적 깊이 분석기(38)에 제공되는, 비디오 시퀀스에 대한 가시적 깊이 추정 시스템.
  14. 제 13 항에 있어서, 상기 가시적 깊이 범주화 색인은 장면이 하나 이상의 가시적 깊이 범주들에 속할 확률들을 포함하는, 비디오 시퀀스에 대한 가시적 깊이 추정 시스템.
  15. 제 13 항 또는 제 14 항에 있어서, 상기 분석기는 결정 수목을 기초로 분류하도록 구성되는, 비디오 시퀀스에 대한 가시적 깊이 추정 시스템.
  16. 제 13 항 내지 제 15 항 중 어느 한 항에 있어서, 상기 분석기는 오디오 단서들 각각이 별도의 분류를 제공하도록 사용되고 각 분류에 상기 오디오 단서의 가중치에 대응하는 가중치를 부여하는 방법을 기초로 분류하도록 구성되는, 비디오 시퀀스에 대한 가시적 깊이 추정 시스템.
  17. 제 13 항에 있어서, 상기 분석기는 퍼지 논리(클러스터링)를 기초로 분류하도록 구성되는, 비디오 시퀀스에 대한 가시적 깊이 추정 시스템.
  18. 제 13 항에 있어서, 상기 시스템은 2-D 영상 데이터를 3-D 영상 데이터로 변환시키는, 비디오 시퀀스에 대한 가시적 깊이 추정 시스템.
KR1020097015008A 2006-12-19 2007-12-14 2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법 KR20090092839A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06126515.3 2006-12-19
EP06126515 2006-12-19

Publications (1)

Publication Number Publication Date
KR20090092839A true KR20090092839A (ko) 2009-09-01

Family

ID=39125216

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097015008A KR20090092839A (ko) 2006-12-19 2007-12-14 2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법

Country Status (7)

Country Link
US (1) US8493448B2 (ko)
EP (1) EP2092760A1 (ko)
JP (1) JP5366824B2 (ko)
KR (1) KR20090092839A (ko)
CN (1) CN101563935B (ko)
RU (1) RU2454025C2 (ko)
WO (1) WO2008075276A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8588515B2 (en) 2009-01-28 2013-11-19 Electronics And Telecommunications Research Institute Method and apparatus for improving quality of depth image

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US8897596B1 (en) 2001-05-04 2014-11-25 Legend3D, Inc. System and method for rapid image sequence depth enhancement with translucent elements
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
CN101657839B (zh) * 2007-03-23 2013-02-06 汤姆森许可贸易公司 用于对2d图像进行区域分类以进行2d至3d转换的系统和方法
US8923602B2 (en) * 2008-07-22 2014-12-30 Comau, Inc. Automated guidance and recognition system and method of the same
US8508580B2 (en) 2009-07-31 2013-08-13 3Dmedia Corporation Methods, systems, and computer-readable storage media for creating three-dimensional (3D) images of a scene
US8436893B2 (en) 2009-07-31 2013-05-07 3Dmedia Corporation Methods, systems, and computer-readable storage media for selecting image capture positions to generate three-dimensional (3D) images
US20120128589A1 (en) * 2009-07-31 2012-05-24 Koninklijke Philips Electronics N.V. Perfluoro Compounds For Use In Imaging
US9380292B2 (en) 2009-07-31 2016-06-28 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating three-dimensional (3D) images of a scene
EP2520096A4 (en) * 2009-12-29 2013-10-09 Shenzhen Tcl New Technology PERSONALIZING A 3D TV VIEW
WO2011097306A1 (en) * 2010-02-04 2011-08-11 Sony Corporation 2d to 3d image conversion based on image content
US20110222757A1 (en) 2010-03-10 2011-09-15 Gbo 3D Technology Pte. Ltd. Systems and methods for 2D image and spatial data capture for 3D stereo imaging
US8421847B2 (en) * 2010-05-21 2013-04-16 Mediatek Inc. Apparatus and method for converting two-dimensional video frames to stereoscopic video frames
US9344701B2 (en) 2010-07-23 2016-05-17 3Dmedia Corporation Methods, systems, and computer-readable storage media for identifying a rough depth map in a scene and for determining a stereo-base distance for three-dimensional (3D) content creation
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
CN102385894A (zh) * 2010-08-30 2012-03-21 承景科技股份有限公司 音视频处理装置、音视频处理方法及其可读取记录介质
CN101938669B (zh) * 2010-09-13 2012-01-11 福州瑞芯微电子有限公司 一种2d转3d的自适应视频转换系统
US9185388B2 (en) 2010-11-03 2015-11-10 3Dmedia Corporation Methods, systems, and computer program products for creating three-dimensional video sequences
WO2012078124A1 (en) * 2010-12-08 2012-06-14 Thomson Licensing Complexity estimation of a 2d/3d conversion
WO2012088477A2 (en) * 2010-12-22 2012-06-28 Legend 3D, Inc. System and method for minimal iteration workflow for image sequence depth enhancement
US8274552B2 (en) 2010-12-27 2012-09-25 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
US10200671B2 (en) 2010-12-27 2019-02-05 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
TWI469088B (zh) 2010-12-31 2015-01-11 Ind Tech Res Inst 前景深度地圖產生模組及其方法
US8861836B2 (en) 2011-01-14 2014-10-14 Sony Corporation Methods and systems for 2D to 3D conversion from a portrait image
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
JP5893129B2 (ja) 2011-04-18 2016-03-23 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオをアップミックスして3dオーディオを生成する方法とシステム
KR20140045349A (ko) * 2011-05-19 2014-04-16 삼성전자주식회사 3d컨텐츠제공장치 및 3d컨텐츠제공방법
CN102427539B (zh) * 2011-08-26 2014-08-27 庞志勇 视频图像2d转3d的方法
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9495791B2 (en) 2011-10-05 2016-11-15 Bitanimate, Inc. Resolution enhanced 3D rendering systems and methods
KR101861590B1 (ko) * 2011-10-26 2018-05-29 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US9414048B2 (en) 2011-12-09 2016-08-09 Microsoft Technology Licensing, Llc Automatic 2D-to-stereoscopic video conversion
US8897542B2 (en) * 2011-12-15 2014-11-25 Sony Corporation Depth map generation based on soft classification
RU2517727C2 (ru) * 2012-07-11 2014-05-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ расчета движения с коррекцией окклюзий
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) * 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
CN105531997B (zh) * 2013-04-09 2018-07-13 贝塔尼美特股份有限公司 二维视频到三维视频的转化方法和系统
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
CN103686139B (zh) 2013-12-20 2016-04-06 华为技术有限公司 帧图像转换方法、帧视频转换方法及装置
US9591290B2 (en) * 2014-06-10 2017-03-07 Bitanimate, Inc. Stereoscopic video generation
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
WO2017202712A1 (en) * 2016-05-24 2017-11-30 Koninklijke Philips N.V. Depth-enhanced tomosynthesis reconstruction
CN107563257B (zh) * 2016-07-01 2021-06-15 北京旷视科技有限公司 视频理解方法及装置
GB2569979B (en) * 2018-01-05 2021-05-19 Sony Interactive Entertainment Inc Rendering a mixed reality scene using a combination of multiple reference viewing points
CN108615532B (zh) * 2018-05-03 2021-12-07 张晓雷 一种应用于声场景的分类方法及装置
CN113497953A (zh) * 2020-04-07 2021-10-12 北京达佳互联信息技术有限公司 音乐的场景识别方法、装置、服务器及存储介质
US11475668B2 (en) 2020-10-09 2022-10-18 Bank Of America Corporation System and method for automatic video categorization

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
JP2846836B2 (ja) * 1994-09-22 1999-01-13 三洋電機株式会社 2次元映像を3次元映像に変換する方法
KR100414629B1 (ko) * 1995-03-29 2004-05-03 산요덴키가부시키가이샤 3차원표시화상생성방법,깊이정보를이용한화상처리방법,깊이정보생성방법
BR9502258A (pt) * 1995-06-21 1997-08-05 De Sousa Mauricio Araujo Método para captação e edição de imagens para obtenção de efeito de profundidade virtual
JP3276931B2 (ja) * 1996-08-07 2002-04-22 三洋電機株式会社 3次元映像の立体感調整方法及び立体感調整装置
US5828809A (en) * 1996-10-01 1998-10-27 Matsushita Electric Industrial Co., Ltd. Method and apparatus for extracting indexing information from digital video data
WO1998027516A1 (en) * 1996-12-19 1998-06-25 Koninklijke Philips Electronics N.V. Method and device for displaying an autostereogram
US5840032A (en) * 1997-05-07 1998-11-24 General Electric Company Method and apparatus for three-dimensional ultrasound imaging using transducer array having uniform elevation beamwidth
EP1044432A4 (en) * 1997-12-05 2007-02-21 Dynamic Digital Depth Res Pty IMPROVED IMAGE TRANSFORMATION AND CODING TECHNIQUES
JPH11289555A (ja) * 1998-04-02 1999-10-19 Toshiba Corp 立体映像表示装置
US6266053B1 (en) * 1998-04-03 2001-07-24 Synapix, Inc. Time inheritance scene graph for representation of media content
AUPP603798A0 (en) * 1998-09-18 1998-10-15 Canon Kabushiki Kaisha Automated image interpretation and retrieval system
JP2000261828A (ja) * 1999-03-04 2000-09-22 Toshiba Corp 立体映像生成方法
EP1128679A1 (en) * 2000-02-21 2001-08-29 Soft4D Co., Ltd. Method and apparatus for generating stereoscopic image using MPEG data
JP2003044880A (ja) * 2001-07-31 2003-02-14 Canon Inc 立体画像形成装置、立体画像形成方法、プログラム、及び記憶媒体
RU2237284C2 (ru) * 2001-11-27 2004-09-27 Самсунг Электроникс Ко., Лтд. Способ генерирования структуры узлов, предназначенных для представления трехмерных объектов с использованием изображений с глубиной
US20030103136A1 (en) * 2001-12-05 2003-06-05 Koninklijke Philips Electronics N.V. Method and system for 2D/3D illusion generation
KR100977193B1 (ko) * 2002-04-25 2010-08-20 샤프 가부시키가이샤 화상 데이터 생성 장치, 화상 데이터 재생 장치, 및 화상데이터 기록 매체
JP4061305B2 (ja) * 2002-08-20 2008-03-19 一成 江良 立体視用画像を作成する方法および装置
US20040246199A1 (en) * 2003-02-21 2004-12-09 Artoun Ramian Three-dimensional viewing apparatus and method
WO2005076594A1 (en) * 2004-02-06 2005-08-18 Agency For Science, Technology And Research Automatic video event detection and indexing
US7262767B2 (en) * 2004-09-21 2007-08-28 Victor Company Of Japan, Limited Pseudo 3D image creation device, pseudo 3D image creation method, and pseudo 3D image display system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8588515B2 (en) 2009-01-28 2013-11-19 Electronics And Telecommunications Research Institute Method and apparatus for improving quality of depth image

Also Published As

Publication number Publication date
EP2092760A1 (en) 2009-08-26
RU2009127757A (ru) 2011-01-27
CN101563935A (zh) 2009-10-21
WO2008075276A1 (en) 2008-06-26
CN101563935B (zh) 2011-12-28
US20100026784A1 (en) 2010-02-04
JP2010514318A (ja) 2010-04-30
RU2454025C2 (ru) 2012-06-20
US8493448B2 (en) 2013-07-23
JP5366824B2 (ja) 2013-12-11

Similar Documents

Publication Publication Date Title
KR20090092839A (ko) 2d 비디오를 3d 비디오로 변환하기 위한 시스템 및 방법
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
RU2693906C2 (ru) Основанный на правилах анализ важности видео
US8913103B1 (en) Method and apparatus for focus-of-attention control
CN110622176A (zh) 视频分区
JP2023537705A (ja) オーディオ・ビジュアル・イベント識別システム、方法、プログラム
WO2009039046A2 (en) Advertisment insertion points detection for online video advertising
KR102573933B1 (ko) 기계 학습 기반의 실감 미디어 저작 방법 및 장치
CN114519880B (zh) 基于跨模态自监督学习的主动说话人识别方法
Rachavarapu et al. Localize to binauralize: Audio spatialization from visual sound source localization
US20140064517A1 (en) Multimedia processing system and audio signal processing method
Narasimhan et al. Strumming to the beat: Audio-conditioned contrastive video textures
JP2013171089A (ja) 音声補正装置、方法、及びプログラム
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
KR101820456B1 (ko) 깊이 맵 생성 방법 및 장치
CN113269066B (zh) 说话视频生成方法、装置和电子设备
Vryzas et al. Audiovisual speaker indexing for Web-TV automations
CN112995530A (zh) 视频的生成方法、装置及设备
CN115512104A (zh) 一种数据处理方法及相关设备
CN116156218A (zh) 视频插帧模型的确定方法及装置、视频插帧方法及装置
KR102429379B1 (ko) 배경 분류 방법, 배경 분류 장치, 및 이를 포함하는 몰입형 오디오-비디오 데이터 생성 방법 및 장치
US9357178B1 (en) Video-revenue prediction tool
Huang et al. Learning Where to Cut from Edited Videos
CN116527956B (zh) 基于目标事件触发的虚拟对象直播方法、装置及系统
JP4634842B2 (ja) 風景推定装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application