KR102054548B1

KR102054548B1 - 다시점 오디오 및 비디오 대화형 재생

Info

Publication number: KR102054548B1
Application number: KR1020167016138A
Authority: KR
Inventors: 네일 버크벡; 이사시 인구바; 다미엔 켈리; 앤드류 크로포드; 휴 덴만; 페리 토빈; 스티브 벤팅; 아닐 코카람; 제레미 도이그
Original assignee: 구글 엘엘씨
Priority date: 2013-11-20
Filing date: 2014-11-20
Publication date: 2019-12-10
Also published as: JP6654134B2; JP2017504234A; CN105745938B; KR20170143005A; EP3072305B1; EP3072305A1; US20240086041A1; AU2022204875B2; AU2020244380B2; AU2019202114B2; AU2020244380A1; US20150143239A1; AU2014352892A1; KR20160085346A; US10754511B2; BR112016009772A8; BR112016009772A2; US11816310B1; WO2015077507A1; KR101869437B1

Abstract

대화형 다시점 모듈이 현실 세계 이벤트와 관련된 복수의 미디어 항목을 식별하고, 이 복수의 미디어 항목 각각은 비디오 부분과 오디오 부분을 포함한다. 이 대화형 다시점 모듈은 공통 참조 타임라인에 따라 복수의 미디어 항목 각각의 오디오 부분들을 동기화시키고, 복수의 미디어 항목 각각과 관련된 상대적 지리적 위치를 결정하고, 동기화된 오디오 부분들 및 상대적 지리적 위치들에 적어도 기초하여 복수의 미디어 항목을 대화형 다시점 플레이어 인터페이스에서 제시한다.

Description

다시점 오디오 및 비디오 대화형 재생{MULTI-VIEW AUDIO AND VIDEO INTERACTIVE PLAYBACK}

이 개시내용은 미디어 보기 서비스의 분야에 관한 것으로, 특히, 다시점 오디오 및 비디오 대화형 재생에 관한 것이다.

인터넷에서, 콘텐츠 공유 플랫폼들 또는 다른 애플리케이션들은 사용자들이 미디어 항목들과 같은 디지털 콘텐츠를 업로드하고, 보고, 공유하는 것을 가능하게 한다. 그러한 미디어 항목들은 오디오 클립, 영화 클립, TV 클립, 및 뮤직 비디오뿐만 아니라, 비디오 블로깅, 짧은 원본 비디오, 그림, 사진, 다른 멀티미디어 콘텐츠 등과 같은 아마추어 콘텐츠도 포함할 수 있다. 사용자들은 컴퓨팅 디바이스들(예를 들어 스마트폰, 휴대폰, 랩톱 컴퓨터, 데스크톱 컴퓨터, 넷북, 태블릿 컴퓨터)을 사용하여 미디어 항목들을 사용, 재생, 및/또는 소비할 수 있다(예컨대, 디지털 비디오를 시청하고, 디지털 음악을 청취할 수 있다).

비디오 공유 및 소셜 웹 플랫폼들의 인기와 더불어, 사용자가 작성한 비디오의 양이 계속 증가하고 있다. 스포츠 이벤트 또는 콘서트와 같은 여러 참석자가 있는 이벤트들에서는, 상이한 시점(viewpoint)들 및 상이한 시간 순간들을 커버하는, 많은 비디오가 업로드된다. 현재 비디오 공유 사이트들은 어떤 이벤트에 대한 이용 가능한 모든 비디오들을 사용자에 제공하기 위하여 이러한 비디오들을 추천하고 순위를 매기려고 한다. 그러나, 모든 비디오 콘텐츠는 전형적으로 조직화되지 않은 검색 쿼리 결과들의 목록에서 이용 가능하고, 이벤트에 대한 비디오의 정확한 시간과 시점이 분실된다. 따라서, 사용자는 단순히 이벤트의 단일 비디오를 보는 경향이 있을 것이고, 그 비디오는 사용자들이 단일 콘텐츠 작성자의 시야에서 보인 이벤트로의 작은 문을 보도록 할 것이다.

다음에 언급하는 것은 본 개시내용의 일부 양태들에 대한 기본적인 이해를 제공하기 위한 본 개시내용의 간략화된 요약이다. 이 요약은 본 개시내용의 광범위한 개요는 아니다. 이것은 본 개시내용의 핵심적인 또는 결정적인 요소들을 식별하기 위한 것도 아니고, 본 개시내용의 특정 구현들의 임의의 범위 또는 청구항들의 임의의 범위를 묘사하려는 것도 아니다. 이것의 유일한 목적은 뒤에 제시되는 더 상세한 설명에 대한 서두로서 본 개시내용의 일부 개념들을 간략화된 형태로 제시하기 위한 것이다.

일 구현에서, 대화형 다시점 모듈이 현실 세계 이벤트와 관련된 복수의 미디어 항목을 식별하고, 이 복수의 미디어 항목 각각은 비디오 부분과 오디오 부분을 포함한다. 이 대화형 다시점 모듈은 공통 참조 타임라인에 따라 복수의 미디어 항목 각각의 오디오 부분들을 동기화시키고, 복수의 미디어 항목 각각과 관련된 상대적 지리적 위치를 결정하고, 동기화된 오디오 부분들 및 상대적 지리적 위치들에 적어도 기초하여 복수의 미디어 항목을 대화형 다시점 플레이어 인터페이스에서 제시한다. 일 구현에서, 대화형 다시점 모듈은 또한, 동기화된 오디오 부분들에 기초하여 복수의 미디어 항목을 결합하는 것에 의해, 현실 세계 이벤트와 관련된 단일 편집된 미디어 항목을 생성한다.

현실 세계 이벤트와 관련된 복수의 미디어 항목을 식별하기 위하여, 대화형 다시점 모듈은 현실 세계 이벤트를 식별하는 메타데이터를 가진 미디어 항목들을 결정한다. 복수의 미디어 항목 각각의 오디오 부분들을 동기화시키기 위해, 대화형 다시점 모듈은 각각의 오디오 부분의 주파수 기반 오디오 스펙트로그램 사이의 상관 관계를 최대화하거나 달리 증가시키는 복수의 미디어 항목 각각에 대한 시간 오프셋을 결정하고, 이 시간 오프셋들은 공통 참조 타임라인 상의 위치들을 나타낸다. 복수의 미디어 항목 각각과 관련된 상대적 지리적 위치를 결정하는 것은 대화형 다시점 모듈이 복수의 미디어 항목 각각에서 보이는 복수의 포인트에 기초하여 현실 세계 이벤트의 시간에 복수의 미디어 항목 각각을 캡처하기 위해 사용된 개별 카메라들의 상대적 위치들을 결정하는 것을 포함한다.

일 구현에서, 복수의 미디어 항목을 대화형 다시점 플레이어 인터페이스에서 제시하기 위하여, 대화형 다시점 모듈은 복수의 미디어 항목 각각을 나타내는 아이콘을 표시하고, 각각의 아이콘은 대응하는 상대적 지리적 위치에 기초한 위치에 표시된다. 대화형 다시점 모듈은 복수의 미디어 항목 중 제1 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 제1 미디어 항목의 재생을 시작한다. 그 후, 대화형 다시점 모듈은, 공통 참조 타임라인 상의 제1 포인트에 대응하는 제1 미디어 항목의 재생 동안의 시간에, 복수의 미디어 항목 중 제2 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 공통 참조 타임라인 상의 제1 포인트에 대응하는 제2 미디어 항목에서의 시간에 제2 미디어 항목의 재생을 시작한다. 일 구현에서, 대화형 다시점 모듈은 사용자에 의해 선택될 후속 미디어 항목을 예측하고 이 후속 미디어 항목의 사용자 선택에 앞서 후속 미디어 항목을 버퍼링한다.

본 개시내용은 첨부 도면들에 제한이 아니라 예로서 도시된다.
도 1은 본 발명의 구현들이 구현될 수 있는 예시적인 네트워크 아키텍처를 보여주는 블록도이다.
도 2는 일부 구현들에 따른, 대화형 다시점 모듈을 보여주는 블록도이다.
도 3은 일부 구현들에 따른, 대화형 다시점 처리 흐름을 보여주는 블록도이다.
도 4는 일부 구현들에 따른, 대화형 다시점 비디오 생성을 위한 방법을 보여주는 흐름도이다.
도 5a는 일 구현에 따른, 공통 이벤트와 관련된 2개의 미디어 항목에 대응하는 주파수 스펙트로그램들을 보여주는 도면이다.
도 5b는 일 구현에 따른, 도 5a에 도시된 주파수 스펙트로그램들 사이의 상관 관계 점수에 대한 라인 그래프를 보여주는 도면이다.
도 6a 및 도 6b는 일부 구현들에 따른, 대화형 다시점 비디오 재생 인터페이스의 2개의 가능한 프레젠테이션의 예들을 보여주는 도면들이다.
도 7은 일부 구현들에 따른, 예측 및 버퍼링 타임라인을 보여주는 도면이다.
도 8은 일부 구현들에 따른, 예시적인 컴퓨터 시스템을 보여주는 블록도이다.

다시점 오디오 및 비디오 대화형 재생에 관한 구현들이 설명된다. 일 구현에서, 대화형 다시점 시스템은 동일한 현실 세계 이벤트에서 취해진 비디오 데이터를, 취득/업로드 프로세스에서 통상 분실되는 비디오들로부터의 적어도 2개의 정보를 복구하는 것에 의해, 대화형의 이해하기 쉬운 직관적인 재생 경험으로 조직화한다. 이 정보는, 예를 들어, 카메라들이 이벤트를 캡처했을 때의 카메라들의 위치들 및 공통 참조 타임라인에 따른 비디오들의 동기화를 포함할 수 있다. 비디오들의 위치 및 시간 동기화의 복구 후에, 공간 정보는 시스템이, 비디오들을 그들의 현실 세계 3D 위치들과 관련시키는, 새로운 맵 기반 내비게이션 인터페이스들을 생성하는 것을 가능하게 한다. 시간 동기화는 오늘날 대부분의 공유 사이트들에서 이용 가능한 전형적인 재생목록 유형의 전환(transition)보다는, 이벤트의 상이한 시점들로부터의 끊김 없는 전환을 가능하게 한다. 비디오들을 공간 및 시간에서 관련시키는 것은 사용자가 단일 비디오의 지속 기간을 넘어 이벤트 타임라인을 따라 탐색하는 것을 가능하게 하고 또한 사용자가 상이한 위치로부터의 이벤트로부터의 느낌을 얻기 위해 대화형으로 시점을 변경하는 것을 가능하게 할 수 있다. 현실 세계 이벤트는 (예컨대, 사진들에서 그리고 비디오로) 관찰되고 캡처될 수 있는 (예컨대, 인터넷 상이 아니라) 현실 세계에서 발생하는 임의의 이벤트일 수 있다.

일 구현에서, 본 대화형 다시점 시스템은 사용자에 의해 선택될 다음 가장 공산이 큰 비디오 시점을 예측하기 위해 사용자 상호 작용, 소셜 피드백, 및 비디오 품질에 기초한 단서들을 이용하는 것에 의해 인터넷 프로토콜 송신의 대역폭에 대한 한계를 극복하고, 그렇게 함으로써 끊김 없는 비디오 스위칭(switch)을 보장하면서 대역폭을 감소시킨다. 이러한 다시점 오디오 및 비디오 대화형 재생 경험은 콘서트들 및 스포츠 이벤트들 외의 응용들을 가진다. 예를 들어, 다른 구현들에서, 군중이 공급한 비디오들이 감시를 개선하는 데 사용될 수 있거나, 사용자가 작성한 콘텐츠가 방송 장면(broadcast footage)에 연결될 수 있거나, 새로운 기술을 배우기 위한 지침서들 및 비결 팀들(trick tips)이 여러 각도에서 제시될 수 있다. 이 인터페이스는 또한 단일 편집된 요약 비디오(예컨대, 디렉터스 컷(director's cut), 또는 모든 비디오로부터 공급된 매시업(mash-up))와 연결될 수 있거나, 다수의 비디오가 세트 내의 개별 비디오들의 품질을 향상시키는 데 이용될 수 있다(예컨대, 오디오를 개선).

일 구현에서, 다시점 비디오 콘텐츠를 조직화하고 제시하기 위한 완벽한 시스템이 개시된다. 이러한 시스템에 의해 제공되는 재생은 자유 시점 비디오(free-viewpoint video)라고 불릴 수 있다. 이 작업을 위한 기존 시스템들은 실험실 캡처 장비(laboratory capture rigs) 또는 다시점 스튜디오로 한정되며, 거기서는 카메라의 3D 포즈와 동기화가 쉽게 제어된다(예컨대, 캘리브레이션을 위한 완드(wand) 기반 방법들). 그러한 스포츠 이벤트들의 방송 녹화물들은 사전에 쉽게 캘리브레이션되는 동일한 이점을 가지며, 이는 그러한 자유 시점 및 매트릭스 같은 효과들이 그러한 이벤트들의 방송 장면에서 사용되는 것을 가능하게 하였다. 자유 시점은 또한 뷰 합성(view synthesis), 즉, 기존 물리적 카메라 뷰들을 이용하여 새로운 합성 뷰를 생성하는 것을 포함한다. 따라서, 일 구현에서, 사용자가 제공한 뷰들이 충분히 가깝다면, 뷰 합성은 설명된 프레임워크 외에 가능한 응용일 수 있다.

도 1은 본 개시내용의 구현들이 구현될 수 있는 예시적인 네트워크 아키텍처(100)를 보여주는 블록도이다. 일 구현에서, 네트워크 아키텍처(100)는 클라이언트 디바이스들(110A 내지 110Z), 네트워크(105), 데이터 저장소(106), 콘텐츠 공유 플랫폼(120), 서버(130), 소셜 접속 플랫폼(140), 이메일 플랫폼(150), 및 검색 플랫폼(160)을 포함한다. 일 구현에서, 네트워크(105)는 공중 네트워크(예컨대, 인터넷), 사설 네트워크(예컨대, LAN(local area network) 또는 WAN(wide area network)), 유선 네트워크(예컨대, 이더넷 네트워크), 무선 네트워크(예컨대, 802.11 네트워크 또는 Wi-Fi 네트워크), 셀룰러 네트워크(예컨대, LTE(Long Term Evolution) 네트워크), 라우터, 허브, 스위치, 서버 컴퓨터, 및/또는 이들의 조합을 포함할 수 있다. 일 구현에서, 데이터 저장소(106)는 메모리(예컨대, 랜덤 액세스 메모리), 캐시, 드라이브(예컨대, 하드 드라이브), 플래시 드라이브, 데이터베이스 시스템, 또는 데이터를 저장할 수 있는 다른 유형의 구성 요소 또는 디바이스일 수 있다. 데이터 저장소(106)는 또한 다수의 컴퓨팅 디바이스들(예컨대, 다수의 서버 컴퓨터들)에 또한 걸쳐 있을 수 있는 다수의 저장 구성 요소들(예컨대, 다수의 드라이브들 또는 다수의 데이터베이스들)을 포함할 수 있다.

클라이언트 디바이스들(110A 내지 110Z)은 각각 퍼스널 컴퓨터(PC), 랩톱, 휴대폰, 스마트폰, 태블릿 컴퓨터, 넷북 컴퓨터 등과 같은 컴퓨팅 디바이스들을 포함할 수 있다. 각 클라이언트 디바이스는 미디어 뷰어(111)를 포함할 수 있다. 일 구현에서, 미디어 뷰어(111)는 사용자가 이미지, 비디오, 웹 페이지, 문서 등과 같은 콘텐츠를 보는 것을 가능하게 하는 애플리케이션일 수 있다. 예를 들어, 미디어 뷰어(111)는 웹 서버에 의해 서빙되는 콘텐츠(예컨대, HTML(Hyper Text Markup Language) 페이지, 디지털 미디어 항목 등)에 액세스하고, 그것을 검색하고, 제시하고, 그리고/또는 내비게이션할 수 있는 웹 브라우저일 수 있다. 미디어 뷰어(111)는 콘텐츠(예컨대, 웹 페이지, 미디어 뷰어)를 사용자에게 렌더링하고, 표시하고, 그리고/또는 제시할 수 있다. 미디어 뷰어(111)는 또한 웹 페이지(예컨대, 온라인 상인에 의해 판매되는 제품에 관한 정보를 제공할 수 있는 웹 페이지)에 내장되어 있는 내장형 미디어 플레이어(예컨대, Flash® 플레이어 또는 HTML5 플레이어)를 표시할 수 있다. 다른 예에서, 미디어 뷰어(111)는 사용자들이 디지털 미디어 항목들(예컨대, 디지털 비디오, 디지털 이미지, 전자책)을 보는 것을 가능하게 하는 독립형 애플리케이션일 수 있다. 미디어 뷰어(111)는 서버(130) 및/또는 콘텐츠 공유 플랫폼(120)에 의해 클라이언트 디바이스들(110A 내지 110Z)에 제공될 수 있다. 예를 들어, 미디어 뷰어(111)는 콘텐츠 공유 플랫폼(120)에 의해 제공된 웹 페이지에 내장되어 있는 내장형 미디어 플레이어일 수 있다. 다른 예에서, 미디어 뷰어(111)는 서버(130)로부터 다운로드되는 애플리케이션일 수 있다.

일 구현에서, 콘텐츠 공유 플랫폼(120)은 사용자에게 미디어 항목들로의 액세스를 제공하고 그리고/또는 사용자에게 미디어 항목들을 제공하는 데 사용될 수 있는 하나 이상의 컴퓨팅 디바이스(예를 들어, 랙 마운트 서버, 라우터 컴퓨터, 서버 컴퓨터, 퍼스널 컴퓨터, 메인프레임 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 데스크톱 컴퓨터 등), 데이터 저장소(예컨대, 하드 디스크, 메모리, 데이터베이스), 네트워크, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소를 포함할 수 있다. 예를 들어, 콘텐츠 공유 플랫폼(120)은 사용자가 미디어 항목들을 소비하고, 업로드하고, 검색하고, 승인하고("좋아하고"), 싫어하고, 그리고/또는 그에 대해 코멘트하는 것을 가능하게 할 수 있다. 콘텐츠 공유 플랫폼(120)은 또한 사용자에게 미디어 항목들로의 액세스를 제공하는 데 사용될 수 있는 웹사이트(예컨대, 웹페이지)를 포함할 수 있다. 콘텐츠 공유 플랫폼(120)은 다수의 이벤트 목록(예컨대, 이벤트 목록 A 내지 Z)을 포함할 수 있다. 각 이벤트 목록은 하나 이상의 미디어 항목(121)을 포함할 수 있다. 미디어 항목(121)의 예들은 디지털 비디오, 디지털 영화, 디지털 사진, 디지털 음악, 웹사이트 콘텐츠, 소셜 미디어 업데이트, 전자책(ebook), 전자 잡지, 디지털 신문, 디지털 오디오 북, 전자 저널, 웹 블로그, RSS(real simple syndication) 피드, 전자 만화책, 소프트웨어 애플리케이션, 및 기타 등등을 포함할 수 있고, 이들에 제한되지는 않는다. 미디어 항목(121)은 인터넷을 통해 그리고/또는 모바일 디바이스 애플리케이션을 통해 소비될 수 있다. 간결성과 단순성을 위해, 온라인 비디오(이하 비디오라고도 불림)가 이 문서를 통틀어 미디어 항목의 예로 사용된다. 본 명세서에서 사용될 때, "미디어", "미디어 항목", "온라인 미디어 항목", "디지털 미디어", 및 "디지털 미디어 항목"은 그 디지털 미디어 항목을 엔티티(entity)에 제시하도록 구성된 소프트웨어, 펌웨어 또는 하드웨어를 이용하여 실행되거나 로딩될 수 있는 전자 파일을 포함할 수 있다. 일 구현에서, 콘텐츠 공유 플랫폼(120)은 데이터 저장소(106)를 이용하여 미디어 항목들을 저장할 수 있다.

소셜 접속 플랫폼(140)은 사용자들이 서로 접속하고, 정보를 공유하고, 그리고/또는 상호 작용하는 것을 가능하게 하는 데 사용될 수 있는 하나 이상의 컴퓨팅 디바이스(예컨대, 서버), 데이터 저장소, 네트워크, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소를 포함할 수 있다. 소셜 접속 플랫폼(140)은 사용자에게 소셜 네트워크의 다른 사용자들에 의해 생성된 객체들(예를 들어 게시물들, 콘텐츠 항목들(예컨대, 비디오, 이미지, 오디오 등), 상태 업데이트들, 호감도 표시들, 태그들, 메시지들, 기타 등등)의 목록(예컨대, 활동 피드, 피드, 스트림, 월(wall) 등)을 제시할 수 있다. 소셜 접속 플랫폼(140)은 또한 사용자들이 텍스트 콘텐츠, 비디오 콘텐츠, 이미지 콘텐츠, 오디오 콘텐츠 등등과 같은 콘텐츠를 업로드하고, 보고, 태그하고, 공유하는 것을 가능하게 하는 콘텐츠 공유 양태를 포함할 수 있다. 소셜 접속 플랫폼(140)의 다른 사용자들은 공유된 콘텐츠에 대한 코멘트를 하고, 새로운 콘텐츠를 발견하고(discover), 업데이트들을 찾고, 콘텐츠를 공유하고, 제공된 콘텐츠와 달리 상호 작용할 수 있다. 일 구현에서, 콘텐츠 공유 플랫폼(120)은 소셜 접속 플랫폼(140)과 통합될 수 있다. 예를 들어, 소셜 접속 플랫폼(140)은 콘텐츠 공유 플랫폼(120)을 이용하여 사용자들이 콘텐츠를 업로드하고/하거나 공유하는 것을 가능하게 할 수 있다. 다른 구현에서, 소셜 접속 플랫폼(140)은 콘텐츠 공유 플랫폼(120)과 별개일 수 있다. 일 구현에서, 소셜 접속 플랫폼(140)은 또한 사용자들이 서로 채팅하는(예컨대, 인스턴스 메시징하는) 것을 가능하게 하는 채팅 기능(예컨대, 채팅 플랫폼)을 포함할 수 있다.

일 구현에서, 이메일 플랫폼(150)은 사용자들이 서로 전자 메일(이메일)을 송신 및/또는 수신하는 것을 가능하게 하는 데 사용될 수 있는 하나 이상의 컴퓨팅 디바이스(예컨대, 서버), 데이터 저장소, 네트워크, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소일 수 있다. 예를 들어, 제1 사용자가 특정 이벤트의 시간과 위치에 관하여 제2 사용자에게 이메일을 보내기 위해 이메일 플랫폼(150)을 사용할 수 있다. 제1 사용자는 또한 파일들(예컨대, 비디오 파일, 이미지 파일, 텍스트 파일 등)을 이메일에 첨부할 수 있다. 일 구현에서, 이메일 플랫폼(150)은 또한 사용자들이 서로 채팅하는(예컨대, 인스턴스 메시징하는) 것을 가능하게 하는 채팅 기능(예컨대, 채팅 플랫폼)을 포함할 수 있다. 다른 구현에서, 검색 플랫폼(160)은 사용자들이 정보 및/또는 데이터를 검색하는 것을 가능하게 하는 데 사용될 수 있는 하나 이상의 컴퓨팅 디바이스, 데이터 저장소, 네트워크, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소일 수 있다. 예를 들어, 검색 플랫폼(160)은 사용자가 특정 주제(예컨대, 자동차 수리 방법)와 관련된 기사, 블로그, 웹사이트, 웹페이지, 이미지, 비디오, 및/또는 다른 콘텐츠를 찾아 인터넷 및/또는 다른 네트워크들을 검색하는 것을 가능하게 할 수 있다. 검색 플랫폼(160)은 또한 검색 엔진을 포함할 수 있다.

일 구현에서, 서버(130)는 하나 이상의 컴퓨팅 디바이스(예컨대, 랙 마운트 서버, 서버 컴퓨터 등)를 포함할 수 있다. 일 구현에서, 서버(130)는 콘텐츠 공유 플랫폼(120), 소셜 접속 플랫폼(140), 이메일 플랫폼(150), 및 검색 플랫폼(160) 중 하나 이상에 포함될 수 있다. 다른 구현에서, 서버(130)는 콘텐츠 공유 플랫폼(120), 소셜 접속 플랫폼(140), 이메일 플랫폼(150), 및 검색 플랫폼(160)과 별개일 수 있지만 콘텐츠 공유 플랫폼(120), 소셜 접속 플랫폼(140), 이메일 플랫폼(150), 및 검색 플랫폼(160)과 통신(예컨대, 데이터를 교환)할 수 있다. 일 구현에서, 서버(130)는 대화형 다시점 모듈(135)을 포함한다. 대화형 다시점 모듈(135)은 주어진 이벤트와 관련된 비디오들 또는 다른 미디어 항목들을 식별하고 비디오들을 대화형 다시점 재생 경험을 제공하는 방식으로 조직화할 수 있다. 일 구현에서, 대화형 다시점 모듈(135)은 주어진 현실 세계 이벤트와 관련된 비디오들(예컨대, 이벤트 발생의 적어도 일부를 묘사하는 비디오들)을 식별하고 그 비디오들을 공유 참조 타임라인에 따라 자동으로 동기화한다. 게다가, 대화형 다시점 모듈(135)은 또한 비디오들을 대화형 다시점 플레이어 인터페이스에서 표시하기 위하여 비디오들 각각을 캡처하는 데 사용된 카메라들의 상대적 위치들을 결정할 수 있다. 대화형 다시점 모듈(135)은 재생을 위해 이벤트와 관련된 비디오들의 적어도 일부를 결합하는 것에 의해 단일의 대표적인 "디렉터스 컷" 비디오를 생성할 수 있거나 대화형 다시점 플레이어 인터페이스에서 어느 비디오들이 재생되는지를 제어하는 사용자 입력을 수신할 수 있다. 대화형 다시점 모듈(135)의 추가 세부 사항들은 아래 설명될 것이다.

도 2는 일 구현에 따른, 대화형 다시점 모듈(135)을 보여주는 블록도이다. 일 구현에서, 대화형 다시점 모듈(135)은 비디오 발견 모듈(202), 오디오 동기화 모듈(204), 위치 결정 모듈(206), 요약 모듈(208) 및 다시점 재생 모듈(210)을 포함한다. 모듈들 및 구성 요소들의 이러한 배열은 논리적 구분일 수 있고, 다른 구현들에서, 이러한 모듈들 또는 다른 구성 요소들은 함께 결합되거나, 특정 구현에 따라, 추가 구성 요소들에서 분리될 수 있다. 일 구현에서, 데이터 저장소(106)는 대화형 다시점 모듈(135)에 접속되고 미디어 항목들(242), 이벤트 목록 데이터(244) 및 사용자 입력 데이터(246)를 포함한다. 일 구현에서, 서버(130)는 대화형 다시점 모듈(135)과 데이터 저장소(106) 양쪽 모두를 포함할 수 있다. 다른 구현에서, 데이터 저장소(106)는 서버(130)의 외부에 있을 수 있고 네트워크 또는 다른 접속을 통하여 서버(130)에 접속될 수 있다. 다른 구현들에서, 서버(130)는 설명을 간략화하기 위해 도시되지 않은 상이한 그리고/또는 추가 구성 요소들을 포함할 수 있다. 데이터 저장소(106)는, 예를 들어, 플래시 메모리, 자기 또는 광 디스크, 또는 테이프 드라이브; 판독 전용 메모리(ROM); 랜덤 액세스 메모리(RAM); 소거 가능 프로그램 가능 메모리(예컨대, EPROM 및 EEPROM); 플래시 메모리; 또는 임의의 다른 유형의 저장 매체를 포함할 수 있는 하나 이상의 대용량 저장 디바이스를 포함할 수 있다.

일 구현에서, 비디오 발견 모듈(202)은, 콘서트, 스포츠 이벤트, 또는 다른 이벤트와 같은, 현실 세계 이벤트와 관련된 미디어 항목들(242)을 식별한다. 일 구현에서, 비디오 발견 모듈(202)은 미디어 항목들(242)을 스캔하고 현실 세계 이벤트를 식별하는 메타데이터 또는 다른 단서들을 가진 미디어 항목들을 식별한다. 단서들은 미디어 항목들의 오디오 및/또는 비디오 신호들로부터 직접 얻어지는 미디어 단서들(예컨대, 다수의 비디오에 나타나는 공통된 시각 또는 오디오 정보들) 또는 미디어 항목들과 관련된 메타데이터로부터의 메타데이터 단서들을 포함할 수 있다. 메타데이터 단서들은 비디오의 제목 또는 설명에 있는 정보, 사용자가 제공한 또는 시스템이 생성한 태그들 또는 카테고리들, 미디어 항목들과 관련된 날짜 및 시간 정보, 미디어 항목들과 관련된 지리적 위치 정보(예컨대, GPS 데이터), 또는 다른 정보를 포함할 수 있다. 특정 미디어 항목(242)이 주어진 현실 세계 이벤트와 관련된다는 것이 결정되면, 비디오 발견 모듈은 그 미디어 항목(242)을 현실 세계 이벤트에 대응하는 이벤트 목록(244)에 추가할 수 있다.

일 구현에서, 오디오 동기화 모듈(204)은 공통 참조 타임라인에 따라 주어진 이벤트 목록(244) 내의 미디어 항목들(242) 각각의 오디오 부분들을 동기화한다. 일 구현에서, 오디오 동기화 모듈은 각각의 오디오 부분의 주파수 기반 오디오 스펙트로그램에 대한 상관 관계를 증가시키거나 최대화하는 미디어 항목들 각각에 대한 시간 오프셋을 결정한다. 이 시간 오프셋은 이벤트와 관련된 미디어 항목들 각각이 서로에 대하여 또는 현실 세계 이벤트의 발생에 대하여 시작하는 시간을 지시하는 공통 참조 타임라인 상의 위치를 나타낸다. 미디어 항목들은 사용자에 의해 캡처되기 때문에, 미디어 항목들은 현실 세계 이벤트의 상이한 부분들을 캡처할 수 있다. 따라서, 미디어 항목들은 상이한 시간들에 시작 및 종료할 수 있고, 따라서 상이한 관련 시간 오프셋들을 가질 수 있다. 일 구현에서, 오디오 동기화 모듈(204)은 시간 오프셋들을 이벤트 목록 데이터(244)에 저장한다.

일 구현에서, 위치 결정 모듈(206)은 이벤트 목록(244) 내의 미디어 항목들(242) 각각과 관련된 상대적 지리적 위치를 결정한다. 일 구현에서, 위치 결정 모듈(206)은 현실 세계 이벤트의 발생의 시간에 미디어 항목들 각각을 캡처하는 데 사용된 개별 카메라들의 상대적 위치들을 결정한다. 위치 결정 모듈(206)은, 다른 위치들에 대하여, 각 항목을 캡처하는 데 사용된 카메라의 위치를 계산하기 위하여 미디어 항목들 각각의 비디오 부분에서 보이는 다수의 포인트를 사용할 수 있다. 일 구현에서, 위치 결정 모듈(206)은 이러한 위치들을 서로에 대해 그리고/또는 임의로 현실 세계 이벤트가 발생한 위치(예컨대, 스타디움 또는 공연장)의 지리를 이용하여 표시(plot)할 수 있다. 일 구현에서, 위치 결정 모듈(206)은 결정된 위치 정보를 이벤트 목록 데이터(244)에 저장한다.

일 구현에서, 요약 모듈(208)은 현실 세계 이벤트와 관련된 단일 편집된 미디어 항목을 생성한다. 이 편집된 미디어 항목은 일부 구현들에서 "디렉터스 컷"이라고 불릴 수 있다. 요약 모듈(208)은 다수의 미디어 항목들(242)을 함께 결합하여 디렉터스 컷을 형성할 수 있다. 예를 들어, 디렉터스 컷은 현실 세계 이벤트의 요약, 개요 또는 다른 형태의 프레젠테이션을 나타내기 위해 함께 편집되는 특정 선택들을 포함할 수 있다. 디렉터스 컷에 포함된 미디어 항목들은 콘텐츠 큐레이터에 의해 수동으로 선택될 수 있거나 요약 모듈(208)이, 뷰의 수, 코멘트, 공유 활동 등과 같은 각 비디오에 대한 인기 단서들을 이용하여 자동으로 미디어 항목들을 선택할 수 있다.

일 구현에서, 다시점 재생 모듈(210)은 동기화된 오디오 부분들 및 상대적 지리적 위치들에 적어도 기초하여 미디어 항목들(242)을 대화형 다시점 플레이어 인터페이스에서 제시한다. 일 구현에서, 다시점 재생 모듈(210)은 미디어 항목들 각각을 나타내는 아이콘을 위치 결정 모듈(206)에 의해 결정된 대응하는 상대적 지리적 위치에 기초하여 대화형 다시점 플레이어 인터페이스 내의 위치에 표시한다. 다시점 재생 모듈(210)은 미디어 항목들 중 하나를 나타내는 아이콘의 사용자 선택을 수신하고 대응하는 미디어 항목의 재생을 시작한다. 다시점 재생 모듈(210)은 사용자 선택의 지시를 사용자 입력 데이터로서 저장할 수 있다. 제1 미디어 항목의 재생 동안에, 사용자는 상이한 미디어 항목을 나타내는 아이콘을 선택할 수 있다. 다시점 재생 모듈(210)은 요청이 수신되었을 때의 공통 참조 타임라인 상의 포인트에 대응하는 시간에 제2 미디어 항목의 재생을 시작할 수 있다. 따라서, 제2 미디어 항목은 미디어 파일의 시작과 다른 포인트에서 재생을 시작할 수 있다. 그 결과, 보는 사람의 관점에서, 시점은 변하지만, 현실 세계 이벤트에 대한 타이밍은 변하지 않는다.

도 3은 본 개시내용의 일 구현에 따른, 대화형 다시점 처리 흐름을 보여주는 블록도이다. 다양한 모듈들 및 구성 요소들은 대화형 다시점 재생을 위해 주어진 현실 세계 이벤트의 다수의 비디오를 식별하고 동기화하는 데 있어 그들의 역할에 관하여 설명될 수 있다. 일 구현에서, 처리 흐름(300)은 비디오 데이터베이스(310)로부터의 비디오들 또는 다른 미디어 항목들을 이용하는 비디오 발견 단계(320)부터 시작된다. 비디오 발견 단계는 주어진 현실 세계 이벤트와 관련된 비디오들을 식별하는 것을 포함하고 비디오 발견 모듈(202)에 의해 수행될 수 있다. 블록 330에서는, 비디오 발견 단계(320) 동안에 발견된 그리고 비디오 데이터베이스(310)에 저장된 비디오들을 이용하여 오디오 동기화가 수행된다. 일 구현에서, 오디오 동기화 모듈(204)은 전술한 바와 같은 공통 참조 타임라인에 따라 발견된 비디오들 각각의 오디오 부분들을 동기화한다. 오디오 동기화(330)는 오디오 신호들을 이용하여 비디오 클립들을 시간에서 동기화하기 위해 신뢰 전파 알고리즘(belief propagation algorithm)을 이용할 수 있다. 일 구현에서, 이것은 모든 쌍의 비디오 관계들을 고려하여, 서로의 근처에 있는 비디오들이 최종 동기화에 더 강한 영향을 미치는 것을 가능하게 한다. 블록 340에서, 비디오 발견 단계(320) 동안에 발견된 그리고 비디오 데이터베이스(310)에 저장된 비디오들을 이용하여 위치 결정이 수행된다. 일 구현에서, 위치 결정 모듈(206)은 비디오들 각각과 관련된 상대적 지리적 위치를 결정한다. 맵 기반 내비게이션을 위한 카메라 위치들에서의 다시점 기하학적 인자들(및 임의로 3D 맵)이 수동으로 또는 자동으로 생성될 수 있다. 이 정보는 컴퓨터 비전 알고리즘들을 이용하여 비디오들로부터 추출될 수 있다. 스포츠 및 콘서트 시나리오들의 비디오들에서 흔히 확인되는, 패닝 또는 카메라 흔들림에 의해 야기된, 동일한 카메라 위치로부터의 상이한 시점들은 초점 거리의 추출을 돕는 데 사용될 수 있다. 동기화된 오디오 부분들 및 상대적 지리적 위치들에 적어도 기초하여, 요약 단계(350)에서, 현실 세계 이벤트와 관련된 단일 편집된 비디오가 생성될 수 있다. 일 구현에서, 요약 모듈(208)은 비디오 발견(320) 동안에 발견된 이벤트와 관련된 다수의 비디오를 결합하는 것에 의해 "디렉터스 컷" 비디오를 생성할 수 있다. 요약(350)에서, 다시점 기하학 및 신호 품질 메트릭들(예를 들어 진동(shakiness) 또는 비디오 품질)이 이벤트의 단일 요약 비디오를 생성하는 데 이용될 수 있다. 재생 단계(360)는 동기화된 오디오 부분들 및 상대적 지리적 위치들에 적어도 기초하여 식별된 비디오들을 대화형 다시점 플레이어 인터페이스에서 제시하는 것을 포함한다. 일 구현에서, 다시점 재생 모듈(210)은 대화형 다시점 플레이어 인터페이스를 제시하고 어느 비디오들이 표시될지를 선택하는 사용자 상호 작용을 수신한다. 재생 및 전달(360)은 비디오 컬렉션을 브라우징하는 방법을 사용자에게 제시하는 UI 요소들을 사용한다. 이것은 뷰들 사이의 직관적인 스위칭을 가능하게 하는, 3D 내비게이션, 및 대부분의 장면을 갖는 이벤트 동안의 비디오 또는 영역들에서의 핵심 시간들을 나타내는 타임라인 이벤트 바들을 포함할 수 있다. 사용자가 새로운 뷰를 요청할 때 매끄러운 전환을 보장하기 위하여, 시스템은 기존의 비디오 인프라를 이용하고 실제로 표시될 콘텐츠만을 전송하는 것에 의해 대역폭 사용을 최소한으로 유지하면서 사용자 전환들을 예측하려고 한다.

도 4는 본 개시내용의 일 구현에 따른, 대화형 다시점 비디오 생성을 위한 방법을 보여주는 흐름도이다. 이 방법(400)은 하드웨어(예컨대, 회로, 전용 로직, 프로그램 가능 로직, 마이크로코드 등), 소프트웨어(예컨대, 하드웨어 시뮬레이션을 수행하기 위해 처리 디바이스에서 실행되는 명령어들), 또는 이들의 조합을 포함하는 처리 로직에 의해 수행될 수 있다. 방법(400)은 주어진 현실 세계 이벤트와 관련된 비디오들 또는 다른 미디어 항목들을 식별하고 미디어 항목들의 대화형 다시점 재생을 위한 인터페이스를 제시할 수 있다. 설명의 단순성을 위해, 이 개시내용의 방법들은 일련의 동작들로서 묘사되고 설명된다. 그러나, 이 개시내용에 따른 동작들은 다양한 순서로 그리고/또는 동시에, 그리고 본 명세서에 제시되고 설명되지 않은 다른 동작들과 함께 발생할 수 있다. 더욱이, 개시된 주제에 따른 방법들을 구현하기 위해 도시된 모든 동작들이 요구되지 않을 수도 있다. 게다가, 통상의 기술자들은 방법들이 대안적으로 상태도 또는 이벤트들을 통해 일련의 상호 관련된 상태들로서 표현될 수도 있다는 것을 이해하고 인식할 것이다. 게다가, 이 명세서에 개시된 방법들은 그러한 방법들을 컴퓨팅 디바이스들에 운반하고 전송하는 것을 용이하게 하기 위해 제조 물품에 저장되는 것이 가능하다는 것을 인식해야 한다. 본 명세서에서 사용된, 용어 "제조 물품"은 임의의 컴퓨터 판독 가능 디바이스 또는 저장 매체로부터 액세스 가능한 컴퓨터 프로그램을 포함하도록 의도된 것이다. 일 구현에서, 방법(400)은 도 1 및 도 2에 도시된 바와 같은 대화형 다시점 모듈(135)에 의해 수행될 수 있다.

도 4를 참조하여, 블록 410에서, 방법(400)은 현실 세계 이벤트와 관련된 미디어 항목들을 식별한다. 일 구현에서, 비디오 발견 모듈(202)은, 콘서트, 스포츠 이벤트, 또는 다른 이벤트와 같은 현실 세계 이벤트와 관련된 미디어 항목들(242)을 식별한다. 일 구현에서, 비디오 발견 모듈(202)은 미디어 항목들(242)을 스캔하고 현실 세계 이벤트를 식별하는 메타데이터 또는 다른 단서들을 가진 미디어 항목들을 식별한다. 특정 미디어 항목(242)이 주어진 현실 세계 이벤트와 관련된다는 것이 결정되면, 비디오 발견 모듈은 그 미디어 항목(242)을 현실 세계 이벤트에 대응하는 이벤트 목록(244)에 추가할 수 있다.

블록 420에서, 방법(400)은 공통 참조 타임라인에 따라 미디어 항목들의 오디오 부분들을 동기화한다. 일 구현에서, 오디오 동기화 모듈(204)은 공통 참조 타임라인에 따라 주어진 이벤트 목록(244) 내의 미디어 항목들(242) 각각의 오디오 부분들을 동기화한다. 일 구현에서, 오디오 동기화 모듈은 각각의 오디오 부분의 주파수 기반 오디오 스펙트로그램에 대한 상관 관계를 증가시키거나 최대화하는 미디어 항목들 각각에 대한 시간 오프셋을 결정한다. 이 시간 오프셋은 이벤트와 관련된 미디어 항목들 각각이 서로에 대하여 또는 현실 세계 이벤트의 발생에 대하여 시작하는 시간을 지시하는 공통 참조 타임라인 상의 위치를 나타낸다.

블록 430에서, 방법(400)은 각각의 미디어 항목과 관련된 상대적 지리적 위치를 결정한다. 일 구현에서, 위치 결정 모듈(206)은 이벤트 목록(244) 내의 미디어 항목들(242) 각각과 관련된 상대적 지리적 위치를 결정한다. 일 구현에서, 위치 결정 모듈(206)은 현실 세계 이벤트의 발생의 시간에 미디어 항목들 각각을 캡처하는 데 사용된 개별 카메라들의 상대적 위치들을 결정한다. 위치 결정 모듈(206)은, 다른 위치들에 대하여, 각 항목을 캡처하는 데 사용된 카메라의 위치를 계산하기 위하여 미디어 항목들 각각의 비디오 부분에서 보이는 다수의 포인트를 사용할 수 있다.

블록 440에서, 방법(400)은 동기화된 오디오 부분들에 기초하여 미디어 항목들을 결합하는 것에 의해 단일 편집된 미디어 항목을 생성한다. 일 구현에서, 요약 모듈(208)은 현실 세계 이벤트와 관련된 단일 편집된 미디어 항목을 생성한다. 요약 모듈(208)은 다수의 미디어 항목들(242)을 함께 결합하여 디렉터스 컷을 형성할 수 있다. 예를 들어, 디렉터스 컷은 현실 세계 이벤트의 요약, 개요 또는 다른 형태의 프레젠테이션을 나타내기 위해 함께 편집되는 특정 선택들을 포함할 수 있다. 디렉터스 컷에 포함된 미디어 항목들은 콘텐츠 큐레이터에 의해 수동으로 선택될 수 있거나 요약 모듈(208)이, 뷰의 수, 코멘트, 공유 활동 등과 같은 각 비디오에 대한 인기 단서들을 이용하여 자동으로 미디어 항목들을 선택할 수 있다.

블록 450에서, 방법(400)은 동기화된 오디오 부분들 및 상대적 지리적 위치들에 기초하여 미디어 항목들을 대화형 다시점 플레이어 인터페이스에서 제시한다. 일 구현에서, 다시점 재생 모듈(210)은 동기화된 오디오 부분들 및 상대적 지리적 위치들에 적어도 기초하여 미디어 항목들(242)을 대화형 다시점 플레이어 인터페이스에서 제시한다. 일 구현에서, 다시점 재생 모듈(210)은 미디어 항목들 각각을 나타내는 아이콘을 위치 결정 모듈(206)에 의해 결정된 대응하는 상대적 지리적 위치에 기초하여 대화형 다시점 플레이어 인터페이스 내의 위치에 표시한다. 다시점 재생 모듈(210)은 미디어 항목들 중 하나를 나타내는 아이콘의 사용자 선택을 수신하고 대응하는 미디어 항목의 재생을 시작한다. 다시점 재생 모듈(210)은 사용자 선택의 지시를 사용자 입력 데이터로서 저장할 수 있다. 제1 미디어 항목의 재생 동안에, 사용자는 상이한 미디어 항목을 나타내는 아이콘을 선택할 수 있다. 다시점 재생 모듈(210)은 요청이 수신되었을 때의 공통 참조 타임라인 상의 포인트에 대응하는 시간에 제2 미디어 항목의 재생을 시작할 수 있다. 따라서, 제2 미디어 항목은 미디어 파일의 시작과 다른 포인트에서 재생을 시작할 수 있다. 그 결과, 보는 사람의 관점에서, 시점은 변하지만, 현실 세계 이벤트에 대한 타이밍은 변하지 않는다.

도 5a는 공통 이벤트와 관련된 2개의 미디어 항목에 대응하는 주파수 스펙트로그램을 보여주는 도면이다. 도 5b는 도 5a에 도시된 주파수 스펙트로그램들 사이의 상관 관계 점수에 대한 라인 그래프를 보여주는 도면이다. 비디오들의 세트가 동일한 현실 세계 이벤트에서 유래한 것으로 식별된 후에, 비디오들은 공통 타임라인에 동기화될 수 있다. 이 프로세스의 세부 사항들은 아래 다시점 재생 인터페이스의 컨텍스트에서 설명된다.

N개의 비디오에 대해, 하나의 목적은 오디오 신호들(510, 520)을 정렬시키는 오프셋들의 일관적인 세트, x_1:N = (x₁, x₂, ..., x_N)을 구하는 것이다. 시스템은 먼저 신호들의 각 쌍을 상관시켜 상대적 오프셋들 x_ij(530)을 측정할 수 있다. 그 후 쌍의 정보를 이용하여 결합 확률 분포(joint probability distribution)를 만들어내고 신뢰 전파를 이용하여 추론을 하는 것에 의해 합의 솔루션(consensus solution)이 구해진다. 신뢰 전파는 더 밀접하게 관련된 오디오 신호들을 공유하는 신호들의 인접한 쌍들이 최종 솔루션의 일관성을 드라이브하는 것을 가능하게 한다.

2개의 오디오 신호(510, 520)를 정렬 상태로 가져오는 시간 오프셋(530)은 오디오 신호들로부터의 특징들을 선택한 후에, 잠재적 오디오 오프셋들에서 이 특징들을 비교하는 것에 의해 구해질 수 있다. 최고의 정합 점수들(540)을 가진 시간 오프셋들이 가설 시간 정렬을 위해 사용될 수 있다. 원시 오디오 신호들, 또는 음성 처리에서 일반적으로 사용되는 MEL 스펙트럼 또는 켑스트럼(cepstrum)과 같은 스펙트럼 방법들과 같은, 사용할 오디오 신호들의 특징들에 대한 여러 가능성들이 있다. 일 구현에서, 시스템은 입력 비디오 i의 시간 t에서 파장의 스펙트럼 전력

을 측정하는, 주파수 기반 특징인 오디오 스펙트로그램

을 사용하고, 여기서 T_i는 입력 오디오 신호 i의 길이이다. 정합을 위해, 시스템은 스펙트로그램들의 쌍의 일관성의 측정으로서 제로-정규화 교차 상관(zero-normalized cross correlation)을 사용할 수 있는데, 그 이유는 정규화가 비교를 오버랩 길이에 둔감하게 만들기 때문이다. 도 5a는 잘못된 오프셋으로 인해 현재 정렬이 안 된 2개의 스펙트로그램(510, 520)을 보여주고 도 5b는 올바른 정렬을 나타내는 2개의 스펙트로그램의 ZNCC(zero-mean normalized cross correlation)를 보여준다.

정규화된 교차 상관 함수인

은 제로와 길이 정규화된 스펙트로그램들 s_i, s_j의 상관 관계이고, 다음 식으로 정의된다.

여기서

은 오버랩의 영역이고, 신호의 평균 및 길이는 동일한 오버랩의 영역에 걸쳐 다음 식으로 구해진다.

가장 공산이 큰 K-피크들은 신호의 극대점들을 구하는 것에 의해 추출된다.

쌍의 분석으로부터 추출된 가설은 다음과 같은 쌍의 증거(pairwise evidence)를 형성하기 위해 사용된다.

여기서 c는 상관 관계 f_ij로부터 얻어진 신뢰도 측정치이다.

그 후 시스템은 쌍의 증거

를 결합하는 것에 의해 시간 오프셋들의 결합 확률 분포를 모델링하여, 다음과 같은 식을 제공한다.

솔루션 공간에는 하나의 파라미터 모호성이 존재하므로(즉,

), 시스템은 하나의 노드를 기준으로 고정시키고 그 값을 x1 = 0으로 설정하여, 다음의 결합 확률 분포를 야기한다.

이것은 마르코프 랜덤 필드(Markov random field) 모델들에서 보이는 일반적인 형태이다.

그 후 노드들 사이의 반복적인 일련의 메시지들을 사용하여 그래프를 통하여 증거를 전파하는, 루피 신뢰 전파(loopy belief propagation)를 통하여 수학식 6에서의 x의 한계들에 접근한다. 알고리즘의 반복 t≥1에서, 노드 i로부터 노드 j로의 메시지는 다음과 같이 이전의 반복으로부터의 메시지들을 사용하여 정의된다.

여기서 t=0에서의 메시지는 균일하게 또는 임의로 정의된다.

반복 t에서의 신뢰는 한계에 접근하고 다음과 같이 전파된 메시지들을 사용하여 정의된다.

수학식 7은, 시스템이 푸리에 변환을 사용하여 효율적으로 메시지 업데이트들을 계산하는 것을 가능하게 하는, 쌍의 인자와 부분적 신뢰의 컨볼루션이라는 점에 주목한다.

T 반복들 후에, 최종 솔루션 X_i는 다음과 같이 신뢰를 최대화하는 것에 의해 구해질 수 있다.

루피 신뢰 전파는 올바른 한계들에 수렴하는 것이 보장되지 않기 때문에, 시스템은 N개 가설 솔루션을 획득하기 위해 참조로서 모든 가능한 노드들을 시도할 수 있다. 시스템은 다음과 같이 일관성 점수를 최대화하는 최종 솔루션을 유지한다.

대안적으로, 상관 관계 점수는 다음과 같이 가설 솔루션의 전체 일관성을 측정하기 위해 직접 사용될 수 있다:

다시점 기하학의 이론은 이미지에서 도출된 포인트 대응성들로부터 카메라 포즈들 및 장면 기하학의 재구성을 하는 수학적 도구들을 제공한다. 다수의 카메라 뷰들로부터의 3D 구성들에 대해 연구가 이루어졌지만, 많은 기법은 카메라들에 대한 내부 캘리브레이션들(예컨대, 초점 거리들, 주요 포인트들)이 알려져 있다는 가정 하에서만 효과가 있다. 그러나, 사용자가 작성한 콘텐츠의 경우, 시스템은 내부 캘리브레이션 정보가 알려져 있다고 가정할 수 없다. 또한, EXIF 헤더들에 인코딩된 내재 정보들(intrinsics)에 의존하는 구조화되지 않은 사진 컬렉션들로부터의 3D 비전 기반 재구성을 위한 방법들과 달리, 비디오 메타데이터는 종종 이러한 유용한 정보를 포함하지 않는다. 따라서, 일 구현에서, 시스템은 사용자가 작성한 비디오들에 존재하는 순수한 카메라 회전을 이용하여 자동으로 내부 캘리브레이션을 추출한다.

콘서트 또는 스포츠 이벤트들에서, 카메라는 종종 한 위치에 머무르고 액션을 관찰하기 위해 약간만 회전한다. 이것은 하나의 타겟 사용 사례이므로, 시스템은 이러한 유형의 비디오 모션에 대한 카메라 초점 거리들의 정확한 초기 추정을 제공하는 방법을 사용한다. 그 후 시스템은 더 나은 또는 어떤 선택 알고리즘을 이용하여 카메라 포즈 추출 및 다시점 재구성을 하고 있는 이미지 영역들을 필터링한 다음, 이미 얻어진 초점 거리들을 사용하여 이 이미지 영역들에 대해 포즈 추출을 한다.

카메라가 회전(그리고 어쩌면 무시할 만한 병진)만을 겪은 경우에, 2개의 이미지 사이의 이미지 좌표들에 관한 변환은 3 x 3 투영 호모그래피 행렬(projective homography matrix) H에 의해 관련될 수 있다.

일반성의 상실 없이, 제1 카메라가 원점과 정렬된다고 하자; 그러므로, 카메라 행렬을 다음 식과 같이 정의되고

제2 뷰가 단지 제1 뷰의 회전 R뿐이면, 다음 식과 같다

여기서 내부 카메라 파라미터들은 제로-스큐(zero-skew)인 것으로 가정하고 주 포인트(principle point)는 카메라에 대한 이미지 평면의 중심에 있는 것으로 가정한다(이는 대부분의 소비자 카메라의 경우에 해당된다):

여기서 fx와 fy는 각각 x와 y에서의 초점 거리이다. 그러면 이미지들에 관한 호모그래피는 다음과 같이 내부 파라미터들과 회전 행렬의 함수이다.

R은

을 만족시키는 3x3 회전 행렬이므로, 수학식 15를 사용하여, 제약은 다음과 같이 재작성될 수 있고

이는 K와 복구된 호모그래피 H만의 함수이다. H는 이미지 정합들로부터 직접 추정될 수 있으므로, 제약

은 미지수 fx와 fy에서 비선형 최소 제곱 문제를 제공한다. 시스템은 (fx, fy)에 대한 어떤 초기 값에서 시작하여 허용될 수 있는 최소 한도에 수렴할 때까지 Levenberg-Marquardt 같은 신뢰 영역 방법(trust region method)들을 이용하여 (Δfx, Δfy)를 계속 반복적으로 계산하여, fx 및 fy의 공간에서

를 최소화함으로써 fx 및 fy에 대한 해를 구한다.

시스템은 호모그래피 H를 검사함으로써 카메라의 줌 또는 불충분한 회전을 가진 이미지 시퀀스의 부분들을 자동으로 폐기하고, 나머지 부분들을 선택하여 카메라 내부 파라미터들을 추정할 수 있다.

이미지 선택, 쌍의 정합 및 번들 조정

계산상의 이유로, 시스템은 먼저, 특징들의 수, 각 프레임의 품질, 및 시간적 모션의 양을 고려하여 각 비디오 시퀀스로부터 소수의 두드러진 프레임들만을 선택하는 것에 의해, 재구성에 입력되는 프레임의 수를 감소시킬 수 있다. 일단 시스템이 재구성을 위한 이미지들을 선택하면, 그것은 각 이미지로부터 SIFT 특징들을 추출하고 이 특징들을 이용하여 이미지들의 쌍들을 정합시킬 수 있다. 일 실시예에서, 시스템은 정합들의 초기 세트를 얻기 위해 Lowe 임계치에 의한 정합을 이용할 수 있다. 부정확한 정합들을 제거하기 위해, 시스템은 그 스케일 및 오리엔테이션 차이가 다른 정합들의 것의 대부분과 같은 정합들만을 선택하는 것에 의해 이 정합을 더 리파인(refine)할 수 있다. 이것은 정합들의 초기 세트를 정합에 걸친 스케일 및 오리엔테이션 차이의 2D 히스토그램으로 비닝(binning)하는 것에 의해 행해질 수 있다. 시스템은 가장 많은 수의 정합을 포함하는 빈 내의 정합들을 최종 리파인된 정합들로서 선택한다.

그 후 시스템은 정합들을 사용하여 이미지들의 각 쌍에 대해, 2시점 모델(two-view model), 즉 기본 행렬(fundamental matrix) 및 에프-인라이어들(f-inliers)을 계산할 수 있다. 시스템은 이러한 2시점 모델들을 계산하기 위해 위에 계산된 이미지들에 대한 초점 거리 정보를 이용할 수 있다. 일단 2시점 모델이 얻어지면, 시스템은 반복적으로 2시점 모델을 합계하고 번들 조정을 행하여, 모든 카메라를 포함하는 최종 3D 모델을 얻을 수 있다.

정적인 3D 맵들에 대해, 시스템은 카메라의 최종 3D 위치를 해당 비디오 시퀀스에 대한 재구성된 위치들 모두에 걸쳐 중간 위치라고 생각한다. 재구성된 3D 포인트 클라우드(point cloud)를 이용하여 3D 맵 기반 인터페이스를 위한 3D 모델을 도출할 수 있거나, 대안적으로, 재구성된 3D 카메라 포즈들을 아티스트가 작성한 환경의 3D 맵에 수동으로 정렬시킬 수 있다.

소비자 카메라들로부터의 입력 비디오들은 종종 품질 문제로 시달린다. 비디오 스트림들을 이용하기 전에, 시스템은 임의로 비디오들 사이의 색 상관 관계를 적용하고, 모션 안정화를 통해 진동을 감소시키고, 노이즈 제거(denoising)를 통해 노이즈 아티팩트들을 감소시킬 수 있다. 클립들 사이의 오디오 레벨들도 공통 레벨들로 정규화될 수 있다.

시스템은 비디오들을 스위칭할 때를 식별하기 위해 에너지 최소화를 이용할 수 있다. 공통의 품질 및 전환 단서들 외에, 우리의 에너지 조건은 카메라들의 3D 위치들 및 시점들을 고려할 수 있다. 위치들 및 시점들을 이용하여, 일관적인 방향으로 스위칭한다면 전환은 더 연속적일 수 있다.

최적화에 대한 해를 구한 후에, 결합된 편집된 비디오가 작성될 수 있다. 대안적으로, 재생 엔진은, 비디오가 스위칭되어야 하는 시간들을 지시하는, 쌍들의 시퀀스로서, 편집 포인트들의 목록을 받아들인다. 이렇게 하여, 사용자는, 재생 엔진이 편집 목록을 이용하여 시점을 동적으로 업데이트하는 동안, 디렉터스 컷을 시청할 수 있다. 사용자는 또한 자유 시점 효과를 얻기 위해 임의의 포인트에서 디렉터스 컷으로부터 스위칭할 수 있다.

3D 카메라 포즈 및 희소 근사 장면 기하(sparse approximating scene geometry)를 갖는 것의 이점들은 다음과 같이 3중이다: 1) 비디오들의 공간 배열이 사용자에게 제시되어 직관적인 대화형 시점 선택을 가능하게 할 수 있고, 2) 중간의(in-between) 가상 시점들도 사용자에게 제시될 수 있고, 3) 공간 배열을 이용하여 공산이 큰 다음 뷰들을 예측할 수 있다. 이 대화형 다시점 플레이어는 이러한 이점들을 이용하는 한편, 타임라인 상의 중요한 포인트들을 지시하는 다른 UI 요소들을 제시한다. 중간의 가상 뷰들은 입력 뷰들로서 충실도를 가질 공산이 없겠지만, 비디오 스위칭에 내재하는 버퍼 및 대기 시간들을 커버하기에 좋다.

UI 요소들

도 6a 및 도 6b는 본 개시내용의 일부 구현들에 따른, 대화형 다시점 비디오 재생 인터페이스의 2개의 가능한 프레젠테이션의 예들을 보여주는 도면들이다. 도 6a의 3D 대화형 뷰는 재구성된 비디오 포즈들에서 아이콘들/위젯들을 가진 이벤트에 대응하는 3D 템플릿 모델을 보여준다. 이 아이콘들은 또한 현재 동작하는 카메라와 현재 재생 시간에 어느 시점들이 이용 가능한지(또는 범위에 있는지)를 보여준다. 사용자들은 맵 상의 원하는 카메라 시점을 클릭하는 것에 의해 비디오 장면을 공간적으로 브라우징할 수 있다.

모든 비디오들이 동일한 시간에 시작되거나 종료되는 것은 아니므로, 주어진 시간에 몇 개의 비디오가 이용 가능한지를 보여주기 위해 통상의 탐색 바와 나란히 비디오 밀도 바가 표시될 수 있다(도 6b 참조). 대안적으로, 이벤트의 하이라이트들을 지시하기 위해 핫-시청 하이라이트 바(hot-watch highlight bar)가 사용될 수 있다. 이러한 하이라이트 바는 단일 비디오 재생을 위해 사용될 수 있는 것과 유사하다. 이 하이라이트 바는 수동으로 큐레이트될 수 있거나, 또는 그것은 소셜 미디어로부터의 단서들을 이용하거나, 기록된 사용자 상호 작용으로부터의 피드백을 받아들일 수 있다. 다시점의 경우에, 유용한 단서는 임의의 주어진 순간에 이용 가능한 비디오들의 수와 품질 양쪽 모두이다. 게다가, 사용자들이 상이한 시점들로부터의 시간 순간을 리플레이한 횟수도 하이라이트 바의 밀도를 드라이브하는 단서로서 이용될 수 있다.

양호한 대화형 경험을 보장하기 위해, 인터페이스는 사용자가 요청할 때 시점들 간의 끊김 없는 전환들을 제시할 수 있다. 스위칭 요청 시에 다시 버퍼링하는 것으로 인한 재생의 갑작스런 중단들이 최소화된다.

비디오 시점들 간의 순간적인 스위칭 또는 시간에서의 탐색은 모든 비디오 데이터로의 즉각적인 랜덤 액세스를 이용한다. 이러한 랜덤 액세스를 보증하는 것은 재생 전에 모든 비디오를 사전 버퍼링하거나 다운로딩하는 것을 필요로 할 것이고, 이는 어쩌면 불량한 사용자 경험으로 이어질 수 있다. 순간적인 탐색에 대한 제약을 완화하고, 모든 비디오들을 동시에 스트리밍하는 것은 순간적인 시점 스위칭을 가능하게 할 것이지만, 대역폭 제약으로 인해 그러한 스트리밍은 가능하지 않을 공산이 클 것이다. 이러한 극단 대신에, 이상적인 플레이어는 시청될 비디오 부분들만을 다운로딩하고, 대화형 스위칭을 보장하기 위하여 비디오의 일부 영역을 사전 버퍼링하는 것을 트레이드-오프해야 한다.

대역폭과 대화형 작업(interactivity) 간의 트레이드-오프를 위한 하나의 솔루션은 백 버퍼링(back buffering)의 한 형태를 이용하는 것이다. 현재 선택된 주 비디오는 전경에서 재생되고, 고속 대화형 스위칭을 보장하려는 노력으로, 제2의 백-버퍼 비디오가 스트리밍되고, 버퍼링되고, 배경에서 재생될 것이다. 백-버퍼에서의 비디오의 스트리밍은, 어느 비디오가 선택될지를 예측하기 위해 가상 시점 위에 호버링하는 것과 같은, 사용자 거동을 모니터할 수 있다. 대안적으로, 모든 사용자들의 이력이 어느 것이 가능 공산이 큰 다음 시점일지를 결정하는 데 프라이어(prior)로서 이용될 수 있거나, 또는 중요 시간 포인트들 주위의 모든 비디오들의 어떤 사전 버퍼링이 수행될 수 있다.

백-버퍼링될 비디오가 식별된 후에, 비디오는 버퍼링되고 배경에서 재생될 수 있다. 도 7은 그러한 이벤트에 대한 타임라인을 보여주고, 여기서 tp는 예측이 이루어진 시간을 지시하고, t_a는 사용자가 실제로 시점을 선택한 시간을 지시하고, t_s는 시스템이 새로운 비디오에서 스위칭을 완료한 시간이다. t_p의 순간에, 백-버퍼링 비디오 플레이어는 재생을 시작하기에 충분한 비디오 데이터를 페치해야 한다(버퍼링 시간). 또한 플레이어를 시동하기 위해 데이터가 완전히 이용 가능하게 된 후에 약간의 지연이 있다. 사용자 선택 시간 t_a가 시동이 완료된 후에 발생하면, 백-버퍼링된 비디오는 단순히 전경으로 스와핑될 수 있다.

도 7은 예측 및 버퍼링 타임라인의 2개의 예를 보여준다. 시간 tp에서, 시스템은 사용자가 곧 비디오 2로 스위칭할 것을 예측하고, 따라서 비디오 2가 버퍼링되고 배경에서 재생되기 시작한다. 그 후 사용자는 시간 ta에서 실제로 스위칭을 요청하고 그 후 우리는 버퍼링/재생이 준비되는 것을 허용하기 위해 길이 ts - ta의 지연 애니메이션을 이용한다. 예측이 정확할 때(왼쪽), 이 지연 애니메이션은 짧을 수 있다. 비디오가 버퍼링되면(오른쪽), 지연은 재생 시동 시간을 커버할 정도로만 길면 된다.

그러나, 비디오 예측이 부정확하거나 비디오 데이터가 버퍼링이 완료되지 않을 때 일관적인 경험을 보장하기 위해, 시스템은 시동 시간보다 큰 애니메이션 지연 ts - ta를 이용한다. 이 애니메이션 지연은 백-버퍼링된 비디오가 재생 준비가 될 때까지의 시간을 적어도 커버해야 한다. 이렇게 하여, 사용자는 제2의 백-버퍼링된 뷰가 이용 가능할 때까지 여전히 현재의 주 비디오를 시청할 수 있다. 또한, 백-버퍼 비디오가 이미 배경에서 재생 중인 경우에, 애니메이션 지연은 백-버퍼링된 비디오가 전경으로 스와핑되기 전에 재생 시간의 최종 동기화를 가능하게 한다.

상기 전략은 현재의 비디오 스트리밍 기술을 이용하여 구현될 수 있다. MPEG-DASH와 같은, 스트리밍 비디오의 새로운 표준들도, 대역폭이 이용 가능하다면, 끊김 없는 온-더-플라이(on-the-fly) 품질 변화를 가능하게 한다. MPEG-DASH를 이용하면, 상기 버퍼링 방식은 백-버퍼에서 저품질 비디오를 이용할 수 있어, 더 낮은 대역폭과 따라서 백-버퍼의 더 빠른 버퍼링 시간들을 보장할 수 있다. 비디오를 전경으로 가져온 후, 품질은 이용 가능한 대역폭에 따라 자동으로 개선될 수 있다. 유사하게, 대역폭이 이용 가능하다면 배경 뷰들로부터 데이터를 송신하기 위한 유틸리티 기반 정책을 도출하기 위해 스케일러블 비디오 코딩(scalable video coding)(SVC) 방법들이 이용될 수 있다. 예를 들어, 이용 가능한 모든 시점들로부터 일부 저품질 비디오를 갖는 것을 시도하고 선호하는 정책을 정의하여, 3D 맵 뷰에서 섬네일들을 표시하기 위해 이미지 데이터의 재사용과 고속 스위칭 양쪽 모두를 가능하게 할 수 있다.

전환 애니메이션들

전술한 버퍼링 전략은 재생을 위해 배경 비디오를 준비하는 데 있어 대기 시간들을 커버하기 위해 사용자가 새로운 비디오를 선택한 후에 약간의 지연에 의존한다. 더 즉각 반응하는 재생 전환의 외양을 제공하기 위해, 이 전환 시간 동안에 비디오 위에 애니메이션 또는 효과가 오버레이될 수 있다.

하나의 그러한 효과는 비디오 선택의 섬네일의 팬, 스캔, 및 페이드를 애니메이션하는 것일 것이고 그로부터 현재 주 비디오에 대한 사용자 상호 작용의 요소를 선택할 수 있다. 이용 가능하다면, 시스템의 컴퓨터 비전 구성 요소로부터 복구된 3D 정보를 이용하여 자유 시점 스위칭을 애니메이션할 수 있다. 이러한 전환은 또한 사용자에게 더 나은 환경의 공간감을 제공하는데, 그 이유는 렌더링이 장면의 3D 플라이스루(flythrough)처럼 보이기 때문이다. 그러한 전환은 대강의 근사 장면 기하와, 현재 재생 중인 비디오 텍스처를 장면에 매핑하는 프로젝티브 텍스처(projective texture)만을 이용하여 렌더링될 수 있다. 일 구현에서, 이것은 자유 시점 렌더링이라고 불릴 수 있다. 단일 이미지 입력 및 대강의 장면 기하를 이용하여 인근 영역들 위에 뷰들을 합성할 수 있다. 톱-다운 뷰(top-down view)는 장면 위에 투영되는 텍스처를 보여준다.

추가적인 전환 효과들은 또한 슬로우 모션 또는 리플레이 모드를 포함할 수 있고, 이 경우 비디오 스위칭 시에 시간이 리와인드(re-wind)되어 사용자는 상이한 시점들로부터 동일한 이벤트를 볼 수 있다. 리와인드 시간 포인트는 비디오 밀도 바로부터의 정보를 이용하여 동적인 리와인드 포인트를 자동으로 식별할 수 있다.

상기 설명은 사용자가 작성한 콘텐츠로부터 다시점 비디오 재생을 달성하기 위한 완전한 시스템 및 방법을 제시한다. 이 시스템은 비디오 시작 시간 및 3D 카메라 위치들을 포함한, 모든 이용 가능한 정보를 추출하고, 이용하고, 제시하는 것에 주력한다. 그렇게 하면서, 시스템은 직관적인 다시점 브라우징 경험을 달성하고, 여기서 사용자는 이용 가능한 비디오 품질 단서들, 3D 포즈 정보, 및 사용자 상호 작용의 이력을 고려함으로써 시간과 공간에서 흥미로운 포인트들로 시각적으로 안내된다. 이 동일한 단서들은 재생 동안에 예측 백-버퍼링 전략에도 이용되며, 이는 인터넷 프로토콜 송신에서 대역폭 제약을 줄이면서 대화형 작업을 보장한다.

도 8은 컴퓨터 시스템(800)의 예시적인 형태의 머신의 도식적인 표현을 보여주는 것으로, 그 안에서 해당 머신으로 하여금 본 명세서에 논의된 방법들 중 어느 하나 이상을 수행하게 하기 위한 명령어들의 세트가 실행될 수 있다. 대안적인 구현들에서, 머신은 LAN(local area network), 인트라넷, 엑스트라넷, 또는 인터넷에서 다른 머신들에 접속(예를 들어, 네트워킹)될 수 있다. 머신은 클라이언트-서버 네트워크 환경에서 서버 또는 클라이언트 머신의 자격으로 동작하거나, 피어-투-피어(또는 분산) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신은 퍼스널 컴퓨터(PC), 태블릿 PC, 셋톱 박스(STB), PDA(Personal Digital Assistant), 휴대폰, 웹 어플라이언스, 서버, 네트워크 라우터, 스위치 또는 브리지, 또는 해당 머신에 의해 취해질 액션들을 지정하는 명령어들의 세트(순차적 또는 기타)를 실행할 수 있는 임의의 머신일 수 있다. 또한, 단일 머신만이 예시되어 있지만, 용어 "머신"은 또한 본 명세서에 논의된 방법들 중 어느 하나 이상을 수행하기 위한 명령어들의 세트(또는 다수의 세트)를 개별적으로 또는 공동으로 실행하는 머신들의 임의의 무리를 포함하는 것으로 이해되어야 한다.

예시적인 컴퓨터 시스템(800)은 처리 디바이스(802), 주 메모리(804)(예컨대, 판독 전용 메모리(ROM), 플래시 메모리, 동적 랜덤 액세스 메모리(DRAM)(예를 들어, 동기식 DRAM(SDRAM) 또는 램버스 DRAM(RDRAM) 등), 정적 메모리(806)(예컨대, 플래시 메모리, 정적 랜덤 액세스 메모리(SRAM) 등), 및 데이터 저장 디바이스(818)를 포함하고, 이들은 버스(830)를 통해 서로 통신한다. 본 명세서에 설명된 다양한 버스들을 통하여 제공되는 신호들 중 임의의 신호들을 다른 신호들과 시간 다중화하여 하나 이상의 공통 버스를 통하여 제공할 수 있다. 게다가, 회로 구성 요소들 또는 블록들 사이의 상호 접속은 버스들로서 또는 단일 신호 라인들로서 도시될 수 있다. 버스들 각각은 대안적으로 하나 이상의 단일 신호 라인일 수 있고 단일 신호 라인들 각각은 대안적으로 버스들일 수 있다.

처리 디바이스(802)는 마이크로프로세서, 중앙 처리 디바이스, 또는 기타 등등과 같은 하나 이상의 범용 처리 디바이스를 나타낸다. 특히, 처리 디바이스는 CISC(complex instruction set computing) 마이크로프로세서, RISC(reduced instruction set computer) 마이크로프로세서, VLIW(very long instruction word) 마이크로프로세서, 또는 다른 명령어 세트들을 구현하는 프로세서, 또는 명령어 세트들의 조합을 구현하는 프로세서들일 수 있다. 처리 디바이스(802)는 또한 ASIC(application specific integrated circuit), FPGA(field programmable gate array), DSP(digital signal processor), 네트워크 프로세서, 또는 기타 등등과 같은 하나 이상의 특수 목적 처리 디바이스일 수 있다. 처리 디바이스(802)는 본 명세서에 논의된 동작들 및 단계들을 수행하기 위한 처리 로직(826)을 실행하도록 구성된다.

컴퓨터 시스템(800)은 네트워크 인터페이스 디바이스(808)를 더 포함할 수 있다. 컴퓨터 시스템(800)은 또한 비디오 디스플레이 유닛(810)(예컨대, LCD(liquid crystal display) 또는 CRT(cathode ray tube)), 영숫자 입력 디바이스(812)(예컨대, 키보드), 커서 제어 디바이스(814)(예컨대, 마우스), 및 신호 생성 디바이스(816)(예컨대, 스피커)를 포함할 수 있다.

데이터 저장 디바이스(818)는 본 명세서에 설명된 기능들의 방법들 중 어느 하나 이상을 구현하는 명령어들(822)의 하나 이상의 세트(예컨대, 소프트웨어)가 저장되어 있는, 머신 판독 가능 저장 매체(828)를 포함할 수 있다. 명령어들(822)은 또한, 컴퓨터 시스템(800)에 의한 그것의 실행 동안에, 완전히 또는 적어도 부분적으로, 주 메모리(804) 내에 그리고/또는 처리 디바이스(802) 내에 존재할 수 있고; 주 메모리(804)와 처리 디바이스(802)도 머신 판독 가능 저장 매체를 구성한다. 명령어들(822)은 또한 네트워크 인터페이스 디바이스(808)를 통해 네트워크(820)를 통하여 송신 또는 수신될 수도 있다.

머신 판독 가능 저장 매체(828)는 또한, 본 명세서에 설명된, 다시점 오디오 및 비디오 대화형 재생을 위한 방법을 수행하기 위한 명령어들을 저장하는 데에 이용될 수도 있다. 머신 판독 가능 저장 매체(828)는 예시적인 구현에서 단일 매체인 것으로 도시되어 있지만, 용어 "머신 판독 가능 저장 매체"는 단일 매체 또는 명령어들의 하나 이상의 세트를 저장하는 다수의 매체(예컨대, 중앙 집중식 또는 분산 데이터베이스, 및/또는 관련된 캐시들 및 서버들)를 포함하는 것으로 이해되어야 한다. 머신 판독 가능 매체는 머신(예컨대, 컴퓨터)에 의해 판독 가능한 형태의 정보(예컨대, 소프트웨어, 처리 애플리케이션)를 저장하기 위한 임의의 메커니즘을 포함한다. 머신 판독 가능 매체는, 자기 저장 매체(예컨대, 플로피 디스켓); 광 저장 매체(예컨대, CD-ROM); 광자기 저장 매체; 판독 전용 메모리(ROM); 랜덤 액세스 메모리(RAM); 소거 가능 프로그램 가능 메모리(예컨대, EPROM 및 EEPROM); 플래시 메모리; 또는 전자 명령어들을 저장하기에 적합한 다른 유형의 매체를 포함할 수 있지만, 이들에 제한되는 것은 아니다.

전술한 설명은 본 개시내용의 여러 구현에 대한 양호한 이해를 제공하기 위하여, 구체적인 시스템들, 구성 요소들, 방법들, 및 기타 등등의 예들과 같은 다수의 구체적인 세부 사항들을 제시하고 있다. 그러나, 통상의 기술자에게는, 본 개시내용의 적어도 일부 구현들이 이러한 구체적인 세부 사항들 없이 실시될 수 있다는 것이 명백할 것이다. 다른 경우에, 본 개시내용을 불필요하게 모호하게 하는 것을 피하기 위하여 잘 알려진 구성 요소들 또는 방법들은 상세히 설명되지 않거나 간단한 블록도로 제시된다. 따라서, 제시된 구체적인 세부 사항들은 예시적인 것에 불과하다. 특정 구현들은 이러한 예시적인 세부 사항들로부터 달라질 수 있고 그럼에도 본 개시내용의 범위 안에 있는 것으로 고려될 수 있다.

본 명세서에 논의된 시스템들이 사용자들에 관한 개인 정보를 수집하거나, 개인 정보를 사용할 수 있는 상황들에서, 사용자들에게는 프로그램들 또는 특징들이 사용자 정보(예컨대, 사용자의 소셜 네트워크, 소셜 액션들 또는 활동들, 직업, 사용자의 선호 사항들, 또는 사용자의 현재 위치에 관한 정보)를 수집할지를 통제하거나, 사용자와 더 관련 있을 수 있는 미디어 서버로부터의 콘텐츠를 수신할지 그리고/또는 어떻게 수신할지를 통제할 기회가 제공될 수 있다. 게다가, 어떤 데이터는 그것이 저장되거나 사용되기 전에 하나 이상의 방법으로, 개인 식별 정보가 제거되도록 처리될 수 있다. 예를 들어, 사용자의 아이덴티티는 사용자에 대해 어떤 개인 식별 정보도 결정될 수 없도록 처리될 수 있거나, 위치 정보가 획득되는 사용자의 지리적 위치는 사용자의 특정 위치가 결정될 수 없도록 일반화될 수 있다(예를 들어, 도시, ZIP 코드, 또는 주 레벨). 따라서, 사용자는 그 사용자에 관해 어떻게 정보가 수집되고 웹 서버 또는 미디어 서버에 의해 사용되는지에 대해 통제할 수 있다.

이 명세서의 전체에 걸쳐 "일 구현" 또는 "구현"에 대한 언급은 그 구현들과 관련하여 설명된 특정한 특징, 구조, 또는 특성이 적어도 하나의 구현에 포함된다는 것을 의미한다. 따라서, 이 명세서의 전체에 걸쳐 다양한 곳에서 "일 구현에서" 또는 "구현에서"라는 구절이 나온다고 해서 반드시 모두가 동일한 구현을 언급하는 것은 아니다. 게다가, 용어 "또는"은 배타적 "또는"이 아니라 포괄적 "또는"을 의미하는 것으로 의도된다.

본 명세서의 방법들의 동작들은 특정한 순서로 도시되고 설명되어 있지만, 각 방법의 동작들의 순서는 특정 동작들이 반대의 순서로 수행될 수 있도록 또는 특정 동작들이, 적어도 부분적으로, 다른 동작들과 동시에 수행될 수 있도록 변경될 수 있다. 다른 구현에서, 명령어들 또는 별개의 동작들의 하위 동작들이 간헐적인 그리고/또는 교호적인 방식으로 있을 수 있다.

Claims

처리 디바이스에 의해, 현실 세계 이벤트와 관련된 복수의 미디어 항목을 식별하는 단계 - 상기 복수의 미디어 항목 각각은 비디오 부분과 오디오 부분을 포함함 -;
공통 참조 타임라인에 따라 상기 복수의 미디어 항목 각각의 상기 오디오 부분들을 동기화시키는 단계;
상기 복수의 미디어 항목 각각과 관련된 상대적 지리적 위치를 결정하는 단계;
상기 동기화된 오디오 부분들 및 상기 상대적 지리적 위치들에 적어도 기초하여 상기 복수의 미디어 항목을 대화형 다시점 플레이어 인터페이스(interactive multi-view player interface)에서 제시하는 단계;
사용자에 의해 선택될 후속 미디어 항목을 예측하는 단계 - 상기 후속 미디어 항목은 상기 복수의 미디어 항목들 중 하나임 -; 및
상기 예측에 기초하여 상기 후속 미디어 항목의 사용자 선택에 앞서 상기 후속 미디어 항목을 버퍼링하는 단계
를 포함하고,
상기 복수의 미디어 항목 각각과 관련된 상기 상대적 지리적 위치를 결정하는 단계는 상기 복수의 미디어 항목 각각에서 보이는 복수의 포인트에 기초하여 상기 현실 세계 이벤트의 시간에 상기 복수의 미디어 항목 각각을 캡처하기 위해 사용된 개별 카메라들의 상대적 위치들을 결정하는 단계
를 포함하는 방법.
제1항에 있어서, 상기 동기화된 오디오 부분들에 기초하여 상기 복수의 미디어 항목을 결합하는 것에 의해, 상기 현실 세계 이벤트와 관련된 단일 편집된 미디어 항목을 생성하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 복수의 미디어 항목을 식별하는 단계는 상기 현실 세계 이벤트를 식별하는 메타데이터를 가진 미디어 항목들을 결정하는 단계를 포함하는 방법.
제1항에 있어서, 상기 복수의 미디어 항목 각각의 상기 오디오 부분들을 동기화시키는 단계는 각각의 오디오 부분의 주파수 기반 오디오 스펙트로그램에 대한 상관 관계(correlation)를 증가시키는 상기 복수의 미디어 항목 각각에 대한 시간 오프셋을 결정하는 단계를 포함하고, 상기 시간 오프셋들은 상기 공통 참조 타임라인 상의 위치들을 나타내는 방법.
삭제
제1항에 있어서, 상기 복수의 미디어 항목을 상기 대화형 다시점 플레이어 인터페이스에서 제시하는 단계는:
상기 복수의 미디어 항목 각각을 나타내는 아이콘을 표시하는 단계 - 각각의 아이콘은 대응하는 상대적 지리적 위치에 기초한 위치에 표시됨 -;
상기 복수의 미디어 항목 중 제1 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 상기 제1 미디어 항목의 재생을 시작하는 단계; 및
상기 공통 참조 타임라인 상의 제1 포인트에 대응하는 상기 제1 미디어 항목의 재생 동안의 시간에, 상기 복수의 미디어 항목 중 제2 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 상기 공통 참조 타임라인 상의 상기 제1 포인트에 대응하는 상기 제2 미디어 항목에서의 시간에 상기 제2 미디어 항목의 재생을 시작하는 단계
를 포함하는 방법.
삭제
명령어들을 저장한 머신 판독 가능 저장 매체로서, 상기 명령어들은 실행될 때, 처리 디바이스로 하여금:
상기 처리 디바이스에 의해, 현실 세계 이벤트와 관련된 복수의 미디어 항목을 식별하는 것 - 상기 복수의 미디어 항목 각각은 비디오 부분과 오디오 부분을 포함함 -;
공통 참조 타임라인에 따라 상기 복수의 미디어 항목 각각의 상기 오디오 부분들을 동기화시키는 것;
상기 복수의 미디어 항목 각각과 관련된 상대적 지리적 위치를 결정하는 것;
상기 동기화된 오디오 부분들 및 상기 상대적 지리적 위치들에 적어도 기초하여 상기 복수의 미디어 항목을 대화형 다시점 플레이어 인터페이스에서 제시하는 것;
사용자에 의해 선택될 후속 미디어 항목을 예측하는 것 - 상기 후속 미디어 항목은 상기 복수의 미디어 항목들 중 하나임 -; 및
상기 예측에 기초하여 상기 후속 미디어 항목의 사용자 선택에 앞서 상기 후속 미디어 항목을 버퍼링하는 것을 포함하는 동작들을 수행하게 하고,
상기 복수의 미디어 항목 각각과 관련된 상기 상대적 지리적 위치를 결정하는 것은 상기 복수의 미디어 항목 각각에서 보이는 복수의 포인트에 기초하여 상기 현실 세계 이벤트의 시간에 상기 복수의 미디어 항목 각각을 캡처하기 위해 사용된 개별 카메라들의 상대적 위치들을 결정하는 머신 판독 가능 저장 매체.
제8항에 있어서, 상기 동작들은:
상기 동기화된 오디오 부분들에 기초하여 상기 복수의 미디어 항목을 결합하는 것에 의해, 상기 현실 세계 이벤트와 관련된 단일 편집된 미디어 항목을 생성하는 것을 더 포함하는 머신 판독 가능 저장 매체.
제8항에 있어서, 상기 복수의 미디어 항목을 식별하는 것은 상기 현실 세계 이벤트를 식별하는 메타데이터를 가진 미디어 항목들을 결정하는 것을 포함하는 머신 판독 가능 저장 매체.
제8항에 있어서, 상기 복수의 미디어 항목 각각의 상기 오디오 부분들을 동기화시키는 것은 각각의 오디오 부분의 주파수 기반 오디오 스펙트로그램에 대한 상관 관계를 증가시키는 상기 복수의 미디어 항목 각각에 대한 시간 오프셋을 결정하는 것을 포함하고, 상기 시간 오프셋들은 상기 공통 참조 타임라인 상의 위치들을 나타내는 머신 판독 가능 저장 매체.
삭제
제8항에 있어서, 상기 복수의 미디어 항목을 상기 대화형 다시점 플레이어 인터페이스에서 제시하는 것은:
상기 복수의 미디어 항목 각각을 나타내는 아이콘을 표시하는 것 - 각각의 아이콘은 대응하는 상대적 지리적 위치에 기초한 위치에 표시됨 -;
상기 복수의 미디어 항목 중 제1 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 상기 제1 미디어 항목의 재생을 시작하는 것; 및
상기 공통 참조 타임라인 상의 제1 포인트에 대응하는 상기 제1 미디어 항목의 재생 동안의 시간에, 상기 복수의 미디어 항목 중 제2 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 상기 공통 참조 타임라인 상의 상기 제1 포인트에 대응하는 상기 제2 미디어 항목에서의 시간에 상기 제2 미디어 항목의 재생을 시작하는 것
을 포함하는 머신 판독 가능 저장 매체.
삭제
서버 컴퓨터 시스템으로서,
처리 디바이스;
상기 처리 디바이스에 연결된 메모리; 및
상기 메모리로부터 상기 처리 디바이스에 의해 실행 가능한 대화형 다시점 모듈
을 포함하고, 상기 대화형 다시점 모듈은:
현실 세계 이벤트와 관련된 복수의 미디어 항목을 식별하고 - 상기 복수의 미디어 항목 각각은 비디오 부분과 오디오 부분을 포함함 -;
공통 참조 타임라인에 따라 상기 복수의 미디어 항목 각각의 상기 오디오 부분들을 동기화시키고;
상기 복수의 미디어 항목 각각과 관련된 상대적 지리적 위치를 결정하고;
상기 동기화된 오디오 부분들 및 상기 상대적 지리적 위치들에 적어도 기초하여 상기 복수의 미디어 항목을 대화형 다시점 플레이어 인터페이스에서 제시하고;
사용자에 의해 선택될 후속 미디어 항목을 예측하고 - 상기 후속 미디어 항목은 상기 복수의 미디어 항목들 중 하나임 -; 및
상기 예측에 기초하여 상기 후속 미디어 항목의 사용자 선택에 앞서 상기 후속 미디어 항목을 버퍼링하고,
상기 복수의 미디어 항목 각각과 관련된 상기 상대적 지리적 위치를 결정하기 위해, 상기 대화형 다시점 모듈은 상기 복수의 미디어 항목 각각에서 보이는 복수의 포인트에 기초하여 상기 현실 세계 이벤트의 시간에 상기 복수의 미디어 항목 각각을 캡처하기 위해 사용된 개별 카메라들의 상대적 위치들을 결정하는 서버 컴퓨터 시스템.
제15항에 있어서, 상기 대화형 다시점 모듈은 또한:
상기 동기화된 오디오 부분들에 기초하여 상기 복수의 미디어 항목을 결합하는 것에 의해, 상기 현실 세계 이벤트와 관련된 단일 편집된 미디어 항목을 생성하는 서버 컴퓨터 시스템.
제15항에 있어서, 상기 복수의 미디어 항목을 식별하기 위해, 상기 대화형 다시점 모듈은 상기 현실 세계 이벤트를 식별하는 메타데이터를 가진 미디어 항목들을 결정하는 서버 컴퓨터 시스템.
제15항에 있어서, 상기 복수의 미디어 항목 각각의 상기 오디오 부분들을 동기화시키기 위해, 상기 대화형 다시점 모듈은 각각의 오디오 부분의 주파수 기반 오디오 스펙트로그램에 대한 상관 관계를 증가시키는 상기 복수의 미디어 항목 각각에 대한 시간 오프셋을 결정하고, 상기 시간 오프셋들은 상기 공통 참조 타임라인 상의 위치들을 나타내는 서버 컴퓨터 시스템.
삭제
제15항에 있어서, 상기 복수의 미디어 항목을 상기 대화형 다시점 플레이어 인터페이스에서 제시하기 위해, 상기 대화형 다시점 모듈은:
상기 복수의 미디어 항목 각각을 나타내는 아이콘을 표시하고 - 각각의 아이콘은 대응하는 상대적 지리적 위치에 기초한 위치에 표시됨 -;
상기 복수의 미디어 항목 중 제1 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 상기 제1 미디어 항목의 재생을 시작하고;
상기 공통 참조 타임라인 상의 제1 포인트에 대응하는 상기 제1 미디어 항목의 재생 동안의 시간에, 상기 복수의 미디어 항목 중 제2 미디어 항목을 나타내는 아이콘의 사용자 선택을 수신하고 상기 공통 참조 타임라인 상의 상기 제1 포인트에 대응하는 상기 제2 미디어 항목에서의 시간에 상기 제2 미디어 항목의 재생을 시작하는 서버 컴퓨터 시스템.