KR20240090122A - 3차원 장면과 미디어 컨텐츠 통합 - Google Patents

3차원 장면과 미디어 컨텐츠 통합 Download PDF

Info

Publication number
KR20240090122A
KR20240090122A KR1020237041054A KR20237041054A KR20240090122A KR 20240090122 A KR20240090122 A KR 20240090122A KR 1020237041054 A KR1020237041054 A KR 1020237041054A KR 20237041054 A KR20237041054 A KR 20237041054A KR 20240090122 A KR20240090122 A KR 20240090122A
Authority
KR
South Korea
Prior art keywords
location
scene
media content
user
generated
Prior art date
Application number
KR1020237041054A
Other languages
English (en)
Inventor
다니엘 조셉 필립
찰스 고란
Original Assignee
구글 엘엘씨
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20240090122A publication Critical patent/KR20240090122A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4524Management of client data or end-user data involving the geographical location of the client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Abstract

위치에 대한 몰입형 뷰를 제공하기 위해 미디어 컨텐츠와 3차원 장면을 통합하는 방법은 복수의 이미지에 기초하여 생성된 위치의 3차원 장면을 획득하는 단계와, 해당 위치와 시간적으로 연관된 미디어 컨텐츠를 수신하는 단계와, 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계와, 그리고 미디어 컨텐츠와 해당 위치의 시간적 연관성성에 기초하여 해당 위치의 상태를 나타내기 위해 해당 위치의 3D 장면과 통합된 미디어 컨텐츠의 적어도 일부를 갖는 해당 위치의 통합 3D 장면을 제공하는 단계를 포함한다.

Description

3차원 장면과 미디어 컨텐츠 통합
본 개시는 일반적으로 위치의 몰입형 뷰를 제공하는 것에 관한 것이다. 예를 들어, 본 개시는 다양한 조건 하에서 위치의 상태를 나타내기 위해 이전에 획득한 이미지를 미디어(예를 들어, 이미지, 사운드 등)와 통합함으로써 위치의 몰입형 뷰를 제공하는 방법 및 시스템에 관한 것이다.
사용자는 카메라나 카메라가 장착된 휴대폰(예를 들어, 스마트폰)을 사용하여 레스토랑이나 공원을 비롯하여 관심 지점의 이미지를 촬영한다. 관심 지점의 이미지는 공간을 가상으로 탐색하고 경험하는데 사용될 수 있지만, 그 이미지는 관심 지점의 상태에 대한 정확한 표현을 시청자에게 제공하지 못할 수도 있다. 또한, 이미지에 사람이나 역동적인 객체가 부족하여 관심 지점의 분위가나 느낌이 정확하지 않을 수 있다.
본 개시의 실시예의 양태 및 이점은 다음 설명에서 부분적으로 설명될 것이며, 설명으로부터 학습될 수 있거나 예시적인 실시예의 실시를 통해 학습될 수 있다.
하나 이상의 예시적 실시예에서, 위치에 대한 몰입형 뷰를 제공하기 위해 미디어 컨텐츠를 3차원 장면과 통합하는 컴퓨터 구현 방법이 제공된다. 예를 들어, 이 방법은 복수의 이미지에 기초하여 생성된 위치의 3차원 장면을 획득하는 단계와, 해당 위치와 시간적으로 연관된 미디어 컨텐츠를 수신하는 단계와, 해당 위치의 통합 3D 장면을 획득하기 위해 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계와, 그리고 미디어 컨텐츠와 해당 위치의 시간적 연관성에 기초하여 해당 위치의 상태를 나타내기 위해 해당 위치의 3D 장면과 통합된 미디어 컨텐츠의 적어도 일부를 갖는 해당 위치의 통합 3D 장면을 제공하는 단계를 포함한다.
일부 구현에서, 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠를 포함한다.
일부 구현에서, 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 또는 사용자-생성 오디오 컨텐츠 중 적어도 하나를 포함한다.
일부 구현에서, 사용자-생성 미디어 컨텐츠는 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지를 포함하고, 그리고 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계는 해당 위치의 이미지로부터 하나 이상의 실제 동적 객체를 추출하는 단계 및 하나 이상의 실제 동적 객체를 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정하는 단계를 포함한다.
일부 구현에서, 상기 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지는 제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제1 부분을 포함하는 해당 위치의 제1 이미지와, 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제2 부분을 포함하는 해당 위치의 제2 이미지를 포함한다. 해당 위치의 통합 3D 장면을 제공하는 단계는 해당 위치의 제1 3D 장면과 통합된 하나 이상의 실제 동적 객체의 제1 부분을 갖고 제1 시간과 연관된, 해당 위치의 제1 3D 장면을 제공하는 단계와, 그리고 해당 위치의 제2 3D 장면과 통합된 하나 이상의 실제 동적 객체의 제2 부분을 갖고 제2 시간과 연관된, 해당 위치의 제2 3D 장면을 제공하는 단계를 포함할 수 있다.
일부 구현에서, 사용자-생성 미디어 컨텐츠는 제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제1 오디오와 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제2 오디오를 포함하고, 그리고 해당 위치의 통합 3D 장면을 제공하는 단계는 해당 위치의 제1 3D 장면과 통합된 제1 오디오를 갖고 제1 시간과 연관된, 해당 위치의 제1 3D 장면을 제공하는 단계와, 그리고 해당 위치의 제2 3D 장면과 통합된 제2 오디오를 갖고 제2 시간과 연관된, 해당 위치의 제2 3D 장면을 제공하는 단계를 포함한다.
일부 구현에서, 미디어 컨텐츠는 기계-생성 미디어 컨텐츠를 포함한다.
일부 구현에서, 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 또는 기계-생성 오디오 컨텐츠 중 적어도 하나를 포함한다.
일부 구현에서, 기계-생성 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠에 기초하여 합성된다.
일부 구현에서, 사용자-생성 미디어 컨텐츠는 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지를 포함한다. 일부 구현에서, 방법은 이미지로부터 하나 이상의 실제 동적 객체를 추출하는 단계와, 하나 이상의 실제 동적 객체를 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현으로 변환하는 단계를 더 포함하고, 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계는 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현을 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정하는 단계를 포함한다.
일부 구현에서, 하나 이상의 실제 동적 객체는 하나 이상의 인간을 포함하고, 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현은 하나 이상의 인간의 대응하는 3D 디지털 아바타를 포함한다.
일부 구현에서, 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지는 제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제1 부분을 포함하는 해당 위치의 제1 이미지와 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제2 부분을 포함하는 해당 위치의 제2 이미지를 포함한다. 해당 위치의 통합 3D 장면을 제공하는 단계는 해당 위치의 제1 3D 장면과 통합된 하나 이상의 실제 동적 개체의 제1 부분에 대응하는 제1 그래픽 표현을 갖고 제1 시간과 연관된, 해당 위치의 제1 3D 장면을 제공하는 단계와, 그리고 해당 위치의 제2 3D 장면과 통합된 하나 이상의 실제 동적 개체의 제2 부분에 대응하는 제2 그래픽 표현을 갖고 제2 시간과 연관된, 해당 위치의 제2 3D 장면을 제공하는 단계를 포함할 수 있다.
일부 구현에서, 사용자-생성 미디어 컨텐츠는 제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제1 오디오 및 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제2 오디오를 포함한다. 일부 구현에서, 방법은 제1 오디오에 기초하여 제1 합성 오디오 녹음을 합성하는 단계, 및 제2 오디오에 기초하여 제2 합성 오디오 녹음을 합성하는 단계를 더 포함한다. 해당 위치의 3D 장면과 통합된 미디어 컨텐츠의 적어도 일부를 갖는 해당 위치의 3D 장면을 제공하는 단계는 해당 위치의 제1 3D 장면과 통합된 제1 합성 오디오 녹음을 갖고 제1 시간과 연관된, 해당 위치의 제1 3D 장면을 제공하는 단계와, 그리고 해당 위치의 제2 3D 장면과 통합된 제2 합성 오디오 녹음을 갖고 제2 시간과 연관된, 해당 위치의 제2 3D 장면을 제공하는 단계를 포함한다.
일부 구현에서, 방법은 해당 위치에 배치된 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 기계-생성 미디어 컨텐츠를 합성하는 단계를 더 포함한다.
일부 구현에서, 해당 위치에 배치된 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 기계-생성 미디어 컨텐츠를 합성하는 단계는 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여, 제1 시간에 해당 위치에 있는 사람의 수를 결정하는 단계와, 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여, 제1 시간에 해당 위치에 있는 사람들에 관한 특징을 결정하는 단계와, 그리고 제1 시간에 해당 위치의 상태를 나타내기 위해, 제1 시간에 해당 위치에 있는 사람들의 특징 및 사람들의 수에 따라 래당 위치에 있는 사람들의 그래픽 표현을 생성하는 단계를 포함하며, 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계는 사람들의 그래픽 표현을 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정하는 단계를 포함한다.
하나 이상의 예시적인 실시예에서, 컴퓨팅 디바이스(예를 들어, 랩탑, 테이블, 스마트폰 등)가 제공된다. 컴퓨팅 디바이스는 입력디바이스와, 명령들을 저장하기 위한 적어도 하나의 메모리와, 그리고 동작들을 수행하기 위해 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함할수 있다. 동작들은 제1 시간에 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제1 입력을 입력 디바이스를 통해 수신하는 동작과; 디스플레이 디바이스에 프리젠테이션하기 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3차원 장면과, 그리고 해당 위치의 3D 장면과 통합된 제1 미디어 컨텐츠 - 제1 미디어 컨텐츠는 제1시간에 해당 위치의 제1 상태를 나타냄 - 를 포함하는 해당 위치의 제1 몰입형 뷰를 제공하는 동작을 포함할 수 있다. 동작들은 제2 시간에 해당 위치의 제2 상태를 나타내는 해당 위치의 제2 몰입형 뷰를 요청하는 제2 입력을 입력 디바이스를 통해 수신하는 동작과; 디스플레이 디바이스에 프리젠테이션하기 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면과, 그리고 해당 위치의 3D 장면과 통합된 제2 미디어 컨텐츠 - 제2 미디어 컨텐츠는 제2 시간에 해당 위치의 제2 상태를 나타냄 - 를 포함하는 해당 위치의 제1 몰입형 뷰를 제공하는 동작을 더 포함할 수 있다.
일부 구현에서, 제1 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠 또는 기계-생성 미디어 컨텐츠 중 적어도 하나를 포함하고, 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 또는 사용자-생성 오디오 컨텐츠 중 적어도 하나를 포함하고, 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 또는 기계-생성 오디오 컨텐츠 중 적어도 하나를 포함한다.
일부 구현에서, 동작들은 입력 디바이스를 통해 제3 입력을 수신하고, 컴퓨팅 디바이스의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠를 제공하는 동작 - 사용자-생성 미디어 컨텐츠는 제1시간과 일시적으로 연관되고 - 과; 사용자-생성 미디어 컨텐츠를, 제1 시간에 해당 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 제공하도록 구성된 서버 컴퓨팅 시스템 또는 데이터베이스 중 적어도 하나로 전송하는 동작과; 제1 시간에 해당 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제4 입력을 입력 디바이스를 통해 수신하는 동작과; 디스플레이 디바이스에 프리젠테이션하기 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면, 및 해당 위치의 3D 장면과 통합된 업데이트된 제1 미디어 컨텐츠 - 업데이트된 제1 미디어 컨텐츠는 제1 시간에 해당 위치의 제2 상태를 나타내고 컴퓨팅 디바이스의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠의 적어도 일부를 포함하고 - 를 포함하는 해당 위치의 제1 몰입형 뷰를 제공하는 동작을 더 포함한다.
하나 이상의 예시적인 실시예에서, 서버 시스템(예를 들어, 서버)이 제공된다. 서버 시스템은 명령들을 저장하기 위한 적어도 하나의 메모리; 및 동작들을 수행하기 위해 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 동작들은 복수의 이미지에 기초하여 생성된 위치의 3차원 장면을 획득하는 동작과, 해당 위치와 일시적으로 연관된 미디어 컨텐츠를 수신하는 동작과, 해당 위치의 통합 3D 장면을 제공하기 위해 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 동작과, 그리고 미디어 컨텐츠와 해당 위치의 시간적 연관성에 기초하여 해당 위치의 상태를 나타내기 위해 해당 위치의 통합 3D 장면을 제공하는 동작을 포함한다.
일부 구현에서, 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠 또는 기계-생성 미디어 컨텐츠 중 적어도 하나를 포함하고, 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 또는 사용자-생성 오디오 컨텐츠 중 적어도 하나를 포함하고, 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 또는 기계-생성 오디오 컨텐츠 중 적어도 하나를 포함한다.
하나 이상의 예시적인 실시예에서, 컴퓨팅 시스템의 하나 이상의 프로세서에 의해 실행 가능한 명령들을 저장하는 컴퓨터 판독 가능 매체(예를 들어, 비-일시적 컴퓨터 판독 가능 매체)가 제공된다. 일부 구현에서, 컴퓨터 판독 가능 매체는 하나 이상의 프로세서가 본 문서에 설명된 임의의 방법과 연관된 하나 이상의 동작(예를 들어, 서버 컴퓨팅 시스템의 동작들 및/또는 컴퓨팅 디바이스의 동작들)을 수행하게 하는 명령들을 포함할 수 있는 명령들을 저장한다. 컴퓨터 판독 가능 매체는 본 명세서에 기술된 바와 같이, 서버 컴퓨팅 시스템 및 컴퓨팅 디바이스의 다른 양태와 대응하는 동작 방법을 실행하기 위한 추가적인 명령들을 저장할 수 있다.
본 발명의 다양한 실시예의 이들 및 기타 특징, 양태 및 장점은 다음의 설명, 도면 및 첨부된 청구범위를 참조하여 더 잘 이해될 것이다. 본 명세서에 포함되고 본 명세서의 일부를 구성하는 첨부 도면은 본 개시의 예시적인 실시예를 예시하고, 설명과 함께 관련 원리를 설명하는 역할을 한다.
당업자를 대상으로 한 예시적인 실시예에 대한 상세한 논의는 첨부된 도면을 참조하여 명세서에 설명되어 있다.
도 1은 본 개시의 하나 이상의 예시적인 실시예에 따른 예시적인 시스템을 도시한다.
도 2는 본 발명의 하나 이상의 예시적인 실시예에 따른 컴퓨팅 디바이스 및 서버 컴퓨팅 시스템의 예시적인 블록도를 도시한다.
도 3은 본 개시의 하나 이상의 예시적인 실시예에 따른 예시적이고 비제한적인 컴퓨터 구현 방법의 흐름도를 도시한다.
도 4는 본 개시의 하나 이상의 예시적인 실시예에 따른 매핑 애플리케이션의 사용자 인터페이스 화면을 도시한다.
도 5a 및 도 5b는 본 개시의 하나 이상의 예시적인 실시예에 따른 위치의 비디오 플라이스루로부터의 예시적인 몰입형 뷰를 도시한다.
도 6은 본 개시의 하나 이상의 예시적인 실시예에 따른 위치의 통합 3D 장면을 포함하는 위치의 예시적인 몰입형 뷰를 도시한다.
도 7은 본 개시의 하나 이상의 예시적인 실시예에 따른 사용자가 사용자-생성 컨텐츠를 업로드할 수 있게 하는 사용자 인터페이스 화면을 갖는 예시적인 컴퓨팅 디바이스를 도시한다.
도 8a-8b는 본 개시의 하나 이상의 예시적인 실시예에 따른 사용자가 특정 시간과 연관된 위치의 몰입형 뷰를 요청할 수 있는 예시적인 사용자 인터페이스 화면을 도시한다.
도 9는 본 개시의 하나 이상의 예시적인 실시예에 따른 예시적이고 비제한적인 컴퓨터 구현 방법의 흐름도를 도시한다.
이제 하나 이상의 예가 도면에 도시된 본 발명의 실시예를 참조할 것이며, 여기서 유사한 참조 문자는 유사한 요소를 나타낸다. 각각의 예는 본 개시의 설명을 위해 제공되며 개시를 제한하려는 의도는 아니다. 실제로, 본 개시의 범위 또는 사상을 벗어나지 않고 개시에 대한 다양한 수정 및 변경이 이루어질 수 있음이 당업자에게 자명할 것이다. 예를 들어, 하나의 실시예의 일부로 도시되거나 설명된 특징은 또 다른 실시예와 함께 사용되어 또 다른 실시예를 생성할 수 있다. 따라서, 본 개시는 첨부된 청구범위 및 그 등가물의 범위 내에 있는 그러한 수정 및 변형을 포괄하도록 의도된다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위해 사용된 것으로, 해당 개시를 제한 및/또는 한정하려는 의도가 아니다. 단수형 "a", "an" 및 "the"는 문맥에서 달리 명시하지 않는 한 복수형도 포함하도록 의도되었다. 본 개시에서, "포함하는", "갖는", "포함하는" 등과 같은 용어는 특징, 번호, 단계, 동작, 요소, 구성 요소 또는 이들의 조합을 지정하는데 사용되지만, 하나 이상의 특징, 요소, 단계, 동작, 요소, 구성 요소 또는 이들의 조합의 존재 또는 추가를 배제하지 않는다.
본 명세서에서는 제1, 제2, 제3 등의 용어가 다양한 요소를 설명하기 위해 사용될 수 있지만, 해당 요소들은 이러한 용어에 의해 제한되지 않는다는 것이 이해될 것이다. 대신, 이러한 용어는 한 요소를 다른 요소와 구별하는데 사용된다. 예를 들어, 본 문서의 권리 범위를 벗어나지 않고, 제1 요소는 제2 요소로 명명될 수 있고, 제2 요소는 제1 요소로 명명될 수도 있다.
및/또는'이라는 용어는 복수의 관련 연결 항목의 조합 또는 복수의 관련 열거 항목 중의 임의의 항목을 포함한다. 예를 들어, "A 및/또는 B"라는 표현이나 문구의 범위에는 "A" 항목, "B" 항목 및 "A 및 B" 항목의 조합이 포함된다.
또한, “A 또는 B 중 적어도 하나”라는 표현이나 문구의 범위는 (1) A 중 적어도 하나, (2) B 중 적어도 하나, 및 (3) A 중 적어도 하나와 B 중 적어도 하나를 모두 포함하도록 의도된다. 마찬가지로, “A, B, C 중 적어도 하나”라는 표현이나 문구의 범위는 (1) A 중 적어도 하나, (2) B 중 적어도 하나, (3) C 중 적어도 하나, (4) A 중 적어도 하나와 B 중 적어도 하나, (5) A 중 적어도 하나와 C 중 적어도 하나, (6) B 중 적어도 하나와 C 중 적어도 하나, 및 (7) A 중 적어도 하나, B 중 적어도 하나, 및 C 중 적어도 하나를 모두 포함하도록 의도된다.
본 개시의 예는 미디어 컨텐츠와 위치의 시간적 연관성에 기초하여 위치의 상태를 표현하기 위해 해당 위치의 3차원(3D) 장면과 미디어 컨텐츠를 통합(예를 들어, 임베딩)하기 위한 컴퓨터로 구현되는 방법에 관한 것이다. 예를 들어, 특정 조건(예를 들어, 특정 시간, 특정 기상 조건 등) 하의 해당 위치의 상태에는 해당 위치에 있는 사람들의 수(예를 들어, 혼잡함, 비어 있음 등), 일반적으로 분위기 상태(예를 들어, 활기찬 및 기운찬, 차분한 등), 예상 복장(예를 들어, 정장, 최신 유행, 캐주얼, 스포츠 복장 등), 소음 수준(예를 들어, 평화로운, 소란스러운 등)이 포함될 수 있다.
예시적인 실시예에 따르면 내비게이션 및 매핑 시스템은 랜드마크, 레스토랑 등을 포함하는 관심 지점 또는 영역의 다차원 뷰를 통해 위치를 탐색하는 방법을 컴퓨팅 디바이스의 사용자에게 제공하는 몰입형(실감형) 뷰 애플리케이션을 포함할 수 있다. 몰입형 뷰 애플리케이션은 내비게이션 애플리케이션 또는 별도의 매핑 애플리케이션의 일부일 수도 있거나 독립형 애플리케이션일 수 있다. 몰입형 뷰에는 해당 위치의 원본 또는 기존 3D 장면과 미디어 컨텐츠를 통합함으로써 해당 위치의 통합(된) 3D 장면이 형성되는 해당 위치의 통합 3D 장면이 포함될 수 있다. 해당 위치의 3D 장면과 통합된 미디어 컨텐츠는 그 통합 3D 장면이 특정 시간에 또는 다른 특정 조건 하에서 해당 위치의 상태의 정확한 표현을 제공하도록 해당 위치와 일시적으로 연관될 수 있다. 부가적으로, 특정 시간의 해당 위치에 대한 분위기나 느낌도 더욱 정확하게 표현할 수 있다. 일부 구현에서, 미디어 컨텐츠는 기상 조건, 조명 조건 등을 포함한 환경적 양태를 비롯하여 다른 양태에서 위치와 연관될 수 있다.
본 개시의 예에 따르면, 서버 컴퓨팅 시스템은 컴퓨팅 디바이스의 디스플레이 디바이스에 프리젠테이션하기 위해 위치의 통합 3D 장면을 컴퓨팅 디바이스에 제공할 수 있다. 위치의 통합 3D 장면은 동적으로 제공(예를 들어, 컴퓨팅 디바이스로부터의 요청에 응답하여 생성 및 전송)될 수 있거나, 위치의 통합 3D 장면은 데이터베이스에서 해당 위치의 통합 3D 장면을 검색함으로써 제공될 수 있다. 해당 위치의 통합 3D 장면은 요청 조건에 따라 데이터베이스에서 검색될 수 있다. 예를 들어, 사용자가 금요일 오후 6시에 레스토랑의 몰입형 뷰를 요청하는 경우, 서버 컴퓨팅 시스템은 사용자가 입력한 조건(예를 들어, 특정 시간에 레스토랑의 몰입형 뷰)과 실질적으로 매칭하는 해당 위치의 통합 3D 장면을 데이터베이스로부터 검색할 수 있다.
해당 위치의 통합 3D 장면은 사용자-생성 미디어 컨텐츠, 기계-생성 미디어 컨텐츠, 또는 이들의 조합을 포함할 수 있는 미디어 컨텐츠를 통합함으로써 서버 컴퓨팅 시스템에 의해 생성될 수 있다. 예를 들어, 사용자-생성 미디어 컨텐츠에는 하나 이상의 실제 동적 객체(예를 들어, 사람, 동물, 차량 등)를 포함하는 위치의 이미지가 포함될 수 있다. 서버 컴퓨팅 시스템은 해당 위치의 이미지로부터 하나 이상의 실제 동적 객체를 추출하고 하나 이상의 실제 동적 객체를 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정함으로써 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 서버 컴퓨팅 시스템은 이미지 분할을 포함하는 공지된 이미지 분석 기술을 통해 동적 객체들을 추출할 수 있고, 3D 장면 내의 위치들을 식별하여 실제 동적 객체들을 적절하게 배치할 수 있다.
일부 구현에서, 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지는 제1 시간에 하나 이상의 사용자(예를 들어, 하나 이상의 컴퓨팅 디바이스)에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제1 부분을 포함하는 해당 위치의 제1 이미지와, 제2 시간에 하나 이상의 사용자(예를 들어, 하나 이상의 컴퓨팅 디바이스)에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제2 부분을 포함하는 해당 위치의 제2 이미지를 포함한다. 즉, 사용자-생성 미디어 컨텐츠는 서로 다른 시간적 연관성을 가진 이미지(예를 들어, 아침, 한낮, 밤 등에 캡처된 이미지)를 포함할 수 있다.
서버 컴퓨팅 시스템은 해당 위치의 제1 3D 장면과 통합된 하나 이상의 실제 동적 객체의 제1 부분을 갖고 제1 시간과 연관된, 해당 위치의 제1 3D 장면을 생성 및 제공하고, 해당 위치의 제2 3D 장면과 통합된 하나 이상의 실제 동적 객체의 제2 부분을 갖고 제2 시간과 연관된, 해당 위치의 제2 3D 장면을 생성 및 제공하도록 구성될 수 있다.
일부 구현에서, 제1시간에 사용자-생성 미디어 컨텐츠는 하나 이상의 사용자(예를 들어, 하나 이상의 컴퓨팅 디바이스)에 의해 해당 위치에서 캡처된 제1 오디오, 및 제2 시간에 하나 이상의 사용자(예를 들어, 하나 이상의 컴퓨팅 디바이스)에 의해 해당 위치에서 캡처된 제2 오디오를 포함한다. 즉, 사용자-생성 미디어 컨텐츠는 서로 다른 시간적 연관성을 갖는 오디오 컨텐츠(예를 들어, 아침, 한낮, 밤 등에 캡처되거나 녹음된 오디오)를 포함할 수 있다. 예를 들어, 사용자-생성 미디어 컨텐츠에는 다양한 환경 연관성을 갖는 오디오 컨텐츠(예를 들어, 맑은 조건, 비가 오는 조건, 바람이 부는 조건 등에서 캡처되거나 녹음된 오디오)가 포함될 수 있다.
서버 컴퓨팅 시스템은 해당 위치의 제1 3D 장면과 통합된 제1 오디오를 갖고 제1 시간과 연관된 해당 위치의 제1 3D 장면을 생성 및 제공하고, 해당 위치의 제2 3D 장면과 통합된 제2 오디오를 갖고 제2 시간과 연관된 해당 위치의 제2 3D 장면을 생성 및 제공하도록 구성될 수 있다.
일부 구현에서, 해당 위치의 3D 장면과 통합된 미디어 컨텐츠는 기계-생성 미디어 컨텐츠를 포함할 수 있다. 예를 들어, 사용자-생성 미디어 컨텐츠는 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지를 포함할 수 있다. 서버 컴퓨팅 시스템은 이미지로부터 하나 이상의 실제 동적 객체를 추출하고 하나 이상의 실제 동적 객체를 그 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현으로(즉, 기계-생성 미디어 컨텐츠로) 변환하도록 구성될 수 있다. 이미지로부터 실제 동적 객체를 추출하는 것은 빠르고 효율적인 방식으로 실제 동적 객체의 대응하는 그래픽 표현을 식별하기 위해 실제 동적 객체의 객체 유형 또는 특성을 식별하는 것을 포함할 수 있다. 다른 구현에서, 서버 컴퓨팅 시스템은 먼저 이미지를 대응하는 그래픽 표현으로 변환하고 하나 이상의 실제 동적 객체의 그래픽 표현을 추출하도록 구성될 수 있다. 서버 컴퓨팅 시스템은 하나 이상의 실제 동적 객체의 그래픽 표현을 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정함으로써 하나 이상의 실제 동적 객체의 그래픽 표현을 해당 위치의 3D 장면과 통합하도록 구성될 수 있다. 실제 동적 객체의 그래픽 표현을 사용함으로써, 적절하고 정확한 그래픽 표현을 생성하기 위해 시스템이 실제 동적 객체(예를 들어, 사람)의 유형이나 특성만 식별하면 되므로 3D 장면과의 통합이 더 빠르고 효율적으로 달성될 수 있다. 따라서 이러한 그래픽 표현은 해당 위치의 상태에 대한 정확한 예측을 제공한다.
일부 구현에서, 하나 이상의 실제 동적 객체는 하나 이상의 인간(예를 들어 객체 유형이 "인간"임)을 포함하고, 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현은 하나 이상의 인간의 대응하는 3D 디지털 아바타를 포함한다.
일부 구현에서, 사용자-생성 미디어 컨텐츠는 제1 시간에 하나 이상의 사용자(예를 들어, 하나 이상의 컴퓨팅 디바이스)에 의해 해당 위치에서 캡처된 제1 오디오 및 제2 시간에 하나 이상의 사용자(예를 들어, 하나 이상의 컴퓨팅 디바이스)에 의해 해당 위치에서 캡처된 제2 오디오를 포함한다. 서버 컴퓨팅 시스템은 제1 오디오 및/또는 제2 오디오를 합성 오디오(즉, 기계-생성 미디어 컨텐츠)로 변환하도록 구성될 수 있다. 오디오를 합성 오디오로 변환하는 것은 대응하는 합성 오디오를 빠르고 효율적인 방식으로 식별하기 위해 오디오 유형 또는 오디오의 특성을 식별하는 것을 포함할 수 있다. 따라서 이러한 합성 오디오는 위치 상태에 대한 정확한 예측을 제공한다. 예를 들어, 서버 컴퓨팅 시스템은 제1 오디오에 기초하여 제1 합성 오디오 녹음을 합성하고, 제2 오디오에 기초하여 제2 합성 오디오 녹음을 합성하도록 구성될 수 있다. 서버 컴퓨팅 시스템은 해당 위치의 제1 3D 장면과 통합된 제1 합성 오디오 녹음을 갖고 제1 시간과 연관된 해당 위치의 제1 3D 장면을 생성 및 제공하고, 해당 위치의 제2 3D 장면과 통합된 제2 합성 오디오 녹음을 갖고 제2 시간과 연관된 해당 위치의 제2 3D 장면을 생성 및 제공하도록 구성될 수 있다. 캡처된 오디오 자체 대신에 합성된 오디오를 사용함으로써, 시스템이 실제 오디오의 적절하고 정확한 합성 오디오 표현을 생성하기 위해 캡처된 오디오의 유형이나 특성(예를 들어, 장르)만 식별하면 되므로 3D 장면과의 통합이 더 빠르게 달성될 수 있다.
일부 구현에서, 서버 컴퓨팅 시스템은 3D 장면과 연관된 위치에 배치된 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 기계-생성 미디어 컨텐츠를 합성하도록 구성될 수 있다. 예를 들어, 서버 컴퓨팅 시스템은 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 제1 시간에 해당 위치에 있는 사람들의 수를 결정하고, 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 제1 시간에 해당 위치에 있는 사람들에 관한 특징을 결정하고, 그리고 사람들의 수에 따라 그리고 제1 시간에 해당 위치에 있는 사람들에 관한 특징에 따라 해당 위치에 있는 사람들의 그래픽 표현을 생성하여 제1 시간에 해당 위치의 상태에 대한 정학한 표현을 나타내고, 이어서 사람의 그래픽 표현을 배치하기 위해 3D 장면 내에서 하나 이상의 위치를 결정함으로써 해당 위치에 있는 사람의 그래픽 표현을 해당 위치의 3D 장면과 통합하도록 구성된다. 예를 들어, 센서 데이터는 레스토랑 내에 20명의 사람이 있음을 나타낼 수 있고 이미지는 레스토랑에서 정장을 입고 있음을 나타낼 수 있거나 레스토랑과 관련된 웹 페이지로부터 획득된 외부 컨텐츠는 레스토랑에서 정장을 입어야 함을 나타낼 수 있다. 따라서, 서버 컴퓨팅 시스템은 제1 시간에 해당 위치의 상태를 정확하게 표현하기 위해 사람 수(대략 20명)에 따라 그리고 제1 시간에 해당 장소에 있는 사람들에 관해 알려지거나 예측된 특징(예를 들어, 정장 차림)에 따라 레스토랑에 있는 사람들의 그래픽 표현을 생성하도록 구성될 수 있다. 예를 들어, 이어서 서버 컴퓨팅 시스템은 사람들의 그래픽 표현을 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정함으로써(예를 들어, 테이블 바 등) 레스토랑에 있는 사람들의 그래픽 표현을 레스토랑의 3D 장면과 통합할 수 있다.
본 개시의 하나 이상의 기술적 이점은 사용자가 특정 상황 또는 조건 하에서 위치 상태의 정확한 표현을 쉽고 더 정확하게 얻을 수 있게 하는 것을 포함한다. 예를 들어, 사용자는 하루 특정 시간, 시간대, 연중 시간에 레스토랑이나 공원을 포함한 실내외 장소의 정확한 상태를 쉽고 더 정확하게 얻을 수 있다. 예를 들어, 사용자는 특정 환경 조건(맑을 때, 비가 올 때, 바람이 불 때 등) 하에서 식당이나 공원을 포함한 실내외 장소의 상태에 대한 정확한 표현을 보다 쉽고 정확하게 얻을 수 있다. 위의 방법들로 인해, 사용자는 직접 해당 위치로 이동할 필요 없이 디스플레이를 통해 가상으로 해당 위치의 상태의 정확한 표현을 제공받는다. 또한, 사용자는 사용자가 정의한 대로 특정 시간이나 특정 조건 하에서 위치의 상태에 대한 정확한 예측을 제공받을 수도 있다.
본 개시의 하나 이상의 기술적 이점은 또한 위치와 관련된 새로운(fresh) 미디어 컨텐츠(예를 들어, 사용자-생성 미디어 컨텐츠 및/또는 기계-생성 미디어 컨텐츠)를 해당 위치의 기존 3D 장면과 통합하는 것을 포함한다. 예를 들어, 미디어 컨텐츠는 해당 위치의 3D 장면을 형성하는 3D 모델을 형성하는데 사용되는 이미지에 후속하여 획득될 수 있다. 따라서, 통합 3D 장면은 해당 위치의 정확하고 업데이트된 상태를 나타낸다. 게다가, 다양한 조건에 따른 위치를 정확하게 표현하기 위해 다양한 통합 3D 장면이 생성될 수 있다. 예를 들어, 서버 컴퓨팅 시스템은 몰입형 뷰에 대한 사용자의 요청과 매칭(일치)하는 미디어 컨텐츠와 연관된 정보에 기초하여 통합할 미디어 컨텐츠를 선택하도록 구성된다. 예를 들어, 고객이 거의 없는 아침에 촬영한 레스토랑의 내부 이미지는 저녁 식사 때 레스토랑의 몰입형 뷰를 위해 생성된 통합 3D 장면에 통합되지 않는다. 따라서, 미디어 컨텐츠와 연관된 메타데이터 및 기타 설명 컨텐츠를 사용하면 해당 위치의 통합 3D 장면을 정확한 방식으로 형성할 수 있다. 마찬가지로, 위치의 상태를 정확한 방식으로 제공하기 위해, 해당 위치의 통합 3D 장면 내의 적절한 위치들에 미디어 컨텐츠로부터 추출된 동적 객체들을 배치하거나 위치시키기 위해 이미지 분할 기술 및 기계 학습 자원이 구현될 수 있다.
따라서, 본 개시의 양태에 따르면, 자원 절약 및 몰입형 뷰 정확도 향상과 같은 기술적 이점을 얻을 수 있다.
이제 도면을 참조하면, 도 1은 본 개시의 하나 이상의 예시적인 실시예에 따른 예시적인 시스템이다. 도 1은 네트워크(400)를 통해 서로 통신할 수 있는 컴퓨팅 디바이스(100), 외부 컴퓨팅 디바이스(200), 서버 컴퓨팅 시스템(300) 및 외부 컨텐츠(500)를 포함하는 시스템의 예를 도시한다. 예를 들어, 컴퓨팅 디바이스(100)와 외부 컴퓨팅 디바이스(200)는 개인용 컴퓨터, 스마트폰, 태블릿 컴퓨터, GPS 디바이스, 스마트워치 중 하나를 포함할 수 있다. 네트워크(400)는 유선 또는 무선 네트워크, 또는 이들의 조합을 포함하는 임의의 유형의 통신 네트워크를 포함할 수 있다. 네트워크(400)는 근거리 통신망(LAN), 무선 근거리 통신망(WLAN), 광역 네트워크(WAN), 개인 영역 네트워크(PAN), 가상 사설 통신망(VPN)) 등을 포함할 수 있다. 예를 들어, 예시적인 실시예의 요소들 간 무선 통신은 무선 LAN, Wi-Fi, 블루투스, 지그비, Wi-Fi 다이렉트(WFD), 초광대역(UWB), IrDA(Infrared Data Association), 블루투스 저 에너지(BLE), NFC, 무선 주파수(RF) 신호 등을 통해 수행될 수 있다. 예를 들어, 예시적인 실시예의 요소들 간의 유선 통신은 페어 케이블, 동축 케이블, 광섬유 케이블, 이더넷 케이블 등을 통해 수행될 수 있다. 네트워크를 통한 통신은 다양한 통신 프로토콜(예를 들어, TCP/IP, HTTP, SMTP, FTP), 인코딩 또는 형식(예를 들어, HTML, XML) 및/또는 보호 체계(예를 들어, VPN, 보안 HTTP, SSL)를 사용할 수 있다.
아래에서 더 자세히 설명되는 바와 같이, 일부 구현에서 컴퓨팅 디바이스(100) 및/또는 서버 컴퓨팅 시스템(300)은 컴퓨팅 디바이스(100)의 사용자에게 위치의 몰입형 뷰를 제공할 수 있는 내비게이션 및 매핑 시스템의 일부를 형성할 수 있다.
일부 예시적인 실시예에서, 서버 컴퓨팅 시스템(300)은 본 명세서에 개시된 내비게이션 및 매핑 시스템의 다양한 동작 및 양태를 구현하기 위해, 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390) 중 하나 이상으로부터 데이터를 획득할 수 있다. 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390)는 서버 컴퓨팅 시스템(300)과 통합적으로(예를 들어, 서버 컴퓨팅 시스템(300)의 하나 이상의 메모리 디바이스(320)의 일부로서) 제공되거나 별도로(예를 들어, 원격으로) 제공될 수 있다. 또한, 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390)는 단일 데이터 저장소(데이터베이스)로 결합될 수 있고, 복수의 개별 데이터 저장소일 수 있다. 하나의 데이터 저장소(예를 들어, POI 데이터 저장소(370))에 저장된 데이터는 다른 데이터 저장소(예를 들어, 내비게이션 데이터 저장소(380))에 저장된 일부 데이터와 겹칠 수 있다. 일부 구현에서, 하나의 데이터 저장소(예를 들어, 기계-생성 컨텐츠 데이터 저장소(360))는 다른 데이터 저장소(예를 들어, 사용자-생성 컨텐츠 데이터 저장소(350))에 저장된 데이터를 참조할 수 있다.
사용자-생성 컨텐츠 데이터 저장소(350)는 예를 들어 컴퓨팅 디바이스(100), 외부 컴퓨팅 디바이스(200) 또는 일부 다른 컴퓨팅 디바이스를 통해 사용자에 의해 캡처된 미디어 컨텐츠를 저장할 수 있다. 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 및/또는 사용자-생성 오디오 컨텐츠를 포함할 수 있다. 예를 들어, 미디어 컨텐츠는 컴퓨팅 디바이스를 작동하는 사람에 의해 캡처될 수 있거나, 예를 들어 위치를 모니터링하는 컴퓨팅 시스템(예를 들어 보안 시스템, 감시 시스템 등)에 의해 간접적으로 캡처될 수 있다.
예를 들어, 미디어 컨텐츠는 컴퓨팅 디바이스의 카메라(예를 들어, 이미지 캡처기(182))에 의해 캡처될 수 있으며, 레스토랑, 랜드마크, 회사, 학교 등을 포함하는 위치의 이미지를 포함할 수 있다. 이미지는 이미지와 연관된 위치의 3D 장면에 이미지(또는 이미지의 일부)를 통합하는데 유용한 다양한 정보(예를 들어, 메타데이터, 시맨틱 데이터 등)를 포함할 수 있다. 예를 들어, 이미지에는 이미지가 촬영된 날짜, 이미지가 촬영된 시간, 이미지가 촬영된 위치를 나타내는 위치 정보(예를 들어, GPS 위치) 등이 포함될 수 있다. 예를 들어, 설명형 메타데이터는 이미지와 함께 제공될 수 있으며 이미지와 관련된 키워드, 이미지의 제목 또는 이름, 이미지가 캡처된 시간의 환경 정보(예를 들어, 휘도 레벨을 포함하는 조명 조건, 데시벨 레벨을 포함하는 소음 조건, 기상 조건(예를 들어, 온도, 바람, 강수량, 흐림, 습도)을 포함하는 날씨 정보 등)를 포함할 수 있다. 환경 정보는 이미지를 캡처하는데 사용된 컴퓨팅 디바이스의 센서들로부터 또는 다른 컴퓨팅 디바이스로부터 획득될 수 있다.
예를 들어, 미디어 컨텐츠는 사용자 컴퓨팅 디바이스의 마이크로폰(예를 들어, 사운드 캡처기(184))에 의해 캡처될 수 있으며 레스토랑, 랜드마크, 회사, 학교 등을 포함하는 위치와 연관된 오디오를 포함할 수 있다. 오디오 컨텐츠는 오디오 컨텐츠(또는 오디오의 일부)를 그 오디오 컨텐츠와 연관된 위치의 3D 장면과 통합하는데 유용한 다양한 정보(예를 들어, 메타데이터, 시맨틱 데이터 등)를 포함할 수 있다. 예를 들어, 오디오 컨텐츠는 오디오가 캡쳐된 날짜, 오디오가 캡쳐된 시간, 오디오가 캡쳐된 위치를 나타내는 위치 정보(예를 들어, GPS 위치) 등을 포함하는 정보를 포함할 수 있다. 예를 들어, 설명형 메타데이터는 오디오와 함께 제공될 수 있으며 오디오와 관련된 키워드, 오디오의 제목 또는 이름, 오디오가 캡처된 당시의 환경 정보(예를 들어, 휘도 레벨을 포함하는 조명 조건, 데시벨 레벨을 포함하는 소음 조건, 기상 조건(예를 들어, 기온, 바람, 강수량, 흐림, 습도 등)을 포함하는 기상 정보를 포함한다. 환경 정보는 오디오를 캡처하는데 사용되는 컴퓨팅 디바이스의 센서로부터 또는 다른 컴퓨팅 디바이스로부터 획득될 수 있다.
기계-생성 컨텐츠 데이터 저장소(360)는 예를 들어 서버 컴퓨팅 시스템(300)(예를 들어, 기계-생성 컨텐츠 생성기(340)) 또는 일부 다른 컴퓨팅 디바이스에 의해 생성될 수 있는 기계-생성 미디어 컨텐츠를 저장할 수 있다. 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 및/또는 기계-생성 오디오 컨텐츠를 포함할 수 있다. 예를 들어, 기계-생성 컨텐츠 데이터 저장소(360)에 저장된 기계-생성 컨텐츠는 컴퓨팅 디바이스의 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠에 기초하여 및/또는 서버 컴퓨팅 시스템(300) 또는 일부 다른 컴퓨팅 디바이스의 기계-생성 컨텐츠 생성기(340)에 의해 생성된 합성 미디어 컨텐츠에 기초하여 생성될 수 있다.
일부 구현에서, 기계-생성 컨텐츠 데이터 저장소(360)에 저장된 기계-생성 컨텐츠는 미디어 컨텐츠를 익명화하기 위해 사용자-생성 미디어 컨텐츠를 일반 형식으로 변환(예를 들어, 특정 위치에 있는 사람의 실제 이미지를 해당 사람을 나타내는 2차원 또는 3차원 디지털 아바타로 변환함으로써) 기계-생성 컨텐츠 생성기(340)에 의해 생성될 수 있다.
일부 구현에서 기계-생성 컨텐츠 데이터 저장소(360)에 저장된 기계-생성 컨텐츠는 특정 위치에 배치된 하나 이상의 센서(외부 컨텐츠(500)의 일부를 형성할 수 있음)에 의해 획득된 센서 데이터에 기초하여 기계-생성 컨텐츠 생성기(340)에 의해 생성될 수 있다. 예를 들어, 하나 이상의 센서에 의해 획득된 센서 데이터는 (예를 들어, 해당 위치에서 검출된 스마트폰 또는 기타 컴퓨팅 디바이스의 수에 기초하여) 해당 위치에 얼마나 많은 사람이 있는지를 나타낼 수 있다. 예를 들어, 하나 이상의 센서에 의해 획득된 센서 데이터는 해당 위치에 있는 사람들에 관한 다양한 특징(예를 들어, 카메라에 의해 캡처된 이미지에 기초한 의상, 얼굴 표정 등)을 나타낼 수 있다. 예를 들어, 이미지 합성기(342)는 해당 위치의 상태를 정확하게 나타내기 위해 사람 수에 따라 그리고 해당 위치에 있는 사람들에 대한 특징에 따라 해당 위치에 있는 사람들의 그래픽 표현을 생성할 수 있다. 이전에 언급한 바와 같이, 이러한 그래픽 표현의 생성은 객체 유형 또는 특성을 식별하는 것에 기초할 수 있다. 예를 들어, 센서 데이터가 객체가 사람임을 나타낸다고 결정하면, 사람의 그래픽 표현이 생성될 수 있다. 다른 예로서, 센서 데이터는 객체가 모자를 쓴 사람임을 나타낼 수 있으며, 이 경우 모자를 쓴 사람의 그래픽 표현이 생성될 수 있다.
일부 구현에서 기계-생성 컨텐츠 데이터 저장소(360)에 저장된 기계-생성 컨텐츠는 사용자-생성 미디어 컨텐츠의 일부에 기초하여 새로운 미디어 컨텐츠를 생성함으로써 기계-생성 컨텐츠 생성기(340)에 의해 생성될 수 있다. 예를 들어, 오디오 합성기(344)는 녹음된 사용자-생성 오디오 컨텐츠의 일부(예를 들어, 세부 정보) 또는 기타 이용 가능한 사운드에 기초하여 오디오 컨텐츠를 생성하여, 특정 시간(예를 들어, 하루 중 시간, 일주일 중 시간, 연중 시간 등)에 해당 위치의 무드(moode), 분위기(atmosphere), 느낌(vibe)이나 느낌을 대표하는 새로운 오디오 컨텐츠를 생성할 수 있다. 이전에 언급한 바와 같이, 오디오 컨텐츠의 생성은 녹음된 사용자-생성 오디오 컨텐츠의 일부 또는 기타 이용 가능한 사운드의 오디오 유형이나 특성을 식별하는 것에 기초할 수 있다. 예를 들어, 사용자-생성 오디오 컨텐츠는 "컨트리 음악"이라는 오디오 유형을 가질 수 있으며, 이 경우 생성된 오디오 컨텐츠는 해당 위치의 상태를 정확하게 표현하기 위해 컨트리 음악일 수도 있다.
POI 데이터 저장소(370)는 예를 들어 하나 이상의 지리적 영역과 연관된 영역(area) 또는 지역(region)에 있는 관심 지점에 대한 위치들 또는 관심 지점에 관한 정보를 저장할 수 있다. 관심 지점에는 임의의 목적지나 장소가 포함될 수 있다. 예를 들어, 관심 지점에는 레스토랑, 박물관, 스포츠 경기장, 콘서트홀, 놀이 공원, 학교, 사업장, 식료품점, 주유소, 극장, 쇼핑몰, 숙박 시설 등이 포함될 수 있다. POI 데이터 저장소(370)에 저장되는 관심 지점 데이터는 POI와 연관된 임의의 정보를 포함할 수 있다. 예를 들어, POI 데이터 저장소(370)는 POI에 대한 위치 정보, POI에 대한 영업 시간, POI에 대한 전화번호, POI에 관한 리뷰, POI와 관련된 금융 정보(예를 들어, 식사, 티켓, 객실 등과 같이 POI에서 제공되는 서비스 및/또는 POI에서 판매되는 상품에 대한 평균 비용), POI에 관한 환경 정보(예를 들어, POI에 위치된 다양한 센서에 의해 실시간으로 제공되거나 이용 가능한 소음 레벨, 분위기 설명, 교통 수준 등), 제공되는 서비스 유형 및/또는 판매되는 상품에 대한 설명, POI에서 발화된 언어, POI에 대한 URL, POI와 연관된 이미지 컨텐츠르 포함할 수 있다. 예를 들어, POI에 관한 정보는 외부 컨텐츠(500)로부터(예를 들어, POI와 연관된 웹페이지로부터 또는 POI에 배치된 센서들로부터) 획득가능할 수 있다.
내비게이션 데이터 저장소(380)는 서버 컴퓨팅 시스템(300)에 의해 사용될 지도 데이터/지리공간 데이터를 저장하거나 제공할 수 있다. 예시적인 지리공간 데이터에는 지리 이미지(예를 들어, 디지털 지도, 위성 이미지, 항공 사진, 거리 사진, 합성 모델 등), 테이블, 벡터 데이터(예를 들어, 도로, 필지, 건물 등의 벡터 표현), 관심 지점 데이터, 또는 하나 이상의 지리적 영역과 관련된 기타 적절한 지리 공간 데이터가 포함된다. 일부 예에서, 지도 데이터에는 일련의 하위 지도가 포함될 수 있으며, 각각의 하위 지도에는 객체(예를 들어, 건물 또는 기타 정적 지형지물), 이동 경로(예를 들어, 도로, 고속도로, 대중 교통 노선, 도보 경로)를 포함한 지리적 영역에 대한 데이터가 포함된다. 등) 및 기타 관심 있는 기능을 포함하는 지리적 영역에 대한 데이터가 포함된다. 내비게이션 데이터 저장소(380)는 내비게이션 방향을 제공하고, 관심 지점 검색을 수행하고, 관심 지점 위치 또는 분류 데이터 제공하고, 위치 간 거리, 경로 또는 이동 시간을 결정하거나, 본 명세서에 개시된 예시적인 실시예의 동작을 수행하는데 필요하거나 유익한 임의의 다른 적절한 사용 또는 태스크를 결정한다.
예를 들어, 네비게이션 데이터 저장소(380)는 다양한 위치의 3D 장면 생성과 연관된 이미지들을 포함하는 3D 장면 이미지(382)를 저장할 수 있다. 예에서, 3D 장면 생성기(336)는 위치(예를 들어 레스토랑 내부, 공원 내부 등)의 복수의 이미지에 기초하여 3D 장면을 생성하도록 구성될 수 있다. 복수의 이미지는 해당 위치의 3D 장면을 생성하기 위해 알려진 방법을 사용하여 캡처되고 결합될 수 있다. 예를 들어, 서로 중첩되는 이미지들은 장면의 3D 모델을 만들기 위해 함께 연결될 수 있다. 일부 구현에서, 모션 알고리즘의 구조를 포함하는 방법이 3차원 구조를 추정하는데 사용될 수 있다. 일부 구현에서, 캡처된 이미지에 기초하여 해당 위치 내의 임의의 뷰포인트(viewpoint, 시점)에서 카메라형(camera-like) 이미지를 생성하도록 기계 학습 리소스가 구현될 수 있다. 예를 들어, 해당 위치의 비디오 플라이스루(flythrough)가 캡처된 이미지에 기초하여 생성될 수 있다. 일부 구현에서, 3D 장면 생성기(336)에 의해 생성된 초기 3D 장면은 가변적이거나 동적인(예를 들어, 움직이는) 객체가 없는 정적 3D 장면일 수 있다. 예를 들어, 공원의 초기 3D 장면에는 사람, 개, 비정적 객체의 이미지가 없이 나무, 놀이 기구, 피크닉 테이블 등의 이미지를 비롯하여 공원의 이미지가 포함될 수 있다. 사용자-생성 컨텐츠에는 가변적이거나 동적인 객체들의 이미지가 포함될 수 있으며, 여기서 이미지는 다양한 시간 및/또는 조건(예를 들어, 하루, 주 또는 연도의 다양한 시간, 다양한 조명 조건, 다양한 환경 조건 등)과 연관될 수 있다.
예를 들어, 네비게이션 데이터 저장소(380)는 미디어 컨텐츠가 통합되는 다양한 위치의 3D 장면을 포함하는 통합 3D 장면 이미지(384)를 저장할 수 있다. 예를 들어, 3D 장면 통합기(338)는 사용자-생성 컨텐츠 데이터 저장소(350)로부터의 사용자-생성 컨텐츠 및/또는 기계-생성 컨텐츠 데이터 저장소(360)로부터의 기계-생성 컨텐츠를 3D 장면 이미지(382)로부터 획득된 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 통합(된) 3D 장면 이미지(384)에는 미디어 컨텐츠가 통합되는 다양한 위치의 3D 장면이 포함될 수 있다. 위치의 복수의 이미지에 기초하여 생성된 3D 장면은 해당 위치의 통합 3D 장면 이미지(384)를 생성하기 위해 공지된 방법을 사용하여 미디어 컨텐츠와 통합될 수 있다. 예를 들어, 3D 장면 통합기(338)는 장면의 이미지로부터 하나 이상의 객체(예를 들어, 하나 이상의 동적 객체)를 식별하고 추출하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 추출된 하나 이상의 객체와 연관된 3D 장면 내에 추출된 하나 이상의 객체를 위치시키거나 배치하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 추출된 하나 이상의 객체와 연관된 3D 장면 내에 그 추출된 하나 이상의 객체를 위치시키거나 배치하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 하나 이상의 객체를 갖는 장면의 이미지에 대응하는 3D 장면 이미지(382)로부터 3D 장면을 선택할 수 있다. 예를 들어, 3D 장면 통합기(338)는 하나 이상의 객체를 갖는 장면의 이미지(예를 들어, 하루 중 시간, 연중 시간, 기상 조건, 조명 조건 등의 측면에서)와 가장 큰 유사도를 갖는 3D 장면을 3D 장면 이미지(382)로부터 선택할 수 있다. 예를 들어, 맑은 날 정오 공원에서 촬영한 사용자-생성 이미지에는 놀이 기구에서 놀고 있는 여러 어린이가 포함될 수 있다. 3D 장면 통합기(338)는 다양한 기술(예를 들어, 이미지 분할 알고리즘, 기계 학습 리소스, 발췌(cropping) 도구 등)을 사용하여 이미지에서 어린이를 추출하도록 구성될 수 있다.
3D 장면 통합기(338)는 해당 이미지와 유사한 특징(예를 들어, 유사한 하루 중 시간, 연중 시간, 맑은 조건 등)을 갖는 3D 장면 이미지(382)로부터 3D 장면을 선택하도록 구성될 수 있다. 3D 장면 통합기(338)는 추출된 어린이의 이미지를 3D 장면 내에 배치하여 해당 어린이가 장면(예를 들어, 미끄럼틀, 시소 등)에 배치되는 업데이트되거나 통합된 3D 장면을 생성하여, 통합 3D 장면을 보는 사용자에게 해당 시간의 공원 상태에 대한 정확한 표현은 물론, 예를 들어 유사한 기상 조건에서 해당 시간에 공원이 일반적으로 어떻게 느껴지는지에 대한 감각(sense)을 제공하도록 구성될 수 있다. 일부 구현에서는, 오디오 컨텐츠가 3D 장면과 통합될 수도 있다. 예를 들어, 3D 장면 통합기(338)는 이미지를 통합하는 것과 유사한 방식으로 사운드를 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 정오에 공원에서 녹음된 오디오에는 어린이의 웃음소리가 포함될 수 있고 밤에 공원에서 녹음된 오디오에는 야생 동물의 소리가 포함될 수 있다. 3D 장면 통합기(338)는 (예를 들어, 프라이버시 고려사항 또는 사용자의 허가를 고려한 실제 녹음 또는 합성된 웃음이 포함된 기계-생성 오디오를 사용함) 웃음 소리를 오디오의 유사한 시간 프레임과 연관된 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 어린이가 장면(예를 들어, 미끄럼틀, 시소 등)에 배치되고 사용자가 몰입형 뷰를 보는 동안 재생되는 오디오 컨텐츠를 갖는 통합(된) 3D 장면은, 통합 3D 장면을 보는 사용자에게 해당 시간의 3D 장면 상태의 정확한 표현을 날짜별로 제공할 뿐만 아니라, 예를 들어 비슷한 날씨와 소음 조건에서 해당 시간에 공원이 일반적으로 어떻게 느끼는지에 대한 향상된 감각을 사용자에게 제공한다.
사용자-생성 컨텐츠 및/또는 기계-생성 컨텐츠를 포함하는 미디어 컨텐츠에는 오디오 컨텐츠 및/또는 가변 또는 동적 객체의 이미지가 포함될 수 있으며, 여기서 오디오 컨텐츠 및 이미지는 다양한 시간 및/또는 조건(예를 들어, 하루, 주 또는 연도의 다양한 시간, 다양한 조명 조건, 다양한 환경 조건 등)과 연관될 수 있다. 3D 장면 통합기(338)는 예를 들어 미디어 컨텐츠와 연관된 시간 정보에 따라 사용자-생성 컨텐츠 및/또는 기계-생성 컨텐츠를 3D 장면 생성기(336)에 의해 생성된 초기 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 한 위치의 제1 통합 3D 장면은 제1 시간에 캡처된 미디어 컨텐츠에 기초하거나 제1 시간과 관련하여 제1 시간(예를 들어, 하루 중 제1 시간, 연중 제1 시간 등)과 연관될 수 있고, 해당 위치의 제2 통합 3D 장면은 제2 시간에 캡처된 미디어 컨텐츠에 기초하거나 제2 시간과 관련하여 제2 시간(예를 들어, 하루 중 제2 시간, 연중 제2 시간 등)과 연관될 수 있다.
일부 예시적인 실시예에서, 사용자 데이터 저장소(390)는 단일 데이터베이스를 나타낼 수 있다. 일부 실시예에서, 사용자 데이터 저장소(390)는 서버 컴퓨팅 시스템(300)에 액세스 가능한 복수의 서로 다른 데이터베이스를 나타낸다. 일부 예에서, 사용자 데이터 저장소(390)는 현재 사용자 위치 및 방향 데이터를 포함할 수 있다. 일부 예에서, 사용자 데이터 저장소(390)는 사용자 선호도 데이터, 사용자 인구통계 데이터, 사용자 캘린더 데이터, 사용자 소셜 네트워크 데이터, 사용자 이력 이동 데이터 등과 같은 다양한 사용자 데이터를 비롯하여 하나 이상의 사용자 프로필에 관한 정보를 포함할 수 있다. 예를 들어, 사용자 데이터 저장소(390)에는 텍스트 컨텐츠, 이미지, 이메일 관련 캘린더 정보 또는 연락처 정보를 포함하는 이메일 데이터; 댓글, 리뷰, 체크인, 좋아요(likes), 초대, 연락처 또는 예약을 포함하는 소셜 미디어 데이터; 날짜, 시간, 이벤트, 설명 또는 기타 컨텐츠를 포함하는 캘린더 애플리케이션 데이터; 구매, 전자 티켓, 쿠폰 또는 거래를 포함하는 가상 지갑 데이터; 스케줄링 데이터; 위치 데이터; SMS 데이터; 또는 사용자 계정과 관련된 기타 적절한 데이터가 포함될 수 있다. 본 개시의 하나 이상의 예에 따르면, 이 데이터는 POI에 대한 사용자의 선호도를 결정하도록 분석되어 예를 들어 사용자가 선호하는 위치의 몰입형 뷰를 자동으로 제안하거나 자동으로 제공할 수 있으며, 여기서 몰입형 뷰는 사용자가 선호하는 시간과 연관된다(예를 들어, 사용자 데이터는 사용자의 가장 좋아하는 POI는 공원이고 사용자가 저녁 동안 공원을 가장 자주 방문한다는 것을 나타내는 저녁 시간의 공원에 대한 몰입형 뷰를 제공함). 데이터는 POI에 대한 사용자의 선호도를 결정하도록 분석되어 예를 들어 이동(traveling)에 관한 사용자의 선호도(예를 들어, 교통 모드, 이동에 허용되는 시간 등)를 결정하고, 사용자를 위한 POI들에 대한 가능한 추천을 결정하고, POI까지 사용자를 위한 가능한 이동 경로 및 교통 모드 등을 결정할 수 있다.
사용자 데이터 저장소(390)는 일부 실시예에서 사용자 선호도를 식별하고, POI를 추천하고, POI로의 가능한 이동 경로를 결정하고, POI로 이동하는데 사용될 POI로의 교통 모드를 결정하고, 사용자와 연관된 컴퓨팅 디바이스에 제공할 위치들의 몰입형 뷰를 결정하기 위해 서버 컴퓨팅 시스템(300)에 의해 분석될 수 있는 잠재적인 데이터를 설명하기 위해 제공된다. 그러나, 이러한 사용자 데이터는 어떤 데이터가 수집되고, 해당 데이터가 어떻게 사용되는지 안내받은 후 사용자가 동의하지 않는 한 수집, 사용 또는 분석되지 않을 수 있다. 또한, 일부 실시예에서, 사용자에게는 권한 범위를 취소하거나 수정하기 위한 (예를 들어, 내비게이션 애플리케이션 또는 사용자 계정을 통해) 툴이 제공될 수 있다. 또한, 개인 식별 정보가 암호화된 방식으로 제거되거나 저장되도록 특정 정보나 데이터는 저장 또는 사용되기 전에 하나 이상의 방법으로 처리될 수 있다. 따라서, 사용자 데이터 저장소(390)에 저장된 특정 사용자 정보는 사용자가 부여한 권한에 따라 서버 컴퓨팅 시스템(300)에 액세스할 수도 있고 그렇지 않을 수도 있고, 그러한 데이터가 사용자 데이터 저장소(390)에 전혀 저장되지 않을 수도 있다.
외부 컨텐츠(500)는 뉴스 기사, 웹 페이지, 비디오 파일, 오디오 파일, 서면 설명, 평가, 게임 컨텐츠, 소셜 미디어 컨텐츠, 사진, 상업적 오퍼, 교통 방법, 기상 조건, 다양한 센서에서 획득된 센서 데이터, 또는 기타 적절한 외부 컨텐츠를 포함한 임의의 형태의 외부 컨텐츠일 수 있다. 컴퓨팅 디바이스(100), 외부 컴퓨팅 디바이스(200) 및 서버 컴퓨팅 시스템(300)은 네트워크(400)를 통해 외부 컨텐츠(500)에 액세스할 수 있다. 외부 컨텐츠(500)는 공지된 검색 방법에 따라 컴퓨팅 디바이스(100), 외부 컴퓨팅 디바이스(200) 및 서버 컴퓨팅 시스템(300)에 의해 검색될 수 있으며, 검색 결과는 관련성, 인기도 또는 위치별 필터링이나 프로모션을 포함하는 기타 적절한 속성에 따라 순위가 매겨질 수 있다. .
이제 도 2를 참조하여, 본 발명의 하나 이상의 예시적인 실시예에 따른 컴퓨팅 디바이스 및 서버 컴퓨팅 시스템의 예시적인 블록도가 설명될 것이다. 컴퓨팅 디바이스(100)가 도 2에 표시되어 있지만. 본 명세서에 설명된 컴퓨팅 디바이스(100)의 특징들은 외부 컴퓨팅 디바이스(200)에도 적용 가능하다.
컴퓨팅 디바이스(100)는 하나 이상의 프로세서(110), 하나 이상의 메모리 디바이스(120), 내비게이션 및 매핑 시스템(130), 위치 결정 디바이스(140), 입력 디바이스(150), 디스플레이 디바이스(160), 출력 디바이스(170) 및 캡처 디바이스(180)를 포함할 수 있다. 서버 컴퓨팅 시스템(300)은 하나 이상의 프로세서(310), 하나 이상의 메모리 디바이스(320), 내비게이션 및 매핑 시스템(330) 및 기계-생성 컨텐츠 생성기(340)를 포함할 수 있다.
예를 들어, 하나 이상의 프로세서(110, 310)는 컴퓨팅 디바이스(100) 또는 서버 컴퓨팅 시스템(300)에 포함될 수 있는 임의의 적합한 처리 디바이스일 수 있다. 예를 들어, 하나 이상의 프로세서(110, 310)는 정의된 방식으로 명령들에 응답하고 실행할 수 있는 임의의 다른 디바이스를 비롯하여, 프로세서, 프로세서 코어, 컨트롤러 및 산술 논리 장치, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 디지털 신호 프로세서(DSP), 이미지 프로세서, 마이크로컴퓨터, 현장 프로그래밍 가능 어레이, 프로그래밍 가능 논리 장치, 주문형 집적 회로(ASIC), 마이크로프로세서, 마이크로컨트롤러 및 이들의 조합 중 하나 이상을 포함할 수 있다. 하나 이상의 프로세서(110, 310)는 단일 프로세서일 수도 있고, 예를 들어 병렬로 동작가능하게 연결된 복수의 프로세서일 수도 있다.
하나 이상의 메모리 디바이스(120, 320)는 판독 전용 메모리(ROM), 프로그래밍 가능 판독 전용 메모리(PROM), 소거 가능한 프로그래밍 가능 판독 전용 메모리(EPROM), 플래시 메모리, USB 드라이브, RAM을 포함하는 휘발성 메모리 디바이스, 하드 디스크, 플로피 디스크, 블루레이 디스크, 또는 CD ROM 디스크 및 DVD와 같은 광학 미디어, 및 이들의 조합을 비롯하여 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 그러나, 하나 이상의 메모리 디바이스(120, 320)의 예는 전술한 설명에 한정되지 않으며, 하나 이상의 메모리 디바이스(120, 320)는 당업자가 이해할 수 있는 바와 같이 다른 다양한 디바이스 및 구조로 구현될 수도 있다.
예를 들어, 하나 이상의 메모리 디바이스(120)는 실행될 때 하나 이상의 프로세서(110)로 하여금 몰입형 뷰 애플리케이션(132)을 실행하게 하고, 동작들을 수행하기 위해 명령을 실행하게 하는 명령들을 저장할 수 있다. 이 동작들은 제1 시간에 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제1 입력을 입력 디바이스(150)를 통해 수신하는 동작과, 그리고 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3차원(3D) 장면, 및 해당 위치의 3D 장면과 통합된 제1 미디어 컨텐츠 - 제1 미디어 컨텐츠는 제1 시간에 해당 위치의 제1 상태를 나타냄 - 를 포함하는 해당 위치에 대한 제1 몰입형 뷰를 제공하는 동작을 포함한다. 동작들은 제2 시간에 해당 위치의 제2 상태를 나타내는 해당 위치의 제2 몰입형 뷰를 요청하는 제2 입력을 입력 디바이스(150)를 통해 수신하는 동작과, 그리고 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면, 및 해당 위치의 3D 장면과 통합된 제2 미디어 컨텐츠 - 제2 미디어 컨텐츠는 본 발명의 예에 따라 설명된 바와 같이 제2 시간에 해당 위치의 제2 상태의 표현임 - 를 포함하는 해당 위치에 대한 제2 몰입형 뷰를 제공하는 동작을 더 포함한다.
하나 이상의 메모리 디바이스(120)는 또한 하나 이상의 프로세서(110)에 의해 검색, 조작, 생성 또는 저장될 수 있는 데이터(122) 및 명령(124)을 포함할 수 있다. 일부 예시적인 실시예에서, 이러한 데이터는 몰입형 뷰 애플리케이션(132)을 구현하고 동작들을 수행하기 위한 명령들을 실행하기 위한 입력으로서 액세스되고 사용될 수 있다. 이 동작들은 제1 시간에 위치의 제1 상태를 나타내는 해당 위치에 대한 제1 몰입형 뷰를 요청하는 제1 입력을 입력 디바이스(150)를 통해 수신하는 동작과, 그리고 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3차원(3D) 장면, 및 해당 위치의 3D 장면과 통합된 제1 미디어 컨텐츠 - 제1 미디어 컨텐츠는 제1 시간에 해당 위치의 제1 상태를 나타냄 - 를 포함하는 해당 위치에 대한 제1 몰입형 뷰를 제공하는 단계를 포함한다. 동작들은 제2 시간에 해당 위치의 제2 상태를 나타내는 해당 위치에 대한 제2 몰입형 뷰를 요청하는 제2 입력을 입력 디바이스(150)를 통해 수신하는 동작과, 그리고 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 위치의 3D 장면, 및 해당 위치의 3D 장면과 통합된 제2 미디어 컨텐츠 - 제2 미디어 컨텐츠는 본 발명의 예에 따라 설명된 바와 같이 제2 시간에 해당 위치의 제2 상태를 나타냄 - 를 포함하는 해당 위치에 대한 제2 몰입형 뷰를 제공하는 단계를 더 포함한다.
일부 예시적인 실시예에서, 컴퓨팅 디바이스(100)는 네비게이션 및 매핑 시스템(130)을 포함한다. 예를 들어, 네비게이션 및 매핑 시스템(130)은 몰입형 뷰 애플리케이션(132) 및 네비게이션 애플리케이션(134)을 포함할 수 있다.
본 개시의 예에 따르면, 몰입형 뷰 애플리케이션(132)은 랜드마크, 레스토랑 등을 포함하는 관심 지점 또는 영역의 다차원 뷰를 통해 위치를 탐색하는 방법을 컴퓨팅 디바이스(100)의 사용자에게 제공하기 위해 컴퓨팅 디바이스(100)에 의해 실행될 수 있다. 일부 구현에서, 몰입형 뷰 애플리케이션(132)은 사용자에게 위치의 내부 뷰를 제공하기 위해 해당 위치의 비디오 플라이스루(flythrough)를 제공할 수 있다. 몰입형 뷰 애플리케이션(132)은 내비게이션 애플리케이션(134)의 일부이거나 별도의 매핑 애플리케이션일 수 있거나 독립형 애플리케이션일 수 있다.
일부 예에서, 몰입형 뷰 애플리케이션(132)의 하나 이상의 양태는 요청된 몰입형 뷰를 제공하기 위해 원격에 위치할 수 있는 서버 컴퓨팅 시스템(300)의 몰입형 뷰 애플리케이션(332)에 의해 구현될 수 있다. 일부 예에서, 몰입형 뷰 애플리케이션(332)의 하나 이상의 양태는 요청된 몰입형 뷰를 생성하기 위해 컴퓨팅 디바이스(100)의 몰입형 뷰 애플리케이션(132)에 의해 구현될 수 있다.
본 개시의 예에 따르면, 내비게이션 애플리케이션(134)은 컴퓨팅 디바이스(100)의 사용자에게 위치를 탐색(navigate )하는 방법을 제공하도록 컴퓨팅 디바이스(100)에 의해 실행될 수 있다. 네비게이션 애플리케이션(134)은 사용자에게 네비게이션 서비스를 제공할 수 있다. 일부 예에서, 내비게이션 애플리케이션(134)은 내비게이션 서비스를 제공하는 서버 컴퓨팅 시스템(300)에 대한 사용자 액세스를 용이하게 할 수 있다. 일부 예시적인 실시예에서, 네비게이션 서비스는 POI와 같은 특정 위치로의 길안내(directions)가 포함된다. 예를 들어, 사용자는 목적지 위치(예를 들어, POI의 주소 또는 이름)를 입력할 수 있다. 이에 응답하여, 내비게이션 애플리케이션(134)은 특정 지리적 영역에 대해 로컬로 저장된 지도 데이터 및/또는 서버 컴퓨팅 시스템(300)을 통해 제공되는 지도 데이터를 사용하여, 사용자가 목적지 위치를 탐색할 수 있도록 하는 내비게이션 정보를 제공할 수 있다. 예를 들어, 내비게이션 정보는 현재 위치(또는 제공된 출발지나 출발지)로부터 목적지까지의 턴별(turn-by-turn) 길안내를 포함할 수 있다. 예를 들어, 네비게이션 정보는 현재 위치(또는 제공된 출발지 또는 출발 위치)로부터 목적 위치까지의 이동 시간(예를 들어, 추상 또는 예상 이동 시간)을 포함할 수 있지만 이에 한정되지 않는다.
내비게이션 애플리케이션(134)은 컴퓨팅 디바이스(100)의 디스플레이 디바이스(160)를 통해 지리적 영역의 시각적 묘사를 제공할 수 있다. 지리적 영역의 시각적 묘사에는 하나 이상의 거리, 하나 이상의 관심 지점(건물, 랜드마크 등 포함) 및 계획된 경로의 하이라이트된 묘사가 포함될 수 있다. 일부 예에서, 내비게이션 애플리케이션(134)은 또한 주어진 지리적 영역 내에서 하나 이상의 검색 가능한 관심 지점을 식별하기 위해 위치 기반 검색 옵션을 제공할 수 있다. 일부 예에서, 내비게이션 애플리케이션(134)은 관련 지도 데이터의 로컬 복사본을 포함할 수 있다. 다른 예에서, 내비게이션 애플리케이션(134)은 요청된 내비게이션 서비스를 제공하기 위해 원격에 위치할 수 있는 서버 컴퓨팅 시스템(300)의 정보에 액세스할 수 있다.
일부 예에서, 네비게이션 애플리케이션(134)은 네비게이션 서비스를 제공하도록 특별히 설계된 전용 애플리케이션일 수 있다. 다른 예에서, 내비게이션 애플리케이션(134)은 일반 애플리케이션(예를 들어, 웹 브라우저)일 수 있으며 네트워크(400)를 통한 내비게이션 서비스를 포함하는 다양한 서비스에 대한 액세스를 제공할 수 있다.
일부 예시적인 실시예에서, 컴퓨팅 디바이스(100)는 위치 결정 디바이스(140)를 포함한다. 위치 결정 디바이스(140)는 컴퓨팅 디바이스(100)의 현재 지리적 위치를 결정하고 그러한 지리적 위치를 네트워크(400)를 통해 서버 컴퓨팅 시스템(300)으로 전달할 수 있다. 위치 결정 디바이스(140)는 컴퓨팅 디바이스(100)의 위치를 분석하기 위한 임의의 디바이스 또는 회로일 수 있다. 예를 들어, 위치 결정 디바이스(140)는 컴퓨팅 디바이스(100)의 위치를 결정하기 위한 삼각 측량법 및/또는 셀룰러 타워 또는 WiFi 핫스팟에 대한 근접성 및/또는 기타 적절한 기술을 사용함으로써 IP 주소에 기초하여, 위성 항법 측위(positioning) 시스템(예를 들어, GPS 시스템, 갈릴레오 측위 시스템, GLObal 항법 위성 시스템(GLONASS), BeiDou 위성 항법 및 측위 시스템), 관성 항법 시스템, 추측 항법(dead reckoning) 시스템을 사용하여 실제 또는 상대 위치를 결정할 수 있다.
컴퓨팅 디바이스(100)는 사용자로부터 입력을 수신하도록 구성된 입력 디바이스(150)를 포함할 수 있으며, 예를 들어 키보드(예를 들어, 물리적 키보드, 가상 키보드 등), 마우스, 조이스틱, 버튼, 스위치, 전자 펜 또는 스타일러스, 제스처 인식 센서(예를 들어, 신체 부위의 움직임을 포함한 사용자의 제스처 인식용), 입력 사운드 디바이스 또는 음성 인식 센서(예를 들어, 음성 커맨드 또는 음성 질의와 같은 음성 입력을 수신하기 위한 마이크로폰), 출력 사운드 디바이스(예를 들어, 스피커), 트랙볼, 리모콘, 휴대(예를 들어, 셀룰러 또는 스마트) 폰, 태블릿 PC, 페달 또는 풋스위치, 가상 현실 디바이스 중 하나 이상을 포함할 수 있다. 입력 디바이스(150)는 사용자에게 촉각 피드백을 제공하는 촉각 디바이스를 더 포함할 수 있다. 입력 디바이스(150)는 예를 들어 터치스크린 기능을 갖는 터치 감지형 디스플레이로 구현될 수도 있다. 예를 들어, 입력 디바이스(150)는 입력 디바이스(150)와 연관된 사용자로부터 입력을 수신하도록 구성될 수 있다.
컴퓨팅 디바이스(100)는 사용자가 볼 수 있는 정보(예를 들어, 지도, 위치의 몰입형 뷰, 사용자 인터페이스 화면 등)를 디스플레이하는 디스플레이 디바이스(160)를 포함할 수 있다. 예를 들어, 디스플레이 디바이스(160)는 비터치 감지형 디스플레이 또는 터치 감지형 디스플레이일 수 있다. 디스플레이 디바이스(160)는 예를 들어 LCD, LED 디스플레이, OLED 디스플레이, AMOLED(Active Matrix Organic Light Emitting Diode), 플렉서블 디스플레이, 3D 디스플레이, 플라즈마 디스플레이 패널(PDP), 음극선관(CRT) 디스플레이 등을 포함할 수 있다. 그러나, 본 개시는 이들 예시적인 디스플레이에 제한되지 않고 다른 유형의 디스플레이를 포함할 수도 있다. 디스플레이 디바이스(160)는 컴퓨팅 디바이스(100)에 설치된 내비게이션 및 매핑 시스템(130)에 의해 사용되어 입력과 관련된 정보(예를 들어, 사용자가 관심 있는 위치에 관한 정보, 사용자가 선택할 수 있는 사용자 인터페이스 요소를 갖는 사용자 인터페이스 화면)를 사용자에게 디스플레이할 수 있다. 내비게이션 정보에는 지리적 영역의 지도, 위치의 몰입형 뷰(예를 들어, 3차원 몰입형 뷰, 위치에 대한 플라이스루 몰입형 뷰 등), 지리적 영역에서의 컴퓨팅 디바이스(100)의 위치, 지도에 지정된 지리적 영역을 통과하는 경로, 하나 이상의 내비게이션 길안내(예를 들어, 지리적 영역을 통한 턴별 길안내), 지리적 영역(예를 들어, 컴퓨팅 디바이스(100)의 위치에서 POI까지)을 통한 경로의 이동 시간, 및 지리적 영역 내의 하나 이상의 관심 지점 중 하나 이상을 포함할 수 있지만 이에 한정되지 않는다.
컴퓨팅 디바이스(100)는 사용자에게 출력을 제공하기 위한 출력 디바이스(170)를 포함할 수 있으며, 예를 들어 오디오 디바이스(예를 들어, 하나 이상의 스피커), 사용자에게 햅틱 피드백을 제공하는 햅틱 디바이스(예를 들어, 진동 디바이스), 광원(예를 들어, 사용자에게 시각적 피드백을 제공하는 LED와 같은 하나 이상의 광원), 열 피드백 시스템 중 하나 이상을 포함할 수 있다. 본 개시의 다양한 실시 예에 따르면, 출력 디바이스(170)는 사용자가 위치의 실감형 뷰 요청하는 것에 응답하여 위치와 관련된 사운드를 출력하는 스피커를 포함할 수 있다.
컴퓨팅 디바이스(100)는 본 개시의 다양한 예에 따라 미디어 컨텐츠를 캡처할 수 있는 캡처 디바이스(180)를 포함할 수 있다. 예를 들어, 캡처 디바이스(180)는 위치의 이미지(예를 들어, 사진, 비디오 등)를 캡처하도록 구성된 이미지 캡처기(182)(예를 들어, 카메라)를 포함할 수 있다. 예를 들어, 캡처 디바이스(180)는 특정 위치의 사운드 또는 오디오(예를 들어, 오디오 녹음)를 캡처하도록 구성된 사운드 캡처기(184)(예를 들어, 마이크로폰)를 포함할 수 있다. 캡처 디바이스(180)에 의해 캡처된 미디어 컨텐츠는 예를 들어 네트워크(400)를 통해 서버 컴퓨팅 시스템(300), 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380),및 사용자 데이터 저장소(390) 중 하나 이상으로 전송될 수 있다. 예를 들어, 일부 구현에서는 이미지가 3D 장면을 생성하 데 사용될 수 있으며 일부 구현에서는 미디어 컨텐츠가 기존 3D 장면과 통합될 수 있다.
본 명세서에 설명된 예시적인 실시예에 따르면, 서버 컴퓨팅 시스템(300)은 이전에 위에서 논의된 하나 이상의 프로세서(310) 및 하나 이상의 메모리 디바이스(320)를 포함할 수 있다. 서버 컴퓨팅 시스템(300)은 또한 내비게이션 및 매핑 시스템(330) 및 기계-생성 컨텐츠 생성기(340)를 포함할 수 있다.
예를 들어, 내비게이션 및 매핑 시스템(330)은 몰입형 뷰 애플리케이션(132)과 관련하여 위에서 논의된 기능과 유사한 기능을 수행하는 몰입형 뷰 애플리케이션(332)을 포함할 수 있다.
예를 들어, 내비게이션 및 매핑 시스템(330)은 위치(예를 들어 레스토랑 내부, 공원 등)의 복수의 이미지에 기초하여 3D 장면을 생성하도록 구성된 3D 장면 생성기(336)를 포함할 수 있다. 복수의 이미지는 해당 위치의 3D 장면을 생성하기 위해 알려진 방법을 사용하여 캡처되고 결합될 수 있다. 예를 들어, 서로 겹치는 이미지들이 함께 연결되어 장면의 3D 모델을 생성하고 번들(bundle) 조정을 포함한 방법을 사용하여 개선될 수 있다. 일부 구현에서, 모션 알고리즘의 구조를 포함하는 방법이 3차원 구조를 추정하는데 사용될 수 있다. 일부 구현에서, 캡처된 이미지에 기초하여 해당 위치 내의 임의의 뷰포인트로부터 카메라형 이미지를 생성하도록 기계 학습 리소스가 구현될 수 있다. 예를 들어, 해당 위치의 비디오 플라이스루가 상기 캡처된 이미지에 기초하여 3D 장면 생성기(336)에 의해 생성될 수 있다. 일부 구현에서, 3D 장면 생성기(336)에 의해 생성된 초기 3D 장면은 가변 또는 동적(예를 들어 움직이는) 객체가 없는 정적 3D 장면일 수 있다. 예를 들어, 공원의 초기 3D 장면에는 사람, 개 또는 기타 움직이는 객체의 이미지가 없이 나무, 놀이 기구, 피크닉 테이블 등의 이미지를 포함하는 공원의 이미지가 포함될 수 있다.
예를 들어, 내비게이션 및 매핑 시스템(330)은 사용자-생성 컨텐츠 데이터 저장소(350)로부터의 사용자-생성 컨텐츠 및/또는 기계-생성 컨텐츠 데이터 저장소(360)로부터의 기계-생성 컨텐츠를 3D 장면 이미지(382)로부터 획득된 3D 장면과 통합하도록 구성된 3D 장면 통합기(338)를 포함할 수 있다. 예를 들어, 통합(된) 3D 장면 이미지(384)는 미디어 컨텐츠가 통합되는 다양한 위치의 3D 장면을 포함할 수 있다. 3D 장면 이미지(382)에 저장된 3D 장면은 히루 중 시간, 연중 시간, 기상 조건, 조명 조건 등에 따라 카테고리화되거나 분류될 수도 있다. 위치의 복수의 이미지에 기초하여 생성된 3D 장면은 해당 위치의 통합 3D 장면 이미지(384)를 생성하기 위해 알려진 방법을 사용하여 미디어 컨텐츠와 통합될 수 있다. 예를 들어, 3D 장면 통합기(338)는 장면의 이미지로부터 하나 이상의 객체(예를 들어, 하나 이상의 동적 객체)를 식별하고 추출하도록 구성될 수 있다. 이미지는 사용자-생성 이미지일 수도 있고 기계-생성 이미지일 수도 있다. 예를 들어, 3D 장면 통합기(338)는 추출된 하나 이상의 객체와 연관된 3D 장면 내에 상기 추출된 하나 이상의 객체를 위치시키거나 배치하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 하나 이상의 객체가 있는 장면의 이미지(예를 들어, 하루 중 시간, 연중 시간, 기상 조건, 조명 조건 등)와 가장 큰 유사성이 있는 3D 장면을 3D 장면 이미지(382)로부터 선택할 수 있다. 예를 들어, 맑은 날씨의 정오에 공원에서 촬영한 사용자-생성 이미지에는 놀이 기구에서 놀고 있는 여러 어린이가 포함될 수 있다. 3D 장면 통합기(338)는 다양한 기술(예를 들어, 이미지 분할 알고리즘, 기계 학습 리소스, 발췌 툴 등)을 사용하여 이미지로부터 어린이를 추출하도록 구성될 수 있다.
3D 장면 통합기(338)는 이미지와 유사한 특징(예를 들어, 유사한 하루 중 시간, 연중 시간, 맑은 조건 등)을 갖는 3D 장면을 3D 장면 이미지(382)로부터 선택하도록 구성될 수 있다. 3D 장면 통합기(338)는 추출된 어린이의 이미지를 3D 장면 내에 배치하여 해당 어린이가 장면(예를 들어, 미끄럼틀, 시소 등)에 배치되는 업데이트되거나 통합된 3D 장면을 생성하여, 통합 3D 장면을 보는 사용자에게 해당 시간의 공원 상태에 대한 정확한 표현은 물론, 예를 들어 유사한 기상 조건에서 해당 시간에 공원이 일반적으로 어떻게 느껴지는지에 대한 감각을 제공할 수 있다. 일부 구현에서, 오디오 컨텐츠는 3D 장면과 통합될 수도 있다. 예를 들어, 3D 장면 통합기(338)는 이미지를 통합하는 것과 유사한 방식으로 사운드를 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 정오에 공원에서 녹음된 오디오에는 어린이의 웃음소리가 포함될 수 있고 밤에 공원에서 녹음된 오디오에는 야생 동물의 소리가 포함될 수 있다. 3D 장면 통합기(338)는 웃음 소리(예를 들어, 프라이버시 고려사항이나 사용자의 허가를 고려한 실제 녹음 또는 합성된 웃음을 포함하는 기계-생성 오디오를 사용함)를 유사한 시간 프레임과 연관된 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 어린이가 장면(예를 들어, 미끄럼틀, 시소 등)에 배치되고 사용자가 몰입형 뷰를 보는 동안 재생되는 오디오 컨텐츠를 갖는 통합 3D 장면은, 통합 3D 장면을 보는 사용자에게 해당 시간의 3D 장면 상태의 정확한 표현을 날짜별로 제공할 뿐만 아니라, 예를 들어 비슷한 날씨와 소음 조건에서 해당 시간에 공원이 일반적으로 어떻게 느끼는지에 대한 향상된 감각을 사용자에게 제공한다.
예를 들어, 내비게이션 및 매핑 시스템(330)은 이미지 합성기(342) 및 오디오 합성기(344)를 갖는 기계-생성 컨텐츠 생성기(340)를 포함할 수 있다. 예를 들어, 기계-생성 컨텐츠 데이터 저장소(360)에 저장된 기계-생성 컨텐츠는 특정 위치에 배치된 하나 이상의 센서(외부 컨텐츠(500)의 일부를 구성함)에 의해 획득된 센서 데이터에 기초하여 기계-생성 컨텐츠 생성기(340)에 의해 생성될 수 있다.
예를 들어, 이미지 합성기(342)는 사용자-생성 컨텐츠 데이터 저장소(350)에 저장된 사용자-생성 이미지에 제공된 동적 객체들의 그래픽 표현을 생성할 수 있다. 예를 들어, 이미지 합성기(342)는 사용자-생성 미디어 컨텐츠를 일반 형식으로 변환하여 미디어 컨텐츠를 익명화하도록(예를 들어, 하나의 위치에 있는 사람의 실제 이미지를 그 사람을 나타내는 2차원 또는 3차원 디지털 아바타로 변환함으로써) 구성될 수 있다. 예를 들어, 하나 이상의 센서에 의해 획득된 센서 데이터는 (예를 들어, 해당 위치에서 검출된 스마트폰 또는 기타 컴퓨팅 디바이스의 수에 기초하여) 하나의 위치에 얼마나 많은 사람이 있는지를 나타낼 수 있다. 예를 들어, 하나 이상의 센서에 의해 획득된 센서 데이터는 해당 위치에 있는 사람들에 대한 다양한 특징(예를 들어, 카메라에 의해 캡처된 이미지에 기초한 복장, 얼굴 표정 등)을 나타낼 수 있다. 예를 들어, 이미지 합성기(342)는 해당 위치를 정확하게 표현하고 해당 위치의 분위기를 묘사하기 위해 사람 수에 따라 그리고 해당 위치에 있는 사람들에 대한 특징에 따라 해당 위치에 있는 사람들의 그래픽 표현을 생성할 수 있다. 예를 들어, 경기장의 군중 이미지에는 홈팀과 관련된 유니폼을 입은 다양한 사람들이 포함될 수 있다. 이미지 합성기(342)는 위치를 정확하게 표현하고 해당 위치의 분위기를 묘사하기 위해, 경기장에 있고 (공식 복장과 반대인) 유사한 유니폼(jersey)을 입은 사람들의 수에 따라 경기장에 있는 사람들의 그래픽 표현을 생성할 수 잇다.
예를 들어, 오디오 합성기(344)는 녹음된 사용자-생성 오디오 컨텐츠의 일부(예를 들어, 세부 정보) 또는 기타 이용 가능한 사운드에 기초하여 오디오 컨텐츠를 생성하여, 특정 시간에 해당 위치의 상태 표현뿐만 아니라 특정 시간(예를 들어, 하루 중 시간, 주중 시간, 연중 시간 등)에 해당 위치의 무드, 분위기, 느낌이나 기분(feeling)을 나타내는 새로운 오디오 컨텐츠를 생성할 수 있다.
본 개시의 예는 또한 미디어 컨텐츠를 3차원 장면과 통합하기 위한 컴퓨터 구현 방법에 관한 것이다. 도 3은 본 개시의 하나 이상의 예시적인 실시예에 따른, 예시적이고 비제한적인 컴퓨터 구현 방법의 흐름도를 도시한다.
도 3을 참조하면, 예시적인 컴퓨터 구현 방법(3000)에서, 동작(3100)에서, 방법은 서버 컴퓨팅 시스템(300)이 위치의 몰입형 뷰에 대한 요청을 수신하는 단계를 포함한다. 예를 들어, 요청은 컴퓨팅 디바이스(100)로부터 전송될 수 있다. 예를 들어, 몰입형 뷰에 대한 요청은 시간적 조건(예를 들어, 하루 중 시간, 연중 시간 등을 포함하여 특정 시간의 위치에 대한 몰입형 뷰) 및/또는 조명 조건, 기상 조건 등을 포함하는 기타 조건과 연관될 수 있다. 예를 들어, 컴퓨팅 디바이스(100)의 사용자는 몰입형 뷰 애플리케이션(132)을 통해 금요일 오후 6시의 레스토랑에 대한 몰입형 뷰를 요청할 수 있고 그 요청은 서버 컴퓨팅 시스템(300)으로 전송될 수 있다.
동작(3200)에서, 서버 컴퓨팅 시스템(300)은 해당 위치와 관련된 3차원 장면을 획득할 수 있다. 예를 들어, 서버 컴퓨팅 시스템(300)은 3D 장면 이미지(382)로부터 3D 장면을 획득할 수 있다. 예를 들어, 3D 장면 이미지(382)로부터 획득된 해당 위치의 3D 장면은 요청 조건에 해당하거나 요청 조건과 대략적으로 연관된 3D 장면(예를 들어, 금요일 오후 6시의 레스토랑의 3D 장면, 밤 또는 하루 중 비슷한 시간에 예상되는 유사한 조명 조건 하의 레스토랑의 3D 장면)일 수 있다. 또 다른 예로, 비가 올 때 사용자가 공원의 몰입형 뷰를 요청하는 경우, 3D 장면 이미지(382)로부터 검색된 공원의 3D 장면은 맑은 날의 공원의 3D 장면이 아니라 비가 올 때의 공원의 3D 장면일 수 있다.
동작(3300)에서, 서버 컴퓨팅 시스템(300)은 해당 위치와 연관된 미디어 컨텐츠를 획득할 수 있다. 예를 들어, 서버 컴퓨팅 시스템(300)은 사용자-생성 컨텐츠 데이터 저장소(350) 및/또는 기계-생성 컨텐츠 데이터 저장소(360)로부터 미디어 컨텐츠를 획득할 수 있다. 예를 들어, 서버 컴퓨팅 시스템(300)은 요청 조건에 해당하거나 요청 조건과 대략적으로 연관된 사용자-생성 컨텐츠 데이터 저장소(350) 및/또는 기계-생성 컨텐츠 데이터 저장소(360)로부터 미디어 컨텐츠(예를 들어, 금요일 오후 6시쯤 레스토랑에서 캡처된 미디어 컨텐츠, 밤에 레스토랑에서 캡처하거나 하루 중 비슷한 시간에 예상되는 유사한 조명 조건하에서 캡처된 미디어 컨텐츠)를 획득할 수 있다. 또 다른 예로서, 사용자가 비가 올 때 공원의 몰입형 뷰를 요청하는 경우, 검색된 미디어 컨텐츠에는 비가 올 때의 공원의 이미지가 포함될 수 있다. 마찬가지로, 검색된 미디어 컨텐츠에는 비가 올 때 캡처된 공원과 관련된 오디오 컨텐츠 또는 공원의 비와 관련된 조건을 반영하는 합성 오디오 컨텐츠가 포함될 수 있다.
동작(3400)에서, 서버 컴퓨팅 시스템(300)은 시각적 컨텐츠(즉, 이미지)로부터 동적 객체들을 추출할 수 있다. 예를 들어, 3D 장면 통합기(338)는 해당 위치의 장면 이미지로부터 하나 이상의 객체(예를 들어, 하나 이상의 동적 객체)를 식별하고 추출하도록 구성될 수 있다. 캡처된 이미지로부터 객체를 추출하는 것은 다양한 기술(예를 들어, 이미지 분할 알고리즘, 기계 학습 리소스, 발췌 툴 등)을 사용하여 수행될 수 있다. 추출되는 객체에는 가변 또는 동적 객체로 식별되는 전경 객체가 포함될 수 있으며, 이러한 객체는 특정 시간 또는 특정 상황에서 해당 위치 상태의 정확한 표현을 제공한다. 또한, 이러한 객체는 특정 시간이나 특정 상황하에서 해당 위치의 분위기나 느낌을 나타내거나 표현할 수 있다.
동작(3500)에서, 서버 컴퓨팅 시스템(300)은 객체들과 연관된 정보(예를 들어, 시간 정보)에 따라 객체들(예를 들어, 동적 객체)을 해당 위치의 3D 장면을 통합하기 위한 기계 학습 자원을 구현할 수 있다. 예를 들어, 3D 장면 통합기(338)는 동작(3200)에서 사용자-생성 컨텐츠 데이터 저장소(350)로부터의 사용자-생성 컨텐츠 및/또는 기계-생성 컨텐츠 데이터 저장소(360)로부터의 기계-생성 컨텐츠를 3D 장면 이미지(382)로부터 획득된 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 추출된 객체들을 3D 장면 내에 배치하여 업데이트되거나 통합된 3D 장면을 생성하도록 구성될 수 있으며, 여기서 객체들은 장면의 사용자-생성 이미지에서 해당 객체들이 위치했거나 포즈를 취했던 방식과 일치하는 방식으로 장면에 배치된다. 기계-생성 객체의 경우, 3D 장면 통합기(338)는 3D 장면 내에 기계-생성 객체들을 배치하여 업데이트되거나 통합된 3D 장면을 생성하도록 구성될 수 있으며, 여기서 기계-생성 객체들은 예를 들어, 해당 실제 개체들이 장면에 위치하거나 실제로 포즈를 취하는 방식과 일치하는 방식으로 (예를 들어, 신명망을 통해) 기계-생성 개체들을 장면에 배치하도록 트레이닝된 기계 학습 리소스를 사용하여, 해당 실제 객체들이 장면에 배치되거나 포즈를 취할 가능성이 가장 높은 방식과 일치하는 방식으로 장면에 배치된다. 객체들의 통합은 통합 3D 장면을 보는 사용자에게 특정 시간이나 기타 지정된 조건하에서 해당 위치의 상태의 정확한 표현을 제공하기 위한 것이다. 또한, 객체들의 통합은 특정 시간(예를 들어, 하루 중 시간, 연중 시간 등) 또는 기타 특정 조건(예를 들어, 특정 기상 조건, 조명 조건)에서 해당 위치가 일반적으로 어떻게 느껴지는지에 대한 감각을 제공할 수도 있다.
동작(3600)에서, 서버 컴퓨팅 시스템(300)은 장면과 연관된 정보(예를 들어, 시간 정보)에 따라 오디오 컨텐츠를 해당 위치의 3D 장면과 통합할 수도 있다. 예를 들어, 3D 장면 통합기(338)는 이미지를 통합하는 것과 유사한 방식으로 사운드를 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 동작(3200)에서 사용자-생성 컨텐츠 데이터 저장소(350)로부터의 사용자-생성 컨텐츠 및/또는 기계-생성 컨텐츠 데이터 저장소(360)로부터의 기계-생성 컨텐츠를 3D 장면 이미지(382)로부터 획득된 3D 장면과 통합하도록 구성될 수 있다. 예를 들어, 3D 장면 통합기(338)는 동작(3100)에서 수신된 요청과 일치하는 동작(3300)에서 획득된 오디오 컨텐츠(예를 들어, 몰입형 뷰 요청이 연관되는 유사한 시간 프레임에 녹음된 오디오 컨텐츠)를 통합하도록 구성될 수 있다. 오디오 컨텐츠의 통합은 통합 3D 장면을 보는 사용자에게 특정 시간이나 기타 지정된 조건하에서 해당 위치의 상태의 더욱 정확한 표현을 제공하기 위한 것이다. 또한, 오디오 컨텐츠 통합은 특정 시간(예를 들어, 하루 중 시간, 연중 시간 등) 또는 기타 특정 조건(예를 들어, 특정 기상 조건 등)에서 해당 위치가 일반적으로 어떻게 느껴지거나 들리는지에 대한 추가 감각을 제공할 수도 있다.
동작(3700)에서, 서버 컴퓨팅 시스템(300)은 동작(3100)에서 수신된 요청을 만족시키는 통합 오디오 컨텐츠 및/또는 객체(예를 들어, 동적 객체)를 갖는 해당 위치의 업데이트되거나 통합된 3D 장면을 제공하도록 구성될 수 있다. 예를 들어, 해당 위치의 업데이트되거나 통합된 3D 장면은 서버 컴퓨팅 시스템(300)으로부터 컴퓨팅 디바이스(100)로 전송될 수 있다. 예를 들어, 해당 위치의 업데이트되거나 통합된 3D 장면은 통합 3D 장면 이미지(384)로서 저장될 수 있다.
도 3의 예에서, 서버 컴퓨팅 시스템(300)은 동작(3100)에서 요청을 수신하는 것에 응답하여 해당 위치의 업데이트되거나 통합된 3D 장면을 동적으로 생성할 수 있다. 그러나 일부 구현에서는, 동작(3100)에서 수신된 요청을 만족시키는 해당 위치의 업데이트되거나 통합된 3D 장면은 사전에 저장되어 있거나 기존에 있을 수 있으며 통합 3D 장면 이미지(384)로서 저장될 수 있다. 따라서, 이러한 경우에는 동작(3200, 3300, 3400, 3500, 3600)이 생략될 수 있는 반면, 요청 조건을 만족하는 통합 3차원 장면 이미지(384)에서 해당 위치의 통합된 3차원 장면을 검색하는 동작은 동작(3100)과 동작(3700) 사이의 중간 동작으로 수행될 수 있다. 따라서, 수행되거나 필요한 동작이 더 적기 때문에 상기 요청에 대한 서버 컴퓨팅 시스템(300)의 응답은 더 빨라질 수 있다.
본 개시의 예는 또한 사용자가 위치의 몰입형 뷰를 요청할 수 있는 사용자 지향 양태에 관한 것입니다. 예를 들어, 도 4 내지 도 8b는 본 개시의 하나 이상의 예시적인 실시예에 따른, 미디어 컨텐츠가 3차원 장면과 통합되는 위치의 몰입형 뷰를 획득하는 것과 관련된 예시적인 사용자 인터페이스 화면을 도시한다.
예를 들어, 도 4는 본 개시의 하나 이상의 예시적인 실시예에 따른 매핑 애플리케이션의 사용자 인터페이스 화면을 도시한다. 도 4에서, 사용자 인터페이스 화면(4000)은 컴퓨팅 디바이스(100)의 사용자가 웨스트민스터(Westminster)의 위치, 특히 시나몬 클럽(Cinnamon Club) 4100번지를 포함하는 건물을 탐색하고 있음을 나타내며, 여기서 아이콘(4200)은 시나몬 클럽 4100번지에 레스토랑을 포함되어 있음을 나타낸다. 예를 들어, 사용자 인터페이스 요소(4300)는 사용자가 위치의 몰입형 뷰를 얻는 것을 가능하게 할 수 있다. 예를 들어, 사용자 인터페이스 요소(4300)는 해당 위치의 몰입형 뷰가 획득될 수 있음을 사용자에게 나타내기 위해 해당 위치에 중첩되는 심볼(기호) 또는 선택 가능한 객체의 형태일 수 있다. 예를 들어, 도 4에서 사용자 인터페이스 요소(4300)는 흰색 원이다.
예를 들어, 도 5a 및 도 5b는 본 개시의 하나 이상의 예시적인 실시예에 따른, 특정 위치의 비디오 플라이스루로부터의 예시적인 몰입형 뷰를 도시한다. 예를 들어, 도 5a는 시나몬 클럽 내부의 제1 뷰(5100)를 보여주는 제1 사용자 인터페이스 화면(5000)을 도시하면서 시나몬 클럽 내부의 제2 뷰(5100')를 보여주는 제2 사용자 인터페이스 화면(5000')을 도시한다. 시나몬 클럽 내부의 뷰는 3D 장면 이미지(382)로 저장될 수 있는 위치에 대한 예시적인 3D 장면이다. 예를 들어, 해당 위치의 3D 장면에는 동적 객체(예를 들어, 고객, 직원 등)가 없을 수 있다. 따라서 해당 위치의 3D 장면은 단독으로 또는 결합하여 플라이스루 비디오로 디스플레이되며 해당 위치의 상태를 정확하게 표현하지 못할 수도 있다. 또한, 이는 레스토랑의 분위기를 만족스럽게 나타내지 못하거나 특정 시간에 레스토랑에 있는 느낌이 어떤지에 대한 지표(indication)를 제공하지 못할 수도 있다.
예를 들어, 도 6은 본 개시의 하나 이상의 예시적인 실시예에 따른 위치의 통합 3D 장면을 포함하는 해당 위치의 예시적인 몰입형 뷰를 도시한다. 예를 들어, 도 6은 도 5b의 시나몬 클럽 내부의 제2 뷰(5100')를 반영하며, 여기서 동적 객체들과 오디오 컨텐츠는 해당 위치의 3D 장면에 통합된다. 예를 들어, 사용자 인터페이스 화면(6000)은 제1 동적 객체(6200)와 제2 동적 객체(6300)를 포함한 통합된 동적 객체, 및 통합 오디오 컨텐츠(6400)를 포함하는 해당 위치의 3D 장면(6100)을 도시한다. 예를 들어, 제1 동적 객체(6200)는 웨이터의 기계-생성 그래픽 표현(예를 들어, 웨이터를 나타내는 3D 디지털 아바타)일 수 있고, 제2 동적 객체(6300)는 고객의 기계-생성 그래픽 표현(예를 들어, 고객을 나타내는 3D 디지털 아바타)일 수 있다. 일부 구현에서, 동적 객체의 수는 하루 중 특정 시간, 주중 시간, 연중 시간에 레스토랑에 있는 평균 사람 수를 반영할 수 있으며, 이는 해당 위치에 제공된 다양한 센서로부터 획득된 센서 데이터의 통계 분석을 통해 결정될 수 있다. 일부 구현에서, 동적 객체들은 몰입형 뷰에 대한 요청과 관련된 기준을 충족하는 사용자-생성 이미지(예를 들어, 해당 위치의 몰입형 뷰에 대한 요청과 연관된 시간 및/또는 기타 조건에 해당하는 시간 및/또는 일부 다른 조건 하에서 캡처됨)로부터 추출된 실제 객체들의 그래픽 표현일 수 있다. 일부 구현에서, 동적 객체들은 몰입형 뷰에 대한 요청과 관련된 기준을 충족하는 사용자-생성 이미지(예를 들어, 해당 위치의 몰입형 뷰에 대한 요청과 연관된 시간 및/또는 기타 조건에 해당하는 시간 및/또는 일부 다른 조건 하에서 캡처됨)로부터 추출된 실제 객체(필요에 따라 익명화될 수 있음)일 수 있다.
일부 구현에서, 몰입형 뷰는 본 개시의 하나 이상의 예시적인 실시예에 따른 해당 위치의 통합된 3D 장면을 포함하는 해당 위치의 정지 이미지를 포함할 수 있다. 일부 구현에서, 몰입형 뷰는 본 개시의 하나 이상의 예시적인 실시예에 따른 해당 위치의 통합 3D 장면을 포함하는 해당 위치의 복수의 이미지를 포함할 수 있다. 일부 구현에서, 몰입형 뷰는 본 개시의 하나 이상의 예시적인 실시예에 따른 동영상(moving image)(예를 들어, 위치의 플라이스루)을 형성하기 위해 해당 위치의 통합 3D 장면을 포함하는 해당 위치의 복수의 이미지를 함께 결합함으로써 형성될 수 있다. 일부 구현에서, 해당 위치의 통합 3D 장면의 동영상에 의해 형성되는 몰입형 뷰는 움직이는 동적 객체를 포함할 수 있으며, 이는 해당 위치의 통합 3D 장면을 더욱 생생하게 구현하고 특정 시간 및/또는 특정 조건 하에서 해당 위치의 상태를 정확하게 나타낸다.
도 6을 참조하면, 해당 위치의 통합 3D 장면에 대한 몰입형 뷰에는 해당 위치의 3D 장면과 통합된 제1 동적 객체(6200)와 제2 동적 객체(6300)를 포함하는 정지 이미지와, 해당 위치의 3D 장면과 통합된 제1 동적 객체(6200)와 제2 동적 객체(6300)를 갖는 복수의 이미지를 포함하는 해당 위치의 통합 3D 장면의 몰입형 뷰, 또는 복수의 이미지는 함께 결합되어 동영상를 형성하는 해당 위치의 3D 장면과 통합된 제1 동적 객체(6200)와 제2 동적 객체(6300)를 갖는 복수의 이미지를 포함하는 해당 위치의 통합 3D 장면에 대한 몰입형 뷰가 포함될 수 있다.
일부 구현에서, 복수의 이미지를 포함하는 몰입형 뷰는 움직이는(예를 들어, 동적 객체의 동적 움직임을 제공하기 위해) 동적 객체를 포함할 수 있다. 예를 들어, 도 6에서, 제1 동적 객체(6200)와 제2 동적 객체(6300)를 포함하는 제1 이미지는 방의 뒤쪽에 있는 제1 동적 객체(6200)를 나타내는 반면 제1 동적 객체(6200)와 제2 동적 객체(6300)를 포함하는 제2 이미지는 제2 동적 객체(6300) 근처(방의 앞쪽)에 위치한 제1 동적 객체(6200)를 나타낼 수 있다. 해당 위치의 3D 장면과 통합된 제1 동적 객체(6200)와 제2 동적 객체(6300)를 갖는 복수의 이미지를 포함하는 해당 위치(예를 들어, 레스토랑)의 통합된 3D 장면에 대한 몰입형 뷰는 복수의 이미지가 함께 결합되어 동영상를 구성하도록 형성될 수 있으며, 여기서 동영상는 해당 위치의 한 부분에서 해당 위치의 다른 부분으로(예를 들어 방의 뒤쪽에서 방의 앞쪽으로) 동적으로 움직이는 제1 동적 객체(6200)를 도시하는 것처럼 보인다. 동영상(즉, 비디오)에 의해 형성되는 몰입형 뷰는 사용자가 촬영한 복수의 이미지, 기계-생성의 복수의 이미지, 또는 이들의 조합으로 형성될 수 있다.
일부 구현에서, 동적 객체를 갖는 이미지는 그 동적 객체의 위치가 장면 내에서(예를 들어, 동영상, 플라이스루 등에서) 움직이는 동적 객체의 더 부드럽고 더 사실적인 묘사를 제공하기 위해 해당 동적 객체를 포함하는 다른 이미지로부터 추정될 수 있는 경우 생성될 수 있다. 예를 들어, 제1 동적 객체(6200)를 방 중앙에 보여주기 위해 해당 위치에 제1 동적 객체(6200)와 제2 동적 객체(6300)를 포함하는 제3 이미지가 (예를 들어, 제1 이미지 및 제2 이미지에 기초한 외삽, 제1 이미지 및 제2 이미지와 연관된 시간 정보를 통해) 생성될 수 있다. 예를 들어, 해당 위치의 3D 장면과 통합된 제1 동적 객체(6200)와 제2 동적 객체(6300)를 갖는 복수의 이미지를 포함하는 해당 위치(예를 들어, 레스토랑)의 통합 3D 장면의 몰입형 뷰는 복수의 이미지가 결합되어 동영상을 형성하도록 형성될 수 있으며, 여기서 동영상은 해당 위치의 한 부분에서 해당 위치의 다른 부분으로(예를 들어, 방의 뒤쪽으로부터 방의 중앙으로 그리고 이어서 방의 앞쪽으로) 동적으로 움직이는 제1 동적 객체(6200)를 보여주는 것처럼 보인다. 해당 위치의 통합 3D 장면의 몰입형 뷰 내에서 동적 객체(예를 들어, 초당 24프레임, 초당 30프레임, 초당 60프레임 등)의 원활한 움직임을 제공하여 해당 위치의 통합 3D 장면을 생생하게 구현하고 특정 시간 및/또는 특정 조건하에서 해당 위치의 상태를 정확하게 표현하기 위해 필요에 따라 추가 이미지가 생성될 수 있다.
예를 들어, 통합(된) 오디오 컨텐츠(6400)는 해당 위치의 몰입형 뷰가 컴퓨팅 디바이스(100)에 제공될 때 출력 디바이스(170)를 통해 재생될 수 있는 오디오 녹음일 수 있다. 예를 들어, 통합 오디오 컨텐츠(6400)는 기계-생성 녹음 또는 실제 녹음일 수 있다. 예를 들어, 통합 오디오 컨텐츠(6400)는 특정 시간 및/또는 특정 조건 하에서 해당 위치의 상태에 대한 정확한 표현을 제공할 수 있다. 또한, 통합 오디오 컨텐츠(6400)는 특정 시간 및/또는 특정 조건(예를 들어, 기상 조건) 하에서 해당 장소의 무드, 분위기 또는 느낌을 나타낼 수 있다. 예를 들어, 선택된 오디오 컨텐츠는 (예를 들어, 한 번에 캡처되거나 및/또는 해당 위치의 몰입형 뷰에 대한 요청과 관련된 시간 및/또는 기타 조건에 대응하는 일부 다른 조건 하에서 캡처된) 몰입형 뷰에 대한 요청과 관련된 기준을 만족할 수 있다.
예를 들어, 도 7은 본 발명의 하나 이상의 예시적인 실시예에 따른 사용자가 사용자-생성 컨텐츠를 업로드할 수 있게 하는 사용자 인터페이스 화면을 갖는 예시적인 컴퓨팅 디바이스(7000)(컴퓨팅 디바이스(100)에 대응함)를 도시한다. 예를 들어, 도 7은 사용자가 예를 들어 몰입형 뷰 애플리케이션(132) 및 네트워크(400)를 통해 서버 컴퓨팅 시스템(300), 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390) 중 하나 이상에 사진을 추가할 수 있도록 하는 사용자 인터페이스 요소(7200)를 포함한 다양한 사용자 인터페이스 요소를 포함하는 사용자 인터페이스 화면(7100)을 도시한다. 예를 들어, 사용자 인터페이스 요소(7300)는 사용자가 예를 들어 내비게이션 애플리케이션(134)을 통해 특정 위치에 대한 길안내를 얻기 위해 선택 가능할 수 있다.
일부 구현예에서, 사용자 인터페이스 요소(7200)가 선택되면 사용자가 위치의 이미지를 캡처할 수 있도록 이미지 캡처기(182)가 활성화된다. 일부 구현에서, 사용자 인터페이스 요소(7200)가 선택될 때 사용자는 예를 들어 몰입형 뷰 애플리케이션(132) 및 네트워크(400)를 통해 서버 컴퓨팅 시스템(300), 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390) 중 하나 이상에 업로드하기 위해 컴퓨팅 디바이스(7000)에 로컬로 저장되거나 원격으로 저장된 사진을 선택할 수 있다.
도 7에는 도시되지 않았지만, 다른 사용자 인터페이스 요소가 제공될 수도 있다. 예를 들어, 오디오 컨텐츠를 추가하기 위한 사용자 인터페이스 요소가 또한 제공될 수 있다. 일부 구현에서, 오디오 컨텐츠를 추가하기 위한 사용자 인터페이스 요소가 선택되면 사용자가 하나의 위치에서 사운드를 캡처(녹음)할 수 있도록 사운드 캡처기(184)가 활성화된다. 일부 구현에서, 오디오 컨텐츠를 추가하기 위한 사용자 인터페이스 요소가 선택될 때 사용자는 예를 들어 몰입형 뷰 애플리케이션(132) 및 네트워크(400)를 통해 서버 컴퓨팅 시스템(300), 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390) 중 하나 이상에 업로드하기 위해 컴퓨팅 디바이스(7000)에 로컬로 저장되거나 원격으로 저장된 녹음을 선택할 수 있다.
서버 컴퓨팅 시스템(300), 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390) 중 하나 이상에 업로드되는 미디어 컨텐츠는 미디어 컨텐츠에 관한 다양한 정보를 포함한다.
예를 들어, 카메라(예를 들어, 이미지 캡처기(182))에 의해 캡처된 미디어 컨텐츠는 해당 위치의 이미지 및 그 이미지(또는 이미지의 일부)와 연관된 해당 위치의 3D 장면에 해당 이미지를 통합하는데 유용한 다양한 정보(예를 들어, 메타데이터, 시맨틱 데이터 등)를 포함할 수 있다. 예를 들어, 이미지에는 이미지가 촬영된 날짜, 이미지가 촬영된 시간, 및 이미지가 촬영된 위치를 나타내는 위치 정보(예를 들어, GPS 위치) 등이 포함될 수 있다. 예를 들어, 설명형 메타데이터는 이미지와 함께 제공될 수 있으며, 이미지와 관련된 키워드, 이미지의 제목 또는 이름, 이미지가 캡처된 당시의 환경 정보(예를 들어, 휘도 레벨을 포함하는 조명 조건, 데시벨 레벨을 포함하는 소음 조건, 기온, 바람, 강수량, 흐림, 습도 등을 포함한 기상 조건을 포함하는 기상 정보) 등을 포함할 수 있다. 환경 정보는 이미지를 캡처하는데 사용된 컴퓨팅 디바이스(7000)의 센서로부터 또는 다른 컴퓨팅 디바이스로부터 획득될 수 있다.
예를 들어, 마이크로폰(예를 들어, 사운드 캡처기(184))에 의해 캡처된 미디어 컨텐츠는 위치와 관련된 오디오를 포함할 수 있다. 오디오 컨텐츠는 오디오 컨텐츠(또는 오디오의 일부)를 그 오디오 컨텐츠와 연관된 위치의 3D 장면과 통합하는데 유용한 다양한 정보(예를 들어, 메타데이터, 시맨틱 데이터 등)를 포함할 수 있다. 예를 들어, 오디오 컨텐츠에는 오디오가 캡처된 날짜, 오디오가 캡처된 시간, 오디오 유형, 오디오가 캡처된 위치를 나타내는 위치 정보(예를 들어, GPS 위치) 등이 포함될 수 있다. 예를 들어, 설명형 메타데이터는 오디오와 함께 제공될 수 있으며, 오디오와 관련된 키워드, 오디오의 제목 또는 이름, 오디오의 음악 장르, 오디오가 캡처된 당시의 환경 정보(예를 들어, 휘도 레벨을 포함하는 조명 조건, 데시벨 레벨을 포함하는 소음 조건, 기온, 바람, 강수량, 흐림, 습도 등을 포함한 기상 조건을 포함하는 기상 정보) 등을 포함할 수 있다. 환경 정보는 오디오를 캡처하는데 사용되는 컴퓨팅 디바이스(7000)의 센서로부터 또는 다른 컴퓨팅 디바이스로부터 획득될 수 있다.
예를 들어, 도 8a 내지 도 8b는 본 발명의 하나 이상의 예시적인 실시예에 따른 사용자가 특정 시간과 연관된 위치의 몰입형 뷰를 요청할 수 있는 예시적인 사용자 인터페이스 화면을 도시한다. 예를 들어, 도 8a는 사용자가 하루 중 다양한 시간에 위치의 몰입형 뷰를 요청할 수 있게 하는 시간 슬라이더 위젯에 해당하는 사용자 인터페이스 요소(8200)를 포함한 다양한 사용자 인터페이스 요소를 포함하는 사용자 인터페이스 화면(8100)을 디스플레이하는 컴퓨팅 디바이스(8000)를 도시한다. 예를 들어, 도 8b는 사용자가 하루 중 다양한 시간에 위치의 몰입형 뷰를 요청할 수 있게 하는 시간 슬라이더 위젯에 해당하는 사용자 인터페이스 요소(8200')를 포함한 다양한 사용자 인터페이스 요소를 포함하는 사용자 인터페이스 화면(8100')을 디스플레이하는 컴퓨팅 디바이스(8000)를 도시한다.
예를 들어, 사용자 인터페이스 화면(8100)은 오후 1시 4분의 웨스트민스터의 몰입형 뷰를 디스플레이하는 반면, 사용자 인터페이스 화면(8100')은 오후 9시 15분의 웨스트민스터의 몰입형 뷰를 디스플레이한다. 예를 들어, 도 8a에 도시된 몰입형 뷰는 하루 중 해당 시간의 정확한 조명 조건을 반영하고 동적 객체들은 해당 위치의 3D 장면과 통합된 차량(8300)을 포함할 수 있다. 예를 들어, 도 8b에 도시된 몰입형 뷰는 하루 중 해당 시간의 정확한 조명 조건을 반영하고 동적 객체들에는 해당 위치의 3D 장면과 통합된 헤드라이트가 켜진 차량(8300')이 포함될 수 있다.
도 8a 및 도 8b에는 도시되지 않았지만, 사용자가 다양한 조건에 따라 위치의 몰입형 뷰를 획득하라는 요청을 지정하여 해당 조건에 따라 해당 위치의 상태 표현을 정확하게 획득할 수 있는 다른 사용자 인터페이스 요소가 제공될 수 있다. 또한, 이를 통해 사용자는 해당 조건에 따라 해당 위치의 분위기를 정확하게 획득할 수 있다. 예를 들어, 기상 조건(예를 들어, 일몰 뷰, 일출 뷰, 맑은 뷰, 흐린 뷰, 비가 오는 뷰 등)를 식별하기 위한 사용자 인터페이스 요소가 제공될 수 있다. 예를 들어, 컴퓨팅 디바이스(100)의 사용자는 비가 내리는 저녁에 공원의 몰입형 뷰를 요청할 수 있다. 기상 조건(또는 요청된 몰입형 뷰와 관련된 임의의 조건)을 지정하기 위한 사용자 인터페이스 요소는 풀다운(pull-down) 메뉴, 선택 가능한 사용자 인터페이스 요소, 텍스트 상자 등의 형태일 수 있다. 예를 들어, 군중 상태(예를 들어, 혼잡하지 않음, 약간 혼잡함, 혼잡함, 매우 혼잡함 등)를 지정하기 위한 사용자 인터페이스 요소가 제공될 수 있다. 예를 들어, 컴퓨팅 디바이스(100)의 사용자는 사용자가 실제로 공원에 가지 않고도 매우 혼잡할 때 공원의 분위기를 감상할 수 있도록 매우 붐비는 것으로 간주되는 공원의 몰입형 뷰를 요청할 수 있다. 공원의 통합된 3D 장면은 방문자 수가 많은 공원의 이미지 및/또는 매우 혼잡한 공원을 나타내는 매우 시끄러운 환경을 반영하는 오디오 컨텐츠를 포함할 수 있다. 예를 들어, 조명 조건(예를 들어, 일반 주변광, 밝음, 어두움 등)을 지정하기 위한 사용자 인터페이스 요소가 제공될 수 있다. 예를 들어, 컴퓨팅 디바이스(100)의 사용자는 사용자가 실제로 공원을 방문하지 않고도 매우 밝을 때 공원의 분위기를 감상할 수 있도록 공원이 매우 밝다고 간주될 때 공원의 몰입형 뷰를 요청할 수 있다. 공원의 통합된 3D 장면은 밝은 조건 하에서 공원을 나타내는 통합 이미지를 갖는 공원의 이미지를 포함할 수 있다. 사용자는 몰입형 뷰를 요청할 때 밝기 레벨에 추가하거나 그 대신에 시간을 지정할 수도 있다.
본 개시의 예는 또한 미디어 컨텐츠를 3차원 장면과 통합하기 위한 컴퓨터 구현 방법에 관한 것이다. 도 9는 본 개시의 하나 이상의 예시적인 실시예에 따른 예시적이고 비제한적인 컴퓨터 구현 방법의 흐름도를 도시한다.
도 9를 참조하면, 예시적인 컴퓨터 구현 방법(9000)에서, 동작(9100)에서, 방법은 컴퓨팅 디바이스(100)가 제1 시간에 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제1 입력을 (예를 들어, 입력 디바이스(150)를 통해) 수신하는 단계를 포함한다. 예를 들어, 제1 입력은 사용자 인터페이스 화면에 제공된 사용자 인터페이스 요소(예를 들어, 도 8a에 도시된 사용자 인터페이스 요소(8200))의 선택을 통해 제공될 수 있다. 예를 들어, 제1 입력은 특정 시간에 해당 위치의 분위기(예를 들어, 4월 오후 1시쯤 웨스트민스터의 분위기) 나타내는 해당 위치의 제1 몰입형 뷰에 대한 요청을 나타낼 수 있다.
동작(9200)에서, 방법은 컴퓨팅 디바이스(100)가 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면과, 해당 위치의 3D 장면과 통합된 제1 미디어 컨텐츠를 포함하는 해당 위치의 제1 몰입형 뷰를 제공하는 단계를 포함한다. 예를 들어, 제1 미디어 컨텐츠는 제1 시간에 해당 위치의 제1 상태를 나타낸다. 예를 들어, 도 8a에서 컴퓨팅 디바이스(100)는 제1 미디어 컨텐츠가 차량(8300)을 포함하는 동적 객체를 포함할 수 있는 웨스트민스터의 제1 몰입형 뷰를 제공한다.
동작(9300)에서, 방법은 컴퓨팅 디바이스(100)가 제2 시간에 해당 위치의 제2 상태를 나타내는 해당 위치의 제2 몰입형 뷰를 요청하는 제2 입력을 (예를 들어, 입력 디바이스(150)를 통해) 수신하는 단계를 포함한다. 예를 들어, 제2 입력은 사용자 인터페이스 화면에 제공된 사용자 인터페이스 요소(예를 들어, 도 8b에 도시된 사용자 인터페이스 요소(8200'))의 선택을 통해 제공될 수 있다. 예를 들어, 제2 입력은 다른 특정 시간에 해당 위치의 상태를 정확하게 나타내는 해당 위치의 제2 몰입형 뷰에 대한 요청을 나타낼 수 있다. 또한, 이러한 제2 몰입형 뷰는 다른 특정 시간에 해당 위치가 어떻게 느껴지는지(예를 들어, 4월 오후 9시쯤 웨스트민스터가 어떻게 느끼는지)를 나타낼 수 있다.
동작(9400)에서, 방법은 컴퓨팅 디바이스(100)가 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면과, 해당 위치의 3D 장면과 통합된 제2 미디어 컨텐츠를 포함하는 해당 위치의 제2 몰입형 뷰를 제공하는 단계를 포함한다. 예를 들어, 제2 미디어 컨텐츠는 제2 시간에 해당 위치의 제2 상태를 나타낸다. 예를 들어, 도 8b에서 컴퓨팅 디바이스(100)는 웨스트민스터의 제2 몰입형 뷰를 제공하며, 여기서 제2 미디어 컨텐츠는 헤드라이트가 켜져 있는 차량(8300')을 포함하는 동적 객체를 포함할 수 있다.
본 명세서에 이미 설명된 바와 같이, 제1 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠, 기계-생성 미디어 컨텐츠, 또는 이들의 조합을 포함할 수 있다. 사용자-생성 미디어 컨텐츠에는 사용자-생성 시각적 컨텐츠, 사용자-생성 오디오 컨텐츠, 또는 이들의 조합이 포함될 수 있다. 기계-생성 미디어 컨텐츠에는 기계-생성 시각적 컨텐츠, 기계-생성 오디오 컨텐츠, 또는 이들의 조합이 포함될 수 있다.
일부 구현에서, 컴퓨팅 디바이스(100)는 사용자-생성 미디어 컨텐츠를 서버 컴퓨팅 시스템(300) 또는 다른 데이터베이스(예를 들어, 사용자-생성 컨텐츠 데이터 저장소(350), 기계-생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 내비게이션 데이터 저장소(380) 및 사용자 데이터 저장소(390) 들)로 전송할 수 있다. 추가 미디어 컨텐츠로 데이터 저장소들을 업데이트한 결과, 사용자-생성 컨텐츠와 연관된 위치들의 향후 가상 렌더링은 업데이트되거나 컴퓨팅 디바이스(100)를 통해 사용자에 의해 추가된 사용자-생성 미디어 컨텐츠를 포함할 수 있다. 예를 들어, 컴퓨팅 디바이스(100)에 의해 구현되는 방법은 입력 디바이스(150)를 통해 제3 입력을 수신하는 단계와, 컴퓨팅 디바이스(100)의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠를 제공하는 단계를 포함할 수 있으며, 사용자-생성 미디어 컨텐츠는 제1 시간과 시간적으로 연관된(예를 들어, 4월 오후 1시경, 또는 오후 1경쯤에 캡처된 웨스트민스터의 이미지). 방법은 사용자 생성 미디어 컨텐츠를 제1 시간에 해당 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 제공하도록 구성된 서버 컴퓨팅 시스템(300)로, 또는 데이터베이스(예를 들어, 사용자 생성 컨텐츠 데이터 저장소(350), 기계 생성 컨텐츠 데이터 저장소(360), POI 데이터 저장소(370), 탐색 데이터 저장소(380) 및 사용자 데이터 저장소(390))를 포함하는 다른 컴퓨팅 디바이스로 전송하는 단계를 더 포함한다. 방법은 제1 시간에 해당 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제4 입력을 입력 디바이스(150)를 통해 수신하는 단계 및, 디스플레이 디바이스(160)에서의 프리젠테이션을 위해, 복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면, 및 해당 위치의 3D 장면과 통합된 업데이트된 제1 미디어 컨텐츠를 포함하는 해당 위치의 제1 실감형 뷰를 제공하는 단계를 더 포하하고, 업데이트된 제1 미디어 컨텐츠는 제1 시간에 해당 위치의 제1 상태를 나타내고 컴퓨팅 디바이스(100)의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠의 적어도 일부를 포함한다. 즉, 특정 시간에 위치와 연관된 통합 3D 장면은 특정 시간에 해당 위치와 연관된 컴퓨팅 디바이스(100)에 의해 캡처된 후속 미디어 컨텐츠에 기초하여 업데이트될 수 있다. 따라서, 해당 위치에서 사용자에 의해 캡처된 최근 경험과 미디어 컨텐츠에 기초하여 시간이 지남에 따라 해당 위치의 상태에 대한 정확한 표현이 계속 업데이트될 수 있다. 또한, 해당 장소에서 사용자에 의해 캡처된 최근 경험과 미디어 컨텐츠에 기초하여 해당 장소의 분위기나 느낌이 시간이 지남에 따라 계속 업데이트될 수 있다.
본 명세서에서는 "모듈", "유닛" 등을 포함하는 일반적인 용어가 사용되는 범위까지, 이들 용어는 특정 태스크를 수행하는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application-Specific Integrated Circuit)과 같은 소프트웨어나 하드웨어 구성 요소 또는 디바이스를 지칭할 수 있지만 이에 한정되지는 않는다. 모듈 또는 장치는 주소 지정 가능한 저장 매체에 상주하도록 구성될 수 있으며 하나 이상의 프로세서에서 실행되도록 구성될 수 있다. 따라서, 모듈 또는 유닛은 예를 들어 소프트웨어 구성 요소, 객체 지향 소프트웨어 구성 요소, 클래스 구성 요소 및 태스크 구성 요소와 같은 구성 요소, 프로세스, 기능, 속성, 절차, 서브루틴, 프로그램 코드 세그먼트, 드라이버, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조, 테이블, 어레이 및 변수를 포함할 수 있다. 구성 요소 및 모듈/유닛에 제공된 기능은 더 적은 수의 구성요소 및 모듈/유닛으로 결합되거나 추가 구성요소 및 모듈로 더 분리될 수 있다.
전술한 예시적인 실시예의 양태는 다양한 컴퓨터로 구현되는 동작들을 구현하기 위한 프로그램 명령을 포함하는 비-일시적 컴퓨터 판독 가능 매체에 기록될 수 있다. 이 매체는 또한 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 결합하여 포함할 수도 있다. 비-일시적 컴퓨터 판독 가능 매체의 예로는 하드 디스크, 플로피 디스크, 및 자기 테이프와 같은 자기 매체; CD ROM 디스크, 블루-레이 디스크 및 DVD와 같은 광학 매체; 광디스크와 같은 광자기 매체; 및 반도체 메모리, ROM, RAM, 플래시 메모리, USB 메모리 등과 같이 프로그램 명령을 저장하고 수행하기 위해 특별히 구성된 기타 하드웨어 디바이스가 있다. 프로그램 명령의 예로는 컴파일러에 의해 생성된 것과 같은 기계어 코드와, 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 상위 수준 코드가 포함된 파일이 모두 포함된다. 프로그램 명령은 하나 이상의 프로세서에 의해 실행될 수 있다. 설명된 하드웨어 디바이스는 전술한 실시예의 동작들을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 반대도 마찬가지이다. 또한, 비-일시적 컴퓨터 판독 가능 저장 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 저장될 수 있으며 컴퓨터-판독 가능 코드나 프로그램 명령들은 분산된 방식으로 저장되고 실행될 수 있다. 또한, 비-일시적 컴퓨터 판독 가능 저장 매체는 적어도 하나의 ASIC 또는 FPGA로 구현될 수도 있다.
흐름도 예시의 각 블록은 지정된 논리 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령을 포함하는 단위, 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 일부 대안적인 구현에서는 블록에 언급된 기능이 순서 없이 발생할 수 있다는 점에 유의해야 한다. 예를 들어, 연속적으로 도시된 2개의 블록은 실제로는 실질적으로 함께(동시에) 실행될 수도 있고, 관련된 기능에 따라 블록들은 때때로 역순으로 실행될 수 있다.
본 개시는 다양한 예시적인 실시예에 대해 설명되었지만, 각 예는 설명의 방식으로 제공되며 개시 내용을 제한하지 않는다. 당업자는 전술한 내용을 이해한 후 이러한 실시예에 대한 변경, 변형 및 등가물을 쉽게 생성할 수 있다. 따라서, 본 개시는 당업자에게 쉽게 명백한 바와 같이 개시된 주제에 대한 이러한 수정, 변형 및/또는 추가의 포함을 배제하지 않는다. 예를 들어, 하나의 실시예의 일부로서 예시되거나 설명된 특징들은 다른 실시예와 함께 사용되어 또 다른 실시예를 생성할 수 있다. 따라서, 본 개시는 이러한 변경, 변형 및 등가물을 포괄하도록 의도된다.

Claims (23)

  1. 방법으로서,
    복수의 이미지에 기초하여 생성된 위치의 3차원 장면을 획득하는 단계;
    해당 위치와 시간적으로 연관된 미디어 컨텐츠를 수신하는 단계;
    해당 위치의 통합(integrated) 3D 장면을 획득하기 위해 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계; 및
    미디어 컨텐츠와 해당 위치의 시간적 연관성에 기초하여 해당 위치의 상태를 나타내기 위해 해당 위치의 통합 3D 장면을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠를 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 또는 사용자-생성 오디오 컨텐츠 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 사용자-생성 미디어 컨텐츠는 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지를 포함하고, 그리고
    상기 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계는 해당 위치의 이미지로부터 하나 이상의 실제 동적 객체를 추출하는 단계 및 하나 이상의 실제 동적 객체를 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지는,
    제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제1 부분을 포함하는 해당 위치의 제1 이미지와, 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제2 부분을 포함하는 해당 위치의 제2 이미지를 포함하고,
    상기 해당 위치의 통합 3D 장면을 제공하는 단계는,
    해당 위치의 제1 3D 장면과 통합된 하나 이상의 실제 동적 객체의 제1 부분을 갖고 제1 시간과 연관된 해당 위치에 대한 제1 3D 장면을 제공하는 단계, 및
    해당 위치의 제2 3D 장면과 통합된 하나 이상의 실제 동적 객체의 제2 부분을 갖고 제2 시간과 연관된 해당 위치에 대한 제2 3D 장면을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 사용자-생성 미디어 컨텐츠는 제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제1 오디오와 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제2 오디오를 포함하고, 그리고
    상기 해당 위치의 통합 3D 장면을 제공하는 단계는,
    해당 위치의 제1 3D 장면과 통합된 제1 오디오를 갖고 제1 시간과 연관된 해당 위치에 대한 제1 3D 장면을 제공하는 단계, 및
    해당 위치의 제2 3D 장면과 통합된 제2 오디오를 갖고 제2 시간과 연관된 해당 위치에 대한 제2 3D 장면을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 미디어 컨텐츠는 기계-생성 미디어 컨텐츠를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 또는 기계-생성 오디오 컨텐츠 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  9. 제7항 또는 제8항에 있어서,
    상기 기계-생성 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠에 기초하여 합성되는 것을 특징으로 하는 방법.
  10. 제9항에 있어서,
    상기 사용자-생성 미디어 컨텐츠는 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지를 포함하고, 그리고 상기 방법은,
    이미지로부터 하나 이상의 실제 동적 객체를 추출하는 단계; 및
    하나 이상의 실제 동적 객체를 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현으로 변환하는 단계를 더 포함하고, 그리고
    상기 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계는 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현을 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  11. 제10항에 있어서,
    상기 하나 이상의 실제 동적 객체는 하나 이상의 인간을 포함하고, 그리고
    상기 하나 이상의 실제 동적 객체의 대응하는 그래픽 표현은 하나 이상의 인간의 대응하는 3D 디지털 아바타를 포함하는 것을 특징으로 하는 방법.
  12. 제10항 또는 제11항에 있어서,
    상기 하나 이상의 실제 동적 객체를 포함하는 해당 위치의 이미지는,
    제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제1 부분을 포함하는 해당 위치의 제1 이미지와 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 하나 이상의 실제 동적 객체의 제2 부분을 포함하는 해당 위치의 제2 이미지를 포함하고, 그리고
    상기 해당 위치의 통합 3D 장면을 제공하는 단계는,
    해당 위치의 제1 3D 장면과 통합된 하나 이상의 실제 동적 개체의 제1 부분에 대응하는 제1 그래픽 표현을 갖고 제1 시간과 연관된 해당 위치에 대한 제1 3D 장면을 제공하는 단계, 및
    해당 위치의 제2 3D 장면과 통합된 하나 이상의 실제 동적 개체의 제2 부분에 대응하는 제2 그래픽 표현을 갖고 제2 시간과 연관된 해당 위치에 대한 제2 3D 장면을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  13. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 사용자-생성 미디어 컨텐츠는 제1 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제1 오디오 및 제2 시간에 하나 이상의 사용자에 의해 해당 위치에서 캡처된 제2 오디오를 포함하고, 그리고 상기 방법은,
    제1 오디오에 기초하여 제1 합성 오디오 녹음을 합성하는 단계, 및 제2 오디오에 기초하여 제2 합성 오디오 녹음을 합성하는 단계를 더 포함하고, 그리고
    상기 해당 위치의 3D 장면과 통합된 미디어 컨텐츠의 적어도 일부를 갖는 해당 위치의 3D 장면을 제공하는 단계는,
    해당 위치의 제1 3D 장면과 통합된 제1 합성 오디오 녹음을 갖고 제1 시간과 연관된 해당 위치에 대한 제1 3D 장면을 제공하는 단계, 및
    해당 위치의 제2 3D 장면과 통합된 제2 합성 오디오 녹음을 갖고 제2 시간과 연관된 해당 위치에 대한 제2 3D 장면을 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  14. 제7항 내지 제13항 중 어느 한 항에 있어서,
    해당 위치에 배치된 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 기계-생성 미디어 컨텐츠를 합성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  15. 제14항에 있어서,
    상기 해당 위치에 배치된 하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여 기계-생성 미디어 컨텐츠를 합성하는 단계는,
    하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여, 제1 시간에 해당 위치에 있는 사람의 수를 결정하는 단계,
    하나 이상의 센서에 의해 획득된 센서 데이터에 기초하여, 제1 시간에 해당 위치에 있는 사람들에 관한 특징을 결정하는 단계, 및
    제1 시간에 해당 위치의 상태를 나타내기 위해, 제1 시간에 해당 위치에 있는 사람들의 특징 및 사람들의 수에 따라 래당 위치에 있는 사람들의 그래픽 표현을 생성하는 단계를 포함하고, 그리고
    상기 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 단계는 사람들의 그래픽 표현을 배치하기 위해 3D 장면 내의 하나 이상의 위치를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  16. 컴퓨팅 디바이스로서,
    명령들을 저장하기 위한 적어도 하나의 메모리; 및
    임의의 선행하는 항의 방법을 수행하기 위해 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하는 컴퓨팅 디바이스.
  17. 적어도 하나의 프로세서에서 실행될 때 적어도 하나의 프로세서로 하여금 제1항 내지 제15항 중 어느 한 항의 방법을 수행하게 하는 명령들을 포함하는 컴퓨터 프로그램.
  18. 프로세서에 의해 실행될 때 프로세서로 하여금 제1항 내지 제15항 중 어느 한 항의 방법을 수행하게 하는 명령들을 저장한 비-일시적 컴퓨터 판독 가능 매체.
  19. 컴퓨팅 디바이스로서,
    입력 디바이스;
    디스플레이 디바이스;
    명령들을 저장하기 위한 적어도 하나의 메모리; 및
    동작들을 수행하기 위해 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 동작들은,
    제1 시간에 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제1 입력을 입력 디바이스를 통해 수신하는 동작과,
    디스플레이 디바이스에 프리젠테이션하기 위해,
    복수의 이미지에 기초하여 생성된 해당 위치의 3차원 장면, 및
    해당 위치의 3D 장면과 통합된 제1 미디어 컨텐츠 - 제1 미디어 컨텐츠는 제1시간에 해당 위치의 제1 상태를 나타냄 - 를 포함하는,
    해당 위치의 제1 몰입형 뷰를 제공하는 동작과,
    제2 시간에 해당 위치의 제2 상태를 나타내는 해당 위치의 제2 몰입형 뷰를 요청하는 제2 입력을 입력 디바이스를 통해 수신하는 동작과,
    디스플레이 디바이스에 프리젠테이션하기 위해,
    복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면, 및
    해당 위치의 3D 장면과 통합된 제2 미디어 컨텐츠 - 제2 미디어 컨텐츠는 제2 시간에 해당 위치의 제2 상태를 나타냄 - 를 포함하는,
    해당 위치의 제1 몰입형 뷰를 제공하는 동작을 포함하는 것을 특징으로 하는 컴퓨팅 디바이스.
  20. 제19항에 있어서,
    상기 제1 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠 또는 기계-생성 미디어 컨텐츠 중 적어도 하나를 포함하고,
    상기 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 또는 사용자-생성 오디오 컨텐츠 중 적어도 하나를 포함하고,
    상기 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 또는 기계-생성 오디오 컨텐츠 중 적어도 하나를 포함하는 것을 특징으로 하는 컴퓨팅 디바이스.
  21. 제19항 또는 제20항에 있어서,
    상기 동작들은,
    입력 디바이스를 통해 제3 입력을 수신하고, 컴퓨팅 디바이스의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠를 제공하는 동작 - 사용자-생성 미디어 컨텐츠는 제1시간과 일시적으로 연관된 - 과,
    사용자-생성 미디어 컨텐츠를, 제1 시간에 해당 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 제공하도록 구성된 서버 컴퓨팅 시스템 또는 데이터베이스 중 적어도 하나로 전송하는 동작과,
    제1 시간에 해당 위치의 제1 상태를 나타내는 해당 위치의 제1 몰입형 뷰를 요청하는 제4 입력을 입력 디바이스를 통해 수신하는 동작과,
    디스플레이 디바이스에 프리젠테이션하기 위해,
    복수의 이미지에 기초하여 생성된 해당 위치의 3D 장면, 및
    해당 위치의 3D 장면과 통합된 업데이트된 제1 미디어 컨텐츠 - 업데이트된 제1 미디어 컨텐츠는 제1 시간에 해당 위치의 제2 상태를 나타내고 컴퓨팅 디바이스의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠의 적어도 일부를 포함함 - 를 포함하는,
    해당 위치에 대한 제1 몰입형 뷰를 제공하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨팅 디바이스.
  22. 서버 컴퓨팅 시스템으로서,
    명령들을 저장하기 위한 적어도 하나의 메모리; 및
    동작들을 수행하기 위해 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 동작들은,
    복수의 이미지에 기초하여 생성된 위치의 3차원 장면을 획득하는 동작과,
    해당 위치와 일시적으로 연관된 미디어 컨텐츠를 수신하는 동작과,
    해당 위치의 통합 3D 장면을 제공하기 위해 미디어 컨텐츠의 적어도 일부를 해당 위치의 3D 장면과 통합하는 동작과, 그리고
    미디어 컨텐츠와 해당 위치의 시간적 연관성에 기초하여 해당 위치의 상태를 나타내기 위해 해당 위치의 통합 3D 장면을 제공하는 동작을 포함하는 것을 특징으로 하는 서버 컴퓨팅 시스템.
  23. 제22항에 있어서,
    상기 미디어 컨텐츠는 하나 이상의 사용자에 의해 캡처된 사용자-생성 미디어 컨텐츠 또는 기계-생성 미디어 컨텐츠 중 적어도 하나를 포함하고,
    상기 사용자-생성 미디어 컨텐츠는 사용자-생성 시각적 컨텐츠 또는 사용자-생성 오디오 컨텐츠 중 적어도 하나를 포함하고,
    상기 기계-생성 미디어 컨텐츠는 기계-생성 시각적 컨텐츠 또는 기계-생성 오디오 컨텐츠 중 적어도 하나를 포함하는 것을 특징으로 하는 서버 컴퓨팅 시스템.
KR1020237041054A 2022-11-23 3차원 장면과 미디어 컨텐츠 통합 KR20240090122A (ko)

Publications (1)

Publication Number Publication Date
KR20240090122A true KR20240090122A (ko) 2024-06-21

Family

ID=

Similar Documents

Publication Publication Date Title
US8494215B2 (en) Augmenting a field of view in connection with vision-tracking
US8943420B2 (en) Augmenting a field of view
JP6456901B2 (ja) 自律走行車においてメディアコンテンツを提示するためのシステム及び方法
US11514672B2 (en) Sensor based semantic object generation
Emmanouilidis et al. Mobile guides: Taxonomy of architectures, context awareness, technologies and applications
US9429435B2 (en) Interactive map
US20190266404A1 (en) Systems, Methods and Apparatuses to Generate a Fingerprint of a Physical Location for Placement of Virtual Objects
US9104293B1 (en) User interface points of interest approaches for mapping applications
KR101962394B1 (ko) 맵 지형지물의 현저성-기반 발생 및 렌더링
KR101213868B1 (ko) 가상 세계
US8675912B2 (en) System and method for initiating actions and providing feedback by pointing at object of interest
US10573348B1 (en) Methods, systems and apparatuses for multi-directional still pictures and/or multi-directional motion pictures
US20120221552A1 (en) Method and apparatus for providing an active search user interface element
JP6681029B2 (ja) ルート・ロギング・システムおよび方法、並びにモバイルクライアント装置
US11289084B2 (en) Sensor based semantic object generation
JP2017507589A (ja) ジオフェンスのプロビジョニングのための方法および装置
KR20150126289A (ko) 증강현실 기반 소셜 네트워크 서비스 정보를 제공하는 내비게이션 장치와 메타데이터 처리장치 및 그 방법
US20150234547A1 (en) Portals for visual interfaces
US10451431B2 (en) Route search system, route search device, route search method, program, and information storage medium
Abraham Where Do We Go from Here?: Understanding Mobile Map Design
KR20240090122A (ko) 3차원 장면과 미디어 컨텐츠 통합
EP4396786A1 (en) Integrating media content with a three-dimensional scene
WO2024112337A1 (en) Integrating media content with a three-dimensional scene
CN114450655B (zh) 量化增强现实交互的系统和方法
US20230324553A1 (en) Method, apparatus, and system for extracting point-of-interest features using lidar data captured by mobile devices