KR20200020913A - 미디어 정보를 처리하는 방법 및 장치 - Google Patents

미디어 정보를 처리하는 방법 및 장치 Download PDF

Info

Publication number
KR20200020913A
KR20200020913A KR1020207002474A KR20207002474A KR20200020913A KR 20200020913 A KR20200020913 A KR 20200020913A KR 1020207002474 A KR1020207002474 A KR 1020207002474A KR 20207002474 A KR20207002474 A KR 20207002474A KR 20200020913 A KR20200020913 A KR 20200020913A
Authority
KR
South Korea
Prior art keywords
information
metadata
media
viewport
media data
Prior art date
Application number
KR1020207002474A
Other languages
English (en)
Inventor
페이윤 디
칭펭 시에
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20200020913A publication Critical patent/KR20200020913A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4345Extraction or processing of SI, e.g. extracting service information from an MPEG stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/613Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for the control of the source by the destination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/756Media network packet handling adapting media to device capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/2804
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/561Adding application-functional data or data for application control, e.g. adding metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명의 실시 예는 미디어 정보를 처리하는 방법 및 장치를 개시한다. 상기 방법은 미디어 데이터의 메타 데이터 정보를 획득하는 단계 - 여기서, 메타 데이터 정보는 메타 데이터의 소스 정보를 포함하고, 소스 정보는 미디어 데이터의 추천자(recommender)를 표시하기 위해 사용되고, 미디어 데이터는 전 방향(omnidirectional) 미디어 데이터임 -; 및 메타 데이터의 소스 정보에 기초하여 미디어 데이터를 처리하는 단계를 포함한다. 본 발명의 실시 예의 미디어 정보 처리 방법 및 장치에 따르면, 클라이언트는 데이터 처리 중 미디어 데이터의 추천 당사자(recommending party)의 정보를 참조할 수 있으므로, 사용자 선택을 풍부하게 하고 사용자 경험을 향상시킬 수 있다.

Description

미디어 정보를 처리하는 방법 및 장치
본 발명은 스트리밍 미디어 전송 기술 분야, 특히 미디어 정보 처리 방법 및 장치에 관한 것이다.
ISO/IEC 23090-2 표준 사양은 전 방향 미디어 포맷(Omnidirectional media format, OMAF) 표준 사양이라고도 한다. 이 사양은 어플리케이션에서 전 방향(omnidirectional) 미디어의 프레젠테이션(presentation)을 구현할 수 있는 미디어 어플리케이션 포맷(media application format)을 정의한다. 전 방향 미디어는 주로 전 방향 비디오(360° 비디오) 및 연관 오디오를 나타낸다. OMAF 사양은 먼저 구형 비디오(spherical video)를 2차원 비디오로 변환하기 위해 사용할 수 있는 프로젝션 방법 목록을 지정한 다음, ISO 기반 미디어 파일 포맷(ISO base media file format, ISOBMFF)을 사용하여 미디어와 연관된 전 방향 미디어 및 메타 데이터를 저장하는 방법 및 미디어 스트리밍 시스템, 예를 들어, ISO/IEC 23009-1 표준에 명시된 DASH(Dynamic Adaptive Streaming over HTTP(HyperText Transfer Protocol, HTTP))에서 전 방향 미디어의 데이터를 캡슐화 및 전송하는 방법을 명시한다.
ISO 기반 미디어 파일 포맷은 박스(box) 시퀀스를 포함하고, 박스는 메타 데이터 박스 및 미디어 데이터 박스를 포함하는 다른 박스를 포함할 수 있다. 메타 데이터 박스(moov box)는 메타 데이터를 포함하고, 미디어 데이터 박스(mdat box)는 미디어 데이터를 포함한다. 메타 데이터 박스 및 미디어 데이터 박스는 동일한 파일 또는 별도의 파일에 존재할 수 있다. ISO 기반 미디어 파일 포맷을 사용하여 타임드 메타 데이터(timed metadata)를 캡슐화하면, 메타 데이터 박스는 타임드 메타 데이터를 기술하는 메타 데이터를 포함하고, 미디어 데이터 박스는 타임드 메타 데이터를 포함한다.
종래 기술에서, 클라이언트는 데이터의 소스를 정확하게 식별할 수 없기 때문에, 클라이언트가 메타 데이터에 기초하여 미디어 데이터를 선택하는 경우, 사용자 요구 사항이 완전히 충족될 수 없고, 사용자 경험이 비교적 열악하다.
본 발명의 실시 예는, 클라이언트가 메타 데이터의 소스에 기초하여 상이한 처리 방식을 선택할 수 있도록 하기 위한 미디어 정보 처리 방법 및 장치를 제공한다.
본 발명의 제1 측면의 일 실시 예에서, 미디어 정보 처리 방법이 개시되며, 상기 정보 처리 방법은,
미디어 데이터의 메타 데이터 정보를 획득하는 단계 - 여기서, 메타 데이터 정보는 메타 데이터의 소스 정보를 포함하고, 소스 정보는 미디어 데이터의 추천자(recommender)를 표시하기 위해 사용되고, 미디어 데이터는 전 방향(omnidirectional) 미디어 데이터임 -; 및
메타 데이터의 소스 정보에 기초하여 미디어 데이터를 처리하는 단계를 포함한다.
본 발명의 본 실시 예에서 전 방향 미디어 데이터는 비디오 데이터 또는 오디오 데이터일 수 있다. 가능한 일 구현에서, 전 방향 미디어의 관련 예에 대해서는, ISO/IEC 23090-2 표준 사양의 관련 규정을 참조할 수 있다.
가능한 일 구현에서, 메타 데이터는, 비디오 데이터에 대응하는 듀레이션(duration), 비트 레이트, 프레임 레이트, 구형 좌표계에서의 위치 등과 같은 비디오 데이터의 일부 속성에 관한 정보이다.
가능한 일 구현에서, 전 방향 비디오의 영역은, 전 방향 비디오에 대응하는 비디오 공간의 영역이다.
가능한 일 구현에서, 메타 데이터의 소스 정보는, 메타 데이터에 대응하는 비디오 데이터가 전 방향 비디오의 저자(author)에 의해 추천됨을 나타낼 수 있거나, 메타 데이터에 대응하는 비디오 데이터가 전 방향 비디오의 사용자에 의해 추천됨을 나타낼 수 있거나, 복수의 사용자에 의한 전 방향 비디오를 시청한 결과에 대한 통계가 수집된 후에 메타 데이터에 대응하는 비디오 데이터가 추천됨을 나타낼 수 있다.
본 발명의 본 실시 예에서의 미디어 정보 처리 방법에 따르면, 미디어 데이터의 추천자에 관한 정보는 데이터 처리 중 클라이언트에 대한 참조로서 사용될 수 있으므로, 사용자에 대한 선택을 증가시키고 사용자 경험을 향상시킨다.
본 발명의 본 실시 예의 가능한 일 구현에서, 미디어 데이터의 메타 데이터 정보를 획득하는 단계는,
미디어 데이터의 메타 데이터 트랙(track)을 획득하는 단계 - 여기서, 메타 데이터 트랙은 메타 데이터의 소스 정보를 포함함 - 를 포함한다.
가능한 일 구현에서, 메타 데이터 트랙의 어드레스 정보는 미디어 프레젠테이션 서술 파일(media presentation description file)을 사용하여 획득될 수 있고, 그 다음 정보 획득 요청이 해당 어드레스에 송신되어, 미디어 데이터의 메타 데이터 트랙을 수신 및 획득할 수 있다.
가능한 일 구현에서, 메타 데이터 트랙의 어드레스 정보는 별도의 파일을 사용하여 획득될 수 있고, 그 다음 정보 획득 요청이 해당 어드레스에 송신되어, 미디어 데이터의 메타 데이터 트랙을 수신 및 획득할 수 있다.
가능한 일 구현에서, 서버는 미디어 데이터의 메타 데이터 트랙을 클라이언트에 송신한다.
가능한 일 구현에서, 트랙(track)은 ISO 기반 미디어 파일 포맷(ISO base media file format, ISOBMFF)에 따라 캡슐화된 샘플의 타임드 시퀀스(timed sequence)이다. 예를 들어, 비디오 트랙, 비디오 샘플은, 비디오 인코더가 각각의 프레임을 인코딩한 후에 생성되는 비트 스트림을 ISOBMFF의 사양에 따라 캡슐화함으로써 획득된다. 트랙의 구체적인 정의에 대해서는 ISO/IEC 14496-12의 관련 설명을 참조할 수 있다.
가능한 일 구현에서, 미디어 프레젠테이션 서술 파일의 관련 속성 및 데이터 구조에 대해서는 ISO/IEC 23009-1의 관련 설명을 참조할 수 있다.
가능한 일 구현에서, 메타 데이터의 소스 정보는 메타 데이터 트랙의 새로 추가된 박스(box)에 저장될 수 있고, 메타 데이터의 소스 정보는 박스 내의 데이터를 파싱(parsing)함으로써 획득될 수 있다.
가능한 일 구현에서, 메타 데이터의 소스 정보는 메타 데이터 트랙의 기존 박스에 추가된 속성일 수 있고, 메타 데이터의 소스 정보는 속성을 파싱함으로써 획득될 수 있다.
메타 데이터의 소스 정보는 메타 데이터 트랙에 캡슐화되어, 클라이언트는 메타 데이터 트랙을 획득할 때 메타 데이터의 소스 정보를 획득할 수 있고, 클라이언트는 메타 데이터의 다른 속성 및 메타 데이터의 소스 정보를 종합적으로 고려하여, 연관된 미디어 데이터에 대한 후속 처리를 수행할 수 있다.
본 발명의 본 실시 예의 가능한 일 구현에서, 미디어 데이터의 메타 데이터 정보를 획득하는 단계는,
미디어 데이터의 미디어 프레젠테이션 서술 파일을 획득하는 단계 - 여기서, 미디어 프레젠테이션 서술 파일은 메타 데이터의 소스 정보를 포함함 - 를 포함한다.
클라이언트는 HTTP 요청을 서버에 송신함으로써 미디어 프레젠테이션 서술 파일을 획득할 수 있거나, 서버는 미디어 프레젠테이션 서술 파일을 클라이언트에 직접 푸시할 수 있다. 클라이언트는 대안적으로 다른 가능한 방식으로 미디어 프레젠테이션 서술 파일을 획득할 수 있다. 예를 들어, 클라이언트는 다른 클라이언트 측과 상호 작용함으로써 미디어 프레젠테이션 서술 파일을 획득할 수 있다.
가능한 일 구현에서, 미디어 프레젠테이션 서술 파일의 관련 속성 및 데이터 구조에 대해서는 ISO/IEC 23009-1의 관련 설명을 참조할 수 있다.
가능한 일 구현에서, 메타 데이터의 소스 정보는 서술자(descriptor)에 표시된 정보일 수 있거나, 메타 데이터의 소스 정보는 속성 정보일 수 있다.
가능한 일 구현에서, 메타 데이터의 소스 정보는 미디어 프레젠테이션 서술 파일에서 적응 세트(adaptation set) 레벨 또는 표현(representation) 레벨에 존재할 수 있다.
본 발명의 본 실시 예의 가능한 일 구현에서, 미디어 데이터의 메타 데이터 정보를 획득하는 것은,
미디어 데이터를 포함하는 비트 스트림을 획득하는 단계 - 여기서, 비트 스트림은 보충 향상 정보(supplementary enhancement information, SEI)를 더 포함하고, 보충 향상 정보는 메타 데이터의 소스 정보를 포함함 - 를 포함한다.
가능한 일 구현에서, 클라이언트는 미디어 데이터 획득 요청을 서버에 송신한 다음, 서버에 의해 송신된 미디어 데이터를 수신할 수 있다. 예를 들어, 클라이언트는 미디어 프레젠테이션 서술 파일의 관련 속성 및 주소 정보를 사용하여 URL(Uniform Resource Locator)을 구성하고, HTTP 요청을 URL에 송신한 다음, 대응하는 미디어 데이터를 수신할 수 있다.
가능한 일 구현에서, 클라이언트는 서버에 의해 푸시된 미디어 데이터 스트림을 수신할 수 있다.
본 발명의 본 실시 예의 가능한 일 구현에서, 메타 데이터의 소스 정보는 소스 타입 식별자이다. 상이한 소스 타입 식별자 또는 소스 타입 식별자의 값은 대응하는 소스 타입을 나타낼 수 있다. 예를 들어, 소스 타입을 나타내기 위해 하나의 비트를 갖는 플래그가 사용될 수 있거나, 소스 타입을 식별하기 위해 더 많은 비트를 갖는 필드가 사용될 수 있다. 일 예에서, 클라이언트 측은 소스 타입 식별자와 소스 타입 사이의 대응(correspondence)에 대한 파일을 저장하고, 이에 따라 클라이언트는 소스 타입 식별자의 상이한 값 또는 상이한 소스 타입 식별자에 기초하여 대응하는 소스 타입을 결정할 수 있다.
가능한 일 구현에서, 하나의 소스 타입은 하나의 추천자에 대응한다. 예를 들어, 소스 타입은 비디오 저자의 추천, 사용자의 추천, 또는 복수의 사용자의 시청 결과에 대한 통계가 수집된 후에 이루어진 추천일 수 있다.
본 발명의 본 실시 예의 가능한 일 구현에서, 메타 데이터의 소스 정보는 미디어 데이터의 추천자의 시맨틱 표현을 포함한다. 예를 들어, ISO-639-2/T의 코드워드는 다양한 타입의 시맨틱을 나타내기 위해 사용될 수 있다.
본 발명의 본 실시 예의 가능한 일 구현에서, 메타 데이터의 소스 정보에 기초하여 메타 데이터에 대응하는 미디어 데이터를 처리하는 것은 다음 구현을 포함한다.
클라이언트 측이 메타 데이터에 대응하는 미디어 데이터를 획득하지 않은 경우, 클라이언트 측은, 사용자에 의해 선택된 소스 정보에 기초하여 서버 측 또는 다른 단말 측으로부터 대응하는 미디어 데이터를 요청할 수 있거나;
클라이언트 측이 메타 데이터에 대응하는 미디어 데이터를 획득한 경우, 클라이언트 측은, 사용자에 의해 선택된 소스 정보에 기초하여 미디어 데이터를 제시하거나 전송할 수 있거나; 또는
상기 방법이 서버 측에서 수행되는 경우, 서버는 메타 데이터의 소스 정보에 기초하여 미디어 데이터를 클라이언트에 푸시할 수 있다.
가능한 일 구현에서, 서버는 복수의 메타 데이터 조각에 대해, 수신된 소스 정보에 기초하여 푸시될 미디어 데이터를 결정할 수 있다. 예를 들어, 서버는 표준에 따라 복수의 추천 중에서 선택을 수행한 다음, 선택 결과에 기초하여 미디어 데이터를 푸시한다. 대안적으로, 서버는 표준에 따라 복수의 추천에 대한 계산을 수행한 다음, 계산 결과에 기초하여 미디어 데이터를 푸시한다.
본 발명의 제2 측면의 일 실시 예에서, 미디어 정보 처리 장치가 제공되며, 상기 미디어 정보 처리 장치는,
미디어 데이터의 메타 데이터 정보를 획득하도록 구성된 정보 획득 모듈 - 여기서, 메타 데이터 정보는 메타 데이터의 소스 정보를 포함하고, 소스 정보는 미디어 데이터의 추천자를 표시하기 위해 사용되고, 미디어 데이터는 전 방향 미디어 데이터임 -; 및 메타 데이터의 소스 정보에 기초하여 미디어 데이터를 처리하도록 구성된 처리 모듈을 포함한다.
본 발명의 본 실시 예의 미디어 정보 처리 장치에 따르면, 미디어 데이터의 추천자에 관한 정보는 데이터 처리 중 클라이언트에 대한 참조로서 사용될 수 있으므로, 사용자에 대한 선택을 증가시키고 사용자 경험을 향상시킨다.
가능한 일 구현에서, 정보 획득 모듈은 구체적으로 미디어 데이터의 메타 데이터 트랙(track)을 획득하도록 구성되고, 메타 데이터 트랙은 메타 데이터의 소스 정보를 포함한다.
가능한 일 구현에서, 정보 획득 모듈은 구체적으로 미디어 데이터의 미디어 프레젠테이션 서술 파일을 획득하도록 구성되고, 미디어 프레젠테이션 서술 파일은 메타 데이터의 소스 정보를 포함한다.
가능한 일 구현에서, 정보 획득 모듈은 구체적으로 미디어 데이터를 포함하는 비트 스트림을 획득하도록 구성되고, 비트 스트림은 보충 향상 정보(supplementary enhancement information, SEI)를 더 포함하고, 보충 향상 정보는 메타 데이터의 소스 정보를 포함한다.
가능한 일 구현에서, 메타 데이터의 소스 정보는 소스 타입 식별자이다.
가능한 일 구현에서, 메타 데이터의 소스 정보는 미디어 데이터의 추천자의 시맨틱 표현을 포함한다.
본 발명의 장치 실시 예의 특정 예 및 구현에 대해서는, 제1 측면의 전술한 방법 실시 예의 관련 예를 참조할 수 있다. 상세한 내용은 여기에서 설명되지 않는다.
본 발명의 제3 측면의 일 실시 예에서, 미디어 정보 처리 방법이 개시되고, 상기 미디어 정보 처리 방법은,
복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보(user viewport information)의 조각을 수신하는 단계 - 여기서, 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -; 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하는 단계; 및 타깃 뷰포트에 대응하는 미디어 데이터를 송신하는 단계를 포함한다.
본 발명의 본 실시 예의 미디어 정보 처리 방법에 따르면, 후속 사용자가 비디오를 시청할 때 뷰포트를 추천하는 효과적인 방식을 제공함으로써 사용자 경험을 향상시키기 위해, 복수의 사용자가 동일한 비디오를 시청하기 위해 뷰포트에 대한 통계 분석이 수행될 수 있다.
가능한 일 구현에서, 상기 미디어 정보 처리 방법은, 예를 들어 컨텐츠 준비 서버, 컨텐츠 전달 네트워크(Content Distribution Network, CDN) 또는 프록시 서버에 의해 서버 측에서 수행된다.
가능한 일 구현에서, 클라이언트에 의해 송신된 사용자 뷰포트 정보는 별도의 파일을 사용하여 송신될 수 있거나, 클라이언트에 의해 송신된 다른 데이터 파일에 포함될 수 있다.
가능한 일 구현에서, 전 방향 미디어 및 뷰포트에 대한 설명 및 예에 대해서는, 제1 측면의 전술한 실시 예 및 특정 구현의 예를 참조할 수 있다. 상세한 내용은 여기에서 설명되지 않는다.
가능한 일 구현에서, 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하는 것은, 사전 설정된 표준 및 통계적 원리에 따라 복수의 뷰포트로부터 타깃 뷰포트를 선택하거나, 또는 일 방식으로 복수의 뷰포트의 데이터에 대한 계산을 수행하여, 타깃 뷰포트를 획득하는 것일 수 있다.
가능한 일 구현에서, 타깃 뷰포트에 대응하는 미디어 데이터는 클라이언트에 직접 푸시될 수 있거나; 또는 타깃 뷰포트에 대응하는 미디어 데이터가 전달 서버에 푸시될 수 있거나; 전 방향 미디어 데이터에 대한 클라이언트의 획득 요청이 수신되는 경우, 타깃 뷰포트에 대응하는 미디어 데이터가 클라이언트에 피드백될 수 있다.
본 발명의 제4 측면의 일 실시 예에서, 미디어 정보 처리 방법이 개시되며, 상기 미디어 정보 처리 방법은,
복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보의 조각을 수신하는 단계 - 여기서, 상기 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -; 상기 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하는 단계; 및 상기 타깃 뷰포트에 기초하여 미디어 데이터의 메타 데이터 정보를 생성하는 단계를 포함한다.
본 발명의 본 실시 예의 미디어 정보 처리 방법에 따르면, 후속 사용자가 시청할 때 뷰포트를 추천하는 효과적인 방식을 제공함으로써 사용자 경험을 향상시키기 위해, 복수의 사용자가 동일한 비디오를 시청하기 위해 뷰포트에 대한 통계 분석이 수행될 수 있다.
가능한 일 구현에서, 상기 미디어 정보 처리 방법은, 예를 들어 컨텐츠 준비 서버, 컨텐츠 전달 네트워크(Content Distribution Network, CDN) 또는 프록시 서버에 의해 서버 측에서 수행된다.
가능한 일 구현에서, 클라이언트에 의해 송신된 사용자 뷰포트 정보는 별도의 파일을 사용하여 송신될 수 있거나, 클라이언트에 의해 송신된 다른 데이터 파일에 포함될 수 있다.
가능한 일 구현에서, 전 방향 미디어 및 뷰포트에 대한 설명 및 예에 대해서는, 제1 측면의 실시 예 및 특정 구현의 예를 참조할 수 있다. 상세한 내용은 여기에서 설명되지 않는다.
가능한 일 구현에서, 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하는 것은, 사전 설정된 표준 및 통계적 원리에 따라 복수의 뷰포트로부터 타깃 뷰포트를 선택하거나, 또는 일 방식으로 복수의 뷰포트의 데이터에 대한 계산을 수행하여, 타깃 뷰포트를 획득하는 것일 수 있다.
본 발명의 제5 측면의 일 실시 예에서, 미디어 정보 처리 장치가 개시되며, 상기 미디어 정보 처리 장치는,
복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보의 조각을 수신하도록 구성된 수신기 - 여기서, 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -; 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하도록 구성된 프로세서; 및 타깃 뷰포트에 대응하는 미디어 데이터를 송신하도록 구성된 전송기를 포함한다.
본 발명의 제6 측면의 일 실시 예에서, 미디어 정보 처리 장치가 개시되며, 상기 미디어 정보 처리 장치는,
복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보의 조각을 수신하도록 구성된 수신기 - 여기서, 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -; 및 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하고 타깃 뷰포트에 기초하여 미디어 데이터의 메타 데이터 정보를 생성하도록 구성된 프로세서를 포함한다.
본 발명의 제5 측면 및 제6 측면의 장치 실시 예의 특정 예 및 구현에 대해서는, 제3 측면 및 제4 측면의 전술한 방법 실시 예에서의 관련 예를 참조할 수 있다. 상세한 내용은 여기에서 설명되지 않는다.
본 발명의 제7 측면의 일 실시 예에서, 미디어 정보 처리 장치가 개시되며, 상기 미디어 정보 처리 장치는 하나 이상의 프로세서 및 메모리를 포함한다. 메모리는 하나 이상의 프로세서에 연결된다. 메모리는 컴퓨터 프로그램 코드를 저장하도록 구성되고, 컴퓨터 프로그램 코드는 명령을 포함한다. 하나 이상의 프로세서가 명령을 실행할 때, 처리 장치는 제1 측면, 제3 측면, 제4 측면 또는 전술한 측면의 임의의 가능한 구현에 따른 미디어 정보 처리 방법을 수행한다.
본 발명의 제8 측면의 일 실시 예에서, 컴퓨터로 판독 가능한 저장 매체가 개시된다. 컴퓨터로 판독 가능한 저장 매체는 명령을 저장하고, 명령이 디바이스에서 실행될 때, 디바이스는 제1 측면, 제3 측면, 제4 측면 또는 전술한 측면의 임의의 가능한 구현에 따른 미디어 정보 처리 방법을 수행할 수 있다.
본 발명의 실시 예의 기술적 해결 방안을 보다 명확하게 설명하기 위해, 이하에서는 실시 예를 설명하기 위해 필요한 첨부 도면을 간략하게 설명한다. 명백하게, 이하의 설명에서 첨부 도면은 본 발명의 일부 실시 예를 나타낼 뿐이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 창조적 노력없이 이러한 첨부 도면으로부터 다른 도면을 도출할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 전 방향 비디오에 대한 뷰포트의 변경 예를 도시한다.
도 2는 본 발명의 일 실시 예에 따른 전 방향 비디오에 대응되는 공간을 공간 객체(spatial object)로 분할하는 예를 도시한다.
도 3은 본 발명의 일 실시 예에 따른 전 방향 비디오에 대응하는 공간에서 공간 객체의 상대 위치에 대한 개략도이다.
도 4는 본 발명의 일 실시 예에 따른 공간 객체를 설명하기 위한 좌표 시스템의 일 예를 도시한다.
도 5는 본 발명의 일 실시 예에 따른 공간 객체를 설명하기 위한 좌표 시스템의 다른 예를 도시한다.
도 6은 본 발명의 일 실시 예에 따른 공간 객체를 설명하기 위한 좌표 시스템의 또 다른 예를 도시한다.
도 7은 본 발명의 일 실시 예에 따른 방법 및 장치의 응용 시나리오의 예를 도시한다.
도 8은 본 발명의 일 실시 예에 따른 미디어 정보 처리 방법의 개략 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 미디어 정보 처리 장치의 개략 구조도이다.
도 10은 본 발명의 일 실시 예에 따른 미디어 정보 처리 장치의 특정 하드웨어의 개략도이다. 과
도 11a 및 도 11b는 본 발명의 일 실시 예에 따른 공간 객체와 비디오 데이터 사이의 매핑 관계에 대한 개략도이다.
다음은 본 발명의 실시 예의 첨부 도면을 참조하여 본 발명의 실시 예의 기술적 해결 방안을 명확하고 완전하게 설명한다.
본 발명의 일부 실시 예에서, 트랙(track)은 ISO 기반 미디어 파일 포맷(ISO base media file format, ISOBMFF)에 따라 캡슐화된 샘플의 타임드 시퀀스(timed sequence)이다. 예를 들어, 비디오 트랙, 비디오 샘플은, 비디오 인코더가 각각의 프레임을 인코딩한 후에 생성되는 비트 스트림을 ISOBMFF의 사양에 따라 캡슐화함으로써 획득된다.
트랙은 ISO/IEC 14496-12 표준에서 "timed sequence of related samples(q.v.) in an ISO base media file NOTE: For media data, a track corresponds to a sequence of images or sampled audio; for hint tracks, a track corresponds to a streaming channel." 로 정의된다.
그 번역은 다음과 같다. "ISO 기반 미디어 파일에서의 관련 샘플(q.v.)의 타임드 시퀀스 참고: 미디어 데이터의 경우, 트랙은 이미지 시퀀스 또는 샘플링된 오디오에 대응하며, 힌트 트랙의 경우, 트랙은 스트리밍 채널에 대응한다. "
ISOBMFF 파일은 복수의 박스(box)를 포함하며, 하나의 박스는 다른 박스를 포함할 수 있다.
박스는 ISO/IEC 14496-12 표준에서 "object-oriented building block defined by a unique type identifier and length. NOTE: Called 'atom' in some specifications, including the first definition of MP4." 로 정의된다.
그 번역은 다음과 같다. "고유한 타입 식별자 및 길이로 정의된 객체 지향 빌딩 블록 참고, MP4의 첫 번째 정의를 포함하여 일부 사양에서는 '아톰'이라고 한다. "
보충 향상 정보(Supplementary Enhancement Information, SEI)는 ITU(International Telecommunication Union)에서 발표한 비디오 코딩 및 디코딩 표준 h.264 및 h.265에 정의된 네트워크 액세스 유닛(Network Abstract Layer Unit, NALU)의 하나의 타입이다.
미디어 프레젠테이션 서술(Media presentation description, MPD)은 ISO/IEC 23009-1 표준에 지정된 파일로, 클라이언트가 HTTP-URL을 구성하기 위한 메타 데이터를 포함한다. MPD는 하나 이상의 구간(period) 요소를 포함하고; 각각의 구간 요소는 하나 이상의 적응 세트(adaptationset)를 포함하고; 각각의 적응 세트는 하나 이상의 표현(representation)을 포함하고; 각각의 표현은 하나 이상의 세그먼트를 포함한다. 클라이언트는 MPD의 정보를 기반으로 표현을 선택하고, 세그먼트의 HTTP-URL을 구성한다.
현재, 360도 비디오와 같은 VR 비디오를 시청하기 위한 어플리케이션의 인기가 높아짐에 따라, 광각 VR 비디오 시청 경험에 점점 더 많은 사용자가 참여하고 있다. 이러한 새로운 비디오 시청 어플리케이션은 사용자에게 새로운 비디오 시청 모드 및 새로운 시각적 경험을 제공할뿐만 아니라 새로운 기술적 과제를 가져온다. 360도 비디오(360도 비디오는 본 발명의 실시 예에서 설명을 위해 예로서 사용됨)와 같은 광각 비디오를 시청하는 과정에서, VR 비디오의 공간 영역(공간 영역은 공간 객체로 지칭될 수도 있음)은, 사람 눈의 일반적인 시각 범위를 초과하는 360도 파노라마 공간(또는 전 방향 공간 또는 파노라마 공간 객체로 지칭됨)이다. 따라서, 비디오를 시청할 때, 사용자는 언제든지 뷰포트(field of view, FOV)를 변경한다. 다른 뷰포트를 사용하는 경우, 사용자는 다른 비디오 화상을 볼 수 있다. 이 경우, 비디오에 제시되는 컨텐츠는 사용자의 뷰포트로 변경되어야 한다. 도 1은 뷰포트의 변경에 대응하는 개략적인 뷰포트 다이어그램이다. 블록 1 및 블록 2는 사용자의 서로 다른 2 개의 뷰포트를 나타낸다. 비디오를 시청할 때, 사용자는, 눈 움직임, 머리 움직임, 또는 비디오 시청 디바이스 상의 이미지 스위칭과 같은 동작을 통해, 사용자가 비디오를 블록 1에서 블록 2로 시청할 수 있도록 뷰포트를 스위칭할 수 있다. 뷰포트가 블록 1인 경우 사용자에 의해 시청되는 비디오 화상은, 뷰포트에 대응하는 하나 이상의 공간 객체에서 이 순간에 제시되는 비디오 화상이다. 다음 순간에 사용자의 뷰포트는 블록 2로 스위칭된다. 이 경우, 사용자에 의해 시청되는 비디오 화상은, 블록 2에 대응하는 공간 객체에서 이 순간에 제시되는 비디오 화상으로 전환되어야 한다.
일부 실현 가능한 구현에서, 광각 360도 비디오 화상의 출력을 위해, 서버는 전 방향 비디오에 대응하는 뷰포트 범위에서 파노라마 공간(또는 파노라마 공간 객체로 지칭됨)을 복수의 공간 객체로 분할할 수 있다. 각각의 공간 객체는, 사용자의 하나의 서브 뷰포트(sub-viewport)에 대응할 수 있다. 복수의 서브 뷰포트는 완전한 육안 관찰 뷰포트(complete human-eye observation viewport)로 스플라이싱(splice)된다. 각 공간 객체는 파노라마 공간의 하나의 서브 영역에 대응한다. 즉, 육안 뷰포트(이하, 뷰포트라고 함)는, 분할 후 획득된 하나 이상의 공간 객체에 대응할 수 있다. 뷰포트에 대응하는 공간 객체는, 육안 뷰포트 범위의 컨텐츠 객체에 대응하는 모든 공간 객체이다. 육안 관찰 뷰포트는 동적으로 변경될 수 있다. 그러나 뷰포트 범위는 일반적으로 120도 x 120도이다. 120도 x 120도의 육안 뷰포트 범위에서 컨텐츠 객체에 대응하는 공간 객체는, 분할을 통해 획득된 하나 이상의 공간 객체, 예를 들어, 도 1의 블록 1에 대응하는 뷰포트 1 및 블록 2에 대응하는 뷰포트 2를 포함할 수 있다. 또한, 클라이언트는, MPD를 사용하여, 각 공간 객체에 대해 서버에 의해 준비된 비디오 비트 스트림의 공간 정보를 획득할 수 있고, 이후 클라이언트는 뷰포트 요구 사항에 기초하여, 시간 구간에서 하나 이상의 공간 객체에 대응하는 하나의 비디오 비트 스트림 세그먼트/비디오 비트 스트림들을 서버로부터 요청하고, 뷰포트 요건에 기초하여 대응하는 공간 객체를 출력할 수 있다. 클라이언트는, 동일한 시간 구간에서, 360도 뷰포트 범위 내의 모든 공간 객체에 대응하는 비디오 비트 스트림 세그먼트를 출력하여, 전체 360도 파노라마 공간에서 시간 구간 내에 완전한 비디오 화상을 출력 및 디스플레이한다.
특정 구현에서, 분할을 통한 360도 공간 객체는, 서버가 먼저 구체(sphere)를 평면에 매핑하고, 해당 평면을 공간 객체로 분할할 수 있다. 구체적으로, 서버는 구체를 경도 및 위도 매핑 방식으로 경도 및 위도 평면도에 매핑할 수 있다. 도 2는 본 발명의 일 실시 예에 따른 공간 객체의 개략도이다. 서버는 구체를 경도 및 위도 평면도에 매핑하고, 경도 및 위도 평면도를 복수의 공간 객체 A 내지 I로 분할할 수 있다. 또한, 서버는 대안적으로 구체를 큐브에 매핑한 다음, 큐브의 복수의 표면을 전개하여 평면도를 획득할 수 있고; 또는 서버가 구체를 다른 다면체에 매핑한 다음, 다면체의 복수의 표면을 전개하여 평면도를 획득할 수 있다. 서버는 대안적으로 구체를 더 많은 매핑 방식으로 평면에 매핑할 수 있다. 이는 실제의 어플리케이션 시나리오 요구 사항에 기초하여 구체적으로 결정될 수 있으며, 여기에 제한되지 않는다. 다음은 도 2를 참조하여 경도 및 위도 매핑 방식에 기초한 설명을 제공한다. 2. 도 2에 도시된 바와 같이, 구체의 파노라마 공간을 복수의 공간 객체 A 내지 I로 분할한 후, 서버는 각각의 공간 객체에 대한 하나의 비디오 비트 스트림 그룹을 준비할 수 있다. 각각의 공간 객체는 하나의 비디오 비트 스트림 그룹에 대응한다. 클라이언트 사용자가 비디오를 시청하기 위해 뷰포트를 스위칭하는 경우, 클라이언트는, 사용자에 의해 선택된 새로운 뷰포트에 기초하여, 새로운 공간 객체에 대응하는 비트 스트림을 획득하고, 새로운 뷰포트에서, 새로운 공간 객체에 대응하는 비트 스트림의 비디오 컨텐츠를 추가로 제시할 수 있다.
비디오를 제작할 때, 비디오 제작자(이하, 저자라고 함)는, 비디오의 플롯에 대한 요구 사항에 기초하여, 비디오 재생을 위한 주요 플롯 라인을 설계할 수 있다. 비디오 재생 프로세스에서, 사용자는 플롯에 대해 학습하기 위해 메인 플롯 라인에 대응하는 비디오 화상만을 시청하면 되고, 다른 비디오 화상은 선택적이다. 비디오 재생 프로세스에서, 클라이언트는 재생을 위한 플롯에 대응하는 비디오 화상을 선택할 수 있고, 비디오 데이터를 위한 전송 자원 및 저장 공간 자원을 절약하고 비디오 데이터 처리 효율을 높이기 위해 다른 비디오 화상을 제시하지 않을 수 있다는 것을 알 수 있다. 메인 플롯을 설계한 후, 저자는, 메인 플롯 라인에 기초하여, 비디오 재생 중 각각의 재생 순간에 사용자에게 제시될 비디오 화상을 지정할 수 있다. 메인 플롯 라인의 플롯은 모든 재생 순간의 비디오 화상들을 시간 순서로 함께 스플라이싱함으로써 획득될 수 있다. 각각의 재생 순간에 사용자에게 제시될 비디오 화상은, 각각의 재생 순간에 대응하는 공간 객체에 제시될 비디오 화상, 즉, 이 시간 구간에서 공간 객체에 제시될 비디오 화상이다. 특정 구현에서, 각각의 재생 순간에 제시될 비디오 화상에 대응하는 뷰포트는 저자 뷰포트로서 설정될 수 있고, 저자 뷰포트 내의 비디오 화상이 제시되는 공간 객체는 저자 공간 객체로서 설정될 수 있고, 저자 뷰포트 객체에 대응하는 비트 스트림은 저자 뷰포트 비트 스트림으로 설정될 수 있다. 저자 뷰포트 비트 스트림은 복수의 비디오 프레임의 비디오 프레임 데이터(복수의 비디오 프레임의 인코딩 된 데이터)를 포함한다. 각각의 비디오 프레임은 하나의 화상으로 제시될 수 있다. 즉, 저자 뷰포트 비트 스트림은 복수의 화상에 대응한다. 비디오 재생 프로세스에서, 각각의 재생 순간에, 저자 뷰포트에 제시된 화상은, 전체 비디오에 제시될 파노라마 화상(또는 VR 화상 또는 전 방향 화상으로 지칭됨)의 일부일 뿐이다. 상이한 재생 순간에서, 저자 뷰포트에 대응하는 화상과 연관된 공간 객체의 공간 정보는 상이하거나 동일할 수 있다.
저자가 각각의 재생 순간에 저자 뷰포트를 설계한 후에, 뷰포트에 대응하는 영역 정보는 메타 데이터 트랙으로 캡슐화될 수 있다. 메타 데이터 트랙을 수신한 후, 클라이언트는 서버로부터 메타 데이터 트랙에 포함된 영역에 대응하는 비디오 비트 스트림을 요청하고, 비디오 비트 스트림을 디코딩할 수 있다. 그 다음, 저자 뷰포트에 대응하는 플롯 이미지가 사용자에게 제시될 수 있다. 서버는 저자 뷰포트 이외의 뷰포트(비 저자 뷰포트(non-author viewport), 즉, 정적 뷰포트 비트 스트림으로 설정됨)에 대응하는 비트 스트림을 클라이언트에 전송할 필요가 없으므로, 비디오 데이터의 전송 대역폭과 같은 자원을 절약할 수 있다.
저자 뷰포트는, 비디오의 플롯에 기초하여 저자에 의해, 사전 설정된 공간 객체에 제시되도록 설정되는 화상이고, 저자 공간 객체는 상이한 재생 순간에서 상이하거나 동일할 수 있다. 따라서, 저자 뷰포트는 재생 순간에 따라 끊임없이 변하는 뷰포트이고, 저자 공간 객체는 위치가 끊임없이 변하는 동적 공간 객체라는 것을 알 수 있다. 즉, 파노라마 공간에서의 모든 재생 순간에 대응하는 저자 공간 객체의 위치는 완전히 동일하지는 않다. 도 2에 도시된 공간 객체는 사전 설정된 규칙에 따라 분할을 통해 획득되는 공각 객체로서, 파노라마 공간에서의 상대적인 위치가 고정된 공간 객체이다. 임의의 재생 순간에 대응하는 저자 공간 객체는 반드시 도 2에 도시된 고정 공간 객체 중 하나일 필요는 없고, 전역 공간에서의 상대 위치가 지속적으로 변경되는 공간 객체이다.
공간 정보의 가능한 일 구현에서, 공간 정보는 공간 객체의 중심점의 위치 정보 또는 공간 객체의 좌상단점의 위치 정보를 포함할 수 있고, 공간 정보는 공각 객체의 폭 및 높이를 더 포함할 수 있다.
공간 정보에 대응하는 좌표 시스템이 각도 좌표 시스템인 경우, 공간 정보는 요 각도(yaw angle)를 사용하여 설명될 수 있거나; 또는 공간 정보에 대응하는 좌표 시스템이 픽셀 좌표 시스템인 경우, 공간 정보는 경도 및 위도 그래프에서의 공간 위치를 사용하거나 다른 입체 기하학적 도형을 사용하여 기술될 수 있다. 이것은 여기에 제한되지 않는다. 공간 정보가 요(yaw) 각도를 사용하여 설명되는 경우, 피치(pitch) 각도(θ), 요(yaw) 각도(ψ), 롤(roll) 각도(Φ) 등이 각도 범위의 폭 및 높이를 나타내기 위해 사용된다.. 도 3은 파노라마 공간에서 공간 객체의 중심점의 상대 위치에 대한 개략도이다. 도 3에서, 점 O는 360도 VR 파노라마 비디오 구체 화상에 대응하는 구체 중심이고, VR 파노라마 사진을 시청하기 위한 사람 눈의 위치로서 간주될 수 있다. 점 A는 대상 공간 객체의 중심점이다. C 및 F는 타깃 공간 객체의 수평축을 따라, 점 A를 통과하고, 타깃 공간 객체 내에 있는 호(arc) 상의 경계점이다. E 및 D는 타깃 공간 객체의 수직축을 따라, 점 A를 통과하고, 타깃 공간 객체 내에 있는 경계점이다. B는 구형 자오선을 따라 점 A가 적도에 투영되는 점이고, I는 수평 방향의 적도 상의 시작 좌표 점이다. 요소는 다음과 같이 설명된다.
피치 각도는 편향 각도, 예를 들어, 도 3의 ∠AOB이고, 이는 수직 방향에 있고, 타깃 공간 객체 내의 화상의 중심 위치가 파노라마 구체(즉, 글로벌 공간) 화상에서 매핑되는 지점의 각도이다.
요 각도는 편향 각도, 예를 들어, 도 3의 ∠IOB이고, 이는 수평 방향에 있고, 타깃 공간 객체 내의 화상의 중심 위치가 파노라마 구체 화상에서 매핑되는 지점의 각도이다.
롤 각도는, 구체 중심과 요 각도에서 공간 객체 내의 화상의 중심 위치가 파노라마 구체 화상에 매핑되는 점과 구체 중심 사이의 선 방향의 회전 각도, 예를 들어, 도 3의 ∠DOB이다.
피치 각도는 각도 범위의 높이(각도 좌표 시스템에서 타깃 공간 객체의 높이), 즉 공간 객체 내에 있고 파노라마 구체 화상에 있는 화상의 뷰포트 높이를 나타내기 위해 사용된다. 피치 각도는, 수직 방향의 뷰포트의 최대 각도, 예를 들어 도 3의 ∠DOE로 표시된다. 요 각도는 각도 범위의 폭(각도 좌표 시스템에서 타깃 공간 객체의 폭), 즉 타깃 공간 객체 내에 있고 파노라마 구체 화상에 있는 화상의 뷰포트의 폭을 나타내기 위해 사용된다. 요 각도는, 수평 방향으로 뷰포트의 최대 각도, 예를 들어 도 3의 ∠COF로 표시된다.
공간 정보의 다른 가능한 구현에서, 공간 정보는 공간 객체의 좌측 상단 지점의 위치 정보 및 공간 객체의 우측 하단 지점의 위치 정보를 포함할 수 있다.
공간 정보의 또 다른 가능한 구현에서, 공간 객체가 직사각형이 아닌 경우, 공간 정보는 공간 객체의 형상 타입, 공간 객체의 반경 및 공간 객체의 둘레 중 적어도 하나를 포함할 수 있다. .
일부 실시 예에서, 공간 정보는 공간 객체의 공간 회전 정보를 포함할 수 있다.
일부 실시 예에서, 공간 정보는 공간 정보 데이터 또는 공간 정보 트랙(track)에 캡슐화될 수 있다. 공간 정보 데이터는 비디오 데이터의 비트 스트림, 비디오 데이터의 메타 데이터, 또는 비디오 데이터와 무관한 파일일 수 있다. 공간 정보 트랙은 비디오 데이터와 독립적인 트랙일 수 있다.
일부 실시 예에서, 공간 정보는 비디오의 공간 정보 메타 데이터(트랙 메타 데이터)에 캡슐화될 수 있다. 예를 들어, 공간 정보는 코비 박스(covi box)와 같은 동일한 박스에 캡슐화된다.
일부 실시 예에서, 타깃 공간 객체의 폭 및 높이를 설명하기 위해 사용되는 좌표 시스템이 도 4에 도시되어 있다. 구체 상에서 빗금친 부분은 타깃 공간 객체를 나타내고, 타깃 공간 객체의 4 개의 각도의 꼭지점은 B, E, G 및 I이다. 도 4에서, O는 360도 VR 파노라마 비디오 구체 화상에 대응하는 구 중심이고, 꼭지점 B, E, G 및 I는, 구체 상에서, 구체의 중심을 통과하는 원(각각의 원은 구체 중심 O를 원 중심으로 사용하고, 원 각각의 반경은 360도 VR 파노라마 비디오 구체 화상 사진에 대응하는 구체의 반경이고, 원은 z축을 통과하고, 2 개의 원이 존재하되, 하나의 원은 점 B, A, I 및 O를 통과하고 다른 원은 점 E, F, G 및 O를 통과함)과 x축 및 y축과 평행한 원(각각의 원은 구체 중심 O를 원 중심으로 사용하지 않고, 2 개의 원이 존재하되, 2 개의 원은 서로 평행하고, 하나의 원은 점 B, D 및 E를 통과하고 다른 원은 점 I, H 및 G를 통과함) 사이의 교차 지점이다. C는 타깃 공간 객체의 중심점이다. 변 DH에 대응하는 각도는 타깃 공간 객체의 높이로서 표현되고, 변 AF에 대응하는 각도는 타깃 공간 객체의 폭으로서 표현된다. 변 DH와 변 AF는 점 C를 통과한다. 변 BI, 변 EG 및 변 DH에 대응하는 각도는 동일하고, 변 BE, 변 IG 및 변 AF에 대응하는 각도는 동일하다. 변 BE에 대응하는 각도의 꼭지점은 J이고, 여기서 J는 z축과 B, D 및 E를 통과하는 원 사이의 교차점이다. 이에 대응하여, 변 IG에 대응하는 각도의 꼭지점은 z축과 I, H 및 G를 통과하는 원 사이의 교차점이다. 변 AF에 대응하는 각도의 꼭지점은 점 O이고 변 BI, 변 EG 및 변 DH에 대응하는 각도의 꼭지점은 각각 점 O이다.
전술한 설명은 단지 예일뿐임을 주목해야 한다. 대안적으로, 타깃 공간 객체는, 구체 중심을 통과하는 2 개의 큰 원이 2 개의 평행한 원과 교차한 후에 획득될 수 있다. 대안적으로, 타깃 공간 객체는, 2 개의 요 각도 원이 2 개의 피치 각도 원과 교차한 후에 획득될 수 있다. 요 각도 원의 경우, 원 상의 점들은 동일한 요 각도를 가지며, 피치 각도 원의 경우, 원 상의 점들은 동일한 피치 각도를 갖는다. 대안적으로, 타깃 공간 객체는 2 개의 경도 원이 2 개의 위도 원과 교차한 후에 획득될 수 있다.
일부 실시 예들서, 타깃 공간 객체의 폭 및 높이를 설명하기 위해 사용되는 좌표 시스템이 도 5에 도시되어 있다. 구체 상에서 빗금친 부분은 타깃 공간 객체를 나타내고, 타깃 공간 객체의 4 개의 각도의 꼭지점은 B, E, G 및 I이다. 도 5에서, O는 360도 VR 파노라마 비디오 구체 화상에 대응하는 구 중심이고, 꼭지점 B, E, G 및 I는, 구체 상에서, z축을 통과하는 원(각각의 원은 구체 중심 O를 원 중심으로 사용하고, 원 각각의 반경은 360도 VR 파노라마 비디오 구체 화상 사진에 대응하는 구체의 반경이고, 2 개의 원이 존재하되, 하나의 원은 점 B, A 및 I를 통과하고 다른 원은 점 E, F 및 G를 통과함) 및 y축을 통과하는 원(각각의 원은 구체 중심 O를 원 중심으로 사용하고, 원 각각의 반경은 360도 VR 파노라마 비디오 구체 화상 사진에 대응하는 구체의 반경이고, 2 개의 원이 존재하되, 하나의 원은 점 B, D 및 E를 통과하고 다른 원은 점 I, H 및 G를 통과함) 사이의 교차 지점이다. C는 타깃 공간 객체의 중심점이다. 변 DH에 대응하는 각도는 타깃 공간 객체의 높이로서 표현되고, 변 AF에 대응하는 각도는 타깃 공간 객체의 폭으로서 표현된다. 변 DH와 변 AF는 점 C를 통과한다. 변 BI, 변 EG 및 변 DH에 대응하는 각도는 동일하고, 변 BE, 변 IG 및 변 AF에 대응하는 각도는 동일하다. 변 BE에 대응하는 각도의 꼭지점은 J이고, 여기서 J는 z축과 두 점 B 및 E를 통과하고, x축 및 y축에 평행한 원 사이의 교차점이다. 변 IG에 대응하는 각도의 꼭지점은, z축과 두 점 I 및 G를 통과하고 x축 및 y축에 평행한 원 사이의 교차점이다. 변 AF에 대응하는 각도의 꼭지점은 점 O이고, 변 BI에 대응하는 각도의 꼭지점은 점 L이고, 여기서 점 L은 y축과, 두 점 B 및 I를 통과하고 z축 및 x축에 평행한 원 사이의 교차점이다. 변 EG에 대응하는 각도의 꼭지점은 y축과, 두 점 E 및 G를 통과하고 z축 및 x축에 평행한 원 사이의 교차점이다. 변 DH에 대응하는 각도의 꼭지점은 또한 점 O이다.
전술한 설명은 단지 예일뿐임을 주목해야 한다. 대안적으로, 타깃 공간 객체는 x축을 통과하는 2 개의 원이 z축을 통과하는 2 개의 원과 교차한 후에 획득될 수 있다. 대안적으로, 타깃 공간 객체는 x축을 통과하는 2 개의 원이 y축을 통과하는 2 개의 원과 교차한 후에 획득될 수 있다. 대안적으로, 타깃 공간 객체는 구 중심을 통과하는 4 개의 원이 교차한 후에 획득될 수 있다.
일부 실시 예들에서, 타깃 공간 객체의 폭 및 높이를 설명하기 위해 사용되는 좌표 시스템이 도 6에 도시되어 있다. 구체 상에서 빗금친 부분은 타깃 공간 객체를 나타내고, 타깃 공간 객체의 4 개의 각도의 꼭지점은 B, E, G 및 I이다. 도 6에서, O는 360도 VR 파노라마 비디오 구체 화상에 대응하는 구 중심이고, 꼭지점 B, E, G 및 I는, 구체 상에서, x축 및 z축에 평행한 원(각각의 원은 구체 중심 O를 원 중심으로 사용하지 않고, 2 개의 원이 존재하되, 하나의 원은 점 B, A 및 I를 통과하고 다른 원은 점 E, F 및 G를 통과함) 및 x축 및 y축에 평행한 원(각각의 원은 구체 중심 O를 원 중심으로 사용하지 않고, 2 개의 원이 존재하되, 2 개의 원은 서로 평행하고, 하나의 원은 점 B, D 및 E를 통과하고 다른 원은 점 I, H 및 G를 통과함) 사이의 교차 지점이다. C는 타깃 공간 객체의 중심점이다. 변 DH에 대응하는 각도는 타깃 공간 객체의 높이로서 표현되고, 변 AF에 대응하는 각도는 타깃 공간 객체의 폭으로서 표현된다. 변 DH와 변 AF는 점 C를 통과한다. 변 BI, 변 EG 및 변 DH에 대응하는 각도는 동일하고, 변 BE, 변 IG 및 변 AF에 대응하는 각도는 동일하다. 변 BE, 변 IG 및 변 AF 각각에 대응하는 각도의 꼭지점은 점(O)이고, 변 BI, 변 EG 및 변 DH 각각에 대응하는 각도의 꼭지점도 점 O이다.
전술한 설명은 단지 예일뿐임을 주목해야 한다. 대안적으로, 타깃 공간 객체는, y축 및 z축에 평행하고 구체 중심을 통과하지 않는 2 개의 원이, y축 및 x축에 평행하고 구체 중심을 통과하지 않는 2 개의 원과 교차한 후에 획득될 수 있다. 대안적으로, 타깃 공간 객체는, y축 및 z축에 평행하고 구체 중심을 통과하지 않는 2 개의 원이, z축 및 x축에 평행하고 구체 중심을 통과하지 않는 2 개의 원과 교차한 후에 획득될 수 있다.
도 5의 점 J 및 점 L을 획득하는 방식은 도 4의 점 J를 획득하는 방법과 동일하다. 변 BE에 대응하는 각도의 꼭지점은 점 J이고, 변 BI에 대응하는 각도의 꼭지점은 점 L이다. 도 6에서, 변 BE 및 변 BI에 각각 대응하는 꼭지점은 점 O이다.
도 11a 및 도 11b는 본 발명의 일 실시 예에 따른 공간 객체와 비디오 데이터 사이의 매핑 관계에 대한 개략도이다. 도 11a는 전 방향 비디오(왼쪽의 큰 그림)와 전 방향 비디오의 서브 영역(오른쪽의 작은 그림)을 도시한다. 도 11b는 전 방향 비디오에 대응하는 비디오 공간(구체) 및 전 방향 비디오의 서브 영역에 대응하는 공간 객체(구체의 음영 부분)를 도시한다.
구체 상에서 영역(region)의 타임드 메타 데이터 트랙(timed metadata track)은 기존 OMAF 표준에 지정되어 있다. 메타 데이터 트랙에서, 메타 데이터 박스는 구체 상의 영역을 설명하는 메타 데이터를 포함하고, 미디어 데이터 박스는 구체 상의 영역에 대한 정보를 포함한다. 메타 데이터 박스는 타임드 메타 데이터 트랙의 의도, 즉 구체 상의 영역에 대한 사용을 설명한다. 표준은 2 가지 타입의 타임드 메타 데이터 트랙: 추천 뷰포트 타임드 메타 데이터 트랙(The recommended viewport timed metadata track)과 초기 뷰포인트 트랙(the initial viewpoint timed metadata track)을 설명한다. 추천 뷰포트 트랙은 프레젠테이션을 위해 단말에 추천되는 뷰포트의 영역을 설명하고, 초기 뷰포트 트랙은 전 방향 비디오를 시청하기 위한 초기 프레젠테이션 방향을 설명한다.
다음은 본 발명의 일 실시 예의 적용 시나리오를 설명한다.
도 7에 도시된 바와 같이, 서버 측(701)은 컨텐츠 준비(7011) 및 컨텐츠 서비스(7012)를 포함한다.
컨텐츠 준비(7011)는 미디어 데이터 캡처 디바이스 또는 미디어 데이터 트랜스코더일 수 있고, 미디어 컨텐츠 및 연관 메타 데이터와 같은 스트리밍 미디어의 정보를 생성하는 역할을 한다. 예를 들어, 컨텐츠 준비(7011)는 미디어 파일(비디오, 오디오 등)을 압축, 캡슐화 및 저장/송신하는 역할을 한다. 컨텐츠 준비(7011)는 메타 데이터의 소스가 위치하는 파일 및 메타 데이터 정보를 생성할 수 있다. 메타 데이터는 메타 데이터 트랙으로 캡슐화될 수 있거나, 메타 데이터는 비디오 데이터 트랙의 SEI에서 캡슐화될 수 있다. 메타 데이터 트랙의 샘플(sample)은, 컨텐츠 생성기에 의해 지정되는 전 방향 비디오의 일부 영역 또는 컨텐츠 제작사에 의해 지정되는 전 방향 비디오의 일부 영역을 나타낸다. 메타 데이터의 소스는 메타 데이터 트랙에 캡슐화되거나 MPD로 운반된다. 메타 데이터가 SEI에 캡슐화되는 경우, 메타 데이터의 소스 정보는 SEI로 운반될 수 있다. 일 구현에서, 메타 데이터의 소스 정보는, 메타 데이터가 컨텐츠 제작자 또는 감독에 의해 추천된 시청 영역을 나타냄을 나타낼 수 있다.
컨텐츠 서비스(7012)는 네트워크 노드, 예를 들어 컨텐츠 전달 네트워크(Content distribution network, CDN) 또는 프록시 서버일 수 있다. 컨텐츠 서비스(7012)는 컨텐츠 준비(7011)로부터 저장되거나 송신될 데이터를 획득하고, 데이터를 단말 측(702)에 전달할 수 있다. 대안적으로, 컨텐츠 서비스(7012)는 단말 측(702)으로부터 단말에 의해 피드백된 영역 정보를 획득하고, 피드백 정보에 기초하여 영역 메타 데이터 트랙 또는 영역 SEI 정보를 생성하고, 영역 정보의 소스를 운반하는 파일을 생성할 수 있다. 영역 메타 데이터 트랙 또는 영역 SEI 정보를 생성하는 단계는, 전 방향 비디오 영역의 피드백 시청 정보에 대한 통계를 수집하는 단계; 수집된 통계에 기초하여 하나 이상의 가장 많이 시청한 영역을 선택하여 사용자가 관심있는 영역의 샘플을 생성하는 단계; 샘플을 메타 데이터 트랙 또는 SEI에 캡슐화하는 단계; 및 트랙 내에 영역 메타 데이터의 소스 정보를 캡슐화하거나, MPD에 영역 메타 데이터의 소스 정보를 추가하거나, 또는 SEI에 영역 메타 데이터의 소스 정보를 추가하는 단계를 포함한다. 본 정보의 소스는, 영역 메타 데이터 정보가 서버의 통계로부터 제공됨을 나타내며, 메타 데이터 트랙에 설명된 영역이 대부분의 사용자가 관심을 갖는 영역임을 나타낸다. 영역 메타 데이터 트랙의 영역 정보 또는 영역 SEI의 영역 정보는 대안적으로 서버에 의해 지정된 사용자에 의해 피드백된 영역 정보일 수 있다. 피드백 정보에 기초하여 영역 메타 데이터 트랙 또는 영역 SEI가 생성되고, 영역 메타 데이터의 소스 정보는 영역 메타 데이터 트랙 또는 MPD 또는 SEI로 운반된다. 영역 정보의 소스는 영역 메타 데이터가 제공되는 사용자를 설명한다.
컨텐츠 준비(7011) 및 컨텐츠 서비스(7012)는 서버의 동일한 하드웨어 디바이스 상에 위치하거나, 다른 하드웨어 디바이스 상에 위치할 수 있음을 이해할 수 있을 것이다. 컨텐츠 준비(7011) 및 컨텐츠 서비스(7012)는 모두 하나 이상의 하드웨어 디바이스를 포함할 수 있다.
단말 측(702)은 미디어 데이터를 획득 및 제시하고, 단말 측(702)은 전 방향 비디오에서 사용자에게 제시되는 컨텐츠의 영역 정보를 획득한다. 단말 측(702)은 영역 정보를 컨텐츠 서비스 측(701)에 피드백한다. 대안적으로, 단말 측(702)은 미디어 데이터, 메타 데이터 및 메타 데이터의 소스 정보를 운반하는 데이터를 획득한다. 단말 측(702)은 메타 데이터의 소스 정보를 파싱하고, 메타 데이터의 소스로서 단말 사용자에 의해 선택된 소스에 기초하여 대응하는 메타 데이터를 파싱하여, 미디어 프레젠테이션을 위한 영역 정보를 획득한다.
가능한 일 구현에서, 모듈이 메타 데이터 트랙의 소스 정보를 처리하는 방식은 다음과 같다.
모듈은 메타 데이터의 소스 정보를 획득한다. 소스 정보는, 메타 데이터와 연관된 영역이 컨텐츠 제작자 또는 감독 또는 지정된 사용자에 의해 추천됨을 나타내거나, 메타 데이터와 연관된 영역이 사용자가 관심을 갖고 있는 영역으로서 관련 통계에 기초하여 획득한 영역임을 나타낼 수 있다. 대안적으로, 소스 정보는 전 방향 비디오를 시청하기 위해 컨텐츠 제작자 또는 감독이 사용자에게 추천한 뷰포트, 또는 사용자가 가장 관심있고 서버가 추천한 영역, 또는 사용자가 추천한 뷰포트를 나타낼 수 있다 .
모듈은 영역 정보를 획득한다. 여기에서 영역 정보는 영역의 일부 메타 데이터를 지칭한다. 영역 정보는 컨텐츠 제작자 또는 감독이 추천 또는 지정한 영역, 또는 사용자가 가장 관심을 갖고 있고 사용자 피드백 정보에 대한 통계를 수집하여 획득한 영역, 또는 단말 사용자가 전 방향 비디오를 시청할 수 있는 영역을 나타낼 수 있다. 영역은 2차원 평면 상의 영역 또는 구체 상의 영역일 수 있다. 2차원 평면 영역 정보는 2차원 평면 상의 영역의 좌측 상부 픽셀의 좌표 위치 및 영역의 폭 및 높이로 표현된다. 영역이 구체 상에 있는 경우, 영역 정보는 구체 상의 영역의 중심점 위치와 구체 상의 영역의 요 및 피치 각도로 표현된다. 구체의 영역을 나타내는 전술한 관련 예, 예를 들어, 도 1 내지 도 6에 도시된 방식을 참조할 수 있다. 일 구현에서, 영역은 대안적으로 구체 상의 방향 또는 구체 상의 점일 수 있다. 이 경우 영역은 너비와 높이에 대한 정보없이 표현된다.
모듈은 메타 데이터 트랙 파일을 생성하기 위해 연관 메타 데이터 및 메타 데이터의 소스를 메타 데이터 트랙에 캡슐화하거나; 또는 메타 데이터를 메타 데이터 트랙에 캡슐화하여 메타 데이터 트랙 파일을 생성하고, 메타 데이터의 소스를 MPD에 추가하여 MPD 파일을 생성하거나; 또는 메타 데이터 및 메타 데이터의 소스를 SEI에 캡슐화하여 비트 스트림 파일을 생성한다. 모듈에 의해 생성된 파일은 국부적으로 저장되거나 수신단으로 송신될 수 있고, 수신단은 단말 측 또는 컨텐츠 서비스 측에 있을 수 있다.
메타 데이터 트랙의 소스 정보를 처리하는 모듈은, 도 7의 컨텐츠 준비(7011), 컨텐츠 서비스(7012) 또는 단말 측(702)의 단일 서브 모듈일 수 있거나, 관련 기능은 전술한 디바이스에 통합될 수 있다.
본 발명의 실시 예의 기술적 해결 방안은 주로 컨텐츠 준비 측(트랜스코더), 지능형 네트워크 노드(CND 또는 프록시 서버) 및 단말 플레이어 측에서 구현된다.
영역 메타 데이터를 생성할 때, 트랜스코딩 서버, 네트워크 서버 및 단말은 메타 데이터를 독립 트랙으로 또는 SEI로 캡슐화하고, 메타 데이터의 소스를 메타 데이터 트랙 또는 SEI 또는 MPD 파일로 캡슐화한다.
도 8에 도시된 바와 같이, 본 발명의 일 측면의 일 실시 예에서, 미디어 정보 처리 방법(S80)이 개시된다. 방법(S80)은 다음 단계를 포함한다.
S801: 미디어 데이터의 메타 데이터 정보를 획득하고, 여기서 메타 데이터 정보는 메타 데이터의 소스 정보를 포함하고, 소스 정보는 미디어 데이터의 추천자를 나타내기 위해 사용되고, 미디어 데이터는 전 방향 미디어 데이터이다.
S802: 메타 데이터의 소스 정보에 기초하여 미디어 데이터를 처리한다. 메타 데이터 트랙에서 샘플 데이터의 소스를 기술하기 위해 하나의 박스가 새롭게 추가되고, 트랙의 소스가 박스에 기술된다. 본 실시 예에서, 새로 추가된 박스의 포맷은 다음과 같다.
SourceInformationBox extends Box('sinf') {
Unsigned int(8) source_type;//메타 데이터의 소스를 나타냄: 감독/사전 수집된 통계/유명한 사람에 의해 사전 설정됨
}
본 예에서, source_type은 박스가 위치하는 트랙의 소스 정보를 설명한다. source_type이 0인 경우, 이는 트랙의 영역 정보가 비디오 제작자에 의해 추천됨을 나타내거나, 이는 트랙의 영역 정보가 컨텐츠 제작자 또는 감독으로부터 제공됨을 나타내거나, 예를 들어, 이는 트랙의 영역 정보가 감독에 의해 추천된 뷰포트로부터 제공됨을 나타낸다. 단말 측은, 트랙의 정보를 사용하여, 감독이 사용자에게 제시할 것으로 기대되는 미디어 컨텐츠를 사용자에게 제시할 수 있다. source_type이 1인 경우, 이는 트랙의 영역 정보가 대부분의 사용자가 관심이 있는 영역임을 나타내거나, 이는 트랙의 영역 정보가 사용자가 가장 관심이 있고 통계 수집을 통해 획득한 영역으로부터 제공됨을 나타낸다. 단말 측은 트랙의 정보를 사용하여 대부분의 사용자가 관심 있고 전 방향 미디어에 존재하는 영역을 사용자에게 제시할 수 있다. source_type이 2인 경우, 이는 트랙의 영역 정보가 단말 사용자가 전 방향 미디어를 시청하기 위한 영역임을 나타내거나, 이는 트랙의 영역 정보가 특정 사람으로부터 제공됨을 나타낸다. 단말 측은 사용자가 전 방향 미디어를 시청할 수 있는 뷰포트를 재생성할 수 있다.
전술한 타입은 본 발명의 본 실시 예의 이해를 돕기 위해 사용된 예일 뿐, 특정 제한은 아님을 이해할 수 있다. 타입의 값은 다른 값일 수도 있고, 다른 소스 타입을 나타내기 위해 사용될 수도 있다.
단말 측에서 획득된 메타 데이터 트랙에서 정보를 처리하는 절차는 다음과 같다.
1. 단말은 메타 데이터 트랙을 획득하고, 메타 데이터 트랙에서 메타 데이터 박스(moov box)를 파싱하고, 박스를 파싱하여 sinf 박스를 획득한다.
2. 단말은 sinf 박스를 파싱하여 소스 타입 정보를 획득한다. source_type이 0이면, 트랙의 영역 정보는 비디오 제작자에 의해 추천된다. source_type이 1이면, 트랙의 영역 정보는 대부분의 사용자가 관심을 갖는 영역이다. source_type이 2이면, 트랙의 영역 정보는 단말 사용자가 전 방향 미디어를 시청하기 위한 영역이다. 단말에 의해 획득된 메타 데이터의 source_type은 0이라고 가정한다.
3. 단말은 정보의 소스를 사용자에게 제시하고 사용자의 선택을 수락한다.
4. 사용자가 비디오 제작자 또는 감독이 추천한 뷰포트에서 시청하도록 선택하면, 단말은 메타 데이터 트랙의 샘플을 파싱하여 영역 정보를 획득하고, 획득된 영역에 대응하는 미디어로서 전 방향 미디어에 존재하는 미디어를 사용자에게 제시한다.
메타 데이터의 소스 정보는 메타 데이터 트랙으로 운반된다. 소스 정보는, 메타 데이터가 전 방향 비디오 제작자 또는 전 방향 비디오를 시청하는 사용자 또는 사용자가 관심을 갖고 있고 통계 수집을 통해 획득한 뷰포트의 데이터로부터 제공됨을 나타낸다. 대안적으로, 정보에 의해 설명된 메타 데이터의 목적은, 메타 데이터가 전 방향 비디오 제작자의 추천, 또는 전 방향 비디오를 시청하는 사용자의 추천, 또는 사용된 뷰포트에 대한 통계를 수집함으로써 획득한 데이터에 기초한 추천으로부터 제공된다는 것이다. 영역 메타 데이터를 수신할 때, 클라이언트는 메타 데이터를 다른 소스와 구별할 수 있다. 복수의 영역 메타 데이터의 조각이 존재하는 경우, 사용자는 개인 요구 사항에 기초하여 시청할 추천 영역을 선택할 수 있다.
본 발명의 일 구현에서, 메타 데이터의 소스 정보는 MPD로 운반된다.
소스 정보 서술자는 ISO/IEC 23009-1에 지정된 표준 요소 보충 속성/필수 속성(standard element Supplemental Property/Essential Property)에 추가되며, 여기서 서술자의 스킴은 ="urn:mpeg:dash:purpose"이고, 서술자가 MPD의 표현 정보의 소스를 제공함을 나타낸다. 서술자의 값은 다음 표에 설명되어 있다.
Figure pct00001
전술한 서술자는 MPD의 adaptationSet 요소 또는 MPD의 표현 요소에 존재할 수 있다. 다음의 특정 예에서, 서술자는 표현 요소에 존재한다.
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!―메타 데이터 트랙-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<Representationid="metadata" ... bandwidth="100">
<EssentialProperty schemeIdUri=" urn:mpeg:dash:purpose " value="0"/>
<BaseURL> metadata.mp4</BaseURL>
<SegmentBase indexRangeExact="true" indexRange="837-988"/>
</Representation>
</AdaptationSet>
...
</Period>
</MPD>
본 예에서, 표현의 소스 정보는 서술자를 사용하여 설명된다. 대안적으로, 표현의 소스를 설명하기 위해 하나의 속성이 adaptationSet 요소 또는 표현 요소에 추가될 수 있다. 예를 들어, 해당 속성은 sourceType이다. sourceType이 0인 경우, 이는 트랙의 영역 정보가 비디오 제작자에 의해 추천됨을 나타내거나, 이는 트랙의 영역 정보가 컨텐츠 제작자 또는 감독으로부터 제공됨을 나타내거나, 예를 들어, 이는 트랙의 영역 정보가 감독에 의해 추천된 뷰포트로부터 제공됨을 나타낸다. 단말 측은, 트랙의 정보를 사용하여, 감독이 사용자에게 제시할 것으로 기대되는 미디어 컨텐츠를 사용자에게 제시할 수 있다. sourceType이 1인 경우, 이는 트랙의 영역 정보가 대부분의 사용자가 관심이 있는 영역임을 나타내거나, 이는 트랙의 영역 정보가 사용자가 가장 관심이 있고 통계 수집을 통해 획득한 영역으로부터 제공됨을 나타낸다. 단말 측은 트랙의 정보를 사용하여 대부분의 사용자가 관심 있고 전 방향 미디어에 존재하는 영역을 사용자에게 제시할 수 있다. sourceType이 2인 경우, 이는 트랙의 영역 정보가 단말 사용자가 전 방향 미디어를 시청하기 위한 영역임을 나타내거나, 이는 트랙의 영역 정보가 특정 사람으로부터 제공됨을 나타낸다. 단말 측은 사용자가 전 방향 미디어를 시청할 수 있는 뷰포트를 재생성할 수 있다.
MPD의 일 예는 다음과 같다.
<?xml version="1.0" encoding="UTF-8"?>
<MPD
xmlns="urn:mpeg:dash:schema:mpd:2011"
type="static"
mediaPresentationDuration="PT10S"
minBufferTime="PT1S"
profiles="urn:mpeg:dash:profile:isoff-on-demand:2011">
<Period>
<!―메타 데이터 트랙-->
<AdaptationSet segmentAlignment="true" subsegmentAlignment="true" subsegmentStartsWithSAP="1">
<Representationid="metadata" ... bandwidth="100" soureceType="0">
<BaseURL> metadata.mp4</BaseURL>
<SegmentBase indexRangeExact="true" indexRange="837-988"/>
</Representation>
</AdaptationSet>
...
</Period>
</MPD>
전술한 MPD의 2 가지 예에서, 서술자 및 속성은 각각, 표현에 의해 설명된 metadata.mp4 파일의 영역 정보가 비디오 제작자에 의해 추천됨을 나타내기 위해 사용된다.
단말 측에서 획득한 예에서 정보를 처리하는 절차는 다음과 같다.
1. 단말은 MPD 파일을 획득 및 파싱하고, 파싱 후에 획득한 adaptationSet 요소 또는 표현 요소가, 스키마가 urn:mpeg:dash:purpose인 서술자를 포함하는 경우, 서술자의 값을 파싱한다.
2. 값이 0이면, 표현의 영역 정보는 비디오 제작자에 의해 추천된다. 값이 1이면, 표현의 영역 정보는 대부분의 사용자가 관심을 갖는 영역이다. 값이 2이면, 표현의 영역 정보는 단말 사용자가 전 방향 미디어를 시청하기 위한 영역이다. 단말에 의해 획득된 MPD의 값은 0이라고 가정한다.
3. 단말은 정보의 소스를 사용자에게 제시하고 사용자의 선택을 수락한다.
4. 사용자가 비디오 제작자 또는 감독이 추천한 뷰포트에서 시청하도록 선택하면, 단말은 MPD의 정보에 기초하여 표현의 세그먼트에 대한 요청을 구성하여 세그먼트를 획득하고, 세그먼트의 영역 정보를 파싱하여 영역 정보를 획득하고, 획득된 영역에 대응하는 미디어로서 전 방향 미디어에 존재하는 미디어를 사용자에게 제시한다.
본 발명의 일 실시 예에서, 메타 데이터의 소스 정보는 SEI로 운반된다.
예를 들면 다음과 같다.
Figure pct00002
전술한 구문에서 SRC는 특정 값, 예를 들어 190을 나타낸다. 이것은 여기에 제한되지 않는다. SEI의 페이로드 타입이 SRC 인 경우, SEI의 구문은 다음 표에 설명되어 있다.
Figure pct00003
이 페이로드의 source_type은 SEI에 의해 설명되는 영역 정보의 소스 정보를 설명한다. source_type이 0인 경우, 이는 SEI에 의해 설명되는 영역 정보가 비디오 제작자에 의해 추천됨을 나타내거나, 이는 SEI에 의해 설명되는 영역 정보가 컨텐츠 제작자 또는 감독으로부터 제공됨을 나타내거나, 예를 들어, 이는 SEI에 의해 설명되는 영역 정보가 감독에 의해 추천된 뷰포트로부터 제공됨을 나타낸다. 단말 측은, SEI에 의해 설명되는 영역 정보를 사용하여, 감독이 사용자에게 제시할 것으로 기대되는 미디어 컨텐츠를 사용자에게 제시할 수 있다. source_type이 1인 경우, 이는 SEI에 의해 설명되는 영역 정보가 대부분의 사용자가 관심이 있는 영역임을 나타내거나, 이는 SEI에 의해 설명되는 영역 정보가 사용자가 가장 관심이 있고 통계 수집을 통해 획득한 영역으로부터 제공됨을 나타낸다. 단말 측은 SEI에 의해 설명되는 영역 정보를 사용하여 사용자에게 대부분의 사용자가 관심 있고 전 방향 매체 인 영역을 제시할 수 있다. source_type이 2인 경우, 이는 SEI에 의해 설명되는 영역 정보가 단말 사용자가 전 방향 미디어를 시청하기 위한 영역임을 나타내거나, 이는 SEI에 의해 설명되는 영역 정보가 특정 사람으로부터 제공됨을 나타낸다. 단말 측은 사용자가 전 방향 미디어를 볼 수 있는 뷰포트를 재생성할 수 있다.
단말 측에서 획득한 비디오 비트 스트림을 처리하는 절차는 다음과 같다,
1. 단말은 비디오 비트 스트림을 획득하고, 비트 스트림에서 NALU 헤더 정보를 파싱하고, 파싱 후에 획득한 헤더 정보 타입이 SEI 타입이면, SEI NALU를 파싱하여 SEI의 페이로드 타입을 획득한다.
2. 파싱 후 획득한 페이로드 타입이 190인 경우, 이는 영역 메타 데이터의 소스 정보가 SEI로 운반됨을 나타낸다. 단말은 Source-type 정보를 얻기 위해 계속 파싱한다. source_type이 0이면, 본 트랙의 영역 정보는 비디오 제작자에 의해 추천된다. source_type이 1이면, 본 트랙의 영역 정보는 대부분의 사용자가 관심을 갖는 영역이다. source_type이 2이면, 본 트랙의 영역 정보는 단말 사용자가 전 방향 미디어를 시청하기 위한 영역이다. SEI에서 단말에 의해 획득된 source_type은 0이라고 가정한다.
3. 단말은 정보의 소스를 사용자에게 제시하고 사용자의 선택을 수락한다.
4. 사용자가 비디오 제작자 또는 감독이 추천한 뷰포트에서 시청하도록 선택하면, 단말은 비디오 비트 스트림의 영역 정보를 파싱하여 영역 정보를 획득하고, 획득된 영역에 대응하는 미디어로서 전 방향 미디어에 존재하는 미디어를 사용자에게 제시한다.
본 발명의 일 실시 예에서, 전술한 실시 예들에 나열된 소스 정보의 타입에 더하여, 소스 정보의 시맨틱이 추가로 확장될 수 있다.
예를 들면 다음과 같다.
1. 메타 데이터 트랙의 구문 확장:
SourceInformationBox extends Box('sinf') {
...
unsigned int(5)[3] language; // ISO-639-2/T language code
string sourceDescription;
}
시맨틱:
language: 후속 문자열의 언어를 나타낸다. 이 값은 ISO-639-2/T의 언어 코드워드를 사용하여 다양한 언어를 나타낸다.
sourceDescription: 이것은 문자열이며, 영역 메타 데이터의 소스에 대한 컨텐츠를 지정한다. sourceDescription은 소스에 대한 설명을 지정한다. 예를 들어, 이 값은 "감독의 컷(a director's cut)"일 수 있으며, 이는 메타 데이터가 저자로부터 제공되거나, 저자에 의해 추천됨을 나타낸다. 대안적으로, sourceDescription은 추천자의 이름을 지정한다. 예를 들어, 이 값은 "Tom"일 수 있으며, 이는 메타 데이터가 Tom으로부터 제공되거나, Tom에 의해 추천됨을 나타낸다.
2. MPD에서의 확장:
Figure pct00004
3. SEI에서의 확장: (구문의 시맨틱은 전술한 시맨틱과 동일함)
Figure pct00005
본 발명의 일 실시 예에서, 전술한 실시 예들에 나열된 소스 정보의 타입에 더하여, 소스 정보의 시맨틱이 추가로 확장될 수 있다.
예를 들면 다음과 같다.
1. 메타 데이터 트랙의 구문 확장:
SourceInformationBox extends Box('sinf') {
...
Int(64) data;
}
시맨틱:
data: 메타 데이터 트랙이 생성/추천되는 시간, 예를 들어, Mon, 04 Jul 2011 05:50:30 GMT를 지정한다.
2. MPD에서의 확장:
Figure pct00006
3. SEI에서의 확장: (구문의 시맨틱은 전술한 시맨틱과 동일함)
Figure pct00007
본 발명의 일 실시 예에서, 전술한 실시 예들에 나열된 소스 정보의 타입에 더하여, 소스 정보의 시맨틱이 추가로 확장될 수 있다.
예를 들면 다음과 같다.
1. 메타 데이터 트랙의 구문 확장:
SourceInformationBox extends Box('sinf') {
...
string reason_description;
}
시맨틱:
reason_description: 이는 메타 데이터를 추천하는 이유 또는 추천된 메타 데이터에 대응하는 비디오 컨텐츠의 설명 정보를 지정한다.
2. MPD에서의 확장:
Figure pct00008
3. SEI에서의 확장: (구문의 시맨틱은 전술한 시맨틱과 동일함)
Figure pct00009
본 발명의 일 실시 예에서, 전술한 실시 예들에 나열된 소스 정보의 타입에 더하여, 소스 정보의 시맨틱이 추가로 확장될 수 있다.
예를 들면 다음과 같다.
1. 메타 데이터 트랙의 구문 확장:
SourceInformationBox extends Box('sinf') {
...
string person_description;
}
시맨틱:
person_description: 이는 추천 메타 데이터의 사용자 연령 정보 또는 어린이, 청소년 또는 노인과 같은 연령대 또는 통계 수집을 통해 획득한 0-10 또는 10-20을 지정한다.
2. MPD에서의 확장:
Figure pct00010
3. SEI에서의 확장: (구문의 시맨틱은 전술한 시맨틱과 동일함)
Figure pct00011
본 발명의 일 실시 예에서, SourceInformationBox는 스킴 정보 박스에 포함될 수 있다.
구문:
aligned(8) class SourceInformationBox extends FullBox('sinf', 0, 0) {
unsigned int(8) source_type;
unsigned int(64) date;
unsigned int(32) ID_lenght;
string sourceDescription
unsigned int(32) reason_lenght;
string reason_description
}
시맨틱:
source_type은 정수 값을 가지며, 메타 데이터의 소스 타입을 나타낸다. 여러 값들은 다음 소스 타입들을 나타낸다.
0: 메타 데이터는 컨텐츠 제작자 또는 감독으로부터 제공된다.
1: 메타 데이터는 사용자가 가장 관심있는 영역으로서 통계 수집을 통해 획득한 영역으로부터 제공된다.
2: 메타 데이터는 특정 사람으로부터 제공된다.
다른 값이 예약되어 있다.
date는 메타 데이터가 생성/추천된 시간을 지정한다.
ID_lenght는 ID_description의 길이를 나타내며, 이 값은 ID_description의 길이에서 1을 빼서 획득한다.
ID_description은 추천자의 이름을 지정한다.
reason_lenght는 reason_description의 길이를 나타내며, 이 값은 reason_description의 길이에서 1을 빼서 획득한다.
reason_description은 메타 데이터를 추천하는 이유 또는 추천된 메타 데이터에 대응하는 비디오 컨텐츠의 설명 정보를 지정한다.
SourceInformationBox는 대안적으로 다른 이름, 예를 들어 natrueInformationBox를 사용할 수 있음을 이해할 수 있다.
가능한 일 구현에서, natrueInformationBox의 일 예는 다음과 같다.
Box Type: 'ninf'
Container:Scheme Information box('schi')
Mandatory:No
Quantity: Zero or one
Syntax of the natrueInformationBox is:
aligned(8) class natrueInformationBox extends FullBox('ninf', 0, 0) {
unsigned int(8) natrue_type;
unsigned int(64) date;
unsigned int(32) ID_lenght;
string ID_description
unsigned int(32) reason_lenght;
string reason_description
}
여기서, natrue_type은 정수 값을 가지며, 메타 데이터의 소스 타입을 나타낸다. 여러 값들은 다음 소스 타입들을 나타낸다.
1: 메타 데이터는 컨텐츠 제작자 또는 감독으로부터 제공된다.
2: 메타 데이터는 사용자가 가장 관심있는 영역으로서 통계 수집을 통해 획득한 영역으로부터 제공된다.
3: 메타 데이터는 특정 사람으로부터 제공된다.
다른 값이 예약되어 있다.
date는 메타 데이터가 생성/추천된 시간을 지정하며, data는 초 단위로 계산되거나 다른 시간 형식으로 표현되는 정수 시간일 수 있다.
ID_lenght는 ID_description의 길이를 나타내며, 이 값은 ID_description의 길이에서 1을 빼서 획득한다.
ID_description은 추천자의 이름을 지정한다.
reason_lenght는 reason_description의 길이를 나타내며, 이 값은 reason_description의 길이에서 1을 빼서 획득한다.
reason_description은 메타 데이터를 추천하는 이유 또는 추천된 메타 데이터에 대응하는 비디오 컨텐츠의 설명 정보를 지정한다.
특정 예에서,
natrue_type은 자연(nature)의 타입을 나타내는 정수이다. natrue_type에 대해 다음 값이 지정된다.
1: 추천된 뷰포트 타임드 메타 데이터 트랙은 감독의 컷을 나타내는 데 사용된다.
2: 추천된 뷰포트 타임드 메타 데이터 트랙은 통계적으로 가장 많이 시청한 뷰포트를 나타내는 데 사용된다.
3: 추천된 뷰포트 타임드 메타 데이터 트랙은 특정 사람 또는 사용자를 나타내는 데 사용된다.
natrue_type의 다른 값은 예약되어 있다.
date는 메타 데이터의 추천된 시간을 선언하는 정수이다(자정 이후 초 단위로, UTC 시간 기준 Jan. 1, 1904).
ID_lenght는 ID_description 필드에서 1을 뺀 길이를 바이트 단위로 나타낸다.
ID_description은 추천된 사람의 이름을 지정한다. 그것은 파일 그룹 이름을 포함하는 UTF-8 문자의 널 종료 문자열이다.
reason_lenght는 reason_description 필드에서 1을 뺀 길이를 바이트 단위로 나타낸다.
reason_description은 추천된 이유 또는 메타 데이터에 대응당하는 미디어 컨텐츠의 설명을 지정한다. 그것은 파일 그룹 이름을 포함하는 UTF-8 문자의 널 종료 문자열이다.
본 발명의 전술한 모든 실시 예에서의 구문은 미디어(media) 트랙으로 운반될 수 있다. 예를 들어, SourceInformationBox 또는 natrueInformationBox는 미디어 트랙의 tref 박스로 운반될 수 있다. ISO/IEC 14496-12 표준은 tref가 트랙 참조 박스임을 지정하고, 이 박스는 현재 미디어 트랙과 연관된 트랙을 지정한다. SourceInformationBox 또는 natrueInformationBox는 tref 박스의 확장일 수 있다. aligned(8) class SourceInformationBox extends tref('sinf', 0, 0).
본 발명의 일 실시 예에서, 메타 데이터의 목적/소스에 관한 정보는 대안적으로 샘플 엔트리 타입으로 표현될 수 있다. 예를 들어, 대부분의 사용자가 관심을 갖는 영역의 샘플 엔트리 타입은 'mroi'일 수 있고, 사용자의 추천은 'proi'일 수 있으며, 저자 또는 감독의 추천은 'droi'일 수 있다.
본 발명의 일 실시 예에서, 단말 측은, 사용자에게 추천될 수 있는 메타 데이터 트랙의 설명 정보를 사용자에게 제시하고, 사용자는 설명 정보에 기초하여 시청할 추천을 선택한다. 단말은, 사용자의 선택에 기초하여, 선택에 대응하는 메타 데이터 트랙을 획득하고, 획득한 메타 데이터 트랙을 파싱하여 트랙 내의 영역 정보를 획득하고, 영역 정보에 기초하여 전 방향 미디어를 제시한다. 대안적으로, 단말은 사용자에 의해 선택된 추천에 관한 정보를 컨텐츠 서버 측에 피드백한다. 컨텐츠 서비스 측은 사용자의 피드백 선택에 기초하여 메타 데이터 트랙을 획득하고, 메타 데이터 트랙 정보를 파싱하여 영역 정보를 획득하고, 영역 정보에 기초하여, 영역 정보에 대응하는 미디어 데이터를 단말에 송신한다. 단말 측에서, 메타 데이터 트랙 내의 영역 정보는 또한, 사용자를 위해, 이동 가능한 시청 환경을 생성하기 위해 사용될 수 있다. 영역 정보에 있는 요 각도, 피치 각도 및 회전 각도에 기초하여 시청 환경에 대해 회전 시뮬레이션이 수행된다. 예를 들어, 시청 환경은 회전 가능한 의자일 수 있고, 의자는 왼쪽 또는 오른쪽으로 이동하거나, 앞뒤로 기울거나, 영역 정보에 기초하여 회전할 수 있다.
도 10은 본 발명의 일 실시 예에 따른 컴퓨터 디바이스(100)의 하드웨어 구조의 개략도이다. 도 10에 도시된 바와 같이, 컴퓨터 디바이스(100)는 스트리밍 미디어 정보 처리 장치의 구현 또는 스트리밍 미디어 정보 처리 방법의 구현으로 사용될 수 있다. 컴퓨터 디바이스(100)는 프로세서(101), 메모리(102), 입력/출력 인터페이스(103) 및 버스(105)를 포함하고, 통신 인터페이스(104)를 더 포함할 수 있다. 프로세서(101), 메모리(102), 입력/출력 인터페이스(103) 및 통신 인터페이스(104)는 버스(105)를 사용하여 서로 통신 가능하도록 연결된다.
프로세서(101)는 범용 CPU(Central Processing Unit), 마이크로 프로세서, ASIC(application-specific integrated circuit) 또는 하나 이상의 집적 회로를 사용할 수 있다. 프로세서(101)는, 본 발명의 실시 예들에서 제공되는 스트리밍 미디어 정보 처리 장치에서 모듈에 의해 수행되어야 하는 기능을 구현하거나, 본 발명의 방법 실시예들에 대응하는 스트리밍 미디어 정보 처리 방법을 수행하기 위해, 관련 프로그램을 실행하도록 구성된다. 프로세서(101)는 집적 회로 칩일 수 있고, 신호 처리 능력을 갖는다. 일 구현 프로세스에서, 전술한 방법의 단계들은 프로세서(101)의 하드웨어 집적 논리 회로를 사용하거나 소프트웨어 형태의 명령어를 사용함으로써 구현될 수 있다. 프로세서(101)는 범용 프로세서, 디지털 신호 프로세서(DSP), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 또는 다른 프로그램 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 프로세서(101)는 본 발명의 실시 예에 개시된 방법, 단계 및 논리 블록도를 구현 또는 수행할 수 있다. 범용 프로세서는 마이크로 프로세서일 수 있거나, 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 발명의 실시 예들을 참조하여 개시된 방법의 단계들은, 하드웨어 디코딩 프로세서를 사용하여 직접 실행 및 완료될 수 있거나, 또는 디코딩 프로세서에서 하드웨어 및 소프트웨어 모듈의 조합을 사용하여 실행 및 완료될 수 있다. 소프트웨어 모듈은, 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그램 가능 판독 전용 메모리, 전기적 소거 가능 프로그램 가능 메모리, 또는 레지스터와 같은, 본 발명이 속하는 기술 분야의 성숙한 저장 매체에 위치할 수 있다. 저장 매체는 메모리(102)에 위치된다. 프로세서(101)는 메모리(102)에서 정보를 판독하고, 프로세서(101)의 하드웨어를 이용하여, 본 발명의 실시 예에 제공된 스트리밍 미디어 정보 처리 장치에 포함된 모듈에 의해 수행되어야 하는 기능을 수행하거나, 또는 본 발명의 방법 실시 예에서 제공되는 스트리밍 미디어 정보 처리 방법을 수행한다.
메모리(102)는 판독 전용 메모리(Read Only Memory, ROM), 정적 저장 디바이스, 동적 저장 디바이스 또는 랜덤 액세스 메모리(Random Access Memory, RAM)일 수 있다. 메모리(102)는 운영 체제및 다른 응용 프로그램을 저장할 수 있다. 본 발명의 실시 예에서 제공되는 스트리밍 미디어 정보 처리 장치에 포함된 모듈에 의해 수행되어야 하는 기능이, 소프트웨어 또는 펌웨어를 사용하여 구현될 때, 또는 본 발명의 방법 실시 예에서 제공되는 스트리밍 미디어 정보 처리 방법이 수행될 때, 본 발명의 실시 예에서 제공되는 기술적 해결 방안을 구현하기 위해 사용되는 프로그램 코드는 메모리(102)에 저장되고, 프로세서(101)는 스트리밍 미디어 정보 처리 장치에 포함된 모듈에 의해 수행되어야 하는 동작을 수행하거나, 본 발명의 방법 실시 예에서 제공되는 미디어 데이터 처리 방법을 수행한다.
입출력 인터페이스(103)는 입력 데이터 및 정보를 수신하고, 동작 결과와 같은 데이터를 출력하도록 구성된다.
통신 인터페이스(104)는 컴퓨팅 디바이스(100)와 다른 디바이스 또는 통신 네트워크 사이의 통신을 구현하기 위해 트랜시버와 같은 송수신 장치를 사용하지만 이에 한정되지 않는다. 통신 인터페이스(104)는 처리 장치에서 획득 모듈 또는 송신 모듈로서 사용될 수 있다.
버스(105)는 컴퓨터 디바이스(100)의 컴포넌트들(예를 들어, 프로세서(101), 메모리(102), 입력/출력 인터페이스(103) 및 통신 인터페이스(104)) 사이에서 정보를 전송하기 위한 채널을 포함할 수 있다.
도 10에서는 컴퓨터 디바이스(100)에 대해 프로세서(101), 메모리(102), 입/출력 인터페이스(103), 통신 인터페이스(104) 및 버스(105)만이 도시되었지만, 특정 구현 프로세스에서, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 컴퓨터 디바이스(100)가 정상 동작에 필요한 다른 컴포넌트를 더 포함한다는 것을 이해해야 한다. 예를 들어, 컴퓨터 디바이스(100)는 재생할 비디오 데이터를 디스플레이하도록 구성된 디스플레이를 더 포함할 수 있다. 또한, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 컴퓨터 디바이스(100)가 특정 요구 사항에 기초하여 다른 추가 기능을 구현하기 위한 하드웨어 컴포넌트를 더 포함할 수 있음을 이해해야 한다. 또한, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 컴퓨터 디바이스(100)가 본 발명의 실시 예들을 구현하는데 필요한 컴포넌트만을 포함할 수 있지만, 도 10에 도시된 모든 컴포넌트를 반드시 포함할 필요는 없음을 이해해야 한다.
설명의 편의를 위해, 전술한 방법 실시 예는 일련의 동작으로 설명된다는 점에 유의해야 한다. 그러나, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 일부 단계들이 다른 순서로 수행되거나 본 발명에 따라 동시에 수행될 수 있기 때문에, 본 발명은 설명된 동작 순서에 제한되지 않는다는 것을 이해해야 한다. 또한, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 명세서에서 설명된 모든 실시 예가 바람직한 실시 예이며, 관련 동작 및 모듈이 본 발명에 반드시 필수적인 것은 아니라는 것을 이해해야 한다. 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 실시 예에서의 방법의 모든 또는 일부 프로세스가 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 실시 예에서의 방법의 프로세스가 수행된다. 전술한 저장 매체는 자기 디스크, 광 디스크, 판독 전용 메모리(ROM: Read-Only Memory) 또는 랜덤 액세스 메모리(RAM: Random Access Memory)일 수 있다.
본 발명은 실시 예들을 참조하여 설명되었지만, 보호를 청구하는 본 발명을 구현하는 프로세스에서, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 첨부된 도면, 개시된 내용 및 첨부된 청구 범위를 보고, 개시된 실시 예들의 다른 변형을 이해하고 구현할 수 있다. 청구 범위에서, "포함하는"(comprising)은 다른 구성 요소 또는 다른 단계를 배제하지 않으며, "일" 또는 "하나의"는 "복수의"의 경우를 배제하지 않는다. 단일 프로세서 또는 다른 유닛은 청구 범위에 열거된 여러 기능을 구현할 수 있다. 일부 측정 값은 서로 다른 종속 청구항에 기록되어 있지만, 더 좋은 효과를 내기 위해 이들 측정 값을 결합할 수 없음을 의미하지 않는다. 컴퓨터 프로그램은 광 저장 매체 또는 솔리드 스테이트 매체와 같은 적절한 매체에 저장/배포될 수 있고, 다른 하드웨어와 함께 제공되거나 하드웨어의 일부로서 사용되거나, 다른 방식으로, 예를 들어, 예를 들어, 인터넷 또는 다른 유무선 통신 시스템을 사용하여 배포될 수 있다.

Claims (16)

  1. 미디어 정보 처리 방법으로서,
    미디어 데이터의 메타 데이터 정보를 획득하는 단계 - 여기서, 상기 메타 데이터 정보는 메타 데이터의 소스 정보를 포함하고, 상기 소스 정보는 상기 미디어 데이터의 추천자(recommender)를 표시하기 위해 사용되고, 상기 미디어 데이터는 전 방향(omnidirectional) 미디어 데이터임 -; 및
    상기 메타 데이터의 상기 소스 정보에 기초하여 상기 미디어 데이터를 처리하는 단계를 포함하는
    미디어 정보 처리 방법.
  2. 제1항에 있어서,
    상기 미디어 데이터의 메타 데이터 정보를 획득하는 단계는,
    상기 미디어 데이터의 메타 데이터 트랙(track)을 획득하는 단계 - 여기서, 상기 메타 데이터 트랙은 상기 메타 데이터의 상기 소스 정보를 포함함 - 를 포함하는, 미디어 정보 처리 방법.
  3. 제1항에 있어서,
    상기 미디어 데이터의 메타 데이터 정보를 획득하는 단계는,
    상기 미디어 데이터의 미디어 프레젠테이션 서술 파일(media presentation description file)을 획득하는 단계 - 여기서, 상기 미디어 프레젠테이션 서술 파일은 상기 메타 데이터의 상기 소스 정보를 포함함 - 를 포함하는, 미디어 정보 처리 방법.
  4. 제1항에 있어서,
    상기 미디어 데이터의 메타 데이터 정보를 획득하는 단계는,
    상기 미디어 데이터를 포함하는 비트 스트림을 획득하는 단계 - 여기서, 상기 비트 스트림은 보충 향상 정보(supplementary enhancement information, SEI)를 더 포함하고, 상기 보충 향상 정보는 상기 메타 데이터의 상기 소스 정보를 포함함 - 를 포함하는, 미디어 정보 처리 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 메타 데이터의 상기 소스 정보는 소스 타입 식별자인, 미디어 정보 처리 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 메타 데이터의 상기 소스 정보는 상기 미디어 데이터의 상기 추천자의 시맨틱 표현(semantic representation)을 포함하는, 미디어 정보 처리 방법.
  7. 미디어 정보 처리 장치로서,
    미디어 데이터의 메타 데이터 정보를 획득하도록 구성된 정보 획득 모듈 - 여기서, 상기 메타 데이터 정보는 메타 데이터의 소스 정보를 포함하고, 상기 소스 정보는 상기 미디어 데이터의 추천자를 표시하기 위해 사용되고, 상기 미디어 데이터는 전 방향 미디어 데이터임 -; 및
    상기 메타 데이터의 상기 소스 정보에 기초하여 상기 미디어 데이터를 처리하도록 구성된 처리 모듈을 포함하는
    미디어 정보 처리 장치.
  8. 제7항에 있어서,
    상기 정보 획득 모듈은 구체적으로 상기 미디어 데이터의 메타 데이터 트랙(track)을 획득하도록 구성되는 - 여기서, 상기 메타 데이터 트랙은 상기 메타 데이터의 상기 소스 정보를 포함함 -, 미디어 정보 처리 장치.
  9. 제7항에 있어서,
    상기 정보 획득 모듈은 구체적으로 상기 미디어 데이터의 미디어 프레젠테이션 서술 파일을 획득하도록 구성되는 - 여기서, 상기 미디어 프레젠테이션 서술 파일은 상기 메타 데이터의 상기 소스 정보를 포함함 -, 미디어 정보 처리 장치.
  10. 제7항에 있어서,
    상기 정보 획득 모듈은 구체적으로 상기 미디어 데이터를 포함하는 비트 스트림을 획득하도록 구성되는 - 여기서, 상기 비트 스트림은 보충 향상 정보(supplementary enhancement information, SEI)를 더 포함하고, 상기 보충 향상 정보는 상기 메타 데이터의 상기 소스 정보를 포함함 -, 미디어 정보 처리 장치.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 메타 데이터의 상기 소스 정보는 소스 타입 식별자인, 미디어 정보 처리 장치.
  12. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 메타 데이터의 상기 소스 정보는 상기 미디어 데이터의 상기 추천자의 시맨틱 표현을 포함하는, 미디어 정보 처리 장치.
  13. 미디어 정보 처리 방법으로서,
    복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보(user viewport information)의 조각을 수신하는 단계 - 여기서, 상기 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -;
    상기 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하는 단계; 및
    상기 타깃 뷰포트에 대응하는 미디어 데이터를 송신하는 단계를 포함하는
    미디어 정보 처리 방법.
  14. 미디어 정보 처리 방법으로서,
    복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보의 조각을 수신하는 단계 - 여기서, 상기 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -;
    상기 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하는 단계; 및
    상기 타깃 뷰포트에 기초하여 미디어 데이터의 메타 데이터 정보를 생성하는 단계를 포함하는
    미디어 정보 처리 방법.
  15. 미디어 정보 처리 장치로서,
    복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보의 조각을 수신하도록 구성된 수신기 - 여기서, 상기 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -;
    상기 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하도록 구성된 프로세서; 및
    상기 타깃 뷰포트에 대응하는 미디어 데이터를 송신하도록 구성된 전송기를 포함하는
    미디어 정보 처리 장치.
  16. 미디어 정보 처리 장치로서,
    복수의 클라이언트에 의해 송신된 사용자 뷰포트 정보의 조각을 수신하도록 구성된 수신기 - 여기서, 상기 사용자 뷰포트 정보는 사용자가 전 방향 미디어 데이터를 시청할 수 있는 뷰포트를 나타내기 위해 사용됨 -; 및
    상기 사용자 뷰포트 정보의 조각 전부에 기초하여 타깃 뷰포트를 결정하고 상기 타깃 뷰포트에 기초하여 미디어 데이터의 메타 데이터 정보를 생성하도록 구성된 프로세서를 포함하는
    미디어 정보 처리 장치.
KR1020207002474A 2017-07-07 2018-03-09 미디어 정보를 처리하는 방법 및 장치 KR20200020913A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710551238.7A CN109218274A (zh) 2017-07-07 2017-07-07 一种媒体信息的处理方法及装置
CN201710551238.7 2017-07-07
PCT/CN2018/078540 WO2019007096A1 (zh) 2017-07-07 2018-03-09 一种媒体信息的处理方法及装置

Publications (1)

Publication Number Publication Date
KR20200020913A true KR20200020913A (ko) 2020-02-26

Family

ID=64950588

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207002474A KR20200020913A (ko) 2017-07-07 2018-03-09 미디어 정보를 처리하는 방법 및 장치

Country Status (12)

Country Link
US (1) US20200145716A1 (ko)
EP (1) EP3637722A4 (ko)
JP (1) JP2020526969A (ko)
KR (1) KR20200020913A (ko)
CN (1) CN109218274A (ko)
AU (1) AU2018297439A1 (ko)
BR (1) BR112020000093A2 (ko)
CA (1) CA3069031A1 (ko)
PH (1) PH12020500015A1 (ko)
RU (1) RU2020104035A (ko)
SG (1) SG11201913532YA (ko)
WO (1) WO2019007096A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3753257A4 (en) * 2019-03-20 2021-09-15 Beijing Xiaomi Mobile Software Co., Ltd. METHOD AND DEVICE FOR TRANSMISSION OF POINT OF VIEW SWITCHING CAPABILITIES IN A VR360 APPLICATION
KR20220020927A (ko) * 2019-06-25 2022-02-21 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 전방향 미디어 재생 방법, 기기 및 컴퓨터 판독 가능 저장 매체
US11831861B2 (en) * 2019-08-12 2023-11-28 Intel Corporation Methods for viewport-dependent adaptive streaming of point cloud content
CN111770182B (zh) * 2020-06-30 2022-05-31 北京百度网讯科技有限公司 数据推送方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9997199B2 (en) * 2014-12-05 2018-06-12 Warner Bros. Entertainment Inc. Immersive virtual reality production and playback for storytelling content
CN105578199A (zh) * 2016-02-22 2016-05-11 北京佰才邦技术有限公司 虚拟现实全景多媒体处理系统、方法及客户端设备
CN105898254B (zh) * 2016-05-17 2018-10-23 北京金字塔虚拟现实科技有限公司 节省带宽的vr全景视频布局方法、装置及展现方法、系统
CN106341600A (zh) * 2016-09-23 2017-01-18 乐视控股(北京)有限公司 一种全景视频播放处理方法及装置
CN106331732B (zh) * 2016-09-26 2019-11-12 北京疯景科技有限公司 生成、展现全景内容的方法及装置
CN106504196B (zh) * 2016-11-29 2018-06-29 微鲸科技有限公司 一种基于空间球面的全景视频拼接方法及设备
CN106846245B (zh) * 2017-01-17 2019-08-02 北京大学深圳研究生院 基于主视点的全景视频映射方法

Also Published As

Publication number Publication date
CA3069031A1 (en) 2019-01-10
BR112020000093A2 (pt) 2020-07-07
US20200145716A1 (en) 2020-05-07
AU2018297439A1 (en) 2020-01-30
EP3637722A1 (en) 2020-04-15
EP3637722A4 (en) 2020-07-15
SG11201913532YA (en) 2020-01-30
PH12020500015A1 (en) 2020-11-09
CN109218274A (zh) 2019-01-15
RU2020104035A (ru) 2021-08-09
WO2019007096A1 (zh) 2019-01-10
JP2020526969A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
RU2711591C1 (ru) Способ, устройство и компьютерная программа для адаптивной потоковой передачи мультимедийного контента виртуальной реальности
KR102246002B1 (ko) 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램
JP7058273B2 (ja) 情報処理方法および装置
CN110876051B (zh) 视频数据的处理,传输方法及装置,视频数据的处理系统
US20200145736A1 (en) Media data processing method and apparatus
CN108282449B (zh) 一种应用于虚拟现实技术的流媒体的传输方法和客户端
US20200145716A1 (en) Media information processing method and apparatus
CN111869222B (zh) 基于http的dash客户端网元、方法及介质
US20230421810A1 (en) Encapsulation and decapsulation methods and apparatuses for point cloud media file, and storage medium
WO2023061131A1 (zh) 媒体文件封装方法、装置、设备及存储介质
CN110351492B (zh) 一种视频数据处理方法、装置及介质
WO2023226504A1 (zh) 一种媒体数据处理方法、装置、设备以及可读存储介质
WO2020107998A1 (zh) 视频数据的处理方法、装置、相关设备及存储介质
US20230034937A1 (en) Media file encapsulating method, media file decapsulating method, and related devices
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application