KR102168596B1 - 저 레이턴시 비디오 스트리밍 - Google Patents

저 레이턴시 비디오 스트리밍 Download PDF

Info

Publication number
KR102168596B1
KR102168596B1 KR1020177021971A KR20177021971A KR102168596B1 KR 102168596 B1 KR102168596 B1 KR 102168596B1 KR 1020177021971 A KR1020177021971 A KR 1020177021971A KR 20177021971 A KR20177021971 A KR 20177021971A KR 102168596 B1 KR102168596 B1 KR 102168596B1
Authority
KR
South Korea
Prior art keywords
media
media segment
segment
format
segments
Prior art date
Application number
KR1020177021971A
Other languages
English (en)
Other versions
KR20170116027A (ko
Inventor
토마스 슈토크하머
예-쿠이 왕
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20170116027A publication Critical patent/KR20170116027A/ko
Application granted granted Critical
Publication of KR102168596B1 publication Critical patent/KR102168596B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4383Accessing a communication channel
    • H04N21/4384Accessing a communication channel involving operations to reduce the access time, e.g. fast-tuning for reducing channel switching latency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • H04L65/4076
    • H04L65/607
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/611Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26616Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for merging a unicast channel into a multicast channel, e.g. in a VOD application, when a client served by unicast channel catches up a multicast channel to save bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

클라이언트 디바이스가 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하도록 구성되며, 세그먼트들의 유형들 중 적어도 하나의 유형은 상기 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하도록 구성되고, 그 표현으로부터 결정된 세그먼트를 취출하도록 구성되는 하나 이상의 프로세서들을 포함한다.

Description

저 레이턴시 비디오 스트리밍{LOW LATENCY VIDEO STREAMING}
본 출원은 2015년 2월 10일자로 출원된 미국 임시출원 제62/114,423호, 및 2015년 6월 22일자로 출원된 미국 정식출원 제62/183,054호를 우선권 주장하며, 그것들의 각각의 전체 내용은 참조로 본 명세서에 포함된다.
본 개시물은 인코딩된 비디오 데이터의 저장 및 전송에 관한 것이다.
디지털 비디오 능력들은 디지털 텔레비전들, 디지털 직접 브로드캐스트 시스템들, 무선 브로드캐스트 시스템들, 개인 정보 단말기들 (personal digital assistants, PDA들), 랩톱 또는 데스크톱 컴퓨터들, 디지털 카메라들, 디지털 레코딩 디바이스들, 디지털 미디어 플레이어들, 비디오 게이밍 디바이스들, 비디오 게임 콘솔들, 셀룰러 또는 위성 무선 전화기들, 비디오 원격회의 디바이스들 등을 포함한 넓은 범위의 디바이스들에 통합될 수 있다. 디지털 비디오 디바이스들은 MPEG-2, MPEG-4, ITU-T H.263 또는 ITU-T H.264/MPEG-4, 파트 10, 고급 비디오 코딩 (Advanced Video Coding, AVC), ITU-T H.265/고 효율 비디오 코딩 (High Efficiency Video Coding, HEVC), 및 이러한 표준들의 확장물들에 의해 규정된 표준들에 기재된 것들과 같은 비디오 압축 기법들을 구현하여, 디지털 비디오 정보를 더 효율적으로 송신하고 수신한다.
비디오 압축 기법들은 공간적 예측 및/또는 시간적 예측을 수행하여 비디오 시퀀스들에 내재하는 리던던시를 감소시키거나 또는 제거한다. 블록 기반 비디오 코딩의 경우, 비디오 프레임 또는 슬라이스가 매크로블록들로 파티셔닝될 수도 있다. 각각의 매크로블록은 추가로 파티셔닝될 수 있다. 인트라 코딩된 (I) 프레임 또는 슬라이스에서의 매크로블록들은 이웃 매크로블록들에 관한 공간적 예측을 사용하여 인코딩된다. 인터 코딩된 (P 또는 B) 프레임 또는 슬라이스 내의 매크로블록들은 동일한 프레임 또는 슬라이스 내의 이웃 매크로블록들에 관한 공간적 예측 또는 다른 참조 프레임들에 관한 시간적 예측을 사용할 수도 있다.
비디오 데이터가 인코딩된 후, 비디오 데이터는 송신 또는 저장을 위해 패킷화될 수도 있다. 비디오 데이터는 다양한 표준들, 이를테면 국제표준화기구 (International Organization for Standardization, ISO) 기본 미디어 파일 포맷 및 그 확장들 중 임의의 것, 이를테면 AVC에 부합하는 비디오 파일로 어셈블링될 수도 있다.
대체로, 본 개시물은 저 레이턴시 비디오 (및/또는 다른 미디어 데이터) 스트리밍을 성취하는데 사용될 수도 있는 기법들을 설명한다. 예를 들어, 미디어 콘텐츠는 서로 대안들로서 역할을 하는 다양한 표현들을 포함할 수도 있다. 본 개시물의 기법들에 따라, 하나의 표현은 상대적으로 빈번한 스트림 액세스 포인트들 (stream access points, SAP들) 을 포함할 수도 있는 한편, 다른, 대체 표현이 상대적으로 덜빈번한 SAP들을 포함할 수도 있다. 매니페스트 파일 (이를테면 HTTP를 통한 동적 적응적 스트리밍 (Dynamic Adaptive Streaming over HTTP, DASH) 의 미디어 프레젠테이션 디스크립션 (media presentation description, MPD) 이 세그먼트들의 유형들 (또는 세그먼트들이 부합하는 포맷들), 뿐만 아니라 이러한 세그먼트들의 로케이션들 (또는 이러한 세그먼트들이 대응하는 표현에서 발생하는 상대적 빈도들) 을 시그널링할 수도 있다. 클라이언트 디바이스가 매니페스트 파일을 사용하여 상대적으로 빈번한 SAP들을 갖는 표현을 결정하고, 그 다음에 SAP가 상이한 타겟 표현으로부터 이용 가능하기까지 그 표현으로부터 세그먼트들 또는 세그먼트들의 부분들을 취출할 수도 있다. 타겟 표현은 더 적은 (다시 말하면, 덜 빈번한) SAP들을 가짐으로 인해 상대적으로 더 높은 품질을 가질 수도 있다. 일부 예들에서, 상이한 표현들은 상이한 취출 메커니즘들, 이를테면 유니캐스트 또는 브로드캐스트를 통해 이용 가능할 수도 있다. 예를 들면, 초기 표현은 유니캐스트를 통해 이용 가능할 수도 있는 한편, 타겟 표현은 브로드캐스트를 통해 이용 가능할 수도 있다.
하나의 예에서, 방법이, 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하는 단계, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는, 상기 결정하는 단계, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하는 단계, 및 그 표현으로부터 결정된 세그먼트를 취출하는 단계를 포함한다.
다른 예에서, 미디어 데이터를 취출하는 클라이언트 디바이스가, 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하도록 구성되며, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하도록 구성되고, 그 표현으로부터 결정된 세그먼트를 취출하도록 구성되는 하나 이상의 프로세서들을 포함한다.
다른 예에서, 미디어 데이터를 취출하는 클라이언트 디바이스가, 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하는 수단, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는, 상기 결정하는 수단, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하는 수단, 및 그 표현으로부터 결정된 세그먼트를 취출하는 수단을 포함한다.
다른 예에서, 컴퓨터-판독가능 저장 매체는, 실행되는 경우, 프로세서로 하여금, 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하게 하며, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하게 하고, 그 표현으로부터 결정된 세그먼트를 취출하게 하는 명령들을 저장하고 있다.
다른 예에서, 미디어 정보를 시그널링하는 방법이, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들, 및 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 표시하는 매니페스트 파일을 구축하는 단계로서, 세그먼트들의 유형들 중 적어도 하나의 유형은 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는, 상기 구축하는 단계, 클라이언트 디바이스에게 매니페스트 파일을 전송하는 단계, 및 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 세그먼트에 대한 클라이언트 디바이스로부터의 요청에 응답하여, 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 세그먼트를 클라이언트 디바이스에게 전송하는 단계를 포함한다.
다른 예에서, 미디어 정보를 시그널링하는 서버 디바이스가, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들, 및 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 표시하는 매니페스트 파일을 구축하도록 구성되며, 세그먼트들의 유형들 중 적어도 하나의 유형은 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 매니페스트 파일을 클라이언트 디바이스에게 전송하도록 구성되고, 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 세그먼트에 대한 클라이언트 디바이스로부터의 요청에 응답하여, 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 세그먼트를 클라이언트 디바이스에게 전송하도록 구성되는 하나 이상의 프로세서들을 포함한다.
다른 예에서, 미디어 정보를 시그널링하는 서버 디바이스가, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들, 및 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 표시하는 매니페스트 파일을 구축하는 수단으로서, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는, 구축하는 수단, 클라이언트 디바이스에게 매니페스트 파일을 전송하는 수단, 및 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 세그먼트에 대한 클라이언트 디바이스로부터의 요청에 응답하여, 클라이언트 디바이스에게 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 세그먼트를 전송하는 수단을 포함한다.
다른 예에서, 컴퓨터-판독가능 저장 매체가, 서버 디바이스의 프로세서로 하여금, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들, 및 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 표시하는 매니페스트 파일을 구축하게 하며, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 클라이언트 디바이스에게 매니페스트 파일을 전송하게 하며; 및 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 세그먼트에 대한 클라이언트 디바이스로부터의 요청에 응답하여, 클라이언트 디바이스에게 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 세그먼트를 전송하게 하는 명령들을 저장하고 있다.
하나 이상의 예들의 세부사항들은 첨부 도면들 및 다음의 설명에서 언급된다. 다른 특징들, 목적들, 및 이점들은 상세한 설명 및 도면들로부터, 그리고 청구항들로부터 명확하게 될 것이다.
도 1은 스트림에 빠르게 연결하기 위한 예시적인 사용 사례를 도시하는 개념도이다.
도 2는 다양한 유형들의 미디어 세그먼트들 사이의 관계들을 예시하는 벤 다이어그램이다.
도 3은 표현 및 ISO 기본 미디어 파일 포맷 (base media file format, BMFF) 파일의 예시적인 구조를 도시하는 개념도이다.
도 4는 네트워크를 통해 미디어 데이터를 스트리밍하는 기법들을 구현하는 예시적인 시스템을 도시하는 블록도이다.
도 5a는 예시적인 멀티미디어 콘텐츠의 엘리먼트들을 도시하는 개념도이다.
도 5b는 본 개시물의 기법들에 따른 미디어 프레젠테이션 디스크립션의 예시적인 콘텐츠들을 도시하는 개념도이다.
도 6은 표현의 세그먼트, 이를테면 도 5a의 세그먼트들 중 하나의 세그먼트에 대응할 수도 있는 예시적인 비디오 파일의 엘리먼트들을 도시하는 블록도이다.
도 7은 본 개시물의 기법들에 따른 사용 사례를 위한 예시적인 세그먼트 제공을 도시하는 개념도이다.
도 8은 본 개시물의 기법들에 따른 스케일러블 HEVC (SHVC) 를 이용한 고속 튠-인 (tune-in) 을 포함하는 사용 사례를 예시하는 개념도이다.
도 9는 본 개시물의 기법들에 따른 스트림 액세스 포인트 (SAP) 유형 3을 이용한 고속 튠-인을 포함하는 예시적인 사용 사례를 도시하는 개념도이다.
도 10은 고속 튠-인 및 혼성체화를 포함하는 예시적인 사용 사례를 도시하는 개념도이다.
도 11은 고속 튠-인, 혼성체화, 및 개방형 GOP (group of pictures) 들을 포함하는 예시적인 사용 사례를 도시하는 개념도이다.
도 12는 개방형 GOP들을 이용한 고속 튠-인 및 혼성체화를 포함하는 다른 예시적인 사용 사례를 도시하는 개념도이다.
도 13은 고속 튠-인 및 매우 낮은 레이턴시를 포함하는 예시적인 사용 사례를 도시하는 개념도이다.
도 14는 고속 튠-인 및 매우 낮은 레이턴시를 포함하는 다른 예시적인 사용 사례를 도시하는 개념도이다.
도 15는 본 개시물의 기법들에 따른 미디어 콘텐츠의 표현의 세그먼트를 취출하는 예시적인 방법을 도시하는 흐름도이다.
대체로, 본 개시물은, 예컨대, ISO 기본 미디어 파일 포맷 (ISOBMFF) 및 HTTP를 통한 동적 적응적 스트리밍 (DASH) 에 따라 포맷팅된 미디어 콘텐츠에 기초한 저-레이턴시 비디오 스트리밍을 위한 기법들을 설명한다. DASH는, 예컨대, 『3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Transparent end-to-end packet switched streaming service (PSS); 3GPP file format (3GP) (Release 12) V12.2.0, December 2013』에서 설명된다. 본 개시물은 새로운 DASH 프로파일 (예컨대, 고급 라이브 프로파일) 과, 고-효율 비디오 코딩 구조들을 동시에 잠재적으로 가능하게 하면서도 브로드캐스트 및 멀티캐스트에서의 감소된 채널 취득 및 채널 변경 시간들을 포함하는 저 레이턴시 비디오 스트리밍을 가능하게 할 수도 있는 미디어 세그먼트들의 일부 새로운 유형들에 부합할 수도 있는 데이터의 정의 및 시그널링을 위한 다양한 방법들을 설명한다.
비디오 코딩 표준들은 자신의 스케일러블 비디오 코딩 (Scalable Video Coding, SVC) 및 멀티뷰 비디오 코딩 (Multiview Video Coding, MVC) 확장본들을 포함하는 ITU-T H.261, ISO/IEC MPEG-1 비주얼, ITU-T H.262 또는 ISO/IEC MPEG-2 비주얼, ITU-T H.263, ISO/IEC MPEG-4 비주얼, ITU-T H.264 또는 ISO/IEC MPEG-4 AVC와, 자신의 스케일러블 코딩 확장본 (즉, 스케일러블 고-효율 비디오 코딩 (scalable high-efficiency video coding), SHVC) 및 멀티뷰 확장본 (즉, 멀티뷰 고 효율 비디오 코딩 (multiview high efficiency video coding), MV-HEVC) 을 포함하는 ITU-T H.265 및ISO/IEC 23008-2로서 또한 알려진 고-효율 비디오 코딩 (HEVC) 을 포함한다.
랜덤 액세스는 비트스트림에서 첫 번째 코딩된 픽처가 아닌 코딩된 픽처로부터 시작하는 비트스트림의 디코딩을 지칭한다. 비트스트림에의 랜덤 액세스는, 예컨대, 상이한 채널들 간을 스위칭하여 비디오의 특정 부분들로 점핑하기 위해, 프로그램에 대해 언제든지 튠-인하는 사용자들을 위한 브로드캐스팅 및 스트리밍, 또는 (비트 레이트, 프레임 레이트, 공간적 해상도 등의) 스트림 적응을 위한 상이한 비트스트림으로의 스위칭과 같은 많은 비디오 응용들에서 사용될 수도 있다. 이 특징은 비디오 비트스트림 속에, 랜덤 액세스 픽처들 또는 랜덤 액세스 포인트 (random access point) 들을 다수 회 규칙적인 간격들로 삽입함으로써 가능하게 될 수도 있다.
비트스트림 스플라이싱은 둘 이상의 비트스트림들 또는 그 일부들의 연접 (concatenation) 을 지칭한다. 예를 들어, 제 1 비트스트림에는, 스플라이싱된 비트스트림을 생성하기 위해 비트스트림들 중 하나 또는 양쪽 모두에 대한 아마도 일부 수정들로, 제 2 비트스트림이 첨부될 수도 있다. 제 2 비트스트림에서의 첫 번째 코딩된 픽처는 "스플라이싱 포인트"라고 또한 지칭된다. 그러므로, 스플라이싱된 비트스트림에서 스플라이싱 포인트를 뒤따르는 픽처들은 제 2 비트스트림으로부터 유래하는 한편, 스플라이싱된 비트스트림에서 스플라이싱 포인트에 선행하는 픽처들은 제 1 비트스트림으로부터 유래한다.
비트스트림들의 스플라이싱은 비트스트림 스플라이서들에 의해 수행될 수도 있다. 비트스트림 스플라이서들은 종종 가볍고 인코더들보다 훨씬 덜 지능적이다. 예를 들어, 비트스트림 스플라이서들에는 엔트로피 디코딩 및 엔트로피 인코딩 능력들이 갖추어지지 않을 수도 있다.
비트스트림 스위칭은 적응적 스트리밍 환경들에서 사용될 수도 있다. 스위칭된 (switched-to) 비트스트림의 특정 픽처에서 수행되는 비트스트림 스위칭 동작이 사실상, 스플라이싱 포인트가 비트스트림 스위칭 포인트, 즉, 스위칭된 비트스트림으로부터의 첫 번째 픽처가 되는 비트스트림 스플라이싱 동작이다. 별개의 표현들이 각각의 비트스트림들이라고 또한 지칭될 (또는 그러한 각각의 비트스트림들을 제공할) 수도 있다.
ITU-T H.264/AVC (Advanced Video Coding) 또는 고 효율 비디오 코딩 (HEVC) 에서 특정된 바와 같은 순간적 디코딩 리프레시 (Instantaneous decoding refresh, IDR) 픽처들이 랜덤 액세스를 위해 사용될 수 있다. 그러나, 디코딩 순서에서 IDR 픽처를 뒤따르는 픽처들이 (인터-픽처 예측을 위한) 참조를 위해 IDR 픽처에 앞서 디코딩된 픽처들을 사용할 수 없으므로, 랜덤 액세스를 위해 IDR 픽처들에 의존하는 비트스트림들은 상당히 더 낮은 코딩 효율을 가질 수 있다.
코딩 효율을 개선하기 위해, 클린 랜덤 액세스 (clean random access, CRA) 픽처들의 개념은 디코딩 순서에서 CRA 픽처를 뒤따르지만 출력 순서에서 CRA 픽처에 선행하는 픽처들이 CRA 픽처 전에 디코딩된 픽처들을 참조로서 사용하는 것을 허용하기 위해 HEVC에서 도입되었다. 디코딩 순서에서 CRA 픽처를 뒤따르지만 출력 순서에서 CRA 픽처에 선행하는 픽처들은 그 CRA 픽처들에 연관된 리딩 픽처들 (또는 그 CRA 픽처의 리딩 픽처들) 이라고 지칭된다. CRA 픽처의 리딩 픽처들은 디코딩이 현재 CRA 픽처 전의 IDR 또는 CRA 픽처로부터 시작하면 올바르게 디코딩 가능하다. 그러나, CRA 픽처의 리딩 픽처들은 CRA 픽처로부터의 랜덤 액세스가 발생하는 경우 디코딩 가능하지 않을 수도 있다. 그런고로, 리딩 픽처들은 랜덤 액세스 디코딩 동안 통상 버려진다. 디코딩이 시작하는 곳에 의존하여 이용 가능하지 않을 수도 있는 참조 픽처들로부터의 에러 전파를 방지하기 위해, 디코딩 순서 및 출력 순서 둘 다에서 CRA 픽처를 뒤따르는 모든 픽처들이, 디코딩 순서 또는 출력 순서 중 어느 하나에서 CRA 픽처에 선행하는 어떠한 픽처 (이는 리딩 픽처들을 포함함) 도 참조로서 사용하지 않을 수 있다.
브로큰 링크 액세스 (broken link access, BLA) 픽처의 개념은 CRA 픽처들의 도입 후에 HEVC에 추가로 도입되었고 CRA 픽처들의 개념에 기초하고 있다. BLA 픽처가 CRA 픽처의 포지션에서의 비트스트림 스플라이싱으로부터 통상 유래하고, 스플라이싱된 비트스트림에서 스플라이싱 포인트 CRA 픽처는 BLA 픽처로 변경된다.
IDR 픽처들, CRA 픽처들, 및 BLA 픽처들은 랜덤 액세스 포인트 (RAP) 픽처들이라고 총칭된다. IDR 픽처들은 이른바 폐쇄형 픽처들의 그룹 (GOP) 기반 RAP들에 대응하는 한편, CRA 및 BLA 픽처들은 기존의 이른바 개방형 픽처들의 그룹 (GOP) 기반 RAP들에 대응한다.
BLA 픽처들 및 CRA 픽처들 사이의 하나의 차이는 다음과 같다. CRA 픽처의 경우, 연관된 리딩 픽처들은 디코딩이 디코딩 순서에서 CRA 픽처 전의 RAP 픽처로부터 시작한다면 올바르게 디코딩 가능하고, CRA 픽처로부터 랜덤 액세스가 발생하는 경우 (즉, 디코딩이 CRA 픽처로부터 시작하는 경우, 또는 다르게 말하면, CRA 픽처가 비트스트림에서 첫 번째 픽처인 경우) 올바르게 디코딩 가능하지 않을 수도 있다. BLA 픽처의 경우, 연관된 리딩 픽처들은, 모든 경우들에서, 심지어 디코딩이 디코딩 순서에서 BLA 픽처 전의 RAP 픽처로부터 시작하는 경우에도, 디코딩 가능하지 않을 수도 있다.
파일 포맷 표준들은 MPEG-4 파일 포맷 (ISO/IEC 14496-14), 3GPP 파일 포맷 (3GPP TS 26.244) 및 AVC 파일 포맷 (ISO/IEC 14496-15) 를 포함하는 ISO 기본 미디어 파일 포맷 (ISOBMFF, ISO/IEC 14496-12) 및 ISOBMFF로부터 유도된 다른 것을 포함한다.
ISOBMFF는 많은 코덱 캡슐화 포맷들, 이를테면 AVC 파일 포맷에 대한, 뿐만 아니라 많은 멀티미디어 컨테이너 포맷들, 이를테면 MPEG-4 파일 포맷, 3GPP 파일 포맷 (3GP), 및 DVB 파일 포맷에 대한 근거로서 사용된다.
연속 미디어, 이를테면 오디오 및 비디오 외에도, 정적 미디어, 이를테면 이미지들, 뿐만 아니라 메타데이터가 ISOBMFF에 부합하는 파일에 저장될 수 있다. ISOBMFF에 따라 구조화된 파일들은, 국부 미디어 파일 플레이백, 원격 파일, HTTP를 통한 동적 적응적 스트리밍 (DASH) 을 위한 세그먼트들, 스트리밍될 콘텐츠 및 그것의 패킷화 명령들을 위한 컨테이너들의 점진적 다운로딩, 및 수신된 실시간 미디어 스트림들의 기록을 포함하는 많은 목적들을 위해 사용될 수도 있다.
박스는 4-문자 코딩된 박스 유형, 박스의 바이트 카운트, 및 패이로드를 포함하는, ISOBMFF에서의 기본 신택스 구조이다. ISOBMFF 파일이 박스들의 시퀀스로 이루어지고, 박스들은 다른 박스들을 포함할 수도 있다. 무비 (movie) 박스 ("moov") 는, 각각의 것이 파일에서 트랙으로서 표현되는, 파일에 존재하는 연속 미디어 스트림들에 대한 메타데이터를 포함한다. 트랙에 대한 메타데이터는 트랙 박스 ("trak") 에 동봉되는 한편, 트랙의 미디어 콘텐츠는 미디어 데이터 박스 ("mdat") 에 동봉되거나 또는 별도의 파일에 직접적으로 동봉된다. 트랙들에 대한 미디어 콘텐츠는 오디오 또는 비디오 액세스 유닛들과 같은 샘플들의 시퀀스로 이루어진다.
ISOBMFF는 다음의 유형들의 트랙들, 즉 기본 미디어 스트림을 포함하는 미디어 트랙, 미디어 송신 명령들을 포함하는 것 또는 수신된 패킷 스트림을 표현하는 것 중 하나를 하는 힌트 트랙, 및 시간 동기화된 메타데이터를 포함하는 타임드 (timed) 메타데이터 트랙을 특정한다.
비록 스토리지를 위해 원래 설계되었지만, ISOBMFF는, 예컨대, 점진적 다운로드 또는 DASH를 위한 스트리밍에 매우 가치있는 것으로 입증되었다. 스트리밍 목적으로, ISOBMFF에서 정의된 무비 프래그먼트들이 사용될 수 있다.
각각의 트랙에 대한 메타데이터는, 각각의 샘플 디스크립션 엔트리가 트랙에서 사용되는 코딩 또는 캡슐화 포맷과 그 포맷을 프로세싱하는데 필요한 초기화 데이터를 제공하는, 샘플 디스크립션 엔트리들의 리스트를 포함한다. 각각의 샘플은 트랙의 샘플 디스크립션 엔트리들 중 하나와 연관된다.
ISOBMFF는 다양한 메커니즘들로 샘플 특정 메타데이터를 특정하는 것을 가능하게 한다. 샘플 테이블 박스 ("stbl") 내의 특정 박스들이 공통의 요구에 응답하기 위해 표준화되어 있다. 예를 들어, 동기 샘플 박스 ("stss") 가 트랙의 랜덤 액세스 샘플들을 리스트화하는데 사용된다. 샘플 그룹화 메커니즘은 파일에서 샘플 그룹 디스크립션 엔트리로서 특정된 동일한 속성을 공유하는 샘플들의 그룹들 속으로의 4-문자 그룹화 유형에 따른 샘플들의 매핑을 가능하게 한다. 여러 그룹화 유형들이 ISOBMFF에서 특정되어 있다.
본 개시물의 기법들은 ISOBMFF, 스케일러블 비디오 코딩 (SVC) 파일 포맷, 고급 비디오 코딩 (AVC) 파일 포맷, 3세대 파트너십 프로젝트 (Third Generation Partnership Project, 3GPP) 파일 포맷, 및/또는 멀티뷰 비디오 코딩 (MVC) 파일 포맷, 또는 다른 유사한 비디오 파일 포맷들 중 임의의 것에 따라 캡슐화된 비디오 데이터에 부합하는 비디오 파일들에 적용될 수도 있다.
ISO/IEC 23001-7은 ISO 기본 미디어 파일 포맷에 대한 보통의 암호화를 정의한다. 이 표준의 경우, 암호화는 기본 스트림 (elementary stream) 에 기초한다. 덧붙여서, 그 표준은 AES-128 CTR 및 CBC 모드를 허용한다. 미디어를 랜덤 액세스 포인트에서 암호해독하기 위하여, 보호 스킴 특정 정보와 초기화 벡터들도 포함하는 모든 DRM 관련된 정보가 요구된다.
ISO/IEC 23009-1에서 특정된 HTTP를 통한 동적 적응적 스트리밍 (DASH) 이 HTTP (적응적) 스트리밍 애플리케이션들을 위한 표준이다. 그것은 매니페스트 파일이라고 또한 일반적으로 지칭되는 미디어 프레젠테이션 디스크립션 (MPD) 의 포맷과, 미디어 세그먼트 포맷을 주로 특정한다. MPD는 서버 상에서 이용 가능한 미디어를 설명하고 DASH 클라이언트가 미디어 버전을 그것이 관심 있을 미디어 시간에 자율적으로 다운로드하게 한다.
DASH 기반 HTTP 스트리밍을 위한 예시적인 절차가 다음의 단계들을 포함한다:
1) 클라이언트가 스트리밍 콘텐츠, 예컨대, 무비의 MPD를 획득한다. MPD는 스트리밍 콘텐츠의 상이한 대체 표현들에 대한 정보, 예컨대, 비트 레이트, 비디오 해상도, 프레임 레이트, 오디오 언어, 뿐만 아니라 HTTP 리소스들 (초기화 세그먼트 및 미디어 세그먼트들) 의 URL (uniform resource locator) 들을 포함한다.
2) MPD에서의 정보 및 클라이언트의 국부 정보, 예컨대, 네트워크 대역폭, 디코딩/디스플레이 능력들 및 사용자 선호설정 (preference) 에 기초하여, 클라이언트는 원하는 표현(들), 하나의 세그먼트 (또는 그 부분) 를 한 번에 요청한다.
3) 클라이언트가 네트워크 대역폭 변경을 검출하는 경우, 클라이언트는, 랜덤 액세스 포인트로 시작하는 세그먼트에서부터 이상적으로 시작하는, 더 나은 매칭 비트레이트를 갖는 상이한 표현의 세그먼트들을 요청한다.
HTTP 스트리밍 "세션" 동안, 과거의 포지션으로 역방향으로 또는 장래의 포지션으로 순방향으로 탐색하려는 사용자 요청에 응답하기 위해, 클라이언트는 원하는 포지션에 가깝고 랜덤 액세스 포인트에서 이상적으로 시작하는 세그먼트로부터 시작하는 과거 또는 장래의 세그먼트들을 요청한다. 사용자는 콘텐츠를 패스트 포워드할 것을 또한 요청할 수도 있는데, 이는 인트라-코딩된 비디오 픽처들만을 또는 비디오 스트림의 시간적 서브세트만을 디코딩하기에 충분한 데이터를 요청함으로써 실현될 수도 있다.
최신 ISOBMFF 규격은 DASH와 함께 사용하기 위한 스트림 액세스 포인트들 (SAP들) 의 여섯 가지 유형들을 특정한다. 첫 번째 두 개의 SAP 유형들 (유형 1 및 2) 은, H.264/AVC 및 HEVC에서의 IDR 픽처들에 대응한다. 세 번째 SAP 유형 (유형 3) 은 개방형-GOP 랜덤 액세스 포인트들에 그런고로 HEVC에서의 BLA 또는 CRA 픽처들에 대응한다.
HTTP 스트리밍에서, DASH에 따르면, 빈번하게 사용되는 동작들은 HEAD, GET, 및 부분적 GET을 포함한다. HEAD 동작은 주어진 URL (uniform resource locator) 또는 URN (uniform resource name) 에 연관된 파일의 헤더를, 그 URL 또는 URN에 연관된 패이로드를 취출하는 일 없이, 취출한다. GET 동작은 주어진 URL 또는 URN에 연관된 전체 파일을 취출한다. 부분적 GET 동작은 입력 파라미터로서 바이트 범위를 수신하고 수신된 바이트 범위에 대응하는 파일의 연속하는 수의 바이트들을 취출하는데, 그 바이트들의 수는 수신된 바이트 범위에 대응한다. 따라서, 무비 프래그먼트들이 HTTP 스트리밍을 위해 제공될 수도 있는데, 부분적 GET 동작이 하나 이상의 개개의 무비 프래그먼트들을 얻을 수 있기 때문이다. 무비 프래그먼트에서는, 상이한 트랙들의 여러 트랙 프래그먼트들이 있을 수 있다. HTTP 스트리밍에서, 미디어 프레젠테이션이 클라이언트에 액세스가능한 데이터의 구조화된 컬렉션일 수도 있다. 클라이언트는 스트리밍 서비스를 사용자에게 제시하기 위해 미디어 데이터 정보를 요청하고 다운로드할 수도 있다.
HTTP 스트리밍을 사용하여 3GPP 데이터를 스트리밍하는 예에서, 멀티미디어 콘텐츠의 비디오 및/또는 오디오 데이터에 대한 다수의 표현들이 있을 수도 있다. 아래에서 설명되는 바와 같이, 상이한 표현들이 상이한 코딩 특성들 (예컨대, 비디오 코딩 표준의 상이한 프로파일들 또는 레벨들), 상이한 코딩 표준들 또는 코딩 표준들의 확장본들 (이를테면 멀티뷰 및/또는 스케일러블 확장본들), 또는 상이한 비트레이트들에 대응할 수도 있다. 그런 표현들의 매니페스트는 미디어 프레젠테이션 디스크립션 (MPD) 데이터 구조에서 정의될 수도 있다. 미디어 프레젠테이션이 HTTP 스트리밍 클라이언트 디바이스에 액세스가능한 데이터의 구조화된 컬렉션에 대응할 수도 있다. HTTP 스트리밍 클라이언트 디바이스는 스트리밍 서비스를 클라이언트 디바이스의 사용자에게 제시하기 위해 미디어 데이터 정보를 요청하고 다운로드할 수도 있다. 미디어 프레젠테이션이 MPD의 업데이트들을 포함할 수도 있는 MPD 데이터 구조에서 설명될 수도 있다.
미디어 프레젠테이션은 하나 이상의 기간들의 시퀀스를 포함할 수도 있다. 기간들은 MPD에서의 기간 엘리먼트에 의해 정의될 수도 있다. 각각의 기간은 MPD 내에 속성 start를 가질 수도 있다. MPD는 각각의 기간에 대해 start 속성 및 availableStartTime 속성을 포함할 수도 있다. 라이브 서비스들의 경우, 기간의 start 속성과 MPD 속성 availableStartTime의 합은 UTC 포맷의 그 기간의 이용가능 시간 (availability time), 특히 대응하는 기간에서의 각각의 표현의 첫 번째 미디어 세그먼트를 특정할 수도 있다. 주문형 (on-demand) 서비스들의 경우, 첫 번째 기간의 start 속성은 0일 수도 있다. 임의의 다른 기간에 대해, start 속성은 첫 번째 기간의 시작 시간에 대한 대응하는 기간의 시작 시간 사이의 타임 오프셋을 특정할 수도 있다. 각각의 기간은 다음의 기간의 시작까지, 또는 마지막 기간의 경우에는 미디어 프레젠테이션의 말단까지 연장할 수도 있다. 기간 시작 시간들은 정확할 수도 있다. 그것들은 모든 이전 기간들의 미디어를 플레이하는 것으로부터 생기는 실제 타이밍을 반영할 수도 있다.
각각의 기간은 동일한 미디어 콘텐츠에 대해 하나 이상의 표현들을 포함할 수도 있다. 표현이 오디오 또는 비디오 데이터의 다수의 대안적 인코딩된 버전들 중 하나일 수도 있다. 그 표현들은 인코딩 유형들에 의해, 예컨대, 비디오 데이터에 대한 비트레이트, 해상도, 및/또는 코덱과, 오디오 데이터에 대한 비트레이트, 언어, 및/또는 코덱에 의해 상이할 수도 있다. 표현이란 용어는, 멀티미디어 콘텐츠의 특정 기간에 대응하고 특정 방식으로 인코딩되는 인코딩된 오디오 또는 비디오 데이터의 섹션을 지칭하는데 사용될 수도 있다.
특정 기간의 표현들은 표현들이 속하는 적응 세트를 나타내는 MPD에서의 속성에 의해 표시된 그룹에 배정될 수도 있다. 동일한 적응 세트에서의 표현들은, 클라이언트 디바이스가, 예컨대 대역폭 적응을 수행하기 위해, 이들 표현들 사이를 동적으로 그리고 끊김없이 스위칭할 수 있다는 점에서, 서로에 대한 대안들로서 일반적으로 간주된다. 예를 들어, 특정 기간 동안의 비디오 데이터의 각각의 표현은 동일한 적응 세트에 배정될 수도 있어서, 그 표현들 중 임의의 표현이 대응하는 기간 동안의 멀티미디어 콘텐츠의 비디오 데이터 또는 오디오 데이터와 같은 미디어 데이터를 제시하기 위한 디코딩을 위해 선택될 수도 있다. 하나의 기간 내의 미디어 콘텐츠는, 일부 예들에서, 그룹 0이 존재한다면, 그 그룹 0으로부터의 하나의 표현, 또는 각각의 영이 아닌 그룹으로부터의 많아야 하나의 표현의 조합 중 어느 하나에 의해 표현될 수도 있다. 기간의 각각의 표현에 대한 타이밍 데이터는 그 기간의 시작 시간을 기준으로 나타낼 수도 있다.
표현이 하나 이상의 세그먼트들을 포함할 수도 있다. 각각의 표현은 초기화 세그먼트를 포함할 수도 있거나, 또는 표현의 각각의 세그먼트는 자체 초기화될 수도 있다. 존재하는 경우, 초기화 세그먼트는 표현에 액세스하기 위한 초기화 정보를 포함할 수도 있다. 일반적으로, 초기화 세그먼트는 미디어 데이터를 포함하지 않는다. 세그먼트가 식별자, 이를테면 URL (uniform resource locator), URN (uniform resource name), 또는 URI (uniform resource identifier) 에 의해 고유하게 참조될 수도 있다. MPD는 각각의 세그먼트에 대해 식별자들을 제공할 수도 있다. 일부 예들에서, MPD는 URL, URN, 또는 URI에 의해 액세스 가능한 파일 내의 세그먼트를 위한 데이터에 대응할 수도 있는 range 속성의 형태로 바이트 범위들을 제공할 수도 있다.
상이한 표현들이 상이한 유형들의 미디어 데이터에 대한 실질적으로 동시 취출을 위해 선택될 수도 있다. 예를 들어, 클라이언트 디바이스가 세그먼트들을 취출하는 타임드 텍스트 표현, 비디오 표현, 및 오디오 표현을 선택할 수도 있다. 일부 예들에서, 클라이언트 디바이스는 대역폭 적응을 수행하기 위한 특정 적응 세트들을 선택할 수도 있다. 다시 말하면, 클라이언트 디바이스는 비디오 표현들을 포함하는 적응 세트, 오디오 표현들을 포함하는 적응 세트, 및/또는 타임드 텍스트를 포함하는 적응 세트를 선택할 수도 있다. 대안적으로, 클라이언트 디바이스는 특정한 유형들의 미디어 (예컨대, 비디오) 를 위한 적응 세트들을 선택하고, 다른 유형들의 미디어 (예컨대, 오디오 및/또는 타임드 텍스트) 를 위한 표현들을 직접적으로 선택할 수도 있다.
다양한 문제들이 기존의 DASH 기법들에서 일어날 수도 있다. 예를 들어, 저-레이턴시 라이브 서비스를 배포하는 것과 같은 저-레이턴시 비디오 스트리밍 서비스들의 경우, 그것은 각각의 세그먼트가 원래의 서버 상에서 이용 가능하게 되도록 가능한 한 빠르게 생성될 수 있는 것에 관계가 있다. 다르게 말하면, 짧은 세그먼트들이 이러한 시나리오들에서 필요하다. 현재, 짧은 세그먼트들을 생성하기 위한 다음의 두 가지 옵션들이 있다:
1) ISOBMFF 라이브 프로파일을 사용: 이는 각각의 세그먼트가 유형 1 또는 2의 SAP로 시작해야만 하지만, 세그먼트들은 모두가 하나의 적응 세트에서 동일한 지속기간으로 되어야 하는 것을 의미한다. 다르게 말하면, IDR 픽처들은 RAP들을 제공하기 위해 사용되어야 하며, SAP 유형 3에 대응하는 개방형-GOP RAP들은 사용될 수 없다. 결과적으로, 비디오 코딩 효율은 타협되어야 한다.
2) ISOBMFF 메인 프로파일을 사용: 그러나, 이는 스위치 포인트들 상의 MPD 기반 시그널링 (SAP 유형 1 또는 2) 이 가능하지 않고 클라이언트는 샘플에 액세스하는 방법을 찾아내기 위하여 세그먼트들을 파싱하는 것이 필요하다는 것을 의미한다.
덧붙여서, 세그먼트 과적 문제가 일어날 수도 있다. 다시 말하면, 코어 DASH 규격에서, 세그먼트들은 진정수 (integral number) 의 무비 프래그먼트들을 포함해야만 하는 전달 유닛들이다. 일반론의 손실 없이, 세그먼트가 단일 무비 프래그먼트를 포함한다고 가정한다. 무비 프래그먼트들 그것들 자체는 진정수의 샘플들을 디코딩 순서로 제공한다는 측면에서만 제약조건들을 갖는다.
코어 DASH에서, 세그먼트들은 추가의 제한들 없이 어드레싱 가능 및 전달 가능한 유닛들을 생성할 목적으로 생성될 수도 있다. 그러나, 제한된 프로파일들 (예컨대, ISO 라이브 프로파일) 에서, 동일한 시간에서의 세그먼트들은 표현 스위칭을 가능하게 하는데 사용된다. 후자는 다음의 중대한 제한들을 추가한다:
● 각각의 세그먼트는 폐쇄형 GOP로 시작해야만 한다.
● 세그먼트들은 하나의 표현 내에서 프레젠테이션 시간에 중첩되지 않아야만 한다.
이들 두 가지 제한들은, 특히 세그먼트들이 상대적으로 짧다면, 감소된 코딩 효율을 초래한다.
더욱이, 브로드캐스트 애플리케이션들의 경우, 전달 유닛 속으로의 랜덤 액세스가 관계가 있다. 세그먼트들의 지속기간은 채널 취득 및 채널 변경에 관계가 있는 랜덤 액세스 시간을 결정한다. 랜덤 액세스에 대해, 더욱 효율적인 개방형 GOP가 충분하고, 세그먼트들은 심지어 프레젠테이션 시간 중첩을 어느 정도까지는 가질 수도 있으며, 이는 액세스에서 감소된 재생 (playout) 품질 (일부 누락된 프레임들) 을 초래할 수도 있지만, 스트림에의 고속 액세스를 여전히 허용한다.
본 개시물의 기법들, 아래에서 논의되는 바와 같이, 세그먼트의 상이한 기능적 양태들을 해결하고 세그먼트들을 상이한 클래스들로 분화할 수도 있다.
도 1은 스트림에 빠르게 연결하는 예시적인 사용 사례를 도시하는 개념도이다. 이 예에서, 일부 세그먼트들이 브로드캐스트를 통해 이용 가능하지만, 다른 세그먼트들은 유니캐스트를 통해 이용 가능하다. 특히, "8" 및 "9"로 라벨표시된 세그먼트들이 브로드캐스트를 통해 이용 가능한 한편, 7A-7D, 8A-8D, 및 9A-9D로 라벨표시된 세그먼트들은 유니캐스트를 통해 이용 가능하다. 이 사용 사례에서, 클라이언트 디바이스가 (세그먼트들 (8A-8D) 이 브로드캐스트를 통해 이용 가능한 세그먼트 8과는 동일한 미디어 데이터를 포함하는 경우) 유니캐스트를 통해 세그먼트들 (7D 및 8A-8D) 을 취출한 다음, 브로드캐스트를 통해 세그먼트 9를 수신한다. 특히, 클라이언트 디바이스는 브로드캐스트를 통한 세그먼트 8의 송신 동안인 튠-인 시간 2에 브로드캐스트로 튜닝한다. 그러므로, 클라이언트 디바이스는 브로드캐스트를 통해 세그먼트 8을 수신할 수 없으며, 그 대신에, 클라이언트 디바이스는, 세그먼트 9를 브로드캐스트를 통해 수신하기 전에 세그먼트들 (7D 및 8A-8D) 을 취출한다. 따라서, 클라이언트 디바이스는 세그먼트 8D를 취출한 후 브로드캐스트로부터 유니캐스트로 스위칭한다. 따라서, 미디어 데이터를 재생하는 경우, 클라이언트 디바이스는 세그먼트들 (7D 및 8A-8D) (유니캐스트를 통해 수신됨) 로부터의 미디어 데이터를 재생한 다음, 세그먼트 9 (브로드캐스트를 통해 수신됨) 에서부터 재생하도록 스위칭한다.
이 사용 사례는 유니캐스트를 이용한 "고속 튠-인"을 증명한다. 이 경우, 서비스 제공자가 높은 SAP 빈도를 갖는 하나의 표현 (통상적으로, 유형 3이 가능함) 을 신속한 액세스를 위한 순서로 분산시키려고 한다. 그러나, 튠-인 후, 클라이언트는 더 효율적이고 더 적은 IDR 프레임들을 갖는 표현으로 스위칭하고 싶어한다. 스위칭된 표현은 심지어 상이한 세그먼트 사이즈를 가질 수도 있다. 이 시나리오는 유니캐스트에서의 사례일 수도 있지만, 또한 하이브리드 경우의 사례일 수도 있다. 그 시나리오는 도 1에 도시되어 있다. 이 도면에서, 각각의 세그먼트가 IDR 프레임을 포함하는 더 짧은 세그먼트들이 유니캐스트를 통해 이용 가능하게 된다. 클라이언트가 특정한 시간에 유니캐스트 지원 없이 프로그램에 연결한다면, 세그먼트 (도 1에서의 세그먼트 9) 가 수신되고 플레이되기 시작될 수 있기까지 얼마간의 시간이 걸릴 것이다. 이는 (예컨대, 세그먼트의 미디어 데이터를 디코딩하는 미디어 디코더를 적절히 초기화하기 위하여) 전체 세그먼트가 수신될 것이 필요하다는 사실에 기인한다.
이 경우, 유니캐스트 표현이 세그먼트 지속기간의 1/4로 제공된다. 클라이언트는 효율적인 (긴 세그먼트, 긴 IDR 프레임 거리) 브로드캐스트 표현이 브로드캐스트를 통해 도착하기까지 유니캐스트의 짧은 세그먼트들을 재생하도록 즉시 선택할 수 있다. MPD에서의 이들 능력들의 시그널링 (랜덤 액세스 포인트들 및 스위치 포인트들의 포지션) 이 관계가 있지만 오늘날 가능하지 않다.
다른 유사한 사용 사례가 SHVC를 이용한 고속 튠-인을 수반한다. 낮은 RAP 빈도와 심지어 낮은 세그먼트 사이즈를 갖는 기본 계층과, 더 높은 GOP 빈도를 갖는 향상 계층의 제공이 있을 수도 있다. 그러면 동일한 것이 도 1에 관해 논의된 바와 같이 성취되어야 한다. 이들 특징들을 시그널링하는 것은 오늘날 가능하지 않다.
다른 바람직한 사용 사례가 효율적인 타임-시프트 버퍼의 사용이다. 특정한 경우들에서, 표현이 라이브 에지에서 작은 세그먼트들로 제공될 수도 있지만, 클라이언트가 버퍼를 타임-시프트하기 위해 이동하자 마자, 세그먼트 사이즈가 증가한다. 표현들은 끊김없는 스위칭 능력들을 나타내기 위해 하나의 적응 세트에 여전히 있어야 하지만, 그것들은 동일한 세그먼트 사이즈들 및/또는 동일한 스위치 포인트/랜덤 액세스 포인트 빈도를 갖도록 강요되지 않아야 한다. 동일한 것이 장래의 주문형 사용을 위해 라이브 이벤트의 기록에 적용된다.
다른 사용 사례가 개방형 GOP들을 이용한 고속 튠-인을 수반한다. 개방형 GOP가 GOP 외부의 픽처들을 기준으로 예측될 수 있는 픽처들을 포함하는 GOP에 일반적으로 대응할 수도 있다. 이는, GOP의 모든 픽처들이 GOP 내의 다른 픽처들로부터 예측된다는 점에서 독립식 (self-contained) 인 폐쇄형 GOP와 대조적이다. 예를 들어, 개방형 GOP가 인터-예측된 픽처 (또는 인터-예측된 키 프레임) 으로 시작할 수도 있는 한편, 폐쇄형 GOP가 인트라-예측된 픽처로 시작할 수도 있다.
개방형 GOP들을 이용한 고속 튠-인의 사례는 브로드캐스트 고속 튠-인을 위한 전형적인 경우일 수도 있다. 문제는 빠르게 튠-인하며, 표현들을 가로질러 스위칭하고, 아마도 낮은 레이턴시를 제공하기 원하는 경우들이 있다는 것이다. 이는 시그널링하는 복잡한 사용 사례들, 즉 세그먼트들, 개방형 GOP들, 폐쇄형 GOP들, 세그먼트 정렬들 등을 시그널링하는 것을 초래할 수도 있다.
다른 사용 사례는 연속성을 위한 고속 스위치 다운을 수반한다. 이 사례는 브로드캐스트 고속 튠-인 시나리오에 대해 또한 전형적일 수도 있다. 문제는 빠르게 튠-인하며, 표현들을 가로질러 스위칭하고, 아마도 낮은 레이턴시를 제공하기 원하는 경우들이 있다는 것이다. 이는 시그널링하는 복잡한 사용 사례들, 즉 세그먼트들, 개방형 GOP들, 폐쇄형 GOP들, 세그먼트 정렬들 등을 시그널링하는 것을 초래할 수도 있다.
다른 사용 사례는 세그먼트 가용성들을 수반한다. 레이턴시들을 감소시키기 위하여, 세그먼트들이 단축되는 것이 필요할 뿐만 아니라, 세그먼트들의 생성 및 공개 사이의 시간이 단축되는 것 또한 필요하다. HTTP 404 에러들을 피하기 위해, 세그먼트 이용가능 시간들은 수신기에 이용 가능하게 되는 (예컨대, 시그널링되는) 것이 필요하다. 세그먼트 템플릿들이 이용가능 시간들을 알리는 패턴을 제공하지만, 이는 세그먼트들이 정확한 시간에 이용 가능할 것을 요구하고, 그러므로, 세그먼트 지속기간들에서의 변동들은 세그먼트 이용가능 시작 시간 (availability start time) 들을 알리는 때가 고려될 필요가 있고 인코더는 이 패턴을 추종하는 것이 필요하다. 콘텐츠 제공자가 세그먼트 이용가능 시간들을 갖는 IDR 프레임을 생성할 것이 강요되지 않는다면, 그 제공자는 IDR 프레임 배치들을 더 쉽게 가변할 수 있고 세그먼트 이용가능 시간들은 더 정확하게 알려질 수 있다. 이 양태는 세그먼트 지속기간들을 시그널링함에 있어서 고려되어야 한다.
상이한 사용 사례들에서, 스위칭, 전달, 및 랜덤 액세스의 상이한 특징들은 다소 관계가 있지만, 그것들은 하나의 콘텐츠 제공물 내에 제공될 것이 필요할 수도 있다. 고려되어야 하는 다음의 여러 시나리오들이 존재한다:
● 더 낮은 빈도로 유니캐스트 표현으로 스위칭하는 능력과 함께 낮은 채널 획득시간을 이용한 브로드캐스트 배포의 전개.
● 브로드캐스트와 동기되는 유니캐스트를 통해 라이브 에지에서 낮은 레이턴시 버전을 전달하는 것.
● 전달 유닛들보다 더 많은 랜덤 액세스 빈도를 갖는 브로드캐스트만을 통해 낮은 레이턴시 버전을 전달하는 것.
● 고려될 것이 필요한 가변 세그먼트 지속기간들.
본 개시물의 기법들은 이들 다양한 사용 사례들을, 단독으로 또는 임의의 조합으로 허용할 수도 있고, 위에서 논의된 문제들 중 임의의 것 또는 모두를 극복할 수도 있다.
도 2는 다양한 유형들의 미디어 세그먼트들 사이의 관계들을 예시하는 벤 다이어그램 (200) 이다. 미디어 세그먼트들은 다음과 같은 다양한 목적들 중 임의의 것 또는 모두를 위해 DASH에서 사용될 수도 있다:
● 표현 스위칭
○ 폐쇄형 GOP들이 일반적으로 필요하다.
○ 세그먼트들은 하나의 표현 내에서 시간적으로 중첩하지 않아야 한다.
○ 세그먼트들은 하나의 적응 세트에서 상이한 표현들 전체에 걸쳐 정렬되어야만 한다.
● 랜덤 액세스
○ 개방형 GOP가 일반적으로 필요하다.
○ 세그먼트들은 개방형 GOP 랜덤 액세스가 허용된다면 하나의 표현 내에서 시간적으로 중첩할 수도 있다.
● 전달 유닛
○ 랜덤 액세스 또는 스위칭에 대한 요건들이 없다.
○ 세그먼트는 진정수의 무비 프래그먼트들을 포함해야만 한다.
상이한 양태들을 해결하기 위하여, 다음 네 개의 상이한 세그먼트 유형들 (또는 포맷들) 이 도 2에 따라 고려될 수도 있다:
● 전달 유닛 세그먼트 포맷 (202): 임의의 제약조건들이 없는 단지 하나의 프래그먼트. (도 2에서 실선 외곽선을 갖는 타원에 의해 표현됨).
● 랜덤 액세스 세그먼트 포맷 (204): 튠인하기 위한 개방형 GOP. (도 2에서 점선 외곽선을 갖는 타원에 의해 표현됨).
● 비-중첩 (non-overlap) 세그먼트 포맷 (206): 클라이언트 디바이스가 임의의 문제들 없이 이 포맷의 세그먼트로 스위칭할 수 있다. (도 2에서 점선 외곽선을 갖는 타원에 의해 표현됨.)
● 스위치 세그먼트 포맷 (208): 클라이언트 디바이스가 이 포맷의 세그먼트로 스위칭될 수 있다. (도 2에서 이점쇄선 외곽선을 갖는 타원에 의해 표현됨.)
도 3은 표현 (210) 및 ISO BMFF 파일들 (212A-212C) 의 예시적인 구조를 도시하는 개념도이다. 도 3은 moof (무비 프래그먼트) 박스와 무비 데이터 (mdat) 박스를 포함하는 ISO BMFF 파일 (212A) 의 전개도를 또한 도시한다. 도 3의 예시적인 ISO BMFF 파일 (212A) 은 아래에서 더 상세히 설명되는 도 6의 무비 프래그먼트들 (164) 과 개념적으로 유사하다. 그것은 무비 프래그먼트들이 미디어 데이터에 대한 전달 유닛들이라는 것을 고려하는 것에 관계가 있다. 무비 프래그먼트들은, 예컨대 도 3에서 도시된 바와 같이, 그것들이 moof 박스 및 mdat 박스의 시퀀스를 포함하도록 생성된다.
도 4는 네트워크를 통해 미디어 데이터를 스트리밍하는 기법들을 구현하는 일 예의 시스템 (10) 을 도시하는 블록도이다. 이 예에서, 시스템 (10) 은 콘텐츠 준비 디바이스 (20), 서버 디바이스 (60), 및 클라이언트 디바이스 (40) 를 포함한다. 클라이언트 디바이스 (40) 와 서버 디바이스 (60) 는 인터넷을 포함할 수도 있는 네트워크 (74) 에 의해 통신적으로 커플링된다. 일부 예들에서, 콘텐츠 준비 디바이스 (20) 와 서버 디바이스 (60) 는 네트워크 (74) 또는 다른 네트워크에 의해 또한 커플링될 수도 있거나, 또는 직접 통신적으로 커플링될 수도 있다. 일부 예들에서, 콘텐츠 준비 디바이스 (20) 와 서버 디바이스 (60) 는 동일한 디바이스를 포함할 수도 있다.
콘텐츠 준비 디바이스 (20) 는, 도 4의 예에서, 오디오 소스 (22) 와 비디오 소스 (24) 를 포함한다. 오디오 소스 (22) 는, 예를 들어, 오디오 인코더 (26) 에 의해 인코딩될 캡처된 오디오 데이터를 나타내는 전기 신호들을 생성하는 마이크로폰을 포함할 수도 있다. 대안으로, 오디오 소스 (22) 는 이전에 기록된 오디오 데이터를 저장하는 저장 매체, 컴퓨터화된 신시사이저와 같은 오디오 데이터 생성기, 또는 오디오 데이터의 임의의 다른 소스를 포함할 수도 있다. 비디오 소스 (24) 는 비디오 인코더 (28) 에 의해 인코딩될 비디오 데이터를 생성하는 비디오 카메라, 이전에 기록된 비디오 데이터로 인코딩된 저장 매체, 컴퓨터 그래픽 소스와 같은 비디오 데이터 생성 부, 또는 비디오 데이터의 임의의 다른 소스를 포함할 수도 있다. 콘텐츠 준비 디바이스 (20) 는 모든 예들에서 서버 디바이스 (60) 에 반드시 통신적으로 커플링될 필요는 없고, 서버 디바이스 (60) 에 의해 판독되는 별개의 매체에 멀티미디어 콘텐츠를 저장할 수도 있다.
원시 (raw) 오디오 및 비디오 데이터는 아날로그 또는 디지털 데이터를 포함할 수도 있다. 아날로그 데이터는 오디오 인코더 (26) 및/또는 비디오 인코더 (28) 에 의해 인코딩되기 전에 디지털화될 수도 있다. 오디오 소스 (22) 는 송화 (speaking) 참가자가 말을 하는 동안 송화 참가자로부터 오디오 데이터를 획득할 수도 있고, 비디오 소스 (24) 는 동시에 송화 참가자의 비디오 데이터를 획득할 수도 있다. 다른 예들에서, 오디오 소스 (22) 는 저장된 오디오 데이터를 포함하는 컴퓨터 판독가능 저장 매체를 포함할 수도 있고, 비디오 소스 (24) 는 저장된 비디오 데이터를 포함하는 컴퓨터 판독가능 저장 매체를 포함할 수도 있다. 이런 방식으로, 본 개시물에서 설명되는 기법들은 라이브, 스트리밍, 실시간 오디오 및 비디오 데이터에 또는 아카이브된 (archived) 미리 기록된 오디오 및 비디오 데이터에 적용될 수도 있다.
비디오 프레임들에 대응하는 오디오 프레임들은 일반적으로 비디오 프레임들 내에 포함되는 비디오 소스 (24) 에 의해 캡처된 (또는 생성된) 비디오 데이터와 동시에 오디오 소스 (22) 에 의해 캡처되었던 (또는 생성되었던) 오디오 데이터를 포함하는 오디오 프레임들이다. 예를 들어, 송화 참가자가 일반적으로 송화에 의해 오디오 데이터를 생성하는 동안, 오디오 소스 (22) 는 그 오디오 데이터를 캡처하고, 비디오 소스 (24) 는 동일한 시간에, 다시 말하면, 오디오 소스 (22) 가 오디오 데이터를 캡처하고 있는 동안, 송화 참가자의 비디오 데이터를 캡처한다. 그래서, 오디오 프레임이 하나 이상의 특정 비디오 프레임들에 시간적으로 대응할 수도 있다. 따라서, 오디오 프레임이 비디오 프레임에 대응한다는 것은, 일반적으로 오디오 데이터 및 비디오 데이터가 동일한 시간에 캡처되었고 오디오 프레임 및 비디오 프레임은 동일한 시간에 캡처되었던 오디오 데이터 및 비디오 데이터를 각각 포함하는 상황에 해당한다.
일부 예들에서, 오디오 인코더 (26) 는 인코딩된 오디오 프레임에 대한 오디오 데이터가 기록되었던 시간을 나타내는 타임스탬프를 각각의 인코딩된 오디오 프레임 내에 인코딩할 수도 있고, 마찬가지로, 비디오 인코더 (28) 는 인코딩된 비디오 프레임에 대한 비디오 데이터가 기록되었던 시간을 나타내는 타임스탬프를 각각의 인코딩된 비디오 프레임 내에 인코딩할 수도 있다. 이런 예들에서, 오디오 프레임이 비디오 프레임에 대응한다는 것은 오디오 프레임이 타임스탬프를 포함한다는 것과 비디오 프레임이 동일한 타임스탬프를 포함한다는 것을 포함할 수도 있다. 콘텐츠 준비 디바이스 (20) 는, 오디오 인코더 (26) 및/또는 비디오 인코더 (28) 가 타임스탬프들을 생성할 수도 있게 하거나 또는 오디오 소스 (22) 및 비디오 소스 (24) 가 오디오 및 비디오 데이터를 각각 타임스탬프에 연관시키기 위해 사용할 수도 있는 내부 클록을 포함할 수도 있다.
일부 예들에서, 오디오 소스 (22) 는 오디오 데이터가 기록되었던 시간에 대응하는 데이터를 오디오 인코더 (26) 에 전송할 수도 있고, 비디오 소스 (24) 는 비디오 데이터가 기록되었던 시간에 대응하는 데이터를 비디오 인코더 (28) 에 전송할 수도 있다. 일부 예들에서, 오디오 인코더 (26) 는 인코딩된 오디오 데이터의 상대적인 시간적 순서를 표시하지만 오디오 데이터가 기록되었던 절대 시간을 반드시 표시할 필요는 없는 시퀀스 식별자를 인코딩되는 오디오 데이터 내에 인코딩할 수도 있고, 마찬가지로, 비디오 인코더 (28) 는 인코딩된 비디오 데이터의 상대적인 시간적 순서를 표시하기 위해 시퀀스 식별자들을 또한 사용할 수도 있다. 마찬가지로, 일부 예들에서, 시퀀스 식별자가 타임스탬프와 매핑될 수도 있거나 또는 그렇지 않으면 상관될 수도 있다.
오디오 인코더 (26) 는 인코딩된 오디오 데이터의 스트림을 일반적으로 생성하는 반면, 비디오 인코더 (28) 는 인코딩된 비디오 데이터의 스트림을 생성한다. 데이터의 각 개개의 스트림은 (오디오든 비디오든) 기본 스트림이라 지칭될 수도 있다. 기본 스트림이 표현의 단일의 디지털적으로 코딩된 (가능하다면 압축된) 성분이다. 예를 들어, 그 표현의 코딩된 비디오 또는 오디오 부분은 기본 스트림일 수 있다. 기본 스트림은 비디오 파일 내에 캡슐화되기 전에 패킷화된 기본 스트림 (packetized elementary stream; PES) 으로 변환될 수도 있다. 동일한 표현 내에서, 스트림 ID가 하나의 기본 스트림에 속한 PES-패킷들을 다른 스트림에 속한 것으로부터 구별하는데 이용될 수도 있다. 기본 스트림의 데이터의 기본 유닛이 패킷화된 기본 스트림 (PES) 패킷이다. 따라서, 코딩된 비디오 데이터는 기본 비디오 스트림들에 일반적으로 대응한다. 마찬가지로, 오디오 데이터는 하나 이상의 각각의 기본 스트림들에 대응한다.
많은 비디오 코딩 표준들, 이를테면 ITU-T H.264/AVC 및 고 효율 비디오 코딩 (HEVC) 이, 에러 없는 비트스트림들을 위한 신택스, 시맨틱스, 및 디코딩 프로세스들을 정의하며, 그것들 중 임의의 것이 특정한 프로파일 또는 레벨에 부합한다. 비디오 코딩 표준들은 인코더를 통상 특정하지 않지만, 인코더에게는 생성된 비트스트림들이 디코더에 대해 표준-부합적인 것을 보장하는 임무가 주어진다. 비디오 코딩 표준들의 맥락에서, "프로파일"이 알고리즘들, 특징들, 또는 도구들 및 그것들에 적용되는 제약들의 서브세트에 해당한다. H.264 표준에 의해 정의된 바와 같이, 예를 들어, "프로파일"이 H.264 표준에 의해 특정되는 전체 비트스트림 신택스의 서브세트이다. "레벨"이, 예를 들어, 디코더 메모리 및 컴퓨테이션과 같은 디코더 리소스 소비의 한계들에 대응하며, 이 한계들은 픽처들의 해상도, 비트 레이트, 및 블록 프로세싱 레이트에 관련된다. 프로파일이 profile_idc (프로파일 표시자) 값으로 시그널링될 수도 있는 반면, 레벨이 level_idc (레벨 표시자) 값으로 시그널링될 수도 있다.
H.264 표준은, 예를 들어, 주어진 프로파일의 신택스에 의해 부과되는 경계들 내에서, 디코딩된 픽처들의 특정된 사이즈와 같이 비트스트림 내의 신택스 엘리먼트들에 의해 취해진 값들에 의존하여 인코더들 및 디코더들의 성능에서의 큰 변화를 요구하는 것이 여전히 가능하다는 것을 인정한다. H.264 표준은 많은 애플리케이션들에서, 특정 프로파일 내의 신택스의 모든 가정적 사용들을 다룰 수 있는 디코더를 구현하는 것이 실용적이지도 않고 경제적이지도 않다는 것을 추가로 인정한다. 따라서, H.264 표준은 비트스트림에서 신택스 엘리먼트들의 값들에 부과되는 특정된 제약들의 세트로서 "레벨"을 정의한다. 이들 제약조건들은 값들에 대한 단순한 제한들일 수도 있다. 다르게는, 이들 제약들은 값들의 산술적 조합들 (예컨대, 픽처 폭 곱하기 픽처 높이 곱하기 초당 디코딩되는 픽처들의 수) 에 대한 제약들의 형태를 취할 수도 있다. H.264 표준은 개개의 구현예들이 각각의 지원된 프로파일들에 대해 상이한 레벨을 지원할 수도 있다는 것을 추가로 제공한다.
프로파일에 부합하는 디코더가 보통은 프로파일에서 정의된 모든 특징들을 지원한다. 예를 들어, 코딩 특징으로서, B-픽처 코딩은 H.264/AVC의 베이스라인 프로파일에서 지원되지 않지만 H.264/AVC의 다른 프로파일들에서 지원된다. 레벨에 부합하는 디코더가 그 레벨에서 정의된 한계들을 넘어서 리소스들을 요구하지 않는 임의의 비트스트림을 디코딩할 수 있어야 한다. 프로파일들 및 레벨들의 정의들은 해석능력 (interpretability) 에 도움이 될 수도 있다. 예를 들어, 비디오 송신 동안, 한 쌍의 프로파일 및 레벨 정의들이 전체 송신 세션 동안에 협상되고 합의될 수도 있다. 더 구체적으로는, H.264/AVC에서, 레벨이, 프로세싱될 것이 필요한 매크로블록들의 수, 디코딩된 픽처 버퍼 (picture buffer, DPB) 사이즈, 코딩된 픽처 버퍼 (coded picture buffer, CPB) 사이즈, 수직 모션 벡터 범위, 두 개의 연속적인 MB들 당 모션 벡터들의 최대 수, 및 B-블록이 8x8 개 화소들 미만의 서브-매크로블록 파티션들을 가질 수 있는지의 여부에 관한 한계들을 정의할 수도 있다. 이런 방식으로, 디코더가 비트스트림을 적절히 디코딩할 수 있는지의 여부를 그 디코더가 결정할 수도 있다.
도 4의 예에서, 콘텐츠 준비 디바이스 (20) 의 캡슐화 부 (30) 는 코딩된 비디오 데이터를 포함하는 기본 스트림들을 비디오 인코더 (28) 로부터 그리고 코딩된 오디오 데이터를 포함하는 기본 스트림들을 오디오 인코더 (26) 로부터 수신한다. 일부 예들에서, 비디오 인코더 (28) 및 오디오 인코더 (26) 는 각각이 인코딩된 데이터로부터 PES 패킷들을 형성하는 패킷화기들을 구비할 수도 있다. 다른 예들에서, 비디오 인코더 (28) 및 오디오 인코더 (26) 는 각각이 인코딩된 데이터로부터 PES 패킷들을 형성하기 위해 각각의 패킷화기들과 인터페이싱할 수도 있다. 또 다른 예들에서, 캡슐화 부 (30) 는 인코딩된 오디오 및 비디오 데이터로부터 PES 패킷들을 형성하는 패킷화기들을 포함할 수도 있다.
비디오 인코더 (28) 는 멀티미디어 콘텐츠의 비디오 데이터를 다양한 방법들로 인코딩하여, 다양한 비트레이트들에서, 다양한 특성들, 이를테면 화소 해상도들, 프레임 레이트들, 다양한 코딩 표준들에 대한 적합 (conformance), 다양한 코딩 표준들에 대한 다양한 프로파일들 및/또는 프로파일들의 레벨들에 대한 적합, (예컨대, 2차원 또는 3차원 플레이백을 위한) 하나 또는 다수의 뷰들을 갖는 표현들, 또는 다른 그런 특성들을 갖는 멀티미디어 콘텐츠의 상이한 표현들을 생성할 수도 있다. 표현이, 본 개시물에서 사용되는 바와 같이, 오디오 데이터, 비디오 데이터, 텍스트 데이터 (예컨대, 폐쇄형 캡션들을 위함), 또는 다른 이러한 데이터 중 하나를 포함할 수도 있다. 표현은 기본 스트림, 이를테면 오디오 기본 스트림 또는 비디오 기본 스트림을 포함할 수도 있다. 각각의 PES 패킷은 PES 패킷이 속한 기본 스트림을 식별하는 stream_id를 포함할 수도 있다. 캡슐화 부 (30) 는 기본 스트림들을 다양한 표현들의 비디오 파일들 (예컨대, 세그먼트들) 로 어셈블링하는 것을 담당한다.
캡슐화 부 (30) 는 오디오 인코더 (26) 및 비디오 인코더 (28) 로부터 표현의 기본 스트림들을 위한 PES 패킷들을 수신하고 그 PES 패킷들로부터 대응하는 네트워크 추상화 계층 (network abstraction layer, NAL) 유닛들을 형성한다. H.264/AVC (Advanced Video Coding) 의 예에서, 코딩된 비디오 세그먼트들은 NAL 유닛들로 조직화되며, 그것들은 화상 통화 (video telephony), 저장, 브로드캐스트, 또는 스트리밍과 같은 애플리케이션들을 어드레싱하는 "네트워크 친화적 (network-friendly)" 비디오 표현을 제공한다. NAL 유닛들은 비디오 코딩 계층 (Video Coding Layer, VCL) NAL 유닛들 및 비-VCL NAL 유닛들로 분류될 수 있다. VCL 유닛들은 코어 압축 엔진을 포함할 수도 있고 블록, 매크로블록, 및/또는 슬라이스 레벨 데이터를 포함할 수도 있다. 다른 NAL 유닛들이 비-VCL NAL 유닛들일 수도 있다. 일부 예들에서, 일반적으로 일차 (primary) 코딩된 픽처로서 제시되는 하나의 시간 인스턴스에서의 코딩된 픽처가, 하나 이상의 NAL 유닛들을 포함할 수도 있는 액세스 유닛 내에 포함될 수도 있다.
비-VCL NAL 유닛들은 무엇보다도 파라미터 세트 NAL 유닛들 및 SEI NAL 유닛들을 포함할 수도 있다. 파라미터 세트들은 시퀀스-레벨 헤더 정보를 (시퀀스 파라미터 세트들 (sequence parameter sets) (SPS) 내에) 그리고 드물게 변경되는 픽처-레벨 헤더 정보를 (픽처 파라미터 세트들 (picture parameter sets) (PPS) 내에) 포함할 수도 있다. 파라미터 세트들 (예컨대, PPS 및 SPS) 로, 드물게 변화하는 정보가 각각의 시퀀스 또는 픽처에 대해 반복될 필요는 없고, 그래서, 코딩 효율이 개선될 수도 있다. 더욱이, 파라미터 세트들의 사용은 중요한 헤더 정보의 대역 외 송신을 가능하게 하여, 에러 내성을 위한 용장성 송신들이 필요 없게 할 수도 있다. 대역 외 송신 예들에서, 파라미터 세트 NAL 유닛들은 다른 NAL 유닛들, 이를테면 SEI NAL 유닛들과는 상이한 채널 상에서 송신될 수도 있다.
보충적 향상 정보 (Supplemental Enhancement Information, SEI) 는 VCL NAL 유닛들로부터 코딩된 픽처들의 샘플들을 디코딩하는데 필요하지 않은 정보를 포함할 수도 있지만, 디코딩, 디스플레이, 에러 내성, 및 다른 목적들에 관련된 프로세스들을 지원할 수도 있다. SEI 메시지들은 비-VCL NAL 유닛들에 포함될 수도 있다. SEI 메시지들은 일부 표준 규격의 규범적 (normative) 부분이고, 그에 따라 표준 준수 디코더 구현예에 대해 항상 의무적이지는 않다. SEI 메시지들은 시퀀스 레벨 SEI 메시지들 또는 픽처 레벨 SEI 메시지들일 수도 있다. 일부 시퀀스 레벨 정보는 SEI 메시지들, 이를테면 SVC의 예에서의 확장성 정보 SEI 메시지들 및 MVC에서의 뷰 확장성 정보 SEI 메시지들에 포함될 수도 있다. 이들 예의 SEI 메시지들은, 예컨대, 동작 포인트들의 추출 및 동작 포인트들의 특성들에 대한 정보를 운반할 수도 있다. 덧붙여서, 캡슐화 부 (30) 는 표현들의 특성들을 설명하는 미디어 프레젠테이션 디스크립터 (media presentation descriptor, MPD) 와 같은 매니페스트 파일을 형성할 수도 있다. 캡슐화 부 (30) 는 확장가능 마크업 언어 (extensible markup language, XML) 에 따라 MPD를 포맷할 수도 있다.
캡슐화 부 (30) 는 매니페스트 파일 (예컨대, MPD) 과 함께, 멀티미디어 콘텐츠의 하나 이상의 표현들을 위한 데이터를 출력 인터페이스 (32) 로 제공할 수도 있다. 출력 인터페이스 (32) 는 네트워크 인터페이스 또는 저장 매체에 기입하기 위한 인터페이스, 이를테면 유니버설 직렬 버스 (universal serial bus, USB) 인터페이스, CD 또는 DVD 라이터 또는 버너, 자기적 또는 플래시 저장 매체들에 대한 인터페이스, 또는 미디어 데이터를 저장하거나 또는 송신하기 위한 다른 인터페이스들을 포함할 수도 있다. 캡슐화 부 (30) 는 멀티미디어 콘텐츠의 표현들 중 각각의 표현의 데이터를 출력 인터페이스 (32) 로 제공할 수도 있으며, 그 출력 인터페이스는 그 데이터를 네트워크 송신 또는 저장 매체들을 통해 서버 디바이스 (60) 로 전송할 수도 있다. 도 4의 예에서, 서버 디바이스 (60) 는, 각각이 각각의 매니페스트 파일 (66) 및 하나 이상의 표현들 (68A-68N) (표현들 (68)) 을 포함하는, 다양한 멀티미디어 콘텐츠들 (64) 을 저장하는 저장 매체 (62) 를 포함한다. 일부 예들에서, 출력 인터페이스 (32) 는 데이터를 네트워크 (74) 로 직접적으로 또한 전송할 수도 있다.
일부 예들에서, 표현들 (68) 은 적응 세트들로 분리될 수도 있다. 다시 말하면, 표현들 (68) 의 다양한 서브세트들은, 코덱, 프로파일 및 레벨, 해상도, 뷰들의 수, 세그먼트들에 대한 파일 포맷, 표현과 함께 디스플레이될 텍스트의 언어 또는 다른 특성들 및/또는 디코딩되고 예컨대 스피커들에 의해 제시될 오디오 데이터를 식별할 수도 있는 텍스트 유형 정보, 적응 세트에서 표현들에 대한 장면의 관점에서 카메라 각도 또는 실세계 (real-world) 카메라를 설명할 수도 있는 카메라 앵글 정보, 특정 청중들에 대한 콘텐츠 적합성 (suitability) 을 설명하는 등급 (rating) 정보 등과 같은 특성들의 각각의 공통 세트들을 포함할 수도 있다.
매니페스트 파일 (66) 은 특정한 적응 세트들, 뿐만 아니라 그 적응 세트들에 대한 공통 특성들에 대응하는 표현들 (68) 의 서브세트들을 나타내는 데이터를 포함할 수도 있다. 매니페스트 파일 (66) 은 적응 세트들의 개개의 표현들에 대한 개개의 특성들, 이를테면 비트레이트들을 나타내는 데이터를 또한 포함할 수도 있다. 이런 방식으로, 적응 세트가 단순화된 네트워크 대역폭 적응을 제공할 수도 있다. 적응 세트에서의 표현들은 매니페스트 파일 (66) 의 적응 세트 엘리먼트의 자식 엘리먼트들을 사용하여 표시될 수도 있다.
서버 디바이스 (60) 는 요청 프로세싱 부 (70) 와 네트워크 인터페이스 (72) 를 포함한다. 일부 예들에서, 서버 디바이스 (60) 는 복수의 네트워크 인터페이스들을 포함할 수도 있다. 더욱이, 서버 디바이스 (60) 의 특징들 중 임의의 것 또는 모두는 콘텐츠 전달 네트워크의 다른 디바이스들, 이를테면 라우터들, 브리지들, 프록시 디바이스들, 스위치들, 또는 다른 디바이스들 상에 구현될 수도 있다. 일부 예들에서, 콘텐츠 전달 네트워크의 중간 디바이스들은 멀티미디어 콘텐츠 (64) 의 데이터를 캐싱하고, 서버 디바이스 (60) 의 컴포넌트들에 실질적으로 부합하는 컴포넌트들을 포함할 수도 있다. 대체로, 네트워크 인터페이스 (72) 는 네트워크 (74) 를 통해 데이터를 전송하고 수신하도록 구성된다.
요청 프로세싱 부 (70) 는, 저장 매체 (62) 의 데이터에 대해, 클라이언트 디바이스들, 이를테면 클라이언트 디바이스 (40) 로부터 네트워크 요청들을 수신하도록 구성된다. 예를 들어, 요청 프로세싱 부 (70) 는, 『RFC 2616, "Hypertext Transfer Protocol - HTTP/1.1," by R. Fielding et al, Network Working Group, IETF, June 1999』에서 설명된 바와 같이, 하이퍼텍스트 전송 프로토콜 (hypertext transfer protocol, HTTP) 버전 1.1을 구현할 수도 있다. 다시 말하면, 요청 프로세싱 부 (70) 는 HTTP GET 또는 부분적 GET 요청들을 수신하고 그 요청들에 응답하여 멀티미디어 콘텐츠 (64) 의 데이터를 제공하도록 구성될 수도 있다. 그 요청들은 표현들 (68) 중 하나의 표현의 세그먼트를, 예컨대, 그 세그먼트의 URL을 사용하여 특정할 수도 있다. 일부 예들에서, 그 요청들은 또한 세그먼트의 하나 이상의 바이트 범위들을 특정하며, 따라서 부분적 GET 요청들을 포함할 수도 있다. 요청 프로세싱 부 (70) 는 표현들 (68) 중 하나의 표현의 세그먼트의 헤더 데이터를 제공하기 위해 HTTP HEAD 요청들을 서비스하도록 추가로 구성될 수도 있다. 어느 경우에나, 요청 프로세싱 부 (70) 는 요청된 데이터를 요청 디바이스, 이를테면 클라이언트 디바이스 (40) 에 제공하기 위해 요청들을 프로세싱하도록 구성될 수도 있다.
부가적으로 또는 대안적으로, 요청 프로세싱 부 (70) 는 브로드캐스트 또는 멀티캐스트 프로토콜, 이를테면 eMBMS를 통해 미디어 데이터를 전달하도록 구성될 수도 있다. 콘텐츠 준비 디바이스 (20) 는 설명된 바와 실질적으로 동일한 방도로 DASH 세그먼트들 및/또는 서브-세그먼트들을 생성할 수도 있지만, 서버 디바이스 (60) 는 eMBMS 또는 다른 브로드캐스트 또는 멀티캐스트 네트워크 전송 프로토콜을 사용하여 이들 세그먼트들 또는 서브-세그먼트들을 전달할 수도 있다. 예를 들어, 요청 프로세싱 부 (70) 는 클라이언트 디바이스 (40) 로부터 멀티캐스트 그룹 참가 요청을 수신하도록 구성될 수도 있다. 다시 말하면, 서버 디바이스 (60) 는, 특정 미디어 콘텐츠 (예컨대, 라이브 이벤트의 브로드캐스트) 에 연관된 클라이언트 디바이스 (40) 를 포함하는 클라이언트 디바이스들에게, 멀티캐스트 그룹에 연관된 인터넷 프로토콜 (Internet protocol, IP) 주소를 광고할 수도 있다. 클라이언트 디바이스 (40) 는, 결국, 멀티캐스트 그룹에 참가하려는 요청을 제출할 수도 있다. 이 요청은 네트워크 (74), 예컨대, 네트워크 (74) 를 구성하는 라우터들의 전체에 걸쳐 전파될 수도 있어서, 라우터들은 멀티캐스트 그룹에 연관된 IP 주소로 향하는 트래픽을 서비스신청 (subscribing) 클라이언트 디바이스들, 이를테면 클라이언트 디바이스 (40) 에게 향하도록 한다.
도 4의 예에서 도시된 바와 같이, 멀티미디어 콘텐츠 (64) 는, 미디어 프레젠테이션 디스크립션 (MPD) 에 대응할 수도 있는 매니페스트 파일 (66) 을 포함한다. 매니페스트 파일 (66) 은 상이한 대체 표현들 (68) (예컨대, 상이한 품질들을 갖는 비디오 서비스들) 의 디스크립션들을 포함할 수도 있고, 그 디스크립션은, 예컨대, 표현들 (68) 의 코덱 정보, 프로파일 값, 레벨 값, 비트레이트, 및 다른 설명적 특성들을 포함할 수도 있다. 클라이언트 디바이스 (40) 는 미디어 프레젠테이션의 MPD를 취출하여 표현들 (68) 의 세그먼트들에 액세스하는 방법을 결정할 수도 있다.
특히, 취출 부 (52) 는 클라이언트 디바이스 (40) 의 구성 데이터 (도시되지 않음) 를 취출하여 비디오 디코더 (48) 의 디코딩 능력들 및 비디오 출력 (44) 의 렌더링 능력들을 결정할 수도 있다. 구성 데이터는 클라이언트 디바이스 (40) 의 사용자에 의해 선택된 언어 선호설정, 클라이언트 디바이스 (40) 의 사용자에 의해 설정된 깊이 선호설정들에 대응하는 하나 이상의 카메라 시점들 (perspectives), 및/또는 클라이언트 디바이스 (40) 의 사용자에 의해 선택된 등급 선호설정 중 임의의 것 또는 모두를 또한 포함할 수도 있다. 취출 부 (52) 는 HTTP GET 및 부분적 GET 요청들을 제출하도록 구성된, 예를 들어, 웹 브라우저 또는 미디어 클라이언트를 포함할 수도 있다. 취출 부 (52) 는 클라이언트 디바이스 (40) 의 하나 이상의 프로세서들 또는 프로세싱 유닛들 (도시되지 않음) 에 의해 실행되는 소프트웨어 명령들에 대응할 수도 있다. 일부 예들에서, 취출 부 (52) 에 관해 설명된 기능의 전부 또는 부분들은 하드웨어로, 또는 하드웨어, 소프트웨어, 및/또는 펌웨어의 조합으로 구현될 수도 있고, 여기서 필수 하드웨어는 소프트웨어 또는 펌웨어를 위한 명령들을 실행하도록 제공될 수도 있다.
취출 부 (52) 는 클라이언트 디바이스 (40) 의 디코딩 및 렌더링 능력들을 매니페스트 파일 (66) 의 정보에 의해 나타내어진 표현들 (68) 의 특성들과 비교할 수도 있다. 취출 부 (52) 는 표현들 (68) 의 특성들을 결정하기 위해 처음에는 매니페스트 파일 (66) 의 적어도 부분을 취출할 수도 있다. 예를 들어, 취출 부 (52) 는 하나 이상의 적응 세트들의 특성들을 설명하는 매니페스트 파일 (66) 의 부분을 요청할 수도 있다. 취출 부 (52) 는 클라이언트 디바이스 (40) 의 코딩 및 렌더링 능력들에 의해 충족될 수 있는 특성들을 갖는 표현들 (68) 의 서브세트 (예컨대, 적응 세트) 를 선택할 수도 있다. 취출 부 (52) 는 그 다음에 적응 세트에서 표현들에 대한 비트레이트들을 결정하며, 네트워크 대역폭의 현재 이용가능 양을 결정하고, 네트워크 대역폭에 의해 충족될 수 있는 비트레이트를 갖는 표현들 중 하나의 표현으로부터 세그먼트들을 취출할 수도 있다.
일반적으로, 더 높은 비트 레이트 표현들이 더 높은 품질의 비디오 플레이백을 가져올 수도 있지만, 더 낮은 비트 레이트 표현들은 이용가능 네트워크 대역폭이 감소하는 경우에 충분한 품질의 비디오 플레이백을 제공할 수도 있다. 따라서, 이용가능 네트워크 대역폭이 비교적 높은 경우, 취출 부 (52) 는 비교적 높은 비트 레이트 표현들로부터 데이터를 취출할 수도 있는 한편, 이용가능 네트워크 대역폭이 낮은 경우, 취출 부 (52) 는 상대적으로 낮은 비트 레이트 표현들로부터 데이터를 취출할 수도 있다. 이런 방식으로, 클라이언트 디바이스 (40) 는 네트워크 (74) 의 네트워크 대역폭 가용성을 변경하는 것에 또한 적응하면서도 네트워크 (74) 를 통해 멀티미디어 데이터를 스트리밍할 수도 있다.
부가적으로 또는 대안적으로, 취출 부 (52) 는 브로드캐스트 또는 멀티캐스트 네트워크 프로토콜, 이를테면 eMBMS 또는 IP 멀티캐스트에 따라 데이터를 수신하도록 구성될 수도 있다. 이러한 예들에서, 취출 부 (52) 는 특정 미디어 콘텐츠에 연관된 멀티캐스트 네트워크 그룹에 참가하려는 요청을 제출할 수도 있다. 멀티캐스트 그룹에 참가한 후, 취출 부 (52) 는 서버 디바이스 (60) 또는 콘텐츠 준비 디바이스 (20) 에게 발행되는 추가의 요청들 없이 멀티캐스트 그룹의 데이터를 수신할 수도 있다. 취출 부 (52) 는, 멀티캐스트 그룹의 데이터가 더 이상 필요하지 않은 경우, 예컨대, 플레이백을 중지하기 위해 또는 채널들을 상이한 멀티캐스트 그룹으로 변경하기 위해 멀티캐스트 그룹을 떠나려는 요청을 제출할 수도 있다.
네트워크 인터페이스 (54) 는 선택된 표현의 세그먼트들의 데이터를 수신하고 취출 부 (52) 에 제공할 수도 있으며, 이는 결국 세그먼트들을 역캡슐화 부 (50) 에 제공할 수도 있다. 역캡슐화 부 (50) 는 비디오 파일의 엘리먼트들을 구성성분인 PES 스트림들로 역캡슐화하며, PES 스트림들을 패킷해제하여 인코딩된 데이터를 취출하고, 예컨대, 스트림의 PES 패킷 헤더들에 의해 표시된 바와 같이, 인코딩된 데이터가 오디오 스트림의 부분인지 또는 비디오 스트림의 부분인지에 따라, 오디오 디코더 (46) 또는 비디오 디코더 (48) 중 어느 하나에게 인코딩된 데이터를 전송할 수도 있다. 오디오 디코더 (46) 는 인코딩된 오디오 데이터를 디코딩하고 디코딩된 오디오 데이터를 오디오 출력 (42) 에 전송하는 한편, 비디오 디코더 (48) 는 인코딩된 비디오 데이터를 디코딩하고 스트림의 복수의 뷰들을 포함할 수도 있는 디코딩된 비디오 데이터를 비디오 출력 (44) 에 전송한다.
본 개시물의 기법들에 따라, 매니페스트 파일 (66) 은 세그먼트들이 부합할 수도 있는 다양한 세그먼트 포맷들 (본 명세서에서 세그먼트들의 유형들이라고 또한 지칭됨) 을 시그널링할 수도 있다. 매니페스트 파일 (66) 은 각각의 포맷에 부합하는 세그먼트들의 로케이션들 (다시 말하면, 다양한 유형들 중 각각의 유형의 세그먼트들의 로케이션들) 을 또한 시그널링할 수도 있다. 예를 들어, 매니페스트 파일 (66) 은 다양한 유형들 중 각각의 유형의 세그먼트들이 표현들 (68) 중 각각의 표현에서 발생하는 빈도들을 시그널링할 수도 있다.
매니페스트 파일 (66) 을 사용하여, 클라이언트 디바이스 (40) 는 미디어 데이터의 낮은 레이턴시 플레이백을 성취할 수도 있다. 예를 들어, 표현들 (68) 중 하나 (예컨대, 표현 (68A)) 는, 매니페스트 파일 (66) 에 의해 표시된 바와 같이, 상대적으로 높은 빈도로 SAP들을 포함할 수도 있는 한편, 표현들 (68) 중 다른 하나 (예컨대, 표현 (68N)) 는 상대적으로 낮은 빈도로 SAP들을 포함할 수도 있다. 특히, SAP들은 특정 포맷들, 예컨대, 랜덤 액세스 미디어 세그먼트 포맷 및/또는 스위칭 미디어 세그먼트 포맷에 부합하는 세그먼트들의 일부를 형성할 수도 있다. 더욱이, 표현들 (68) 은 상이한 송신 서비스들을 통한 취출을 위해 이용 가능할 수도 있다. 예를 들어, 표현 (68A) 은 유니캐스트를 통해 이용 가능할 수도 있는 한편, 표현 (68N) 은 브로드캐스트를 통해 이용 가능할 수도 있다.
본 개시물의 기법들의 일부 예들에 따라, 클라이언트 디바이스 (40) 는, 위의 예에 대하여, 매니페스트 파일 (66) 에 의해 표시된 바와 같이, 표현 (68A) 이 상대적으로 높은 빈도의 SAP들 (예컨대, 고도로 빈번한 랜덤 액세스 미디어 세그먼트들 및/또는 고도로 빈번한 스위칭 미디어 세그먼트들) 을 포함한다고 결정할 수도 있다. 더욱이, 클라이언트 디바이스 (40) 는 표현 (68N) 이 상대적으로 낮은 빈도의 SAP들을 포함하지만 상대적으로 더 높은 품질을 또한 갖는다고 결정할 수도 있다. 따라서, 미디어 데이터 취출을 개시하기 위해, 클라이언트 디바이스 (40) 는, 매니페스트 파일 (66) 에 의해 표시된 바와 같이, 클라이언트 디바이스 (40) 가, 예컨대, 랜덤 액세스 미디어 세그먼트 또는 68N의 스위칭 미디어 세그먼트에서 표현 (68N) 으로 스위칭할 수 있기까지, 표현 (68A) 으로부터 미디어 세그먼트들을 취출함으로써 시작할 수도 있다. 이들 기법들의 예들을 설명하는 다양한 상세한 사용 사례들이, 예컨대, 도 7 내지 도 14에 관해 아래에서 설명된다.
비디오 인코더 (28), 비디오 디코더 (48), 오디오 인코더 (26), 오디오 디코더 (46), 캡슐화 부 (30), 취출 부 (52), 및 역캡슐화 부 (50) 각각은, 해당되는 경우, 다양한 적합한 프로세싱 회로, 이를테면 하나 이상의 마이크로프로세서들, 디지털 신호 프로세서들 (digital signal processors, DSP들), 주문형 집적회로들 (application specific integrated circuits, ASIC들), 필드 프로그램가능 게이트 어레이들 (field programmable gate arrays, FPGA들), 개별 로직 회로, 소프트웨어, 하드웨어, 펌웨어 또는 그것들의 임의의 조합들 중 임의의 것으로서 구현될 수도 있다. 비디오 인코더 (28) 및 비디오 디코더 (48) 의 각각은 하나 이상의 인코더들 또는 디코더들 내에 포함될 수도 있고, 그것들 중 어느 하나는 결합형 비디오 인코더/디코더 (CODEC) 의 일부로서 통합될 수도 있다. 비슷하게, 오디오 인코더 (26) 및 오디오 디코더 (46) 의 각각은 하나 이상의 인코더들 또는 디코더들 내에 구비될 수 있고, 그것들 중 어느 하나는 결합형 CODEC의 부분으로서 통합될 수도 있다. 비디오 인코더 (28), 비디오 디코더 (48), 오디오 인코더 (26), 오디오 디코더 (46), 캡슐화 부 (30), 취출 부 (52), 및/또는 역캡슐화 부 (50) 을 포함하는 장치가 집적회로, 마이크로프로세서, 및/또는 무선 통신 디바이스, 이를테면 셀룰러 전화기를 포함할 수도 있다.
클라이언트 디바이스 (40), 서버 디바이스 (60), 및/또는 콘텐츠 준비 디바이스 (20) 가 본 개시물의 기법들에 따라 동작하도록 구성될 수도 있다. 예를 목적으로, 본 개시물은 클라이언트 디바이스 (40) 및 서버 디바이스 (60) 에 관해 이들 기법들을 설명한다. 그러나, 콘텐츠 준비 디바이스 (20) 는 서버 디바이스 (60) 대신 (또는 그 서버 디바이스에 더하여) 이들 기법들을 수행하도록 구성될 수도 있다는 것이 이해되어야 한다.
캡슐화 부 (30) 는 NAL 유닛이 속한 프로그램을 식별하는 헤더, 뿐만 아니라 패이로드, 예컨대, 오디오 데이터, 비디오 데이터, 또는 NAL 유닛이 대응하는 전송 또는 프로그램 스트림을 설명하는 데이터를 포함하는 NAL 유닛들을 형성할 수도 있다. 예를 들어, H.264/AVC에서, NAL 유닛이 1-바이트 헤더 및 가변 사이즈의 패이로드를 포함한다. 비디오 데이터를 자신의 패이로드에 포함하는 NAL 유닛이 다양한 세분도 (granularity) 레벨들의 비디오 데이터를 포함할 수도 있다. 예를 들어, NAL 유닛은 비디오 데이터의 블록, 복수의 블록들, 비디오 데이터의 슬라이스, 또는 비디오 데이터의 전체 픽처를 포함할 수도 있다. 캡슐화 부 (30) 는 인코딩된 비디오 데이터를 비디오 인코더 (28) 로부터 기본 스트림들의 PES 패킷들의 형태로 수신할 수도 있다. 캡슐화 부 (30) 는 각각의 기본 스트림을 대응하는 프로그램에 연관시킬 수도 있다.
캡슐화 부 (30) 는 복수의 NAL 유닛들로부터 액세스 유닛들을 어셈블링할 수도 있다. 대체로, 액세스 유닛이 비디오 데이터의 한 프레임을 표현하기 위한 하나 이상의 NAL 유닛들, 뿐만 아니라 오디오 데이터가 이용 가능할 경우 그 프레임에 대응하는 그러한 오디오 데이터를 포함할 수도 있다. 액세스 유닛이 하나의 출력 시간 인스턴스를 위한 모든 NAL 유닛들, 예컨대, 하나의 시간 인스턴스를 위한 모든 오디오 및 비디오 데이터를 일반적으로 포함한다. 예를 들어, 각각의 뷰가 초당 20개 프레임들의 프레임 레이트 (fps) 를 가진다면, 각각의 시간 인스턴스는 0.05 초의 시간 간격에 대응할 수도 있다. 이 시간 간격 동안, 동일한 액세스 유닛 (동일한 시간 인스턴스) 의 모든 뷰들을 위한 특정 프레임들은 동시에 렌더링될 수도 있다. 하나의 예에서, 액세스 유닛이 하나의 시간 인스턴스에서의 코딩된 픽처를 포함할 수도 있으며, 그 코딩된 픽처는 일차 코딩된 픽처로서 제시될 수도 있다.
따라서, 액세스 유닛이 공통의 시간적 인스턴스의 모든 오디오 및 비디오 프레임들, 예컨대, 시간 X에 대응하는 모든 뷰들을 포함할 수도 있다. 본 개시물은 특정 뷰의 인코딩된 픽처를 "뷰 컴포넌트"라고 또한 지칭한다. 다시 말하면, 뷰 컴포넌트가 특정 시간에서의 특정 뷰를 위한 인코딩된 픽처 (또는 프레임) 를 포함할 수도 있다. 따라서, 액세스 유닛이 공통의 시간적 인스턴스의 모든 뷰 컴포넌트들을 포함하는 것으로서 정의될 수도 있다. 액세스 유닛들의 디코딩 순서는 출력 또는 디스플레이 순서와 반드시 동일할 필요는 없다.
미디어 프레젠테이션이 미디어 프레젠테이션 디스크립션 (MPD) 을 포함할 수도 있으며, 이 MPD는 상이한 대체 표현들의 디스크립션들 (예컨대, 상이한 품질들을 갖는 비디오 서비스들) 을 포함할 수도 있고 그 디스크립션은, 예컨대, 코덱 정보, 프로파일 값, 및 레벨 값을 포함할 수도 있다. MPD가 매니페스트 파일, 이를테면 매니페스트 파일 (66) 의 하나의 예이다. 클라이언트 디바이스 (40) 는 미디어 프레젠테이션의 MPD를 취출하여 다양한 프레젠테이션들의 무비 프래그먼트들에 액세스하는 방법을 결정할 수도 있다. 무비 프래그먼트들은 비디오 파일들의 무비 프래그먼트 박스들 (moof 박스들) 에 위치될 수도 있다.
매니페스트 파일 (66) (이는, 예를 들어, MPD를 포함할 수도 있음) 이 표현들 (68) 의 세그먼트들의 가용성을 광고할 수도 있다. 다시 말하면, MPD는 표현들 (68) 중 하나의 표현의 첫 번째 세그먼트가 이용 가능하게 되는 벽시계 시간을 표시하는 정보, 뿐만 아니라 표현들 (68) 내의 세그먼트들의 지속기간들을 표시하는 정보를 포함할 수도 있다. 이런 방식으로, 클라이언트 디바이스 (40) 의 취출 부 (52) 는 특정 세그먼트에 선행하는 세그먼트들의 시작 시간 뿐만 아니라 지속기간들에 기초하여, 각각의 세그먼트가 이용 가능한 경우를 결정할 수도 있다.
캡슐화 부 (30) 가 수신된 데이터에 기초하여 NAL 유닛들 및/또는 액세스 유닛들을 비디오 파일로 어셈블링한 후, 캡슐화 부 (30) 는 그 비디오 파일을 출력을 위해 출력 인터페이스 (32) 에 전달한다. 일부 예들에서, 캡슐화 부 (30) 는 클라이언트 디바이스 (40) 로 비디오 파일을 직접 전송하지 않는 대신에, 비디오 파일을 국부적으로 저장하거나 또는 비디오 파일을 출력 인터페이스 (32) 를 통해 원격 서버에 전송할 수도 있다. 출력 인터페이스 (32) 는 예를 들어, 송신기, 트랜시버, 데이터를 예를 들어, 광학적 드라이브, 자기 매체 드라이브 (예컨대, 플로피 드라이브) 와 같은 컴퓨터 판독가능 매체에 기입하기 위한 디바이스, 유니버셜 직렬 버스 (USB) 포트, 네트워크 인터페이스, 또는 다른 출력 인터페이스를 포함할 수도 있다. 출력 인터페이스 (32) 는, 예를 들어, 송신 신호, 자기 매체, 광학적 매체, 메모리, 플래시 드라이브, 또는 다른 컴퓨터 판독가능 매체와 같은 컴퓨터 판독가능 매체에 비디오 파일을 출력한다.
네트워크 인터페이스 (54) 는 네트워크 (74) 를 통해 NAL 유닛 또는 액세스 유닛을 수신하고 NAL 유닛 또는 액세스 유닛을 역캡슐화 부 (50) 에 취출 부 (52) 를 통해 제공할 수도 있다. 역캡슐화 부 (50) 는 비디오 파일의 엘리먼트들을 구성성분인 PES 스트림들로 역캡슐화하며, PES 스트림들을 패킷해제하여 인코딩된 데이터를 취출하고, 예컨대, 스트림의 PES 패킷 헤더들에 의해 표시된 바와 같이, 인코딩된 데이터가 오디오 스트림의 부분인지 또는 비디오 스트림의 부분인지에 따라, 인코딩된 데이터를 오디오 디코더 (46) 또는 비디오 디코더 (48) 중 어느 하나에 전송할 수도 있다. 오디오 디코더 (46) 는 인코딩된 오디오 데이터를 디코딩하고 디코딩된 오디오 데이터를 오디오 출력 (42) 에 전송하는 한편, 비디오 디코더 (48) 는 인코딩된 비디오 데이터를 디코딩하고 스트림의 복수의 뷰들을 포함할 수도 있는 디코딩된 비디오 데이터를 비디오 출력 (44) 에 전송한다.
본 개시물의 기법들에 따라, 콘텐츠 준비 디바이스 (20), 서버 디바이스 (60), 및/또는 클라이언트 디바이스 (40) 중 임의의 것 또는 모두는 새로운 DASH 프로파일 (예컨대, 고급 라이브 프로파일) 에 따라 미디어 데이터를 정의하며, 시그널링하며, 그리고/또는 프로세싱하는 다양한 방법들을 수행하도록 구성될 수도 있다. 비슷하게, 이들 디바이스들 중 임의의 것 또는 모두는 새로운 유형들의 미디어 세그먼트들을 프로세싱하도록 구성될 수도 있는데, 이는 동시에 고-효율 비디오 코딩 구조들을 가능하게 하면서도, 브로드캐스트 및 멀티캐스트에서의 감소된 채널 변경 시간을 포함하는 레이턴시 비디오 스트리밍을 가능하게 할 수도 있다. 대체로, 단독으로 또는 임의의 조합으로 수행될 수도 있는 다음의 양태들이 논의된다:
● 상이한 미디어 세그먼트 유형들 및 그것들의 구조들을 정의하는 것.
● 현재 속성들의 검토.
● 솔루션 고려사항들.
● MPD 시그널링.
● 세그먼트에서 유형을 시그널링하는 것.
● MPD에서 유형을 시그널링하는 것.
● 상이한 사용 사례들에 대해 적응 세트들을 가능하게 하는 것.
일부 예들에서, 콘텐츠 준비 디바이스 (20), 서버 디바이스 (60), 및 클라이언트 디바이스 (40) 는 다음의 포맷들, 즉, 전달 유닛 미디어 세그먼트 포맷, 랜덤 액세스 미디어 세그먼트 포맷, 무 중첩 (no overlap) 세그먼트 포맷, 및/또는 스위칭 미디어 세그먼트 포맷 중 임의의 것에 부합하는 미디어 세그먼트들을 이용하도록 구성될 수도 있다. 이들 포맷들은 아래에서 더 상세히 설명된다.
전달 유닛 미디어 세그먼트 포맷에 부합하는 미디어 세그먼트가 다음과 같이 정의될 수도 있다:
● 각각의 미디어 세그먼트가 하나 이상의 온전한 독립식 무비 프래그먼트들을 포함할 것이다. 온전한, 독립식 무비 프래그먼트가 무비 프래그먼트 ('moof') 박스와, 그 무비 프래그먼트 박스에 이어지는 트랙에 의해 참조되는 외부 데이터 참조들을 사용하지 않는 모든 미디어 샘플들을 포함하는 미디어 데이터 ('mdat') 박스이다.
● 각각의 'moof' 박스는 적어도 하나의 트랙 프래그먼트를 포함할 것이다.
● 'moof' 박스들은 외부 데이터 참조들을 사용하지 않을 것이며, 플래그 'default-base-is-moof'는 설정될 것이고, data-offset이 사용될 것이며, 즉, 'base-data-offset-present'가 사용되지 않을 것이다. 이 설정들의 조합이 미디어 데이터에 대한 무비-프래그먼트 상대 어드레싱이라고 지칭될 수도 있다.
● 각각의 미디어 세그먼트는 'dums'를 세그먼트 유형 박스 ('styp') 에서 양립하는 브랜드로서 운반할 수도 있다. 이 브랜드의 적합 요건들은 본 개시물에서 정의된 바와 같을 수도 있다.
랜덤 액세스 미디어 세그먼트 포맷에 부합하는 미디어 세그먼트가 다음과 같이 정의된다:
● 미디어 세그먼트는 위에서 특정된 바와 같은 전달 유닛 미디어 세그먼트 포맷에 부합할 것이다.
● 랜덤 액세스 미디어 세그먼트의 각각의 무비 프래그먼트에서의 첫 번째 액세스 유닛은 (예컨대, IDR, CRA, 또는 BLA 픽처를 포함하는) 유형 1, 2, 또는 3의 SAP의 ISAU에 대응할 것이다.
● 그 미디어 세그먼트는, 이용 가능하다면, 초기화 세그먼트와 조합하여 스트림에서의 미디어에 액세스하기 위한 충분한 정보, 예컨대, 모든 필요한 암호화를 운반할 것이다.
● 각각의 'traf' 박스 (트랙 프래그먼트 박스) 가 'tfdt' 박스 (트랙 프래그먼트 디코드 시간 박스) 를 포함할 것이다.
● 각각의 미디어 세그먼트는 'rams'를 세그먼트 유형 박스 ('styp') 에서 양립하는 브랜드로서 운반할 수도 있다. 이 브랜드의 적합 요건들은 이 하위절에서 정의된다.
● 각각의 미디어 세그먼트는 하나 이상의 'sidx' 박스들을 포함할 수도 있다. 존재한다면, 첫 번째 'sidx' 박스는 어떤 'moof' 박스 앞에 배치될 것이고 첫 번째 세그먼트 인덱스 박스는 전체 세그먼트를 기록할 것이다.
무 중첩 세그먼트 포맷에 부합하는 미디어 세그먼트가 다음과 같이 정의될 수도 있다:
● 미디어 세그먼트는 위에서 특정된 바와 같은 전달 유닛 미디어 세그먼트 포맷에 부합할 것이다.
● 그 세그먼트는 그 세그먼트 및 그것의 선행하는 세그먼트가 비-중첩 속성을 충족시킨다는 의미에서 ISO/IEC 23009-1의 4.5.3에서 정의된 바와 같은 비-중첩 속성을 충족시킬 것이다.
스위칭 미디어 세그먼트 포맷에 부합하는 미디어 세그먼트가 다음과 같이 정의될 수도 있다:
● 그 미디어 세그먼트는 위에서 특정된 바와 같은 랜덤 액세스 미디어 세그먼트 포맷에 부합할 것이다.
● 스위칭 미디어 세그먼트의 첫 번째 무비 프래그먼트에서의 첫 번째 샘플은 유형 1 또는 2 (예컨대, IDR 픽처) 의 SAP의 ISAU에 대응할 것이다.
● 각각의 미디어 세그먼트는 'swms'를 세그먼트 유형 박스 ('styp') 에서 양립하는 브랜드로서 운반할 수도 있다. 이 브랜드의 적합 요건들은 이 하위절에서 정의된다.
다양한 포맷들의 세그먼트들이 상이한 기능들을 수행할 수도 있다. 예를 들어, 전달 유닛 미디어 세그먼트들은 미디어 데이터를 전달하는 기능을 일반적으로 수행한다. 다른 데이터로서, 랜덤 액세스 미디어 세그먼트들은 랜덤 액세스 미디어 세그먼트들을 포함하는 표현에 랜덤 액세스 포인트들 (초기화 데이터를 포함함) 을 제공하는 기능을 수행한다. 무 중첩 세그먼트들이 표현들 사이의 세그먼트 정렬을 표시하는 기능을 수행할 수도 있으며, 이는 간단한 표현 스위칭을 가능하게 할 수도 있다. 스위칭 미디어 세그먼트들은, 랜덤 액세스 미디어 세그먼트에 요구될 것인 엑스트라 초기화 데이터를 포함하는 일 없이, 표현 스위칭을 허용하는 기능을 제공한다.
더욱이, 콘텐츠 준비 디바이스 (20), 서버 디바이스 (60), 및 클라이언트 디바이스 (40) 는 위에서 논의된 포맷들을 나타내는 데이터 및 /또는 본 개시물의 기법들에 따른, 예컨대, 매니페스트 파일 (66) (이를테면 MPD) 에서의 다른 데이터를 프로세싱하도록 구성될 수도 있다. 다음의 특징들은 매니페스트 파일 (66) 에서, 단독으로 또는 임의의 조합으로 시그널링될 수도 있다:
● 명시적으로 시그널링되거나 또는 패턴을 통해 시그널링되는 중 어느 하나로 시그널링되는 표현에서의 각각의 미디어 세그먼트의 유형.
● 하나의 적응 세트에서 상이한 세그먼트 사이즈들을 갖지만 정렬된 스위칭 포인트들, 즉, 동시에 시작하는 스위칭 미디어 세그먼트들을 여전히 가질 능력.
● minBufferTime 및 대역폭의 컴퓨테이션 (랜덤 액세스 포인트에서 시작함) 에 대한 결과들
표현들 (68) 의 각각에 대해, 그리고 아마도 디폴트된 적응 세트 레벨에서, 다음이 매니페스트 파일 (66) 에서 시그널링될 수도 있다:
● 표현에서의 패턴:
○ 모든 세그먼트는 전달 유닛 미디어 세그먼트 유형이며, 모든 N-번째 세그먼트는 랜덤 액세스 미디어 세그먼트이며, 모든 M-번째 세그먼트는 M >= N인 스위칭 세그먼트이다. 일부 약어들 및 디폴팅이 가능할 수도 있다.
■ 이는 새로운 속성 - rams-frequency 및 swms-frequency와 함께 시그널링될 수 있다.
○ MPD를 업데이트하는 일 없이 패턴의 표현을 허용하는 다른 약어 패턴들.
● 세그먼트 타임라인에서의 패턴
○ 각각의 엘리먼트에 대해 세그먼트 타임라인에 옵션적 유형 필드를 추가한다.
■ 세그먼트-유형.
○ 유형 필드는 위의 패턴으로서 패턴을 또한 표현할 수도 있다.
○ 세그먼트 타임라인에서 S 엘리먼트의 업데이트들과 함께 변칙들 (irregularities) 을 시그널링하는 것을 가능하게 한다.
● 명시적임
○ 세그먼트 패턴들을 명시적 리스트에서, 아마도 일부 패턴들과는 번갈아 시그널링하는 것을 허용하는 필드를 추가한다.
○ 이는 세그먼트 지속기간의 시그널링을 또한 포함할 수도 있다.
그것은 공통 적응 세트에서의 표현들은 상이한 세그먼트 지속기간들을 가지는 경우일 수도 있다. 그러나, 스위칭에 대한 문제는 표현들을 가로지르는 스위치 포인트들이 끊김없는 스위칭을 가능하게 하기 위하여 정렬되는 것이 필요하다는 것이다. 스위치 포인트들의 포지션은 위에서 논의된 바와 같이 시그널링될 수도 있다. 다음의 시그널링이 또한 고려될 수도 있다:
● 모든 표현들은 동일한 포지션에서 스위치 포인트들을 갖고 그것들은 정렬된다. 이는 단일 플래그로 시그널링될 수 있다.
● 스위치 포인트가 특정 시간 (이 경우, 복잡할 수도 있는 MPD 시간) 에 시그널링되는 경우, 이는 표현에서의 모든 다른 스위치 포인트들과 정렬된다. 이는 단일 플래그로 또한 시그널링될 수 있고 동일한 플래그는 위에서 논의된 바와 같이 사용될 수도 있다.
● 일부 예들에서, 심지어 뒤따르는 스위칭 미디어 세그먼트가 없는 경우, 여전히 중첩은 없어서, 클라이언트 디바이스 (40) 는 무-중첩 포인트로부터 스위칭 미디어 세그먼트로 스위칭할 수 있다.
● 스위치 포인트들의 다른 더욱 명시적 시그널링이 매니페스트 파일 (66) 에서 추가적으로 시그널링될 수도 있다.
위에서 언급된 바와 같이, 일부 예들에서, 콘텐츠 준비 디바이스 (20), 서버 디바이스 (60), 및/또는 클라이언트 디바이스 (40) 는 DASH의 고급 라이브 프로파일을 이용하도록 구성될 수도 있다. 고급 라이브 프로파일은 위에서 정의된 모든 특징들 및 세그먼트 유형들을 포함할 수도 있다. 고급 라이브 프로파일은 다음의 URN (uniform resource name) 에 의해 식별될 수도 있다: "urn:mpeg:dash:profile:advanced-live:2015".
일부 예들에서, 고급 라이브 프로파일이 적응 세트에서 사용된다면:
● 모든 스위칭 미디어 세그먼트들이 'swms'를 세그먼트 유형 박스 ('styp') 에서 양립하는 브랜드로서 운반할 것이다.
● 'swms'를 운반하지 않는 모든 랜덤 액세스 미디어 세그먼트들은 'rams'를 세그먼트 유형 박스 ('styp') 에서 양립하는 브랜드로서 운반할 것이다.
본 개시물은 MPD 속성들에 대해 기존의 시그널링에 대한 다음의 문제들 및 제한들을 인식한다:
1. 세그먼트 이용가능 시간의 시그널링:
● @duration 또는 세그먼트 타임라인 중 어느 하나:
■ 제안은 새로운 프로파일로 단순화하고 세그먼트 타임라인이 @duration의 상위집합이므로 이 목적으로 세그먼트 타임라인만을 사용하는 것이다.
■ 그러나, 세그먼트 타임라인은 그것이 예외를 허용하므로 더욱 복잡하다.
■ 세그먼트 타임라인에서의 시간이 정확한 세그먼트 지속기간 (콘텐츠 제작에서 더 적은 유연성을 허용함) 또는 드리프트 없는 지속기간이고 세그먼트 이용가능 시간들만을 시그널링한다면 명료하게 하는 것이 또한 필요하다.
■ @timescale의 적절한 애플리케이션에 의해, 이 문제는 해결될 수도 있다는 것에 주목하는 것이 중요함.
2. 특성, 즉, 무 중첩으로부터의 스위치의 시그널링
● 적응 세트에서 참으로 설정되어 있는 세그먼트 정렬에 의해.
■ 문제는 이것이 각각의 세그먼트가 동일한 지속기간을 갖는 것이 필요하다는 것을 의미한다는 것이다.
■ 무-중첩은 더 미세한 세분도로 표현될 것이 필요하다.
3. 랜덤 액세스의 시그널링
● 시작하는 SAP (starts with SAP) 는 1, 2 또는 3으로 설정된다:
■ 문제는 이것이 매우 명시적으로 언급되지 않는다는 것이다.
■ 또한 다른 요건들이 설정되어야만 하며, 랜덤 액세스 세그먼트의 확장된 정의를 참조한다.
4. 스위치 포인트의 시그널링.
● 시작하는 SAP는 1 또는 2로 설정된다:
■ 문제는 이것이 매우 명시적으로 언급되지 않는다는 것이다.
○ 다른 유형의 스위칭이 적용될 수도 있지만, 이는 더 많은 생각을 요구할 것이다. 얼마간의 유연성이 추가되어야 한다.
5. 세그먼트 URL의 시그널링
● 숫자 기반 템플릿
■ 문제는 각각의 세그먼트가 각각의 적응 세트의 각각의 표현에서 동일한 숫자를 가진다는 가정이 기본적으로 있다는 것이다. 이는 요건이 아니지만, 구현예들에서 가정될 가능성이 있다는 것에 주의한다. 하나의 적응 세트에서 상이한 사이즈들의 세그먼트들을 가지도록 변경한다면, 더 이상 번호부여 (numbering) 대응관계는 없다.
■ 현재로는 단순화를 위해, 숫자들이 사용되지 않는다.
● 시간 기반 템플릿
■ 문제는 각각의 세그먼트가 각각의 적응 세트의 각각의 표현에서 동일한 시간을 가진다는 가정이 기본적으로 있다는 것이다. 이는 요건이 아니지만, 구현예들에서 가정될 가능성이 있다는 것에 주의한다.
■ 그러나, 이는 공통 타임라인에 표현될 수 있다는 것에 또한 주의한다. 그리고 타임라인은 상이한 표현들 전체에 걸쳐 관계를 표현하는데 번호부여보다 더 적합하다.
● 세그먼트들의 리스트
■ 문제는 여기서 리스트 포지션이 세그먼트들을 정렬하고 명명이 임의적 (arbitrary) 인 경우일 수도 있다는 것이다. 클라이언트는 적응 세트에서 각각의 표현의 리스트 및 순서의 정확한 매핑을 유지하는 것이 필요하다.
상이한 조각들을 필요한대로 배정하는 본 개시물 기법들. 서버 디바이스 (60) 와 클라이언트 디바이스 (40) 는 일부 예들에서, 다음의 접근법에 따라 구성될 수도 있다:
● 지속기간/세그먼트 타임라인은 전달 유닛에 배정되는데, 그것이 세그먼트가 서버에서 이용 가능한 경우의 시간을 표현하여서이다.
○ 그 시간은 미디어 시간의 측면에서 정확하지 않을 수도 있지만, 세그먼트 이용가능 시작 시간을 컴퓨팅하기 위해 사용된다.
○ 이 타이밍은 하나의 적응 세트에서의 상이한 표현에 대해 상이할 수 있다. 예를 들어 다른 것들보다 더 많은 전달 유닛들과 함께 이용 가능한 표현들이 있을 수도 있다. 사용 사례 논의를 참조한다.
○ 위의 신호들에 기초하여 세그먼트 이용가능 시작 시간을 컴퓨팅하는 방법에 대한 클리어 명령들이 필요하다. 현존 모델이 효과적이지만, 세그먼트 이용가능 시작 시간 컴퓨테이션에 대해 현존 모델이 본 개시물의 기법들에 따라 사용되는 것이면, 그 실무자들은 현존 모델을 반드시 적절히 사용해야 한다.
○ 이는 세그먼트 이용가능 시간이 특정한 표현들 또는 baseURL들에 대해 이용가능 시간 오프셋만큼 조정될 수도 있다는 것을 포함한다.
○ 명료화할 다른 중요한 문제는, 불규칙한 세그먼트들의 지속기간들이 이용가능 시작 시간과 시그널링에 영향을 미치는 방법이다. 일반적으로, 세그먼트들은 동일한 사이즈로 되어야 한다.
● 랜덤 액세스는 상이한 표현들에서 상이할 수 있다.
○ 랜덤 액세스가 세그먼트의 시작에서만 타이밍 식이라면 또는 그 랜덤 액세스 세그먼트의 중간에 또한 있을 수 있다면 그것은 명확하게 되는 것이 필요하다.
○ 4.2.2에 따르면 그것은 현재 세그먼트의 처음에 있지만, 이는 랜덤 액세스 포인트들이 불규칙하게 배치된다면 불규칙한 세그먼트 사이즈들을 초래할 수도 있다.
○ 이는 세그먼트 가용성이 덜 예측 가능하므로 레이턴시에 다시 영향을 미친다.
○ 그러나, 잠정적인 가정 (working assumption) 으로서 4.2.2 모델은 랜덤 액세스가 세그먼트의 처음에 있는 것을 유지시켜야 한다.
● 랜덤 액세스는 두 개의 도메인들에서, 시간적으로 또는 세그먼트 번호부여로 시그널링될 수도 있다.
○ 공통 도구로 가면, 시간 기반 접근법이 사용될 수도 있다.
● 적어도 다음 두 개의 스위칭 접근법들이 핵심 실험들에서 논의되었다:
○ 비트스트림 스위칭:
■ DASH 클라이언트는 표현들의 내부 구조들을 알지 못한다. 표현들을 스플라이싱할 수 있고 이것을 미디어 디코더에게 단일 비트스트림으로서 피드하는 경우만이 알려져 있다. 인코더는 이 속성이 캡슐화 및 미디어 스트림 레벨 상에서 충족되도록 표현들이 반드시 인코딩되게 한다.
■ 이는 클라이언트에게 다음과 같은 시퀀스/비트스트림을 생성하는 것을 기본적으로 허용할 것이다:
● 적응 세트에 대한 Init 세그먼트
● 표현 1의 미디어 세그먼트 1
● ...
● 표현 1의 미디어 세그먼트 X
● 표현 2의 미디어 세그먼트 X+1
● ...
○ 스위칭은 미디어에서의 특정 특성들에 의해 가능하게 된다. 이것이 DASH에서 행해졌던 것이다. 스위칭이 파일 재생 레벨 상에서 행해질 수 있는 방법에 대한 일부 규칙들이 생성되었다. 기본 규칙은 세그먼트 정렬이 참으로 설정되면, 시작하는 SAP는 1 또는 2이고 다음의 시퀀스는 끊김없는 스위치를 제공한다는 것을 아는 것이다:
■ Init 세그먼트 표현 1
■ 표현 1의 미디어 세그먼트 1
■ ...
■ 표현 1의 미디어 세그먼트 X
■ Init 세그먼트 표현 2
■ 표현 2의 미디어 세그먼트 X+1
■ ...
○ 개방형 GOP에서의 스위칭 또는 미디어 프로세싱의 더 상세한 이해를 요구하는 다른 양태들.
확장들 및 제한들이 위의 논의에 기초하여 매니페스트 파일 (66) (예컨대, MPD) 에 적용될 수도 있으며, 여기서 확장들 및 제한들은 새로운 도구들에 적용할 수도 있다). 예를 들어, 다음의 확장들이, 단독으로 또는 임의의 조합으로 적용될 수도 있다:
● 표현 레벨 상의 @timescale의 스케일에서 표현되는 새로운 속성 @randomAccessPeriod (또는 랜덤 액세스 기간을 표현하기 위한 임의의 다른 수단) 을 추가 $Time$가 @timescale 및 @randomAccessPeriod의 곱의 정수 배에 속하는 임의의 세그먼트가 랜덤 액세스 세그먼트이며, 즉, 그것은 적응 세트의 이 표현에 액세스하는 것을 허용한다.
○ 랜덤 액세스에는, 예를 들어 무슨 SAP 유형이 어떤 기간에 이용 가능한지가, 즉, SAP 유형 1, 2 또는 3이 추가로 부여될 수도 있다. 3은 경험된 SAP 유형이 또한 1 또는 2일 수도 있다는 것을 의미할 것임에 주의한다.
● 적응 세트 레벨 상에 다음의 두 가지 속성들 (하나 이상이 존재할 수 있음) 을 갖는 새로운 엘리먼트 스위칭 미디어 세그먼트 (또는 스위칭을 표현하기 위한 임의의 다른 수단) 를 추가:
○ @timescale의 스케일에서 표현하는 @period. $Time$가 @timescale의 곱의 정수 배에 속하고 스위칭할 (switch-to) 기회를 제공하는, 즉, 그것은 이 표현으로 스위칭하는 것을 허용하는 임의의 시간 포지션.
○ 스위칭의 유형을 표현하는 @type가 가능하게 된다. 적어도 두 개의 유형들, 즉 비트스트림 스위칭과 미디어 레벨 스위칭이 정의된다. 다른 유형들, 이를테면 개방형 GOP 스위칭이 정의될 수도 있다.
이러한 스위칭을 표현할 다른 방도는 디스크립터가 스위칭의 유형을 표현하고 그 값이 스위칭 빈도를 표현하는 디스크립터 유형을 사용하는 것일 것이다.
● 세그먼트 타임라인 및 S 엘리먼트에서, 디폴트로 거짓으로 설정되는 추가적인 속성 @reset을 제공한다. 리셋이 랜덤 액세스 기간 및 스위칭 기간의 주기성이 이 포인트에서 리셋되는 것을 의미한다. 이는 IDR이 추가되는 것과 세그먼트 타임라인이 더 임의적인 시간들에서 기본적으로 리셋되는 것을 허용한다.
위의 시나리오는 세그먼트 템플릿들이 위에서 논의된 세그먼트 가용성들을 제공하는 사용 사례를 반드시 지원하지는 않는다. 이 사용 사례를 또한 해결하기 위하여, 다음의 확장이 추가될 수도 있다:
● 표현 레벨 상에 다음의 두 가지 속성들 (하나 이상이 존재할 수 있음) 을 갖는 새로운 엘리먼트 스위칭 (또는 스위칭을 표현하기 위한 임의의 다른 수단 또는 엘리먼트) 을 추가:
○ @timescale의 스케일에서 표현하는 @period. $Time$가 @timescale의 곱의 정수 배에 속하고 스위칭할 (switch-to) 기회를 제공하는, 즉, 그것은 이 표현으로 스위칭하는 것을 허용하는 임의의 시간 포지션.
○ 스위칭의 유형을 표현하는 @type가 가능하게 된다. 적어도 두 개의 유형들, 즉 비트스트림 스위칭과 미디어 레벨 스위칭이 정의된다. 다른 유형들, 이를테면 개방형 GOP 스위칭이 정의될 수도 있다.
다음의 제한들이 더 많은 고급 사용 사례들을 가능하게 하기 위하여 고급 라이브 프로파일에 적용하도록 제안된다:
● 하나의 적응 세트에서 모든 표현들에 대해 단일 @timescale을 사용.
● 세그먼트 지속기간들의 시그널링을 위해 세그먼트 타임라인을 사용 (단순화를 위함).
○ URL의 시그널링을 위해 $Time$만을 사용 (현재, 단순성을 위함).
○ 세그먼트 지속기간에 대한 타이밍은 정확하다 (잠정적인 가정으로, 결과들을 이해하는 것이 필요하다).
■ 세그먼트 지속기간의 정확도는 사용시 (주의) 의 @timescale에 의해 제어될 수 있으며, 예를 들어, 타임스케일이 정확한 샘플링 레이트의 단지 1/5이면, 정확한 샘플링 레이트에 대해 얼마간의 유연성을 가진다.
○ 세그먼트 타임라인은 매 표현에 대하여 상이한 표현들에서 상이한 세그먼트 지속기간들을 허용한다. 그러나, 그것은 적응 세트 레벨에 대해 디폴트될 수도 있다.
○ 세그먼트 타임라인은 개방형 (open ended) @r (-1) 또는 폐쇄형 @r (>=0) 을 사용할 수도 있다.
● 세그먼트 정렬과 시작하는 SAP는 하위 호환가능 전개들을 위해 사용될 수도 있지만, 일반적으로 사용되지 않을 것이다. 시그널링은 @randomAccessPeriod 및 스위칭 엘리먼트에 의해 항상 제공되어야만 한다.
● 적응 세트가 적응 세트 레벨 상의 표현에 대해 스위칭 로직이 제공되는 하나를 초과하는 표현들을 포함하는 것을 보장하는 것이 필요하다.
비록 DASH에 관해 주로 설명되지만, 본 개시물의 기법들은 다른 미디어 포맷들, 이를테면 MPEG-2 TS (transport stream), 또는 WebM에 대해 또한 사용될 수도 있다.
이런 방식으로, 클라이언트 디바이스 (40) 는, 전달 유닛 미디어 세그먼트 포맷, 랜덤 액세스 미디어 세그먼트 포맷, 무 중첩 세그먼트 포맷, 또는 스위칭 미디어 세그먼트 포맷 중 적어도 하나에 부합하는 미디어 세그먼트를 취출하고, 그 미디어 세그먼트가 전달 유닛 미디어 세그먼트 포맷에 부합하는지, 랜덤 액세스 미디어 세그먼트 포맷에 부합하는지, 무 중첩 세그먼트 포맷에 부합하는지, 또는 스위칭 미디어 세그먼트 포맷에 부합하는지에 적어도 부분적으로 기초하여 미디어 세그먼트를 프로세싱하도록 구성되는 하나 이상의 프로세서들을 포함하는, 미디어 데이터를 취출하는 디바이스의 일 예를 나타낸다.
클라이언트 디바이스 (40) 는, 표현에서의 다양한 유형들의 미디어 세그먼트들에 대한 패턴을 표시하는 데이터를 포함하는 매니페스트 파일을 수신하고, 그 패턴에 적어도 부분적으로는 기초하여 미디어 세그먼트들 중 하나 이상을 취출하도록 구성되는 하나 이상의 프로세서들을 포함하는, 미디어 데이터를 취출하는 디바이스의 일 예를 또한 나타낸다.
더구나, 클라이언트 디바이스 (40) 는, 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하도록 구성되며, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하도록 구성되고, 그 표현으로부터 결정된 세그먼트를 취출하도록 구성되는 하나 이상의 프로세서들을 포함하는, 미디어 데이터를 취출하는 디바이스의 일 예를 나타낸다.
마찬가지로, 서버 디바이스 (60) 와 콘텐츠 준비 디바이스 (20) 는 미디어 데이터를 전송하는 디바이스의 예들을 나타내는데, 그 디바이스는, 전달 유닛 미디어 세그먼트 포맷, 랜덤 액세스 미디어 세그먼트 포맷, 무 중첩 세그먼트 포맷, 또는 스위칭 미디어 세그먼트 포맷 중 적어도 하나에 부합하는 미디어 세그먼트를 형성하고, 그 미디어 세그먼트를 클라이언트 디바이스에게 전송하도록 구성되는 하나 이상의 프로세서들을 포함한다.
서버 디바이스 (60) 와 콘텐츠 준비 디바이스 (20) 는 미디어 데이터를 전송하는 디바이스의 예들을 또한 나타내는데, 그 디바이스는 표현에서의 다양한 유형들의 미디어 세그먼트들에 대한 패턴을 표시하는 데이터를 포함하는 매니페스트 파일을 클라이언트 디바이스에게 전송하고, 하나 이상의 요청들에 응답하여, 그 패턴에 적어도 부분적으로 기초하여 미디어 세그먼트들 중 하나 이상을 클라이언트 디바이스에게 전송하도록 구성되는 하나 이상의 프로세서들을 포함한다.
서버 디바이스 (60) 와 콘텐츠 준비 디바이스 (20) 는 미디어 정보를 시그널링하는 디바이스의 예들을 또한 나타내는데, 그 디바이스는, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들, 및 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 표시하는 매니페스트 파일을 구축하도록 구성되며, 세그먼트들의 유형들 중 적어도 하나의 유형은 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하며, 매니페스트 파일을 클라이언트 디바이스에게 전송하도록 구성되고, 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 세그먼트에 대한 클라이언트 디바이스로부터의 요청에 응답하여, 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 세그먼트를 클라이언트 디바이스에게 전송하도록 구성되는 하나 이상의 프로세서들을 포함한다.
도 5a는 예시적인 멀티미디어 콘텐츠 (102) 의 엘리먼트들을 도시하는 개념도이다. 멀티미디어 콘텐츠 (102) 는 멀티미디어 콘텐츠 (64) (도 4), 또는 저장 매체 (62) 에 저장된 다른 멀티미디어 콘텐츠에 대응할 수도 있다. 도 5a의 예에서, 멀티미디어 콘텐츠 (102) 는 미디어 프레젠테이션 디스크립션 (MPD) (104) 및 복수의 표현들 (110A-110N) (표현들 (110) 을 포함한다. 표현 (110A) 은 옵션적인 헤더 데이터 (112) 및 세그먼트들 (114A-114N) (세그먼트들 (114)) 을 포함하는 한편, 표현 (110N) 은 옵션적인 헤더 데이터 (122) 및 세그먼트들 (124A-124N) (세그먼트들 (124)) 을 포함한다. 글자 N은 편의상 표현들 (110) 중 각각의 표현에서의 마지막 무비 프래그먼트를 지정하는데 사용된다. 일부 예들에서, 표현들 (110) 사이에는 상이한 수들의 무비 프래그먼트들이 있을 수도 있다.
MPD (104) 는 표현들 (110) 과는 별개인 데이터 구조를 포함할 수도 있다. MPD (104) 는 도 4의 매니페스트 파일 (66) 에 대응할 수도 있다. 비슷하게, 표현들 (110) 은 도 4의 표현들 (68) 에 대응할 수도 있다. 대체로, MPD (104) 는, 표현들 (110) 의 특성들, 이를테면 코딩 및 렌더링 특성들, 적응 세트들, MPD (104) 가 대응하는 프로파일, 텍스트 유형 정보, 카메라 각도 정보, 등급 정보, 트릭 모드 정보 (예컨대, 시간적 서브-시퀀스들을 포함하는 표현들을 나타내는 정보), 및/또는 (예컨대, 플레이백 동안에 미디어 콘텐츠 속으로의 목표로 한 광고 삽입을 위한) 원격 기간들을 취출하기 위한 정보를 일반적으로 설명하는 데이터를 포함할 수도 있다.
헤더 데이터 (112) 는, 존재하는 경우, 세그먼트들 (114) 의 특성들, 예컨대, 랜덤 액세스 포인트들 (RAP들, 또한 스트림 액세스 포인트들 (SAP들) 이라고도 지칭됨) 의 시간적 로케이션들, 세그먼트들 (114) 중 어느 것이 랜덤 액세스 포인트들을 포함하는지, 세그먼트들 (114) 내의 랜덤 액세스 포인트들에 대한 바이트 오프셋들, 세그먼트들 (114) 의 URL들 (uniform resource locators), 또는 세그먼트들 (114) 의 다른 양태들을 설명할 수도 있다. 헤더 데이터 (122) 는, 존재하는 경우, 세그먼트들 (124) 에 대해 유사한 특성들을 설명할 수도 있다. 부가적으로 또는 대안적으로, 그러한 특성들은 MPD (104) 내에 완전히 포함될 수도 있다.
세그먼트들 (114, 124) 은 하나 이상의 코딩된 비디오 샘플들을 포함하며, 그것들의 각각은 비디오 데이터의 프레임들 또는 슬라이스들을 포함할 수도 있다. 세그먼트들 (114) 의 코딩된 비디오 샘플들의 각각은 유사한 특성들, 예컨대, 높이, 폭, 및 대역폭 요건들을 가질 수도 있다. 그러한 특성들은 MPD (104) 의 데이터에 의해 설명될 수도 있지만, 그러한 데이터는 도 5a의 예에서 도시되지 않는다. MPD (104) 는 본 개시물에서 설명되는 시그널링된 정보 중 임의의 것 또는 모두의 추가로, 3GPP 규격에 의해 설명된 바와 같은 특성들을 포함할 수도 있다.
세그먼트들 (114, 124) 의 각각은 고유한 URL (uniform resource locator) 과 연관될 수도 있다. 따라서, 세그먼트들 (114, 124) 의 각각은 스트리밍 네트워크 프로토콜, 이를테면 DASH를 사용하여 독립적으로 취출 가능할 수도 있다. 이런 방식으로, 목적지 디바이스, 이를테면 클라이언트 디바이스 (40) 는, 세그먼트들 (114 또는 124) 을 취출하기 위해 HTTP GET 요청을 사용할 수도 있다. 일부 예들에서, 클라이언트 디바이스 (40) 는 세그먼트들 (114 또는 124) 의 특정 바이트 범위들을 취출하기 위해 HTTP 부분적 GET 요청들을 사용할 수도 있다.
도 5b는 본 개시물의 기법들에 따른 미디어 프레젠테이션 디스크립션 (MPD) (104) 의 예시적인 콘텐츠들을 도시하는 개념도이다. 대체로, MPD (104) 에서 시그널링되는 다른 데이터도 있지만, 도 5b의 예에서, MPD (104) 는 기간 정보 (130), 적응 세트 정보 (132), 및 표현 정보 (134A-134N) (표현 정보 (134)) 를 포함한다. 비록 단일 세트의 적응 세트 정보 (132) 만이 이 예에서 도시되지만, 일반적으로, 복수의 세트들의 적응 세트 정보가 포함될 수도 있다. 비슷하게, 비록 기간 정보 (130) 의 단일 세트만이 도시되지만, 일반적으로, 복수의 세트들의 기간 정보가 포함될 수도 있다는 것이 이해되어야 한다.
본 개시물의 기법들에 따라, 표현 정보 (134A) 는 세그먼트 유형들 정보 (136A), 세그먼트 기능들 정보 (138A), 및 세그먼트 로케이션들 (140A) 을 포함한다. 비슷하게, 표현 정보 (134N) 는 세그먼트 유형들 정보 (136N), 세그먼트 기능들 정보 (138N), 및 세그먼트 로케이션들 (140N) 을 포함한다. 대체로, 세그먼트 유형들 정보 (136A, 136N) 는 각각 표현 정보 (134A, 134N) 에 대응하는 표현들에 포함된 세그먼트들의 다양한 유형들을 설명한다. 예를 들어, 세그먼트 유형들 (136A, 136N) 은 전달 유닛 미디어 세그먼트 유형 (또는 포맷), 랜덤 액세스 미디어 세그먼트 유형 (또는 포맷), 무 중첩 세그먼트 유형 (또는 포맷), 및 스위칭 미디어 세그먼트 유형 (또는 포맷) 중 임의의 것 또는 모두를 포함할 수도 있다.
세그먼트 기능들 정보 (138A, 138N) 는 다양한 세그먼트 유형들에 의해 수행되는 기능들을 일반적으로 설명한다. 예를 들어, 세그먼트 기능들 정보 (138A, 138N) 는 전달 유닛 미디어 세그먼트 유형 (또는 포맷), 랜덤 액세스 미디어 세그먼트 유형 (또는 포맷), 무 중첩 세그먼트 유형 (또는 포맷), 및 스위칭 미디어 세그먼트 유형 (또는 포맷) 중 임의의 것 또는 모두에 의해 수행되는 기능들을, 이러한 유형들/포맷들이 대응하는 세그먼트 유형들 정보 (136A, 136N) 에 존재한다고 가정하여, 설명할 수도 있다. 세그먼트 기능들 정보 (138A, 138N) 는, 전달 유닛 미디어 세그먼트 유형이 미디어 데이터를 일반적으로 운반하는데 사용되며, 랜덤 액세스 미디어 세그먼트 유형이 랜덤 액세스 포인트 (이는 초기화 정보를 포함함) 를 제공하는데 사용되며, 무 중첩 세그먼트 유형이 이러한 세그먼트들이 동일한 표현 또는 다른 표현들의 다른 세그먼트들과 중첩하지 않음을 표시하고, 스위칭 미디어 세그먼트 유형이 적응 세트 내의 표현들 사이에 스위칭을 허용함을 표시할 수도 있다. 또한, 무 중첩 세그먼트 유형은 세그먼트가 표현을 포함하는 적응 세트에서 표현에서의 다른 세그먼트들 및 다른 표현들에서의 다른 세그먼트들의 시작 및 종료 시간들과는 오버랩하지 않음을 표시할 수도 있다.
세그먼트 로케이션들 정보 (140A, 140N) 는 대응하는 표현들 내의 다양한 유형들의 세그먼트들의 로케이션들 (또는 포지션들) 을 일반적으로 시그널링할 수도 있다. 예를 들어, 세그먼트 로케이션들 정보 (140A, 140N) 는 전달 유닛 미디어 세그먼트 유형, 랜덤 액세스 미디어 세그먼트 유형, 무 중첩 세그먼트 유형, 및/또는 스위칭 미디어 세그먼트 유형 중 각각의 유형의 세그먼트들이 대응하는 표현들 내에서 발생할 수 있는 빈도들을 시그널링할 수도 있다. 세그먼트 로케이션들 정보 (140A, 140N) 는 이러한 정보를 패턴 형태로 표시할 수도 있다 (예컨대, 모든 N번째 세그먼트가 유형 X의 세그먼트이다). 부가적으로 또는 대안적으로, 세그먼트 로케이션들 정보 (140A, 140N) 는 개개의 세그먼트들의 로케이션들을 명시적으로 리스트화할 수도 있다.
도 6은 표현의 세그먼트, 이를테면 도 5a의 세그먼트들 (114, 124) 중 하나의 세그먼트에 대응할 수도 있는, 예시적인 비디오 파일 (150) 의 엘리먼트들을 도시하는 블록도이다. 세그먼트들 (114, 124) 의 각각은 도 6의 예에서 도시된 데이터의 배열에 실질적으로 부합하는 데이터를 포함할 수도 있다. 비디오 파일 (150) 은 세그먼트를 캡슐화하는 것으로 말해질 수도 있다. 위에서 설명된 바와 같이, ISO 기반 미디어 파일 포맷 및 그 확장들에 따른 비디오 파일들은 데이터를 "박스들"이라고 지칭되는 일련의 객체들에 저장한다. 도 6의 예에서, 비디오 파일 (150) 은 파일 유형 (FTYP) 박스 (152), 무비 (MOOV) 박스 (154), 세그먼트 인덱스 (sidx) 박스들 (162), 무비 프래그먼트 (MOOF) 박스들 (164), 및 무비 프래그먼트 랜덤 액세스 (MFRA) 박스 (166) 를 포함한다. 비록 도 6이 비디오 파일의 일 예를 나타내지만, 다른 미디어 파일들이 ISO 기본 미디어 파일 포맷 및 그것의 확장에 따른, 비디오 파일 (150) 의 데이터와 유사하게 구조화된 다른 유형들의 미디어 데이터 (예컨대, 오디오 데이터, 타임드 텍스트 데이터 등) 을 포함할 수도 있다는 것이 이해되어야 한다.
파일 유형 (FTYP) 박스 (152) 는 비디오 파일 (150) 에 대한 파일 유형을 일반적으로 설명한다. 파일 유형 박스 (152) 는 비디오 파일 (150) 에 대한 최상의 이용을 서술하는 사양을 식별하는 데이터를 포함할 수도 있다. 파일 유형 박스 (152) 는 MOOV 박스 (154), 무비 프래그먼트 박스들 (164), 및/또는 MFRA 박스 (166) 앞에 배치될 수도 있다.
일부 예들에서, 세그먼트, 이를테면 비디오 파일 (150) 은, FTYP 박스 (152) 앞에 MPD 업데이트 박스 (도시되지 않음) 를 포함할 수도 있다. MPD 업데이트 박스는 비디오 파일 (150) 을 포함하는 표현에 대응하는 MPD가 그 MPD를 업데이트하기 위한 정보와 함께 업데이트될 것임을 나타내는 정보를 포함할 수도 있다. 예를 들어, MPD 업데이트 박스는 MPD를 업데이트하는데 사용될 리소스에 대한 URI 또는 URL을 제공할 수도 있다. 다른 예로서, MPD 업데이트 박스는 MPD를 업데이트하기 위한 데이터를 포함할 수도 있다. 일부 예들에서, MPD 업데이트 박스는 비디오 파일 (150) 의 세그먼트 유형 (STYP) 박스 (도시되지 않음) 를 바로 뒤따를 수도 있으며, STYP 박스는 비디오 파일 (150) 에 대한 세그먼트 유형을 정의할 수도 있다. 아래에서 더 상세히 논의되는 도 7은, MPD 업데이트 박스에 대해 부가적인 정보를 제공한다.
MOOV 박스 (154) 는, 도 6의 예에서, 무비 헤더 (MVHD) 박스 (156), 트랙 (TRAK) 박스 (158), 및 하나 이상의 무비 확장 (MVEX) 박스들 (160) 을 포함한다. 대체로, MVHD 박스 (156) 는 비디오 파일 (150) 의 일반 특성들을 설명할 수도 있다. 예를 들어, MVHD 박스 (156) 는 비디오 파일 (150) 이 원래 만들어졌던 때, 비디오 파일 (150) 이 마지막으로 수정되었던 때, 비디오 파일 (150) 에 대한 타임스케일, 비디오 파일 (150) 에 대한 플레이백의 지속기간을 설명하는 데이터, 또는 비디오 파일 (150) 을 일반적으로 설명하는 다른 데이터를 포함할 수도 있다.
TRAK 박스 (158) 는 비디오 파일 (150) 의 트랙에 대한 데이터를 포함할 수도 있다. TRAK 박스 (158) 는 TRAK 박스 (158) 에 대응하는 트랙의 특성들을 설명하는 트랙 헤더 (TKHD) 박스를 포함할 수도 있다. 일부 예들에서, TRAK 박스 (158) 는 코딩된 비디오 픽처들을 포함하는 한편, 다른 예들에서, 트랙의 코딩된 비디오 픽처들은 TRAK 박스 (158) 및/또는 SIDX 박스들 (162) 의 데이터에 의해 참조될 수도 있는 무비 프래그먼트들 (164) 에 포함될 수도 있다.
일부 예들에서, 비디오 파일 (150) 은 하나를 초과하는 트랙을 포함할 수도 있다. 따라서, MOOV 박스 (154) 는 트랙들의 수와 동일한 수의 TRAK 박스들을 비디오 파일 (150) 내에 포함할 수도 있다. TRAK 박스 (158) 는 비디오 파일 (150) 의 대응하는 트랙의 특성들을 설명할 수도 있다. 예를 들어, TRAK 박스 (158) 는 대응하는 트랙에 대한 시간적 및/또는 공간적 정보를 설명할 수도 있다. MOOV 박스 (154) 의 TRAK 박스 (158) 에 유사한 TRAK 박스가, 캡슐화 부 (30) (도 4) 가 비디오 파일, 이를테면 비디오 파일 (150) 에 파라미터 세트 트랙을 포함시키는 경우, 파라미터 세트 트랙의 특성들을 설명할 수도 있다. 캡슐화 부 (30) 는 파라미터 세트 트랙을 설명하는 TRAK 박스 내의 파라미터 세트 트랙에서 시퀀스 레벨 SEI 메시지들의 존재를 시그널링할 수도 있다.
MVEX 박스들 (160) 은, 예컨대, 비디오 파일 (150) 이, 만약 있다면, MOOV 박스 (154) 내에 포함된 비디오 데이터 외에도, 무비 프래그먼트들 (164) 을 포함한다는 것을 시그널링하기 위해, 대응하는 무비 프래그먼트들 (164) 의 특성들을 설명할 수도 있다. 비디오 데이터를 스트리밍하는 맥락에서, 코딩된 비디오 픽처들은 MOOV 박스 (154) 내에 보다는 무비 프래그먼트들 (164) 내에 포함될 수도 있다. 따라서, 모든 코딩된 비디오 샘플들은 MOOV 박스 (154) 내가 아니라, 무비 프래그먼트들 (164) 내에 포함될 수도 있다.
MOOV 박스 (154) 는 비디오 파일 (150) 에서의 무비 프래그먼트들 (164) 의 수와 동일한 수의 MVEX 박스들 (160) 을 포함할 수도 있다. MVEX 박스들 (160) 의 각각은 무비 프래그먼트들 (164) 중 대응하는 무비 프래그먼트의 특성들을 설명할 수도 있다. 예를 들어, 각각의 MVEX 박스는 무비 프래그먼트들 (164) 중 대응하는 무비 프래그먼트에 대한 시간적 지속기간을 설명하는 MEHD (movie extends header box) 박스를 포함할 수도 있다.
위에서 언급된 바와 같이, 캡슐화 부 (30) 는 실제 코딩된 비디오 데이터를 포함하지 않는 비디오 샘플에 시퀀스 데이터 세트를 저장할 수도 있다. 비디오 샘플은 특정 시간 인스턴스에서의 코딩된 픽처의 표현인 액세스 유닛에 일반적으로 대응할 수도 있다. AVC의 맥락에서, 코딩된 픽처는 액세스 유닛의 모든 화소들을 구축하기 위한 정보를 포함하는 하나 이상의 VCL NAL 유닛들과, 다른 연관된 비-VCL NAL 유닛들, 이를테면 SEI 메시지들을 포함한다. 따라서, 캡슐화 부 (30) 는 시퀀스 레벨 SEI 메시지들을 포함할 수도 있는 시퀀스 데이터 세트를 무비 프래그먼트들 (164) 중 하나의 무비 프래그먼트에 포함시킬 수도 있다. 캡슐화 부 (30) 는 무비 프래그먼트들 (164) 중 하나의 무비 프래그먼트에 존재하는 것으로서의 시퀀스 데이터 세트 및/또는 시퀀스 레벨 SEI 메시지들의 존재를, 무비 프래그먼트들 (164) 중 상기 하나의 무비 프래그먼트에 대응하는 MVEX 박스들 (160) 중 하나의 MVEX 박스 내에서 추가로 시그널링할 수도 있다.
SIDX 박스들 (162) 은 비디오 파일 (150) 의 옵션적 엘리먼트들이다. 다시 말하면, 3GPP 파일 포맷, 또는 다른 이러한 파일 포맷들에 부합하는 비디오 파일들은 반드시 SIDX 박스들 (162) 을 포함하는 것은 아니다. 3GPP 파일 포맷의 예에 따라, SIDX 박스는 세그먼트 (예컨대, 비디오 파일 (150) 내에 포함된 세그먼트) 의 서브-세그먼트를 식별하는데 사용될 수도 있다. 3GPP 파일 포맷은 서브-세그먼트를 "대응하는 미디어 데이터 박스(들)를 갖는 하나 이상의 연속적인 무비 프래그먼트 박스들의 독립식 세트"로서 정의하고, "무비 프래그먼트 박스에 의해 참조되는 데이터를 포함하는 미디어 데이터 박스가 그 무비 프래그먼트 박스를 뒤따라야만 하고 동일한 트랙에 관한 정보를 포함하는 다음 무비 프래그먼트 박스에 선행해야만 한다". 3GPP 파일 포맷은 SIDX 박스가 "박스에 의해 기록된 (서브) 세그먼트의 서브세그먼트들에 대한 참조들의 시퀀스를 포함한다"는 것을 또한 표시한다. 참조된 서브세그먼트들은 프레젠테이션 시간에 연속적이다. 마찬가지로, 세그먼트 인덱스 박스에 의해 참조되는 바이트들은 세그먼트 내에서 항상 연속적이다. 참조된 사이즈는 참조된 자료에서의 바이트들의 수의 카운트를 제공한다.
SIDX 박스들 (162) 은 비디오 파일 (150) 에 포함된 세그먼트의 하나 이상의 서브-세그먼트들을 나타내는 정보를 일반적으로 제공한다. 예를 들면, 이러한 정보는 서브-세그먼트들이 시작하며 그리고/또는 종료하는 플레이백 시간들, 서브-세그먼트들에 대한 바이트 오프셋들, 서브-세그먼트들이 스트림 액세스 포인트 (SAP) 를 포함하는지 (예컨대 그 SAP로 시작하는지) 의 여부, SAP에 대한 유형 (예컨대, SAP가 순간적 디코더 리프레시 (IDR) 픽처인지, 클린 랜덤 액세스 (CRA) 픽처인지, 브로큰 링크 액세스 (BLA) 픽처인지 등), 서브-세그먼트에서의 SAP의 포지션 (플레이백 시간 및/또는 바이트 오프셋 측면에서임) 등을 포함할 수도 있다.
무비 프래그먼트들 (164) 은 하나 이상의 코딩된 비디오 픽처들을 포함할 수도 있다. 일부 예들에서, 무비 프래그먼트들 (164) 은 하나 이상의 픽처들의 그룹들 (GOP들) 을 포함할 수도 있으며, 그 GOP들의 각각은 다수의 코딩된 비디오 픽처들, 예컨대, 프레임들 또는 픽처들을 포함할 수도 있다. 덧붙여서, 위에서 설명된 바와 같이, 무비 프래그먼트들 (164) 은 일부 예들에서 시퀀스 데이터 세트들을 포함할 수도 있다. 무비 프래그먼트들 (164) 의 각각은 무비 프래그먼트 헤더 박스 (MFHD, 도 6에는 도시되지 않음) 를 포함할 수도 있다. MVHD 박스는 대응하는 무비 프래그먼트의 특성들, 이를테면 무비 프래그먼트에 대한 시퀀스 번호를 설명할 수도 있다. 무비 프래그먼트들 (164) 은 비디오 파일 (150) 내에 시퀀스 번호의 순서로 포함될 수도 있다.
MFRA 박스 (166) 는 비디오 파일 (150) 의 무비 프래그먼트들 (164) 내의 랜덤 액세스 포인트들을 설명할 수도 있다. 이는 비디오 파일 (150) 에 의해 캡슐화된 세그멘트 내에서 특정한 시간적 로케이션들 (즉, 플레이백 시간들) 에 대한 탐색들을 수행하는 것과 같은, 트릭 모드들을 수행하는 것을 지원할 수도 있다. MFRA 박스 (166) 는 일반적으로 옵션적이고 일부 예들에서, 비디오 파일들에 포함될 필요가 없다. 비슷하게, 클라이언트 디바이스, 이를테면 클라이언트 디바이스 (40) 는, 비디오 파일 (150) 의 비디오 데이터를 올바르게 디코딩하고 디스플레이하기 위해 MFRA 박스 (166) 를 반드시 참조할 필요는 없다. MFRA 박스 (166) 는 비디오 파일 (150) 의 트랙들의 수와 동일한, 또는 일부 예들에서는, 비디오 파일 (150) 의 미디어 트랙들 (예컨대, 비-힌트 트랙들) 의 수와 동일한 수의 트랙 프래그먼트 랜덤 액세스 (track fragment random access, TFRA) 박스들 (도시되지 않음) 을 포함할 수도 있다.
일부 예들에서, 무비 프래그먼트들 (164) 은 하나 이상의 스트림 액세스 포인트들 (SAP들), 이를테면 IDR 픽처들을 포함할 수도 있다. 비슷하게, MFRA 박스 (166) 는 SAP들의 비디오 파일 (150) 내의 로케이션들의 표시들을 제공할 수도 있다. 따라서, 비디오 파일 (150) 의 시간적 서브-시퀀스가 비디오 파일 (150) 의 SAP들로부터 형성될 수도 있다. 시간적 서브-시퀀스는 SAP들에 의존하는 P-프레임들 및/또는 B-프레임들과 같은 다른 픽처들을 또한 포함할 수도 있다. 시간적 서브-시퀀스의 프레임들 및/또는 슬라이스들은 서브-시퀀스의 다른 프레임들/슬라이스들에 의존하는 시간적 서브-시퀀스의 프레임들/슬라이스들이 적절히 디코딩될 수 있도록 세그먼트들 내에 배열될 수도 있다. 예를 들어, 데이터의 계층적 배열에서, 다른 데이터에 대한 예측을 위해 사용되는 데이터가 시간적 서브-시퀀스에 또한 포함될 수도 있다.
고급 라이브 프로파일이 라이브 서비스 배포에 초점을 맞추는 예상된 새로운 프로파일이다. 예상된 프로파일은 확장된 공통 프로파일에 하위 호환 가능한 것으로 반드시 간주될 필요는 없다. 그러나, 콘텐츠 제공자가 콘텐츠의 하위 호환가능 버전을 필수적인 것으로 간주된다면 생성할 수 있다는 것이 고려된다. 아래에서 논의되는 도면들은 본 개시물의 기법들이 적용될 수도 있는 다양한 사용 사례들을 나타낸다.
도 7은 본 개시물의 기법들에 따른 사용 사례를 위한 예시적인 세그먼트 제공을 도시하는 개념도이다. 특히, 도 7은 표현 (232) 과 표현 (234) 을 포함하는 적응 세트 (230) 를 예시한다. 표현 (232) 은 IDR 세그먼트 (236A) 및 IDR 세그먼트 (236E) 를 포함하는 세그먼트들 (236A-236E) 을 포함하는 한편, 표현 (234) 은 IDR 세그먼트 (238A) 및 IDR 세그먼트 (238E) 를 포함하는 세그먼트들 (238A-238E) 을 포함한다.
이 사용 사례는 저-레이턴시 비디오 스트리밍 서비스들 및 스위칭을 포함한다. 세그먼트가 0.5 초의 지속기간 (플레이백 시간의 측면에서임) 이고 프레임 레이트가 초 당 50 개 프레임들 (FPS) 이라고 가정한다. 이 예에서, 그리고 본 개시물의 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 모든 네 번째 세그먼트가 스위치/IDR (instantaneous decoder refresh) 세그먼트이며
● 모든 세그먼트가 전달 유닛이다
시그널링은 도 7에 따라 적응 세트 (230) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ SegmentTimeline.S: @t=0, @d=25, @r=-1
○ @randomAccessPeriod = 100
○ Switching: @period=100, @type="media"
○ SegmentTemplate@media="http://example.com/ $RepresentationID$"/segment_$Time$.mp4
■ Representation: @id=232
■ Representation: @id=234
저-레이턴시 비디오 스트리밍 서비스들 및 스위칭을 포함하는 본 개시물의 기법들에 따른 다른 사용 사례가 도 1에 관해 설명된다. 도 1은 이 사용 사례의 경우의 세그먼트 제공을 예시한다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 논의된 기법들에 기초하여, 이 사용 사례에 대한 셋업 및 시그널링은 다음과 같을 수도 있다:
● 각각의 세그먼트는 랜덤 액세스 세그먼트이다.
● 브로드캐스트 표현에서의 세그먼트들은 유니캐스트 표현에서의 세그먼트들의 네 배 사이즈이다.
● 브로드캐스트/유니캐스트 중첩의 포지션에서의 세그먼트는 스위칭 세그먼트이다.
시그널링은 도 7에 따라 적응 세트 (230) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ Switching: @period=100, @type="media"
○ SegmentTemplate@media="http://example.com/ $RepresentationID$"/segment_$Time$.mp4
■ Representation: @id=1, @randomAccessPeriod = 100
● SegmentTimeline.S: @t=0, @d=100, @r=-1
■ Representation: @id=2, @randomAccessPeriod = 25
● SegmentTimeline.S: @t=0, @d=25, @r=-1
도 8은 본 개시물의 기법들에 따른 스케일러블 HEVC (SHVC) 를 이용한 고속 튠-인을 포함하는 사용 사례를 예시하는 개념도이다. 도 8의 예는 기본 계층 (유니캐스트) 표현 (242) 및 향상 계층 (브로드캐스트) 표현 (244) 을 포함하는 적응 세트 (240) 를 도시한다. 기본 계층 표현 (242) 은 세그먼트들 (246A-246E) (세그먼트들 (246)) 을 포함하는 한편, 향상 계층 표현 (244) 은 세그먼트들 (248A, 248B) (세그먼트들 (248)) 을 포함한다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 설명된 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 세그먼트들 (246, 248) 의 각각은 랜덤 액세스 세그먼트이다 (비록 세그먼트 (246A) 가 도 8에서의 IDR을 포함하는 것으로서 도시되지만, 랜덤 액세스 포인트는 IDR로 반드시 제한될 필요는 없는데, 다른 기능적 엔트리 포인트들이 있을 수도 있어서이다. 개방형 GOP들은 충분할 수도 있다.)
● 향상 계층 표현 (244) (즉, 브로드캐스트 표현) 에서의 세그먼트들 (248) 은 기본 계층 표현 (242) (즉, 유니캐스트 표현) 에서의 세그먼트들 (246) 의 네 배의 시간적 지속기간이다.
시그널링은 도 8의 예에 따라 적응 세트 (240) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ Switching: @period=100, @type="media"
○ SegmentTemplate@media="http://example.com/ $RepresentationID$"/se
gment_$Time$.mp4
■ Representation: @id=242, @randomAccessPeriod = 25
● SegmentTimeline.S: @t=0, @d=25, @r=-1
■ Representation: @id=244, @randomAccessPeriod = 100,
@dependencyID=242
● SegmentTimeline.S: @t=0, @d=100, @r=-1
도 9는 본 개시물의 기법들에 따른 스트림 액세스 포인트 (SAP) 유형 3을 이용한 고속 튠-인을 포함하는 예시적인 사용 사례를 도시하는 개념도이다. 특히, 도 9의 예에서, 적응 세트 (254) 는 표현 (250) 을 포함하는데, 그 표현은 각각의 세그먼트가 개방형 GOP를 포함하는 세그먼트들 (252A-252E) 을 포함한다. 비록 도 9에 도시되지 않지만, 적응 세트 (254) 는 표현 (250) 외의 표현들을 포함할 수도 있다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 시그널링은 도 9의 예에 따라 적응 세트 (254) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ @randomAccessPeriod = 25
○ SegmentTimeline.S: @t=0, @d=25, @r=-1
○ SegmentTemplate@media="http://example.com/$RepresentationID$"/
segment_$Time$.mp4
■ Representation: @id=250
도 10은 고속 튠-인 및 혼성체화를 포함하는 예시적인 사용 사례를 도시하는 개념도이다. 특히, 이 예에서, 적응 세트 (260) 는 표현 (262) 과 표현 (264) 을 포함한다. 표현 (262) 은 세그먼트들 (266A-266F) (세그먼트들 (266)) 을 포함하는 한편, 표현 (264) 은 세그먼트들 (268A-268F) (세그먼트들 (268)) 을 포함한다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 논의된 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 각각의 세그먼트는 랜덤 액세스 세그먼트이다.
● 모든 네 번째 세그먼트는 미디어 스위칭을 위한 스위치 세그먼트이다.
시그널링은 도 10에 따라 적응 세트 (260) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ SegmentTimeline.S: @t=0, @d=25, @r=-1
○ @randomAccessPeriod = 25
○ Switching: @period=100, @type="media"
○ SegmentTemplate@media="http://example.com/ $RepresentationID$"/se
gment_$Time$.mp4
■ Representation: @id=262
■ Representation: @id=264
도 11은 고속 튠-인, 혼성체화, 및 개방형 GOP들을 포함하는 예시적인 사용 사례를 도시하는 개념도이다. 도 10의 것과 동일한 세그먼트 제공이 도 11에서 도시된다. 덧붙여서, 도 11의 예는 클라이언트 디바이스, 이를테면 클라이언트 디바이스 (40) (도 1) 에 의해 취출된 세그먼트들을 나타내는 세그먼트 횡단 (270) 을 도시한다. 다시 말하면, 클라이언트 디바이스 (40) 는 표현 (262) 의 세그먼트 (266A) 를 원래 취출할 수도 있으며, 그 다음에 표현 (264) 으로 스위칭할 수도 있다 (예컨대, 이용가능 네트워크 대역폭에서의 변경 때문임). 스위칭하기 위해, 클라이언트 디바이스 (40) 는 세그먼트 (268B) 를 취출할 수도 있다. 이 예에서, 세그먼트 (266A) 는 IDR 세그먼트인 반면, 세그먼트 (268B) 는 개방형 GOP 세그먼트이다. 본 개시물의 기법들에 따라, 세그먼트 (268B) 가 개방형 GOP 세그먼트이기 때문에, 클라이언트 디바이스 (40) 는 표현 (264) 의 IDR 세그먼트 (예컨대, 세그먼트 (268E)) 를 기다리는 일 없이, 268B에서 스위칭을 발효시킬 수 있다. 클라이언트 디바이스 (40) 는 표현 (264) 의 세그먼트 (268C) 를 또한 취출한다. 그 뒤에, 클라이언트 디바이스 (40) 는 표현을 이 시간에 표현 (262) 으로 다시 스위칭하여, 또한 개방형 GOP 세그먼트인 세그먼트 (266D) 를 취출한다. 이 예에서, 클라이언트 디바이스 (40) 는 세그먼트 횡단 (270) 에 따라, 표현 (262) 으로부터 세그먼트들 (266E 및 266F) 을 취출한다.
스위칭은 유형 3의 SAP들에서 일어날 수도 있다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 논의된 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 각각의 세그먼트는 랜덤 액세스 세그먼트이다.
● 모든 네 번째 세그먼트는 미디어 스위칭을 위한 스위치 세그먼트이다.
● 모든 세그먼트는 개방형 GOP 스위칭을 위한 스위치 세그먼트이다.
시그널링은 도 11에 따라 적응 세트 (260) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ SegmentTimeline.S: @t=0, @d=25, @r=-1
○ @randomAccessPeriod = 25
○ Switching: @period=100, @type="media"
○ Switching: @period=25, @type="open GOP"
○ SegmentTemplate@media="http://example.com/$RepresentationID
$"/segment_$Time$.mp4
■ Representation: @id=262
■ Representation: @id=264
도 12는 개방형 GOP들을 이용한 고속 튠-인 및 혼성체화를 포함하는 다른 예시적인 사용 사례를 도시하는 개념도이다. 이 예에서, 적응 세트 (280) 는 유니캐스트 표현 (282) 과 브로드캐스트 표현 (284) 을 포함한다. 유니캐스트 표현 (282) 은 세그먼트들 (286A-286F) (세그먼트들 (286)) 을 포함하는 한편, 브로드캐스트 표현 (284) 은 세그먼트들 (288A, 288B) (세그먼트들 (288)) 을 포함한다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 논의된 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 각각의 세그먼트는 랜덤 액세스 세그먼트이다.
● 브로드캐스트 표현 (284) 에서의 세그먼트들 (288) 은 유니캐스트 표현 (282) 에서의 세그먼트들 (286) 의 시간적 지속기간의 4 배이다.
● 브로드캐스트/유니캐스트 중첩의 포지션들에서의 세그먼트 (예컨대, 세그먼트들 (286A, 286E, 288A, 288B) 은 스위칭 세그먼트들이다.
시그널링은 도 12에 따라 적응 세트 (280) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ Switching: @period=100, @type="media"
○ SegmentTemplate@media="http://example.com/$RepresentationID
$"/segment_$Time$.mp4
■ Representation: @id=282, @randomAccessPeriod = 100
● SegmentTimeline.S: @t=0, @d=100, @r=-1
■Representation: @id=284, @randomAccessPeriod = 25
● SegmentTimeline.S: @t=0, @d=25, @r=-1
도 13은 고속 튠-인 및 매우 낮은 레이턴시를 포함하는 예시적인 사용 사례를 도시하는 개념도이다. 이 예에서, 적응 세트 (290) 는 유니캐스트 표현 (292) 과 브로드캐스트 표현 (294) 을 포함한다. 유니캐스트 표현 (292) 은 세그먼트들 (296A-296F) (세그먼트들 (296)) 을 포함하는 한편, 브로드캐스트 표현 (294) 은 세그먼트들 (298A, 298B) (세그먼트들 (298)) 을 포함한다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 논의된 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 각각의 세그먼트는 랜덤 액세스 세그먼트이다.
● 브로드캐스트 표현 (294) 에서의 세그먼트들 (298) 은 유니캐스트 표현 (292) 에서의 세그먼트들 (296) 의 시간적 지속기간의 4 배이다.
● 브로드캐스트/유니캐스트 중첩의 포지션들에서의 세그먼트 (예컨대, 세그먼트들 (296A, 296E, 298A, 298B) 은 스위칭 세그먼트들이다.
더욱이, 표현 (292) 의 모든 세그먼트들 (296) 이 스위칭을 위한 정보를 제공하는 것은 아니다. 예를 들어, 세그먼트 (296C) 는 (예컨대, 브로드캐스트 서비스가 이용 불가능하게 된다면) 브로드캐스트 표현 (294) 으로부터 유니캐스트 표현 (292) 으로의 스위칭을 허용한다. 그러나, 세그먼트들 (296B, 296D, 및 296F) 은 전달 유닛 미디어 세그먼트 포맷에 부합하고, 스위치 포인트들을 포함하지 않는다. 이는 세그먼트들 (296B, 296D, 및 296F) 의 더 많은 비트들이 비-인트라 예측된 프레임들 (예컨대, 인터-예측된 프레임들) 에 할당되는 것을 허용하여서, 예컨대, 이들 프레임들은 더 높은 품질로 코딩될 수 있다.
시그널링은 도 13에 따라 적응 세트 (290) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ Switching: @period=100, @type="media"
○ SegmentTemplate@media="http://example.com/$RepresentationID
$"/segment_$Time$.mp4
■ Representation: @id=292, @randomAccessPeriod = 100
● SegmentTimeline.S: @t=0, @d=100, @r=-1
■ Representation: @id=294, @randomAccessPeriod = 50
● SegmentTimeline.S: @t=0, @d=25, @r=-1
도 14는 고속 튠-인 및 매우 낮은 레이턴시를 포함하는 다른 예시적인 사용 사례를 도시하는 개념도이다. 이 예에서, 적응 세트 (300) 는 표현 (302) 과 표현 (304) 을 포함한다. 표현 (302) 은 세그먼트들 (306A-306F) (세그먼트들 (306)) 을 포함하는 한편, 표현 (304) 은 세그먼트들 (308A-308F) (세그먼트들 (308)) 을 포함한다. 짧은 세그먼트가 0.5 초의 지속기간이고 프레임 레이트가 50 FPS라고 가정한다. 위에서 논의된 기법들에 기초하여, 셋업 및 시그널링은 다음과 같을 수도 있다:
● 표현 (302) 에서의 세그먼트들 (306) 의 각각은 랜덤 액세스 세그먼트이다.
다시 말하면, 도 14에 도시된 바와 같이, 세그먼트들 (306) 의 각각은 IDR 픽처를 포함한다. 그러나, 표현 (304) 의 세그먼트들 (308A 및 308E) 은 IDR 픽처들을 포함하는 한편, 세그먼트들 (308B, 308C, 308D, 및 308F) 은 IDR 픽처들을 포함하지 않는다. 이는 세그먼트들 (306) 중 가장 최근에 이용 가능한 세그먼트를 취출한 다음, 세그먼트들 (308) 중 IDR을 포함하는 다음 하나의 세그먼트가 이용 가능할 때 표현 (304) 으로 스위칭함으로써 클라이언트 디바이스, 이를테면 클라이언트 디바이스 (40) (도 1) 가 적응 세트 (300) 의 미디어 콘텐츠에 빠르게 튠인하는 것을 허용한다.
시그널링은 도 14에 따라 적응 세트 (300) 에 대해 다음과 같을 수도 있다:
● AdaptationSet
○ @timescale = 50
○ Switching: @period=100, @type="media"
○ SegmentTimeline.S: @t=0, @d=25, @r=-1
○ SegmentTemplate@media="http://example.com/$RepresentationID
$"/segment_$Time$.mp4
■ Representation: @id=302, @randomAccessPeriod = 25
● Switching: @period=25, @type="media"
■ Representation: @id=304, @randomAccessPeriod = 100
● Switching: @period=100, @type="media"
이 방식으로, 본 개시물의 기법들은 다음을 포함한다
● 추가적인 새로운 세그먼트 유형들.
● 스위칭 및 @randomAccessPeriod를 위한 추가적인 MPD 시그널링.
● 스위칭의 상이한 유형들에 대한 정의들.
○ 미디어 스위칭: 세그먼트 정렬 및 SAP 유형 1 또는 2.
○ 비트스트림 스위칭: 연접이 허용된다.
○ 개방형 GOP 스위칭.
● 확장들 및 제한들을 기록하는 프로파일을 추가.
● 하위-호환성에 대한 임의의 문제들을 기록.
● 더 상세한 예들을 제공.
미결 문제들과 대안들이 남아 있다. 다음의 문제들이 미결로 남아 있다:
● 본 개시물의 기법들에 대한 부가 또는 대안으로서의 숫자 기반 시그널링이 가능하며, 이는 특정한 함의들 및 이점들을 제공할 수도 있다.
● 본 개시물의 기법들에 대한 부가 또는 대안으로서의 상이한 유형들의 개방형 GOP 스위칭이 또한 가능하며, 이는 리샘플링 및 비-리샘플링을 병행할 수도 있다.
● 부가적 또는 대안적 미디어 포맷들이 위에서 논의된 것들에 관해 사용될 수도 있다.
● 서브세그먼트들은, 전체 세그먼트들에 추가적으로 또는 대안적으로, 일부 예들에서 또한 사용될 수도 있다. 위의 도 6에 도시된 바와 같은 세그먼트 인덱스 박스 (segment index box, SIDX) 가 서브세그먼트들의 로케이션들을 시그널링할 수도 있고, 그리고/또는 추가적인 정보는 (예컨대, 파일 메타데이터에서 및/또는 매니페스트 파일에서, 이를테면 MPD에서) 시그널링될 수도 있다.
도 15는 본 개시물의 기법들에 따른 미디어 콘텐츠의 표현의 세그먼트를 취출하는 예시적인 방법을 도시하는 흐름도이다. 도 15의 방법은 도 4의 서버 디바이스 (60) 및 클라이언트 디바이스 (40) 에 의해 수행되고 있는 것으로서 설명된다. 그러나, 그 방법은 다른 디바이스들에 의해 수행될 수도 있다는 것이 이해되어야 한다. 예를 들어, 서버 디바이스에 기여한 방법의 모두 또는 부분들이 (예컨대, 도 4의 서버 디바이스 (60) 에 추가적으로 또는 대안적으로) 도 4의 콘텐츠 준비 디바이스 (20) 에 의해 수행될 수도 있다. 비슷하게, 클라이언트 디바이스에 기여한 방법의 모두 또는 부분들은 브로드캐스트 및/또는 유니캐스트 송신을 통해 미디어 데이터를 수신하도록 구성되는 클라이언트 디바이스의 미들웨어 부에 의해 수행될 수도 있다.
이 예에서, 서버 디바이스 (60) 는 처음에는 코딩된 미디어 스트림을 수신한다 (320). 일부 예들에서, 서버 디바이스 (60) 는 콘텐츠 준비 디바이스 (20) 로부터 코딩된 미디어 스트림을 수신하는 한편, 다른 예들에서, 서버 디바이스 (60) 는 원시 미디어 데이터를 인코딩하여 코딩된 미디어 스트림을 형성하는 하나 이상의 인코더들을 포함할 수도 있다.
서버 디바이스 (60) 는 그러면, 이 예에서, 코딩된 미디어 스트림 내의 세그먼트들의 유형들 및 로케이션들을 결정한다 (322). 일부 예들에서, 서버 디바이스 (60) 는 세그먼트들 (다시 말하면, 독립적으로 취출 가능한 파일들) 을 형성할 수도 있는 한편, 다른 예들에서, 서버 디바이스 (60) 는 코딩된 미디어 스트림의 일부로서 세그먼트들을 수신 및 분석하고, 그것들의 특성들에 기초하여 세그먼트들에 대한 유형들을 결정할 수도 있다. 전달 유닛 미디어 세그먼트들, 랜덤 액세스 미디어 세그먼트들, 무 중첩 세그먼트들, 및 스위칭 미디어 세그먼트들과 같은 세그먼트들의 다양한 유형들의 특성들은 위에서 논의되어 있다. 따라서, 서버 디바이스 (60) 는 각각의 세그먼트를 분석하여 이들 세그먼트 유형들 중 어느 것이 분석되고 있는 세그먼트의 특성들과 일치하는 지를 결정할 수도 있다. 더욱이, 서버 디바이스 (60) 는 코딩된 미디어 스트림 내의 각각의 유형의 세그먼트들의 로케이션들을 결정할 수도 있다. 예를 들어, 서버 디바이스 (60) 는 각각의 세그먼트 유형이 발생하는 빈도들을 결정할 수도 있다. 일 예로서, 도 7에 관해, IDR (다시 말하면, 랜덤 액세스 미디어 세그먼트들) 을 포함하는 세그먼트들이 표현들 (232, 234) 중 각각의 표현의 모든 네 번째 세그먼트마다 발생한다.
이 예에서, 서버 디바이스 (60) 는 그러면 세그먼트들의 유형들 및 로케이션들을 시그널링하는 매니페스트 파일 (이를테면 MPD) 을 구축한다 (324). 대안적으로, 서버 디바이스 (60) 는, 콘텐츠 준비 디바이스 (20) 로부터, 본 개시물의 기법들에 따라 부분적으로 또는 완전히 구축된 매니페스트 파일을 수신할 수도 있다. 서버 디바이스 (60) 는 매니페스트 파일에 의해 표현되는 각각의 적응 세트의 각각의 대응하는 표현 내에 세그먼트들의 유형들 및 로케이션들의 정보 (다시 말하면, "신호") 를 포함하도록 매니페스트 파일을 구축할 수도 있다. 서버 디바이스 (60) 는 도 7 내지 도 14의 예들에 관해 위에서 논의된 것과 유사한 데이터를 포함하도록 매니페스트 파일을 구축할 수도 있다. 매니페스트 파일은 표현들 및 그 표현들 자체의 미디어 데이터와는 별개라는 것이 이해되어야 한다. 예를 들어, 매니페스트 파일은 매니페스트 파일에 의해 설명되는 미디어 데이터 (예컨대, 세그먼트들 또는 세그먼트들의 부분들) 에 대해 이루어진 요청들과는 별개로 요청에 대해 이용 가능할 수도 있다.
서버 디바이스 (60) 는 그러면 매니페스트 파일을, 예컨대, 클라이언트 디바이스 (40) 에 출력할 수도 있다 (326). 일부 예들에서, 클라이언트 디바이스 (40) 는, 예컨대, 매니페스트 파일에 대한 유니캐스트 요청을 통해 매니페스트 파일을 처음에 요청할 수도 있다. 다른 예들에서, 클라이언트 디바이스 (40) 는 브로드캐스트 송신을 서비스신청 (subscription) 할 수도 있고, 서버 디바이스 (60) 는 브로드캐스트를 통해 매니페스트 파일을 주기적으로 출력할 수도 있다. 어쨌든, 클라이언트 디바이스 (40) 는 서버 디바이스 (60) 에 의해 출력되었던 매니페스트 파일을 수신할 수도 있다 (328).
클라이언트 디바이스 (40) 는 그 다음에 매니페스트 파일로부터 세그먼트들의 유형들 및 로케이션들을 결정할 수도 있다 (330). 예를 들어, 클라이언트 디바이스 (40) 는 예를 들어 전달 유닛 미디어 세그먼트들, 랜덤 액세스 미디어 세그먼트들, 무 중첩 세그먼트들, 및 스위칭 미디어 세그먼트들을 포함하는 표현들을 특정 적응 세트가 포함함을 매니페스트 파일이 나타낸다고 결정할 수도 있다. 클라이언트 디바이스 (40) 는 이들 유형들 중 각각의 유형의 세그먼트들의 로케이션들을 또한 결정할 수도 있다. 예를 들어, 클라이언트 디바이스 (40) 는 세그먼트들의 이들 유형들의 모두 또는 부분이 매니페스트 파일로부터 발생하는 빈도들을 결정할 수도 있다.
클라이언트 디바이스 (40) 는 표현들 중 미디어 데이터를 취출하는 것을 시작할 표현을 결정할 수도 있다. 클라이언트 디바이스 (40) 는 위에서 논의된 다양한 사용 사례들 중 임의의 사용 사례를 수행할 수도 있다. 낮은 레이턴시 플레이백을 성취하기 위하여, 클라이언트 디바이스 (40) 는 표현들 중 어느 것이, 만약 있다면, 스트림 액세스 포인트들 (SAP들), 예컨대, IDR 프레임들을 포함하는 가장 빈번한 세그먼트들을 갖는지를 결정할 수도 있다. 그런 표현은 세그먼트들은 유니캐스트를 통해 취출을 위해 이용 가능한 세그먼트들을 포함할 수도 있다. 클라이언트 디바이스 (40) 는 유니캐스트 표현으로부터 이러한 세그먼트들을 처음에 취출한 다음, (다시, 매니페스트 파일에 의해 나타내어진 바와 같이) 브로드캐스트 표현의 다음의 이용가능 SAP에서의 브로드캐스트 표현으로 스위칭하도록 구성될 수도 있다.
어쨌든, 클라이언트 디바이스 (40) 는 시작 포인트를 제공하는 표현의 세그먼트를 결정할 수도 있다 (332). 위에서 논의된 바와 같이, 세그먼트는 랜덤 액세스 미디어 세그먼트를 포함할 수 있다, 다시 말하면, 랜덤 액세스 미디어 세그먼트 포맷에 부합할 수도 있다. 비슷하게, 클라이언트 디바이스 (40) 는, 예컨대 매니페스트 파일에 의해 특정된 템플릿에 따라, 결정된 세그먼트에 대한 URL (uniform resource locator) 을 결정할 수도 있다. 클라이언트 디바이스 (40) 는 그 다음에, 예컨대 URL에 대한 HTTP Get 또는 부분적 Get 요청을 서버 디바이스 (60) 에게 발행함으로써, 결정된 세그먼트를 요청할 수도 있다 (334).
서버 디바이스 (60) 는 그 다음에 그 요청을 수신하고 (336) 그러면 그 요청에 응답하여 요청된 세그먼트를 클라이언트 디바이스 (40) 에게 전송할 수도 있다 (338). 세그먼트 (340) 를 수신한 후, 클라이언트 디바이스 (40) 는 수신된 세그먼트의 데이터를 처음에 버퍼링한 다음, 수신된 세그먼트의 데이터를 궁극적으로 디코딩 및 제시할 수도 있다 (342).
위에서 논의된 바와 같이, 표현의 결정된 세그먼트를 처음 취출한 후, 클라이언트 디바이스 (40) 는 상이한 표현으로 스위칭할지의 여부와 그러한 스위칭을 할 때를 결정할 수도 있다. 예를 들어, 초기 표현은 매우 빈번한 SAP들을 포함할 수도 있고, 타겟 표현은 상대적으로 덜 빈번한 SAP들을 포함할 수도 있다. 클라이언트 디바이스 (40) 는 타겟 표현의 SAP를 포함하는 세그먼트 (예컨대, 랜덤 액세스 미디어 세그먼트 또는 스위칭 미디어 세그먼트) 에 도달하기까지 초기 표현으로부터 세그먼트들을 계속 요청할 수도 있다. 그 다음에, 클라이언트 디바이스 (40) 는 (타겟 표현이 유니캐스트를 통해 이용 가능하면) 타겟 표현으로부터 세그먼트들을 요청하는 것을 시작할 수도 있거나 또는 (타겟 표현이 브로드캐스트를 통해 이용 가능하면) 타겟 표현의 미디어 데이터를 전송하는 브로드캐스트 서비스를 신청할 수도 있다.
이런 방식으로, 도 15는, 매니페스트 파일로부터, 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 및 그 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들을 결정하는 단계, 세그먼트들의 유형들 중 적어도 하나의 유형은 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는, 상기 결정하는 단계, 매니페스트 파일로부터, 그 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 결정하는 단계, 및 그 표현으로부터 결정된 세그먼트를 취출하는 단계를 포함하는 방법의 일 예를 나타낸다.
도 15는 미디어 콘텐츠의 표현에 포함된 세그먼트들의 복수의 유형들, 세그먼트들의 유형들 중 각각의 유형에 의해 제공되는 하나 이상의 기능들, 표현에서의 세그먼트들의 유형들 중 각각의 유형에 부합하는 세그먼트들의 포지션들, 및 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 표현의 세그먼트를 표시하는 매니페스트 파일을 구축하는 단계로서, 세그먼트들의 유형들 중 적어도 하나의 유형은 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는, 상기 구축하는 단계, 클라이언트 디바이스에게 매니페스트 파일을 전송하는 단계, 및 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 유형에 부합하는 세그먼트에 대한 클라이언트 디바이스로부터의 요청에 응답하여, 표현으로부터 데이터를 취출하는 것을 시작하는 포인트를 제공하는 세그먼트를 클라이언트 디바이스에게 전송하는 단계를 포함하는 방법의 일 예를 나타낸다.
하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그것들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 또는 그것을 통해 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은, 데이터 저장 매체들과 같은 유형의 (tangible) 매체에 대응하는 컴퓨터 판독가능 저장 매체들, 또는 예컨대 통신 프로토콜에 따라 한 장소에서 다른 장소로 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함하는 통신 매체들을 포함할 수도 있다. 이런 방식으로, 컴퓨터 판독가능 매체들은 일반적으로 (1) 비일시적인 유형의 컴퓨터 판독가능 저장 매체들 또는 (2) 신호 또는 반송파와 같은 통신 매체에 해당할 수도 있다. 데이터 저장 매체들은 본 개시물에서 설명된 기법들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.
비제한적인 예로, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 소망의 프로그램 코드를 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다. 예를 들어, 명령들이 웹사이트, 서버, 또는 다른 원격 리소스으로부터 동축 케이블, 광섬유 케이블, 연선 (twisted pair), 디지털 가입자 회선 (DSL), 또는 무선 기술들 이를테면 적외선, 라디오, 및/또는 마이크로파를 이용하여 송신된다면, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 커넥션들, 반송파들, 신호들, 또는 다른 일시적 매체들을 포함하지 않지만, 대신 비일시적 (non-transitory), 유형의 저장 매체들을 지향하고 있음이 이해되어야 한다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광적으로 데이터를 재생한다. 상기한 것들의 조합들은 컴퓨터 판독가능 매체들의 범위 내에 또한 포함되어야 한다.
명령들은 하나 이상의 프로세서들, 이를테면 하나 이상의 디지털 신호 프로세서들 (DSP들), 범용 마이크로프로세서들, 주문형 집적회로들 (ASIC들), 필드 프로그램가능 로직 어레이들 (FPGA들), 또는 다른 동등한 집적 또는 개별 로직 회로에 의해 실행될 수도 있다. 따라서, 본 명세서에서 사용되는 바와 같은 "프로세서"라는 용어는 앞서의 구조 또는 본 명세서에서 설명된 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 나타낼 수도 있다. 덧붙여서, 일부 양태들에서, 본 명세서에서 설명된 기능성은 인코딩 및 디코딩을 위해 구성되는, 또는 결합형 코덱으로 통합되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 본 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들 내에 완전히 구현될 수 있다.
본 개시물의 기법들은 무선 핸드셋, 집적회로 (IC) 또는 IC들의 세트 (예컨대, 칩 셋) 를 포함하는 매우 다양한 디바이스들 또는 장치들로 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들이 개시된 기법들을 수행하도록 구성되는 디바이스들의 기능적 양태들을 강조하기 위해 본 개시물에서 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하지는 않는다. 대신에, 위에서 설명된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에 결합되거나 또는 적합한 소프트웨어 및/또는 펌웨어에 연계하여, 위에서 설명된 바와 같은 하나 이상의 프로세서들을 포함한 상호운용적 하드웨어 유닛들의 컬렉션에 의해 제공될 수도 있다.
다양한 예들이 설명되어 있다. 이들 및 다른 예들은 다음의 청구항들의 범위 내에 있다.

Claims (44)

  1. 미디어 데이터를 취출하는 방법으로서,
    미디어 콘텐츠 (64) 의 표현 (68A-N) 에 포함된 미디어 세그먼트들이 복수의 유형들 중 어느 유형에 부합하는지를 나타내는 정보를 포함하는 매니페스트 파일 (66) 을 서버 디바이스 (60) 로부터 수신하는 단계 (328) 로서, 상기 미디어 세그먼트들의 복수의 유형들은:
    전달 유닛 미디어 세그먼트 포맷 (202) 으로서, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 하나 이상의 온전한 독립식 (whole self-contained) 무비 프래그먼트들을 포함하는, 상기 전달 유닛 미디어 세그먼트 포맷 (202);
    랜덤 액세스 미디어 세그먼트 포맷 (204) 으로서, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 미디어 세그먼트에서의 무비 프래그먼트들 각각에서의 제 1 액세스 유닛은 유형 1, 2, 또는 3 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204);
    비중첩 미디어 세그먼트 포맷 (206) 으로서, 상기 비중첩 미디어 세그먼트 포맷 (206) 에 부합하는 미디어 세그먼트는, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 표현 (68A-N) 을 포함하는 적응 세트에서 상기 표현 (68A-N) 에서의 다른 세그먼트들 및 다른 표현들 (68A-N) 에서의 다른 세그먼트들의 시작 및 종료 시간들과는 오버랩하지 않는, 상기 비중첩 미디어 세그먼트 포맷 (206); 및
    스위칭 미디어 세그먼트 포맷 (208) 으로서, 상기 스위칭 미디어 세그먼트 포맷 (208) 에 부합하는 미디어 세그먼트는 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하고, 제 1 무비 프래그먼트의 제 1 샘플은 유형 1 또는 2 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 스위칭 미디어 세그먼트 포맷 (208)
    을 포함하는, 상기 매니페스트 파일 (66) 을 서버 디바이스 (60) 로부터 수신하는 단계 (328);
    상기 정보로부터, 상기 미디어 콘텐츠 (64) 의 표현 (68A-N) 에 포함된 미디어 세그먼트들이 복수의 유형들 중 어느 유형에 부합하는지를 결정하는 단계 (330); 및
    결정된 상기 유형을 이용하여 상기 서버 디바이스 (60) 로부터 상기 미디어 콘텐츠 (64) 의 미디어 세그먼트들을 취출하는 단계 (334, 340) 를 포함하는, 미디어 데이터를 취출하는 방법.
  2. 미디어 콘텐츠 (64) 의 미디어 세그먼트들의 취출을 위한 미디어 정보를 시그널링하는 방법으로서,
    상기 미디어 콘텐츠 (64) 의 표현 (68A-N) 에 포함된 미디어 세그먼트들이 복수의 유형들 중 어느 유형에 부합하는지를 나타내는 매니페스트 파일 (66) 을 구성하는 단계 (324) 로서, 상기 미디어 세그먼트들의 복수의 유형들은:
    전달 유닛 미디어 세그먼트 포맷 (202) 으로서, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 하나 이상의 온전한 독립식 무비 프래그먼트들을 포함하는, 상기 전달 유닛 미디어 세그먼트 포맷 (202);
    랜덤 액세스 미디어 세그먼트 포맷 (204) 으로서, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 미디어 세그먼트에서의 무비 프래그먼트들 각각에서의 제 1 액세스 유닛은 유형 1, 2, 또는 3 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204);
    비중첩 미디어 세그먼트 포맷 (206) 으로서, 상기 비중첩 미디어 세그먼트 포맷 (206) 에 부합하는 미디어 세그먼트는, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 표현 (68A-N) 을 포함하는 적응 세트에서의 다른 표현들 (68A-N) 에서 상기 표현 (68A-N) 에서의 다른 세그먼트들 및 다른 세그먼트들의 시작 및 종료 시간들과는 오버랩하지 않는, 상기 비중첩 미디어 세그먼트 포맷 (206); 및
    스위칭 미디어 세그먼트 포맷 (208) 으로서, 상기 스위칭 미디어 세그먼트 포맷 (208) 에 부합하는 미디어 세그먼트는 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하고, 제 1 무비 프래그먼트의 제 1 샘플은 유형 1 또는 2 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 스위칭 미디어 세그먼트 포맷 (208)
    을 포함하는, 상기 매니페스트 파일 (66) 을 구성하는 단계 (324);
    상기 매니페스트 파일 (66) 을 클라이언트 디바이스 (40) 로 전송하는 단계 (326); 및
    미디어 세그먼트의 복수의 유형들 중 하나의 유형에 부합하는 미디어 세그먼트에 대한 상기 클라이언트 디바이스 (40) 로부터의 요청 (336) 에 응답하여, 미디어 세그먼트의 상기 유형에 부합하는 미디어 세그먼트를 상기 클라이언트 디바이스 (40) 로 전송하는 단계 (338) 를 포함하는, 미디어 정보를 시그널링하는 방법.
  3. 제 1 항에 있어서,
    상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 상기 미디어 세그먼트의 세그먼트 유형 박스에 "dums"의 값을 포함하고,
    상기 독립식 무비 프래그먼트들 각각은 무비 프래그먼트 ("moof") 박스와, 상기 무비 프래그먼트 박스에서 트랙에 의해 참조된 외부 데이터 참조들을 사용하지 않는 미디어 샘플들을 포함하는 미디어 데이터 ("mdat") 박스를 포함하고,
    상기 moof 박스들 각각은 적어도 하나의 트랙 프래그먼트를 포함하고,
    상기 moof 박스들 각각은 외부 참조들을 사용하지 않고,
    상기 미디어 세그먼트의 "default-base-is-moof" 플래그는 참으로 설정되고,
    상기 미디어 세그먼트의 "base-data-offset-present" 플래그는 거짓으로 설정되는, 미디어 데이터를 취출하는 방법.
  4. 제 2 항에 있어서,
    상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 상기 미디어 세그먼트의 세그먼트 유형 박스에 "dums"의 값을 포함하고,
    상기 독립식 무비 프래그먼트들 각각은 무비 프래그먼트 ("moof") 박스와, 상기 무비 프래그먼트 박스에서 트랙에 의해 참조된 외부 데이터 참조들을 사용하지 않는 미디어 샘플들을 포함하는 미디어 데이터 ("mdat") 박스를 포함하고,
    상기 moof 박스들 각각은 적어도 하나의 트랙 프래그먼트를 포함하고,
    상기 moof 박스들 각각은 외부 참조들을 사용하지 않고,
    상기 미디어 세그먼트의 "default-base-is-moof" 플래그는 참으로 설정되고,
    상기 미디어 세그먼트의 "base-data-offset-present" 플래그는 거짓으로 설정되는, 미디어 정보를 시그널링하는 방법.
  5. 제 1 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 세그먼트들을 뒤따르는 비트스트림에서의 미디어 데이터에 액세스하기 위한 모든 필요한 정보를 포함하는, 미디어 데이터를 취출하는 방법.
  6. 제 2 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 세그먼트들을 뒤따르는 비트스트림에서의 미디어 데이터에 액세스하기 위한 모든 필요한 정보를 포함하는, 미디어 정보를 시그널링하는 방법.
  7. 제 5 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 순간적 디코더 리프레시 (IDR) 픽처, 브로큰 링크 액세스 (BLA) 픽처, 또는 클린 랜덤 액세스 (CRA) 픽처 중 적어도 하나를 포함하는, 미디어 데이터를 취출하는 방법.
  8. 제 6 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 순간적 디코더 리프레시 (IDR) 픽처, 브로큰 링크 액세스 (BLA) 픽처, 또는 클린 랜덤 액세스 (CRA) 픽처 중 적어도 하나를 포함하는, 미디어 정보를 시그널링하는 방법.
  9. 제 1 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 하나 이상의 세그먼트 인덱스 ("sidx") 박스들을 포함하고, 순서상 첫 번째 sidx 박스는 미디어 세그먼트의 모든 moof 박스들에 선행하고 전체 미디어 세그먼트를 설명하는, 미디어 데이터를 취출하는 방법.
  10. 제 2 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 하나 이상의 세그먼트 인덱스 ("sidx") 박스들을 포함하고, 순서상 첫 번째 sidx 박스는 미디어 세그먼트의 모든 moof 박스들에 선행하고 전체 미디어 세그먼트를 설명하는, 미디어 정보를 시그널링하는 방법.
  11. 미디어 데이터를 취출하기 위한 클라이언트 디바이스 (40) 로서,
    미디어 콘텐츠 (64) 의 표현 (68A-N) 에 포함된 미디어 세그먼트들이 복수의 유형들 중 어느 유형에 부합하는지를 나타내는 정보를 포함하는 매니페스트 파일 (66) 을 서버 디바이스 (60) 로부터 수신하기 위한 수단 (328) 으로서, 상기 미디어 세그먼트들의 복수의 유형들은:
    전달 유닛 미디어 세그먼트 포맷 (202) 으로서, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 하나 이상의 온전한 독립식 무비 프래그먼트들을 포함하는, 상기 전달 유닛 미디어 세그먼트 포맷 (202);
    랜덤 액세스 미디어 세그먼트 포맷 (204) 으로서, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 미디어 세그먼트에서의 무비 프래그먼트들 각각에서의 제 1 액세스 유닛은 유형 1, 2, 또는 3 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204);
    비중첩 미디어 세그먼트 포맷 (206) 으로서, 상기 비중첩 미디어 세그먼트 포맷 (206) 에 부합하는 미디어 세그먼트는, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 표현 (68A-N) 을 포함하는 적응 세트에서 상기 표현 (68A-N) 에서의 다른 세그먼트들 및 다른 표현들 (68A-N) 에서의 다른 세그먼트들의 시작 및 종료 시간들과는 오버랩하지 않는, 상기 비중첩 미디어 세그먼트 포맷 (206); 및
    스위칭 미디어 세그먼트 포맷 (208) 으로서, 상기 스위칭 미디어 세그먼트 포맷 (208) 에 부합하는 미디어 세그먼트는 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하고, 제 1 무비 프래그먼트의 제 1 샘플은 유형 1 또는 2 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 스위칭 미디어 세그먼트 포맷 (208)
    을 포함하는, 상기 매니페스트 파일 (66) 을 서버 디바이스 (60) 로부터 수신하기 위한 수단 (328);
    상기 정보로부터, 미디어 콘텐츠 (64) 의 표현 (68A-N) 에 포함된 미디어 세그먼트들이 복수의 유형들 중 어느 유형에 부합하는지를 결정하기 위한 수단; 및
    결정된 상기 유형을 이용하여 상기 서버 디바이스 (60) 로부터 상기 미디어 콘텐츠 (64) 의 미디어 세그먼트들을 취출하기 위한 수단 (334, 340) 을 포함하는, 미디어 데이터를 취출하기 위한 클라이언트 디바이스 (40).
  12. 미디어 콘텐츠 (64) 의 미디어 세그먼트들의 취출을 위한 미디어 정보를 시그널링하기 위한 서버 디바이스 (60) 로서,
    상기 미디어 콘텐츠 (64) 의 표현 (68A-N) 에 포함된 미디어 세그먼트들이 복수의 유형들 중 어느 유형에 부합하는지를 나타내는 매니페스트 파일 (66) 을 구성하기 위한 수단 (324) 으로서, 상기 미디어 세그먼트들의 복수의 유형들은:
    전달 유닛 미디어 세그먼트 포맷 (202) 으로서, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 하나 이상의 온전한 독립식 무비 프래그먼트들을 포함하는, 상기 전달 유닛 미디어 세그먼트 포맷 (202);
    랜덤 액세스 미디어 세그먼트 포맷 (204) 으로서, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 미디어 세그먼트에서의 무비 프래그먼트들 각각에서의 제 1 액세스 유닛은 유형 1, 2, 또는 3 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 랜덤 액세스 미디어 세그먼트 포맷 (204);
    비중첩 미디어 세그먼트 포맷 (206) 으로서, 상기 비중첩 미디어 세그먼트 포맷 (206) 에 부합하는 미디어 세그먼트는, 상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하고, 상기 표현 (68A-N) 을 포함하는 적응 세트에서 상기 표현 (68A-N) 에서의 다른 세그먼트들 및 다른 표현들 (68A-N) 에서의 다른 세그먼트들의 시작 및 종료 시간들과는 오버랩하지 않는, 상기 비중첩 미디어 세그먼트 포맷 (206); 및
    스위칭 미디어 세그먼트 포맷 (208) 으로서, 상기 스위칭 미디어 세그먼트 포맷 (208) 에 부합하는 미디어 세그먼트는 상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하고, 제 1 무비 프래그먼트의 제 1 샘플은 유형 1 또는 2 의 ISO 기본 미디어 파일 포맷 스트림 액세스 포인트 (SAP) 의 ISAU 인, 상기 스위칭 미디어 세그먼트 포맷 (208)
    을 포함하는, 상기 매니페스트 파일 (66) 을 구성하기 위한 수단 (324);
    상기 매니페스트 파일 (66) 을 클라이언트 디바이스 (40) 로 전송하기 위한 수단 (326); 및
    미디어 세그먼트의 복수의 유형들 중 하나의 유형에 부합하는 미디어 세그먼트에 대한 상기 클라이언트 디바이스 (40) 로부터의 요청 (336) 에 응답하여, 미디어 세그먼트의 상기 유형에 부합하는 미디어 세그먼트를 상기 클라이언트 디바이스 (40) 로 전송하기 위한 수단 (338) 을 포함하는, 미디어 정보를 시그널링하기 위한 서버 디바이스 (60).
  13. 제 11 항에 있어서,
    상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 상기 미디어 세그먼트의 세그먼트 유형 박스에 "dums"의 값을 포함하고,
    상기 독립식 무비 프래그먼트들 각각은 무비 프래그먼트 ("moof") 박스와, 상기 무비 프래그먼트 박스에서 트랙에 의해 참조된 외부 데이터 참조들을 사용하지 않는 미디어 샘플들을 포함하는 미디어 데이터 ("mdat") 박스를 포함하고,
    상기 moof 박스들 각각은 적어도 하나의 트랙 프래그먼트를 포함하고,
    상기 moof 박스들 각각은 외부 참조들을 사용하지 않고,
    상기 미디어 세그먼트의 "default-base-is-moof" 플래그는 참으로 설정되고,
    상기 미디어 세그먼트의 "base-data-offset-present" 플래그는 거짓으로 설정되는, 미디어 데이터를 취출하기 위한 클라이언트 디바이스 (40).
  14. 제 12 항에 있어서,
    상기 전달 유닛 미디어 세그먼트 포맷 (202) 에 부합하는 미디어 세그먼트는 상기 미디어 세그먼트의 세그먼트 유형 박스에 "dums"의 값을 포함하고,
    상기 독립식 무비 프래그먼트들 각각은 무비 프래그먼트 ("moof") 박스와, 상기 무비 프래그먼트 박스에서 트랙에 의해 참조된 외부 데이터 참조들을 사용하지 않는 미디어 샘플들을 포함하는 미디어 데이터 ("mdat") 박스를 포함하고,
    상기 moof 박스들 각각은 적어도 하나의 트랙 프래그먼트를 포함하고,
    상기 moof 박스들 각각은 외부 참조들을 사용하지 않고,
    상기 미디어 세그먼트의 "default-base-is-moof" 플래그는 참으로 설정되고,
    상기 미디어 세그먼트의 "base-data-offset-present" 플래그는 거짓으로 설정되는, 미디어 정보를 시그널링하기 위한 서버 디바이스 (60).
  15. 제 11 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 세그먼트들을 뒤따르는 비트스트림에서의 미디어 데이터에 액세스하기 위한 모든 필요한 정보를 포함하는, 미디어 데이터를 취출하기 위한 클라이언트 디바이스 (40).
  16. 제 12 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 상기 세그먼트들을 뒤따르는 비트스트림에서의 미디어 데이터에 액세스하기 위한 모든 필요한 정보를 포함하는, 미디어 정보를 시그널링하기 위한 서버 디바이스 (60).
  17. 제 11 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 순간적 디코더 리프레시 (IDR) 픽처, 브로큰 링크 액세스 (BLA) 픽처, 또는 클린 랜덤 액세스 (CRA) 픽처 중 적어도 하나를 포함하는, 미디어 데이터를 취출하기 위한 클라이언트 디바이스 (40).
  18. 제 12 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 순간적 디코더 리프레시 (IDR) 픽처, 브로큰 링크 액세스 (BLA) 픽처, 또는 클린 랜덤 액세스 (CRA) 픽처 중 적어도 하나를 포함하는, 미디어 정보를 시그널링하기 위한 서버 디바이스 (60).
  19. 제 11 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 하나 이상의 세그먼트 인덱스 ("sidx") 박스들을 포함하고, 순서상 첫 번째 sidx 박스는 미디어 세그먼트의 모든 moof 박스들에 선행하고 전체 미디어 세그먼트를 설명하는, 미디어 데이터를 취출하기 위한 클라이언트 디바이스 (40).
  20. 제 12 항에 있어서,
    상기 랜덤 액세스 미디어 세그먼트 포맷 (204) 에 부합하는 미디어 세그먼트는 하나 이상의 세그먼트 인덱스 ("sidx") 박스들을 포함하고, 순서상 첫 번째 sidx 박스는 미디어 세그먼트의 모든 moof 박스들에 선행하고 전체 미디어 세그먼트를 설명하는, 미디어 정보를 시그널링하기 위한 서버 디바이스 (60).
  21. 명령들이 저장된 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 실행될 때, 프로세서로 하여금 제 1 항, 제 3 항, 제 5 항, 제 7 항 또는 제 9 항 중 어느 한 항에 기재된 방법을 수행하게 하는, 컴퓨터 판독가능 저장 매체.
  22. 명령들이 저장된 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 실행될 때, 프로세서로 하여금 제 2 항, 제 4 항, 제 6 항, 제 8 항 또는 제 10 항 중 어느 한 항에 기재된 방법을 수행하게 하는, 컴퓨터 판독가능 저장 매체.
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
KR1020177021971A 2015-02-10 2016-02-10 저 레이턴시 비디오 스트리밍 KR102168596B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201562114423P 2015-02-10 2015-02-10
US62/114,423 2015-02-10
US201562183054P 2015-06-22 2015-06-22
US62/183,054 2015-06-22
US15/019,804 2016-02-09
US15/019,804 US10270823B2 (en) 2015-02-10 2016-02-09 Low latency video streaming
PCT/US2016/017325 WO2016130657A1 (en) 2015-02-10 2016-02-10 Low latency video streaming

Publications (2)

Publication Number Publication Date
KR20170116027A KR20170116027A (ko) 2017-10-18
KR102168596B1 true KR102168596B1 (ko) 2020-10-21

Family

ID=56567242

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177021971A KR102168596B1 (ko) 2015-02-10 2016-02-10 저 레이턴시 비디오 스트리밍

Country Status (13)

Country Link
US (1) US10270823B2 (ko)
EP (1) EP3257255B1 (ko)
JP (1) JP6655091B2 (ko)
KR (1) KR102168596B1 (ko)
CN (1) CN107251562B (ko)
AU (1) AU2016219369B2 (ko)
BR (1) BR112017017152A2 (ko)
EA (1) EA201791558A1 (ko)
ES (1) ES2767288T3 (ko)
HU (1) HUE047298T2 (ko)
TN (1) TN2017000306A1 (ko)
TW (1) TWI686077B (ko)
WO (1) WO2016130657A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10454985B2 (en) 2015-03-04 2019-10-22 Qualcomm Incorporated File format based streaming with dash formats based on LCT
WO2016204712A1 (en) * 2015-06-16 2016-12-22 Intel IP Corporation Adaptive video content for cellular communication
US10554713B2 (en) * 2015-06-19 2020-02-04 Microsoft Technology Licensing, Llc Low latency application streaming using temporal frame transformation
TWI599218B (zh) * 2016-07-29 2017-09-11 元智大學 即時影音傳輸系統
US10484701B1 (en) * 2016-11-08 2019-11-19 Amazon Technologies, Inc. Rendition switch indicator
WO2018115267A1 (en) * 2016-12-22 2018-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Media streaming with fast tuning and fast channel switching
CN106658042B (zh) * 2016-12-28 2019-07-02 广州华多网络科技有限公司 一种数据推送方法及相关客户端、服务器
US10440085B2 (en) * 2016-12-30 2019-10-08 Facebook, Inc. Effectively fetch media content for enhancing media streaming
US10476943B2 (en) 2016-12-30 2019-11-12 Facebook, Inc. Customizing manifest file for enhancing media streaming
US9872062B1 (en) * 2017-02-22 2018-01-16 Wyse Technology L.L.C. Enforcing synchronization by embedding audio within video frame data
GB2560953A (en) * 2017-03-30 2018-10-03 Nokia Technologies Oy Video Streaming
US10924822B2 (en) 2017-04-04 2021-02-16 Qualcomm Incorporated Segment types as delimiters and addressable resource identifiers
US11665219B2 (en) 2017-07-10 2023-05-30 Qualcomm Incorporated Processing media data using a generic descriptor for file format boxes
JP6271072B1 (ja) * 2017-10-10 2018-01-31 パナソニック株式会社 端末装置、映像配信システムおよび映像配信方法
US10432970B1 (en) * 2018-06-14 2019-10-01 Telefonaktiebolaget Lm Ericsson (Publ) System and method for encoding 360° immersive video
US10862940B1 (en) * 2018-07-31 2020-12-08 Glance Networks, Inc. Low latency live video on a communication session
US11284134B2 (en) * 2018-08-08 2022-03-22 Comcast Cable Communications, Llc Media content enhancement based on content importance
US10779017B2 (en) * 2018-12-10 2020-09-15 Warner Bros. Entertainment Inc. Method and system for reducing drop-outs during video stream playback
JP7238155B2 (ja) * 2019-03-14 2023-03-13 ノキア テクノロジーズ オサケユイチア ビデオコーディングおよびデコーディングのための装置、方法、およびコンピュータプログラム
CN114270436A (zh) * 2019-07-19 2022-04-01 英迪股份有限公司 无线通信系统中的自适应音频处理方法、设备、计算机程序及其记录介质
US11831879B2 (en) * 2019-09-20 2023-11-28 Comcast Cable Communications, Llc Methods, systems, and apparatuses for enhanced adaptive bitrate segmentation
US11765444B2 (en) 2020-07-01 2023-09-19 Qualcomm Incorporated Streaming media data including an addressable resource index track
GB2599170B (en) * 2020-09-29 2024-05-29 Canon Kk Method, device, and computer program for optimizing indexing of portions of encapsulated media content data
CN113691886B (zh) * 2021-08-25 2024-05-07 三星电子(中国)研发中心 流媒体文件的下载方法和装置
US20230076014A1 (en) * 2021-08-27 2023-03-09 AirMettle, Inc. Partitioning, processing, and protecting media data
WO2023051757A1 (en) * 2021-09-30 2023-04-06 Beijing Bytedance Network Technology Co., Ltd. Methods, apparatuses, and medium for video streaming

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0922899A2 (pt) * 2009-02-12 2019-09-24 Lg Electronics Inc receptor de transmissão e método de processamento de dados de subtítulos 3d
US9485546B2 (en) 2010-06-29 2016-11-01 Qualcomm Incorporated Signaling video samples for trick mode video representations
US8918533B2 (en) 2010-07-13 2014-12-23 Qualcomm Incorporated Video switching for streaming video data
US9456015B2 (en) * 2010-08-10 2016-09-27 Qualcomm Incorporated Representation groups for network streaming of coded multimedia data
US20130170561A1 (en) * 2011-07-05 2013-07-04 Nokia Corporation Method and apparatus for video coding and decoding
US20130042100A1 (en) * 2011-08-09 2013-02-14 Nokia Corporation Method and apparatus for forced playback in http streaming
US9253233B2 (en) * 2011-08-31 2016-02-02 Qualcomm Incorporated Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
US8935425B2 (en) * 2011-10-05 2015-01-13 Qualcomm Incorporated Switching between representations during network streaming of coded multimedia data
US9843844B2 (en) * 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
WO2013166411A1 (en) * 2012-05-03 2013-11-07 United Video Properties, Inc. Systems and methods for preventing access to a media asset segment during a fast-access playback operation
JP2014239291A (ja) * 2013-06-06 2014-12-18 ソニー株式会社 コンテンツ供給装置、コンテンツ供給方法、プログラム、端末装置、およびコンテンツ供給システム
JP6064251B2 (ja) * 2013-07-19 2017-01-25 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 動的適応型ハイパーテキスト転送プロトコルストリーミングにおけるメタデータ情報のシグナリングおよび搬送

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3GPP, 3GPP TS 26.247 v13.0.0, 2014.12.
ISO/IEC, ISO/IEC 23009-1:2012(E), 2012

Also Published As

Publication number Publication date
ES2767288T3 (es) 2020-06-17
US20160234536A1 (en) 2016-08-11
AU2016219369A1 (en) 2017-07-27
AU2016219369B2 (en) 2019-10-31
WO2016130657A1 (en) 2016-08-18
EP3257255A1 (en) 2017-12-20
KR20170116027A (ko) 2017-10-18
EP3257255B1 (en) 2019-10-16
JP2018510545A (ja) 2018-04-12
TW201633783A (zh) 2016-09-16
US10270823B2 (en) 2019-04-23
EA201791558A1 (ru) 2017-12-29
BR112017017152A2 (pt) 2018-04-03
HUE047298T2 (hu) 2020-04-28
TWI686077B (zh) 2020-02-21
CN107251562B (zh) 2020-03-20
CN107251562A (zh) 2017-10-13
JP6655091B2 (ja) 2020-02-26
TN2017000306A1 (en) 2019-01-16

Similar Documents

Publication Publication Date Title
KR102168596B1 (ko) 저 레이턴시 비디오 스트리밍
US10454985B2 (en) File format based streaming with dash formats based on LCT
US10397295B2 (en) Processing continuous multi-period content
US20210127182A1 (en) Segment types as delimiters and addressable resource identifiers
US11665219B2 (en) Processing media data using a generic descriptor for file format boxes
CA3029026A1 (en) Retrieving and accessing segment chunks for media streaming
US10652631B2 (en) Sample entries and random access
OA18391A (en) Low latency video streaming.
EA045713B1 (ru) Способ и клиентское устройство для извлечения мультимедийных данных из серверного устройства

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant