KR101861929B1 - 관심 영역을 고려한 가상 현실 서비스 제공 - Google Patents

관심 영역을 고려한 가상 현실 서비스 제공 Download PDF

Info

Publication number
KR101861929B1
KR101861929B1 KR1020160125145A KR20160125145A KR101861929B1 KR 101861929 B1 KR101861929 B1 KR 101861929B1 KR 1020160125145 A KR1020160125145 A KR 1020160125145A KR 20160125145 A KR20160125145 A KR 20160125145A KR 101861929 B1 KR101861929 B1 KR 101861929B1
Authority
KR
South Korea
Prior art keywords
video data
information
base layer
interest
region
Prior art date
Application number
KR1020160125145A
Other languages
English (en)
Other versions
KR20180035089A (ko
Inventor
류은석
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Priority to KR1020160125145A priority Critical patent/KR101861929B1/ko
Priority to PCT/KR2017/001087 priority patent/WO2018062641A1/ko
Publication of KR20180035089A publication Critical patent/KR20180035089A/ko
Application granted granted Critical
Publication of KR101861929B1 publication Critical patent/KR101861929B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 명세서는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 단계, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고; 상기 기본 계층 비디오 데이터를 디코딩하는 단계; 및 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 단계를 포함하되, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한
비디오 데이터인 영상 수신 방법을 개시한다.

Description

관심 영역을 고려한 가상 현실 서비스 제공{PROVIDING VIRTUAL REALITY SERVICE CONSIDERING REGION OF INTEREST}
본 명세서는 관심 영역을 고려한 가상 현실 서비스 제공에 관한 것이다.
최근 가상현실(Virtual Reality, VR) 기술 및 장비가 발전함에 따라 다양한 서비스가 실현되고 있다. 화상 회의 서비스는 가상 현실 기술을 기초로 구현되는 서비스의 예이다. 사용자가 화상 회의를 위하여 회의 참가자의 영상 정보를 포함한 멀티미디어 데이터를 처리하는 장치를 사용할 수 있다.
본 명세서는 가상 현실 내의 관심 영역 정보를 고려한 영상 처리를 제공한다.
또한, 본 명세서는 사용자의 시선 정보에 따라 서로 다른 품질의 영상 처리를 제공한다.
또한, 본 명세서는 사용자의 시선의 변동에 반응하는 영상 처리를 제공한다.
또한, 본 명세서는 사용자의 시선 변동에 대응하는 시그널링을 제공한다.
본 명세서에 개시된 일 실시예에 따른 영상 수신 장치는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 통신부, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고; 상기 기본 계층 비디오 데이터를 디코딩하는 기본 계층 디코더; 및 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 향상 계층 디코더를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
또한, 본 명세서에 개시된 다른 실시예에 따른 영상 수신 장치는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 수신하는 통신부; 상기 기본 계층 비디오 데이터를 디코딩하는 제1 프로세서; 및 상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 제2 프로세서를 포함하되, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
또한, 본 명세서에 개시된 다른 실시예에 따른 영상 전송 장치는 기본 계층 비디오 데이터를 생성하는 기본 계층 인코더; 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 향상 계층 인코더; 및 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 통신부를 포함하고, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
또한, 본 명세서에 개시된 다른 실시예에 다른 영상 수신 방법은 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 단계, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고; 상기 기본 계층 비디오 데이터를 디코딩하는 단계; 및 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 단계를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
또한, 본 명세서에 개시된 다른 실시예에 따른 영상 전송 방법은 기본 계층 비디오 데이터를 생성하는 단계; 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 단계; 및 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 단계를 포함하고, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
본 명세서에 개시된 기술에 따르면, 영상 처리 장치는 사용자의 시선을 기초로 서로 다른 영상 처리 방법을 적용할 수 있다. 또한 본 명세서에 개시된 기술에 따르면, 사용자의 시선 정보를 고려한 영상 처리 방법에 의하여, 화상 회의 장치, 예를 들어 HMD, 착용자가 느끼는 화질의 변화는 최소화하며, 영상 전송을 위한 대역폭(BW) 절약, 영상 처리 성능의 개선을 통한 소모 전력 감소 등의 효과가 있다.
도 1은 예시적인 화상 회의 시스템을 나타낸 도면이다.
도 2는 예시적인 화상 회의 서비스를 나타낸 도면이다.
도 3은 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.
도 4는 서버 디바이스의 예시적인 구성을 나타낸 도면이다.
도 5는 인코더의 예시적인 구조를 나타낸 도면이다.
도 6은 스케일러블 비디오 코딩을 이용한 예시적인 화상 회의 서비스를 나타낸 도면이다.
도 7은 예시적인 영상 전송 방법을 나타낸 도면이다.
도 8은 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다.
도 9는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.
도 10은 제어부의 예시적인 구성을 나타낸 도면이다.
도 11은 디코더의 예시적인 구성을 나타낸 도면이다.
도 12은 영상 구성 정보를 생성 및/또는 전송하는 예시적인 방법을 나타낸 도면이다.
도 13은 클라이언트 디바이스가 영상 구성 정보를 시그널링 하는 예시적인 방법을 나타낸 도면이다.
도 14는 높고/낮은 수준의 영상을 전송하는 예시적인 방법을 나타낸 도면이다.
도 15는 예시적인 영상 복호화 방법을 나타낸 도면이다.
도 16은 예시적인 영상 부호화 방법을 나타낸 도면이다.
도 17은 관심 영역 정보의 예시적인 신택스를 나타낸 도면이다.
도 18은 XML 포맷의 예시적인 관심 영역 정보, 및 예시적인 SEI 메시지를 나타낸 도면이다..
도 19는 클라이언트 디바이스의 예시적인 프로토콜 스택을 도시한 도면이다.
도 20은 SLT 와 SLS (service layer signaling) 의 예시적인 관계를 도시한 도면이다.
도 21은 예시적인 SLT 를 도시한 도면이다.
도 22는 serviceCategory 속성의 예시적인 코드 벨류를 나타낸 도면이다.
도 23은 예시적인 SLS 부트스트래핑과 예시적인 서비스 디스커버리 과정을 도시한 도면이다.
도 24는 ROUTE/DASH 를 위한 예시적인 USBD/USD 프래그먼트를 도시한 도면이다.
도 25는 ROUTE/DASH 를 위한 예시적인 S-TSID 프래그먼트를 도시한 도면이다.
도 26은 예시적인 MPD 프래그먼트를 나타낸 도면이다.
도 27은 가상 현실 서비스를 복수의 ROUTE 세션을 통해서 수신하는 예시적인 과정을 나타낸 도면이다.
도 28는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.
도 29는 서버 디바이스의 예시적인 구성을 나타낸 도면이다.
도 30은 클라이언트 디바이스의 예시적인 동작을 나타낸 도면이다.
도 31은 서버 디바이스의 예시적인 동작을 나타낸 도면이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 기술의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 예시적인 화상 회의 시스템을 나타낸 도면이다.
화상 회의 시스템은 원격의 장소에 위치한 적어도 하나의 사용자에게 화상 회의 서비스를 제공할 수 있다. 화상 회의 서비스는 서로 다른 지역에 있는 사람들이 상대방을 직접 만나지 않고도 화면을 통해 서로의 얼굴을 보면서 회의를 할 수 있는 서비스를 말한다.
화상 회의 시스템은 두 가지의 모습으로 구성될 수 있다. 첫 째, 화상 회의 시스템은 각 사용자의 클라이언트 디바이스(예를 들어, HMD)끼리 직접 N:N 통신을 이용해서 이루어질 수 있다. 이 경우, 여러 시그널링과 영상 전송이 각각 이루어지므로 전체 대역폭은 많이 차지하지만, 화상 회의 시스템은 각 사용자에게 최적의 영상을 제공할 수 있다.
둘 째, 화상 회의 시스템은 화상 회의를 위한 서버 디바이스(또는 중계 시스템)를 더 포함할 수 있다. 이 경우, 서버 디바이스는 각 클라이언트 디바이스로부터 적어도 하나의 비디오 영상을 수신하고, 적어도 하나의 비디오 영상을 취합/선별하여 각 클라이언트 디바이스로 서비스할 수 있다.
본 명세서에 설명된 예시적인 기술은 위의 두 가지 화상 회의 시스템에 모두 적용될 수 있으며, 이하에서는 두 번째 실시예를 중심으로 설명한다.
화상 회의 시스템(100)은 원격의 위치에 있는 적어도 하나의 사용자(110)를 위한 적어도 하나의 클라이언트 디바이스(120), 및/또는 서버 디바이스(130)를 포함할 수 있다.
클라이언트 디바이스(120)는 해당 클라이언트 디바이스(120)를 사용하는 사용자(110)로부터 사용자 데이터를 획득할 수 있다. 사용자 데이터는 사용자의 영상 데이터, 음성 데이터, 및 부가 데이터를 포함할 수 있다.
예를 들어, 클라이언트 디바이스(120)는 사용자(110)의 영상 데이터를 획득하는 2D/3D 카메라 및 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.
예를 들어, 클라이언트 디바이스(120)는 제1 장소(Place 1)에 위치한 제1 사용자(111)의 사용자 데이터를 획득하는 제1 클라이언트 디바이스(121), 제2 장소(Place 2)에 위치한 제2 사용자(113)의 사용자 데이터를 획득하는 제2 클라이언트 디바이스(123), 및 제3 장소(Place 3)에 위치한 제3 사용자(115)의 사용자 데이터를 획득하는 제3 클라이언트 디바이스(125) 중에서 적어도 하나를 포함할 수 있다.
그리고 나서, 각각의 클라이언트 디바이스(120)는 획득한 사용자 데이터를 네트워크를 통하여 서버 디바이스(130)로 전송할 수 있다.
서버 디바이스(130)는 클라이언트 디바이스(120)로부터 적어도 하나의 사용자 데이터를 수신할 수 있다. 서버 디바이스(130)는 수신한 사용자 데이터를 기초로 가상 공간에서의 화상 회의를 위한 전체 영상을 생성할 수 있다. 전체 영상은 가상 공간 내에서 360도 방향의 영상을 제공하는 immersive 영상을 나타낼 수 있다. 서버 디바이스(130)는 사용자 데이터에 포함된 영상 데이터를 가상 공간에 매핑하여 전체 영상을 생성할 수 있다..
그리고 나서, 서버 디바이스(130)는 전체 영상을 각 사용자에게 전송할 수 있다.
각각의 클라이언트 디바이스(120)는 전체 영상을 수신하고, 각 사용자가 바라보는 영역 만큼을 가상 공간에 렌더링 및/또는 디스플레이할 수 있다.
도 2는예시적인 화상 회의 서비스를 나타낸 도면이다.
도면을 참고하면, 가상 공간 내에는 제1 사용자(210), 제2 사용자(220), 및 제3 사용자(230)가 존재할 수 있다. 제1 사용자(210), 제2 사용자(220), 및 제3 사용자(230)는 가상 공간 내에서 서로 상대방을 바라보면서 회의를 수행할 수 있다. 이하에서는, 제1 사용자(210)을 중심으로 설명한다.
화상 회의 시스템은 가상 공간 내에서 말을 하고 있는 화자 및/또는 제1 사용자(210)의 시선을 판단할 수 있다. 예를 들어, 제2 사용자(220)가 화자이고, 제1 사용자(210)는 제2 사용자를 바라볼 수 있다.
이 경우, 화상 회의 시스템은 제1 사용자(210)가 바라보는 제2 사용자(220)에 대한 영상은 고 품질의 비디오 영상으로 제1 사용자(210)에게 전송할 수 있다. 또한, 화상 회의 시스템은 제1 사용자(220)의 시선 방향에서 보이지 않거나 일부만 보이는 제3 사용자(230)에 대한 영상은 저 품질의 비디오 영상으로 제1 사용자(210)에게 전송할 수 있다.
그 결과, 전체 영상을 모두 고품질의 비디오 영상으로 전송하는 종래의 방식에 비하여, 화상 회의 시스템은 사용자의 시선을 기초로 영상 처리 방법에 차이를 두어, 영상 전송을 위한 대역폭(BW)을 절약하고, 영상 처리 성능을 개선할 수 있다.
도 3은 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.
스케일러블 비디오 코딩 서비스는 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라 시간적, 공간적, 그리고 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 스케일러블 비디오 코딩 서비스는 일반적으로 해상도(Spatial resolution), 품질(Quality), 및 시간(Temporal) 측면에서의 계층성(Scalability)을 제공한다.
공간적 계층성(Spatial scalability)은 동일한 영상에 대해 각 계층별로 다른 해상도를 가지고 부호화함으로써 서비스할 수 있다. 공간적 계층성을 이용하여 디지털 TV, 노트북, 스마트 폰 등 다양한 해상도를 갖는 디바이스에 대해 적응적으로 영상 콘텐츠를 제공하는 것이 가능하다.
도면을 참고하면, 스케일러블 비디오 코딩 서비스는 VSP(비디오 서비스 프로바이더; Video Service Provider)로부터 가정 내의 홈 게이트웨이 (Home Gateway)를 통해 동시에 하나 이상의 서로 다른 특성을 가진 TV를 지원할 수 있다. 예를 들어, 스케일러블 비디오 코딩 서비스는 서로 다른 해상도(Resolution)를 가지는 HDTV (High-Definition TV), SDTV (Standard-Definition TV), 및 LDTV (Low-Definition TV)를 동시에 지원할 수 있다.
시간적 계층성(Temporal scalability)은 콘텐츠가 전송되는 네트워크 환경 또는 단말기의 성능을 고려하여 영상의 프레임 레이트(Frame rate)를 적응적으로 조절할 수 있다. 예를 들어, 근거리 통신망을 이용하는 경우에는 60FPS(Frame Per Second)의 높은 프레임 레이트로 서비스를 제공하고, 3G 모바일 네트워크와 같은 무선 광대역 통신망을 사용하는 경우에는 16FPS의 낮은 프레임 레이트로 콘텐츠를 제공함으로써, 사용자가 영상을 끊김 없이 받아볼 수 있도록 서비스를 제공할 수 있다.
품질 계층성(Quality scalability) 또한 네트워크 환경이나 단말기의 성능에 따라 다양한 화질의 콘텐츠를 서비스함으로써, 사용자가 영상 콘텐츠를 안정적으로 재생할 수 있도록 한다.
스케일러블 비디오 코딩 서비스는 각각 기본 계층 (Base layer)과 하나 이상의 향상 계층 (Enhancement layer(s))을 포함할 수 있다. 수신기는 기본 계층만 받았을 때는 일반 화질의 영상을 제공하고, 기본 계층 및 향상 계층을 함께 받으면 고화질을 제공할 수 있다. 즉, 기본 계층과 하나 이상의 향상 계층이 있을 때, 기본 계층을 받은 상태에서 향상 계층 (예: Enhancement layer 1, enhancement layer 2, …, enhancement layer n)을 더 받으면 받을수록 화질이나 제공하는 영상의 품질이 좋아진다.
이와 같이, 스케일러블 비디오 코딩 서비스의 영상은 복수개의 계층으로 구성되어 있으므로, 수신기는 적은 용량의 기본 계층 데이터를 빨리 전송 받아 일반적 화질의 영상을 빨리 처리하여 재생하고, 필요 시 향상 계층 영상 데이터까지 추가로 받아서 서비스의 품질을 높일 수 있다.
도 4는서버 디바이스의 예시적인 구성을 나타낸 도면이다.
서버 디바이스(400)는 제어부(410) 및/또는 통신부(420)을 포함할 수 있다.
제어부(410)은 가상 공간 내에서 화상 회의를 위한 전체 영상을 생성하고, 생성된 전체 영상을 인코딩할 수 있다. 또한, 제어부(410)는 서버 디바이스(400)의 모든 동작을 제어할 수 있다. 구체적인 내용은 이하에서 설명한다.
통신부(420)는 외부 장치 및/또는 클라이언트 디바이스로 데이터를 전송 및/또는 수신할 수 있다. 예를 들어, 통신부(420)는 적어도 하나의 클라이언트 디바이스로부터 사용자 데이터 및/또는 시그널링 데이터를 수신할 수 있다. 또한, 통신부(420)은 가상 공간에서 화상 회의를 위한 전체 영상을 클라이언트 디바이스로 전송할 수 있다.
제어부(410)는 시그널링 데이터 추출부(411), 영상 생성부(413), 관심 영역 판단부(415), 시그널링 데이터 생성부(417), 및/또는 인코더(419) 중에서 적어도 하나를 포함할 수 있다.
시그널링 데이터 추출부(411)는 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 포함할 수 있다. 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.
영상 생성부(413)는 적어도 하나의 클라이언트 디바이스로부터 수신한 영상을 기초로 가상 공간에서 화상 회의를 위한 전체 영상을 생성할 수 있다.
관심 영역 판단부(417)는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 판단할 수 있다. 예를 들어, 관심 영역 판단부(417)는 시선 정보 및/또는 줌 영역 정보를 기초로 관심 영역을 판단할 수 있다. 예를 들어, 관심 영역은 사용자가 보게 될 가상의 공간에서 중요 오브젝트가 위치할 타일의 위치(예를 들어, 게임 등에서 새로운 적이 등장하는 위치, 가상 공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳일 수 있다. 또한, 관심 영역 판단부(417)는 화상 회의 서비스를 위한 가상 공간의
전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 생성할 수 있다.
시그널링 데이터 생성부(413)는 전체 영상을 처리하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보를 전송할 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.
인코더(419)는 시그널링 데이터를 기초로 전체 영상을 인코딩할 수 있다. 예를 들어, 인코더(419)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 인코딩할 수 있다. 예를 들어, 가상 공간 내에서 제1 사용자가 제2 사용자를 바라보는 경우, 인코더는 가상 공간 내의 제1 사용자 시선을 기초로 제2 사용자에 해당하는 영상은 고화질로 인코딩하고, 제3 사용자에 해당하는 영상은 저화질로 인코딩할 수 있다. 실시예에 따라서, 인코더(419)는 시그널링 데이터 추출부(411), 영상 생성부(413), 관심 영역 판단부(415), 및/또는 시그널링 데이터 생성부(417) 중에서 적어도 하나를 포함할 수 있다.
도 5는 인코더의 예시적인 구조를 나타낸 도면이다.
인코더(500, 영상 부호화 장치)는 기본 계층 인코더(510), 적어도 하나의 향상 계층 인코더(520), 및 다중화기(530) 중에서 적어도 하나를 포함할 수 있다.
인코더(500)는 스케일러블 비디오 코딩 방법을 사용하여 전체 영상을 인코딩할 수 있다. 스케일러블 비디오 코딩 방법은 SVC(Scalable Video Coding) 및/또는 SHVC(Scalable High Efficiency Video Coding)를 포함할 수 있다.
스케일러블 비디오 코딩 방법은 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라서 시간적, 공간적, 및 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 예를 들어, 인코더(500)는 동일한 비디오 영상에 대하여 두 가지 이상의 다른 품질(또는 해상도, 프레임 레이트)의 영상들을 인코딩하여 비트스트림을 생성할 수 있다.
예를 들어, 인코더(500)는 비디오 영상의 압축 성능을 높이기 위해서 계층 간 중복성을 이용한 인코딩 방법인 계층간 예측 툴(Inter-layer prediction tools)을 사용할 수 있다. 계층 간 예측 툴은 계층 간에 존재하는 영상의 중복성을 제거하여 향상 계층(Enhancement Layer)에서의 압출 효율을 높이는 기술이다.
향상 계층은 계층 간 예측 툴을 이용하여 참조 계층(Reference Layer)의 정보를 참조하여 인코딩될 수 있다. 참조 계층이란 향상 계층 인코딩 시 참조되는 하위 계층을 말한다. 여기서, 계층 간 툴을 사용함으로써 계층 사이에 의존성(Dependency)이 존재하기 때문에, 최상위 계층의 영상을 디코딩하기 위해서는 참조되는 모든 하위 계층의 비트스트림이 필요하다. 중간 계층에서는 디코딩 대상이 되는 계층과 그 하위 계층들의 비트스트림 만을 획득하여 디코딩을 수행할 수 있다. 최하위 계층의 비트스트림은 기본 계층(Base Layer)으로써, H.264/AVC, HEVC 등의 인코더로 인코딩될 수 있다.
기본 계층 인코더(510)는 전체 영상을 인코딩하여 기본 계층을 위한 기본 계층 비디오 데이터(또는 기본 계층 비트스트림)를 생성할 수 있다. 예를 들어, 기본 계층 비디오 데이터는 사용자가 가상 공간 내에서 바라보는 전체 영역을 위한 비디오 데이터를 포함할 수 있다. 기본 계층의 영상은 가장 낮은 화질의 영상일 수 있다.
향상 계층 인코더(520)는, 시그널링 데이터(예를 들어, 관심 영역 정보) 및 기본 계층 비디오 데이터를 기초로, 전체 영상을 인코딩하여 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터(또는 향상 계층 비트스트림)를 생성할 수 있다. 향상 계층 비디오 데이터는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.
다중화기(530)는 기본 계층 비디오 데이터, 적어도 하나의 향상 계층 비디오 데이터, 및/또는 시그널링 데이터를 멀티플렉싱하고, 전체 영상에 해당하는 하나의 비트스트림을 생성할 수 있다.
도 6은 스케일러블 비디오 코딩을 이용한 예시적인 화상 회의 서비스를 나타낸 도면이다.
클라이언트 디바이스는 전체 영상을 하나의 압축된 영상 비트스트림(Bitstream)으로 받아서, 이를 디코딩(decoding)하고, 사용자가 바라보는 영역 만큼을 가상의 공간에 렌더(render)한다. 종래의 기술은 전체 영상(예를 들어, 360도immersive 영상)을 모두 고해상도(또는 높은 품질)의 영상으로 전송 및/또는 수신하므로, 고해상도의 영상이 모인 비트스트림의 총 대역폭은 매우 클 수 밖에 없다.
서버 디바이스는 스케일러블 비디오 코딩 방법을 사용할 수 있다. 이하에서는, 예시적인 기술을 구체적으로 설명한다.
가상 공간(610)에는 제1 사용자(611), 제2 사용자(613), 및 제3 사용자(615)가 존재할 수 있다. 제1 사용자(611), 제2 사용자(613), 및 제3 사용자(615)는 가상 공간 영역(610) 내에서 회의를 할 수 있다.
클라이언트 디바이스(미도시)는 가상 공간 내에서 화자 및 사용자의 시선을 판단하고, 영상 구성 정보를 생성할 수 있다. 클라이언트 디바이스는 영상 구성 정보를 처음으로 생성한 경우 또는 사용자의 시선이 화자를 향하지 않는 경우에 영상 구성 정보를 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송할 수 있다.
서버 디바이스(미도시)는 적어도 하나의 클라이언트 디바이스로부터 비디오 영상 및 시그널링 데이터를 수신하고, 가상 공간(610)에 대한 전체 영상을 생성할 수 있다.
그리고 나서, 서버 디바이스는 시그널링 데이터를 기초로 적어도 하나의 비디오 영상을 인코딩할 수 있다. 서버 디바이스는 영상 구성 정보(예를 들어, 시선 정보 및 중 영역 정보)를 기초로 상기 시선 방향에 해당하는 비디오 영상(또는 관심 영역)과 상기 시선 방향에 해당하지 않는 비디오 영상의 품질을 다르게 인코딩할 수 있다. 예를 들어, 서버 디바이스는 사용자의 시선 방향에 해당하는 비디오 영상은 고품질로 인코딩하고, 사용자의 시선 방향에 해당하지 않는 비디오 영상은 저품질로 인코딩할 수 있다.
도면을 참고하면, 제1 비디오 영상(630)은 제1 사용자(611)의 시선 방향에 해당하는 관심 영역의 비디오 영상이다. 제1 비디오 영상(630)은 고품질로 제1 사용자(611)에게 제공될 필요가 있다. 따라서, 서버 디바이스는 제1 비디오 영상(630)을 인코딩하여, 기본 계층 비디오 데이터(633)을 생성하고, 계층간 예측을 이용하여 적어도 하나의 향상 계층 비디오 데이터(635)를 생성할 수 있다.
제2 비디오 영상(650)은 제1 사용자(611)의 시선 방향에 해당하지 않는 비-관심영역의 비디오 영상이다. 제2 비디오 영상(650)은 저품질로 제1 사용자(611)에게 제공될 필요가 있다. 따라서, 서버 디바이스는 제2 비디오 영상(650)을 인코딩하여, 기본 계층 비디오 데이터(653)만을 생성할 수 있다.
그리고 나서, 서버 디바이스는 인코딩된 적어도 하나의 비트스트림을 제1 사용자(611)가 사용하는 클라이언트 디바이스로 전송할 수 있다.
결론적으로, 제1 사용자(611)가 제2 사용자(613) 만을 바라보거나 제3 사용자(615)가 제1 사용자(611)의 시야각 내에서 아주 작은 영역만 차지하고 있을 경우, 서버 디바이스는 제2 사용자(613)의 영상은 스케일러블 비디오 코딩에서 기본 계층 비디오 데이터 및 적어도 하나의 향상 계층 비디오 데이터로 전송할 수 있다. 또한, 서버 디바이스는 제3 사용자(615)의 영상은 기본 계층 비디오 데이터만을 전송할 수 있다.
도 7은예시적인 영상 전송 방법을 나타낸 도면이다.
서버 디바이스는, 통신부를 이용하여, 적어도 하나의 클라이언트 디바이스로부터 비디오 영상 및 시그널링 데이터를 수신할 수 있다. 또한, 서버 디바이스는, 시그널링 데이터 추출부를 이용하여, 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 시점 정보 및 줌 영역 정보를 포함할 수 있다.
시선 정보는 제1 사용자가 제2 사용자를 바라보는지 제3 사용자를 바라보는지 여부를 지시할 수 있다. 가상 공간 내에서 제1 사용자가 제2 사용자의 방향을 바라보면, 시선 정보는 제1 사용자에서 제2 사용자로 향하는 방향을 지시할 수 있다.
줌 영역 정보는 사용자의 시선 방향에 해당하는 비디오 영상의 확대 범위 및/또는 축소 범위를 지시할 수 있다. 또한, 줌 영역 정보는 사용자의 시야각을 지시할 수 있다. 줌 영역 정보의 값을 기초로 비디오 영상이 확대되면, 제1 사용자는 제2 사용자만을 볼 수 있다. 줌 영역 정보의 값을 기초로 비디오 영상이 축소되면, 제1 사용자는 제2 사용자뿐만 아니라 제3 사용자의 일부 및/또는 전체를 볼 수 있다.
그리고 나서, 서버 디바이스는, 영상 생성부를 이용하여, 가상 공간에서 화상 회의를 위한 전체 영상을 생성할 수 있다.
그리고 나서, 서버 디바이스는, 관심 영역 판단부를 이용하여, 시그널링 데이터를 기초로 가상 공간 내에서 각 사용자가 바라보는 시점 및 줌(zoom) 영역에 대한 영상 구성 정보를 파악할 수 있다(710).
그리고 나서, 서버 디바이스는, 관심 영역 판단부를 이용하여, 영상 구성 정보를 기초로 사용자의 관심 영역을 결정할 수 있다(720).
제1 사용자가 제2 사용자를 바라볼 경우, 제1 사용자가 바라보는 시선 방향에 해당하는 비디오 영상은 제2 사용자가 많은 영역을 차지하고, 제3 사용자는 적은 영역을 차지하거나 비디오 영상에 포함되지 않을 수도 있다. 이 경우, 관심 영역은 제2 사용자를 포함하는 영역이 될 수 있다. 관심 영역은 상기 시선 정보 및 줌 영역 정보에 따라서 변경될 수 있다.
시그널링 데이터(예를 들어, 시점 정보 및 줌 영역 정보 중에서 적어도 하나)가 변경될 경우, 서버 디바이스는 새로운 시그널링 데이터를 수신할 수 있다. 이 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 새로운 관심 영역을 결정할 수 있다..
그리고 나서, 서버 디바이스는, 제어부를 이용하여, 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다.
관심 영역에 해당하는 데이터일 경우, 서버 디바이스는, 인코더를 이용하여, 사용자의 시점에 해당하는 비디오 영상(예를 들어, 관심 영역)은 고품질로 인코딩할 수 있다(740). 예를 들어, 서버 디바이스는 해당 비디오 영상에 대하여 기본 계층 비디오 데이터 및 향상 계층 비디오 데이터를 생성하고, 이들을 전송할 수 있다.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시점에 해당하는 비디오 영상(새로운 관심 영역)은 고품질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 저품질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 고품질의 영상을 전송하는 경우, 서버 디바이스는 향상 계층 비디오 데이터를 추가로 생성 및/또는 전송할 수 있다.
관심 영역에 해당하지 않는 데이터일 경우, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 영상(예를 들어, 비-관심 영역)은 저품질로 인코딩할 수 있다(750). 예를 들어, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 영상에 대하여 기본 계층 비디오 데이터만 생성하고, 이들을 전송할 수 있다.
시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 사용자의 시점에 해당하지 않는 비디오 영상(새로운 비-관심 영역)은 저품질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 고품질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 저품질의 영상을 전송하는 경우, 서버 디바이스는 더 이상 적어도 하나의 향상 계층 비디오 데이터를 생성 및/또는 전송하지 않고, 기본 계층 비디오 데이터만을 생성 및/또는 전송할 수 있다.
즉, 기본 계층 비디오 데이터를 수신했을 때의 비디오 영상의 화질은 향상 계층 비디오 데이터까지 받았을 때의 비디오 영상의 화질보다는 낮으므로, 클라이언트 디바이스는 사용자가 고개를 돌린 정보를 센서 등으로부터 얻는 순간에, 사용자의 시선 방향에 해당하는 비디오 영상(예를 들어, 관심 영역)에 대한 향상 계층 비디오 데이터를 수신할 수 있다. 그리고, 클라이언트 디바이스는 짧은 시간 내에 고화질의 비디오 영상을 사용자에게 제공할 수 있다.
본 명세서의 예시적인 방법은 사전에 일부 추가 영역의 데이터만 전송 받는 단순 pre-caching 방법이나, 사용자의 시선 방향에 해당하는 영역의 데이터만을 전송 받는 방법에 비해 큰 장점을 가진다.
본 명세서의 예시적인 방법은 모든 데이터를 고화질로 보내는 종래의 방식에 비하여 전체 대역폭을 낮출 수 있다.
또한, 본 명세서의 예시적인 방법은 사용자 시선 움직임에 실시간으로 반응하여 비디오 프로세싱 속도를 높일 수 있다.
기존의 방법은 제1 사용자가 제2 사용자를 바라보다가 제3 사용자로 고개를 돌렸을 때, 클라이언트 디바이스(예를 들어, HMD의 센서 등)로 이 움직임을 파악하여 제3 사용자를 표현하기 위한 비디오 정보를 처리하고 화면에 재생한다. 기존의 방법은 매우 빨리 새로운 영역의 영상을 처리하는 것이 어렵기 때문에, 기존의 방법은 모든 데이터를 미리 받아두는 비효율적 방법을 사용했다.
하지만, 본 명세서의 예시적인 기술은 위의 스케일러블 비디오를 통한 적응적 비디오 전송을 하기 때문에, 제1 사용자가 제3 사용자로 고개를 돌렸을 때, 이미 가지고 있는 베이스 레이어 데이터를 이용하여 빠르게 사용자에게 응답할 수 있다. 본 명세서의 예시적인 기술은 전체 고화질 데이터를 처리할 때보다 더 빨리 비디오 영상을 재생할 수 있다. 따라서, 본 명세서의 예시적인 기술은 시선 움직임에 빠르게 반응하여 비디오 영상을 처리할 수 있다.
도 8은 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다.
도 (a)를 참조하면, 스케일러블 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.
서버 디바이스(또는 인코더)는 하나의 비디오 영상(또는 픽처)을 직사각형 모양을 갖는 여러 타일(Tile)들로 분할할 수 있다. 예를 들어, 비디오 영상은 Coding Tree Unit(CTU) 단위를 경계로 분할될 수 있다. 예를 들어, 하나의 CTU는 Y CTB, Cb CTB, 및 Cr CTB를 포함할 수 있다.
서버 디바이스는 빠른 사용자 응답을 위해서 기본 계층의 비디오 영상은 타일(Tile)로 분할하지 않고 전체적으로 인코딩할 수 있다. 그리고, 서버 디바이스는 하나 이상의 향상 계층들의 비디오 영상은 필요에 따라서 일부 또는 전체를 여러 타일(Tile)들로 분할하여 인코딩할 수 있다.
즉, 서버 디바이스는 향상 계층의 비디오 영상은 적어도 하나의 타일로 분할하고, 관심 영역(810, ROI, Region of Interest)에 해당하는 타일들을 인코딩할 수 있다.
이 때, 관심 영역(810)은 가상 공간에서 사용자가 보게 될 중요 오브젝트(Object)가 위치할 타일들의 위치 (e.g. 게임 등에서 새로운 적이 등장하는 위치, 화상 통신에서 가상공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳에 해당할 수 있다.
또한, 서버 디바이스는 관심 영역에 포함 되는 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더에 의해서 생성될 수 있다.
관심 영역(810)의 타일 정보는 연속적이므로 모든 타일의 번호를 다 갖지 않더라도 효과적으로 압축될 수 있다. 예를 들어, 타일 정보는 관심 영역에 해당하는 모든 타일의 번호들뿐만 아니라 타일의 시작과 끝 번호, 좌표점 정보, CU (Coding Unit) 번호 리스트, 수식으로 표현된 타일 번호를 포함할 수 있다.
비-관심 영역의 타일 정보는 인코더가 제공하는 Entropy coding 을 거친 후 다른 클라이언트 디바이스, 영상 프로세싱 컴퓨팅 장비, 및/또는 서버로 전송될 수 있다.
관심 영역 정보는 Session 정보를 실어나르는 high-level syntax 프로토콜을 통해 전해질 수 있다. 또한, 관심 영역 정보는 비디오 표준의 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header) 등의 패킷 단위에서 전해질 수 있다. 또한, 관심 영역 정보는 비디오 파일을 서술하는 별도의 파일로(e.g. DASH의 MPD) 전달될 수 있다.
화상 회의 시스템은 관심 영역 정보의 시그널링을 통해 향상계층의 필요한 타일만 클라이언트 디바이스 간에 및/또는 클라이언트 디바이스와 서버 디바이스 간에 전송 및/또는 수신함으로써, 전체적인 대역폭을 낮추고, 비디오 프로세싱 시간을 줄일 수 있다. 이는 빠른 HMD 사용자 응답시간을 보장하는데 중요하다.
도 (b)를 참조하면, 단일 화면 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.
본 명세서의 예시적인 기술은 스케일러블 비디오가 아닌 단일 화면 영상에서는 일반적으로 관심 영역(ROI)이 아닌 영역을 Downscaling (Downsampling)하는 방식으로 화질을 떨어뜨리는 기법을 사용할 수 있다. 종래 기술은 서비스를 이용하는 단말 간에 downscaling 을 위해 쓴 필터(filter) 정보(820)를 공유하지 않고, 처음부터 한가지 기술로 약속을 하거나 인코더만 필터 정보를 알고 있다.
하지만, 서버 디바이스는, 인코딩 된 영상을 전달 받는 클라이언트 디바이스(또는 HMD 단말)에서 downscaling된 관심 영역 외 영역의 화질을 조금이라도 향상 시키기 위해, 인코딩 시에 사용된 필터 정보(820)를 클라이언트 디바이스로 전달할 수 있다. 이 기술은 실제로 영상 처리 시간을 상당히 줄일 수 있으며, 화질 향상을 제공할 수 있다.
전술한 바와 같이, 서버 디바이스는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 타일 정보뿐만 아니라 필터 정보를 더 포함할 수 있다. 예를 들어, 필터 정보는 약속된 필터 후보들의 번호, 필터에 사용된 값들을 포함할 수 있다.
도 9는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.
클라이언트 디바이스(900)는 영상 입력부(910), 오디오 입력부(920), 센서부(930), 영상 출력부(940), 오디오 출력부(950), 통신부(960), 및/또는 제어부(970) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(900)는 HMD(Head Mounted Display)일 수 있다. 또한, 클라이언트 디바이스(900)의 제어부(970)은 클라이언트 디바이스(900)에 포함될 수도 있고, 별도의 장치로 존재할 수도 있다.
영상 입력부(910)는 비디오 영상을 촬영할 수 있다. 영상 입력부(910)는 사용자의 영상을 획득하는 2D/3D 카메라 및/또는 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.
오디오 입력부(920)는 사용자의 음성을 녹음할 수 있다. 예를 들어, 오디오 입력부(920)는 마이크를 포함할 수 있다.
센서부(930)는 사용자 시선의 움직임에 대한 정보를 획득할 수 있다. 예를 들어, 센서부(930)는 물체의 방위 변화를 감지하는 자이로 센서, 이동하는 물체의 가속도나 충격의 세기를 측정하는 가속도 센서, 및 사용자의 시선 방향을 감지하는 외부 센서를 포함할 수 있다. 실시예에 따라서, 센서부(930)는 영상 입력부(910) 및 오디오 입력부(920)를 포함할 수도 있다.
영상 출력부(940)는 통신부(960)로부터 수신되거나 메모리(미도시)에 저장된 영상 데이터를 출력할 수 있다.
오디오 출력부(950)는 통신부(960)로부터 수신되거나 메모리에 저장된 오디오 데이터를 출력할 수 있다.
통신부(960)는 방송망 및/또는 브로드밴드를 통해서 외부의 클라이언트 디바이스 및/또는 서버 디바이스와 통신할 수 있다. 예를 들어, 통신부(960)는 데이터를 전송하는 전송부(미도시) 및/또는 데이터를 수신하는 수신부(미도시)를 포함할 수 있다.
제어부(970)는 클라이언트 디바이스(900)의 모든 동작을 제어할 수 있다. 제어부(970)는 서버 디바이스로부터 수신한 비디오 데이터 및 시그널링 데이터를 처리할 수 있다. 제어부(970)에 대한 구체적인 내용은 이하에서 설명한다.
도 10은 제어부의 예시적인 구성을 나타낸 도면이다.
제어부(1000)는 시그널링 데이터 및/또는 비디오 데이터를 처리할 수 있다. 제어부(1000)는 시그널링 데이터 추출부(1010), 디코더(1020), 화자 판단부(1030), 시선 판단부(1040), 및/또는 시그널링 데이터 생성부(1050) 중에서 적어도 하나를 포함할 수 있다.
시그널링 데이터 추출부(1010)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보를 포함할 수 있다.
디코더(1020)는 시그널링 데이터를 기초로 비디오 데이터를 디코딩할 수 있다. 예를 들어, 디코더(1020)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 디코딩할 수 있다. 예를 들어, 가상 공간 내에서 제1 사용자가 제2 사용자를 바라보는 경우, 제1 사용자의 디코더(1020)는 가상 공간 내의 제1 사용자 시선을 기초로 제2 사용자에 해당하는 영상은 고화질로 디코딩하고, 제3 사용자에 해당하는 영상은 저화질로 디코딩할 수 있다. 실시예에 따라서, 디코더(1020)는 시그널링 데이터 추출부(1010), 화자 판단부(1030), 시선 판단부(1040), 및/또는 시그널링 데이터 생성부(1050) 중에서 적어도 하나를 포함할 수 있다.
화자 판단부(1030)는 음성 및/또는 주어진 옵션을 기초로 가상 공간 내에서 화자가 누구인지 여부를 판단할 수 있다.
시선 판단부(1040)는 가상 공간 내에서 사용자의 시선을 판단하고, 영상 구성 정보를 생성할 수 있다. 예를 들어, 영상 구성 정보는 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.
시그널링 데이터 생성부(1050)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 전송할 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.
도 11은 디코더의 예시적인 구성을 나타낸 도면이다.
디코더(1100)는 추출기(1110), 기본 계층 디코더(1120), 및/또는 적어도 하나의 향상 계층 디코더(1130) 중에서 적어도 하나를 포함할 수 있다.
디코더(1100)는 스케일러블 비디오 코딩 방법의 역 과정을 이용하여 비트스트림(비디오 데이터)을 디코딩할 수 있다.
추출기(1110)는 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림(비디오 데이터)을 수신하고, 재생하고자 하는 영상의 화질에 따라서 비트스트림을 선택적으로 추출할 수 있다. 예를 들어, 비트스트림(비디오 데이터)은 기본 계층을 위한 기본 계층 비트스트림(기본 계층 비디오 데이터) 및 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)을 포함할 수 있다. 기본 계층 비트스트림(기본 계층 비디오 데이터)는 가상 공간의 전체 영역을 위한 위한 비디오 데이터를 포함할 수 있다. 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.
또한, 시그널링 데이터는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 포함할 수 있다.
기본 계층 디코더(1120)는 저화질 영상을 위한 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)를 디코딩할 수 있다.
향상 계층 디코더(1130)는 시그널링 데이터 및/또는 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)를 기초로 고화질 영상을 위한 적어도 하나의 향상 계층의 비트스트림(또는 향상 계층 비디오 데이터)를 디코딩할 수 있다.
도 12은 영상 구성 정보를 생성 및/또는 전송하는 예시적인 방법을 나타낸 도면이다.
이하에서는, 사용자 시선의 움직임에 실시간으로 대응하기 위한 영상 구성 정보를 생성하는 방법에 대하여 설명한다.
영상 구성 정보는 사용자의 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보 중에서 적어도 하나를 포함할 수 있다. 사용자 시선이란 실제 공간이 아닌 가상 공간 내에서 사용자가 바라보는 방향을 의미한다. 또한, 시선 정보는 현재 사용자의 시선 방향을 지시하는 정보뿐만 아니라, 미래에 사용자의 시선 방향을 지시하는 정보(예를 들어, 주목을 받을 것이라 예상되는 시선 지점에 대한 정보)를 포함할 수 있다.
클라이언트 디바이스는 사용자를 중심으로 가상 공간에 위치한 다른 사용자를 바라보는 동작을 센싱하고, 이를 처리할 수 있다.
클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센서부로부터 센싱 정보를 수신할 수 있다. 센싱 정보는 카메라에 의해 촬영된 영상, 마이크에 의해 녹음된 음성일 수 있다. 또한, 센싱 정보는 자이로 센서, 가속도 센서, 및 외부 센서에 의해서 감지된 데이터일 수 있다.
또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센싱 정보를 기초로 사용자 시선의 움직임을 확인할 수 있다(1210). 예를 들어, 클라이언트 디바이스는 센싱 정보가 가지는 값의 변화를 기초로 사용자 시선의 움직임을 확인할 수 있다.
또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 가상 회의 공간에서의 영상 구성 정보를 생성할 수 있다(1220). 예를 들어, 클라이언트 디바이스가 물리적으로 움직이거나 사용자의 시선이 움직이는 경우, 클라이언트 디바이스는 센싱 정보를 기초로 가상 회의 공간에서의 사용자의 시선 정보 및/또는 줌 영역 정보를 계산할 수 있다.
또한, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송할 수 있다(1230). 또한, 클라이언트 디바이스는 영상 구성 정보를 자신의 다른 구성요소로 전달할 수도 있다.
이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성하는 방법을 설명하였다. 다만 이에 한정되지 않으며, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 영상 구성 정보를 생성할 수도 있다.
또한, 클라이언트 디바이스와 연결된 외부의 컴퓨팅 디바이스가 영상 구성 정보를 생성할 수 있으며, 컴퓨팅 디바이스는 영상 구성 정보를 자신의 클라이언트 디바이스, 다른 클라이언트 디바이스, 및/또는 서버 디바이스로 전달할 수도 있다.
도 13은 클라이언트 디바이스가 영상 구성 정보를 시그널링 하는 예시적인 방법을 나타낸 도면이다.
영상 구성 정보(시점 정보 및/또는 줌 영역 정보를 포함)를 시그널링하는 부분은 매우 중요하다. 영상 구성 정보의 시그널링이 너무 잦을 경우, 클라이언트 디바이스, 서버 디바이스, 및/또는 전체 네트워크에 부담을 줄 수 있다.
따라서, 클라이언트 디바이스는 사용자의 영상 구성 정보(또는 시선 정보 및/또는 줌 영역 정보)가 변경되는 경우에만 영상 구성 정보를 시그널링할 수 있다. 즉, 클라이언트 디바이스는 사용자의 시선 정보가 변경되는 경우에만 사용자의 시선 정보를 다른 클라이언트 디바이스 및/또는 서버 디바이스로 전송할 수 있다.
일 실시예로, 화상 회의에서 통상 화자가 주목되는 경우가 대부분인 점을 이용하여 목소리를 내는 화자가 사용자의 시선 방향과 다를 경우에만 시선 정보를 다른 사용자의 클라이언트 디바이스나 서버 디바이스로 시그널링 할 수 있다.
비록 말을 하고 있는 화자는 아니지만, 퍼포먼스를 하고 있거나(온라인 강의의 경우) 칠판에 무엇인가를 쓰는 등 현재 주목을 받아야 할 사용자의 경우는, 클라이언트 디바이스는 시스템상의 옵션(예를 들어, 화자 및/또는 강의자는 제2 사용자로 설정)을 통해서 화자에 대한 정보를 획득할 수 있다.
도면을 참고하면, 클라이언트 디바이스는, 제어부 및/또는 화자 판단부를 이용하여, 화상 회의를 위한 가상 공간 영역 내에서 화자가 누군지를 판단할 수 있다(1310). 예를 들어, 클라이언트 디바이스는 센싱 정보를 기초로 화자가 누구인지를 판단할 수 있다. 또한, 클라이언트 디바이스는 주어진 옵션에 따라서 화자가 누구인지를 판단할 수 있다.
그리고 나서, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 사용자의 시선을 판단할 수 있다(1320). 예를 들어, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 사용자의 시선을 기초로 영상 구성 정보를 생성할 수 있다.
그리고 나서, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 사용자의 시선이 화자를 향하는지 여부를 판단할 수 있다(1330).
사용자의 시선이 화자를 향하는 경우, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 시그널링하지 않을 수 있다(1340). 이 경우, 클라이언트 디바이스는 사용자의 시선 방향에 있는 화자에 대한 영상은 계속 고품질로 수신할 수 있고, 사용자의 시선 방향에 없는 영상들은 계속 저품질로 수신할 수 있다.
사용자의 시선이 화자를 향하지 않는 경우, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 시그널링할 수 있다(1350). 예를 들어, 처음에는 사용자의 시선이 화자를 향했으나 나중에 다른 곳으로 변경된 경우, 클라이언트 디바이스는 사용자의 새로운 시선 방향에 대한 영상 구성 정보를 시그널링할 수 있다. 즉, 클라이언트 디바이스는 새로운 시선 방향에 대한 영상 구성 정보를 다른 클라이언트 디바이스 및/또는 서버 디바이스로 전송할 수 있다. 이 경우, 클라이언트 디바이스는 사용자의 새로운 시선 방향에 해당하는 영상은 고품질로 수신할 수 있고, 사용자의 새로운 시선 방향에 해당하지 않는 영상(예를 들어, 화자에 해당하는 영상)은 저품질로 수신할 수 있다.
이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성 및/또는 전송하는 것을 중심으로 설명하였지만, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 센싱 정보를 기초로 영상 구성 정보를 생성하고, 영상 구성 정보를 적어도 하나의 클라이언트 디바이스로 전송할 수도 있다.
상술한 바와 같이, 클라이언트 디바이스(예를 들어, HMD)를 이용한 가상 공간에서의 화상 회의에서 사용자들이 모두 화자를 바라보고 있는 상황에서는, 화상 회의 시스템은 화자의 영상정보를 기본 계층 데이터 및 향상 계층 데이터의 스케일러블 비디오 데이터로 전송할 수 있다. 또한, 화상 회의 시스템은 화자가 아닌 다른 사용자를 바라보는 사용자로부터는 시그널링을 받아서 다른 사용자의 영상정보를 기본 계층 데이터 및 향상 계층 데이터의 스케일러블 비디오 데이터로 전송할 수 있다. 이를 통해서, 화상 회의 시스템은 전체 시스템 상의 시그널링을 크게 줄이면서도 사용자에게 빠르고 고화질의 영상 정보를 서비스할 수 있다.
이상에서 언급한 시그널링은 서버 디바이스, 클라이언트 디바이스, 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다. 또한, 이상에서 언급한 시그널링은 클라이언트 디바이스 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다.
도 14는 높고/낮은 수준의 영상을 전송하는 예시적인 방법을 나타낸 도면이다.
사용자의 시선 정보를 기초로 높고/낮은 수준의 영상을 전송하는 방법은 스케일러블 코덱의 계층을 스위칭하는 방법(1410), 싱글 비트스트림 및 실시간 인코딩의 경우 QP(Quantization Parameter) 등을 이용한 Rate Control 방법(1420), DASH 등의 단일 비트스트림의 경우 Chunk 단위로 스위칭하는 방법(1430), Down Scaling/Up Scaling 방법(1440), 및/또는 Rendering 의 경우 더 많은 리소스를 활용한 고화질 Rendering 방법(1450)을 포함할 수 있다.
전술한 예시적인 기술은 비록 비록 스케일러블 비디오를 통한 차별적 전송 기법(1410)을 이야기하고 있지만, 단일 계층을 갖는 일반 비디오 코딩 기술을 사용할 경우에도, 양자화 계수 (1420, Quantization Parameter)나 Down/Up scaling 정도(1440)를 조절함으로써, 전체 대역폭을 낮추고, 빠르게 사용자 시선 움직임에 응답하는 등의 장점을 제공할 수 있다. 또한 미리 여러 비트레이트(bitrate)를 갖는 비트스트림(bitstream)으로 트랜스코딩 된 파일들을 사용할 경우, 본 명세서의 예시적인 기술은 청크(Chunk) 단위로 높은 수준의 영상과 낮은 수준의 영상 사이를 스위칭하여 제공할 수 있다(1430).
또한, 본 명세서는 화상 회의 시스템을 예로 들고 있지만, 본 명세서는 HMD를 이용한 VR (Virtual Reality), AR (Augmented Reality) 게임 등에서도 똑같이 적용될 수 있다. 즉, 사용자가 바라보는 시선에 해당하는 영역을 높은 수준의 영상으로 제공하고, 사용자가 바라볼 것으로 예상되는 영역이나 오브젝트(Object)가 아닌 곳을 바라 볼 경우만 시그널링하는 기법 모두가 화상 회의 시스템의 예에서와 똑같이 적용될 수 있다.
도 15는 예시적인 영상 복호화 방법을 나타낸 도면이다.
영상 복호화 장치(또는 디코더)는 추출기, 기본 계층 디코더, 및/또는 향상 계층 디코더 중에서 적어도 하나를 포함할 수 있다. 영상 복호화 장치 및/또는 영상 복호화 방법에 대한 내용은 전술한 서버 디바이스 및/또는 영상 복호화 장치(또는 디코더)에 대한 설명 중에서 관련된 내용을 모두 포함할 수 있다.
영상 복호화 장치는, 추출기를 이용하여, 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 수신할 수 있다(1510). 영상 복호화 장치는 비디오 데이터로부터 시그널링 데이터, 기본 계층 비디오 데이터, 및/또는 적어도 하나의 향상 계층 비디오 데이터를 추출할 수 있다.
또한, 영상 복호화 장치는, 기본 계층 디코더를 이용하여, 기본 계층 비디오 데이터를 디코딩할 수 있다(1520).
또한, 영상 복호화 장치는, 향상 계층 디코더를 이용하여, 시그널링 데이터 및 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다(1530).
예를 들어, 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.
또한, 시그널링 데이터는 화상 회의 서비스를 위한 가상 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 포함할 수 있다.
또한, 기본 계층 비디오 데이터는 전체 영역을 위한 비디오 데이터를 포함하고, 적어도 하나의 향상 계층 비디오 데이터는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.
또한, 적어도 하나의 향상 계층은 각 계층별로 직사각형 모양의 적어도 하나의 타일로 분할되고, 관심 영역 정보는 관심 영역에 포함되는 적어도 하나의 타일을 식별하는 타일 정보를 포함할 수 있다.
또한, 관심 영역 정보는 영상 구성 정보를 기초로 생성되고, 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.
또한, 영상 구성 정보는 사용자의 시선 방향이 화자를 향하지 않는 경우에 시그널링될 수 있다.
또한, 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.
도 16은 예시적인 영상 부호화 방법을 나타낸 도면이다.
영상 부호화 장치(또는 인코더)는 기본 계층 인코더, 향상 계층 인코더,및/또는 다중화기 중에서 적어도 하나를 포함할 수 있다. 영상 부호화 장치 및/또는 영상 부호화 방법에 대한 내용은 전술한 클라이언트 디바이스 및/또는 영상 부호화 장치(또는 인코더)에 대한 설명 중에서 관련된 내용을 모두 포함할 수 있다.
영상 부호화 장치는, 기본 계층 인코더를 이용하여, 기본 계층 비디오 데이터를 생성할 수 있다(1610).
또한, 영상 부호화 장치는, 향상 계층 인코더를 이용하여, 시그널링 데이터 및 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성할 수 있다.
또한, 영상 부호화 장치는, 다중화기를 이용하여, 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 생성할 수 있다.
영상 부호화 장치 및/또는 영상 부호화 방법은 영상 복호화 장치 및/또는 영상 복호화 방법의 역 과정의 동작을 수행할 수 있다. 또한, 이를 위해서 공통된 특징을 포함할 수 있다.
도 17은 관심 영역 정보의 예시적인 신택스를 나타낸 도면이다.
도 (a)를 참조하면, 비디오 픽쳐 별 관심 영역 정보(sighted_tile_info)가 나타나 있다. 예를 들어, 관심 영역 정보는 info_mode 정보, tile_id_list_size 정보, tile_id_list 정보, cu_id_list_size 정보, cu_id_list 정보, user_info_flag 정보, user_info_size 정보, 및/또는 user_info_list 중에서 적어도 하나를 포함할 수 있다.
info_mode 정보는 픽쳐 별로 관심 영역을 표현하는 정보의 모드를 지시할 수 있다. info_mode 정보는 부호 없는 4 비트의 정보로 표현될 수 있다. 또는 info_mode 정보는 포함하고 있는 정보의 모드를 지시할 수 있다. 예를 들어, info_mode 정보의 값이 ‘0’이면, info_mode 정보는 이전의 정보의 모드를 그대로 사용한다고 지시할 수 있다. info_mode 정보의 값이 ‘1’이면, info_mode 정보는 관심 영역에 해당하는 모든 타일 번호 리스트를 지시할 수 있다. info_mode 정보의 값이 ‘2’이면, info_mode 정보는 관심 영역에 해당하는 연속된 타일의 시작 번
호 및 끝 번호를 지시할 수 있다. info_mode 정보의 값이 3’이면, info_mode 정보는 관심 영역의 좌상단 및 우하단 타일의 번호를 지시할 수 있다. info_mode 정보의 값이 ‘4’이면, info_mode 정보는 관심 영역에 해당하는 타일의 번호 및 타일에 포함되는 코딩 유닛(Coding Unit)의 번호를 지시할 수 있다.
tile_id_list_size 정보는 타일 번호 리스트의 길이를 지시할 수 있다. tile_id_list_size 정보는 부호 없는 8 비트의 정보로 표현될 수 있다.
tile_id_list 정보는, info_mode 정보를 기초로, 타일 번호 리스트를 포함할 수 있다. 각각의 타일 번호는 부호 없는 8 비트의 정보로 표현될 수 있다. tile_id_list 정보는, info_mode 정보를 기초로, 관심 영역에 해당하는 모든 타일의 번호(info_mode 정보=1 인 경우), 연속된 타일의 시작 번호 및 끝 번호(info_mode 정보=2 인 경우), 및 관심 영역의 좌상단 및 우하단 타일의 번호(info_mode 정보=3 인 경우) 중에서 하나를 포함할 수 있다.
cu_id_list_size 정보는 코딩 유닛(Coding Unit) 리스트의 길이를 지시할 수 있다. cu_id_list_size 정보는 부호 없는 16 비트의 정보로 표현될 수 있다.
cu_id_list 정보는, info_mode 정보를 기초로, 코딩 유닛 번호의 리스트를 포함할 수 있다. 각각의 코딩 유닛 번호는 부호 없는 16 비트의 정보로 표현될 수 있다. 예를 들어, cu_id_list 정보는, info_mode 정보를 기초로, 관심 영역에 해당하는 코딩 유닛 번호의 리스트(예를 들어, info_mode 정보=4 인 경우)를 지시할 수 있다.
user_info_flag 정보는 추가 사용자 정보 모드를 지시하는 플래그일 수 있다. user_info_flag 정보는 사용자 및/또는 제공자가 추가로 전송하려는 타일 관련 정보가 있는지 여부를 지시할 수 있다. user_info_flag 정보는 부호 없는 1 비트의 정보로 표현될 수 있다. 예를 들어, user_info_flag 정보의 값이 ‘0’이면, 추가 사용자 정보가 없다고 지시할 수 있다. user_info_flag 정보의 값이 ‘1’이면, 추가 사용자 정보가 있다고 지시할 수 있다.
user_info_size 정보는 추가 사용자 정보의 길이를 지시할 수 있다. user_info_size 정보는 부호 없는 16 비트의 정보로 표현될 수 있다.
user_info_list 정보는 추가 사용자 정보의 리스트를 포함할 수 있다. 각각의 추가 사용자 정보는 부호 없는 변화 가능한 비트의 정보로 표현될 수 있다.
도 (b)를 참조하면, 파일, 청크, 비디오 픽쳐 그룹별 관심 영역 정보가 나타나 있다. 예를 들어, 관심 영역 정보는 버전 정보 필드, 전체 데이터 크기 필드, 및/또는 적어도 하나의 단위 정보 필드 중에서 적어도 하나를 포함할 수 있다.
도면을 참조하면, 파일, 청크, 비디오 픽쳐 그룹별 관심 영역 정보(sighted_tile_info)가 나타나 있다. 예를 들어, 관심 영역 정보는 version_info 정보, file_size 정보, 및/또는 단위 정보 중에서 적어도 하나를 포함할 수 있다.
version_info 정보는 관심 영역 정보(또는 시그널링 규격)의 버전을 지시할 수 있다. version_info 정보는 부호 없는 8 비트의 정보로 표현될 수 있다.
file_size 정보는 단위 정보의 사이즈를 지시할 수 있다. file_size 정보는 부호 없는 64 비트의 정보로 표현될 수 있다. 예를 들어, file_size 정보는 파일 사이즈, 청크 사이즈, 비디오 픽쳐 그룹 사이즈를 지시할 수 있다.
단위 정보는 파일 단위, 청크 단위, 및/또는 비디오 픽쳐 그룹 단위 별로 관심 영역 정보를 포함할 수 있다.
단위 정보는 poc_num 정보, info_mode 정보, tile_id_list_size 정보, tile_id_list 정보, cu_id_list_size 정보, cu_id_list 정보, user_info_flag 정보, user_info_size 정보, 및/또는 user_info_list 정보 중에서 적어도 하나를 포함할 수 있다.
poc_num 정보는 비디오 픽쳐의 번호를 지시할 수 있다. 예를 들어, 픽처 번호 필드는 HEVC에서는 POC(Picture Order Count)를 지시할 수 있으며, 일반 비디오 코덱에서는 해당 픽쳐(프레임) 번호를 지시할 수 있다. poc_num 정보는 부호 없는 32 비트의 정보로 표현될 수 있다.
info_mode 정보, tile_id_list_size 정보, tile_id_list 정보, cu_id_list_size 정보, cu_id_list 정보, user_info_flag 정보, user_info_size 정보, 및/또는 user_info_list 정보에 대한 구체적인 내용은 전술한 내용과 동일하므로 구체적인 설명은 생략한다.
관심 영역 정보는 서버 디바이스(또는 영상 전송 장치)에서 생성되고, 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치)로 전송될 수 있다.
또한, 관심 영역 정보는 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치) 에서 생성되고, 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치) 및/또는 서버 디바이스(또는 영상 전송 장치)로 전송될 수 있다. 이 경우, 클라이언트 디바이스 및/또는 클라이언트 디바이스의 제어부는 전술한 시그널링 데이터 추출부, 영상 생성부, 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더를 더 포함할 수 있다.
도 18은 XML 포맷의 예시적인 관심 영역 정보, 및 예시적인 SEI 메시지를 나타낸 도면이다.
도 (a)를 참조하면, 관심 영역 정보(sighted_tile_info)는 XML 형태로 표현될 수 있다. 예를 들어, 관심 영역 정보(sighted_tile_info)는 info_mode 정보(‘3’), tile_id_list_size 정보(‘6’), 및/또는 tile_id_list 정보(‘6, 7, 8, 9, 10, 11, 12’)를 포함할 수 있다.
도 (b)를 참고하면, 국제 비디오 표준에서의 Supplemental Enhancement Information(SEI) 메시지의 페이로드 (payload) 구문 (Syntax)이 나타나 있다. SEI 메시지는 동영상 부호화 계층(VCL)의 복호화 과정에서 필수가 아닌 부가정보를 나타낸다.
관심 영역 정보(sighted_tile_info, 1810)는 고효율 비디오 부호화(HEVC), 엠펙-4 (MPEG-4), 및/또는 고급 비디오 부호화(AVC)의 SEI 메시지에 포함되어 방송망 및/또는 브로드밴드를 통하여 전송될 수 있다. 예를 들어, SEI 메시지는 압축된 비디오 데이터에 포함될 수 있다.
이하에서는 가상 현실 서비스를 위한 비디오 데이터 및/또는 시그널링 데이터를 방송망 및/또는 브로드밴드를 통해서 전송 및/또는 수신하는 방법에 대하여 설명한다.
도 19는 클라이언트 디바이스의 예시적인 프로토콜 스택을 도시한 도면이다.
본 도면에서 방송(broadcast) 쪽 프로토콜 스택 부분은, SLT(service list table) 와 MMTP(MPEG Media Transport Pprotocol) 를 통해 전송되는 부분, ROUTE(Real time Object delivery over Unidirectional Transport) 를 통해 전송되는 부분으로 나뉘어질 수 있다.
SLT(1910) 는 UDP(User Datagram Protocol), IP(Internet Protocol ) 레이어를 거쳐 인캡슐레이션될 수 있다. MMTP(MPEG media transport Protocol) 는 MMT(MPEG media transport) 에서 정의되는 MPU(Media Processing Unit) 포맷으로 포맷된 데이터(1920)들과 MMTP 에 따른 시그널링 데이터(1930)들을 전송할 수 있다. 이 데이터들은 UDP, IP 레이어를 거쳐 인캡슐레이션될 수 있다. ROUTE 는 DASH(Dynamic Adaptive Streaming over HTTP) 세그먼트 형태로 포맷된 데이터들(1960)과 시그널링 데이터(1940)들, 그리고 NRT(Non-Real Time) 등의 논 타임드(non
timed) 데이터들(1950)을 전송할 수 있다. 이 데이터들 역시 UDP, IP 레이어를 거쳐 인캡슐레이션될 수 있다.
SLT 와 MMTP 를 통해 전송되는 부분, ROUTE 를 통해 전송되는 부분은 UDP, IP 레이어에서 처리된 후 링크 레이어(Data Link Layer)에서 다시 인캡슐레이션될 수 있다. 링크 레이어에서 처리된 방송 데이터는 피지컬 레이어에서 인코딩/인터리빙 등의 과정을 거쳐 방송 신호로서 멀티캐스트될 수 있다.
본 도면에서 브로드밴드(broadband) 쪽 프로토콜 스택 부분은, 전술한 바와 같이 HTTP(HyperText Transfer Protocol) 를 통하여 전송될 수 있다. DASH 세그먼트 형태로 포맷된 데이터들(1960)과 시그널링 데이터들(1980), NRT 등의 데이터(1970)가 HTTP 를 통하여 전송될 수 있다. 여기서 도시된 시그널링 데이터들(signaling)은 서비스에 관한 시그널링 데이터일 수 있다. 이 데이터들은 TCP(Transmission Control Protoco), IP 레이어를 거쳐 프로세싱된 후, 링크 레이어에서 인캡슐레이션될 수 있다. 이 후 처리된 브로드밴드 데이터는 피지컬 레이어에서 전송을 위한 처리를 거쳐 브로드밴드로 유니캐스트될 수 있다.
서비스는 전체적으로 사용자에게 보여주는 미디어 컴포넌트의 컬렉션일 수 있고, 컴포넌트는 여러 미디어 타입의 것일 수 있고, 서비스는 연속적이거나 간헐적일 수 있고, 서비스는 실시간이거나 비실시간일 수 있고, 실시간 서비스는 TV 프로그램의 시퀀스로 구성될 수 있다.
서비스는 전술한 가상 현실 서비스 및/또는 증강 현실 서비스를 포함할 수 있다. 또한, 비디오 데이터 및/또는 오디오 데이터는 MPU 포맷으로 포맷된 데이터(1920), NRT 등의 논 타임드(non timed) 데이터(1950), 및/또는 DASH 세그먼트 형태로 포맷된 데이터(1960) 중에서 적어도 하나에 포함될 수 있다. 또한, 시그널링 데이터(예를 들어, 제1 시그널링 데이터, 제2 시그널링 데이터)는 SLT(1910), 시그널링 데이터(1930), 시그널링 데이터(1940), 및/또는 시그널링 데이터(1980) 중에서 적어도 하나에 포함될 수 있다.
도 20은 SLT 와 SLS (service layer signaling) 의 예시적인 관계를 도시한 도면이다.
서비스 시그널링은 서비스 디스커버리 및 디스크립션 정보를 제공하고, 두 기능 컴포넌트를 포함한다. 이들은 SLT(2010)를 통한 부트스트랩 시그널링과 SLS(2020, 2030)이다. 예를 들어, MMTP에서의 SLS는 MMT 시그널링 컴포넌츠(2030)로 표현할 수 있다. 이들은 사용자 서비스를 발견하고 획득하는 데 필요한 정보를 나타낸다. SLT(2010)는 수신기가 기본 서비스 리스트를 작성하고 각 서비스에 대한 SLS(2020, 2030)의 발견을 부트스트랩 할 수 있게 해준다.
SLT(2010)는 기본 서비스 정보의 매우 빠른 획득을 가능하게 한다. SLS(2020, 2030)는 수신기가 서비스와 그 컨텐츠 컴포넌트(비디오 데이터 또는 오디오 데이터 등)를 발견하고 이에 접속할 수 있게 해준다.
전술한 바와 같이 SLT(2010) 는 UDP/IP 를 통해 전송될 수 있다. 이 때, 실시예에 따라 이 전송에 있어 가장 강건한(robust) 방법을 통해 SLT(2010) 에 해당하는 데이터가 전달될 수 있다.
SLT(2010) 는 ROUTE 프로토콜에 의해 전달되는 SLS(2020) 에 접근하기 위한 액세스 정보를 가질 수 있다. 즉 SLT(2010) 는 ROUTE 프로토콜에 따른 SLS(2020) 에 부트스트래핑할 수 있다. 이 SLS(2020) 는 전술한 프로토콜 스택에서 ROUTE 윗 레이어에 위치하는 시그널링 정보로서, ROUTE/UDP/IP 를 통해 전달될 수 있다. 이 SLS(2020) 는 ROUTE 세션에 포함되는 LCT 세션들 중 하나를 통하여 전달될 수 있다. 이 SLS(2020) 를 이용하여 원하는 서비스에 해당하는 서비스 컴포넌트(2040)에 접근할 수 있다.
또한 SLT(2010) 는 MMTP 에 의해 전달되는 SLS(MMT 시그널링 컴포넌트, 2030)에 접근하기 위한 액세스 정보를 가질 수 있다. 즉, SLT(2010) 는 MMTP 에 따른 SLS(MMT 시그널링 컴포넌트, 2030) 에 부트스트래핑할 수 있다. 이 SLS(MMT 시그널링 컴포넌트, 2030) 는 MMT 에서 정의하는 MMTP 시그널링 메시지(Signaling Message)에 의해 전달될 수 있다. 이 SLS(MMT 시그널링 컴포넌트, 2030) 를 이용하여 원하는 서비스에 해당하는 스트리밍 서비스 컴포넌트(MPU, 2050) 에 접근할 수 있다. 전술한 바와 같이, 본 명세서에서는 NRT 서비스 컴포넌트(2060)는 ROUTE
프로토콜을 통해 전달되는데, MMTP 에 따른 SLS(MMT 시그널링 컴포넌트, 2030) 는 이에 접근하기 위한 정보도 포함할 수 있다. 브로드밴드 딜리버리에서, SLS는 HTTP(S)/TCP/IP로 전달된다.
서비스는 서비스 컴포넌츠(2040), 스트리밍 서비스 컴포넌츠(2050), 및/또는 NRT 서비스 컴포넌츠(2060) 중에서 적어도 하나에 포함될 수 있다. 또한, 시그널링 데이터(예를 들어, 제1 시그널링 데이터, 제2 시그널링 데이터)는 SLT(2010), SLS(2020), 및/또는 MMT 시그널링 컴포넌츠(2030) 중에서 적어도 하나에 포함될 수 있다.
도 21은 예시적인 SLT 를 도시한 도면이다.
SLT는 수신기가 채널 이름, 채널 넘버 등으로 그것이 수신할 수 있는 모든 서비스의 리스트를 구축할 수 있게 하는 빠른 채널 스캔을 지원한다. 또한 SLT는 수신기가 각 서비스에 대해 SLS를 발견할 수 있게 하는 부트스트랩 정보를 제공한다.
SLT는 @bsid, @sltCapabilities, sltInetUrl 엘레멘트, 및/또는 Service 엘레멘트 중에서 적어도 하나를 포함할 수 있다.
@bsid는 브로드캐스트 스트림의 고유 식별자일 수 있다. @bsid의 값은 지역적인 단계에서 고유한 값을 가질 수 있다.
@sltCapabilities는 해당 SLT에서 기술하는 모든 서비스에서 의미 있는 방송을 하기 위해 요구되는 사양을 의미한다.
sltInetUrl 엘레멘트는 해당 SLT에서 기술하는 모든 서비스의 가이드 정보를 제공하는 ESG(Electronic Service Guide) 데이터 혹은 서비스 시그널링 정보를 브로드밴드망을 통해서 다운 받을 수 있는 URL(Uniform Resource Locator) 값을 의미한다. sltInetUrl 엘리먼트는 @URLtype을 포함할 수 있다.
@URLtype은 sltInetUrl엘레멘트가 지시하는 URL을 통해 다운 받을 수 있는 파일의 종류를 의미한다.
Service 엘레멘트는 서비스 정보를 포함할 수 있다. 서비스 엘레멘트는 @serviceId, @sltSvcSeqNum, @protected, @majorChannelNo, @minorChannelNo, @serviceCategory, @shortServiceName, @hidden, @broadbandAccessRequired, @svcCapabilities, BroadcastSignaling 엘레멘트, 및/또는 svcInetUrl 엘레멘트 중에서 적어도 하나를 포함할 수 있다.
@serviceId는 서비스의 고유 식별자이다.
@sltSvcSeqNum는 SLT에서 정의하는 각 서비스의 내용이 변경된 바 있는지에 대한 정보를 의미하는 값을 가진다.
@protected는 “true” 값을 가질 경우, 해당 서비스를 화면에 보여주기 위해서는 서비스를 구성하는 컴포넌트 중 하나라도 보호가 되어있음을 의미한다.
@majorChannelNo는 해당 서비스의 major 채널 넘버를 의미한다.
@minorChannelNo는 해당 서비스이 minor 채널 넘버를 의미한다.
@serviceCategory는 해당 서비스의 종류를 지시한다.
@shortServiceName는 해당 서비스의 이름을 지시한다.
@hidden는 해당 서비스가 서비스 스캔 시, 사용자에게 보여져야 하는지 아닌지를 지시한다.
@broadbandAccessRequired는 해당 서비스를 사용자에게 의미있게 보여주기 위해서 브로드밴드망에 접속을 해야하는지를 지시한다.
@svcCapabilities는 해당 서비스를 사용자에게 의미 있게 보여주기 위해 지원 해야 하는 사양을 지시한다.
BroadcastSignaling 엘레멘트는 방송망으로 전송되는 시그널링의 전송 프로토콜, 위치, 식별자 값들에 대한 정의를 포함한다. BroadcastSignaling 엘레멘트는 @slsProtocol, @slsMajorProtocolVersion, @slsMinorProtocolVersion, @slsPlpId, @slsDestinationIpAddress, @slsDestinationUdpPort, 및/또는 @slsSourceIpAddress중에서 적어도 하나를 포함할 수 있다.
@slsProtocol는 해당 서비스의 SLS가 전송되는 프로토콜을 나타낸다.
@slsMajorProtocolVersion는 해당 서비스의 SLS가 전송되는 프로토콜의 major 버전을 나타낸다.
@slsMinorProtocolVersion는 해당 서비스의 SLS가 전송되는 프로토콜의 minor 버전을 나타낸다.
@slsPlpId는 SLS가 전송되는 PLP 식별자를 나타낸다.
@slsDestinationIpAddress는 SLS 데이터의 destination IP 주소값을 나타낸다.
@slsDestinationUdpPort는 SLS 데이터의 destination Port 값을 나타낸다.
@slsSourceIpAddress는 SLS 데이터의 source IP 주소값을 나타낸다.
svcInetUrl 엘레멘트는 ESG 서비스 혹은 해당 서비스와 연관된 시그널링 데이터를 다운받을 수 있는 URL 값을 나타낸다. svcInetUrl 엘레멘트는 @URLtype을 포함할 수 있다.
@URLtype는 svcInetUrl 엘레먼트가 지시하는 URL을 통해 다운 받을 수 있는 파일의 종류를 의미한다.
도 22는 serviceCategory 속성의 예시적인 코드 벨류를 나타낸 도면이다.
예를 들어, serviceCategory 속성의 값이 ‘0’이면, 서비스는 특정되지 않을 수 있다. serviceCategory 속성의 값이 ‘1’이면, 해당 서비스는 리니어 오디오/비디오 서비스일 수 있다. serviceCategory 속성의 값이 ‘2’이면, 해당 서비스는 리니어 오디오 서비스일 수 있다. serviceCategory 속성의 값이 ‘3’이면, 해당 서비스는 앱-베이스드 서비스일 수 있다. serviceCategory 속성의 값이 ‘4’이면, 해당 서비스는 전자 서비스 가이드(ESG) 서비스일 수 있다. serviceCategory 속성의 값이 ‘5’이면, 해당 서비스는 긴급 경보 서비스(EAS)일 수 있다.
serviceCategory 속성의 값이 ‘6’이면, 해당 서비스는 가상 현실 및/또는 증강 현실 서비스일 수 있다.
화상 회의 서비스의 경우, serviceCategory 속성의 값은 ‘6’일 수 있다(2210).
도 23은 예시적인 SLS 부트스트래핑과 예시적인 서비스 디스커버리 과정을 도시한 도면이다.
수신기는 SLT를 획득할 수 있다. SLT는 SLS 획득을 부트스트랩 하는데 사용되고, 그 후 SLS는 ROUTE 세션 또는 MMTP 세션에서 전달되는 서비스 컴포넌트를 획득하는 데 사용된다.
ROUTE 세션에서 전달되는 서비스와 관련하여, SLT는 PLPID(#1), 소스 IP 어드레스 (sIP1), 데스티네이션 IP 어드레스 (dIP1), 및 데스티네이션 포트 넘버 (dPort1)와 같은 SLS 부트스트래핑 정보를 제공한다. MMTP 세션에서 전달되는 서비스와 관련하여, SLT는 PLPID(#2), 데스티네이션 IP 어드레스 (dIP2), 및 데스티네이션 포트 넘버 (dPort2)와 같은 SLS 부트스트래핑 정보를 제공한다.
참고로, 브로드캐스트 스트림은 특정 대역 내에 집중된 캐리어 주파수 측면에서 정의된 RF 채널의 개념이다. PLP (physical layer pipe)는 RF 채널의 일부에 해당된다. 각 PLP는 특정 모듈레이션 및 코딩 파라미터를 갖는다.
ROUTE를 이용한 스트리밍 서비스 딜리버리에 대해, 수신기는 PLP 및 IP/UDP/LCT 세션으로 전달되는 SLS 프래그먼트를 획득할 수 있다. 이들 SLS 프래그먼트는 USBD/USD(User Service Bundle Description/User Service Description) 프래그먼트, S-TSID(Service-based Transport Session Instance Description) 프래그먼트, MPD(Media Presentation Description) 프래그먼트를 포함한다. 그것들은 하나의 서비스와 관련이 있다.
MMTP를 이용한 스트리밍 서비스 딜리버리에 대해, 수신기는 PLP 및 MMTP 세션으로 전달되는 SLS 프래그먼트를 획득할 수 있다. 이들 SLS 프래그먼트는 USBD/USD 프래그먼트, MMT 시그널링 메시지를 포함할 수 있다. 그것들은 하나의 서비스와 관련이 있다.
수신기는 SLS 프래그먼트를 기초로 비디오 컴포넌트 및/또는 오디오 컴포넌트를 획득할 수 있다.
도시된 실시예와는 달리, 하나의 ROUTE 또는 MMTP 세션은 복수개의 PLP 를 통해 전달될 수 있다. 즉, 하나의 서비스는 하나 이상의 PLP 를 통해 전달될 수도 있다. 전술한 바와 같이 하나의 LCT 세션은 하나의 PLP 를 통해 전달될 수 있다. 도시된 것과 달리 실시예에 따라 하나의 서비스를 구성하는 컴포넌트들이 서로 다른 ROUTE 세션들을 통해 전달될 수도 있다. 또한, 실시예에 따라 하나의 서비스를 구성하는 컴포넌트들이 서로 다른 MMTP 세션들을 통해 전달될 수도 있다. 실시예에 따라 하나의 서비스를 구성하는 컴포넌트들이 ROUTE 세션과 MMTP 세션에
나뉘어 전달될 수도 있다. 도시되지 않았으나, 하나의 서비스를 구성하는 컴포넌트가 브로드밴드를 통해 전달(하이브리드 딜리버리)되는 경우도 있을 수 있다.
또한, 서비스 데이터(예를 들어, 비디오 컴포넌트 및/또는 오디오 컴포넌트) 및/또는 시그널링 데이터(예를 들어, SLS 프래그먼트)는 방송망 및/또는 브로드밴드를 통해서 전송될 수 있다.
도 24는 ROUTE/DASH 를 위한 예시적인 USBD/USD 프래그먼트를 도시한 도면이다.
USBD/USD (User Service Bundle Description/User Service Description) 프래그먼트는 서비스 레이어 특성을 서술하고, S-TSID 프래그먼트에 대한 URI(Uniform Resource Identifier) 레퍼런스 및 MPD 프래그먼트에 대한 URI 레퍼런스를 제공한다. 즉, USBD/USD 프래그먼트는 S-TSID 프래그먼트와 MPD 프래그먼트를 각각 레퍼런싱할 수 있다. USBD/USD 프래그먼트는 USBD 프래그먼트로 표현할 수 있다.
USBD/USD 프래그먼트는 bundleDescription 루트 엘레멘트를 가질 수 있다. bundleDescription 루트 엘레멘트는 userServiceDescription 엘레멘트를 가질 수 있다. userServiceDescription 엘레멘트는 하나의 서비스에 대한 인스턴스일 수 있다.
userServiceDescription 엘레멘트는 @globalServiceId, @serviceId, @serviceStatus, @fullMPDUri, @sTSIDUri, name 엘레멘트, serviceLanguage 엘레멘트, deliveryMethod 엘레멘트, 및/또는 serviceLinakge 엘레멘트 중에서 적어도 하나를 포함할 수 있다.
@globalServiceId는 서비스를 식별하는 글로벌적으로 고유한 URI를 지시할 수 있다.
@serviceId는 SLT에 있는 해당하는 서비스 엔트리에 대한 레퍼런스이다.
@serviceStatus는 해당 서비스의 상태는 특정할 수 있다. 그 값은 해당 서비스가 활성화되어 있는지 비활성화되어 있는지를 나타낸다.
@fullMPDUri는 브로드캐스트 및/또는 브로드밴드 상에서 전달되는 서비스의 컨텐츠 컴포넌트에 대한 디스크립션을 포함하는 MPD 프래그먼트를 레퍼런싱할 수 있다.
@sTSIDUri는 해당 서비스의 컨텐츠를 전달하는 전송 세션에 액세스 관련 파라미터를 제공하는 S-TSID 프래그먼트를 레퍼런싱할 수 있다.
name 엘레먼트는 서비스의 네임을 나타낼 수 있다. name 엘레먼트는 서비스 네임의 언어를 나타내는 @lang을 포함할 수 있다.
serviceLanguage 엘레먼트는 서비스의 이용 가능한 언어를 나타낼 수 있다.
deliveryMethod 엘레먼트는 액세스의 브로드캐스트 및 (선택적으로) 브로드밴드 모드 상에서 서비스의 컨텐츠에 속하는 정보에 관련된 트랜스포트의 컨테이너일 수 있다. deliveryMethod 엘레멘트는 broadcastAppService 엘레멘트와 unicastAppService 엘레멘트를 포함할 수 있다. 각각의 하위 엘레멘트들은 basePattern 엘레멘트를 하위 엘레멘트로 가질 수 있다.
broadcastAppService 엘레멘트는 소속된 미디어 프레젠테이션의 모든 기간에 걸쳐 서비스에 속하는 해당 미디어 컴포넌트를 포함하는 다중화된 또는 비다중화된 형태의 브로드캐스트 상에서 전달되는 DASH 레프레젠테이션일 수 있다. 즉, 각각의 본 필드들은, 방송망을 통해 전달되는 DASH 레프레젠테이션(representation) 들을 의미할 수 있다.
unicastAppService는 소속된 미디어 프레젠테이션의 모든 기간에 걸쳐 서비스에 속하는 구성 미디어 컨텐츠 컴포넌트를 포함하는 다중화된 또는 비다중화된 형태의 브로드밴드 상에서 전달되는 DASH 레프레젠테이션일 수 있다. 즉, 각각의 본 필드들은, 브로드밴드를 통해 전달되는 DASH 레프레젠테이션(representation) 들을 의미할 수 있다.
basePattern은 포함된 기간에 페어런트 레프레젠테이션의 미디어 분할을 요구하기 위해 DASH 클라이언트에 의해 사용되는 분할 URL의 모든 부분에 대해 매칭되도록 수신기에 의해 사용되는 문자 패턴일 수 있다.
serviceLinakge 엘레멘트는 서비스 링키지 정보를 포함할 수 있다.
도 25는 ROUTE/DASH 를 위한 예시적인 S-TSID 프래그먼트를 도시한 도면이다.
S-TSID(Service-based Transport Session Instance Description) 프래그먼트는 서비스의 미디어 컨텐츠 컴포넌트가 전달되는 하나 이상의 ROUTE/LCT 세션에 대한 전송 세션 디스크립션 및 해당 LCT 세션에서 전달되는 딜리버리 오브젝트의 디스크립션을 제공한다. 수신기는 S-TSID 프래그먼트를 기초로 서비스에 포함되는 적어도 하나의 컴포넌트(예를 들어, 비디오 컴포넌트 및/또는 오디오 컴포넌트)를 획득할 수 있다.
S-TSID 프래그먼트는 S-TSID 루트 엘레멘트를 포함할 수 있다. S-TSID 루트 엘레멘트는 @serviceId 및/또는 적어도 하나의 RS 엘레멘트를 포함할 수 있다.
@serviceID는 USD에서 서비스 엘레멘트에 해당하는 레퍼런스일 수 있다.
RS 엘레멘트는 해당 서비스 데이터들을 전달하는 ROUTE 세션에 대한 정보를 가질 수 있다.
RS 엘레멘트는 @bsid, @sIpAddr, @dIpAddr, @dport, @PLPID 및/또는 적어도 하나의 LS 엘레멘트 중에서 적어도 하나를 포함할 수 있다.
@bsid는 broadcastAppService의 컨텐츠 컴포넌트가 전달되는 브로드캐스트 스트림의 식별자일 수 있다.
@sIpAddr은 소스 IP 어드레스를 나타낼 수 있다. 여기서 소스 IP 어드레스는, 해당 서비스에 포함되는 서비스 컴포넌트를 전달하는 ROUTE 세션의 소스 IP 어드레스일 수 있다.
@dIpAddr은 데스티네이션 IP 어드레스를 나타낼 수 있다. 여기서 데스티네이션 IP 어드레스는, 해당 서비스에 포함되는 서비스 컴포넌트를 전달하는 ROUTE 세션의 데스티네이션 IP 어드레스일 수 있다.
@dport는 데스티네이션 포트를 나타낼 수 있다. 여기서 데스티네이션 포트는, 해당 서비스에 포함되는 서비스 컴포넌트를 전달하는 ROUTE 세션의 데스티네이션 포트일 수 있다.
@PLPID 는 RS 엘레멘트로 표현되는 ROUTE 세션을 위한 PLP 의 ID 일 수 있다.
LS 엘레멘트는 해당 서비스 데이터들을 전달하는 LCT 세션에 대한 정보를 가질 수 있다.
LS 엘레멘트는 @tsi, @PLPID, @bw, @startTime, @endTime, SrcFlow 및/또는 RprFlow 를 포함할 수 있다.
@tsi 는 해당 서비스의 서비스 컴포넌트가 전달되는 LCT 세션의 TSI 값을 지시할 수 있다.
@PLPID 는 해당 LCT 세션을 위한 PLP 의 ID 정보를 가질 수 있다. 이 값은 기본 ROUTE 세션 값을 덮어쓸 수도 있다.
@bw 는 최대 밴드위스 값을 지시할 수 있다. @startTime 은 해당 LCT 세션의 스타트 타임(Start time)을 지시할 수 있다. @endTime 은 해당 LCT 세션의 엔드 타임(End time)을 지시할 수 있다. SrcFlow 엘레멘트는 ROUTE 의 소스 플로우에 대해 기술할 수 있다. RprFlow 엘레멘트는 ROUTE 의 리페어 플로우에 대해 기술할 수 있다.
S-TSID는 관심 영역 정보를 포함할 수 있다. 구체적으로 RS 엘레멘트 및/또는 LS 엘레멘트는 관심 영역 정보를 포함할 수 있다.
도 26은 예시적인 MPD 프래그먼트를 나타낸 도면이다.
MPD(Media Presentation Description) 프래그먼트는 방송사에 의해 정해진 주어진 듀레이션의 리니어 서비스에 해당하는 DASH 미디어 프레젠테이션의 공식화된 디스크립션을 포함할 수 있다. MPD 프래그먼트는 주로 스트리밍 컨텐츠로서의 DASH 프래그먼트의 딜리버리를 위한 리니어 서비스와 관련된다. MPD는 프래그먼트 URL 형태의 리니어/스트리밍 서비스의 개별 미디어 컴포넌트에 대한 소스 식별자, 및 미디어 프레젠테이션 내의 식별된 리소스의 컨텍스트를 제공한다. MPD는 브로드캐스트 및/또는 브로드밴드를 통해서 전송될 수 있다.
MPD 프래그먼트는 피리어드(Period) 엘레멘트, 어뎁테이션 셋(Adaptation Set) 엘레멘트 및 레프리젠테이션 (Representation) 엘레멘트를 포함할 수 있다.
피리어드 엘레멘트는 피리어드에 대한 정보를 포함한다. MPD 프래그먼트는 복수의 피리어드에 대한 정보를 포함할 수 있다. 피리어드는 미디어 컨텐츠 재생(presentation)의 연속한 시간 구간을 나타낸다.
어뎁테이션 셋 엘레멘트는 어뎁테이션 셋에 대한 정보를 포함한다. MPD 프래그먼트는 복수의 어뎁테이션 셋에 대한 정보를 포함할 수 있다. 어뎁테이션 셋은 상호전환 가능한 하나 또는 그 이상의 미디어 컨텐츠 컴포넌트를 포함하는 미디어 컴포넌트의 집합이다. 어뎁테이션 셋은 하나 또는 그 이상의 레프리젠테이션을 포함할 수 있다. 어뎁테이션 셋 각각은 서로 다른 언어의 오디오를 포함하거나 서로 다른 언어의 자막을 포함할 수 있다.
레프리젠테이션 엘레멘트는 레프리젠테이션에 대한 정보를 포함한다. MPD는 복수의 레프리젠테이션에 대한 정보를 포함할 수 있다. 레프리젠테이션은 하나 또는 그 이상의 미디어 컴포넌트들의 구조화된 모음으로서, 동일한 미디어 컨텐츠 컴포넌트에 대하여 서로 달리 인코딩된 복수의 레프리젠테이션이 존재할 수 있다. 한편, 비트스트림 스위칭(bitstream switching)이 가능한 경우, 전자 장치는 미디어 컨텐츠 재생 도중 업데이트된 정보에 기초하여 수신되는 레프리젠테이션을 다른 레프리젠테이션으로 전환할 수 있다. 특히 전자 장치는 대역폭의 환경에 따라 수신되는 레프리젠테이션을 다른 레프리젠테이션으로 전환할 수 있다. 레프리젠테이션은 복수의 세그먼트들로 분할된다.
세그먼트는 미디어 컨텐츠 데이터의 단위이다. 레프리젠테이션은 HTTP 1.1(RFC 2616)에서 정의된 HTTP GET 또는 HTTP partial GET method를 이용한 전자 장치의 요청에 따라 세그먼트 또는 세그먼트의 일부분으로 전송될 수 있다.
또한, 세그먼트는 복수의 서브 세그먼트들을 포함하여 구성될 수 있다. 서브세그먼트는 세그먼트 레벨에서 인덱스될 수 있는 가장 작은 단위(unit)를 의미할 수 있다. 세그먼트는 초기화 세그먼트(Initialization Segment), 미디어 세그먼트(Media Segment), 인덱스 세그먼트 Index Segment), 비트스트림 스위칭 세그먼트(BitstreamSwitching Segment) 등을 포함할 수 있다.
MPD 프래그먼트는 관심 영역 정보를 포함할 수 있다. 구체적으로 피리어드(Period) 엘레멘트, 어뎁테이션 셋(Adaptation Set) 엘레멘트 및/또는 레프리젠테이션 (Representation) 엘레멘트는 관심 영역 정보를 포함할 수 있다.
도 27은 가상 현실 서비스를 복수의 ROUTE 세션을 통해서 수신하는 예시적인 과정을 나타낸 도면이다.
클라이언트 디바이스(또는 수신기)는 방송망을 통하여 비트스트림을 수신할 수 있다. 예를 들어, 비트 스트림은 서비스를 위한 비디오 데이터 및 제2 시그널링 데이터를 포함할 수 있다. 예를 들어, 제2 시그널링 데이터는 SLT(2710) 및 SLS(2730)를 포함할 수 있다. 서비스는 가상 현실 서비스를 포함할 수 있다. 서비스 데이터는 기본 계층 서비스 데이터(2740) 및 향상 계층 서비스 데이터(2750)를 포함할 수 있다.
비트스트림은 적어도 하나의 물리 계층 프레임을 포함할 수 있다. 물리 계층 프레임은 적어도 하나의 PLP를 포함할 수 있다. 예를 들어, PLP(#0)을 통하여 SLT(2710)가 전송될 수 있다.
또한, PLP(#1)은 제1 ROUTE 세션(ROUTE #1)을 포함할 수 있다. 1 ROUTE 세션(ROUTE #1)은 제1 LCT 세션(tsi-sls), 제2 LCT 세션(tsi-bv), 및 제3 LCT 세션(tsi-a)를 포함할 수 있다. 제1 LCT 세션(tsi-sls)을 통해서 SLS(2730)가 전송되고, 제2 LCT 세션(tsi-bv)을 통해서 기본 계층 비디오 데이터(Video Segment, 2740)가 전송되고, 및 제3 LCT 세션(tsi-a)를 통해서 오디오 데이터(Audio Segment)가 전송될 수 있다.
또한, PLP(#2)는 제2 ROUTE 세션(ROUTE #2)을 포함할 수 있고, 제2 ROUTE 세션(ROUTE #2)은 제4 LCT 세션(tsi-ev)를 포함할 수 있다. 제4 LCT 세션(tsi-ev)을 통해서 향상 계층 비디오 데이터(Video Segment, 2750)가 전송될 수 있다.
그리고 나서, 클라이언트 디바이스는 SLT(2710)를 획득할 수 있다. 예를 들어, SLT(2710)는 SLS(2730)를 획득하기 위한 부트스트랩 정보(2720)를 포함할 수 있다.
그리고 나서, 클라이언트 디바이스는, 부트스트랩 정보(2720)을 기초로, 가상 현실 서비스를 위한 SLS(2730)를 획득할 수 있다. 예를 들어, SLS는 USBD/USD 프래그먼트, S-TSID 프래그먼트, 및/또는 MPD 프래그먼트를 포함할 수 있다. USBD/USD 프래그먼트, S-TSID 프래그먼트, 및/또는 MPD 프래그먼트 중에서 적어도 하나는 관심 영역 정보를 포함할 수 있다. 이하에서는 MPD 프래그먼트가 관심 영역 정보를 포함하는 것을 전제로 설명한다.
그리고 나서, 클라이언트 디바이스는, USBD/USD 프래그먼트를 기초로 S-TSID 프래그먼트 및/또는 MPD 프래그먼트를 획득할 수 있다. 클라이언트 디바이스는, S-TSID 프래그먼트 및 MPD 프래그먼트를 기초로, LCT 세션을 통해서 전송되는 미디어 컴포넌트와 MPD 프래그먼트의 레프리젠테이션을 매칭시킬 수 있다.
그리고 나서, 클라이언트 디바이스는, S-TSID 프래그먼트의 RS 엘리먼트(ROUTE #1)를 기초로 기본 계층 비디오 데이터(2740) 및 오디오 데이터를 획득할 수 있다. 또한, 클라이언트 디바이스는, S-TSID 프래그먼트의 RS 엘리먼트(ROUTE #2)를 기초로 향상 계층 비디오 데이터(2750) 및 오디오 데이터를 획득할 수 있다.
그리고 나서, 클라이언트 디바이스는, MPD 프래그먼트를 기초로, 서비스 데이터(예를 들어, 기본 계층 비디오 데이터, 향상 계층 비디오 데이터, 오디오 데이터)를 디코딩할 수 있다.
보다 구체적으로, 클라이언트 디바이스는, 기본 계층 비디오 데이터 및/또는를 관심 영역 정보를 기초로, 향상 계층 비디오 데이터를 디코딩할 수 있다.
이상에서는 향상 계층 비디오 데이터가 제2 ROUTE 세션(ROUTE #2)를 통해서 전송되는 것으로 설명하였지만, 향상 계층 비디오 데이터는 MMTP 세션을 통해서 전송될 수도 있다.
도 28는 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.
도 (a)를 참조하면, 따른 클라이언트 디바이스(A2800)는 영상 입력부, 오디오 입력부, 센서부, 영상 출력부, 오디오 출력부, 통신부(A2810), 및/또는 제어부(A2820) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(A2800)에 대한 구체적인 내용은 전술한 클라이언트 디바이스의 내용을 모두 포함할 수 있다.
제어부(A2820)는 시그널링 데이터 추출부, 디코더, 화자 판단부, 시선 판단부, 및/또는 시그널링 데이터 생성부 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 제어부(A2820)에 대한 구체적인 내용은 전술한 제어부의 내용을 모두 포함할 수 있다.
도면을 참조하면, 클라이언트 디바이스(또는 수신기, 영상 수신 장치)는 통신부(A2810), 및/또는 제어부(A2820)를 포함할 수 있다. 제어부(A2820)는 기본 계층 디코더(A2821) 및/또는 향상 계층 디코더(A2825)를 포함할 수 있다.
통신부(A2810)는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신할 수 있다. 통신부(A2810)는 방송망 및/또는 브로드밴드를 통하여 비트스트림을 수신할 수 있다.
상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.
기본 계층 디코더(A2821)는 상기 기본 계층 비디오 데이터를 디코딩할 수 있다.
향상 계층 디코더(A2825)는 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다.
상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
또한, 제어부(A2820)는 제1 시그널링 데이터를 생성하는 시그널링 데이터 생성부를 더 포함할 수 있다.
상기 제1 시그널링 데이터는 영상 구성 정보를 포함할 수 있다. 영상 구성 정보는 가상 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보 중에서 적어도 하나를 포함할 수 있다.
또한, 제어부(A2820)는 상기 시선 정보에 대응되는 시선 영역이 상기 적어도 하나의 관심 영역에 포함되는지 판단하는 시선 판단부를 더 포함할 수 있다.
또한, 상기 통신부(A2810)는, 상기 시선 영역이 상기 적어도 하나의 관심 영역 외의 영역에 포함되면, 상기 제1 시그널링 데이터를 서버(또는 서버 디바이스, 송신기, 영상 전송 장치) 및/또는 적어도 하나의 클라이언트 디바이스(또는 영상 수신 장치)로 전송할 수 있다.이 경우, 제1 시그널링 데이터를 수신한 서버, 서버 디바이스 및/또는 적어도 하나의 클라이언트 디바이스는 상기 적어도 하나의 관심 영역에 상기 시선 정보에 대응되는 시선 영역을 포함시킬 수 있다. 즉, 관심 영역은 가상 공간 내에서의 화자를 포함하는 영역, 적어도 하나의 향상 계층 비디오 데이터를 이용하여 표현되는 것으로 미리 정해진 영역, 시선 정보에 대응되는 시선 영역 중에서 적어도 하나를 포함할 수 있다.
또한, 상기 비트스트림은 제2 시그널링 데이터를 더 포함할 수 있다.
상기 통신부(A2810)는 상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 수신할 수 있다.
예를 들어, 통신부(A2810)는 기본 계층 비디오 데이터를 제1 ROUTE 세션을 통해서 수신하고, 적어도 하나의 향상 계층 비디오 데이터를 적어도 하나의 제2 ROUTE 세션을 통해서 수신할 수 있다. 또는, 통신부(A2810)는 기본 계층 비디오 데이터를 ROUTE 세션을 통해서 수신하고, 적어도 하나의 향상 계층 비디오 데이터를 적어도 하나의 MMTP 세션을 통해서 수신할 수 있다.
또한, 상기 제2 시그널링 데이터는 상기 비디오 데이터의 획득을 위한 정보를 포함하는 서비스 레이어 시그널링 데이터(또는 SLS) 및 상기 서비스 레이어 시그널링 데이터의 획득을 위한 정보를 포함하는 서비스 리스트 테이블(또는 SLT) 중에서 적어도 하나를 포함할 수 있다.
또한, 상기 서비스 리스트 테이블은 서비스의 카테고리를 지시하는 서비스 카테고리 속성을 포함할 수 있다. 예를 들어, 상기 서비스 카테고리 속성은 상기 가상 현실 서비스를 지시할 수 있다.
또한, 상기 서비스 레이어 시그널링 데이터는 상기 관심 영역 정보를 포함할 수 있다. 구체적으로 상기 서비스 레이어 시그널링 데이터는 상기 가상 현실 서비스를 위한 적어도 하나의 미디어 컴포넌트들이 전송되는 세션에 대한 정보를 포함하는 S-TSID 프래그먼트, 상기 적어도 하나의 미디어 컴포넌트(비디오 데이터 및/또는 오디오 데이터)에 대한 정보를 포함하는 MPD 프래그먼트, 및 상기 S-TSID 프래그먼트 및 상기 MPD 프래그먼트를 연결하는 URI 값을 포함하는 USBD/USD 프래그먼트 중에서 적어도 하나를 포함할 수 있다.
또한, 상기 MPD 프래그먼트는 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 포함할 수 있다.
또한, 상기 비트스트림은 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 더 포함할 수 있다. 예를 들어, 상기 관심 영역 정보는 Supplemental Enhancement Information (SEI) 메시지, Video Usability Information (VUI) 메시지, 슬라이스 헤더, 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송 및/또는 수신될 수 있다.
또한, 상기 적어도 하나의 향상 계층 비디오 데이터는 상기 기본 계층 비디오 데이터 및 상기 관심 영역 정보를 기초로 생성(인코딩) 및/또는 디코딩될 수 있다.
또한, 상기 관심 영역 정보는 픽쳐 별로 상기 관심 영역을 표현하는 정보의 모드를 지시하는 정보 모드 필드 및 상기 관심 영역에 해당하는 적어도 하나의 타일의 번호를 포함하는 타일 번호 리스트 필드 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 정보 모드 필드는 전술한 info_mode 정보일 수 있고, 타일 번호 리스트 필드는 전술한 tile_id_list 정보일 수 있다.
예를 들어, 상기 타일 번호 리스트 필드는 상기 정보 모드 필드를 기초로 상기 관심 영역에 해당하는 모든 타일의 번호, 연속된 타일의 시작 번호 및 끝 번호, 및 상기 관심 영역의 좌상단 및 우하단 타일의 번호 중에서 하나의 방식으로 상기 적어도 하나의 타일의 번호를 포함할 수 있다.
또한, 상기 관심 영역 정보는 상기 관심 영역을 지시하는 코딩 유닛 번호 리스트 필드를 더 포함할 수 있다. 예를 들어, 코딩 유닛 번호 리스트 필드는 전술한 cu_id_list 정보일 수 있다.
예를 들어, 상기 코딩 유닛 번호 리스트 필드는 상기 정보 모드 필드를 기초로 상기 관심 영역에 해당하는 타일의 번호 및 상기 타일에 포함되는 코딩 유닛의 번호를 지시할 수 있다.
도 (b)를 참조하면, 클라이언트 디바이스(B2800)는 영상 입력부, 오디오 입력부, 센서부, 영상 출력부, 오디오 출력부, 통신부(B2810), 및/또는 제어부(B2820) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(B2800)에 대한 구체적인 내용은 전술한 클라이언트 디바이스(A2800)의 내용을 모두 포함할 수 있다.
추가적으로, 제어부(B2820)는 제1 프로세서(B2821) 및/또는 제2 제어부(B2825) 중에서 적어도 하나를 포함할 수 있다.
제1 프로세서(B2821)는 기본 계층 비디오 데이터를 디코딩할 수 있다. 예를 들어, 제1 프로세서(B2821)는 비디오 처리 유닛(VPU, Video Processing Unit) 및/또는 DSP(Digital Signal Processor)일 수 있다.
제2 프로세서(B2825)는 상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다. 예를 들어, 제2 프로세서(B2825)는 중앙처리장치(CPU, Central Processing Unit) 및/또는 그래픽 처리 장치(GPU, Grapic Processing Unit)일 수 있다.
도 29는 서버 디바이스의 예시적인 구성을 나타낸 도면이다.
클라이언트 디바이스 사이에서만 통신을 수행하는 경우, 적어도 하나의 클라이언트 디바이스(또는 HMD, 영상 수신 장치)가 서버 디바이스(또는 영상 전송 장치)의 동작을 모두 수행할 수도 있다. 이하에서는 서버 디바이스가 존재하는 경우를 중심으로 설명하지만, 본 명세서의 내용이 이에 한정되는 것은 아니다.
도 (a)를 참조하면, 서버 디바이스(A2900, 송신기, 영상 전송 장치)는 제어부(A2910) 및/또는 통신부(A2920)을 포함할 수 있다. 제어부(A2920)는 시그널링 데이터 추출부, 영상 생성부, 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더 중에서 적어도 하나를 포함할 수 있다. 서버 디바이스(A2900)에 대한 구체적인 내용은 전술한 서버 디바이스의 내용을 모두 포함할 수 있다.
도면을 참조하면, 서버 디바이스(A2900)의 제어부(A2910)는 기본 계층 인코더(A2911) 및/또는 향상 계층 인코더(A2915)를 포함할 수 있다.
기본 계층 인코더(A2911)는 기본 계층 비디오 데이터를 생성할 수 있다.
향상 계층 인코더(A2915)는 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성할 수 있다.
통신부(A2920)는 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송할 수 있다. 통신부(A2920)는 방송망 및/또는 브로드밴드를 통하여 비트스트림을 전송할 수 있다.
또한, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.
또한, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
또한, 통신부(A2920)는 제1 시그널링 데이터를 더 수신할 수 있다. 예를 들어, 상기 제1 시그널링 데이터는 영상 구성 정보를 포함할 수 있다.
제어부(A2910)의 관심 영역 판단부는 상기 적어도 하나의 관심 영역에 상기 시선 정보에 대응되는 시선 영역을 포함시킬 수 있다.
또한, 제어부(A2910)의 시그널링 데이터 생성부는 제2 시그널링 데이터를 생성할 수 있다.
또한, 상기 통신부(A2920)는 상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 전송할 수 있다.
또한, 제2 시그널링 데이터 및/또는 관심 영역 정보는 전술한 내용을 모두 포함할 수 있다.
도 (b)를 참조하면, 서버 디바이스(B2900, 송신기, 영상 전송 장치)는 제어부(B2910), 및/또는 통신부(B2920) 중에서 적어도 하나를 포함할 수 있다. 제어부(B2920)는 시그널링 데이터 추출부, 영상 생성부, 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더 중에서 적어도 하나를 포함할 수 있다. 서버 디바이스(B2900)에 대한 구체적인 내용은 전술한 서버 디바이스의 내용을 모두 포함할 수 있다.
서버 디바이스(B2900)의 제어부(B2910)는 제1 프로세서(B2911) 및/또는 제2 프로세서(B2915)를 포함할 수 있다.
제1 프로세서(B2911)는 기본 계층 비디오 데이터를 생성하는 기본 계층 인코더를 포함할 수 있다.
제2 프로세서(B2915)는 상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 생성(또는 인코딩)할 수 있다.
도 30은 클라이언트 디바이스의 예시적인 동작을 나타낸 도면이다.
클라이언트 디바이스(또는 수신기, 영상 수신 장치)는 통신부, 및/또는 제어부를 포함할 수 있다. 제어부는 기본 계층 디코더 및/또는 향상 계층 디코더를 포함할 수 있다. 또한, 제어부는 제1 프로세서 및/또는 제2 프로세서를 포함할 수 있다.
클라이언트 디바이스는, 통신부를 이용하여, 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신할 수 있다(3010).
예를 들어, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.
그리고 나서, 클라이언트 디바이스는, 기본 계층 디코더 및/또는 제1 프로세서를 이용하여, 상기 기본 계층 비디오 데이터를 디코딩할 수 있다(3020).
그리고 나서, 클라이언트 디바이스는, 향상 계층 디코더 및/또는 제2 프로세서를 이용하여, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다(3030).
예를 들어, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
클라이언트 디바이스의 동작에 관련된 내용은 전술한 클라이언트 디바이스의 내용을 모두 포함할 수 있다.
도 31은 서버 디바이스의 예시적인 동작을 나타낸 도면이다.
서버 디바이스는 제어부 및/또는 통신부를 포함할 수 있다. 제어부는 기본 계층 인코더 및/또는 향상 계층 인코더를 포함할 수 있다. 또한, 제어부는 제1 프로세서 및/또는 제2 프로세서를 포함할 수 있다.
서버 디바이스는, 기본 계층 인코더 및/또는 제1 프로세서를 이용하여, 기본 계층 비디오 데이터를 생성할 수 있다(3110).
그리고 나서, 서버 디바이스는, 향상 계층 인코더 및/또는 제2 프로세서를 이용하여, 상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성할 수 있다(3120).
그리고 나서, 서버 디바이스는, 통신부를 이용하여, 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송할 수 있다.
예를 들어, 상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함할 수 있다.
또한, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터일 수 있다.
서버 디바이스의 동작에 관련된 내용은 전술한 서버 디바이스의 내용을 모두 포함할 수 있다.
또한, 본 명세서에 개시된 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현할 수 있다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 다운로드 가능한 파일의 형태로 구현되는 것도 포함한다.
상기와 같이 설명된 전자 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
이상에서 본 명세서의 기술에 대한 바람직한 실시 예가 첨부된 도면들을 참조하여 설명되었다. 여기서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 본 기술의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.
본 기술의 범위는 본 명세서에 개시된 실시 예들로 한정되지 아니하고, 본 기술은 본 기술명의 사상 및 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다.
A2821 : 기본 계층 디코더 A2825 : 향상 계층 디코더
A2810 : 통신부
A2911 : 기본 계층 인코더 A2915 : 향상 계층 인코더
A2920 : 통신부

Claims (23)

  1. 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 단계,
    상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고;
    상기 기본 계층 비디오 데이터를 디코딩하는 단계;
    상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 단계,
    상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터이고;
    상기 가상 공간 내에서 사용자의 시선 정보가 변경되었는지 여부를 판단하는 단계; 및
    상기 시선 정보가 변경된 것으로 판단되는 경우, 상기 시선 정보에 대응되는 시선 영역이 상기 관심 영역에 포함되도록 상기 시선 정보를 포함하는 제1 시그널링 데이터를 전송하는 단계를 포함하는 영상 수신 방법.
  2. 제1 항에 있어서,
    상기 비트스트림은 상기 제1 시그널링 데이터에 기초하여 변경된 상기 적어도 하나의 관심 영역을 위한 향상 계층 비디오 데이터를 포함하는 영상 수신 방법.
  3. 제1 항에 있어서,
    상기 비트스트림은 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 포함하고,
    상기 적어도 하나의 향상 계층 비디오 데이터는 상기 기본 계층 비디오 데이터 및 상기 관심 영역 정보를 기초로 디코딩되는 영상 수신 방법.
  4. 제3 항에 있어서,
    상기 관심 영역 정보는 상기 관심 영역에 해당하는 적어도 하나의 타일의 번호를 포함하는 타일 번호 리스트 필드를 포함하는 영상 수신 방법.
  5. 제4 항에 있어서,
    상기 타일 번호 리스트 필드는 상기 관심 영역에 해당하는 모든 타일의 번호, 연속된 타일의 시작 번호 및 끝 번호, 및 상기 관심 영역의 좌상단 및 우하단 타일의 번호 중에서 하나의 방식으로 상기 적어도 하나의 타일의 번호를 포함하는 영상 수신 방법.
  6. 제3 항에 있어서,
    상기 관심 영역 정보는 Supplemental Enhancement Information (SEI) 메시지, Video Usability Information (VUI) 메시지, 슬라이스 헤더, 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 수신되는 영상 수신 방법.
  7. 제3 항에 있어서,
    상기 비트스트림은 제2 시그널링 데이터를 포함하고,
    상기 비트스트림을 수신하는 단계는,
    상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 수신하는 영상 수신 방법.
  8. 제7 항에 있어서,
    상기 제2 시그널링 데이터는 상기 비디오 데이터의 획득을 위한 정보를 포함하는 서비스 레이어 시그널링 데이터 및 상기 서비스 레이어 시그널링 데이터의 획득을 위한 정보를 포함하는 서비스 리스트 테이블을 포함하는 영상 수신 방법.
  9. 제8 항에 있어서,
    상기 서비스 레이어 시그널링 데이터는 상기 관심 영역 정보를 포함하는 영상 수신 방법.
  10. 기본 계층 비디오 데이터를 생성하는 단계;
    상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 단계;
    가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하는 단계;
    가상 공간 내에서 사용자의 시선 정보를 포함하는 제1 시그널링 데이터를 수신하는 단계; 및
    상기 시선 정보에 대응되는 시선 영역을 상기 적어도 하나의 관심 영역에 포함하는 단계를 포함하되,
    상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고,
    상기 적어도 하나의 향상 계층 비디오 데이터는 상기 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 전송 방법.
  11. 제10 항에 있어서,
    상기 시선 정보에 대응되는 시선 영역을 상기 적어도 하나의 관심 영역에 포함하는 단계는,
    상기 시선 정보에 대응되는 시선 영역을 상기 적어도 하나의 관심 영역에 추가하고,
    상기 적어도 하나의 관심 영역을 상기 추가된 시선 영역에 기초하여 변경하고,
    상기 변경된 적어도 하나의 관심 영역에 기초하여 상기 적어도 하나의 향상 계층 비디오 데이터를 인코딩하는 영상 전송 방법.
  12. 제10 항에 있어서,
    상기 비트스트림은 상기 가상 공간의 전체 영역 내에서 상기 적어도 하나의 관심 영역의 위치를 지시하는 관심 영역 정보를 포함하고,
    상기 적어도 하나의 향상 계층 비디오 데이터는 상기 기본 계층 비디오 데이터 및 상기 관심 영역 정보를 기초로 인코딩되는 영상 전송 방법.
  13. 제12 항에 있어서,
    상기 관심 영역 정보는 상기 관심 영역에 해당하는 적어도 하나의 타일의 번호를 포함하는 타일 번호 리스트 필드를 포함하는 영상 전송 방법.
  14. 제13 항에 있어서,
    상기 타일 번호 리스트 필드는 상기 관심 영역에 해당하는 모든 타일의 번호, 연속된 타일의 시작 번호 및 끝 번호, 및 상기 관심 영역의 좌상단 및 우하단 타일의 번호 중에서 하나의 방식으로 상기 적어도 하나의 타일의 번호를 포함하는 영상 전송 방법.
  15. 제12 항에 있어서,
    상기 관심 영역 정보는 Supplemental Enhancement Information (SEI) 메시지, Video Usability Information (VUI) 메시지, 슬라이스 헤더, 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송되는 영상 전송 방법.
  16. 제12 항에 있어서,
    제2 시그널링 데이터를 생성하는 단계를 더 포함하되,
    상기 비트스트림을 전송하는 단계는,
    상기 제2 시그널링 데이터를 기초로 상기 기본 계층 비디오 데이터 및 상기 적어도 하나의 향상 계층 비디오 데이터를 복수의 세션들을 통해서 독립적으로 전송하는 영상 전송 방법.
  17. 제16 항에 있어서,
    상기 제2 시그널링 데이터는 상기 비디오 데이터의 획득을 위한 정보를 포함하는 서비스 레이어 시그널링 데이터 및 상기 서비스 레이어 시그널링 데이터의 획득을 위한 정보를 포함하는 서비스 리스트 테이블을 포함하는 영상 전송 방법.
  18. 제17 항에 있어서,
    상기 서비스 레이어 시그널링 데이터는 상기 관심 영역 정보를 포함하는 영상 전송 방법.
  19. 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 통신부,
    상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고;
    상기 기본 계층 비디오 데이터를 디코딩하는 기본 계층 디코더;
    상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 향상 계층 디코더;
    가상 공간 내에서 사용자의 시선 정보가 변경되었는지 여부를 판단하는 시선 판단부; 및
    상기 시선 정보가 변경된 것으로 판단되는 경우, 상기 시선 정보에 대응되는 시선 영역이 상기 적어도 하나의 관심 영역에 포함되도록 상기 시선 정보를 포함하는 시그널링 데이터를 생성하는 시그널링 데이터 생성부를 포함하되,
    상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 수신 장치.
  20. 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 수신하는 통신부;
    상기 기본 계층 비디오 데이터를 디코딩하는 제1 프로세서;
    상기 제1 프로세서와 전기적으로 연결되어, 상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 제2 프로세서;
    가상 공간 내에서 사용자의 시선 정보가 변경되었는지 여부를 판단하는 시선 판단부; 및
    상기 시선 정보가 변경된 것으로 판단되는 경우, 상기 시선 정보에 대응되는 시선 영역이 적어도 하나의 관심 영역에 포함되도록 상기 시선 정보를 포함하는 시그널링 데이터를 생성하는 시그널링 데이터 생성부를 포함하되,
    상기 적어도 하나의 향상 계층 비디오 데이터는 상기 가상 공간 내에서 상기 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 수신 장치.
  21. 기본 계층 비디오 데이터를 생성하는 기본 계층 인코더;
    상기 기본 계층 비디오 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 생성하는 향상 계층 인코더;
    가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 전송하고, 가상 공간 내에서의 영상 구성 정보를 포함하는 시그널링 데이터를 수신하는 통신부;
    상기 영상 구성 정보에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 추출하는 시그널링 데이터 추출부; 및
    상기 시선 정보 및 상기 줌 영역 정보를 기초로 상기 가상 공간 내의 적어도 하나의 관심 영역을 결정하는 관심 영역 판단부를 포함하되,
    상기 비디오 데이터는 기본 계층을 위한 상기 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 상기 적어도 하나의 향상 계층 비디오 데이터를 포함하고,
    상기 적어도 하나의 향상 계층 비디오 데이터는 상기 적어도 하나의 관심 영역을 위한 비디오 데이터인 영상 전송 장치.
  22. 가상 현실 서비스를 위한 기본 계층 비디오 데이터 및 가상 공간 내의 관심 영역에 대응되는 향상 계층 비디오 데이터를 포함하는 비트스트림을 수신하는 단계;
    상기 가상 공간 내에서 사용자의 시선 방향에 대응되는 시선 영역이 상기 관심 영역 외의 적어도 일부를 포함하는 경우, 상기 시선 방향을 지시하는 시선 정보를 포함하는 시그널링 데이터를 전송하는 단계; 및
    상기 시선 정보에 기초하여 변경된 상기 관심 영역에 대응되는 향상 계층 비디오 데이터를 포함하는 비트스트림을 수신하는 단계를 포함하는 영상 수신 방법.
  23. 가상 현실 서비스를 위한 비디오 데이터를 포함하는 비트스트림을 수신하는 단계, 상기 비디오 데이터는 기본 계층을 위한 기본 계층 비디오 데이터 및 상기 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터를 포함하고;
    상기 기본 계층 비디오 데이터를 디코딩하는 단계;
    상기 기본 계층 비디오 데이터를 기초로 상기 적어도 하나의 향상 계층 비디오 데이터를 디코딩하는 단계, 상기 적어도 하나의 향상 계층 비디오 데이터는 가상 공간 내에서 적어도 하나의 관심 영역을 위한 비디오 데이터이고;
    상기 가상 공간 내에서 사용자의 시선 방향에 대응되는 시선 영역이 상기 적어도 하나의 관심 영역에 포함되는지 여부를 판단하는 단계; 및
    상기 시선 영역이 상기 적어도 하나의 관심 영역에 포함되지 않는 것으로 판단되는 경우, 상기 시선 영역이 상기 관심 영역에 포함되도록 상기 시선 방향을 지시하는 시선 정보를 포함하는 시그널링 데이터를 전송하는 단계를 포함하는 영상 수신 방법.
KR1020160125145A 2016-09-28 2016-09-28 관심 영역을 고려한 가상 현실 서비스 제공 KR101861929B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160125145A KR101861929B1 (ko) 2016-09-28 2016-09-28 관심 영역을 고려한 가상 현실 서비스 제공
PCT/KR2017/001087 WO2018062641A1 (ko) 2016-09-28 2017-02-01 관심 영역을 고려한 가상 현실 서비스 제공

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160125145A KR101861929B1 (ko) 2016-09-28 2016-09-28 관심 영역을 고려한 가상 현실 서비스 제공

Publications (2)

Publication Number Publication Date
KR20180035089A KR20180035089A (ko) 2018-04-05
KR101861929B1 true KR101861929B1 (ko) 2018-05-28

Family

ID=61760922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160125145A KR101861929B1 (ko) 2016-09-28 2016-09-28 관심 영역을 고려한 가상 현실 서비스 제공

Country Status (2)

Country Link
KR (1) KR101861929B1 (ko)
WO (1) WO2018062641A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200144702A (ko) * 2019-06-19 2020-12-30 주식회사 엘지유플러스 증강 현실 미디어 콘텐츠의 적응적 스트리밍 시스템 및 적응적 스트리밍 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019199025A1 (ko) 2018-04-09 2019-10-17 에스케이텔레콤 주식회사 영상을 부호화/복호화하는 방법 및 그 장치
US11509937B2 (en) 2018-04-09 2022-11-22 Sk Telecom Co., Ltd. Method and apparatus for encoding/decoding video
KR102183895B1 (ko) * 2018-12-19 2020-11-27 가천대학교 산학협력단 가상 현실 비디오 스트리밍에서의 관심영역 타일 인덱싱
KR102278748B1 (ko) * 2019-03-19 2021-07-19 한국전자기술연구원 360 vr 인터랙티브 중계를 위한 사용자 인터페이스 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5037574B2 (ja) * 2009-07-28 2012-09-26 株式会社ソニー・コンピュータエンタテインメント 画像ファイル生成装置、画像処理装置、画像ファイル生成方法、および画像処理方法
CN105075271A (zh) * 2013-04-08 2015-11-18 索尼公司 利用shvc的关注区域可伸缩性
KR101540113B1 (ko) * 2014-06-18 2015-07-30 재단법인 실감교류인체감응솔루션연구단 실감 영상을 위한 영상 데이터를 생성하는 방법, 장치 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200144702A (ko) * 2019-06-19 2020-12-30 주식회사 엘지유플러스 증강 현실 미디어 콘텐츠의 적응적 스트리밍 시스템 및 적응적 스트리밍 방법
KR102261739B1 (ko) * 2019-06-19 2021-06-08 주식회사 엘지유플러스 증강 현실 미디어 콘텐츠의 적응적 스트리밍 시스템 및 적응적 스트리밍 방법

Also Published As

Publication number Publication date
KR20180035089A (ko) 2018-04-05
WO2018062641A1 (ko) 2018-04-05

Similar Documents

Publication Publication Date Title
US11184584B2 (en) Method for image decoding, method for image encoding, apparatus for image decoding, apparatus for image encoding
CN110036641B (zh) 一种处理视频数据的方法、设备及计算机可读存储介质
KR102342274B1 (ko) 이미지에서 가장 관심있는 영역의 진보된 시그널링
CN109076239B (zh) 虚拟实境中的圆形鱼眼视频
US11303826B2 (en) Method and device for transmitting/receiving metadata of image in wireless communication system
KR102252238B1 (ko) 이미지에서의 가장 관심있는 영역
US20190104326A1 (en) Content source description for immersive media data
KR101861929B1 (ko) 관심 영역을 고려한 가상 현실 서비스 제공
CN109218734A (zh) 用于视频编码和解码的方法、装置和计算机程序产品
KR20190091275A (ko) 관심 영역들의 시그널링의 시스템들 및 방법들
US10567734B2 (en) Processing omnidirectional media with dynamic region-wise packing
KR102361314B1 (ko) 360도 가상현실 방송 서비스 제공 방법 및 장치
JP7035088B2 (ja) 魚眼ビデオデータのための高レベルシグナリング
KR20200024829A (ko) Dash 에서 피쉬아이 가상 현실 비디오에 대한 강화된 하이레벨 시그널링
US20220369000A1 (en) Split rendering of extended reality data over 5g networks
KR101898822B1 (ko) 뷰포트 정보 시그널링을 이용한 가상 현실 비디오 스트리밍
KR101941789B1 (ko) 뷰포트와 타일 크기에 기초한 가상 현실 비디오 전송
WO2020068935A1 (en) Virtual reality viewpoint viewport center point correspondence signaling
WO2020068284A1 (en) Virtual reality (vr) viewpoint grouping
JP2024519747A (ja) 5gネットワーク上でのエクステンデッドリアリティデータのスプリットレンダリング
KR102183895B1 (ko) 가상 현실 비디오 스트리밍에서의 관심영역 타일 인덱싱
Fautier VR video ecosystem for live distribution
CN117256154A (zh) 通过5g网络对扩展现实数据的拆分渲染

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant