KR20220073851A - 몰입형 뷰포트 종속 다자간 비디오 통신 - Google Patents

몰입형 뷰포트 종속 다자간 비디오 통신 Download PDF

Info

Publication number
KR20220073851A
KR20220073851A KR1020227016346A KR20227016346A KR20220073851A KR 20220073851 A KR20220073851 A KR 20220073851A KR 1020227016346 A KR1020227016346 A KR 1020227016346A KR 20227016346 A KR20227016346 A KR 20227016346A KR 20220073851 A KR20220073851 A KR 20220073851A
Authority
KR
South Korea
Prior art keywords
viewport
tiles
receiver
video
rtp
Prior art date
Application number
KR1020227016346A
Other languages
English (en)
Inventor
세르한 궐
야고 산체스 드 라 푸엔테
코넬리우스 헬지
토마스 쉬를
로버트 스쿠핀
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20220073851A publication Critical patent/KR20220073851A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1069Session establishment or de-establishment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/23805Controlling the feeding rate to the network, e.g. by controlling the video pump
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25825Management of client data involving client display capabilities, e.g. screen resolution of a mobile phone

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

몰입형 미디어 콘텐츠를 복수의 수신기에 제공하기 위한 장치가 설명된다. 상기 장치는 몰입형 미디어 콘텐츠의 표현을 위해 복수의 타일을 획득하고, - 상기 복수의 타일은 상기 표현의 일부 또는 전부를 덮음 - , 상기 복수의 수신기 중 일부 또는 전부에 대해, 상기 타일 중 하나 이상을 각 수신기에 전송하고, 상기 하나 이상의 타일은 각각의 수신기와 관련된 적어도 뷰포트를 덮는다.

Description

몰입형 뷰포트 종속 다자간 비디오 통신
본 발명은 몰입형 미디어 분야에 관한 것이다. 실시 예는 예를 들어 화상 회의 애플리케이션 또는 온라인 게임 애플리케이션과 같은 가상 현실(VR) 애플리케이션에서 다수의 참가자 간의 몰입형 미디어 통신 또는 몰입형 미디어 콘텐츠 프레젠테이션의 개선에 관한 것이다. 실시 예는 텔레프레즌스/텔레컨퍼런싱 애플리케이션과 같은 360° 비디오 통신 애플리케이션에 관한 것이다.
몰입형 미디어는 지난 몇 년 동안 많은 관심을 받았다. 몰입형 미디어 콘텐츠의 프리젠테이션이나 표현을 위한 핵심 기술은 다음과 같이 분류할 수 있다:
(i) 3DoF, 즉 3 자유도 콘텐츠, 예를 들어, 360° 비디오,
(ii) 6DoF, 즉 6 자유도 콘텐츠, 예를 들어, 실제 개체와 같은 캡처된 볼류메트릭 개체 또는 실제 개체의 볼류메트릭 비디오,
(iii) 컴퓨터 생성 이미지(CGI)와 같은 컴퓨터 그래픽을 사용하여 생성되고 예를 들어 3D 메쉬 및 2D 텍스처로 구성된 3D 개체.
이러한 기술의 조합도 가능하다. 예를 들어, 배경에서 재생되는 360° 비디오에 오버레이된 여러 볼류메트릭 개체가 사용자에게 표시될 수 있다. 제시된 볼류메트릭 개체는 동적 시퀀스 또는 컴퓨터 생성된 3D 개체일 수 있다.
360° 비디오는 지난 몇 년 동안 많은 주목을 받았고 360° 애플리케이션을 위한 일부 제품이 시장에 출시되었다. 표준화 활동은 360° 비디오 데이터의 스트리밍 및 인코딩을 지정한다. 이 분야의 작업은 주로 하이퍼텍스트 전송 프로토콜(HTTP) 또는 브로드캐스트/광대역 전송을 사용하는 360° 비디오 스트리밍에 중점을 둔다.
다양한 몰입형 애플리케이션에서 최근 관심의 중심이 되는 구현 기술은 볼류메트릭 비디오이다. 볼류메트릭 비디오는 3차원 공간을 사실적으로 포착하여 360° 비디오에 비해 더 나은 몰입감을 제공할 수 있다. 볼류메트릭 비디오는 6자유도(6DoF) 콘텐츠의 표현에도 적합하므로 시청자가 콘텐츠 내부를 자유롭게 이동하고 다양한 시점과 거리에서 볼류메트릭 개체를 관찰할 수 있다.
최근에는 볼류메트릭 콘텐츠의 캡처, 처리, 압축 및 스트리밍을 위한 다양한 기술이 등장하고 있다. 압축 영역에서 눈에 띄는 예로 비디오 기반 포인트 클라우드 압축(V-PCC) 표준이 있다. V-PCC는 포인트 클라우드를 텍스처, 지오메트리, 점유 맵 및 추가 메타데이터와 같은 다양한 비디오 비트스트림으로 인코딩한다. 포인트 클라우드 압축에 기존 비디오 압축 알고리즘을 적용하면 압축 효율성이 매우 높아지고 특히 모바일 장치에서 사용 가능한 하드웨어 비디오 디코더를 재사용할 수 있다.
360° 비디오와 달리, 볼류메트릭 비디오는 일반적으로 3D 형식, 포인트 클라우드, 메쉬 등으로 표시되며, 이는 효율적인 전달을 위해 다른 처리 및 전송 기술이 필요할 수 있다. 캡처되거나 컴퓨터에서 생성된 여러 볼류메트릭 개체가 장면에 존재할 때, 해당 노드가 그 장면에 존재하는 개체를 나타내는 장면 그래프를 사용하여 개체의 위치 및 서로 간의 관계를 설명할 수 있다. 장면 디스크립션 언어, 예를 들어, X3D는 개체를 설명하는 장면 그래프를 구성하는 데 사용할 수 있다. 여러 3D 개체를 제공하면 대역폭 요구 사항이 증가하고 볼류메트릭 개체 재생의 긴밀한 동기화가 필요할 수 있다.
비디오 통신은 일반적으로 RTP/RTCP(실시간/실시간 제어 프로토콜)를 통해 실행된다. RTP에서 액세스 단위(AU)는 헤더와 비디오 콘텐츠를 포함하는 RTP 패킷으로 분할된다. 비디오의 실제 전송 이전에, 협상 단계는 일반적으로 두 종단점인 서버와 수신기가 기능을 교환하고 비디오의 특성과 비디오 통신에 사용할 모드에 동의하는 동안 발생한다. 전송된 비트스트림의 특성과 사용 중인 전송 모드를 설명하기 위해, 세션 디스크립션 프로토콜(SDP)를 사용할 수 있다. SDP는 예를 들어, 소위 제안/응답 모델에서, 기능 협상을 위해 사용될 수 있다. 예를 들어 고효율 비디오 코딩(HEVC) 비트스트림을 고려할 때, 서버는 각각의 매개변수 세트, 예를 들어 sprop-parameter-sets를 전송할 수 있으며, 여기서 전송은 대역 외에 있을 수 있는데, 즉, 비디오 데이터의 실제 전송 내에 있지 않을 수 있다. 클라이언트는 매개변수를 있는 그대로 받아들일 수 있다.
RTP 제어 프로토콜, RTCP를 사용하면 세션의 모든 참가자에게 제어 패킷을 주기적으로 전송할 수 있다. RTCP는 주로 미디어 전송 품질에 대한 피드백을 제공하는 데 사용된다. RTCP 제어 패킷은 엔드포인트 간에 주기적으로 교환된다. 포인트 대 포인트 시나리오에서, RTP 송신기와 RTP 수신기는 상호 송신기 보고(SR)와 수신기 보고(RR)를 서로에게 보낼 수 있다. RTCP 수신기 보고는 수신 품질을 나타내며, 예를 들어 다음과 같은 QoS, 서비스 품질 메트릭중 하나 이상을 포함한다: 손실된 패킷의 누적 수, 손실 비율, 도착 간 지터, 수신된 마지막 송신기 보고의 타임스탬프(LSR) 또는 마지막 송신기 보고가 수신된 이후의 지연(DLSR)과 같은 타이밍 정보. 일반적으로 RTCP 패킷은 개별적으로 전송되지 않고 전송을 위해 복합 패킷으로 포장되어 비교적 큰 시간 간격으로 전송되므로 RTCP 패킷으로 인한 오버헤드가 급격히 증가하지 않도록 예를 들어 명시적 구성이 이 숫자를 변경할 수 있지만 트래픽의 약 5%로 유지된다. 또한 일반적으로 두 RTCP 보고 사이에는, 최소 간격(예: 약 5초)이 있다. 그러나 일부 애플리케이션은 그러한 수치가 해로운 빠른 보고를 필요로 한다. 예를 들어 적시에 피드백을 얻기 위해서, RFC 4585에서 RTCP 기반 피드백, RTP/AVPF에 대해 확장된 RTP 프로파일은 초기 RTCP 메시지의 개념과 저 지연 피드백을 허용하는 알고리즘을 도입한다. 이것은 지연 임계 방식으로 인코딩 기술 및 결정을 조정하거나 이에 영향을 미치는 애플리케이션 특정 메시지를 정의하는 데 사용될 수 있다.
RTP를 사용하면 단일 RTP 세션(MRST)에서 여러 미디어 스트림을 전달하거나 여러 RTP 세션(MRMT)에서 여러 미디어 스트림을 전달할 수 있다. RTP 엔드포인트는 혼잡 제어, 예를 들어, RFC 8108에 의해 결정되는 바와 같이, 다른 스트림에 대한 대역폭 할당을 변경할 수 있으며 총 전송 속도가 할당된 몫을 초과하지 않는 경우 다른 동기화 소스, SSRC에 할당된 대역폭을 동적으로 변경할 수 있다. RTP는 RTP 세션 내에서 여러 미디어 스트림을 동기화할 수 있다.
비디오에 대해 여러 RTP 미디어 스트림을 보내는 것은 계층화된 코덱을 사용할 때 특히 유용할 수 있다. 몇몇 경우, 미디어 제어 장치(MCU)는 콘텐츠를 트랜스코딩할 필요 없이 다양한 네트워크 조건에 적응하기 위해 어느 RTP 스트림을 전달할지 쉽게 선택할 수 있다.
RFC 7798은 4가지 다른 유형의 RTP 패킷 페이로드 구조를 지정한다. 페이로드 구조는 페이로드 헤더의 유형 필드를 검사하여 수신기에서 식별되며, 네 가지 유형이 도 1에 도시되며 그 중 도 1(a)는 단일 NAL 네트워크 추상화 계층 패킷을 도시하고, 도 1(b)는 집합 패킷의 구조를 도시하고, 도 1(c)는 단편화 유닛 FU을 도시하고, 도 1(d)는 페이로드 콘텐츠 정보 PACI의 구조를 도시한다. 도 1(a)에 도시된 단일 NAL 유닛 패킷은 페이로드에 단일 NAL 유닛을 포함하고, 페이로드 헤더는 NAL 유닛 헤더의 사본일 수 있다. 도 1(b)에 도시된 집합 패킷 AP는 작은 NAL 단위에 대한 패킷화 오버헤드의 감소를 가능하게 하도록 여러 NAL 단위를 집합한다. 도 1(c)에 도시된 단편화 유닛은 단일 NAL 유닛을 다중 RTP 패킷으로 단편화하는 것을 가능하게 한다. 도 1(d)에 도시된 RTP 패킷을 나르는 PACI는 기본 페이로드 헤더를 수정한다. 기본 페이로드 헤더는 일반적으로 패킷화 오버헤드를 줄이기 위해 NAL 유닛 헤더의 16비트로 제한된다. 그러나 PACI 패킷을 사용하면 페이로드 헤더 확장 구조 PHES를 통해 페이로드 헤더를 확장하여 패킷 헤더에 쉽게 액세스할 수 있는 제어 정보를 포함할 수 있다. 페이로드 헤더 확장의 예로는 섹션 4.5, RFC 7798에서 설명되는 임시 확장성 제어 정보가 있다.
위 섹션의 정보는 본 발명의 배경에 대한 이해를 높이기 위한 것일 뿐이므로 해당 기술 분야의 통상의 지식을 가진 자에게 이미 알려진 선행 기술을 형성하지 않는 정보를 포함할 수 있다.
상술한 바와 같은 선행기술로부터 출발하여, 다자간 화상 통신, 예를 들어, 여러 참가자를 포함하는 360° 화상 통신을 고려할 때, 몰입형 미디어 커뮤니케이션 또는 몰입형 미디어 콘텐츠 프레젠테이션의 개선 또는 향상이 필요하다.
본 발명의 실시 예는 첨부된 도면을 참조하여 더 상세히 설명된다:
도 1은 상이한 페이로드 구조를 도시하고, 여기서 도 1(a)는 단일 NAL, 네트워크 추상화 계층, 패킷을 도시하고, 도 1(b)는 집합 패킷의 구조를 도시하고, 도 1(c)는 단편화 유닛 FU의 구조를 도시하고, 도 1(d)는 페이로드 콘텐츠 정보 PACI의 구조를 도시한다;
도 2는 송신기와 복수의 수신기 사이의 다자간 몰입형 미디어 콘텐츠 통신 또는 360° 다자간 비디오 통신을 위한 시스템의 개략도이다;
도 3은 본 발명의 실시 예가 적용될 수 있고 바람직하게 사용될 수 있는, 도 2와 유사한 환경의 예이다;
도 4는 회의실과 원격 UE 사이의 직접 통신을 사용하는 360° 화상 회의 시나리오를 위한 타일형 다자간 RTP 전달의 실시 예를 도시한다;
도 5는 네트워크 레이턴시에 따라 상이한 전송 모드를 개략적으로 도시하고, 여기서, 도 5(a)는 저 레이턴시를 위한 전송 모드를, 도 5(b)는 중간 레이턴시를 위한 전송 모드를, 도 5(c)는 고 레이턴시를 위한 전송 모드를 도시한다;
도 6은 회의 서버를 통한 360° 회의를 위한 타일형 다자간 RTP 전달의 실시 예를 도시한다; 및
도 7은 본 발명의 접근법에 따라 설명된 방법의 단계뿐만 아니라 유닛 또는 모듈이 실행될 수 있는 컴퓨터 시스템의 예를 도시한다.
이제 본 발명의 실시 예가 첨부된 도면을 참조하여 더 상세하게 설명되며, 동일하거나 유사한 요소에는 동일한 참조 부호가 할당되어 있다.
스트리밍 애플리케이션에서 전체 360° 비디오를 위한 360° 비디오 데이터는 예를 들어 방송/광대역 전송을 통해 무선으로 또는 HTTP를 사용하여 인터넷과 같은 네트워크를 통해 클라이언트에게 서버에 의해 제공되고, 클라이언트는 디스플레이를 위해 수신된 비디오 데이터를 렌더링한다. 따라서 전체 비디오 콘텐츠가 수신기에게 제공된다. 비디오 통신 애플리케이션, 예를 들어 화상 회의 또는 온라인 게임 애플리케이션과 같은 가상 현실(VR) 애플리케이션에서, 일반적으로 예를 들어, 사용자의 시선 방향에 따라, 360° 비디오 장면의 일부만 수신기에서 사용자에게 표시된다. 클라이언트는 시선 방향을 기반으로, 전체 비디오 데이터를 처리하여 사용자의 시선 방향에 해당하는 360° 비디오 장면의 일부를 사용자에게 표시한다. 그러나 360° 비디오에 대한 전체 비디오 데이터를 수신기에 제공하려면 발신기와 수신기 간의 링크에 대한 높은 전송 기능이 필요한다. 또한, 수신기는 사용자에게 장면의 원하는 부분을 제시하기 위해 전체 비디오 데이터를 처리할 수 있는 충분한 처리 능력을 가져야 한다. 360° 비디오 통신 애플리케이션은 실시간 애플리케이션일 수 있기 때문에, 전체 데이터의 전송 및/또는 처리와 관련된 긴 지속 시간 또는 시간이 불리할 수 있다.
위에서 설명한 단점은 예를 들어 다자간 360° 회의 시나리오에서와 같이, 여러 참가자 또는 사용자가 관련되는 시나리오에서 훨씬 더 두드러진다. 다자간 360° 회의 시나리오에서는 물리적으로 존재하는 참가자 그룹이 회의실의 테이블 주위에 앉아 있을 수 있다. 회의실에는 360° 카메라와 TV 화면과 같은 시청 화면이 제공된다. 원격 참가자, 즉 회의실에 물리적으로 존재하지 않고 화상 통화를 통해 회의에 참가하려고 하는 참가자가 있을 수 있다. 화상 통화에 참여하는 원격 참가자는 원격 UE라고도 하는 각자의 UE로 360° 비디오를 볼 수 있다. 원격 UE는 서로 다른 유형이 가능하며, 예를 들어 원격 UE는 헤드 장착 디스플레이(HMD), 이동 전화, 태블릿 등일 수 있다.
이러한 시나리오에서, 360도 비디오는 인카메라 스티칭과 네트워크 기반 스티칭 모두를 사용하여 생성될 수 있다. 인카메라 스티칭의 경우, 회의실의 360° 카메라는 투영된 360° 비디오를 생성하고 RTP 패키징과 같은 추가 처리를 위해 회의 서버로 비디오를 보내거나, 그 일부를 각각의 뷰포트 종속 RTP 스트림에서 하나 이상의 원격 UE로 직접 보내고, 즉, 각 UE는 뷰포트 종속 RTP 스트림을 수신한다. 네트워크 기반 스티칭의 경우, 회의실은 360도 카메라의 2D 보기를 회의 서버와 같은 서버로 보낼 수 있다. 그런 다음 원격 UE에 배포된다. 서버 구현 시나리오는 회의실에 360° 비디오를 생성하기에 충분한 처리 능력이 없는 상황에서 사용될 수 있으므로 상기 처리가 스티칭된 비디오를 생성하는 네트워크 엔티티로 오프로드된다. 이러한 회의 시나리오에서 위에서 설명한 360° 비디오 스트리밍 메커니즘을 사용하게 되면 실시간 구현에 대한 요구 사항을 충족하지 못할 수 있으므로, 위에서 설명한 메커니즘은 360° 비디오 스트리밍 메커니즘과 비교할 때 상기 상이한 측면과 요구 사항으로 인해, 텔레프레즌스 또는 텔레컨퍼런싱 애플리케이션과 같은 시나리오에는 적합하지 않을 수 있다.
본 발명의 실시 예는 다자간 비디오 통신을 위한 몰입형 미디어 통신 또는 몰입형 미디어 콘텐츠 프리젠테이션을 개선하기 위한 다양한 측면을 제공한다. 도 2는 서버라고도 하는 송신기(200)와 클라이언트, 참가자 또는 원격 UE라고 하는 복수의 수신기(2021 내지 202n) 사이의 다자간 몰입형 미디어 콘텐츠 통신 또는 360° 다자간 비디오 통신을 위한 시스템의 개략도이다. 서버(200)와 클라이언트(2021 내지 202n)는 유선 통신 링크를 통해 또는 비디오 또는 사진 및/또는 오디오 정보를 포함하는 미디어 스트림(2041 내지 204n)을 전송하기 위한 무선 통신 링크를 통해 통신할 수 있다. 보다 구체적으로, 미디어 스트림은 예를 들어 각각의 RTP 패킷에서 서버(200)에 의해 제공되는 360° 비디오 데이터를 포함한다. 또한, 각각의 RTCP 패킷은 전술한 바와 같이 미디어 스트림에 포함된다. 서버(200)는 신호 처리기(206)를 포함하고, 클라이언트(2021 내지 202n)는 각각의 신호 처리기(2081 내지 208n)를 포함한다. 본 발명의 실시 예에 따르면, 다자간 비디오 통신 시스템의 참가자에게 필요한 콘텐츠를 제공하기 위한 개선된 접근 방식이 설명되며, 이는 뷰포트 종속 타일 전송 기술을 사용하여 선행 기술 접근 방식에서 발견되는 문제를 해결한다. 뷰포트 종속 타일 전송에 따라서, 콘텐츠의 픽처 또는 표현, 예를 들어 화상 회의 시스템의 360° 카메라에 의해 생성된 픽처는 복수의 타일로 인코딩되고 수신기의 뷰포트와 관련된 타일은 시스템에서 수신기로 전송된다. 도 2에 도시된 서버(200) 뿐만 아니라 클라이언트(2021 내지 2022)는 이하에서 더 상세히 설명되는 본 발명의 접근 방식에 따라 동작할 수 있다.
몰입형 미디어 프레젠테이션을 위한 송신기/서버
본 발명은 (예를 들어 청구항 1 참조) 몰입형 미디어 콘텐츠를 복수의 수신기에 제공하는 장치를 제공하고, 여기에서 상기 장치는:
상기 몰입형 미디어 콘텐츠의 표현을 위해 복수의 타일을 획득하고 - 상기 복수의 타일은 상기 표현의 일부 또는 전체를 덮음 -,
상기 복수의 수신기 중 일부 또는 전부에 대해, 상기 타일 중 하나 이상을 각각의 수신기에 전송하고, 상기 하나 이상의 타일은 상기 각각의 수신기와 관련된 적어도 뷰포트를 덮는다.
일 실시 예에 따르면 (예를 들어, 청구항 2 참조), 상기 장치는 상기 몰입형 미디어 콘텐츠의 소스, 예를 들어, 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라 - 상기 소스는 상기 몰입형 미디어 콘텐츠의 상기 표현을 제공함 - 를 포함하고, 상기 장치는, 상기 복수의 타일을 획득하기 위해, 상기 표현을 상기 소스로부터의 상기 복수의 타일로 인코딩하고, 상기 장치는 상기 수신기로, RTP 세션과 같은 세션을 설정하고, RTP 스트림과 같은 하나 이상의 비디오 스트림을 사용하여 상기 타일 중 하나 이상을 각각의 수신기에 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 3 참조), 상기 장치, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 서버는 상기 몰입형 미디어 콘텐츠의 외부 소스, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라에 연결되며, 상기 소스는 상기 몰입형 미디어 콘텐츠의 상기 표현을 제공하고, 상기 장치는 상기 외부 소스로부터 상기 몰입형 미디어 콘텐츠의 상기 표현을 수신하고, 상기 장치는 상기 복수의 타일을 획득하기 위해, 상기 표현을 상기 소스로부터 상기 복수의 타일로 인코딩하고, 상기 장치는 상기 수신기로 RTP 세션과 같이 세션을 설정하고, RTP 스트림과 같은 하나 이상의 비디오 스트림을 사용하여 상기 타일 중 하나 이상을 각각의 수신기에 전송하도록 구성된다.
일 실시 예에 따르면 (예를 들어, 청구항 4 참조), 상기 장치, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 서버는 상기 몰입형 미디어 콘텐츠의 외부 소스, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라에 연결 가능하며, 상기 소스는 상기 몰입형 미디어 콘텐츠의 상기 표현을 타일 형식으로 제공하고, 상기 장치는 상기 복수의 타일을 획득하기 위해, 상기 외부 소스로부터 상기 몰입형 미디어 콘텐츠의 상기 타일된 표현을 수신하고, 상기 장치는 상기 수신기로 RTP 세션과 같은 세션을 설정하고, RTP 스트림과 같은 하나 이상의 비디오 스트림을 사용하여 상기 타일 중 하나 이상을 각각의 수신기에 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 5 참조), 상기 장치는,
상기 수신기 각각으로부터 뷰포트 정보를 수신하고,
상기 뷰포트 정보에 응답하여, 상기 수신기 각각에 복수의 비디오 또는 RTP 스트림을 전송하고, - 각 비디오 스트림은 상기 각각의 수신기의 상기 뷰포트를 덮는 하나 이상의 타일을 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 6 참조), 상기 장치는 상기 복수의 타일을 획득하기 위해, 상기 표현을 상기 복수의 타일로 인코딩하고, 각 타일을 하나의 비디오 스트림, 예를 들어 RTP 스트림으로 패킷화하고,
상기 장치는 상기 수신기의 적어도 상기 뷰포트를 덮는 상이한 타일 세트를 수신기에 송신한다.
일 실시 예에 따르면 (예를 들어, 청구항 7 참조), 상기 장치에 의해 전송된 상기 비디오 또는 RTP 스트림의 수는 타일의 수와 동일하다.
일 실시 예에 따르면 (예를 들어, 청구항 8 참조), 상기 장치는 복수의 타일을 하나의 RTP 스트림으로 클러스터링 및 패킷화한다.
일 실시 예에 따르면 (예를 들어, 청구항 9 참조), 상기 수신기의 일부 또는 모두와 연결된 상기 뷰포트는 공통 뷰포트이다.
일 실시 예에 따르면 (예를 들어, 청구항 10 참조), 상기 각각의 수신기의 상기 공통 뷰포트는 하나 이상의 특정 수신기의 뷰포트이거나 상기 장치에 의해 설정된 미리 정의된 뷰포트이다.
일 실시 예에 따르면 (예를 들어, 청구항 11 참조), 상기 장치는,
세션, 예를 들어, RTP 세션 동안 상기 복수의 수신기에 상기 몰입형 미디어 콘텐츠를 제공하고,
상기 전체 세션 동안 또는 상기 세션 중 하나 이상의 특정 기간 동안 적어도 상기 공통 뷰포트를 덮는 상기 타일을 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 22 참조), 상기 장치는,
상기 수신기 중 하나로부터, 예를 들어 SDP 협상 동안에 상기 하나의 수신기가 리더 수신기라는 시그널링을 수신하고,
상기 시그널링에 응답하여, 다른 수신기의 일부 또는 전부에 뷰포트가 있는 RTCP 피드백 메시지와 같은 뷰포트 정보를 보내지 않도록 지시하고,
상기 리더 수신기로부터의 뷰포트 정보에 응답하여, 상기 나머지 수신기 중 일부 또는 전부에 복수의 비디오 또는 RTP 스트림을 전송하고, 각 비디오 스트림은 상기 리더 수신기의 적어도 뷰포트를 덮는 하나 이상의 타일을 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 13 참조), 상기 장치는,
상기 수신기의 제1 그룹에 복수의 비디오 또는 RTP 스트림을 전송하고 - 각각의 비디오 스트림은 상기 각각의 수신기의 적어도 제1 공통 뷰포트를 덮는 하나 이상의 타일을 포함함 - ,
복수의 비디오 또는 RTP 스트림을 상기 수신기의 제2 그룹에 전송하고, 각각의 비디오 스트림은 상기 각각의 수신기의 적어도 제2 공통 뷰포트를 덮는 하나 이상의 타일을 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 14 참조), 상기 각각의 수신기의 상기 제 1 공통 뷰포트는 상기 복수의 수신기 중 제1 수신기의 뷰포트 또는 상기 장치에 의해 설정된 미리 정의된 제1 뷰포트이고,
상기 각각의 수신기의 상기 제2 공통 뷰포트는 상기 복수의 수신기 중 제2 수신기의 뷰포트 또는 상기 장치에 의해 설정된 미리 정의된 제2 뷰포트이다.
일 실시 예에 따르면 (예를 들어, 청구항 15 참조), 상기 장치는,
상기 수신기로부터 상기 수신기 중 제 1 또는 제 2 수신기를 표시하는 시그널링을 수신하고,
상기 시그널링에 응답하여, 상기 표시된 수신기의 적어도 상기 뷰포트를 덮는 하나 이상의 타일을 상기 수신기에 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 16 참조), 상기 장치는 동일한 인코딩 또는 상이한 인코딩을 사용하여 상기 각각의 수신기에 적어도 상기 공통 뷰포트를 덮는 상기 하나 이상의 타일을 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 17 참조), 상기 장치는,
상기 수신기와 상기 장치 사이의 다른 네트워크 조건,
수신기의 최소 허용 품질 요구 사항,
수신기의 디코딩 기능
중 하나 이상에 따라 상기 타일에 대해 상이한 인코딩을 사용한다.
일 실시 예에 따르면 (예를 들어, 청구항 18 참조), 상기 수신기로부터의 상기 뷰포트 정보에 응답하여, 상기 장치는 상기 수신기의 뷰포트 외부의 영역에 대응하는 타일에 대한 품질 또는 해상도보다 높은 품질 또는 해상도로 상기 수신기의 뷰포트 내의 영역에 대응하는 상기 타일을 인코딩한다.
일 실시 예에 따르면 (예를 들어, 청구항 19 참조), 상기 장치와 수신기 사이의 링크에서 레이턴시에 따라, 상기 장치는,
상기 수신기의 뷰포트 내에서만 타일을 전송하거나,
상기 수신기의 뷰포트 내부에 타일을 전송하고 상기 수신기의 뷰포트 외부에 다수의 타일을 전송하고, 상기 수는 상기 링크에서 레이턴시가 증가함에 따라 증가한다.
일 실시 예에 따르면 (예를 들어, 청구항 20 참조), 상기 장치는,
상기 레이턴시가 제 1 임계값 이하인 경우 상기 수신기의 뷰포트 내에서만 타일을 전송하거나,
상기 레이턴시가 상기 제 1 임계값 이상이고 제 2 임계값 이하인 경우, 전체 표현이 아닌, 상기 수신기의 뷰포트보다 넓은 영역에 대해 타일을 전송하거나,
상기 레이턴시가 상기 제 2 임계값을 초과하는 경우, 상기 전체 표현에 대해 타일을 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 21 참조), 상기 장치는 상기 수신기의 뷰포트 외부의 상기 타일을 상기 수신기의 뷰포트 내부의 상기 타일과 동일한 해상도 또는 품질 또는 낮은 해상도 또는 품질로 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 22 참조), 상기 장치는 상기 수신기의 뷰포트 외부로 상기 타일을 상기 타일과 상기 수신기의 뷰포트까지의 거리에 따라 해상도 또는 품질이 감소하면서 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 23참조), 상기 장치는,
상기 수신기 각각으로부터 뷰포트 정보를 수신하고,
주어진 수신기에 대해, 상기 뷰포트 정보에 응답하여, 타일의 서브세트, 예를 들어 상기 주어진 수신기 UE의 뷰포트 품질을 최대화하는 서브세트를 선택하여, 타일 스티칭을 수행하고,
단일 RTP 스트림으로 뷰포트에 최적화된 스트림을 상기 수신기 각각에 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 24 참조), 상기 장치는 상기 각각의 비디오 또는 RTP 스트림에 할당된 대역폭을 변경한다.
일 실시 예에 따르면 (예를 들어, 청구항 25 참조), 상기 장치는 상기 수신기가 유효한 비트스트림을 획득하기 위해 상기 타일을 함께 스티칭하도록 하기 위해 수신기에 전송되는 상기 타일을 인코딩한다.
일 실시 예에 따르면 (예를 들어, 청구항 26 참조), 상기 장치는 예를 들어 세션 디스크립션 프로토콜(SDP)을 사용하여, 상기 전송된 타일의 스티칭 가능 특성을 시그널링한다.
일 실시 예에 따르면 (예를 들어, 청구항 27 참조), 상기 장치는 예를 들어 품질과 같은, 상기 타일의 특정 속성에 따라 상기 타일을 복수의 그룹으로 그룹화하고, 상기 각 그룹을 상이한 소스와 연관시키고, 상기 페이로드 형식 및 코덱 특정 속성, 예를 들어, 상기 타일에 대한 집합 레벨 및/또는 대안적인 해상도/품질을 각 소스에 대해 수신기에 시그널링한다.
일 실시 예에 따르면 (예를 들어, 청구항 28 참조), 상기 장치는 PACI 패킷과 같이, RTP 헤더 또는 페이로드 헤더 확장을 사용하는 타일링 구성 또는 상기 사용자 뷰포트의 구면 위치에 대한 전환 포인트를 수신기에 시그널링한다.
일 실시 예에 따르면 (예를 들어, 청구항 29 참조), 상기 장치는,
상기 몰입형 미디어 콘텐츠 또는 상기 타일링 구성 내 상기 수신기 뷰포트의 구면 위치에 대한 정보를, 또는
현재 구면 위치 또는 현재 타일링 구성, 예를 들어 품질 또는 해상도 또는 타일 수는 미래 시간에 수정, 예를 들어 시간, 표현 또는 패킷의 거리로 표현되는 것을 시그널링한다.
일 실시 예에 따르면 (예를 들어, 청구항 30 참조), 상기 장치는 미리 정의된 간격에서, 예를 들어, 영역별 패킹, RWP 또는 타일링 변경 간의 시간, 표현, 또는 패킷의 최소한의 거리에서 구면 위치 또는 타일링 구성을 전환한다.
일 실시 예에 따르면 (예를 들어, 청구항 31 참조), 상기 장치는 예를 들어, PACI 패킷과 같은 RTP 헤더 또는 페이로드 헤더 확장을 사용하여, 슬라이스 헤더의 길이를 수신기에 시그널링한다.
일 실시 예에 따르면 (예를 들어, 청구항 32 참조), 상기 장치는 비트레이트 적응을 수행하여, 타일이 상이한 비트레이트로 상기 수신기에 전송되도록 한다.
일 실시 예에 따르면 (예를 들어, 청구항 33 참조), 상기 장치는 RTCP 수신기 보고, 예를 들어, 상기 장치와 수신기 사이의 링크에서 네트워크 상태를 나타내는 보고에 기초하여 비트레이트 적응을 수행한다.
일 실시 예에 따르면 (예를 들어, 청구항 34 참조), 상기 장치와 수신기 사이의 세션이 시작될 때, 상기 장치는 단일의 균일한 비트레이트 또는 균일한 해상도로 모든 타일을 초기에 인코딩하고 상기 타일을 상기 수신기로 전송하기 시작하고,
상기 수신기로부터의 RTCP 피드백 메시지에 응답하여, 상기 장치는 상기 뷰포트 내의 상기 타일을 예를 들어, 상기 뷰포트 외부의 타일보다 높은 해상도 또는 품질로 인코딩하여, 상기 원격 UE의 상기 뷰포트에 대응하는 상기 타일의 상기 비트레이트를 우선화한다.
일 실시 예에 따르면 (예를 들어, 청구항 35 참조), 수신기의 뷰포트 내에서 최소의 품질/해상도 요구 사항에 대한 응답으로, 상기 장치는 예를 들어 비 뷰포트 타일의 해상도/품질을 줄이거나, 제한된 타일 세트를 전송하여, 상기 수신기의 상기 최소 품질 요구 사항이 충족되도록 상기 전송된 타일 세트를 배열한다.
일 실시 예에 따르면 (예를 들어, 청구항 36 참조), 사용 가능한 네트워크 대역폭의 변경에 응답하여, 상기 장치는 상기 비트레이트의 총합이 대역폭 예산을 만족할 때까지 상기 모든 전송된 타일의 비트레이트를 동일하게 감소/증가시킨다.
일 실시 예에 따르면 (예를 들어, 청구항 37 참조), 상기 장치는 비트레이트 적응을 수행할 때 실제 사용자 뷰포트를 고려한다.
일 실시 예에 따르면 (예를 들어, 청구항 38 참조), 상기 사용 가능한 네트워크 대역폭이 감소하는 경우, 상기 장치는:
상기 뷰포트 타일을 일관된 품질로 유지하면서 상기 비 뷰포트 타일의 상기 비트레이트를 줄이거나,
모든 전송된 타일의 비트레이트가 균일하게 감소하도록 뷰포트 및 비 뷰포트 타일에 동일한 방식으로 상기 감소를 반영하거나,
비 뷰포트 타일을 이전과 동일한 품질로 유지하고 상기 뷰포트 타일의 상기 비트레이트를 더 크게 줄이는 것 중 하나를 실행한다.
일 실시 예에 따르면 (예를 들어, 청구항 39 참조), 상기 사용 가능한 네트워크 대역폭이 증가하는 경우, 상기 장치는:
추가 처리량 예산을 상기 뷰포트 타일에 할당하고 상기 비 뷰포트 타일을 동일한 품질로 유지하거나,
상기 모든 타일의 비트레이트를 동일한 방식으로 증가시키거나,
상기 뷰포트 타일을 동일한 비트레이트로 유지하고 상기 추가 처리량 예산을 비 뷰포트 타일에 분배하는 것 중 하나를 수행한다.
몰입형 미디어 프리젠테이션을 위한 수신기/클라이언트
본 발명은 (예를 들어, 청구항 40 참조)은 몰입형 미디어 콘텐츠를 제공하는 장치를 제공하고, 상기 몰입형 미디어 콘텐츠의 표현은 복수의 타일로 표현되고, 상기 복수의 타일은 상기 표현의 일부 또는 전부를 덮고, 상기 장치는:
송신기로부터 하나 이상의 비디오 또는 RTP 스트림을 수신하고 - 각각의 스트림은 상기 타일의 하나 이상을 포함하고, 상기 복수의 비디오 또는 RTP 스트림으로부터의 상기 타일은 상기 장치와 연관된 적어도 뷰포트를 커버함 - ,
상기 복수의 비디오 또는 RTP 스트림을 통해 수신된 상기 타일을 사용하여 상기 장치의 사용자에게 제시되는 단일 비디오 스트림을 획득한다.
일 실시 예에 따르면 (예를 들어, 청구항 41 참조), 상기 장치는 상기 개별 비디오 또는 RTP 스트림을 올바른 방식으로 상기 단일 비디오 스트림으로 결합하기 위해서, 예를 들어, RTP 헤더 확장 또는 RTP 페이로드 헤더 확장을 사용하여, 상기 장치의 상기 뷰포트에서 비디오 또는 RTP 스트림에 의해 운반되는 타일의 위치에 대한 시그널링을 수신한다.
일 실시 예에 따르면 (예를 들어, 청구항 42 참조), 상기 타일은 상기 장치가 상기 단일 비디오 스트림을 획득하기 위해 상기 타일을 함께 스티칭하도록 하기 위해서 상기 하나 이상의 비디오 또는 RTP 스트림에 인코딩된다.
일 실시 예에 따르면 (예를 들어, 청구항 43 참조), 상기 장치는 예를 들어 상기 세션 디스크립션 프로토콜(SDP)을 사용하여, 상기 전송된 타일의 스티칭 가능 특성을 수신한다.
일 실시 예에 따르면 (예를 들어, 청구항 44 참조), 상기 단일 비디오 스트림을 획득하기 위해서, 상기 장치는 상기 개별 비디오 또는 RTP 스트림을 패킷 해제하고, 타일 스티칭을 수행하고, 상기 단일 비디오 스트림을 디코딩 및 렌더링한다.
일 실시 예에 따르면 (예를 들어, 청구항 45 참조), 상기 장치와 연관된 상기 뷰포트는 상기 장치의 상기 뷰포트이고, 상기 장치는 예를 들어 RTCP 피드백 메시지를 사용하여, 상기 송신기에 뷰포트 정보를 전송한다.
일 실시 예에 따르면 (예를 들어, 청구항 46 참조), 상기 장치는 예를 들어 SDP 협상 동안 상기 송신기에, 상기 장치의 상기 뷰포트가 상기 몰입형 미디어 콘텐츠를 수신하는 하나 이상의 추가 장치에 대한 뷰포트로 사용되는 것을 시그널링한다.
일 실시 예에 따르면 (예를 들어, 청구항 47 참조), 상기 장치와 연결된 상기 뷰포트는 공통 뷰포트이고, 상기 공통 뷰포트는 상기 몰입형 미디어 콘텐츠를 수신하는 복수의 추가 장치 중 하나의 뷰포트이거나, 상기 송신기에 의해 설정된 미리 정의된 뷰포트이다.
일 실시 예에 따르면 (예를 들어, 청구항 48 참조), 상기 장치는 상기 장치와 연관된 상기 뷰포트가 공통 뷰포트라는 시그널링을 수신하고, 상기 장치는 상기 시그널링에 응답하여, 뷰포트 정보를 상기 송신기로 보내지 않는다.
몰입형 미디어 프리젠테이션을 위한 수신기/클라이언트 및 송신기/서버
일 실시 예에 따르면 (예를 들어, 청구항 49 참조), 상기 몰입형 콘텐츠는,
3DoF, 3 자유도 콘텐츠, 예를 들어, 하나 이상의 360° 비디오,
6DoF, 6 자유도 콘텐츠, 예를 들어, 실제 개체와 같은 캡처된 볼류메트릭 개체 또는 실제 개체의 볼류메트릭 비디오,
컴퓨터 생성 이미지(CGI)와 같이 컴퓨터 그래픽을 사용하여 생성된 3D 개체 중 하나 이상을 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 50 참조), 상기 발신기가 전송하거나 상기 수신기가 수신하는 상기 몰입형 콘텐츠는:
360°비디오 또는 360°그래픽의 경우, 투영된 비디오 전송, 예를 들어 특정 프로젝션을 사용하여 전송된 전체 360° 비디오의 일부,
볼류메트릭 개체 또는 볼류메트릭 비디오의 경우, 전체 볼류메트릭 개체 또는 특정 3D 형식의 상기 볼류메트릭 개체 일부를 예를 들어, 포인트 클라우드 또는 메쉬로서의 3D 데이터 전송,
게임 등 3D 컴퓨터 그래픽의 경우, 멀티 포인트 클라우드 또는 메쉬와 같은 특정 3D 형식의, 다중 볼류메트릭 개체와 같은 전체 장면 중 하나 이상을 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 51 참조), 상기 몰입형 콘텐츠는,
특정 보충 강화 정보(SEI) 매개변수, 예를 들어 sprop-sei 매개변수,
특정 비디오 코덱 또는 프로필의 표시, 또는
"비디오포맷 3DoF" 또는 "비디오포맷 6DoF" 또는 "비디오포맷 볼류메트릭"과 같은 세션 디스크리션 프로토콜(SDP)의 추가 속성에 의해 식별된다.
일 실시 예에 따르면 (예를 들어, 청구항 52 참조), 상기 몰입형 콘텐츠가 하나 이상의 볼류메트릭 개체를 포함하는 볼류메트릭 장면을 표현하는 경우, 상기 몰입형 콘텐츠는 상기 볼류메트릭 개체의 각각의 속성을 설명하기 위한 복수의 비트스트림, 예를 들어, 적어도 텍스처 비트스트림 및 기하학 비트스트림, 또는 압축된 메시 비트스트림 및 텍스처 비트스트림을 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 53 참조), 상기 상이한 비트스트림의 사용은 예를 들어, 상기 SDP를 사용하여 시그널링되고, 상기 SDP는 상기 상이한 종류의 비트스트림 및 상기 비트스트림의 가능한 변형에 대한 정보를 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 54 참조), 볼류메트릭 개체의 각각의 속성을 설명하는 상기 복수의 비트스트림은, 예를 들어 상기 SDP의 그룹화 메커니즘을 사용하여, 서로 연관된다.
몰입형 미디어 프리젠테이션을 위한 시스템
본 발명은 (예를 들어, 청구항 55 참조) 시스템을 제공하고, 이는
제 1 항 내지 제 39 항 중 어느 한 항의 장치를 포함하는 송신기, 및
제 30 항 내지 제 49 항 중 어느 한 항의 장치를 포함하는 수신기를 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 56 참조), 상기 송신기는,
상기 몰입형 미디어 콘텐츠의 소스, 예를 들어, 360° 카메라를 포함하는 텔레컨퍼런싱 또는 텔레프레즌스 장치, 또는
상기 몰입형 미디어 콘텐츠의 외부 소스, 예를 들어, 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라에 연결 가능한 텔레컨퍼런싱 또는 텔레프레즌스 서버를 포함한다.
몰입형 미디어 프리젠테이션을 위한 방법
본 발명은 (예를 들어, 청구항 57 참조) 송신기에서 복수의 수신기로 몰입형 미디어 콘텐츠를 제공하는 방법에을 제공하고, 상기 방법은:
상기 몰입형 미디어 콘텐츠의 표현을 위해 복수의 타일을 획득하는 단계 - 상기 복수의 타일은 상기 표현의 일부 또는 전부를 덮음 - , 및
상기 복수의 수신기 중 일부 또는 전부에 대해, 상기 타일 중 하나 이상을 각각의 수신기에 전송하는 단계 - 상기 하나 이상의 타일은 상기 각각의 수신기와 관련된 적어도 뷰포트를 덮음 - 을 포함한다.
본 발명은 (예를 들어, 청구항 58 참조) 몰입형 미디어 콘텐츠를 수신기에서 제시하는 방법을 제공하고, 상기 몰입형 미디어 콘텐츠의 표현은 복수의 타일로 표현되고, 상기 복수의 타일은 상기 표현의 일부 또는 전체를 덮고, 상기 방법은:
송신기로부터 복수의 비디오 또는 RTP 스트림을 수신하는 단계 - 각 스트림은 상기 타일의 하나 이상을 포함하고, 상기 복수의 비디오 또는 RTP 스트림으로부터의 상기 타일은 상기 장치와 연관된 적어도 뷰포트를 커버함 - , 및
상기 복수의 비디오 또는 RTP 스트림을 통해 수신된 상기 타일을 사용하여 상기 장치의 사용자에게 제시되는 단일 비디오 스트림을 획득하는 단계를 포함한다.
일 실시 예에 따르면 (예를 들어, 청구항 59 참조), 상기 수신기는 본 발명의 장치를 포함하고/하거나, 상기 송신기 본 발명의 장치를 포함한다.
컴퓨터 프로그램 제품
본 발명은 프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 본 발명에 따른 하나 이상의 방법을 실행하도록 하는 명령을 포함하는 컴퓨터 프로그램 제품을 제공한다.
이하 본 발명의 접근 방식의 보다 상세한 실시 예가 설명된다. 도 3은 본 발명의 실시 예가 적용될 수 있고 바람직하게 사용될 수 있는 도 2와 유사한 환경의 예를 도시한다. 도 3은 효율적인 몰입형 미디어 통신 또는 몰입형 미디어 콘텐츠 프리젠테이션을 위해 또는 360° 비디오 통신을 위해 설정된 서버(200) 및 클라이언트(2021 내지 202n)를 포함하는 시스템을 도시한다. 클라이언트(2021)는 더 상세하게 도시되어 있고 다른 클라이언트들은 개략적으로만 도시되어 있다. 다른 클라이언트들(2022 내지 202n)은 클라이언트(2021)와 동일하거나 상이한 구조를 가질 수 있다. 시스템은 예를 들어, 헤드업 디스플레이(204)의 내부 디스플레이(212)를 사용하여, 헤드업 디스플레이(210)를 착용한 사용자에게 특정 시선 방향에 대응하는 360° 비디오의 시간적으로 변하는 공간 장면(216)의 뷰 선택(214)을 제시한다. 뷰 선택 또는 시선 방향(214)은 내부 방향 센서(218)에 의해 측정될 수 있는 헤드업 디스플레이(210)의 방향에 대응할 수 있다. 따라서, 사용자에게 제시된 선택(214)은 공간 장면(216) 중 선택이고, 공간 장면(216)의 공간 위치는 헤드업 디스플레이(210)의 방향에 대응한다. 시간적으로 변하는 공간 장면(216)은 몰입형 미디어 콘텐츠를 포함하거나 전방향 비디오 또는 구면 비디오라고도 하는, 360° 비디오이다. 본 발명은 헤드업 디스플레이에 한정되지 않고, 다른 실시 예들에 따르면, 선택(214)은 일반 모니터 등과 같은 다른 디스플레이 장치 상에서 사용자에게 디스플레이될 수 있다. 센서(218) 및 디스플레이(210)는 리모콘 및 대응하는 텔레비전 세트와 같은 별개의 또는 상이한 장치일 수 있다. 다른 실시 예에 따르면, 센서(218) 및 디스플레이(212)는 태블릿 또는 모바일 폰과 같은 모바일 장치와 같은 핸드헬드 장치의 일부일 수 있다.
서버(200)는 예를 들어, 도 2의 신호 프로세서(206)를 사용하여 구현되는 제어기(206) 및 저장소(220)를 포함할 수 있다. 제어기(206)는 적절하게 프로그램된 컴퓨터, 특정 애플리케이션 집적 회로 등일 수 있다. 저장소(202)는 공간 장면(216)을 나타내는 미디어 세그먼트를 저장할 수 있다. 제어기(206)는 클라이언트(202)로부터의 요청에 응답하여 미디어 세그먼트, 예를 들어 요청된 비디오/오디오 데이터를 각각의 제어 정보와 함께 클라이언트(202)에 보낼 수 있다. 제어기(206)는 요구된 미디어 세그먼트를 저장소(220)로부터 페치할 수 있고, 실시 예에 따라, 렌더링된 뷰포트라고도 하는, 뷰 섹션(214)의 렌더링 버전으로서 클라이언트(202)를 향해 비디오 데이터를 제공할 수 있거나, 비디오 데이터를 투영된 데이터로서, 즉, 렌더링 없이 클라이언트(202)에게 제공할 수 있다.
클라이언트(202)는 예를 들어 도 2의 신호 프로세서(208)를 사용하여 구현된 클라이언트 장치 또는 제어기(208)를 포함할 수 있고, 적절하게 프로그램된 컴퓨터, 마이크로프로세서, 프로그램된 하드웨어 장치 등일 수 있다. 클라이언트 장치(208)는 각각의 제어 정보와 함께 서버(200)로부터 검색될 미디어 세그먼트를 선택할 수 있다. 미디어 스트림(204) 내의 데이터의 전송은 서버(200) 및 클라이언트(202)의 각각의 엔티티, 예를 들어 제어기(206, 208)가 각각의 인코더/디코더를 포함하도록 인코딩된 형태로 수행된다.
본 발명의 실시 예는 서버와 클라이언트가 상호작용하며, 서버는 타일형 전송 기술을 사용하여 뷰포트 종속 비디오 데이터를 제공하는, 몰입형 미디어 콘텐츠의 프리젠테이션에 관한 것이다. 본 발명의 실시 예는 다자간 비디오 통신이 뷰포트 종속 타일 전송 기술을 사용할 수 있도록 하는 메커니즘 및 시그널링을 정의한다. 실시 예에 따르면 HEVC 타일을 사용하는 RTP 기반 다자간 360° 화상 회의 접근 방식이 제공된다. 이 실시 예에 따르면, 회의실과 각 원격 참가자(예: 각 원격 UE) 간의 다중 지점 간 링크가 구현될 수 있거나, 포인트 대 멀티포인트 링크가 회의실에서 360° 비디오를 수신하는 회의 서버와 여러 원격 참가자 간에 구현될 수 있다. 추가 실시 예는 다중 원격 UE로의 360° 비디오의 타일형 전달을 위한 SDP 기반 세션 협상/설명과 같은 시그널링 메커니즘을 설명한다. 추가 실시 예는 예를 들어 타일식 회의의 맥락에서 비디오 정보의 타일형 전달을 위한 PACI, 페이로드 콘텐츠 정보 시그널링 측면에 관한 것이다. 또 다른 실시 예는 상이한 해상도 또는 품질 레벨을 사용하는 비트레이트 적응 및 영역별 패킹 RWP 등에 미치는 영향에 관한 것이다.
본 발명의 접근 방식의 실시 예는 360° 화상 회의 시나리오를 참조하여 아래에서 더 상세히 설명되지만, 본 발명의 개념은 이러한 실시 예에 제한되지 않는다. 오히려, 다른 실시 예에 따르면, 본 발명은 예를 들어, 3DoF 및 6DoF 콘텐츠를 포함하는 모든 종류의 몰입형 미디어 콘텐츠에 적용될 수 있다. 예를 들어, 후속하여 설명되는 실시 예는 다수의 사용자가 특정 장면의 상이한 뷰에 참여하며 이를 갖는 시나리오에서 볼류메트릭 비디오에 대해 이용될 수 있다.
이하 설명에서, "타일"을 언급할 때, 360° 비디오와 같은 3DoF 비디오의 경우, 이는 HEVC 타일과 같이 콘텐츠의 표현의 일부를 정의하는 타일을 의미한다. 볼류메트릭 물체나 비디오 또는 3차원 컴퓨터 그래픽과 같은 6DoF의 경우, "타일"이라는 용어는 콘텐츠 표현의 일부를 정의하는 포인트 클라우드, 메쉬 또는 브릭을 나타낸다.
3DoF 비디오의 경우 "몰입형 미디어 콘텐츠의 표현"을 언급할 때, 이것은 예를 들어 구의 내부 표면의 적어도 일부를 나타낸다. 6DoF 비디오의 경우 "몰입형 미디어 콘텐츠의 표현"은 예를 들어 물체의 외부 표면의 적어도 일부를 의미한다.
"뷰포트"를 언급할 때, 3DoF 비디오의 경우에, 이것은 사용자의 뷰포트 또는 보는 방향을 의미한다. 사용자는 예를 들어 HMD를 착용한 경우 머리를 움직여 뷰포트를 변경할 수 있지만, 사용자는 구면 콘텐츠와 같이 콘텐츠를 관찰하고 있는 장면 또는 표현의 중심에 해당하는 정적 뷰포인트를 가지고 있다. 6DoF 비디오의 경우, 사용자가 공간에서 병진운동을 할 수 있기 때문에 뷰포트는 뷰포인트를 의미한다. 따라서 뷰포트라는 용어는 3DoF의 경우 뷰포트로, 6DoF의 경우 뷰포인트로 이해될 수 있다.
도 4는 회의실과 원격 UE 사이의 직접 통신을 사용하는 360°화상 회의 시나리오를 위한 타일형 다자간 RTP 전달의 실시 예를 도시한다. 회의실(200)은 하나 이상의 RTP 스트림 및 RTCP 피드백이 제공될 수 있는 각각의 RTP 세션 #1 내지 #N에서 각각의 원격 UE(2021 내지 202n)에 360° 비디오 정보를 제공한다. 도 4는 회의실(200)과 원격 UE(2021 내지 202n) 사이에 여러 포인트 대 포인트 링크, 즉 직접 통신이 존재하는 포인트 대 포인트 접근 방식의 일 예이다. 이 실시 예에서, 더 이상 서버가 존재하지 않으며 회의실이 스티칭된 360° 비디오를 독립 HEVC 타일로 인코딩하고 타일링된 인코딩을 다른 RTP 스트림으로 패키징할 수 있다고 가정한다. 예를 들어, 각 타일의 전송을 위해 별도의 RTP 스트림이 사용될 수 있다. 즉, 각 원격 UE(2021 내지 202n)는 회의실(200)과 포인트 대 포인트 RTP 세션 #1 내지 #N을 설정하고 회의에 참가한다. 원격 UE(2021 내지 202n)는 예를 들어 RTCP 피드백 FB 메시지를 사용하여 그들의 뷰포트 정보를 회의실(200)에 전송할 수 있다. 도 4는 다수의 참가자(2301 내지 2305)가 물리적으로 존재하고 있는 회의실(200)을 개략적으로 도시한다. 회의실(200)은 360° 카메라(232)를 포함한다. 회의실(200)은 6x4 타일로 된 타일링 구성을 사용할 수 있으며, 각 타일은 하나의 RTP 스트림으로 패킷화된다. 각 원격 UE(2021 내지 202n)는 실제 뷰포트에 따라 전체 360° 비디오를 포함하는 24개의 RTP 스트림의 다른 세트를 수신할 수 있다. UE의 시점 영역에 해당하는 타일은 UE의 시점에 해당하지 않는 타일의 품질 또는 해상도보다 높은 품질 또는 해상도로 인코딩되어 전송될 수 있다. 실시 예들에 따르면, UE와 회의실(200) 사이의 링크에서 네트워크 상태에 따라, 비트레이트 적응은 아래에서 더 자세히 설명되는 바와 같이 수행될 수 있으므로, 상이한 원격 UE가 상이한 비트레이트를 갖는 타일을 수신할 수 있다.
실시 예들에 따르면, 예를 들어, RTP 헤더 확장 또는 RTP 페이로드 헤더 확장을 사용하여, 원격 UE의 뷰포트에서 RTP 스트림이 운반하는 타일의 해당 위치도 시그널링된다. 이를 통해 원격 UE(2021 내지 202n)가 개별 RTP 스트림을 적절하게 결합할 수 있도록 하여, 각 원격 UE가 수신된 고해상도 또는 품질 타일을 사용하여 회의의 일부를 UE가 자신의 뷰포트에 표시하는 방식으로 360° 비디오를 재구성할 수가 있다.
따라서, 본 발명의 실시 예들에 따르면, 타일들의 상이한 세트가 상이한 원격 UE들에 제공될 수 있다. 그러한 실시 예에 따르면, 회의실은 각각의 UE로부터 수신된 뷰포트 정보를 고려하여, 상이한 시간 인스턴스에서 각각의 원격 UE에 상이한 세트의 RTP 스트림을 전송할 수 있으며, 바람직하게는 뷰포트를 커버하기 위해 고해상도 또는 고품질 타일을 사용한다. 원격 UE(2021 내지 202n)는 RTCP FB 메시지를 사용하여 자신의 뷰포트 정보를 회의실(200)에 시그널링할 수 있다. 다른 원격 참가자는 주어진 시간 인스턴스에서 360° 비디오의 다른 부분을 보는 데 관심이 있을 수 있으므로, 회의실(200)은 각각의 RTP 세션 #1 내지 #N에서 서로 다른 타일 세트를 전송할 수 있다.
실시 예들에 따르면, 회의실(200)은 회의실과 각각의 UE 사이의 링크에 대한 네트워크 상태에 따라, 예를 들어 레이턴시에 따라 다른 전송 모드를 사용할 수 있다. 예를 들어, 각 UE가 회의실(200)에 제공한 RTCP 수신기 보고에 기초하여, 회의실은 네트워크 레이턴시를 추정할 수 있으며, 각각의 링크에 대한 레이턴시에 기초하여 레이턴시에 의존하는 상이한 전송 모드를 사용하기로 결정할 수 있다. 도 5는 네트워크 레이턴시에 따라 다른 전송 모드를 개략적으로 도시하고, 도 5(a)는 저 레이턴시를 위한 전송 모드를 도시하고, 도 5(b)는 중간 레이턴시를 위한 전송 모드를 도시하고, 도 5(c)는 고 레이턴시를 위한 전송 모드를 도시한다. 도 5는 비디오 콘텐츠의 픽처(240)가 48개의 타일(242)로 인코딩되고 뷰포트(244)가 6개의 타일을 포함할 수 있음을 의미하는 8x6의 타일링 구성을 가정한다.
저 레이턴시의 경우, 예를 들어 레이턴시가 사전 정의되거나 사전 구성된 제 1 임계값 미만인 경우, 뷰포트(244) 내부의 타일만 전송되는데, 이는 사용자가 신호를 보내는 새로운 뷰포트 또는 변경 뷰포트에 빠르게 적응할 수 있기 때문이다. 따라서, 도 5(a)에 도시된 바와 같이, 뷰포트(244)에 대한 타일만이 전송되고 뷰포트 외부의 부분에 대한 타일은 전송되지 않는다.
중간 레이턴시의 경우, 예를 들어 레이턴시가 제 1 임계값보다 높지만 제 2 미리 정의되거나 미리 구성된 임계값 미만인 경우, 회의실(200)은 뷰포트(242)보다 더 큰 영역, 예를 들어 사진(240)의 20개의 타일을 포함하는 영역(246)을 송신하기로 결정할 수 있다. 보다 구체적으로, 뷰포트(244)에 대한 6개의 타일이 전송되고, 추가적으로 뷰포트(244)를 둘러싸는 14개의 타일도 전송된다. 이것은 뷰포트(244) 주변의 일부 버퍼 영역(246)을 허용하지만 여전히 전체 픽처(240) 또는 그의 모든 타일이 전송되지는 않는다. 버퍼 영역(246)에 대한 타일은 뷰포트 영역(244)과 동일한 품질로 또는 더 낮은 품질로 전송될 수 있다. 도 5(b)에 도시된 예에서, 버퍼 영역(246)의 타일이 더 낮은 품질로 전송되는 것으로 가정된다.
고 레이턴시의 경우, 예를 들어 레이턴시가 제2 임계값을 초과하는 경우 회의실(200)은 도 5(c)에 도시된 바와 같이 전체 사진(240)을 전송하기로 결정할 수 있다. 뷰포트(244) 외부의 타일은 뷰포트(244) 내부의 타일과 동일하거나 더 낮은 품질로 전송될 수 있다. 예를 들어, 뷰포트 외부의 모든 타일은 뷰포트(244)의 품질보다 낮은 동일한 품질로 전송될 수 있거나, 낮은 품질 부분은 예를 들어 뷰포트(244)에 가장 가까운 영역(246)이 품질 수준 Q1으로 전송되고, 다음으로 가장 가까운 영역(248)이 품질 레벨 Q2로 전송될 수 있고, 사진 또는 프레임의 에지와 같이 가장 먼 영역은 Q1 > Q2 > ... > Qx인 품질 Qx로 전송될 수 점진적으로 저하된다.
다른 실시 예에 따르면, 회의실(200)은 상이한 품질 레벨들 사이에서 이용 가능한 디코딩 전력의 분포에 대해 결정할 수 있다. 예를 들어, 고해상도 뷰포트 타일에 사용할 해상도 예산이 얼마인지 결정할 수 있다. 예를 들어, 지연 상태가 좋지 않음을 나타낼 수 있는 중간 또는 긴 지연 상황을 고려할 때 또는 관심 영역의 빠른 변화, 즉 뷰포트의 변화가 가능하다고 생각할 때, 회의실은 뷰포트에 해상도 예산의 50%를 사용하고 저해상도에 50%를 사용하기로 결정할 수 있다. 반면에 지연시간이 짧은 상황의 경우, 예를 들어 지연조건이 좋은 경우나 태블릿과 같이 관심영역의 변경 가능성이 없거나 제한되는 경우, 예산의 90%는 고해상도 처리에 사용될 수 있으며 작은 썸네일 개요만 보낼 수 있다.
상술한 실시 예에서, 원격 UE의 각각은 회의실로부터 각각의 UE의 적어도 뷰포트를 덮는 타일의 전송을 수신한다. 다시 말해서, 위의 실시 예는 각각의 UE에 UE의 각각의 뷰포트를 나타내는 하나 이상의 타일을 운반하는 개별적인 스트림을 제공하였다.
다른 실시 예에 따르면, 이러한 개별 뷰포트를 사용하기 보다는, 동기화된 공통 뷰포트라고도 하는 공통 뷰포트가 사용될 수 있다. 이러한 실시 예에 따르면, 원격 UE 또는 참가자(2021 내지 2022)는 전체 회의 동안 또는 특정 기간 동안 뷰포트를 동기화하는 데 관심이 있을 수 있다. 달리 말하면, 주어진 시간 인스턴스에서, 원격 참가자 중 일부 또는 모두는 360° 비디오의 동일한 공간 부분을 보게 되는데, 즉, 공통 뷰포트를 갖게 된다.
실시 예에 따르면, 공통 뷰포트는 동적으로 변경될 수 있다. 예를 들어, 회의 호출이 시작될 때 원격 참가자 중 한 명이 리더 원격 참가자로 선택될 수 있다. 이것은 예를 들어 UE들 중 하나가 리더가 되기를 요청하는 SDP 제안을 보낼 수 있는, SDP 협상 동안 시그널링될 수 있다. 회의실(200)은 이러한 실시 예에서 다른 참가자의 뷰포트가 관련이 없기 때문에 이 제안을 수락하고 다른 원격 참가자에게 뷰포트와 관련하여 임의의 RTCP 피드백 메시지를 전송하지 않도록 지시할 수 있다. 예를 들어, UE(2021)를 리더 UE로 고려할 때, 이 UE만이 리더 원격 참가자가 보는 것을 볼 수 있기 때문에, 회의실(200)은 나머지 UE(2022 내지 202n)에게 이들의 뷰포트와 관련된 피드백을 전송하지 않도록 지시한다. 실시 예에 따르면, 이것은 비-리더 원격 참가자가 360° 콘텐츠와 상호작용할 필요 없이 디스플레이 스크린 상의 리더 원격 참가자의 뷰포트를 따를 수 있는 2D 보기 시나리오에 적용될 수 있다. 리더 원격 참가자는 예를 들어 HMD, 모바일 폰, 태블릿 등과 같이 위에서 설명된 UE의 종류 중 하나일 수 있다.
추가 실시 예에 따르면, 회의 호출 동안, 새로운 리더 원격 참가자가 할당될 수 있다. 예를 들어, 새로운 리더는 추가 SDP 협상을 통해 할당될 수 있다. 원격 참가자 중 한 명이 리더의 역할을 맡을 수 있다. 다른 실시 예에 따르면, 원격 참가자 중 일부만이 리더 역할을 맡는 특권을 가질 수 있다. 권한 있는 원격 참가자는 예를 들어 회의 시작 시에, 회의실에서 신호를 받을 수 있다. 선택된 참가자만이 화상 통화 중에 언제든지 리더가 되기를 요청할 수 있다.
리더 원격 참가자 또는 UE가 일단 결정되고, RTP 세션이 시작되면, 리더 원격 UE는 실제 뷰포트를 포함하는 회의실에 RTCP 피드백 메시지를 보낼 수 있다. 리더 UE로부터 뷰포트 정보를 수신하는 것에 응답하여, 회의실은 회의에 참가하는 모든 원격 UE에게 360° 뷰포트의 동일한 공간 영역에 해당하는 타일 세트를 전송한다.
추가 실시 예에 따르면, 단일 리더만을 갖기 보다는, 특정 리더를 따르는 팔로워 그룹이 있을 수 있다. 예를 들어, 팔로워의 각 그룹은 할당된 리더의 뷰포트를 수신할 수 있다. 이 경우, SDP 처리 중에, 팔로워들은 수신하길 원하는 뷰포트의 리더를 표시할 수 있다. 예를 들어, 이것은 물리적으로 존재하고 원격지에 있는 여러 참가자와 대규모 회의 통화가 발생하는 시나리오에서 유용할 수 있다. 회의실 내부에 다른 주제에 대해 토론하는 소규모 그룹이 있을 수 있으며, 그러한 시나리오에서, 원격 참가자는 동일한 관심을 공유하고 그 UE의 뷰포트를 팔로우하는 리더 UE를 선택할 수 있다. 팔로워 원격 UE가 나중에 다른 토론 그룹을 팔로우하려는 경우, UE는 다른 리더 UE의 뷰포트와 동기화되도록 선택할 수 있다.
실시 예에 따라, 공통 뷰포트는 동일한 인코딩 또는 상이한 인코딩으로 각각의 팔로워 UE에 제공될 수 있다. 예를 들어, 동일한 인코딩을 사용하는 실시 예에 따르면, 원격 UE는 리더 원격 참가자의 뷰포트에 해당하는 타일의 정확히 동일한 인코딩을 수신할 수 있으며, 즉, 팔로워 UE는 동일한 비트레이트, 예를 들어 동일한 해상도 또는 동일한 품질로 인코딩된 타일을 사용하여 360° 비디오의 동일한 구면 영역을 수신한다. 이러한 실시 예에서, 회의실은 트랜스코딩/트랜스레이팅을 한 번만 수행하고 동일한 타일 콘텐츠를 모든 원격 UE에 배포할 수 있다.
상이한 인코딩을 사용하는 실시 예의 경우, 원격 UE는 리더 원격 참가자의 뷰포트에 대응하는 타일의 상이한 인코딩을 수신할 수 있다. 즉, 원격 UE는 360° 비디오의 동일한 구면 영역에 해당하는 타일을 수신하지만, 타일은 예를 들어 개별 원격 UE와 회의실 사이의 링크에 대한 상이한 네트워크 조건을 고려하여 상이한 또는 적응된 해상도 또는 품질로 상이한 비트레이트로 인코딩될 수 있다. 패킷 손실, 레이턴시 등과 같은 네트워크 상태는 각각의 RTCP 수신기 보고를 사용하여 원격 UE에 의해 측정되고 시그널링될 수 있다. 예를 들어, 리더 UE를 따르는 원격 UE의 일부 또는 전부는 회의실이 네트워크 조건에 관계없이 최소 품질로 타일을 전송하도록 최소 허용 품질 요구사항을 시그널링할 수 있다. 추가 예에 따르면, 상이한 UE는 회의실에서 알려진 상이한 디코딩 능력을 가질 수 있다. 회의실은 팔로워 UE에게 보낼 타일의 품질 수준을 결정할 때 UE의 디코딩 능력을 고려하게 된다. 다른 실시 예에 따르면, 사용 가능한 디코딩 전력은 회의실과 UE 간의 RoI 변경의 지연 조건 또는 역학, 예를 들어 도 5를 참조하여 위에서 설명한 것과 유사한 방식으로 뷰포트 내부 타일에 대한 해상도 예산의 90% 대 50%에 기반하여 협상될 수 있다.
또 다른 실시 예에 따르면, 리더 UE와 같은 하나 이상의 특정 UE의 뷰포트를 사용하는 것보다 공통 뷰포트를 사용하여, 관찰된 공통 뷰포트는 정적일 수 있다. 즉, 공통 뷰포트는 UE 중 하나의 뷰포트로 제공되는 것이 아니고, 예를 들어 회의실 또는 시스템에 의해 결정되게 된다. 이 경우에, 따라서 비활성화될 수 있는 원격 UE로부터의 뷰포트 시그널링이 필요하지 않다. 따라서 뷰포트 정보에 대한 RTCP FB 메시지는 필요하지 않다. 일 실시 예에 따르면, 회의실은 회의 시작 시 모든 원격 UE에 전송되는 특정 뷰포트, 예를 들어 발표자 또는 기조 연설자를 덮는 뷰포트를 결정할 수 있다. 이러한 실시 예에서, 모든 RTP 세션에서, 미리 결정된 정적 뷰포트를 커버하는 타일이 원격 UE로 전송된다. 도 5를 참조하여 위에서 설명한 것과 유사한 방식으로, 타일의 상이한 비트레이트 인코딩은 원격 UE에 의해 시그널링된 최소 허용 품질 요구사항 또는 네트워크 조건에 따라 원격 UE에 전송될 수 있다.
실시 예들에 따르면, 전송된 정적 뷰포트는 예를 들어 주요 화자 식별, 활동 인식 또는 유사한 종류의 지능형 데이터 처리를 기반으로 회의 중에 수정될 수 있다.
정적 공통 뷰포트에 대한 실시 예에 따르면, UE는 선택된 정적 뷰포트에 해당하는 타일의 동일한 인코딩 또는 네트워크 상황 뿐만 아니라 협상된 최소 품질 요구 사항을 기반으로 하는 상이한 인코딩을 수신할 수 있다.
다른 실시 예에 따르면, 회의실(200)에 추가하여, 회의 서버, 예를 들어 다지점 제어 장치 MCU가 제공되므로, 다양한 레이아웃/포맷의 비디오 트랜스코딩, 번역 및 믹싱과 같은 기능을 가능하게 하는 것은 물론, 회의실 및 UE와 같은 종단점에서 처리를 오프로딩한다. 도 6은 회의 서버를 통한 360° 회의를 위한 타일형 다자간 RTP 전달의 실시 예를 도시한다. 도 4와 비교할 때, 도 6에는, 회의 서버(250)가 회의실(200)과 원격 UE(2021 내지 2022) 사이에 추가로 제공된다. 실시 예들에 따르면, 회의 서버(250)는 3GPP TS 26.114에 정의된 미디어 자원 기능(MRF), 또는 3GPP TS 26.223에 정의된 미디어 제어 유닛(MCU)일 수 있다.
도 6의 실시 예에 따르면, 회의실(200)의 360° 카메라(232)는 투영된 360° 비디오 또는 별도의 2D 캡처를, 예를 들어 252로 표시된 바와 같이 카메라(232)의 상이한 어안 렌즈로부터 회의 서버(250)로 보낼 수 있다. 회의 서버(250)가 360° 카메라(232)로부터 별도의 2D 캡처를 수신하는 경우, 서버(250)는 초기에 스티칭, 예를 들어 픽셀 도메인 스티칭을 수행하여, 구면 360° 비디오를 얻은 다음 투영, 예를 들어, 정방형 투영을 수행하여 투영된 360° 비디오를 얻는다. 회의 서버(250)는 투영된 360° 비디오를 360° 미만의 적용 범위를 갖는 별도의 공간 하위 집합으로 분할하고 UE의 뷰포트 정보 및 동작 모드에 따라 RTP 스트림으로 패키징될 독립적인 HEVC 타일로 서브세트를 인코딩한다.
다른 실시 예에 따르면, HEVC 타일링은 투영된 고해상도 360° 비디오에 대해 회의실(200)에 의해 수행될 수 있으며, 회의 서버(250)는 회의실(200)로부터 고해상도 타일을 수신한다. 이러한 실시 예에서 회의 서버(250)는 예를 들어, 저해상도 타일과 같이 수신된 타일의 다른 버전을 생성하기 위해서, 추가 처리를 적용하기 위해 제공될 수 있다. 이러한 저해상도 타일은 각 UE로부터 서버로 수신한 시청 방향 정보에 기초하여, 도 5를 참조하여 전술한 바와 같이, 뷰포트 타일 외에 뷰포트를 둘러싸는 추가 타일을 제공하기 위해 사용될 수 있다. 또한, 각 단말로부터의 시청 정보에 응답하여, 전체 360° 비디오에 대한 타일을 수신하는 서버(250)는 각각의 RTP 스트림을 통해 서로 다른 UE로 전송될 타일을 결정할 수 있다.
본 발명의 실시 예에 따르면, 서버(250)는 서버 측 타일 스티칭이 수행되는 모드로 동작할 수 있다. 이 실시 예에 따르면, 원격 UE로부터 뷰포트 정보를 한 번의 인스턴스에 수신한 회의 서버(250)는, 주어진 UE에 대한 뷰포트 품질을 최대화하는, 서버(250)에 의해 생성되거나 회의실(200)로부터 수신된 타일의 서브세트를 선택하고, 압축 영역 타일 스티칭과 같은 타일 스티칭을 수행하고, 단일 RTP 스트림으로 뷰포트 최적화 스트림을 원격 UE에 전송한다. 이 실시 예에 따르면, 타일의 스티칭과 관련된 처리 부하가 서버(250)로 이동되어 수신 UE에서 처리 오버헤드의 감소를 유도한다.
회의 서버(250)를 사용하는 또 다른 실시 예에 따르면, 클라이언트측 타일 스티칭을 사용하는 다른 동작 모드가 사용된다. 이러한 동작 모드에서, 회의 서버(250)는 UE(2021)로부터 수신된 뷰포트 정보에 기초하여 UE(2021)와 같은 원격 UE에 대해 서버(250)에서 생성되거나 회의실(200)로부터 수신된 타일의 서브세트를 선택한다. 서버(250)는 다른 RTP 스트림의 선택된 타일을 UE(2021)에 전송하고, UE(2021)는 개별 RTP 스트림을 패킷화 해제하고, 타일 스티칭을 수행한 다음에 UE의 사용자에게 제시하기 위해 단일 비트스트림을 디코딩하고 렌더링한다. 실시 예에 따르면, 이 동작 모드에서, 타일 당 하나의 RTP 스트림이 주어진 원격 UE로 전송될 수 있다. 따라서, 회의 서버(250)가 전송하는 RTP 스트림의 수는 타일의 수와 동일하다. 상이한 RTP 스트림은 RTP 세션에서 별개의 RTP 동기화 소스 SSRC에 의해 구별될 수 있고, 타일/RTP 스트림마다 별도의 SDP 협상이 수행될 수 있다.
다른 실시 예에 따르면, 협상 오버헤드를 줄이기 위해, 다중 타일은 예를 들어 품질과 같은 특정 속성에 따라서, 클러스터링 또는 그룹화되어 하나의 RTP 스트림으로 패킷화될 수 있다. 예를 들어, 회의실(200) 또는 회의 서버(250)는 예를 들어 뷰포트에 대한 고해상도 타일을 포함하는 하나의 RTP 및 예를 들어, 뷰포트 주변 영역에 대한 저해상도 타일을 포함하는 다른 RTP 스트림을 보낼 수 있다(도 5 참조). 각 그룹은 특정 SSRC와 연관될 수 있다.
실시 예들에 따르면, 예를 들어 회의실(200) 또는 서버(250)와 같은 다중 스트림을 전송하는 RTP 엔드 포인트는 사용 가능한 대역폭의 몫을 각 RTP 스트림에 균일하게 세분할 필요가 없다. 실시 예들에 따르면, 회의실(200) 또는 서버(250)와 같은 엔드포인트는 총 전송 속도가 할당된 몫을 초과하지 않는 한, 다른 SSRC에 할당된 할당 대역폭을 변경할 수 있다. 이를 통해 일부 RTP 스트림을 켜고 끄거나 RTP 스트림을, 예를 들어 RFC 8108에서 지정된 바와 같이, 더 낮거나 더 높은 대역폭을 필요로 하는 다른 것으로 교체할 수 있다.
이제 타일 360° 다자간 회의를 위한 세션 협상에 관한 본 발명의 실시 예가 설명된다. 실시 예에 따르면, 클라이언트 또는 원격 UE에 전송된 타일 세트는 클라이언트가 유효한 비트스트림을 얻기 위해 타일을 함께 스티칭할 수 있는 방식으로, 예를 들어 회의실(200) 또는 서버(250)에 의해 선택되고 인코딩된다. 실시 예에 따라, 전송된 타일의 이러한 스티칭 가능성 특성은 SDP에서 시그널링된다. 예를 들어, RTP의 소스 레벨 그룹화 메커니즘, 예를 들어, RFC 5576 참조, 소스별 SDP 속성은 서로 관련된 여러 소스가 미디어 스트림에서 사용됨을 나타내기 위해 사용될 수 있다. RFC 5576은 동기화 소스, SSRC, 식별자로 식별되고 서로 다른 소스 간의 관계를 표현할 수 있는 설명된 RTP 소스에 대한 메커니즘을 정의한다. 소스는 SDP 미디어 속성 ssrc-group을 사용하여 함께 그룹화할 수 있다. 나열된 각 소스는 동일한 미디어 설명에서 ssrc:<ssrc-id> <attribute>:<value> 행을 사용하여 정의할 수도 있다.
추가 실시 예에 따르면, 집합 레벨 및/또는 대안적인 해상도/품질이 시그널링될 수 있다. 고품질(HQ) 및 저품질(LQ) 타일이 두 개의 다른 ssrc 그룹으로 배치되고, 각 그룹에 대해, 코덱별 속성의 페이로드 형식, 예를 들어, 레벨 SEI 메시지가 각각의 ssrc 행에 지정될 수 있는, SDP 디스크립션의 예가 이하 설명된다.
신택스:
a=ssrc-group:<semantics> <ssrc-id> ...
a=ssrc:<ssrc> fmtp:<format> <format specific parameters>

예시:
a=ssrc:1034 fmtp:98;tx-mode=MRST;sprop-sei=...
a=ssrc:3241 fmtp:98;tx-mode=MRST;sprop-sei=...
a=ssrc-group:HQ_tiles 1034 3241 aggregate-level=153

a=ssrc:9812 fmtp:98;tx-mode=MRST;sprop-sei=...a=ssrc:1759 fmtp:98;tx-mode=MRST;sprop-sei=...a=ssrc-group:LQ_tiles 9812 1759 aggregate-level=93
예를 들어 ssrc 그룹을 사용하여 지정된 바와 같이, 타일 그룹의 다른 조합에 대해 집합 수준을 정의할 수 있다. 이는 특정 그룹의 모든 타일을 결합하여 달성한 집계 수준을 나타내는 ssrc 그룹의 속성일 수 있다.
또한 SDP에서, 상이한 디코더 능력을 갖는 상이한 UE를 처리하기 위해 또는 레이트 적응의 경우, 예를 들어 회의실 또는 회의 서버에 의해 어느 대체 해상도/품질 수준이 사용 가능하게 되는지가 시그널링될 수 있다. 예를 들어, 12 HR/12 LR 또는 16 HR/8 LR과 같은, 다양한 고해상도/저해상도 조합을 생성하는 기능이 시그널링될 수 있다. 그러한 조합에 대한 해당 집합 레벨은 SDP 디스크립션에 표시되고 SDP 제안/응답 프로세스 동안 협상될 수 있다.
PACI 패킷과 같은, RTP 헤더 또는 페이로드 헤더 확장을 사용한 시그널링에 관한 실시 예가 이하 설명된다. RFC 3550은 예를 들어 페이로드 형식에 독립적인 추가 정보를 RTP 패킷 헤더에 삽입할 수 있는 RTP 헤더 확장을 허용한다. 또한 페이로드별 헤더 확장이 가능하다. HEVC의 경우, RTP 페이로드 헤더는 PACI라고 하는 특정 유형의 패킷이 사용되는 경우, 확장될 수 있다. PACI 패킷은 페이로드 헤더 확장 구조 PHES 필드를 구비하며, 여기서 추가 제어 정보가 시그널링될 수 있다.
본 발명의 실시 예에 따르면, 구면 위치에 대한 스위칭 포인트 또는 타일링 구성에 대한 스위칭 포인트는 이러한 헤더 확장을 사용하여 시그널링될 수 있다. 예를 들어, 보는 방향이 변경되는 경우, 즉 다른 타일로 인해 타일 구성이 변경되거나 변경된 뷰포트에서 다른 수의 타일을 전송해야 하는 경우 클라이언트 측 렌더러는 새 타일 구성에 적응해야 한다. 이를 위해서는 디코딩된 비디오 프레임의 변경 사항이 렌더링된 뷰포트에서 올바르게 반영되도록 클라이언트 측 렌더러가 텍스처 위치를 다시 초기화해야 할 필요가 있다. 그러나 뷰포트 스트림은 변경이 실제로 발생하는 바로 그 비트스트림 위치/픽처에서의 이러한 변경에 대한 정보만 전달하며, 변경 이전에, 예를 들어 전송 계층 RTP와 같은 상위 계층에서 또는 변경 이전의 10개의 픽처 위치와 같은 변경 이전의 특정 시간에, 통지하지 않는다. 이 문제를 해결하기 위해, 실시 예에 따르면, 헤더는 PACI 헤더와 마찬가지로 360° 비디오 내부의 사용자 뷰포트의 구면 위치 또는 타일링 구성에 대한 정보를 전달할 수 있다. 이 정보는 예를 들어 렌더링 프로세스를 조정하기 위해 렌더링 동안 수신기에 의해 사용될 수 있다. 구면 위치 정보는 OMAF의 지역별 패킹과 유사한 구면 좌표계를 사용하여 시그널링될 수 있다.
다른 실시 예에 따르면, 회의실이나 서버와 같은 송신기는 현재 구면 위치 또는 현재 타일링 구성, 예를 들어 타일의 품질 또는 해상도 또는 수는 미래 시간에 수정될 수 있으며, 예를 들어 시간, 픽처 또는 패킷의 거리로 표현될 수 있다고 시그널링할 수 있다. 이 시그널링은 PACI 헤더 또는 다른 RTP 헤더 확장 메커니즘을 사용하여 수행될 수 있다. 이 접근 방식은 예를 들어 클라이언트 측 렌더러에서 렌더링 프로세스를 조정하기 위한 리소스의 적시 할당을 위해, 많은 경우에 유용하다.
실시 예에 따르면, 렌더러를 재초기화하는 비용이 상대적으로 클 수 있기 때문에, 구면 위치의 변경 또는 타일링 구성의 변경 회수를 시간 경과에 따라 제한하여, 예를 들어 6x4 타일링에서 8x6 타일링으로의 전환과 같이 한 타일 선택에서 다른 타일 선택으로 전환하는 것과 같은 너무 빈번한 변경을 피하도록 할 수 있다. 따라서, 이러한 실시 예에 따르면, 변경 간의 최소 거리, 예를 들어 RWP 또는 타일링 변경 간의 시간, 픽처 또는 패킷의 최소 거리가 정의될 수 있다. 최소 거리는 정의, 협상 및/또는 신호될 수 있다.
추가 실시 예에 따르면, 슬라이스 헤더가 시그널링될 수 있다. 이러한 실시 예에 따르면, 슬라이스 헤더의 길이를 표시하기 위해 PACI 헤더 또는 다른 RTP 헤더 확장 메커니즘이 사용될 수 있다. 헤더 확장에서 슬라이스 헤더의 길이를 나타내는 것은 예를 들어, 제 1 슬라이스의 슬라이스 헤더만 유지하면서 여러 슬라이스의 페이로드가 연결될 수 있는 방식으로 콘텐츠가 생성되는 상황에서 바람직하다. 이러한 시나리오에서 슬라이스는 특정 방식으로, 즉 동일한 타일 행 내에 배치된 동일한 슬라이스가 있는 RTP 스트림을 사용하여 정렬되어야 한다. 이 접근 방식은 제 1 슬라이스를 제외한 다른 모든 슬라이스가 종속 슬라이스 세그먼트로 변경될 수 있는 방식으로 콘텐츠가 생성되는 경우에도 유용한다. 예를 들어 cu_addresses 또는 slice_type 값과 같이 새롭고 더 짧은 슬라이스 헤더를 빠르게 계산할 수 있도록 하는 추가 정보가 제공될 수 있다.
원래 슬라이스 헤더의 길이가 표시되고 콘텐츠를 빠르게 조작하고 연결할 수 있는 추가 정보가 있으면, 병합된 비트스트림은 클라이언트 측에서 더 쉽게 생성될 수 있다.
실시 예들에 따르면, 수신기는 위에서 언급한 동작이 필요하다는 것을 SDP에서 시그널링할 수 있다.
이하, 다수의 원격 UE로의 콘텐츠의 타일 전달을 위한 비트레이트 적응을 다루는 본 발명의 접근 방식의 실시 예가 설명된다. RTP에서, 비디오 송신기는 RTCP 수신기 보고를 기반으로 비디오 출력 속도를 조정할 수 있다. 타일이 여러 RTP 스트림을 통해 원격 UE로 전송되는 경우, 송신기는 회의실이나 회의 서버와 같이 뷰포트 내부의 타일 품질에 우선 순위를 지정하기 위해 RTP 세션에서 다른 RTP 스트림에 할당된 비트레이트를 조정할 수 있다. 모든 타일에 할당된 비트레이트의 총합은 RTP 혼잡 제어 알고리즘에 의해 RTP 세션에 할당된 대역폭에 의해 제한된다. 위에서 설명한 바와 같이, 서버 측 타일의 압축 도메인 스티칭에 의해 유사한 방식으로 획득된 단일 RTP 스트림의 경우, 품질 및 총 비트레이트 제약을 고려해야 한다.
비트레이트 적응에 관한 실시 예에 따르면, 프로세스는 뷰포트에 따라 적응되는 균일한 비트레이트로 시작한다. 예를 들어, RTP 세션은 회의실(200) 또는 회의 서버(250)와 UE(2021)와 같은 원격 UE 사이에 설정될 수 있다. SDP 협상 동안, 원격 UE(2021)는 그의 뷰포트 종속 처리 능력을 나타낼 수 있다. 이 세션이 시작되면 회의실 또는 회의 서버는 모든 타일을 동일한 균일한 비트레이트 또는 균일한 해상도로 인코딩하고 타일을 원격 UE로 전송하기 시작한다. 원격 UE로부터 수신된 RTCP 피드백 메시지를 기반으로, 회의실은 원격 UE의 뷰포트에 대응하는 타일의 비트레이트를 우선화할 수 있고, 즉, 뷰포트 내의 타일은 뷰포트 외부의 타일과 비교할 때 고해상도 또는 품질로 인코딩될 수 있다.
비트레이트 적응에 관한 다른 실시 예에 따르면, 뷰포트 내의 최소 품질이 고려될 수 있다. 예를 들어, 세션 협상 동안 원격 UE는 실제 네트워크 상태에 관계없이 뷰포트 내부의 타일에 대한 특정 최소 품질/최소 요구 사항이 있음을 나타낼 수 있다. 예를 들어, 원격 UE는 최소 수용 가능한 타일 해상도를 표시할 수 있다. 회의실은 원격 UE의 최소 품질 요구 사항이 충족되도록 전송된 타일 세트를 배열할 수 있다. RTP 세션에 할당된 제한된 대역폭과 원격 UE의 제한된 디코더 기능으로 인해, 회의실은 뷰포트가 아닌 타일의 해상도/품질을 낮추거나 원격 보기로 스티칭할 때 360° 뷰 미만으로 제한된 범위로 이어지는 제한된 타일 세트를 보낼 수 있다.
비트레이트 적응을 위한 또 다른 실시 예에 따르면, 이용 가능한 네트워크 대역폭의 변경에 응답하여, 송신기는 비트레이트의 합이 대역폭 예산을 만족할 때까지 모든 전송된 타일에 대한 비트레이트를 동일하게 감소 또는 증가시킬 수 있다. 즉, 실제 사용자 뷰포트는 비트레이트 적응에서는 역할을 하지 않는다.
비트레이트 적응에 관한 다른 실시 예에 따르면, 뷰포트 종속 적응이 사용될 수 있다. 이전 실시 예와 달리, 실제 사용자 뷰포트는 비트레이트 적응에서 역할을 하고 송신기는 이러한 비트레이트 적응을 수행할 때 실제 사용자 뷰포트를 고려한다. 예를 들어 사용 가능한 네트워크 대역폭이 감소하는 경우, 송신기는 다음 작업 중 하나를 수행할 수 있다.
- 송신기는 뷰포트 타일을 일관된 품질로 유지하면서 뷰포트 타일이 아닌 타일의 비트레이트를 줄이려고 할 수 있다.
- 송신기는 모든 전송된 타일의 비트율이 균일하게 감소하도록 뷰포트 타일 및 비-뷰포트 타일에 동일한 방식으로 감소를 반영할 수 있다. 이로 인해 뷰포트 타일도 대역폭 감소의 영향을 받기 때문에, 사용자 QoE 경험 품질의 저하를 가져온다.
- 송신기는 예를 들어 레이턴시가 긴 조건에서 예방 조치로 비 뷰포트 타일을 이전과 동일한 품질로 유지하여 - 도 5 참조, 뷰포트 타일의 비트레이트를 더 크게 줄이도록 선택한다. 이로 인해 경우에 따라 사용자 QoE가 더 크게 감소할 수 있지만 고 네트워크 레이턴시의 경우 폴백 계층을 자주 표시해야 하는 경우에 유리할 수 있다.
사용 가능한 네트워크 대역폭이 증가하는 경우, 송신기는 다음 작업 중 하나를 수행할 수 있다:
- 송신기는 뷰포트 타일에 추가 처리량 예산을 할당하고 비 뷰포트 타일을 동일한 품질로 유지할 수 있다.
- 송신기는 모든 타일의 비트레이트를 동일하게 증가시킬 수 있다.
- 송신기는 뷰포트 타일을 동일한 비트레이트로 유지하고 추가 처리량 예산을 비 뷰포트 타일에 분배할 수 있으며, 이는 수신기가 종종 폴백 계층에 의존해야만 하는 상술된 고 레이턴시 환경(도 5 참조)에서 유용할 수 있다.
송신기에서의 비트레이트 적응 결정에 관한 전술한 실시 예는 이용가능한 대역폭의 감소/증가량 및 네트워크 레이턴시에 의존할 수 있다. 또한, 결정은 세션 협상 동안 수신기에 의해 시그널링되는 최소 허용 비트레이트 또는 품질 또는 해상도 요구사항에 의해 영향을 받을 수 있다.
설명된 개념의 일부 측면이 장치의 맥락에서 설명되었지만, 이러한 측면도 해당 방법에 대한 설명을 나타내는 것이 분명하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 기능에 해당한다. 유사하게, 방법 단계의 맥락에서 설명된 양태는 또한 대응하는 장치의 대응 블록 또는 항목 또는 특징의 설명을 나타낸다.
본 발명의 다양한 요소 및 특징은 아날로그 및/또는 디지털 회로를 사용하는 하드웨어로, 하나 이상의 범용 또는 특수 목적 프로세서에 의한 명령 실행을 통해 소프트웨어로, 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 예를 들어, 본 발명의 실시 예는 컴퓨터 시스템 또는 다른 처리 시스템의 환경에서 구현될 수 있다. 도 7은 컴퓨터 시스템(500)의 예를 도시한다. 유닛 또는 모듈 뿐만 아니라 이들 유닛에 의해 수행되는 방법의 단계는 하나 이상의 컴퓨터 시스템(500)에서 실행될 수 있다. 컴퓨터 시스템(500)은 특수 목적 또는 범용 디지털 신호 프로세서와 같은 하나 이상의 프로세서(502)를 포함한다. 프로세서(502)는 버스 또는 네트워크와 같은 통신 기반구조(504)에 연결된다. 컴퓨터 시스템(500)은 주 메모리(506), 예를 들어 랜덤 액세스 메모리(RAM), 및 보조 메모리(508), 예를 들어, 하드 디스크 드라이브 및/또는 이동식 저장 드라이브를 포함한다. 2차 메모리(508)는 컴퓨터 프로그램 또는 다른 명령이 컴퓨터 시스템(500)에 로드되도록 할 수 있다. 컴퓨터 시스템(500)은 소프트웨어 및 데이터가 컴퓨터 시스템(500)과 외부 장치 사이에서 전송될 수 있도록 하는 통신 인터페이스(510)를 더 포함할 수 있다. 통신은 전자, 전자기, 광학 또는 통신 인터페이스에 의해 처리될 수 있는 기타 신호에서 이루어질 수 있다. 통신은 유선 또는 케이블, 광섬유, 전화선, 휴대폰 링크, RF 링크 및 기타 통신 채널(512)을 사용할 수 있다.
"컴퓨터 프로그램 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 일반적으로 하드 디스크 드라이브에 설치되는 이동식 저장 장치 또는 하드 디스크와 같은 유형의 저장 매체를 지칭하기 위해 사용된다. 이러한 컴퓨터 프로그램 제품은 컴퓨터 시스템(500)에 소프트웨어를 제공하기 위한 수단이다. 컴퓨터 제어 로직이라고도 하는 컴퓨터 프로그램은 주 메모리(506) 및/또는 보조 메모리(508)에 저장된다. 컴퓨터 프로그램은 또한 통신 인터페이스(510)를 통해 수신될 수 있다. 컴퓨터 프로그램은 실행시, 컴퓨터 시스템(500)이 본 발명을 구현할 수 있게 한다. 특히, 컴퓨터 프로그램은 실행시, 프로세서(502)가 본 명세서에서 설명된 임의의 방법과 같은 본 발명의 프로세스를 구현할 수 있게 한다. 따라서, 그러한 컴퓨터 프로그램은 컴퓨터 시스템(500)의 제어기를 나타낼 수 있다. 본 개시가 소프트웨어를 사용하여 구현되는 경우, 소프트웨어는 컴퓨터 프로그램 제품에 저장되고 통신 인터페이스(510)와 같은 인터페이스인 착탈식 저장 드라이브를 사용하여 컴퓨터 시스템(500)에 로드될 수 있다.
하드웨어 또는 소프트웨어의 구현은 예를 들어, 전자적으로 판독 가능한 제어 신호가 저장되어 있는, 클라우드 스토리지, 플로피 디스크, DVD, Blue-Ray, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있으며, 이는 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터 판독 가능하다.
본 발명에 따른 일부 실시 예는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하며, 이는 프로그램 가능한 컴퓨터 시스템과 협력할 수 있으므로, 본 명세서에서 설명된 방법 중 하나가 수행된다.
일반적으로, 본 발명의 실시 예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 때 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어에 저장될 수 있다.
다른 실시 예는 기계 판독 가능 캐리어에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다. 즉, 본 발명의 방법의 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록되어 있는 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 인터넷을 통해 데이터 통신 연결을 통해 전송되도록 구성될 수 있다. 추가 실시 예는 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터, 또는 프로그램 가능한 논리 장치를 포함한다. 추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예에서, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이)는 본 명세서에서 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시 예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
상술한 실시 예는 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 기술된 배열 및 세부 사항의 수정 및 변형은 당업자에게 자명한 것으로 이해된다. 따라서, 본 명세서의 실시 예의 설명 및 설명을 통해 제공된 특정 세부사항이 아니라 임박한 특허 청구범위의 범위에 의해서만 제한되는 것이 의도이다.
참조문헌
RFC 3550 RTP: 실시간 애플리케이션을 위한 전송 프로토콜
RFC 7798 고효율 비디오 코딩(HEVC)을 위한 RTP 페이로드 형식
RFC 8285 RTP 헤더 확장을 위한 일반 메커니즘
RFC 4585 실시간 전송 제어 프로토콜(RTCP) 기반 피드백(RTP/AVPF) 용 확장 RTP 프로필
RFC 3611 RTCP 확장 보고서(XR)
RFC 5968 RTP 제어 프로토콜(RTCP) 확장을 위한 가이드라인
RFC 8108 단일 RTP 세션에서의 다수의 RTP 스트림 전송
RFC 7667 RTP 토폴로지
3GPP TS 26.114 IP 멀티미디어 하위 시스템(IMS); 멀티미디어 전화; 미디 어 처리 및 상호 작용
3GPP TS 26.223 IP 멀티미디어 서브시스템(IMS)을 사용하는 텔레프레즌 스; 미디어 처리 및 상호 작용
OMAF ISO/IEC 23090-2:2019 정보 기술 - 몰입형 미디어의 코딩 된 표현 - 2부: 전방향 미디어 형식

Claims (60)

  1. 몰입형 미디어 콘텐츠를 복수의 수신기에 제공하는 장치에 있어서, 상기 장치는:
    상기 몰입형 미디어 콘텐츠의 표현을 위해 복수의 타일을 획득하고 - 상기 복수의 타일은 상기 표현의 일부 또는 전체를 덮음 -,
    상기 복수의 수신기 중 일부 또는 전부에 대해, 상기 타일 중 하나 이상을 각각의 수신기에 전송하는 - 상기 하나 이상의 타일은 상기 각각의 수신기와 관련된 적어도 뷰포트를 덮음 - , 장치.
  2. 제 1 항에 있어서, 상기 몰입형 미디어 콘텐츠의 소스, 예를 들어, 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라 - 상기 소스는 상기 몰입형 미디어 콘텐츠의 상기 표현을 제공함 -
    를 포함하고,
    상기 장치는, 상기 복수의 타일을 획득하기 위해, 상기 표현을 상기 소스로부터의 상기 복수의 타일로 인코딩하고,
    상기 장치는 상기 수신기로, RTP 세션과 같은 세션을 설정하고, RTP 스트림과 같은 하나 이상의 비디오 스트림을 사용하여 상기 타일 중 하나 이상을 각각의 수신기에 전송하는, 장치.
  3. 제 1 항에 있어서, 상기 장치, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 서버는 상기 몰입형 미디어 콘텐츠의 외부 소스, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라에 연결되며, 상기 소스는 상기 몰입형 미디어 콘텐츠의 상기 표현을 제공하고,
    상기 장치는 상기 외부 소스로부터 상기 몰입형 미디어 콘텐츠의 상기 표현을 수신하고,
    상기 장치는 상기 복수의 타일을 획득하기 위해, 상기 표현을 상기 소스로부터 상기 복수의 타일로 인코딩하고,
    상기 장치는 상기 수신기로 RTP 세션과 같이 세션을 설정하고, RTP 스트림과 같은 하나 이상의 비디오 스트림을 사용하여 상기 타일 중 하나 이상을 각각의 수신기에 전송하도록 구성되는, 장치.
  4. 제 1 항에 있어서, 상기 장치, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 서버는 상기 몰입형 미디어 콘텐츠의 외부 소스, 예를 들어 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라에 연결 가능하며, 상기 소스는 상기 몰입형 미디어 콘텐츠의 상기 표현을 타일 형식으로 제공하고,
    상기 장치는 상기 복수의 타일을 획득하기 위해, 상기 외부 소스로부터 상기 몰입형 미디어 콘텐츠의 상기 타일된 표현을 수신하고,
    상기 장치는 상기 수신기로 RTP 세션과 같은 세션을 설정하고, RTP 스트림과 같은 하나 이상의 비디오 스트림을 사용하여 상기 타일 중 하나 이상을 각각의 수신기에 전송하는, 장치.
  5. 선행 항들 중 어느 한 항에 있어서, 상기 장치는,
    상기 수신기 각각으로부터 뷰포트 정보를 수신하고,
    상기 뷰포트 정보에 응답하여, 상기 수신기 각각에 복수의 비디오 또는 RTP 스트림을 전송하는 - 각 비디오 스트림은 상기 각각의 수신기의 상기 뷰포트를 덮는 하나 이상의 타일을 포함함 - , 장치.
  6. 제 5 항에 있어서, 상기 장치는 상기 복수의 타일을 획득하기 위해, 상기 표현을 상기 복수의 타일로 인코딩하고, 각 타일을 하나의 비디오 스트림, 예를 들어 RTP 스트림으로 패킷화하고,
    상기 장치는 상기 수신기의 적어도 상기 뷰포트를 덮는 상이한 타일 세트를 수신기에 송신하는, 장치.
  7. 선행 항들 중 어느 한 항에 있어서, 상기 장치에 의해 전송된 상기 비디오 또는 RTP 스트림의 수는 타일의 수와 동일한, 장치.
  8. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 복수의 타일을 하나의 RTP 스트림으로 클러스터링 및 패킷화하는, 장치.
  9. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 수신기의 일부 또는 모두와 연결된 상기 뷰포트는 공통 뷰포트인, 장치.
  10. 제 9 항에 있어서, 상기 각각의 수신기의 상기 공통 뷰포트는 하나 이상의 특정 수신기의 뷰포트이거나 상기 장치에 의해 설정된 미리 정의된 뷰포트인, 장치.
  11. 제 9 항 또는 제 10 항에 있어서, 상기 장치는,
    세션, 예를 들어, RTP 세션 동안 상기 복수의 수신기에 상기 몰입형 미디어 콘텐츠를 제공하고,
    상기 전체 세션 동안 또는 상기 세션 중 하나 이상의 특정 기간 동안 적어도 상기 공통 뷰포트를 덮는 상기 타일을 전송하는, 장치.
  12. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서, 상기 장치는,
    상기 수신기 중 하나로부터, 예를 들어 SDP 협상 동안에 상기 하나의 수신기가 리더 수신기라는 시그널링을 수신하고,
    상기 시그널링에 응답하여, 다른 수신기의 일부 또는 전부에 뷰포트가 있는 RTCP 피드백 메시지와 같은 뷰포트 정보를 보내지 않도록 지시하고,
    상기 리더 수신기로부터의 뷰포트 정보에 응답하여, 상기 나머지 수신기 중 일부 또는 전부에 복수의 비디오 또는 RTP 스트림을 전송하는 - 각 비디오 스트림은 상기 리더 수신기의 적어도 뷰포트를 덮는 하나 이상의 타일을 포함함 - , 장치.
  13. 제 9 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 장치는,
    상기 수신기의 제1 그룹에 복수의 비디오 또는 RTP 스트림을 전송하고 - 각각의 비디오 스트림은 상기 각각의 수신기의 적어도 제1 공통 뷰포트를 덮는 하나 이상의 타일을 포함함 - ,
    복수의 비디오 또는 RTP 스트림을 상기 수신기의 제2 그룹에 전송하는 - 각각의 비디오 스트림은 상기 각각의 수신기의 적어도 제2 공통 뷰포트를 덮는 하나 이상의 타일을 포함함 - , 장치.
  14. 제 13 항에 있어서, 상기 각각의 수신기의 상기 제 1 공통 뷰포트는 상기 복수의 수신기 중 제1 수신기의 뷰포트 또는 상기 장치에 의해 설정된 미리 정의된 제1 뷰포트이고,
    상기 각각의 수신기의 상기 제2 공통 뷰포트는 상기 복수의 수신기 중 제2 수신기의 뷰포트 또는 상기 장치에 의해 설정된 미리 정의된 제2 뷰포트인, 장치.
  15. 제 13 항 또는 제 14 항에 있어서, 상기 장치는,
    상기 수신기로부터 상기 수신기 중 제 1 또는 제 2 수신기를 표시하는 시그널링을 수신하고,
    상기 시그널링에 응답하여, 상기 표시된 수신기의 적어도 상기 뷰포트를 덮는 하나 이상의 타일을 상기 수신기에 전송하는, 장치.
  16. 제 9 항 내지 제 15 항 중 어느 한 항에 있어서, 상기 장치는 동일한 인코딩 또는 상이한 인코딩을 사용하여 상기 각각의 수신기에 적어도 상기 공통 뷰포트를 덮는 상기 하나 이상의 타일을 전송하는, 장치.
  17. 제 16 항에 있어서, 상기 장치는,
    상기 수신기와 상기 장치 사이의 다른 네트워크 조건,
    수신기의 최소 허용 품질 요구 사항,
    수신기의 디코딩 기능
    중 하나 이상에 따라 상기 타일에 대해 상이한 인코딩을 사용하는, 장치.
  18. 선행 항들 중 어느 한 항에 있어서, 상기 수신기로부터의 상기 뷰포트 정보에 응답하여, 상기 장치는 상기 수신기의 뷰포트 외부의 영역에 대응하는 타일에 대한 품질 또는 해상도보다 높은 품질 또는 해상도로 상기 수신기의 뷰포트 내의 영역에 대응하는 상기 타일을 인코딩하는, 장치.
  19. 선행 항들 중 어느 한 항에 있어서, 상기 장치와 수신기 사이의 링크에서 레이턴시에 따라, 상기 장치는,
    상기 수신기의 뷰포트 내에서만 타일을 전송하거나,
    상기 수신기의 뷰포트 내부에 타일을 전송하고 상기 수신기의 뷰포트 외부에 다수의 타일을 전송하는 - 상기 수는 상기 링크에서 레이턴시가 증가함에 따라 증가함 - , 장치.
  20. 제 19 항에 있어서, 상기 장치는,
    상기 레이턴시가 제 1 임계값 이하인 경우 상기 수신기의 뷰포트 내에서만 타일을 전송하거나,
    상기 레이턴시가 상기 제 1 임계값 이상이고 제 2 임계값 이하인 경우, 전체 표현이 아닌, 상기 수신기의 뷰포트보다 넓은 영역에 대해 타일을 전송하거나,
    상기 레이턴시가 상기 제 2 임계값을 초과하는 경우, 상기 전체 표현에 대해 타일을 전송하는, 장치.
  21. 제 18항 내지 제 20 항 중 어느 한 항에 있어서, 상기 장치는 상기 수신기의 뷰포트 외부의 상기 타일을 상기 수신기의 뷰포트 내부의 상기 타일과 동일한 해상도 또는 품질 또는 낮은 해상도 또는 품질로 전송하는, 장치.
  22. 제 21 항에 있어서, 상기 장치는 상기 수신기의 뷰포트 외부로 상기 타일을 상기 타일과 상기 수신기의 뷰포트까지의 거리에 따라 해상도 또는 품질이 감소하면서 전송하는, 장치.
  23. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 장치는,
    상기 수신기 각각으로부터 뷰포트 정보를 수신하고,
    주어진 수신기에 대해, 상기 뷰포트 정보에 응답하여, 타일의 서브세트, 예를 들어 상기 주어진 수신기 UE의 뷰포트 품질을 최대화하는 서브세트를 선택하여, 타일 스티칭을 수행하고,
    단일 RTP 스트림으로 뷰포트에 최적화된 스트림을 상기 수신기 각각에 전송하는, 장치.
  24. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 상기 각각의 비디오 또는 RTP 스트림에 할당된 대역폭을 변경하는, 장치.
  25. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 상기 수신기가 유효한 비트스트림을 획득하기 위해 상기 타일을 함께 스티칭하도록 하기 위해 수신기에 전송되는 상기 타일을 인코딩하는, 장치.
  26. 제 25 항에 있어서, 상기 장치는 예를 들어 세션 디스크립션 프로토콜(SDP)을 사용하여, 상기 전송된 타일의 스티칭 가능 특성을 시그널링하는, 장치.
  27. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 예를 들어 품질과 같은, 상기 타일의 특정 속성에 따라 상기 타일을 복수의 그룹으로 그룹화하고, 상기 각 그룹을 상이한 소스와 연관시키고, 상기 페이로드 형식 및 코덱 특정 속성, 예를 들어, 상기 타일에 대한 집합 레벨 및/또는 대안적인 해상도/품질을 각 소스에 대해 수신기에 시그널링하는, 장치.
  28. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 PACI 패킷과 같이, RTP 헤더 또는 페이로드 헤더 확장을 사용하는 타일링 구성 또는 상기 사용자 뷰포트의 구면 위치에 대한 전환 포인트를 수신기에 시그널링하는, 장치.
  29. 제 28 항에 있어서, 상기 장치는,
    상기 몰입형 미디어 콘텐츠 또는 상기 타일링 구성 내 상기 수신기 뷰포트의 구면 위치에 대한 정보를, 또는
    현재 구면 위치 또는 현재 타일링 구성, 예를 들어 품질 또는 해상도 또는 타일 수는 미래 시간에 수정, 예를 들어 시간, 표현 또는 패킷의 거리로 표현되는 것을
    시그널링하는, 장치.
  30. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 미리 정의된 간격에서, 예를 들어, 영역별 패킹, RWP 또는 타일링 변경 간의 시간, 표현, 또는 패킷의 최소한의 거리에서 구면 위치 또는 타일링 구성을 전환하는, 장치.
  31. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 예를 들어, PACI 패킷과 같은 RTP 헤더 또는 페이로드 헤더 확장을 사용하여, 슬라이스 헤더의 길이를 수신기에 시그널링하는, 장치.
  32. 선행 항들 중 어느 한 항에 있어서, 상기 장치는 비트레이트 적응을 수행하여, 타일이 상이한 비트레이트로 상기 수신기에 전송되도록 하는, 장치.
  33. 제 32 항에 있어서, 상기 장치는 RTCP 수신기 보고, 예를 들어, 상기 장치와 수신기 사이의 링크에서 네트워크 상태를 나타내는 보고에 기초하여 비트레이트 적응을 수행하는, 장치.
  34. 제 32 항 내지 제 33 항 중 어느 한 항에 있어서, 상기 장치와 수신기 사이의 세션이 시작될 때, 상기 장치는 단일의 균일한 비트레이트 또는 균일한 해상도로 모든 타일을 초기에 인코딩하고 상기 타일을 상기 수신기로 전송하기 시작하고,
    상기 수신기로부터의 RTCP 피드백 메시지에 응답하여, 상기 장치는 상기 뷰포트 내의 상기 타일을 예를 들어, 상기 뷰포트 외부의 타일보다 높은 해상도 또는 품질로 인코딩하여, 상기 원격 UE의 상기 뷰포트에 대응하는 상기 타일의 상기 비트레이트를 우선화하는, 장치.
  35. 제 32 항 내지 제 34 항 중 어느 한 항에 있어서, 수신기의 뷰포트 내에서 최소의 품질/해상도 요구 사항에 대한 응답으로, 상기 장치는 예를 들어 비 뷰포트 타일의 해상도/품질을 줄이거나, 제한된 타일 세트를 전송하여, 상기 수신기의 상기 최소 품질 요구 사항이 충족되도록 상기 전송된 타일 세트를 배열하는, 장치.
  36. 제 32 항 내지 제 35 항 중 어느 한 항에 있어서, 사용 가능한 네트워크 대역폭의 변경에 응답하여, 상기 장치는 상기 비트레이트의 총합이 대역폭 예산을 만족할 때까지 상기 모든 전송된 타일의 비트레이트를 동일하게 감소/증가시키는, 장치.
  37. 제 32 항 내지 제 35 항 중 어느 한 항에 있어서, 상기 장치는 비트레이트 적응을 수행할 때 실제 사용자 뷰포트를 고려하는, 장치.
  38. 제 37 항에 있어서, 상기 사용 가능한 네트워크 대역폭이 감소하는 경우, 상기 장치는:
    상기 뷰포트 타일을 일관된 품질로 유지하면서 상기 비 뷰포트 타일의 상기 비트레이트를 줄이거나,
    모든 전송된 타일의 비트레이트가 균일하게 감소하도록 뷰포트 및 비 뷰포트 타일에 동일한 방식으로 상기 감소를 반영하거나,
    비 뷰포트 타일을 이전과 동일한 품질로 유지하고 상기 뷰포트 타일의 상기 비트레이트를 더 크게 줄이는
    것 중 하나를 실행하는, 장치.
  39. 제 37 항에 있어서, 상기 사용 가능한 네트워크 대역폭이 증가하는 경우, 상기 장치는:
    추가 처리량 예산을 상기 뷰포트 타일에 할당하고 상기 비 뷰포트 타일을 동일한 품질로 유지하거나,
    상기 모든 타일의 비트레이트를 동일한 방식으로 증가시키거나,
    상기 뷰포트 타일을 동일한 비트레이트로 유지하고 상기 추가 처리량 예산을 비 뷰포트 타일에 분배하는
    것 중 하나를 수행하는, 장치.
  40. 몰입형 미디어 콘텐츠를 제공하는 장치에 있어서, 상기 몰입형 미디어 콘텐츠의 표현은 복수의 타일로 표현되고, 상기 복수의 타일은 상기 표현의 일부 또는 전부를 덮고, 상기 장치는:
    송신기로부터 하나 이상의 비디오 또는 RTP 스트림을 수신하고 - 각각의 스트림은 상기 타일의 하나 이상을 포함하고, 상기 복수의 비디오 또는 RTP 스트림으로부터의 상기 타일은 상기 장치와 연관된 적어도 뷰포트를 커버함 - ,
    상기 복수의 비디오 또는 RTP 스트림을 통해 수신된 상기 타일을 사용하여 상기 장치의 사용자에게 제시되는 단일 비디오 스트림을 획득하는, 장치.
  41. 제 40 항에 있어서, 상기 장치는 상기 개별 비디오 또는 RTP 스트림을 올바른 방식으로 상기 단일 비디오 스트림으로 결합하기 위해서, 예를 들어, RTP 헤더 확장 또는 RTP 페이로드 헤더 확장을 사용하여, 상기 장치의 상기 뷰포트에서 비디오 또는 RTP 스트림에 의해 운반되는 타일의 위치에 대한 시그널링을 수신하는, 장치.
  42. 제 40 항 내지 제 41 항 중 어느 한 항에 있어서, 상기 타일은 상기 장치가 상기 단일 비디오 스트림을 획득하기 위해 상기 타일을 함께 스티칭하도록 하기 위해서 상기 하나 이상의 비디오 또는 RTP 스트림에 인코딩되는, 장치.
  43. 제 42 항에 있어서, 상기 장치는 예를 들어 상기 세션 디스크립션 프로토콜(SDP)을 사용하여, 상기 전송된 타일의 스티칭 가능 특성을 수신하는, 장치.
  44. 제 40 항 내지 제 43 항 중 어느 한 항에 있어서, 상기 단일 비디오 스트림을 획득하기 위해서, 상기 장치는 상기 개별 비디오 또는 RTP 스트림을 패킷 해제하고, 타일 스티칭을 수행하고, 상기 단일 비디오 스트림을 디코딩 및 렌더링하는, 장치.
  45. 제 40 항 내지 제 44 항 중 어느 한 항에 있어서, 상기 장치와 연관된 상기 뷰포트는 상기 장치의 상기 뷰포트이고, 상기 장치는 예를 들어 RTCP 피드백 메시지를 사용하여, 상기 송신기에 뷰포트 정보를 전송하는, 장치.
  46. 제 45 항에 있어서, 상기 장치는 예를 들어 SDP 협상 동안 상기 송신기에, 상기 장치의 상기 뷰포트가 상기 몰입형 미디어 콘텐츠를 수신하는 하나 이상의 추가 장치에 대한 뷰포트로 사용되는 것을 시그널링하는, 장치.
  47. 제 40 항 내지 제 44 항 중 어느 한 항에 있어서, 상기 장치와 연결된 상기 뷰포트는 공통 뷰포트이고, 상기 공통 뷰포트는 상기 몰입형 미디어 콘텐츠를 수신하는 복수의 추가 장치 중 하나의 뷰포트이거나, 상기 송신기에 의해 설정된 미리 정의된 뷰포트인, 장치.
  48. 제 47 항에 있어서, 상기 장치는 상기 장치와 연관된 상기 뷰포트가 공통 뷰포트라는 시그널링을 수신하고, 상기 장치는 상기 시그널링에 응답하여, 뷰포트 정보를 상기 송신기로 보내지 않는, 장치.
  49. 선행 항들 중 어느 한 항에 있어서, 상기 몰입형 콘텐츠는,
    3DoF, 3 자유도 콘텐츠, 예를 들어, 하나 이상의 360° 비디오,
    6DoF, 6 자유도 콘텐츠, 예를 들어, 실제 개체와 같은 캡처된 볼류메트릭 개체 또는 실제 개체의 볼류메트릭 비디오,
    컴퓨터 생성 이미지(CGI)와 같이 컴퓨터 그래픽을 사용하여 생성된 3D 개체
    중 하나 이상을 포함하는, 장치.
  50. 선행 항들 중 어느 한 항에 있어서, 상기 발신기가 전송하거나 상기 수신기가 수신하는 상기 몰입형 콘텐츠는:
    360°비디오 또는 360°그래픽의 경우, 투영된 비디오 전송, 예를 들어 특정 프로젝션을 사용하여 전송된 전체 360° 비디오의 일부,
    볼류메트릭 개체 또는 볼류메트릭 비디오의 경우, 전체 볼류메트릭 개체 또는 특정 3D 형식의 상기 볼류메트릭 개체 일부를 예를 들어, 포인트 클라우드 또는 메쉬로서의 3D 데이터 전송,
    게임 등 3D 컴퓨터 그래픽의 경우, 멀티 포인트 클라우드 또는 메쉬와 같은 특정 3D 형식의, 다중 볼류메트릭 개체와 같은 전체 장면
    중 하나 이상을 포함하는, 장치.
  51. 선행 항들 중 어느 한 항에 있어서, 상기 몰입형 콘텐츠는,
    특정 보충 강화 정보(SEI) 매개변수, 예를 들어 sprop-sei 매개변수,
    특정 비디오 코덱 또는 프로필의 표시, 또는
    "비디오포맷 3DoF" 또는 "비디오포맷 6DoF" 또는 "비디오포맷 볼류메트릭"과 같은 세션 디스크리션 프로토콜(SDP)의 추가 속성
    에 의해 식별되는, 장치.
  52. 선행 항들 중 어느 한 항에 있어서, 상기 몰입형 콘텐츠가 하나 이상의 볼류메트릭 개체를 포함하는 볼류메트릭 장면을 표현하는 경우, 상기 몰입형 콘텐츠는 상기 볼류메트릭 개체의 각각의 속성을 설명하기 위한 복수의 비트스트림, 예를 들어, 적어도 텍스처 비트스트림 및 기하학 비트스트림, 또는 압축된 메시 비트스트림 및 텍스처 비트스트림을 포함하는, 장치.
  53. 제 52 항에 있어서, 상기 상이한 비트스트림의 사용은 예를 들어, 상기 SDP를 사용하여 시그널링되고, 상기 SDP는 상기 상이한 종류의 비트스트림 및 상기 비트스트림의 가능한 변형에 대한 정보를 포함하는, 장치.
  54. 제 52 항 또는 제 53 항에 있어서, 볼류메트릭 개체의 각각의 속성을 설명하는 상기 복수의 비트스트림은, 예를 들어 상기 SDP의 그룹화 메커니즘을 사용하여, 서로 연관되는, 장치.
  55. 시스템에 있어서,
    제 1 항 내지 제 39 항 중 어느 한 항의 장치를 포함하는 송신기, 및
    제 30 항 내지 제 49 항 중 어느 한 항의 장치를 포함하는 수신기
    를 포함하는, 시스템.
  56. 제 55 항에 있어서, 상기 송신기는,
    상기 몰입형 미디어 콘텐츠의 소스, 예를 들어, 360° 카메라를 포함하는 텔레컨퍼런싱 또는 텔레프레즌스 장치, 또는
    상기 몰입형 미디어 콘텐츠의 외부 소스, 예를 들어, 텔레컨퍼런싱 또는 텔레프레즌스 시스템의 360° 카메라에 연결 가능한 텔레컨퍼런싱 또는 텔레프레즌스 서버,
    를 포함하는, 시스템.
  57. 송신기에서 복수의 수신기로 몰입형 미디어 콘텐츠를 제공하는 방법에 있어서, 상기 방법은:
    상기 몰입형 미디어 콘텐츠의 표현을 위해 복수의 타일을 획득하는 단계 - 상기 복수의 타일은 상기 표현의 일부 또는 전부를 덮음 - , 및
    상기 복수의 수신기 중 일부 또는 전부에 대해, 상기 타일 중 하나 이상을 각각의 수신기에 전송하는 단계 - 상기 하나 이상의 타일은 상기 각각의 수신기와 관련된 적어도 뷰포트를 덮음 -
    을 포함하는, 방법.
  58. 몰입형 미디어 콘텐츠를 수신기에서 제시하는 방법에 있어서, 상기 몰입형 미디어 콘텐츠의 표현은 복수의 타일로 표현되고, 상기 복수의 타일은 상기 표현의 일부 또는 전체를 덮고, 상기 방법은:
    송신기로부터 복수의 비디오 또는 RTP 스트림을 수신하는 단계 - 각 스트림은 상기 타일의 하나 이상을 포함하고, 상기 복수의 비디오 또는 RTP 스트림으로부터의 상기 타일은 상기 장치와 연관된 적어도 뷰포트를 커버함 - , 및
    상기 복수의 비디오 또는 RTP 스트림을 통해 수신된 상기 타일을 사용하여 상기 장치의 사용자에게 제시되는 단일 비디오 스트림을 획득하는 단계
    를 포함하는, 방법.
  59. 제 57 항 또는 제 58 항에 있어서, 상기 수신기는 제 40 항 내지 제 49 항 중 어느 한 항의 장치를 포함하고/하거나,
    상기 송신기 제 1 항 내지 제 39 항 중 어느 한 항의 장치를 포함하는, 방법.
  60. 프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제 57 항 내지 제 59 항 중 어느 한 항의 방법을 수행하게 하는 명령을 포함하는 컴퓨터 프로그램 제품.
KR1020227016346A 2019-10-14 2020-10-08 몰입형 뷰포트 종속 다자간 비디오 통신 KR20220073851A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19203077.3 2019-10-14
EP19203077 2019-10-14
PCT/EP2020/078277 WO2021074005A1 (en) 2019-10-14 2020-10-08 Immersive viewport dependent multiparty video communication

Publications (1)

Publication Number Publication Date
KR20220073851A true KR20220073851A (ko) 2022-06-03

Family

ID=68289823

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227016346A KR20220073851A (ko) 2019-10-14 2020-10-08 몰입형 뷰포트 종속 다자간 비디오 통신

Country Status (4)

Country Link
US (1) US20220239719A1 (ko)
EP (1) EP4046389A1 (ko)
KR (1) KR20220073851A (ko)
WO (1) WO2021074005A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11831861B2 (en) * 2019-08-12 2023-11-28 Intel Corporation Methods for viewport-dependent adaptive streaming of point cloud content
US11381817B2 (en) * 2019-09-24 2022-07-05 At&T Intellectual Property I, L.P. Viewport-based transcoding for immersive visual streams
US11924393B2 (en) * 2021-01-22 2024-03-05 Valeo Comfort And Driving Assistance Shared viewing of video among multiple users
US20220337800A1 (en) * 2021-04-19 2022-10-20 Mediatek Singapore Pte. Ltd. Systems and methods of server-side dynamic adaptation for viewport-dependent media processing
US11943073B2 (en) * 2021-05-11 2024-03-26 Tencent America LLC Multiple grouping for immersive teleconferencing and telepresence
EP4363946A1 (en) * 2021-06-28 2024-05-08 Nokia Technologies Oy Head motion dependent viewport region modification for omnidirectional conversational vdd
WO2023014085A1 (ko) * 2021-08-03 2023-02-09 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
CN113810755B (zh) * 2021-09-15 2023-09-05 北京百度网讯科技有限公司 全景视频预览的方法、装置、电子设备及存储介质
US11979244B2 (en) * 2021-09-30 2024-05-07 Snap Inc. Configuring 360-degree video within a virtual conferencing system
WO2023062271A1 (en) * 2021-10-14 2023-04-20 Nokia Technologies Oy A method, an apparatus and a computer program product for video coding
US11574444B1 (en) * 2021-11-05 2023-02-07 Adobe Inc. Multi-characteristic remeshing for graphical objects
US11539766B1 (en) * 2021-11-05 2022-12-27 Lenovo (United States) Inc. Selection of images to transmit as part of video conference based on network issues and/or other conditions
US11983822B2 (en) 2022-09-02 2024-05-14 Valeo Comfort And Driving Assistance Shared viewing of video with prevention of cyclical following among users

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791882B (zh) * 2016-03-22 2018-09-18 腾讯科技(深圳)有限公司 视频编码方法及装置
EP3673659A1 (en) * 2017-08-24 2020-07-01 Fraunhofer Gesellschaft zur Förderung der Angewand Characteristics signaling for omnidirectional content
US10757389B2 (en) * 2018-10-01 2020-08-25 Telefonaktiebolaget Lm Ericsson (Publ) Client optimization for providing quality control in 360° immersive video during pause
US11729243B2 (en) * 2019-09-20 2023-08-15 Intel Corporation Dash-based streaming of point cloud content based on recommended viewports
US11838345B2 (en) * 2019-12-06 2023-12-05 Intel Corporation Session description protocol (SDP) based signaling of camera calibration parameters

Also Published As

Publication number Publication date
US20220239719A1 (en) 2022-07-28
WO2021074005A1 (en) 2021-04-22
EP4046389A1 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
US20220239719A1 (en) Immersive viewport dependent multiparty video communication
US20220078396A1 (en) Immersive media content presentation and interactive 360° video communication
US8988486B2 (en) Adaptive video communication channel
KR101365882B1 (ko) 멀티미디어 회의 호에 대한 시각적 구성의 관리 기법
CA2737728C (en) Low latency video encoder
KR20040069360A (ko) 클라이언트 대역폭 또는 성능에 기초한 타겟된 스케일가능한 비디오 멀티캐스트
US20220279254A1 (en) Facilitating Video Streaming and Processing By Edge Computing
EP3416399B1 (en) Methods, devices, and computer programs for improving streaming of portions of media data
US20220329883A1 (en) Combining Video Streams in Composite Video Stream with Metadata
KR20140126372A (ko) 데이터, 멀티미디어 및 비디오 전송 갱신 시스템
US20230033063A1 (en) Method, an apparatus and a computer program product for video conferencing
US20230146498A1 (en) A Method, An Apparatus and a Computer Program Product for Video Encoding and Video Decoding
JP7408798B2 (ja) 遠隔端末用の没入型テレビ会議およびテレプレゼンスのためのrtcpビューポートのシグナリングにおけるイベントベースのトリガ間隔
US20240155072A1 (en) Three-dimensional visual communication sessions
Gül et al. IMMERSIVE MEDIA CONTENT PRESENTATION AND INTERACTIVE 360 VIDEO COMMUNICATION
EP4284000A1 (en) An apparatus, a method and a computer program for volumetric video
US20240007603A1 (en) Method, an apparatus and a computer program product for streaming of immersive video
Johanson Multimedia communication, collaboration and conferencing using Alkit Confero
EP4236326A1 (en) A method, an apparatus and a computer program product for transmission of immersive media
Guo et al. Adaptive transmission of split-screen video over wireless networks
WO2024069045A1 (en) An apparatus and a method for processing volumetric video content
WO2022248763A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal