KR20170106389A

KR20170106389A - 독립적으로 인코딩된 배경 업데이트들에 기초한 비디오 송신

Info

Publication number: KR20170106389A
Application number: KR1020177022602A
Authority: KR
Inventors: 얀 토레 코르넬리우센; 안데르스 에이케네스; 하바르 페데르센 알스타; 스테인 오베 에릭센; 에아몬 샤브
Original assignee: 허들리 인코포레이티드
Priority date: 2015-01-22
Filing date: 2016-01-22
Publication date: 2017-09-20
Also published as: KR102343700B1; JP2018509113A; US10237548B2; WO2016118897A1; AU2016209079A1; CA2974104C; NO20171248A1; US20160219241A1; AU2016209079B2; CA2974104A1; JP7045856B2

Abstract

비디오 송신의 대역폭 제한들을 완화하고, 수신기에서 비디오의 품질을 강화하며, VR/AR 경험을 개선하기 위한 시스템들 및 방법들이 제공된다. 특히, 개선된 비디오 송신 및 렌더링 시스템이 고 해상도 비디오들을 생성하기 위해 제공된다. 시스템들은 그 내부에 송신기 및 VR/AR 수신기를 가지며, 송신기는 외부 인코더 및 코어 인코더를 포함하는 한편, 수신기는 코어 디코더 및 외부 디코더를 포함한다. 외부 인코더는 소스로부터 비디오를 수신하고, 그리고 현출 비디오 및 인코딩된 3 차원 배경을 별도로 출력하도록 적응되고, 외부 디코더는 배경을 현출 비디오와 병합하도록 적응됨으로써 증강 비디오를 생성한다. 또한, 팬-틸트-줌 (PTZ) 하드웨어 없이 PTZ 동작들을 시뮬레이팅하는 시스템이 제공된다. 비디오 송신을 위한 방법들이 추가로 제공되며, 이에 의해 3 차원 배경 모델이 생성되고, 배경이 독립적으로 인코딩되고 점증적으로 업데이트되며, 배경 및 업데이트들이 비디오로부터 독립적으로 송신된다.

Description

독립적으로 인코딩된 배경 업데이트들에 기초한 비디오 송신{VIDEO TRANSMISSION BASED ON INDEPENDENTLY ENCODED BACKGROUND UPDATES}

본 개시물은 일반적으로 비디오 송신에 관한 것이다. 구체적으로, 본 개시물은 비디오 송신의 대역폭 제한들을 완화하고 수신기에서 비디오 품질을 강화하기 위한 장치 및 방법들에 관한 것이다. 보다 구체적으로, 독립적으로 인코딩된 배경 및 배경 업데이트들에 기초하여 수신기에서 고 해상도 비디오를 생성하기 위한 개선된 비디오 송신 시스템들 및 방법들이 제공된다.

실시간 비디오 통신 시스템 및 텔레프레전스 (telepresence) 의 첨단 분야는 원격 사용자들에 대해 또 다른 물리 공간에 존재하고 있는 경험의 시뮬레이팅을 추구함에 따라 본질적인 도전들에 직면하고 있다. 이것은 현재 기술 상태의 해상도를 갖는 상업적으로 입수가능한 단일 렌즈 카메라들과 비교하여, 인간의 눈이 관심 오브젝트들 상에 그 고 해상도 중심와 (fovea) 를 고정시키는 능력으로 그 시야보다 대단히 우월한 상태를 유지하기 때문이다. http://www.clarkvision.com/imagedetail/eye-resolution.html (인간 눈의 해상도는 120 도에 걸쳐 576 메가화소인 것으로 추정) 참조. 부가적으로, 텔레프레전스 시스템들은 실제로 대부분의 사용자들에게 이용가능한 네트워크 대역폭에 의해 제한된다. 이에 따라, 텔레프레전스가 대부분의 테블릿들, 폰들, 및 랩탑들에서 발견된 좁은 시야의 카메라들을 사용하여 단일 사람-대-사람 비디오 챗의 외부에서 제한된 업테이크 (uptake) 를 보였다는 것은 놀랍지 않다.

상업적인 텔레프레전스 시스템들에서 자동화 및 수동 팬-틸트-줌 (PTZ) 카메라는 장면에서의 관심의 선택 부분들 상에 시야를 광학적으로 그리고 기계적으로 고정시키는 것에 의해 단일 렌즈 카메라 해상도의 제한을 극복하도록 시도하고 있다. 이것은 해상도 제한들을 부분적으로 완화하지만, 몇몇 결점들을 갖는다. 예를 들어, 주어진 시간에 단지 하나의 기계적 고정만이 가능하고; 그 결과, 상이한 관심들을 갖는 다중 원격 사용자들이 충분히 서빙되지 않을 수도 있다. 부가적으로, 줌 렌즈 및 기계적 팬-틸트 메커니즘은 카메라 시스템의 비용을 올리고 전체 시스템의 신뢰성에 대한 새로운 도전들을 포스트한다. 즉, 자동화된 PTZ 시스템은 통상적으로 그 수명을 통해 더 적은 이동 사이클들을 지속하는 수동 시스템과 비교하여 역학에 대한 더 높은 요구들을 생성한다. 정지식 카메라와 비교하여, 고 품질 비디오 인코딩을 위한 대역폭-요구가 또한 상당이 증가한다. 유사하게, 기존 시스템들에서의 일부 디지털 PTZ 는, 예를 들어 비디오 인코딩을 위한 더 높은 비트레이트 요건 및 원단 (far end) 상의 다중 사용자들에 의해 제어될 불능을 포함한, 위에 논의된 바와 같은 많은 결점들을 제시한다.

파노라마 및 초 광각 비디오 카메라들은 원하는 사용자 경험을 전달하기 위해 텔레프레전스 시스템들의 해상도 요건들을 충족할 수도 있다. 이들 카메라들은 현재 표준들을 훨씬 넘는 화소 레이트 및 센서 해상도에서의 성장을 위한 포텐셜을 갖는다. 이것은 예를 들어 곡면 센서 표면들 및 파노라마 렌즈 설계들에 의해 가능해질 수 있다. http://www.jacobsschool.ucsd.edu/news/news rejeases/release.sfe?id-1418 (적어도 85 메가화소들까지 해상도가 가능한 120 도 FOV 이미저를 논의); http://image-sensors-world.blogspot.co.il/2014/04/vlsi-symposia-sony-presents-curved.html (센서 제조자가 곡면 이미지 센서들의 프로토타입들을 공지) 참조. 하지만, 이러한 설계들은 현재 네트워크의 용량 및 비디오 인코딩 효율에 상당한 부담을 줄 것이고, 이에 의해 이들을 넓은 현실 세계 전개에 대해 실행불가능하게 한다. 예를 들어, 초당 30 프레임들에서 85 메가화소의 비디오 카메라는 10 Mbit/s 링크에 적합해지기 위해 0.0002 bit/픽셀에 이르기까지 압축을 필요로 하게 된다.

이에 따라, 비디오 송신의 대역폭 제한들을 완화하기 위해 그리고 종래 카메라 하드웨어에 기초한 고 해상도 비디오를 생성하기 위해 개선된 방법들 및 시스템들에 대한 필요성이 있다. 또한, 최신 실시간 통신 시스템 및 원하는 텔레프레전스 경험들을 가능하게 하기 위해 이러한 개선들을 활용하기 위한 필요성이 있다.

따라서, 이 개시물의 목적은 비디오 송신 상의 대역폭 제한들을 완화함으로써 종래 하드웨어 장비를 사용하여 광각, 고 해상도 비디오를 생성하기 위한 방법들 및 시스템들을 제공하는 것이다.

특히, 이 개시물에 따라, 일 실시형태에서, 비디오를 송신하기 위한 방법이 제공되며, 방법은, 1) 비디오로부터 장면의 정적 배경을 결정하는 것에 의해 배경 모델을 초기화하는 단계; 및 2) 비디오로부터 독립적으로 배경 모델을 인코딩하는 것에 배경 모델로서 장면의 배경을 송신하는 단계를 포함한다. 배경 모델은 점증적으로 업데이트되고, 업데이트는 추가로 비디오로부터 독립적으로 인코딩되고 송신된다.

다른 실시형태에서, 방법은 배경을 비디오와 병합하는 것에 의해 수신기에서 증강 비디오를 생성하는 단계를 더 포함한다. 또 다른 실시형태에서, 배경 모델은 비디오의 비트레이트 보다 더 낮은 비트레이트로 업데이트되고 송신된다. 추가 실시형태에서, 방법은 각각의 프레임에 대해 배경 및 비디오 간 지오메트릭 매핑을 송신하는 단계를 더 포함한다.

다른 실시형태에서, 방법은 장면 분석에 의해 비디오의 시야를 결정하는 단계를 더 포함한다. 또 다른 실시형태에서, 배경 모델은 비디오의 배경에서 노이즈 변화들을 억제하는데 사용된다.

일 실시형태에 따라, 이 개시물의 방법은 표준 비디오 코덱에 의해 비디오를 압축하는 단계를 더 포함한다. 다른 실시형태에서, 비디오 코덱은 H.264, H.265, VP8, 및 VP9 중 하나이다. 또 다른 실시형태에서, 배경은 H.264, H265, VP8, 및 VP9 중 하나에 의해 정의된 보조 데이터 채널에서 송신된다.

다른 실시형태에 따라, 배경 모델은 파라메트릭 모델이다. 추가 실시형태에서, 파라메트릭 모델은 MOG (Mixture of Gaussians) 이다.

또 다른 실시형태에 따라, 배경 모델은 비 파라메트릭 모델이다. 추가 실시형태에서, 비 파라메트릭 모델은 ViB (Visual Background Extractor) 이다.

이 개시물의 다른 실시형태에 따라, 장면의 비디오 상에서 팬-틸트-줌 동작들을 시뮬레이팅하기 위한 방법이 제공되며, 방법은, 1) 비디오로부터 장면의 정적 배경을 결정하는 것에 의해 배경 모델을 초기화하는 단계, 2) 비디오로부터 독립적으로 배경 모델을 인코딩하는 것에 의해 배경 모델로서 장면의 배경을 송신하는 단계로서, 배경 모델은 점증적으로 업데이트되고, 업데이트는 추가로 비디오로부터 독립적으로 인코딩되고 송신되며, 배경과 비디오 간 지오메트릭 매핑이 각각의 프레임에 대해 송신되는, 상기 장면의 배경을 송신하는 단계; 및 3) 장면 분석에 의해 비디오의 하나 이상의 시야를 선택하고 그리고 배경을 비디오와 병합하는 것에 의해 수신기에서 강화된 비디오를 생성하는 단계를 포함한다.

다른 실시형태에서, 방법은 수신기에서 시뮬레이팅된 팬-틸트-줌 동작들을 제어하는 단계를 더 포함한다. 또 다른 실시형태에서, 방법은 비디오의 송신기에서 시뮬레이팅된 팬-틸트-줌 동작들을 제어하는 단계를 더 포함한다.

이 개시물의 또 다른 실시형태에 따라, 장면의 비디오를 송신하기 위한 시스템이 제공되고, 시스템은, 1) 외부 인코더 및 코어 인코더를 포함하는 송신기로서, 외부 인코더는 비디오를 수신하고 코어 인코더로 현출 비디오 및 배경 및 지오메트리 비트스트림을 별도로 출력하고, 코어 인코더는 인코딩된 비트스트림을 출력하도록 적응되는, 상기 송신기; 및 2) 코어 디코더를 포함하는 수신기로서, 코어 디코더는 인코딩된 비트스트림을 수신하고 현출 비디오를 출력하도록 적응되는, 상기 수신기를 포함한다.

이 개시물의 추가 실시형태에 따라, 장면의 비디오를 송신하기 위한 시스템이 제공되고, 시스템은, 1) 외부 인코더 및 코어 인코더를 포함하는 송신기로서, 외부 인코더는 비디오를 수신하고 코어 인코더로 현출 비디오 및 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 코어 인코더는 인코딩된 비트스트림을 출력하도록 적응되는, 상기 송신기; 및 2) 코어 디코더 및 외부 디코더를 포함하는 수신기로서, 코어 디코더는 인코딩된 비트스트림을 수신하고 외부 디코더로 현출 비디오 및 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 외부 디코더는 현출 비디오 및 배경 및 지오메트리 비트스트림을 병합하도록 적응됨으로써 장면의 강화된 비디오를 출력하는, 상기 수신기를 포함한다.

다른 실시형태에서, 외부 인코더는 배경 추정 유닛을 포함하고, 배경 추정 유닛은 비디오로부터 장면의 정적 배경을 결정하는 것에 의해 배경 모델을 초기화하고, 그리고 비디오의 비트레이트 보다 더 낮은 비트레이트로 배경 모델을 점증적으로 업데이트하도록 적응된다. 또 다른 실시형태에서, 외부 인코더는 배경 추정 유닛에 접속된 배경 인코더를 더 포함한다. 배경 인코더는 비디오로부터 독립적으로 업데이트 및 배경 모델을 인코딩하도록 적응된다. 추가 실시형태에서, 배경 인코더는 엔트로피 인코더, 엔트로피 디코더, 업데이트 예측 유닛, 및 업데이트 저장 유닛을 포함한다.

다른 실시형태에 따라, 배경 인코더는 비트스트림 멀티플렉서에 다운스트림 접속된다. 또 다른 실시형태에서, 외부 인코더는, 지오메트리 비트스트림을 비트스트림 멀티플렉서로 출력하도록 적응된, 현출성 프레이밍 유닛을 더 포함한다. 비트스트림 멀티플렉서는 지오메트리 비트스트림 및 배경 비트스트림을 병합하도록 적응됨으로써 배경 및 지오메트리 비트스트림을 출력한다.

추가 실시형태에서, 외부 인코더는 비디오를 스케일링 및 크로핑할 수 있는 다운스케일 유닛을 더 포함한다. 다운스케일 유닛은 노이즈 제거 (noise rejection) 유닛에 다운스트림 접속된다. 노이즈 제거 유닛은 배경 모델에 기초하여 현출 비디오에서 노이즈를 억제하도록 적응된다.

다른 실시형태에 따라, 외부 디코더는, i) 코어 인코더로부터 배경 및 지오메트리 비트스트림을 수신하고, 그리고 지오메트리 비트스트림 및 배경 비트스트림을 별도로 출력하도록 적응된, 비트스트림 멀티플렉서, ii) 비트스트림 멀티플렉서에 접속되고 배경 비트스트림을 수신하도록 적응된 배경 디코더, 및 iii) 비트스트림 멀티플렉서 및 배경 디코더에 다운스트림 접속된 배경 병합 유닛을 포함한다. 배경 병합 유닛은 코어 디코더로부터 현출 비디오를 수신하고, 그리고 지오메트리 비트스트림 및 배경 비트스트림을 현출 비디오와 병합하도록 적응됨으로써 장면의 강화된 비디오를 생성한다.

또 다른 실시형태에서, 배경 디코더는 엔트로피 디코더, 업데이트 예측 유닛, 및 업데이트 저장 유닛을 포함한다.

추가 실시형태에서, 외부 디코더는 제어 입력을 수신할 수 있는 가상 팬-틸트-줌 유닛을 더 포함함으로써 강화된 비디오를 생성한다.

다른 실시형태에서, 본 개시물의 시스템에서 코어 인코더는 H.264/H.265 비디오 인코더이고, 배경 및 지오메트리 비트스트림은 H.264/H.265 비디오 인코더의 네트워크 추상 계층을 통해 반송된다. 또 다른 실시형태에서, 이 개시물의 시스템에서 코어 디코더는 H.264/H.265 비디오 디코더이고, 배경 및 지오메트리 비트스트림은 H.264/H.265 비디오 디코더의 네트워크 추상 계층을 통해 반송된다.

추가 실시형태에서, 코어 인코더는 멀티미디어 컨테이너 포맷이고, 배경 및 지오메트리 비트스트림은 코어 인코더의 보조 데이터 채널을 통해 반송된다. 다른 실시형태에서, 코어 디코더는 멀티미디어 컨테이너 포맷에 있고, 배경 및 지오메트리 비트스트림은 코어 디코더의 보조 데이터 채널을 통해 반송된다.

또 다른 실시형태에 따라, 코더 인코더는 표준 비디오 인코더이고, 배경 및 지오메트리 비트스트림은 코어 인코더의 보조 데이터 채널을 통해 반송된다. 추가 실시형태에서, 코어 디코더는 표준 비디오 디코더이고, 배경 및 지오메트리 비트스트림은 코어 디코더의 보조 데이터 채널을 통해 반송된다.

이 개시물의 다른 실시형태에 따라, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 방법이 제공되며, 방법은: (1) 비디오로부터 장면의 정적 배경을 결정하는 것에 의해 3 차원 배경 모델을 초기화하는 단계; (2) 비디오로부터 독립적으로 배경 모델을 인코딩하는 것에 의해 배경 모델로서 장면의 배경을 송신하는 단계로서, 배경 모델은 점증적으로 업데이트되고, 업데이트는 추가로 비디오로부터 독립적으로 인코딩되고 송신되는, 상기 장면의 배경을 송신하는 단계; 및 (3) 배경을 비디오와 병합하는 것에 의해 수신기에서 증강 비디오를 렌더링하는 단계를 포함한다.

또 다른 실시형태에서, 수신기는 VR/AR 디바이스이다. 추가 실시형태에서, 방법은, VR/AR 수신기의 뷰 방향들로부터 관심 영역을 자기 학습하는 단계; 및 관심 영역의 고 해상도 비디오를 송신하는 단계를 더 포함하고, 증강 비디오는 관심 영역의 고 해상도 비디오를 배경과 병합하는 것에 의해 생성된다.

다른 실시형태에 따라, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템이 제공되고, 시스템은: (1) 외부 인코더 및 코어 인코더를 포함하는 송신기로서, 외부 인코더는 비디오를 수신하고, 코어 인코더로 현출 비디오 및 3 차원 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 코어 인코더는 인코딩된 비트스트림을 출력하도록 적응되는, 상기 송신기; 및 (2) 코어 디코더 및 외부 디코더를 포함하는 VR/AR 수신기로서, 코어 디코더는 인코딩된 비트스트림을 수신하고, 외부 디코더로 현출 비디오 및 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 외부 디코더는 현출 비디오 및 배경 및 지오메트리 비트스트림을 병합하도록 적응됨으로써 장면의 증강 비디오를 렌더링하는, 상기 VR/AR 수신기를 포함한다. 다른 실시형태에서, 3 차원 배경 모델은 점증적으로 업데이트된다.

또 다른 실시형태에서, 외부 인코더는 배경 추정 유닛을 포함하고, 배경 추정 유닛은 비디오로부터 장면의 정적 배경을 결정하는 것에 의해 3 차원 배경 모델을 초기화하고, 그리고 비디오의 비트레이트 보다 더 낮은 비트레이트로 배경 모델을 점증적으로 업데이트하도록 적응된다.

추가 실시형태에서, 시스템은 장면을 캡처하기 위한 비디오 소스를 더 포함한다. 다른 실시형태에서, 비디오 소스는 부분적으로 오버랩하는 시야를 갖는 하나 이상의 카메라들을 포함한다. 또 다른 실시형태에서, 카메라들은 이동 카메라들이다. 추가 실시형태에서, 시스템은 장면의 이동 및 스틸 (still) 부분들을 추정하도록 적응된다. 다른 실시형태에서, 외부 인코더는, 장면의 스틸 부분들에 기초하여 3 차원 배경 모델을 생성하고, 그리고 비디오의 비트레이트 보다 더 낮은 비트레이트로 배경 모델을 점증적으로 업데이트하도록 적응된, 배경 추정 유닛을 포함한다.

추가 실시형태에서, 이동 카메라들은 PTZ 카메라들이다. 다른 실시형태에서, VR/AR 수신기는 그 뷰 방향들로부터 관심 영역들을 자기 학습하도록 적응되고, 하나 이상의 PTZ 카메라들은 관심 영역들의 고 해상도 비디오들을 캡처하도록 적응된다.

도 1 은 이 개시물의 일 실시형태에 따른 비디오 송신 시스템을 도시한다.
도 2 는 다른 실시형태에 따른 비디오 송신 시스템의 외부 인코더를 도시한다.
도 3 은 다른 실시형태에 따른 비디오 송신 시스템의 외부 디코더를 도시한다.
도 4 는 다른 실시형태에 따른 비디오 송신 시스템의 H.264/H.265 코어 인코더를 도시한다.
도 5 는 다른 실시형태에 따른 비디오 송신 시스템의 H.264/H.265 코어 디코더를 도시한다.
도 6 은 다른 실시형태에 따른 비디오 송신 시스템의 멀티미디어 컨테이너 포맷 코어 인코더를 도시한다.
도 7 은 다른 실시형태에 따른 비디오 송신 시스템의 멀티미디어 컨테이너 포맷 코어 디코더를 도시한다.
도 8 은 다른 실시형태에 따른 비디오 송신 시스템의 코어 인코더로서 보조 데이터 채널을 갖는 표준 비디오 인코더를 도시한다.
도 9 는 다른 실시형태에 따른 비디오 송신 시스템의 코어 디코더로서 보조 데이터 채널을 갖는 표준 비디오 디코더를 도시한다.
도 10 은 다른 실시형태에 따른 비디오 송신 시스템에서 배경 인코더를 도시한다.
도 11 은 다른 실시형태에 따른 비디오 송신 시스템에서 배경 디코더를 도시한다.

이 개시물의 다양한 실시형태들에 따른 방법들 및 시스템들은 배경 모델을 채용하며, 이 배경 모델에 기초하여 비디오에서 장면의 배경이 인코딩되고 점증적으로 업데이트된다. 인코딩된 배경 및 업데이트들은 비디오에 관계 없이 송신된다. 그 후 수신기에서 배경은 비디오와 병합됨으로써, 강화된, 고 해상도 비디오를 생성할 수도 있다.

방법 개요

일 실시형태에서, 예를 들어 전경 및 배경의 양자 모두를 포함하는 장면의 비디오가 송신된다. 이것은 H.264 와 같은 표준 비디오 코덱에 의해 압축된다. 장면의 정적 배경은 비디오 보다 더 낮은 비트레이트로 점증적으로 업데이트되는 배경 모델로서 송신된다. 배경 모델은 확립된 감시 시스템 기법들에 기초하여 비디오의 정적 배경으로부터 생성되고 초기화된다.

대안의 실시형태에서, 부분적으로 오버랩하는 시야들을 갖는 다중 카메라들이 비디오 소스로서 전개되며, 이는 송신 및 렌더링을 위해 하나 이상의 동기되고 조정된 비디오 스트림들을 생성한다. 그러한 비디오 소스는 소정의 실시형태들에서 이동 카메라들을 포함한다. 장면의 이동 및 스틸 부분들은 비디오 스트림들로부터 추정되고, 이에 의해 3 차원 배경 모델이 이미지들의 스틸 부분들에 기초하여 생성된다.

다른 실시형태에서, 송신된 비디오의 시야는 - 예컨대 인간 대상들로 제한되는 것과 같은 - 장면 분석에 의해 자동으로 제한되어 비디오 포맷의 해상도를 더 양호하게 활용한다. 이 실시형태에 따라 비디오와 배경 사이의 정확한 공간 관계가 각각의 프레임에 대해 송신된다.

추가 실시형태에서, 배경 모델은 비디오의 배경에서 스퓨리어스 (spurious) 노이즈를 억제하는데 사용된다. 배경 모델 데이터 및 다른 관련 정보는 H.264 와 같은 비디오 표준들에 의해 정의된 보조 데이터 채널들에서 송신된다. 이러한 배경 및 관련 데이터는 보조 데이터 채널들을 통해 반송된 데이터를 해석하기 위해 셋업되지 않은 디코더들에 의해 무시되고 우회될 수도 있다. 따라서, 이 실시형태에 따른 시스템은 구형 또는 기존 레거시 시스템들과 통합하기 위한 유연성을 제공한다.

소정의 실시형태들에 있어서, 수신기에서, 배경 모델로부터의 출력은 비디오와 병합되고, 이에 의해 강화된 비디오를 생성한다. 특정 실시형태에 있어서, 수신기에서, PTZ 동작들이 강화된 비디오 상에서 시뮬레이팅된다. 일 실시형태에 따라, 이러한 시뮬레이팅된 PTZ 동작은 송신기에서 또는 수신기에서 제어된다. 대안의 실시형태에 따라 제어는 송신기 또는 수신기 중 어느 하나에서 자동화 프로세스를 통해 또는 사용자에 의해 실행된다.

배경 핸들링

일부 기존 비디오 인코더들은, 별도로 송신된 배경, 및 인코딩 전에 비디오로부터 배경이 감산되는 전경-배경 구분화 (segmentation) 를 적용한다. 이 개시물의 일 실시형태에 따라, 전경 및 배경 양자 모두의 비디오는, H.264 또는 H.265 와 같은 표준 비디오 인코더를 사용하여 인코딩된다. 이 실시형태에서, 배경에서의 스퓨리어스 노이즈는 배경 모델의 예측된 화소 상태들과 착신 비디오 화소들을 비교하는 것에 의해 억제된다. 이에 따라, 이 실시형태에서, 비디오 인코더는 배경 영역들에서 거의 정적 이미지로 제시된다. 배경 모델은 표준 코덱의 보조 채널에서 송신되고 점증적으로 업데이트된다. 따라서, 이 실시형태에 따른 배경 송신 방법들은 비디오 송신 상의 대역폭 요건을 완화하고, 또한 배경 업데이트들을 비디오와 병합하는 것에 의해 수신기에서 고 해상도 비디오들의 렌더링을 가능하게 한다.

일 실시형태에 따라, 비디오는 배경 모델 데이터의 지식이 없는 표준 디코더에 의해 디코딩된다. 표준 디코더는 알려지지 않은 보조 필드들을 무시하고 배경 모델 데이터를 우회한다. 이 실시형태의 시스템은 낮은 비용의 구현을 제공하는, 기존 코어 비디오 코덱을 활용한다. 따라서, 이 실시형태의 시스템은 구형 및 기존 시스템들과 역방향 호환성을 제공한다.

다른 실시형태에서, 이 개시물의 시스템 및 방법들은 전경에 대해 표현의 강화된 레벨로 배경을 송신한다. 특정 실시형태에서, 배경 데이터는 더 높은 해상도 및 더 높은 동적 범위로 송신된다. 이것은 다수의 이유들로 이롭다. 예를 들어, 종래 하이브리드 비디오 코덱을 수정하여 고 해상도 인트라 프레임을 송신하고 저 해상도로 예측 프레임을 송신하는 동안, 인트라 프레임들이 인코딩을 위해 많은 비트를 필요로 하며 이에 따라 비디오 스트림의 중단 없이 저-레이턴시 구현에서 전달하는 것이 가능하지 않다. 이 실시형태에 따라 외부 계층에서의 배경 송신에 의해, 배경 송신이 완료될 때 중단 없이 코어 비디오 송신이 보통 진행한다.

이 실시형태에 따라, 고 해상도 인트라 프레임들과 비교하여, 코어 인코더는 외부 계층에서 배경 송신으로 더 간단하게 유지될 수 있다. 이것은 비용 절약 및 넓은 시스템 호환성을 제공한다.

시뮬레이팅된 팬-틸트-줌

다른 실시형태에 따라, 위에 논의된 바와 같이, 이 개시물의 시스템은 PTZ 동작들을 시뮬레이팅한다. 이 실시형태에서, 뷰는 송신 측 상에 고정되는 것과는 대조적으로 수신 측 상의 시뮬레이팅된 PTZ 프로세스에 의해 결정된다. 이에 따라, 모든 수신 사용자들은 다른 측의 상이한 뷰들에 액세스하는 것이 가능하다. 이러한 시뮬레이팅된 PTZ 는 머신들에 의해 제약되지 않기 때문에, 추가 실시형태들에서 많은 부가적인 천이들 및 변환들에 대해 개방된다. 특히 일 실시형태에서, 뷰들과 뷰의 롤링 사이에서 순시 스위칭이 제공된다.

이 개시물에 따른 이러한 비-기계적, 시뮬레이팅된 PTZ 시스템들은 또한 비용 절약을 제공하고, 추가로 기존 PTZ 텔레프레전스 솔루션들과 비교하여 텔레프레전스의 신뢰성을 강화한다.

장치 및 컴포넌트들

도 1 을 참조하면, 이 개시물의 시스템은, 일 실시형태에서, 비디오 소스, 송신기, 및 수신기를 포함한다. 특정 실시형태에서, 비디오 소스, 송신기 및 수신기는 각각 파노라마이다.

일 실시형태에 따른 파노라마 비디오 소스는 광각 또는 파노라마 디지털 비디오 스트림을 제공하는 디바이스이다. 이 실시형태에서, 이것은 추가 프로세싱에 적합한 높은 비트레이트를 갖는 압축되는 않는 비디오를 공급한다. 비디오 소스는, 일 실시형태에서, 단일 렌즈 및 이미지 센서 어셈블리이며; 다른 실시형태에서, 이것은 단일 렌즈 및 센서의 동작을 에뮬레이팅할 수 있는 적절한 이미지 스티칭 소프트웨어 또는 하드웨어와 함께 다중 센서들 및 센서들을 포함한다. 또 다른 실시형태에서, 비디오 소스는 표면으로 3 차원 (3D) 장면의 지오메트릭 프로젝션을 시뮬레이트하는 그래픽스 렌더링 디바이스를 포함한다. 따라서, 이 실시형태의 시스템은 컴퓨터 비디오 게임을 위해 이롭게 전개될 수도 있다.

일 실시형태에서 파노라마 비디오 소스의 지오메트릭 프로젝션이 원하는 렌더링 프로젝션과 상이할 수도 있다. 따라서, 이것은 비디오 송신기 내로 임베딩되거나, 비디오 송신기에 대한 부가 정보로서 포워딩되기에 적합한 형태로 비디오 소스 디바이스의 설계, 제조 또는 셋업 동안 교정될 수도 있다. 결국 송신기는 다른 프로젝션으로 비디오를 렌더링하기 위해 그 후 사용될 수도 있는, 이러한 정보를 수신기에 제공한다. 이에 따라, 이 실시형태의 시스템은 원하는 제어, 사용자로부터의 입력 또는 설계에 의한 빌트-인 중 어느 하나에 기초하여, 수신기에서 비디오를 렌더링하는데 있어서 상당한 유연성을 제공한다. 그러한 제어는 대안의 실시형태에서, 수신기 또는 송신기로부터 실행될 수도 있다.

일 실시형태에 따른 시스템의 송신기는 외부 인코더를 포함한다. 도 2 를 참조하면, 외부 인코더는 일 실시형태에서 파노라마 디지털 비디오 스트림으로 취하고 현출 비디오 스트림, 인코딩된 배경 모델 업데이트들의 시퀀스, 및 지오메트릭 프로젝션 데이터를 출력한다. 외부 인코더로부터의 이러한 데이터는 그 후 일 실시형태에 따라 시스템의 코어 인코더에 전달한다. 비디오 스트림은 소정의 실시형태에서 압축되지 않은 형태로 있으며, 표준 비디오 인코더에 의한 압축을 위해 적합하다. 다른 실시형태에 따라 인코딩된 배경 모델 데이터 및 지오메트릭 프로젝션 데이터는 표준 비디오 인코더의 보조 데이터 프레임들에서 송신을 위해 적합한 포맷으로 멀티플렉싱되고 프레이밍된다. 이 실시형태에서 시스템의 코어 인코더는 인코딩된 비트스트림을 출력한다.

일 실시형태에서 코어 인코더는, 도 4 에 나타낸 바와 같은, H.264/H.265 인코더이다. H.264/H.265 코어 인코더는 표준의 네트워크 추상 계층을 사용하여, 사용자 데이터로서 마킹된 SEI 헤더들에서 보조 데이터를 전송한다. 소정의 실시형태에서, 이 데이터는 그러한 SEI 헤더들을 수신하도록 셋업되지 않은 수신기들에 의해 무시된다. 위에 논의된 바와 같이, 이 시스템은 역방향 호환성을 제공하고 기존 텔레프레전스 시스템들로의 그 통합을 용이하게 한다.

일 실시형태에 따라 이 개시물의 시스템들에 채용된 배경 모델은 파라메트릭 모델이다. 그러한 파라메트릭 배경 모델에서, 다수의 통계들이 과거 비디오 프레임들로부터의 샘플들에 기초하여 화소 마다 결정된다. 다른 실시형태에 따라, 배경 모델은 비 파라메트릭 모델이다. 그러한 비 파라메트릭 배경 모델에 있어서, 과거 비디오 프레임들로부터의 다수의 샘플들이 화소 마다 저장되거나 집성된다 - 유한 차원 공간에서 결정되는 통계 또는 파라미터가 없다. 일 실시형태에 따라, 비 파라메트릭 배경 모델은 ViBe (Visual Background Extractor) 이다. 다른 실시형태에서, 파라메트릭 배경 모델은 MOG (Mixture of Gaussians) 이다. 이 개시물의 소정의 실시형태들에서, 시스템의 배경 모델은 3 차원 모델이고 VR/AR 어플리케이션들을 지원한다. 이 개시물의 다양한 실시형태들을 위한 목적으로, 용어 "3 차원" 은, 모델이 때때로 "2.5 차원" 으로서 지칭되는, 이미지에서의 각각의 포인트에 대해 심도를 갖는 단일 뷰포인트로부터의 이미지인 시나리오를 포괄한다.

일 실시형태에 따라 시스템의 배경 모델은, 더 단순한 배경 모델을 사용하여 부트스트래핑 (bootstrapping) 을 통해 또는 장면을 제어하는 것에 의해, 배경인 것으로 알려지는 비디오 프레임들에서의 화소들로부터 초기화된다. 대안의 실시형태에서, 시스템은 모든 화소들이 배경 모델의 초기화에서 배경의 부분인 것을 상정한다.

초기화 후, 일 실시형태에서, 배경 모델은 모델에 따라 배경인 것으로 결정되거나 배경이기 쉬운 새로운 샘플들로부터 배경에서의 변화들에 기초하여 업데이트된다.

일 실시형태에 따라 업데이트들은 이전의 재구성된 업데이트들로부터 각각의 업데이트를 예측하고, 예측된 그리고 실제 업데이트들 간 차이, 즉 잔차만을 송신하는 것에 의해 인코딩된다. 다른 실시형태에서 잔차의 비트레이트는 양자화 및 엔트로피 코딩에 의해 추가로 감소된다.

도 10 및 도 11 을 참조하면, 이 개시물의 소정의 실시형태들에 따라, 업데이트들은 배경 인코더 및 배경 디코더 양자 모두에서 동일한 프로세스에 의해 재구성된다. 잔차는 먼저 엔트로피 코딩 및 양자화를 인버팅하는 것에 의해 디코딩되고, 그 후 각각의 업데이트 또는 업데이트들의 세트가 이전의 업데이트들, 및 잔차 및 예측된 업데이트를 부가하는 것에 의해 재구성된 실제 업데이트들로부터 예측된다.

일 실시형태에 따른 시스템의 송신기는 도 1 에 나타낸 바와 같은 외부 인코더 및 코어 인코더를 포함한다. 이 실시형태에서 송신기 및 그 부분들은 동일한 물리 디바이스에서 구현된다. 예를 들어, 일 실시형태에서 송신기는 모바일 시스템 온 칩 (SoC) 이다. 소정의 실시형태에서, 외부 인코더는 GPU 또는 CPU 코어들에 대해 소프트웨어에서 구현되고, 코어 인코더는 그러한 SoC들에서 찾아낸 비디오 인코딩에 대해 하드웨어 가속장치를 사용하여 구현된다. 이 SoC 송신기 구현은 모바일 폰들 또는 테블릿 디바이스들이 송신기 유틸리티를 제공하는 텔레프레전스 시스템에 대해 이롭다.

다른 실시형태에서, 송신기는 카메라들에 대해 맞춰진 SoC 에서 구현된다. 추가적인 기능은 비디오 인코딩에 대한 가속장치들에 부가하여, DSP 코어들 상에서 작동하는 소프트웨어로서 구현된다. 이러한 특정 실시형태의 송신기는 독립형 카메라를 채용하는 텔레프레전스 시스템에 대해 이롭다.

위에 논의된 바와 같이, 이 개시물의 비디오 수신기는 코어 디코더를 포함한다. 도 5, 도 7, 및 도 9 를 참조하면, 소정의 실시형태들에서, 코어 디코더는 인코딩된 비트스트림으로 취하고 보조 데이터에 부가하여 압축되지 않은 비디오를 출력한다. 보조 데이터는 이들 실시형태들에 따라 배경 모델 데이터 및 지오메트릭 매핑 데이터를 포함한다. 일 실시형태에 따라 이 데이터는 도 3 에 나타낸 바와 같이, 외부 디코더로 전달되며, 이는 현출 비디오 및 배경 모델 출력을 병합함으로써 강화된 파노라마 비디오 스트림을 생성한다. 추가 실시형태에서, 외부 디코더는 비디오의 지오메트릭 매핑을 변화시킴으로써, 광학 PTZ 카메라의 효과를 시뮬레이팅한다.

송신기와 수신기 사이에서 보조 데이터 채널이 패킷 손실 또는 다른 신뢰성 이슈들을 경험하는 이벤트에 있어서, 이 개시물의 시스템은 다른 실시형태에서 분실된 패킷들을 재송신하기 위한 송신기에 대한 요청을 전송하는 유틸리티를 제공한다. 이들은 배경 모델 데이터의 부분들 및 다른 송신된 메타데이터를 포함할 수도 있다.

일 실시형태에 따른 시스템의 비디오 수신기는 범용 데이터 센터 또는 미디어 프로세서들 상에서 작동하는, 클라우드 서비스에서 구현된다. 다른 실시형태에서, 수신기는 스마트폰, 테블릿 또는 개인용 컴퓨터와 같은 엔드 사용자 디바이스의 웹 브라우저에서 구현된다. 웹 브라우저에서, 수신기 기능은 브라우저 확장에 의해 또는 표준화된 웹 컴포넌트들, 예컨대 WebRTC (코어 디코더에 대해) 및 WebGL (외부 디코더에 대해) 에 의해 특정 실시형태에서 구현된다. 또 다른 실시형태에서, 수신기는 스마트폰, 테블릿 또는 개인용 컴퓨터와 같은 엔드 사용자 디바이스의 오퍼레이팅 시스템에서 네이티브 어플리케이션으로서 구현된다. 추가 실시형태에서, 수신기는 비디오 통신에 전용되는 어플라이언스에서 구현된다.

다른 실시형태에서, 수신기는 이머시브 아이 고글 디스플레이 (immersive eye goggle display), 헤드 장착형 추적, 또는 사용자의 망막으로 선택 이미지들을 프로젝팅하는 대안의 기술들과 함께, 가상 현실 (VR) 또는 증강 현실 (AR) 시스템의 부분으로서 구현된다. 이러한 실시형태에 따라, 발명의 장치 및 방법은 근단 뷰들 상으로 먼 라이브 이미지들이 프로젝팅되는 VR/AR-인에이블형 화상회의 시스템의 대역폭 제한들을 완화시킬 수도 있다.

추가 실시형태에서, VR/AR 수신기의 눈맞춤 (eye-gazw) 및 뷰 방향에 관한 정보가 이 발명의 카메라 시스템으로 역 중계된다. 따라서 특정 뷰 방향으로부터의 고 해상도 비디오들이 송신되어, 그 특정 뷰 방향 주위에서 소정의 가외 마진을 허용한다. 또 다른 실시형태에서, 이 발명의 시스템은 관심 영역들을 배치하기 위해 자기 학습을 채택한다. 구체적으로, VR/AR 수신기는 시간에 걸쳐 눈맞춤 방향을 분석하고, 대부분의 뷰들 또는 "히트들" 을 수신하는 영역들이 송신 및 렌더링을 위해 고 해상도로 코딩된다.

일 실시형태에 따라, 이 개시물의 시스템은 비디오 소스를 포함한다. 비디오 소스는 소정의 실시형태들에서 하나 이상의 PTZ 카메라들을 포함한다. 고 해상도 비디오들은 일 실시형태에 따라 특정 관심 영역들 ("ROI") 에 대해 이러한 이동 PTZ 카메라들에 의해 캡처되고 배경과 병합된다. 이 실시형태에서 배경은 스틸 이미지이고 ROI 비디오들의 해상도 보다 더 높은 해상도로 렌더링됨으로써, VR/AR 경험을 강화한다.

일 실시형태에 따라 이동 카메라들은 시간 동기되고 위치 조정됨으로써, 다중 카메라들로부터 수집된 ROI 비디오들 사이에서 효율적인 블렌딩을 허용한다.

공간적으로 이동하는 카메라 시스템이 비디오 소스로서 사용되는 다른 실시형태에서, 배경의 3 차원 모델이 부분적으로 오버랩하는 시야들 (FOV) 을 갖는 다중 정적 고 해상도 카메라들을 사용하여 먼저 생성된다. 일 실시형태에서 이들 카메라들은 배경 및 전경 구분화 필터를 포함함으로써, 비 이동 부분들과 장면의 이동 부분들을 구별한다. 단지 장면의 배경 (스틸) 부분들만이 장면의 3D 모델을 생성하는데 사용된다. 대안의 실시형태에서 수퍼 해상도 이미징의 기법들이 3D 모델의 해상도를 증가하기 위해 3D 모델의 생성 전에 사용된다.

추가 실시형태에서, 미세 조정을 위한 가상 정보와 함께, 이동 카메라 비디오 소스에 공간 및 각도 포지셔닝을 위해 자이로스코프 및 가속도계의 조합이 적용된다. SLAM (Simultaneous Localization And Mapping) 기법들이 채용되어, 이 개시물의 시스템이 장면의 어느 부분은 이동하고 어느 부분은 이동하지 않는지를 추정하도록 함으로써, 장면의 3D 모델을 생성한다.

예시로서, 일 실시형태에서, 시스템은 카메라 비디오 소스가 이동할 때 다음의 단계들에 따라 장면의 이동 부분들을 결정한다. 첫번째로, 각각의 연속적인 비디오 프레임에 대해, 비디오 프레임들의 각각의 쌍 (시간에서 인접한 양자 및 사이에 더 큰 시간 간격들을 갖는 일부 쌍들) 에 대한 해리스 코너 (Harris corner) 피처 포인트들 (또는 다른 타입 피처 포인트들) 을 추정하고, (6 축의 자유도로) 프레임들 사이에서 카메라의 회전 및 병진을 추정하며, 그리고 가외치들을 제거한다. 가외치들의 일부는 노이즈에 기인하고, 다른 것들은 프레임들 사이에서 이동한 오브젝트들을 반영한다. 두번째로, 가외치 해리 코너들에 대해, 가외치들을 포함하는 장면의 부분들에 대한 3D 모션 벡터들을 도입하고; 이들 포인트들에 대한 모션을 추정하며; 그리고 함께 일관하여 이동하고 있는 피처 포인트들에 대해, 3D 모션 벡터들이 추정된다. 따라서, 장면의 스틸 부분들에 기초한 3D 모델이 카메라 배향을 고려하여 생성된다.

소정의 실시형태들에 따라 이 개시물의 시스템에서 수신기 및 송신기가 양방향 비디오 통신에 대해 동일한 디바이스에서 구현된다.

어플리케이션 영역들

다양한 실시형태들에 따라, 이 개시물의 시스템은 실시간 비디오 통신 (비디오 컨퍼런싱 및 텔레프레전스), 라이브 스트리밍 (스포츠, 콘서트, 이벤트들 공유, 및 컴퓨터 게이밍), 트래픽 모니터링 (계기판 카메라들, 도로 모니터링, 주차장 모니터링 및 빌링), 가상 현실; 다른 어플리케이션들 및 산업들 중에서 감시, 홈 모니터링; 스토리텔링, 영화, 뉴스, 소셜 및 트래디셔널 미디어, 및 설치 미술에 이롭게 전개될 수도 있다.

일 실시형태에 따라, 전체 장면의 고 해상도 비디오를 송신하기에 대역폭이 충분히 크지 않은 라이브 스트리밍 및 양방향 통신 VR/AR-어플리케이션들에 있어서, 전체 시야의 고 해상도 스틸들이 주기적으로 송신되는 한편, 선택된 관심 영역들의 고 해상도 비디오는 정규 주파수로 송신된다. 추가 실시형태에서, 비디오 및 스틸들은 VR/AR 수신기에서 국부적으로 블렌딩됨으로써, AR/VR 에 대한 빠른 렌더링 및 낮은 레이턴시를 아카이빙한다. 이 콘텍스트에서의 통상의 레이턴시는 20 ms 이하이다.

다양한 도면들 및 예들을 포함한, 이 개시물에 제공된 다양한 실시형태들의 기재들은 발명 및 그 다양한 실시형태들을 예시하는 것이고 이를 제한하지 않는다.

Claims

다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 방법으로서,
상기 비디오로부터 상기 장면의 정적 배경을 결정하는 것에 의해 3 차원 배경 모델을 초기화하는 단계;
상기 비디오로부터 독립적으로 상기 배경 모델을 인코딩하는 것에 의해 상기 배경 모델로서 상기 장면의 배경을 송신하는 단계로서, 상기 배경 모델은 점증적으로 업데이트되고, 상기 업데이트는 추가로 상기 비디오로부터 독립적으로 인코딩되고 송신되는, 상기 장면의 배경을 송신하는 단계; 및
상기 배경을 상기 비디오와 병합하는 것에 의해 수신기에서 증강 비디오를 렌더링하는 단계를 포함하는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 방법.
제 1 항에 있어서,
상기 수신기는 VR/AR 디바이스인, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 방법.
제 2 항에 있어서,
VR/AR 수신기의 뷰 방향들로부터 관심 영역을 자기 학습하는 단계; 및
상기 관심 영역의 고 해상도 비디오를 송신하는 단계를 더 포함하고,
상기 증강 비디오는 상기 관심 영역의 고 해상도 비디오를 상기 배경과 병합하는 것에 의해 생성되는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 방법.
다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템으로서,
i) 외부 인코더 및 코어 인코더를 포함하는 송신기로서, 상기 외부 인코더는 상기 비디오를 수신하고, 상기 코어 인코더로 현출 비디오 및 3 차원 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 상기 코어 인코더는 인코딩된 비트스트림을 출력하도록 적응되는, 상기 송신기; 및
ii) 코어 디코더 및 외부 디코더를 포함하는 VR/AR 수신기로서, 상기 코어 디코더는 상기 인코딩된 비트스트림을 수신하고, 상기 외부 디코더로 상기 현출 비디오 및 상기 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 상기 외부 디코더는 상기 현출 비디오 및 상기 배경 및 지오메트리 비트스트림을 병합하도록 적응됨으로써 상기 장면의 증강 비디오를 렌더링하는, 상기 VR/AR 수신기를 포함하는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 4 항에 있어서,
상기 외부 인코더는 배경 추정 유닛을 포함하고,
상기 배경 추정 유닛은 상기 비디오로부터 상기 장면의 정적 배경을 결정하는 것에 의해 3 차원 배경 모델을 초기화하고, 그리고 상기 비디오의 비트레이트 보다 더 낮은 비트레이트로 상기 배경 모델을 점증적으로 업데이트하도록 적응되는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 4 항에 있어서,
상기 장면을 캡처하기 위한 비디오 소스를 더 포함하는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 6 항에 있어서,
상기 비디오 소스는 부분적으로 오버랩하는 시야를 갖는 하나 이상의 카메라들을 포함하는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 7 항에 있어서,
상기 카메라들은 이동 카메라들인, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 8 항에 있어서,
추가로 상기 장면의 이동 및 스틸 부분들을 추정하도록 적응되는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 9 항에 있어서,
상기 외부 인코더는 배경 추정 유닛을 포함하고,
상기 배경 추정 유닛은 상기 장면의 상기 스틸 부분들에 기초하여 3 차원 배경 모델을 생성하고, 그리고 상기 비디오의 비트레이트 보다 더 낮은 비트레이트로 상기 배경 모델을 점증적으로 업데이트하도록 적응되는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 8 항에 있어서,
상기 이동 카메라들은 팬-틸트-줌 (PTZ) 카메라들인, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
제 11 항에 있어서,
상기 VR/AR 수신기는 그 뷰 방향들로부터 관심 영역들을 자기 학습하도록 적응되고,
상기 하나 이상의 PTZ 카메라들은 상기 관심 영역들의 고 해상도 비디오들을 캡처하도록 적응되는, 다중 시야로부터 장면의 비디오를 송신하고 렌더링하기 위한 시스템.
장면의 비디오를 송신하기 위한 방법으로서,
상기 비디오로부터 상기 장면의 정적 배경을 결정하는 것에 의해 배경 모델을 초기화하는 단계; 및
상기 비디오로부터 독립적으로 상기 배경 모델을 인코딩하는 것에 의해 상기 배경 모델로서 상기 장면의 배경을 송신하는 단계를 포함하고,
상기 배경 모델은 점증적으로 업데이트되고, 상기 업데이트는 추가로 상기 비디오로부터 독립적으로 인코딩되고 송신되는, 장면의 비디오를 송신하기 위한 방법.
제 13 항에 있어서,
상기 배경을 상기 비디오와 병합하는 것에 의해 수신기에서 강화된 비디오를 생성하는 단계를 더 포함하는, 장면의 비디오를 송신하기 위한 방법.
제 14 항에 있어서,
상기 배경 모델은 상기 비디오의 비트레이트 보다 더 낮은 비트레이트로 업데이트되고 송신되는, 장면의 비디오를 송신하기 위한 방법.
제 13 항에 있어서,
각각의 프레임에 대해 상기 비디오와 상기 배경 간 지오메트릭 매핑을 송신하는 단계를 더 포함하는, 장면의 비디오를 송신하기 위한 방법.
제 16 항에 있어서,
상기 비디오의 시야를 장면 분석에 의해 결정하는 단계를 더 포함하는, 장면의 비디오를 송신하기 위한 방법.
제 13 항에 있어서,
상기 배경 모델은 상기 비디오의 상기 배경에서 노이즈 변화들을 억제하는, 장면의 비디오를 송신하기 위한 방법.
제 13 항에 있어서,
상기 비디오를 표준 비디오 코덱에 의해 압축하는 단계를 더 포함하는, 장면의 비디오를 송신하기 위한 방법.
제 19 항에 있어서,
상기 비디오 코덱은 H.264, H.265, VP8, 및 VP9 중 하나인, 장면의 비디오를 송신하기 위한 방법.
제 20 항에 있어서,
상기 배경은 H.264, H.265, VP8, 및 VP9 중 하나에 의해 정의된 보조 데이터 채널에서 송신되는, 장면의 비디오를 송신하기 위한 방법.
제 13 항에 있어서,
상기 배경 모델은 파라메트릭 모델인, 장면의 비디오를 송신하기 위한 방법.
제 22 항에 있어서,
상기 파라메트릭 모델은 MOG (Mixture of Gaussians) 인, 장면의 비디오를 송신하기 위한 방법.
제 13 항에 있어서,
상기 배경 모델은 비 파라메트릭 모델인, 장면의 비디오를 송신하기 위한 방법.
제 24 항에 있어서,
상기 비 파라메트릭 모델은 ViB (Visual Background Extractor) 인, 장면의 비디오를 송신하기 위한 방법.
장면의 비디오 상에서 팬-틸트-줌 동작들을 시뮬레이팅하기 위한 방법으로서,
상기 비디오로부터 상기 장면의 정적 배경을 결정하는 것에 의해 배경 모델을 초기화하는 단계;
상기 비디오로부터 독립적으로 상기 배경 모델을 인코딩하는 것에 의해 상기 배경 모델로서 상기 장면의 배경을 송신하는 단계로서, 상기 배경 모델은 점증적으로 업데이트되고, 상기 업데이트는 추가로 상기 비디오로부터 독립적으로 인코딩되고 송신되며, 상기 배경과 상기 비디오 간 지오메트릭 매핑이 각각의 프레임에 대해 송신되는, 상기 장면의 배경을 송신하는 단계;
장면 분석에 의해 상기 비디오의 하나 이상의 시야를 선택하는 단계; 및
상기 배경을 상기 비디오와 병합하는 것에 의해 수신기에서 강화된 비디오를 생성하는 단계를 포함하는, 장면의 비디오 상에서 팬-틸트-줌 동작들을 시뮬레이팅하기 위한 방법.
제 26 항에 있어서,
시뮬레이팅된 상기 팬-틸트-줌 동작들은 상기 수신기에서 제어되는, 장면의 비디오 상에서 팬-틸트-줌 동작들을 시뮬레이팅하기 위한 방법.
제 26 항에 있어서,
시뮬레이팅된 상기 팬-틸트-줌 동작들은 상기 비디오의 송신기에서 제어되는, 장면의 비디오 상에서 팬-틸트-줌 동작들을 시뮬레이팅하기 위한 방법.
장면의 비디오를 송신하기 위한 시스템으로서,
i) 외부 인코더 및 코어 인코더를 포함하는 송신기로서, 상기 외부 인코더는 상기 비디오를 수신하고 상기 코어 인코더로 현출 비디오 및 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 상기 코어 인코더는 인코딩된 비트스트림을 출력하도록 적응되는, 상기 송신기; 및
ii) 코어 디코더를 포함하는 수신기로서, 상기 코어 디코더는 상기 인코딩된 비트스트림을 수신하고 상기 현출 비디오를 출력하도록 적응되는, 상기 수신기를 포함하는, 장면의 비디오를 송신하기 위한 시스템.
장면의 비디오를 송신하기 위한 시스템으로서,
i) 외부 인코더 및 코어 인코더를 포함하는 송신기로서, 상기 외부 인코더는 상기 비디오를 수신하고 상기 코어 인코더로 현출 비디오 및 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 상기 코어 인코더는 인코딩된 비트스트림을 출력하도록 적응되는, 상기 송신기; 및
ii) 코어 디코더 및 외부 디코더를 포함하는 수신기로서, 상기 코어 디코더는 상기 인코딩된 비트스트림을 수신하고 상기 외부 디코더로 상기 현출 비디오 및 상기 배경 및 지오메트리 비트스트림을 별도로 출력하도록 적응되고, 상기 외부 디코더는 상기 현출 비디오 및 상기 배경 및 지오메트리 비트스트림을 병합하도록 적응됨으로써 상기 장면의 강화된 비디오를 출력하는, 상기 수신기를 포함하는, 장면의 비디오를 송신하기 위한 시스템.
제 30 항에 있어서,
상기 외부 인코더는 배경 추정 유닛을 포함하고,
상기 배경 추정 유닛은 상기 비디오로부터 상기 장면의 정적 배경을 결정하는 것에 의해 배경 모델을 초기화하고, 그리고 상기 비디오의 비트레이트 보다 더 낮은 비트레이트로 상기 배경 모델을 점증적으로 업데이트하도록 적응되는, 장면의 비디오를 송신하기 위한 시스템.
제 31 항에 있어서,
상기 외부 인코더는 상기 배경 추정 유닛에 접속된 배경 인코더를 더 포함하고,
상기 배경 인코더는 상기 비디오로부터 독립적으로 상기 업데이트 및 상기 배경 모델을 인코딩하도록 적응되는, 장면의 비디오를 송신하기 위한 시스템.
제 32 항에 있어서,
상기 배경 인코더는 엔트로피 인코더, 엔트로피 디코더, 업데이트 예측 유닛, 및 업데이트 저장 유닛을 포함하는, 장면의 비디오를 송신하기 위한 시스템.
제 33 항에 있어서,
상기 배경 인코더는 비트스트림 멀티플렉서에 다운스트림 접속되는, 장면의 비디오를 송신하기 위한 시스템.
제 34 항에 있어서,
상기 외부 인코더는 현출성 프레이밍 유닛을 더 포함하고,
상기 현출성 프레이밍 유닛은 지오메트리 비트스트림을 상기 비트스트림 멀티플렉서로 출력하도록 적응되고, 상기 비트스트림 멀티플렉서는 상기 지오메트리 비트스트림 및 상기 배경 비트스트림을 병합하도록 적응됨으로써 배경 및 지오메트리 비트스트림을 출력하는, 장면의 비디오를 송신하기 위한 시스템.
제 35 항에 있어서,
상기 외부 인코더는 상기 비디오를 스케일링 및 크로핑할 수 있는 다운스케일 유닛을 더 포함하고,
상기 다운스케일 유닛은 노이즈 제거 유닛에 다운스트림 접속되고, 상기 노이즈 제거 유닛은 상기 배경 모델에 기초하여 상기 현출 비디오에서 노이즈를 억제하도록 적응되는, 장면의 비디오를 송신하기 위한 시스템.
제 36 항에 있어서,
상기 외부 디코더는,
i) 상기 코어 인코더로부터 상기 배경 및 지오메트리 비트스트림을 수신하고, 그리고 상기 지오메트리 비트스트림 및 상기 배경 비트스트림을 별도로 출력하도록 적응된, 비트스트림 멀티플렉서,
ii) 상기 비트스트림 멀티플렉서에 접속되고 상기 배경 비트스트림을 수신하도록 적응된 배경 디코더, 및
iii) 상기 비트스트림 멀티플렉서 및 상기 배경 디코더에 다운스트림 접속된 배경 병합 유닛을 더 포함하고,
상기 배경 병합 유닛은 상기 코어 디코더로부터 상기 현출 비디오를 수신하고, 그리고 상기 지오메트리 비트스트림 및 상기 배경 비트스트림을 상기 현출 비디오와 병합하도록 적응됨으로써 상기 장면의 강화된 비디오를 생성하는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 배경 디코더는 엔트로피 디코더, 업데이트 예측 유닛, 및 업데이트 저장 유닛을 포함하는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 외부 디코더는 제어 입력을 수신할 수 있는 가상 팬-틸트-줌 유닛을 더 포함함으로써 강화된 비디오를 생성하는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 코어 인코더는 H.264/H.265 비디오 인코더이고,
상기 배경 및 지오메트리 비트스트림은 상기 코어 인코더의 네트워크 추상 계층을 통해 반송되는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 코어 디코더는 H.264/H.265 비디오 디코더이고,
상기 배경 및 지오메트리 비트스트림은 상기 코어 디코더의 네트워크 추상 계층을 통해 반송되는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 코더 인코더는 멀티미디어 컨테이너 포맷에 있고,
상기 배경 및 지오메트리 비트스트림은 상기 코어 인코더의 보조 데이터 채널을 통해 반송되는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 코어 디코더는 멀티미디어 컨테이너 포맷에 있고,
상기 배경 및 지오메트리 비트스트림은 상기 코어 디코더의 보조 데이터 채널을 통해 반송되는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 코더 인코더는 표준 비디오 인코더이고,
상기 배경 및 지오메트리 비트스트림은 상기 코어 인코더의 보조 데이터 채널을 통해 반송되는, 장면의 비디오를 송신하기 위한 시스템.
제 37 항에 있어서,
상기 코어 디코더는 표준 비디오 디코더이고,
상기 배경 및 지오메트리 비트스트림은 상기 코어 디코더의 보조 데이터 채널을 통해 반송되는, 장면의 비디오를 송신하기 위한 시스템.