KR20170084275A

KR20170084275A - 영역 적응적 평활화를 이용하는 360도 비디오 코딩

Info

Publication number: KR20170084275A
Application number: KR1020177016334A
Authority: KR
Inventors: 존 퍼튼; 구오신 진; 제프리 윌킨슨; 앤드루 디커슨; 마두카르 부다가비; 안쿠르 삭세나
Original assignee: 삼성전자주식회사
Priority date: 2014-11-14
Filing date: 2015-11-16
Publication date: 2017-07-19
Also published as: KR102474626B1; US20190052859A1; EP3219102A4; EP3219102A1; WO2016076680A1; CN107113414A; US10104361B2; US20160142697A1; CN107113414B

Abstract

영역 적응적 평활화(region adaptive smoothing)를 위한 비디오 처리 장치 및 방법. 상기 화상 처리 장치는 메모리 및 하나 이상의 프로세서를 포함한다. 상기 하나 이상의 프로세서는 기능적으로 상기 메모리에 연결되고, 다수의 비디오 프레임들을 비디오의 다수의 등장방형 매핑된 프레임(equirectangular mapped frame)들로 함께 스티치 하도록 구성된다. 상기 하나 이상의 프로세서는 상기 비디오의 상기 등장방형 매핑된 프레임들 각각의 상단 영역 및 하단 영역을 정의하고; 상기 비디오의 상기 등장방형 매핑된 프레임들 각각의 상기 상단 영역 및 상기 하단 영역 상에 평활화 처리를 수행하고; 상기 비디오의 상기 평활화 된 등장방형 매핑된 프레임들을 부호화 하도록 구성된다.

Description

영역 적응적 평활화를 이용하는 360도 비디오 코딩{coding of 360 degrees videos using region adaptive smoothing}

본 발명은 일반적으로 비디오 데이터를 생성하는 것에 관한 것으로, 더 자세하게는 영역 적응적 평활화(region adaptive smoothing)를 사용하는 360도 비디오의 코딩에 관한 것이다.

360도 비디오는 기어 VR(gear virtual reality)과 같은 장치들을 사용하는 몰입형(immersive) 비디오를 경험하는 새로운 방법이다. 360도 비디오는 세상의 360도 시선(view)을 캡쳐함으로써(by capturing) 소비자가 몰입되는 “실제 생활(real life)”, “실제로 거기에 있음(being there)” 경험을 가능하게 한다. 사용자들은 그들의 시점(viewpoint)을 변경할 수 있고, 그들이 원하는 캡쳐된 장면의 어떠한 부분도 동적으로(dynamically) 볼 수 있다. 더 넓은 시야를 지원하기 위해 요구되는 증가된 비디오 해상도(4K 이상) 때문에, 360도 비디오는 기존의 비디오보다 더 높은 비트레이트(bitrate)를 필요로 한다. 비트레이트 증가는 고품질 360도 몰입형 비디오 시청 경험을 소비자에게 제공하는데 있어서 제한요소이다.

따라서, 비트레이트 요구조건들은 더 높은 압축을 필요로 한다. 360도 비디오는 압축 효율을 향상시키기 위해 사용될 수 있는 고유한 특성들을 갖는다. 비디오에서의 뒤틀어진 표현에 의해(due to the warping present in the video), 비디오에서 움직임은 빈번하게 비-병진적(non-translational)이다.

본 개시의 실시 예들은 영역 적응적 평활화(region adaptive smoothing) 및 360도 비디오에 대한 움직임 추정 및 보상을 사용하는 360도 비디오 코딩을 제공한다.

일 실시 예에서, 영역 적응적 평활화가 가능한 비디오 처리 장치가 제공된다. 화상 처리 장치는 메모리 및 하나 이상의 프로세서를 포함한다. 하나 이상의 프로세서는 메모리에 동작 가능하게 연결되고, 다수의 비디오 프레임들을 다수의 등장방형 매핑된 비디오의 프레임으로 스티치(stitch)하도록 구성된다. 하나 이상의 프로세서는 비디오의 등장방형 매핑된 프레임들 각각에 대해 상단 영역 및 하단 영역을 정의하고; 비디오의 등장방형 매핑된 프레임들 각각에 대해 상단 영역 및 하단 영역에 대해 평활화 처리를 수행하고; 비디오의 평활화 된 등장방형 매핑된 프레임들을 부호화 하도록 구성된다.

다른 실시 예에서, 영역 적응적 평활화가 가능한 비디오 처리 장치가 제공된다. 화상 처리 장치는 수신기 및 하나 이상의 프로세서를 포함한다. 수신기는 비디오의 메타데이터 및 평활화 된 등장방형 매핑된 프레임들을 수신하도록 구성된다. 하나 이상의 프로세서는 비디오의 평활화 된 등장방형 매핑된 프레임들의 외부 경계를 따라 평활화 된 영역들에 걸쳐 평활화 된 비디오의 평활화 된 등장방형 매핑된 프레임들을 복호화 하고; 평활화 된 영역에 대해 강화 기술(enhancement technique)을 수행하고 비디오의 등장방형 매핑된 프레임 각각을 구의 형태로 랜더링 하도록 구성된다.

또 다른 실시 예에서, 영역 적응적 평활화를 위한 방법이 제공된다. 방법은 복수의 비디오 프레임들을 비디오의 등장방형 매핑된 프레임들로 각각 스티치하는 단계; 비디오의 등장방형 매핑된 프레임들 각각에 대한 상단 영역 및 하단 영역을 정의하는 단계; 상기 비디오의 등장방형 매핑된 프레임들 각각에 대해 상기 상단 영역 및 상기 하단 영역에 대해 평활화 처리를 수행하는 단계; 및 상기 비디오의 상기 평활화 된 등장방형 매핑된 프레임들을 부호화하는 단계를 포함한다.

하기의 상세한 설명에 들어가기 전에, 본 특허 문서 전체에서 사용되는 특정 단어 및 어구들의 정의를 기재하는 것이 유리할 수 있다. 용어 "결합하다(couple)" 및 그 파생어들은 이들 요소가 서로 물리적으로 접촉하고 있든지 그렇지 않든지, 둘 또는 그 이상의 요소들 사이의 직접 또는 간접적인 통신을 의미한다. 용어 "송신하다(transmit)", "수신하다(receive)" 및 "소통하다(communicate)", 뿐만 아니라 이들의 파생어들은 직접 및 간접 통신을 모두 포함한다. 용어 "포함하다(include)", "구성하다(comprise)", 뿐만 아니라 이들의 파생어들은 제한 없이 포함함을 의미한다. 용어 "또는"은 포괄적으로, 및/또는 을 의미한다. 구문 "~와 관련된(associated with)", 뿐만 아니라 이의 파생어들은 포함하다(include), ~내에 포함되다(be included within), ~와 내적 연결하다(interconnect with), 포함하다(contain), ~내에 포함되다(be contained within), ~에 또는 ~와 연결하다(connect to or with), ~에 또는 ~와 결합하다(couple to or with), ~와 통신할 수 있는(be communicable with), ~와 협력하다(cooperate with), 끼우다(interleave), 나란히 놓다(juxtapose), ~에 인접하다(be proximate to), ~에 또는 ~와 결합되다(be bound to or with), 가지다(have), ~의 속성을 갖다(have a property of), ~에 또는 ~와 관계가 있다(have a relationship to or with) 기타 등등을 의미한다. 용어 "컨트롤러(controller)"는 적어도 하나의 동작을 제어하는 임의의 장치, 시스템 또는 이들의 부분을 의미한다. 이러한 제어기는 하드웨어, 및 하드웨어와 소프트웨어 및/또는 펌웨어(firmware)의 조합으로 구현될 수 있다. 임의의 특정 컨트롤러와 관련된 기능은 국부적이든(locally) 원격적이든(remotely) 관계없이 집중화되거나 분산될 수 있다. "~중 적어도 하나(at least one of)"라는 구문은, 열거되는 항목들이 사용되는 경우, 사용될 수 있는 열거된 항목 중 하나 또는 그 이상의 서로 다른 조합, 및 요구되는 열거된 항목 중 하나의 항목을 의미한다. 예를 들면, "A, B 및 C 중 적어도 하나"는 다음의 조합, A, B, C, A와 B, A와 C, B와 C, 및 A와 B와 C 중 어느 하나를 포함한다.

360도 비디오 코딩에서 비트레이트 절감을 제공할 수 있다.

본 개시 및 이점들에 대한 보다 완전한 이해를 위해, 이제 첨부한 도면과 결부되어 다음의 설명이 참조되며, 도면에서 유사한 참조 기호는 동일한 부분을 나타낸다.
도 1은 본 개시의 다양한 실시 예들에 따른 예시적인 컴퓨팅 시스템을 도시한다.
도 2 및 도 3은 본 개시의 다양한 실시 예들에 따른 컴퓨팅 시스템의 예시적인 장치들을 도시한다.
도 4는 본 개시의 다양한 실시 예들에 따른 360도 비디오 프로세싱 체인을 도시한다.
도 5a, 도 5b, 도 5c, 도 5d는 본 개시의 다양한 실시 예들에 따른 스티치의 예 및 등장방형 매핑을 도시한다.
도 6은 본 개시의 다양한 실시 예들에 따른 직사각 평면 및 뒤틀린 평면 간에 등거리 매핑을 도시한다.
도 7a는 본 개시의 다양한 실시 예들에 따른 매핑 이후 뒤틀림의 효과들을 도시한다.
도 7b는 본 개시의 다양한 실시 예들에 따른 매핑 이전 뒤틀림의 효과들을 도시한다.
도 8a는 본 개시의 다양한 실시 예들에 따른 움직임 추정을 도시한다.
도 8b는 본 개시의 다양한 실시 예들에 따른 뒤틀린 움직임 추정을 도시한다.
도 9a는 본 개시의 다양한 실시 예들에 따른 f_j 프레임 내부의 화소들 920에 의해 매핑된 화소들 915의 보간 900을 도시한다.
도 9b는 본 개시의 다양한 실시 예들에 따른 보간 기법들을 도시한다.
도 9c는 본 개시의 다양한 실시 예들에 따른 움직임 벡터 예측자 보상(motion vector predictor compensation, MVPC)을 도시한다.
도 10은 본 개시의 다양한 실시 예들에 따른 레이트 왜곡 최적화(rate-distortion optimization, RDO)에서 추가적인 뒤틀림 모드를 도시한다.
도 11은 본 개시의 다양한 실시 예들에 따른 영역 적응적 평활화를 통한 360도 비디오 처리 프로세스를 도시한다.
도 12a는 본 개시의 다양한 실시 예들에 따른 상기 화상 행 숫자 y의 함수로서 가우시안(gaussian) 평활화 필터의 분산을 계산하기 위한 휴리스틱스(heuristics)를 유도하는데 사용되는 직경 1의 정규화(normalized)된 구를 도시한다.
도 12b는 본 개시의 다양한 실시 예들에 따른 정규화된 화상 행 숫자(화상의 하단인 음의 1부터, 화상의 상단인 양의 1 사이에 정규화된) K가 3일 때 σ² 이 어떻게 바뀌는지 도시한다.
도 13은 본 개시의 다양한 실시 예들에 따른 영역 적응적 평활화를 사용하는 360도 비디오의 코딩 프로세스를 도시한다.
도 14는 본 개시의 다양한 실시 예들에 따른 영역 적응적 평활화의 강도를 위해 행 위치를 사용하는 360도 비디오 코딩을 위한 프로세스를 도시한다.
도 15는 본 개시의 다양한 실시 예들에 따른 360도 비디오 프로세싱 체인을 도시한다.
도 16a 및 도 16b는 본 개시의 다양한 실시 예들에 따른 대안적인 평활화 영역들을 도시한다.
도 17은 본 개시의 다양한 실시 예들에 따른 등장방형 매핑된 프레임의 상단 및 하단 영역 압착(squeezing)을 도시한다.

하기에 설명되는 도 1 내지 도 17 및 이 특허 문헌에서 본 개시의 원리를 설명하는데 이용되는 다양한 실시 예들은 단지 예시에 불과하며, 본 개시의 범주를 제한하는 어떠한 방법으로도 이해되어서는 안 된다. 당업자라면, 본 개시의 원리들이 임의로 적합하게 구성된 시스템으로 구현될 수 있음을 이해할 것이다.

하기의 문서들 및 표준 설명들은 본 명세서에 완전히 기재된 것처럼 본 개시 내용에 포함된다.

[1] M. Narroschke and R. Swoboda, “Extending HEVC by an affine motion model, pp. 321-324, IEEE Picture Coding Symposium, 2013.

[2] J. Zheng et. al., “Adaptive selection of motion models for panoramic video,” pp. 1319-1322, IEEE International Conference on Multimedia and Expo, 2007.

[1]과 [2]와 같이 비디오를 코딩하기 위해 정교한 움직임 모델들을 사용하는 사전 작업이 사용될 수 있다. 다만, 이러한 기술들의 단점은 비디오 복호화 아키텍처(architecture)를 수정해야 하므로 기존 장치들에서 지원될 수 없다는 점이다.

360도 비디오는 360도의 세계를 커버하는 다수의 카메라들로부터 화상들을 뒤틀림(warping)하고 스티칭(stitching)하여 만들어진다. 스티치 된 화상은 2차원 직사각형 화상으로 등장방형 매핑 되고, H.264/AVC(advanced video coding) 및 HEVC(high efficiency video coding)/H.265와 같은 표준 비디오 코덱들을 사용하여 코딩 된다. 재생 중에, 압축된 비디오는 스트리밍(streaming)되거나 다운로드 및 복호화 될 수 있다. 복호화 이후, 비디오는 가상 구의 중심에 위치하는 관찰자를 가지는 3D 그래픽 환경 내의 가상 구에 텍스쳐 매핑(texture mapped)된다. 관찰자는 가상 구체 내부를 탐색하여 자신이 원하는 360도 세계의 시야를 보면서 몰입형 경험을 경험할 수 있다. 등장방형 매핑의 특징은 가상 구의 실제 영역과 비교할 때 상단 및 하단 뷰들이 2D 스티치 된 화상에서 더 많은 수의 화소들을 차지하는 점이다. 본 개시는 등장방형 매핑의 이러한 특성을 이용하여 비트레이트 절감을 제공한다. 본 개시는 부호화 하기 전에 비디오의 상단 및 하단 영역을 평활화 한다. 스티치 된 화상의 상단 및 하단의 화소는 지각할 수 있는 것보다 더 많은 해상도를 갖기 때문에, 평활화는 지각적인 품질의 열화를 초래하지 않는다. 다만, 평활화 영역은 더 적은 전송될 변환 계수를 요구하기 때문에, 비트레이트 절감을 야기한다. 본 개시에서의 평활화는 2D 화상의 영역에 따라 고정되거나 변경될 수 있다. 본 개시의 방법은 최대 20%의 절감을 달성할 수 있다. 평활화는 부호화 측에서 사전 처리 단계이며 코덱 유형에 의존적이지 않다. 따라서 평활화는 기존 코덱들을 이용하여 쉽게 지원될 수 있다.

본 개시는 또한 파노라마 장면의 다수의 뷰들이 뒤틀리고 스티칭 되는 비디오 시퀀스의 새로운 유형, 즉 360도 비디오 시퀀스를 다룬다. 360도 비디오 시퀀스는 가상현실(virtual reality, VR) 장치에 많은 응용(application)을 가지고 있다. 360개의 비디오 시퀀스를 효율적으로 전송하기 위해, 다중-뷰 시퀀스는 개별적으로 전송되지 않는다. 대신 직사각형 프레임들로 구성된 뒤틀리고 스티치 된 버전이 저장된다. HEVC 및 H.264/AVC와 같은 최첨단 비디오 코딩 기술은 변형된 화상 공간의 특성을 완전히 활용할 수 없다. 특히, 정규 비디오 시퀀스들에서, 움직임 추정은 비디오 코덱에서 상당한 압축 이득을 제공한다. 그러나, 뒤틀린 공간에서, 움직임 추정될 오브젝트, 예를 들어, 화소들의 블록은 변형될 것이다. 따라서, 움직임 추정 기술은 변형된 공간을 따르도록 다시 설계되어야 한다.

HEVC 표준에서 인터 예측 프로세스에 세가지 모드가 있다. 스킵 모드에서, 변환 계수들은 전송되지 않고, 코딩 유닛 (coding unit, CU)은 예측 유닛 (prediction unit, PU)으로 표현되고, 파라미터들은 병합 모드에 의해 획득된다. 병합 모드에서, 현재 PU 파라미터들은 이웃하는 PU로부터 추론된다. 그리고 노말(normal) 인터 예측 모드에서, 움직임 파라미터들은 계산되고 시그널링 된다.

움직임 벡터 예측에서, 공간적이고 일시적인 이웃하는 PU 움직임 벡터들은 현재 PU 움직임 벡터를 예측하는데 사용된다.

도 1은 본 개시에 따른 예시적인 컴퓨팅 시스템 100을 도시한다. 도 1에 도시된 컴퓨팅 시스템 100의 실시 예는 단지 설명을 위한 것이다. 컴퓨팅 시스템 100의 다른 실시 예들은 본 개시의 범위를 벗어나지 않고 사용될 수 있다.

도 1에 도시된 대로, 시스템 100은 시스템 100에서 다양한 구성요소들 간에 통신이 가능하게 해주는 네트워크 102를 포함한다. 예를 들어, 네트워크 102는 인터넷 프로토콜(internet protocol) 패킷들, 프레임 릴레이 프레임들(frame relay frames), 비동기식 전송 모드(asynchronous transfer mode) 셀(cell)들, 또는 네트워크 주소들 간에 다른 정보를 통신한다. 네트워크 102는 하나 이상의 로컬 영역 네트워크 (local area network, LAN), 메트로폴리탄 영역 네트워크 (metropolitan area network, MAN), 광역 네트워크(wide area network, WAN), 인터넷과 같은 글로벌 네트워크의 전부 또는 일부, 또는 하나 이상의 위치에서 임의의 다른 통신 시스템 또는 시스템들을 포함할 수 있다.

네트워크 102는 적어도 하나의 서버 104와 다양한 클라이언트 장치들 106-114 간의 통신을 가능하게 한다. 각각의 서버 104는 하나 이상의 클라이언트 장치에 컴퓨팅 서비스를 제공할 수 있는 임의의 적절한 컴퓨팅 또는 프로세싱 장치를 포함한다. 각각의 서버 104는 예를 들어, 하나 이상의 처리 장치, 명령 및 데이터를 저장하는 하나 이상의 메모리, 및 네트워크 102를 통한 통신을 가능하게 하는 하나 이상의 네트워크 인터페이스를 포함할 수 있다.

각각의 클라이언트 장치들 106-114는 네트워크 102를 통해 적어도 하나의 서버 또는 다른 컴퓨팅 장치(들)와 상호 작용하는 임의의 적합한 컴퓨팅 또는 프로세싱 장치를 나타낸다. 이 예에서, 클라이언트 장치들 106-114는 데스크톱 컴퓨터 106, 모바일 전화 또는 스마트폰 108, PDA(personal digital assistant) 110, 랩탑 컴퓨터 112 및 태블릿 컴퓨터 114를 포함할 수 있다. 그러나, 임의의 다른 또는 추가적인 클라이언트 장치들이 컴퓨팅 시스템 100에서 사용될 수 있다.

이 예에서, 일부 클라이언트 장치들 108-114는 네트워크 102와 간접적으로 통신한다. 예를 들어, 클라이언트 장치들 108-110은 셀룰러(cellular) 기지국 또는 eNodeB(evolved Node B)와 같은 하나 이상의 기지국 116을 통해 통신한다. 또한, 클라이언트 장치들 112-114는 IEEE(Institute of Electrical and Electronics Engineers) 802.11 무선 액세스 포인트들과 같은 하나 이상의 무선 액세스 포인트 118을 통해 통신한다. 이들은 단지 예시를 위한 것이며, 각각의 클라이언트 장치는 임의의 적합한 중간 장치(들) 또는 네트워크(들)를 통해 네트워크 102와 직접 또는 간접적으로 통신할 수 있다는 것을 유의해야 한다.

이 예시적인 실시 예에서, 컴퓨팅 시스템 100은 아래에서 더 상세히 설명되는 바와 같이 360도 비디오에 대한 영역 적응적 평활화 및 움직임 추정 및 보상을 사용하여 360도 비디오의 코딩을 제공한다. 예를 들어, 서버 104는 영역 적응적 평활화 및 360도 비디오에 대한 움직임 추정 및 보상을 사용하여 360도 비디오의 부호화를 제공할 수 있다. 이와 유사하게, 클라이언트 장치들 108-114는 네트워크 102를 통해 서버 104로부터 부호화된 화상 또는 비디오를 수신하고, 360도 비디오에 대한 영역 적응적 평활화 및 움직임 추정 및 보상을 사용하여 360도 비디오를 복호화 할 수 있다.

도 1은 컴퓨팅 시스템 100의 일 예를 도시하지만, 다양한 변경이 도 1에 대해 이루어질 수 있다. 예를 들어, 시스템 100은 임의의 적절한 배열로 임의의 수의 각 구성 요소를 포함할 수 있다. 일반적으로, 컴퓨팅 및 통신 시스템들은 다양한 구성을 가지며, 도 1은 이 개시의 범위를 임의의 특정 구성으로 제한하지 않는다. 도 1은 본 특허 문헌에 개시된 다양한 특징들이 사용될 수 있는 하나의 동작 환경을 도시하지만, 이러한 특징들은 임의의 다른 적합한 시스템에서 사용될 수 있다.

도 2 및 도 3은 본 개시에 따른 컴퓨팅 시스템 내의 예시적인 장치들을 나타낸다. 특히, 도 2는 예시적인 서버 200을 도시하고, 도 3은 예시적인 클라이언트 장치 300을 도시한다. 서버 200은 도 1의 서버 104를 나타낼 수 있고 클라이언트 장치 300은 도 1에서 하나 이상의 클라이언트 장치 106 내지 114를 나타낸다.

도 2에 도시된 바와 같이, 서버 200은 하나 이상의 프로세서 210, 적어도 하나의 저장 장치 215, 적어도 하나의 통신부 220, 및 적어도 하나의 입/출력 (input/output, I/O)부 225를 포함한다.

프로세서(들) 210은 메모리 230에 로딩될 수 있는 명령들을 실행한다. 프로세서 210는 임의의 적절한 배열로 프로세서들 또는 다른 장치들의 임의의 적절한 수 및 유형을 포함할 수 있다. 프로세서(들) 210의 예시적인 유형들은 마이크로프로세서, 마이크로 컨트롤러, 디지털 신호 프로세서, FPGA(field programmable gate arrays), ASIC(application specific integrated circuit) 및 신중한(discreet) 회로를 포함한다. 프로세서(들) 210은 인증된 착용 가능 장치로 전자 장치를 잠금 해제하기 위한 동작들을 수행하도록 구성된다.

메모리 230 및 영구 저장 장치 235는 정보 (예를 들어, 데이터, 프로그램 코드 및/또는 일시적 또는 영구적인 다른 적절한 정보와 같은)의 검색을 저장하고 용이하게 할 수 있는 임의의 구조(들)을 나타내는 저장 장치들 215의 예시들이다. 메모리 230은 랜덤 액세스 메모리 또는 임의의 다른 적절한 휘발성 또는 비휘발성 저장 장치(들)를 나타낼 수 있다. 영구 저장 장치 235는 준비 전용 메모리, 하드 드라이브, 플래시 메모리 또는 광디스크와 같은 데이터의 장기 저장을 지원하는 하나 이상의 구성 요소 또는 장치를 포함할 수 있다.

통신부 220은 다른 시스템들 또는 장치들과의 통신을 지원한다. 예를 들어, 통신부 220은 네트워크 인터페이스 카드 또는 네트워크 102를 통해 통신을 용이하게 하는 무선 송수신기를 포함할 수 있다. 통신부 220은 임의의 적합한 물리적 또는 무선 통신 링크(들)를 통한 통신을 지원할 수 있다.

입/출력부 225는 데이터의 입력 및 출력을 허용한다. 예를 들어, 입/출력부 225는 키보드, 마우스, 키패드, 터치 스크린, 또는 다른 적절한 입력 장치를 통한 사용자 입력을 위한 연결을 제공할 수 있다. 또한, 입/출력부 225는 디스플레이, 프린터 또는 다른 적절한 출력 장치로 출력을 전송할 수 있다.

이 예시적인 실시 예에서, 서버 200은 이하에서 더 상세히 설명되는 바와 같이 360도 비디오에 대한 영역 적응적 평활화 및 움직임 추정 및 보상을 사용하여 360도 비디오의 코딩을 제공하는 화상 처리 장치를 구현할 수 있다. 도 2가 도 1의 서버 104를 나타내는 것으로 설명되었지만, 동일하거나 유사한 구조가 하나 이상의 클라이언트 장치 106 내지 114에서 사용될 수 있다. 예를 들어, 랩톱 또는 데스크탑 컴퓨터는 도 2에 도시된 것과 동일한 또는 유사한 구조를 가질 수 있다.

도 3에 도시된 바와 같이, 클라이언트 장치 300은 안테나 305, 무선 주파수(radio frequency, RF) 송수신기 310, 송신(transmit, TX) 처리 회로 315, 마이크로폰 320 및 수신 (receive, RX) 처리 회로 325를 포함한다. 클라이언트 장치 300은 또한, 입/출력 인터페이스 (IF) 345, 터치 스크린 350, 디스플레이 355 및 메모리 360을 포함한다. 메모리 360은 기본 운영 시스템(operating system, OS) 프로그램 361 및 하나 이상의 어플리케이션 362를 포함한다.

RF 송수신기 310은 안테나 305로부터 시스템의 다른 구성 요소에 의해 송신되어 들어오는 RF 신호를 수신한다. RF 송수신기 310은 입력되는 RF 신호를 하향 변환하여 중간 주파수(intermediate frequency, IF) 또는 기저대역 신호를 생성한다. IF 또는 기저 대역 신호는 기저대역 또는 IF 신호를 필터링, 복호화 및/또는 디지털화함으로써 처리된 기저 대역 신호를 생성하는 수신 처리 회로 325로 전송된다. 수신 처리 회로 325는 처리된 기저대역 신호를 스피커 330 (음성 데이터와 같은) 또는 추가 처리(웹 브라우징 (web browsing) 데이터와 같은)를 위해 프로세서 340로 송신한다.

송신 처리 회로 315는 마이크로폰 320으로부터 아날로그 또는 디지털 음성 데이터 또는 프로세서(들) 340으로부터 다른 출력되는 기저대역 데이터 (웹 데이터, 이메일 또는 쌍방향 비디오 게임 데이터와 같은) 를 수신한다. 송신 처리 회로는 처리된 기저대역 또는 IF 신호를 생성하기 위해 출력되는 기저대역 데이터를 부호화, 다중화 및/또는 디지털화 할 수 있다. RF 송수신기 310은 송신 처리 회로 315로부터 출력되는 처리된 기저대역 또는 IF 신호를 수신하고, 기저대역 또는 IF 신호를 안테나 305를 통해 송신되는 RF 신호로 상향 변환한다.

프로세서(들) 340은 하나 이상의 프로세서 또는 다른 처리 장치를 포함할 수 있고, 클라이언트 장치 300의 전체 동작을 제어하기 위해 메모리 360에 저장된 기본 OS 프로그램 361을 실행할 수 있다. 예를 들어, 프로세서(들) 340은 잘 알려진 원리에 따라, RF 송수신기 310, 수신 처리 회로 325 및 송신 처리 회로 315에 의한 순방향 채널 수신 및 역방향 채널 송신을 제어할 수 있다. 일부 실시 예들에서, 프로세서(들) 340은 적어도 하나의 마이크로프로세서 또는 마이크로 컨트롤러를 포함한다.

프로세서(들) 340은 또한 인증된 착용 가능 장치로 전자 장치를 잠금 해제하기 위한 동작과 같이, 메모리 360에 상주하는 다른 프로세스들 및 프로그램들을 실행할 수 있다. 프로세서(들) 340은 실행 프로세스에 의해 요구되는 바와 같이 메모리 360 내외로 데이터를 이동시킬 수 있다. 일부 실시 예들에서, 프로세서(들) 340은 OS 프로그램 361에 기초하거나 외부 장치들 또는 운영자(operator)로부터 수신한 신호들에 응답하여 어플리케이션(application)들 362를 실행하도록 구성된다. 프로세서(들) 340은 또한 랩탑(laptop) 컴퓨터 및 핸드헬드(handheld) 컴퓨터와 같은 다른 장치들에 연결하는 능력을 클라이언트 장치 300에 제공하는 입/출력 인터페이스 345에 결합된다. 입출력 인터페이스 345는 이들 액세서리들과 프로세서(들) 340간의 통신 경로이다.

또한, 프로세서(들) 340은 터치 스크린 350 및 디스플레이부 355에 결합된다. 클라이언트 장치 300의 운영자(operator)는 터치 스크린 350을 이용하여 클라이언트 장치 300에 데이터를 입력할 수 있다. 디스플레이 355는 웹 사이트로부터 텍스트 및/또는 적어도 제한된 그래픽을 랜더링(rendering) 할 수 있는 액정 디스플레이 또는 다른 디스플레이일 수 있다.

메모리 360은 프로세서(들) 340에 연결된다. 메모리 360의 일부는 랜덤 액세스 메모리(random access memory, RAM)를 포함할 수 있고, 메모리 (360)의 다른 부분은 플래시 메모리(flash memory) 또는 다른 읽기 전용 메모리(read only memory, ROM)를 포함할 수 있다.

아래에서 더 상세히 설명하는 바와 같이, 이 예시적인 실시 예에서, 클라이언트 장치 300은 네트워크 102를 통해 서버 104로부터 부호화 된 화상들 또는 비디오들을 수신하고, 영역 적응적 평활화 및 360도 비디오를 위한 움직임 추정 및 보상을 사용하여 360도 비디오를 복호화 하는 화상 처리 장치를 구현한다. 도 2 및 도 3은 컴퓨팅 시스템 내의 장치들의 예들을 도시하지만 도 2 및 도 3에 다양한 변경이 가해질 수 있다. 예를 들어, 도 2 및 도 3의 다양한 구성 요소(component)들은 결합되거나, 더 세분화되거나, 생략될 수 있고 특정 필요에 따라 추가적인 구성 요소들이 더해질 수 있다. 특정 예로서, 프로세서(들) 340은 하나 이상의 중앙 처리 장치 (central processing units, CPUs) 및 하나 이상의 그래픽 처리 장치 (graphics processing units, GPUs)과 같은 다수의 프로세서로 분할될 수 있다. 또한, 도 3은 이동 전화기 또는 스마트 폰으로 구성된 클라이언트 장치 300을 도시하지만, 클라이언트 장치들은 다른 유형들의 이동 또는 고정 장치로서 동작하도록 구성될 수 있다. 또한, 컴퓨팅 및 통신 네트워크와 마찬가지로, 클라이언트 장치들 및 서버들은 다양한 구성들을 가질 수 있으며, 도 2 및 도 3은 임의의 특정 클라이언트 장치 또는 서버에 대해 본 개시를 한정하지 않는다.

도 4는 캡쳐 405에서 화상 스티칭 및 등장방형 매핑 410, 비디오 부호화 415, 비디오 복호화 420 및 랜더링 1125에 이르기까지 360도 비디오 프로세싱 체인 400을 도시한다. 세계의 360도 뷰는 주로 다수의 카메라들을 사용하여 캡쳐된다. 도 4의 캡쳐 405는 7개의 카메라가 사용되는 예를 도시한다. 5개의 카메라는 전면, 후면 및 측면을 커버하고, 1개의 카메라는 상단에 하나의 카메라는 하단을 커버한다. 다수의 카메라들로부터의 화상들은 정렬되고, 함께 스티칭되고, 단일 화상으로 등장방형 매핑 된다 410.

도 5a 내지 도 5d는 스티칭 및 등장방형 매핑 510의 예를 도시한다. 도 5a는 스티칭 처리에 공급되는 7개의 카메라들로부터의 7개의 화상들 500을 도시한다. 이러한 입력들은 122.6도의 수평 시야와 94.4도의 수직 시야를 가지는 넓은(wide) 접안 렌즈(eye lens)를 사용하여 바둑판 화상들의 캡쳐를 시뮬레이션(simulation)함으로써 생성된다. 도 5b는 대응하는 스티칭 된 화상 505를 도시한다. 상단 및 하단 바둑판 패턴은 상단 및 하단 카메라 각각으로부터 나온다. 도 5a의 7개의 화상 각각은 1920x1440 크기이다. 도 5b의 스티칭 된 화상 505는 4096x2048 크기이다.

360도 비디오는 스티칭 프로세스의 출력에서 H.264/AVC 및 HEVC/H.265와 같은 표준 비디오 코덱을 사용하여 정규 2D 비디오로 코딩된다. 재생 중에 압축된 비디오는 스트리밍 되거나 다운로드 및 복호화될 수 있다. 복호화 이후에, 비디오는 가상 구 510의 중심에 위치된 관찰자(viewer)와 함께, 도 5c에 도시된 바와 같이 3D 그래픽 환경에서 가상 구 510 상에 텍스처 매핑(texture mapping) 된다. 도 5b의 비디오가 360도 비디오 관찰자에게 보여질 때, 사용자는 5개의 벽과 천장 및 바닥을 갖는 방에 서 있다고 지각할 수 있다. 도 5d는 이 지각을 이해하는데 도움을 주기 위해 도면에 포함된 360도 비디오 관찰자의 출력 515의 스크린 캡쳐이다.

또 다른 논점(observation)은 정면, 후면 및 측 뷰와 비교할 때 상단 및 하단 뷰가 360도 스티칭 된 화상에서 더 많은 수의 화소들을 차지하는 점이다. 이것은 모든 뷰가 구의 대략적으로 동일한 영역들을 커버하는 도 5b 및 도 5c를 비교하면 분명하다. 이 논점은 등방장형 매핑의 특성이며 지구 표면 (구)에서 2D 표면 (맵)으로 매핑되는 세계지도에도 존재한다. 세계지도에서, 극 근처의 육지는 적도 부근의 육지보다 훨씬 더 크게 보인다. 본 개시는 등장방형 매핑의 이러한 특성을 이용하여 비트레이트 절감을 제공하고, 부호화 이전에 비디오의 상단 및 하단 영역을 평활화 한다. 스티칭 된 화상의 상단 및 하단의 화소는 지각할 수 있는 것보다 더 많은 해상도를 갖기 때문에, 평활화는 지각적인 품질 열화(perceptual quality degradation)를 초래하지 않는다. 그러나, 평활화 영역들은 더 적은 변환 계수들을 전송하는 것을 요구하기 때문에 평활화는 비트레이트를 절감하게 한다.

도 6은 직사각형 평면 605 및 뒤틀린 평면 610 간에 등거리 매핑 600을 도시한다. 직사각 평면 605는 x 및 y에 관한 것이다. 뒤틀린 평면 610은 u 및 v에 관한 것이다.

어안 렌즈에서 뒤틀림들은 직사각형 평면에서 뒤틀린 평면 610으로 비-선형 매핑이다. 매핑을 나타내는 다양한 모델들이 있으며, 이 중에서 등거리 매핑이 가장 일반적이다.

도 1에서 설명되는 것과 같이, θ는 직사각 평면 605에서 평면 중심 615, (x₀,y₀)까지의 점 s(x,y)의 각도이다. 매핑 결과 r은 뒤틀림 평면 P에서 매핑된 점 p(u,v)과 뒤들림 평면 중심 615 (u₀,v₀) 간에 거리이다.

매핑 프로세스는 다음과 같이 설명된다. d를 s로부터 (x₀,y₀)까지의 거리라고 하면

이다. 각도는 θ=arctan(d/f) 이다. 뒤틀린 거리는 r=farctan(d/f) 이다. S에서의 (x,y)와 P의 (u,v)간에 주어진 동질적인 관계(homogeneous relationship)는 다음과 같다.

매핑은 다음과 같이 표현된다.

뒤틀린 평면 615 P에서 직사각형 평면 610 S로 역방향 매핑은 유사하게 (x,y)=iT(u,v)으로 도출될 수 있다.

도 7a는 매핑 이후 뒤틀림의 효과들 700을, 도 7b는 매핑 이전 뒤틀림의 효과들 705를 도시한다. 매핑의 특성은 점이 중심으로부터 멀어질수록 뒤틀림이 더 적용되는 것이다.

도 8a는 현재 프레임 815 f_i 에서 PU 810가 현재 PU 810과 동일한 형상을 갖는 이전에 코딩되고 재구성된 프레임 825 f_j으로부터 예측 후보 블록 820을 찾고 있는 움직임 추정 800을 도시한다. 기준 프레임 인덱스 j 및 움직임 벡터 Δ는 움직임 추정 파라미터들로 부호화될 것이다.

도 8b는 뒤틀린 움직임 추정 805을 도시한다. 직사각형 공간에서, 화소 p₁은 p₂의 위치로 이동하고, 그 다음 PU의 다른 모든 화소들은 동일한 MV(motion vector)로 이동한다, 즉:

그러나 뒤틀린 평면에서는 동일한 움직임 관계가 유지되지 않는다. 뒤틀린 평면의 직사각형 블록이 0이 아닌 움직임 벡터 δ로 이동하면 직사각형 블록 내의 화소들의 위치는 더 이상 다른 화소들에 대해 동일한 상대적 위치를 유지하지 않게 된다. 도 8b에 도시된 바와 같이, p₁이 p₂의 위치로 이동하면, p₃이 이동하는 위치는 p₃+p₂-p₁이 아닐 것이다. 그러나 동일한 움직임 관계가 뒤틀리지 않은 평면(unwarped plane)에서 유지되어야 한다. 따라서, 중간 매핑과 보간이 수행되어야 한다.

뒤틀린 움직임 추정 문제는 다음과 같다: 뒤틀린 비디오 시퀀스에서 상단-왼쪽 화소 p₁에 의해 지시되는 프레임 f_i 의 PU가 주어진 경우, p₁이 다른 프레임 f_j 에서 p₂의 위치로 이동하면, PU 내에 다른 화소 p₃은 어디로 이동하는지 (즉, p4의 위치는 무엇인지)

뒤틀리지 않는 평면에서 동일한 움직임 관계를 가정함으로써, 중간 매핑 830은 직사각형 평면에서 p₄의 위치를 계산하고 그것을 뒤틀린 평면으로 다시 매핑 하는데 사용된다. 직사각형 평면 S로부터 뒤틀린 평면 P로의 매핑은 p=T(s)로 표시되고, 역 매핑은 s=T(p)로 표시된다.

도 9a는 프레임 f_j 925에서 화소들 920에 의해 매핑된 화소들 915의 보간 900을 도시한다. 움직임 이후의 모든 화소 위치들이 중간 매핑을 사용하여 얻어지면, 그 위치들에서 화소들의 값들은 보간 기법들에 의해 결정되어야 한다.

본 발명에서 가능한 실시 예는 루마 성분들(luma components)에 대해 이중 선형 보간(bilinear interpolation)을 사용하고, 크로마 성분들(chroma components)의 최근접 이웃 보간법(nearest neighbor interpolation)을 사용한다. 프로토 타입 실험(prototype experiments)은 루마 성분들에서 이중 선형 보간법을 사용하는 것이 최근접 이웃 보간법을 사용하는 것보다 훨씬 앞선다는 것을 보여준다. 도 9b를 참조하면 2 개의 보간 기법이 다음과 같이 기술된다:

중간 매핑에 의해 발견된 화소 위치 (x,y)는 화소 그리드 상에 4개의 이웃 화소들 사이의 셀(cell)에 있어야 한다.

를 각각 (x,y)의 정수 부분으로 설정한다. t₂ = x-x_i 및 t₁ = y-y_i 는 좌표 차이이다. 최근접 이웃 보간법은 I(x, y)=I (그리드에서 x, y에 가장 가까운 점)로 (x, y)의 값을 찾지만, 이중 선형 보간법은 (x, y)의 값을 다음에 의해 찾는다.

보간 후, 보간된 화소 값들은 현재 PU의 예측이다.

도 9c는 본 발명의 다양한 실시 예들에 따른 움직임 벡터 예측자 보상(motion vector predictor compensation, MVPC) 910을 도시한다. 인터 예측 기술들에서, 현재 PU 움직임 벡터와 이웃하는 PU 움직임 벡터 중 하나 간에 차이를 재사용하고 부호화 하는 움직임 벡터 예측은 공간적 코히어런스(coherence)를 이용하는데 큰 이점이 있다. 그러나 뒤틀린 평면에서는 PU 위치의 차이로 인해 이웃하는 PU의 움직임 벡터를 직접 사용하면 안되며, 대신 보상이 추가된다.

도 9c에 도시된 바와 같이, MVPC는 현재 PU₂가 PU₁의 움직임 벡터 δ₂뿐만 아니라 기준 PU₁의 오프셋 τ를 알고 있어야 한다. 그런 다음 움직임 벡터 예측은 δ₂ 더하기 MVPC γ 이며, 여기서 뒤틀리지 않은 평면에서 동일한 움직임 관계가 재검토(revist)된다.

도 10은 본 발명의 다양한 실시 예들에 따른 레이트 왜곡 최적화(rate distortion optimization, RDO) 탐색 1005에서의 추가적인 뒤틀림 모드 1000을 도시한다. 특정 실시 예들에서, 뒤틀림 움직임 추정 모드 (MVPC를 포함함)는 전통적인 인터 예측 기술에 추가된다.

이 경우, 여분의 뒤틀림 모드를 나타내기 위해 추가 오버헤드가 부호화되어야 한다. 두 가지 코딩 방식이 표 1에 보여진다. 표 1은 오버헤드 코딩을 나타낸다.

룩업 테이블(look-up table)은 계산 테이블을 줄이기 위해 사용된다. 뒤틀림의 복잡성에 크게 영향을 미치는 두 가지 측면들은 매핑 함수들과 거리 계산이다. 평면 중심에서 그리드 상에 화소들 간에 거리가 모든 프레임에서 변경되지 않을 수 있으므로, 거리들은 미리 계산되어 비디오 프레임과 동일한 크기의 2D 배열에 저장된다.

매핑 함수에서 가장 큰 비용의(most expensive) 계산은 tan ()과 arctan ()의 값을 찾는 것이다. 특정 실시 예들에서, 값들은 제한된 정확도로 양자화되고 저장된다. 예를 들어, 인접한 두 화소들 사이의 거리는 1이다 (정규화). 그러면, 두 거리 사이의 가장 작은 0이 아닌 차이는 다음과 같다:

여기서 √2는 대각선 화소들의 거리, 1은 인접한 화소들의 거리, f는 화소들의 초점 단위 길이이며 4는 움직임 추정에서 가장 작은 분수 ¼를 나타낸다. 순방향 매핑에 대한 양자화 된 값들은 다음과 같다:

이하 표 2는 낮은 지연 P 구성에서 HM14 (부분적인 움직임 추정 사용 안함) 및 추가 모드 (제안되는)로서 뒤틀림 움직임 추정 간의 BD 레이트를 비교한다. 네거티브(negative) 값은 이득(gain)을 의미한다. 첫 번째 7행들은 자연스러운 시퀀스들로, 코딩 이전에 다운 샘플링 되고 뒤틀린다. 마지막 3행들은 시뮬레이션 된 글로벌 움직임(global motion) (움직임 속도 n 화소/프레임) 및 뒤틀린다.

도 11은 본 개시의 다양한 실시 예들에 따른 이러한 영역 적응적 평활화 1115를 갖는 360도 비디오 처리 프로세스 1100을 도시한다.

캡처 1105는 7개의 다른 카메라들로부터의 화상들을 취한다. 7개의 카메라로부터의 화상들 1110은 2D 패턴으로 정렬된다. 화상 스티칭 및 등장방형 매핑 1110은 화상을 취하여 이들을 등장방형 맵(map) 1120으로 결합한다.

영역 적응적 평활화 1125는 부호화 측에서의 전-처리 단계이며 코덱의 유형에 의존하지 않으므로 기존 코덱들을 사용하여 쉽게 지원될 수 있다.

평활화의 영향을 테스트하기 위해, 표 3에 나열된 서로 다른 11개의 360도 비디오를 평활화 하는데 7x7 가우시안 필터 (분산 5)이 사용되었다. 비트 전송률 절감을 결정하기 위해, 비디오 시퀀스들의 모든 화상들 중, 평활화 된 화상의 상단 영역 1130 및 하단 영역 1135의 백분율인, 상단 및 하단 pSmooth 퍼센트가 평활화되고 x264(QP(quoted printable)=27의 랜덤 액세스 설정)를 사용하여 부호화된다. 평활화의 적용 및 미적용의 지하철, 동물원 및 드래곤라이드2에 해당하는 비트열들은 지각적인 품질 열화가 가시화되기 시작하는 pSmooth 값을 결정하기 위해 기어 VR을 사용하여 공식적으로 시청되었다. 지하철 및 동물원 시퀀스는 자연스러운 시퀀스들인 반면, 드래곤라이드2는 컴퓨터 생성 애니메이션 (animation)이다. 자연스러운 비디오 시퀀스들의 경우 지각적인 품질 저하가 20%의 pSmooth에서 약간(slighty) 눈에 띄기 시작하지만 컴퓨터 생성 애니메이션의 경우 15%의 pSmooth에서 지각적인 품질 저하가 약간 눈에 띄기 시작한다. 이 논점은 약식으로(informally) 보여지는 다른 비디오 시퀀스들에 대해 대략적으로 적용된다. 아래의 표 3은 20% 및 15%의 pSmooth에 대한 비트레이트 절감을 나타낸다. 현재의 영역 적응적 평활화 기법을 사용하면 4 내지 22%의 범위에서 비트레이트를 절감할 수 있음이 보여질 수 있다.

등장방형 매핑된 화상 1115가 평활화 되면, 등장방형 매핑된 화상 1115가 전송을 위해 부호화 된다 1140. 등장방형 매핑된 화상 1115는 디코더에 의해 수신되어 복호화 된다 1145. 등장방형 매핑된 화상 1115가 복호화되면, 화상 처리 장치는 등장방형 매핑된 화상 1115를 구 1155로 랜더링한다 1150. 구 1155는 3D 화상 또는 비디오 1165를 보기 위해 관찰자 1160에 의해 사용된다.

도 5b의 또 다른 논점은 화상이 화상의 상단 및 하단을 향해 더 확장되어, 지각적인 손실(perceptual loss)을 증가시키지 않고 화상의 상단 및 하단에서 평활화의 정도를 증가시킬 수 있다는 것이다. 평활화의 정도는 화상의 상단 및 하단 근처에서 가우스 평활화 필터의 분산을 증가시킴으로써 제어된다. 도 12a는 화상 행 번호 y의 함수로서 가우시안 평활화 필터의 분산을 계산하기 위한 휴리스틱스(heuristics)를 유도하는데 사용되는 직경 1을 갖는 정규화 된 구를 도시한다. 화상 행 번호 y에서, 구 상에 화상의 고유 해상도는 x에 비례하며, 즉 √(1-y² ) 이다. y가 상단 극(top pole)까지 증가함에 따라, x는 계속 감소한다 (이와 유사하게, y는 하단 극(bottom pole)까지 감소하고 x는 계속 감소한다). 그러나, 등장방형 매핑은 여전히 이 해상도를 나타내기 위해 화상의 전체 너비를 사용한다. 따라서, 가우시안 평활화 필터의 분산 σ²을 결정하기 위해 √(1-y² )에 반비례하는 다음 방정식이 사용된다.

y가 0에서부터 1로 갈수록, 즉 화상의 중심에서 화상의 상단으로 갈수록, σ²는 0에서 큰 값으로, 즉, 평활화 미적용에서 매우 강한 평활화로 이동한다. 도 12b는 σ²가 정규화된 화상 행 번호 (정규화된 화상의 하단인 음의 1(negative 1) 과 화상의 상단인 양의 1(positive 1) 사이에 있도록 정규화)에 따라 K가 3인 경우에 어떻게 변하는지를 도시한다. 평활화 변수는 x264에서 구현되었다. 표 4는 표 3의 비트레이트보다 높은 해당 비트레이트 절감 효과를 보여준다. K를 높이면 화상의 가운데 영역이 약간 평활화되어 비트레이트를 추가로 절감할 수 있으므로, 레이트 제어가 가능한 낮은 비트레이트에서 특히 유용하다.

도 13은 본 개시의 다양한 실시 예에 따라 영역 적응적 평활화를 사용하여 360도 비디오를 코딩하는 프로세스를 도시한다. 예를 들어, 도 13에 도시된 프로세스는 도 2의 서버 200에 의해 수행될 수 있다.

1305 단계에서, 화상 처리 장치는 등장방형 매핑된 화상의 상단 영역 및 하단 영역 또는 비디오의 등장방형 매핑된 프레임들 각각을 정의한다. 상단 영역 및 하단 영역은 미리 정의되거나 영역에서 정보의 양과 같은 함수에 기반할 수 있다.

1310 단계에서, 화상 처리 장치는 행을 선택하고 그 행이 상단 영역 또는 하단 영역에 있는지 결정한다. 1315단계에서, 화상 처리 장치는 행이 상단 영역 또는 하단 영역에 있을 때, 화소들의 행에 대해 평활화 처리를 수행한다. 1320 단계에서, 화소 처리부는 등장방형 매핑된 화상 또는 비디오의 등장방형 매핑된 프레임들 각각에 나머지 행들이 있는지 여부를 결정한다.

도 14는 본 개시의 다양한 실시 예에 따른 영역 적응적 평활화의 강도에 대해 행 위치를 사용하여 360도 비디오를 코딩하는 프로세스를 도시한다. 예를 들어, 도 14에 도시된 프로세스는 도 2의 서버 200에 의해 수행될 수 있다.

1405 단계에서 화상 처리 장치는 등장방형 매핑된 화상의 상단 영역과 하단 영역 또는 비디오의 등장방형 매핑된 프레임들 각각을 정의한다. 상단 영역과 하단 영역은 미리 정의되거나 영역에서 정보의 양과 같은 함수에 기반할 수 있다. 1410 단계에서, 화상 처리 장치는 행을 선택하고, 행이 상단 영역 또는 하단 영역에 있는지를 결정한다.

1415 단계에서, 화상 처리 장치는 행 위치에 따라 사용하는 평활화의 강도를 결정한다. 등장방형 매핑된 화상의 상단과 하단에 있는 행은 맵(map)의 다른 행들과 동일한 양의 화소를 가지지만, 구 상의 훨씬 작은 양의 화소를 나타낸다. 따라서 구가 랜더링 될 때 북쪽 및 남쪽 극(north and south poles)에는 실제로 캡쳐된 것보다 많은 정보가 포함된다. 등장방형 매핑의 이러한 효과 때문에, 행이 등장방형 매핑된 화상의 상단 및 하단에 접근함에 따라 평활화의 강도는 증가한다. 평활화의 강도는 행에서 화소의 양과 가상 구의 위도의 대응하는 부분 또는 라인에서 화소의 양 사이의 비율에 기초하여 결정될 수 있다.

1420 단계에서, 화상 처리 장치는 행이 상단 영역 또는 하단 영역에 있을 때, 화소 행에 대해 평활화 처리를 수행한다. 1425 단계에서, 화상 처리 장치는 등장방형 매핑된 화상 또는 비디오의 등장방형 매핑된 프레임 각각에 임의의 나머지 행이 있는지 여부를 결정한다.

도 15는 본 발명의 다양한 실시 예에 따른 360도 비디오 프로세싱 체인을 도시한다. 도 11에서 프로세스에 더하여, 인코더는 추가적인 디테일 강화(detail enhancement) 1510을 위해 평탄화 메타 데이터 1505를 디코더에 전송한다. 평활화 메타데이터는 바운딩 박스 좌표들을 포함하는 평활화 된 영역 정보 및 필터링 유형, 필터링 강도, 및 고정 또는 가변 평활화가 사용되었는지 포함하는 평활화 된 필터링 정보를 포함한다. 평활화 메타데이터의 전송은 등장방형 매핑된 화상에서 더 좋은 평활화를 가능하게 한다. 디테일 강화는 모서리 강화(edge enhancement) 및 역 필터링(inverse fitlering)과 같은 방법을 포함한다.

도 16a 및 도 16b는 본 개시의 다양한 실시 예들에 따른 대안적인 평활화 영역들을 도시한다. 상단 영역 1600 및 하단 영역 1605를 평활화하는 것과 함께, 좌측 영역 1610 및 우측 영역 1615 또한 평활화될 수 있다. 상이한 영역들은 비대칭인 상단 영역 1625 및 비대칭 하단 영역 1630에서와 같이 비대칭이 될 수 있다. 특정 실시 예에서, 구석(corner)들은 소정 각도로 평활화 된다. 대안적인 평활화 영역들의 목적은 지각적인 손실(perceptual loss)을 최소화 하면서 전송 비트레이트를 높이기 위함이다.

도 17은 본 개시의 다양한 실시 예에 따른 등장방형 매핑된 프레임 1700의 상단 영역 1705 및 하단 영역 1710의 압착(squezing)을 도시한다.

등장방형 매핑된 프레임의 상단 영역 1705 및 하단 영역 1710은 지각적으로 뚜렷한 높은 해상도를 포함하기 때문에, 이러한 영역들은 전송되는 변환 계수의 양을 줄이기 위해 부호화 이전에 압착될 수 있고, 이에 따라 비트레이트를 절감할 수 있다. 압착된 등장방형 매핑된 프레임 1715의 압착된 상단 영역 1720 및 압착된 하단 영역 1725은 시청할 때, 지각 품질의 열화를 초래하지 않는다. 압착은 상단 영역 1705 또는 하단 영역 1710에 걸쳐 균일할 수 있다. 예를 들어, 화상의 상단 20 퍼센트의 다운 샘플링 비율은 2로 균일할 수 있다. 또한, 압착은 화상의 해상도에 따라 적응적일 수 있다. 예를 들어, 등장방형 프레임의 상단 10 퍼센트가 등장방형 프레임 1700의 10 내지 20 퍼센트보다 낮은 해상도를 포함하면, 상단 영역 1705의 고 해상도 부분은 2의 다운 샘플링 비율을 가지는 반면, 상단 10 퍼센트는 4의 다운 샘플링 비율을 가질 수 있다.

본 발명은 예시적인 실시 예로 설명되었지만, 다양한 변경 및 수정이 당업자에게 제안될 수 있다. 본 개시는 첨부된 청구 범위의 범주 내에 속하는 그러한 변경 및 수정을 포함하는 것으로 의도된다.

Claims

비디오 처리 장치에 있어서,
메모리; 및
상기 메모리에 연결되는 하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는,
다수의 비디오 프레임들을 비디오의 다수의 등장방형 매핑된(equirectangular mapped) 프레임들로 함께 스티치(stitching)하고;
상기 비디오의 상기 등장방형 매핑된 프레임들의 각각에 대한 상단 영역 및 하단 영역을 정의하고;
상기 비디오의 상기 등장방형 매핑된 프레임들 각각에 대한 상기 상단 영역 및 상기 하단 영역 상에 평활화(smoothing) 처리를 수행하고; 및
상기 비디오의 상기 평활화 된 등장방형 매핑된 프레임들을 부호화하는 장치.
제1항에 있어서,
상기 가상 구의 대응하는 부분의 화소들의 양에 대한 상기 상단 영역 또는 상기 하단 영역 내의 행(row)에 걸친 화소들의 양의 비율의 증가는 상기 상단 영역 또는 상기 하단 영역 내의 상기 행에 대한 상기 평활화 처리의 필터 강도를 증가시키는 장치.
제1항에 있어서, 상기 상단 영역 또는 상기 하단 영역 상에 평활화 처리를 수행하는 것은, 상기 하나 이상의 프로세서가 부호화를 위한 양자화 파라미터들을 변화하도록 더 구성되는 장치.
제1항에 있어서, 상기 평활화 처리는 상기 상단 영역 및 상기 하단 영역을 평활화 하는 가우시안(gaussian) 필터를 사용하는 것을 포함하고,
상기 가우시안 필터는 아래와 같은 함수로서 계산되는 장치.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 비디오의 상기 등장방형 매핑된 프레임들의 각각에 대한 좌측 영역 및 우측 영역 상에 상기 평활화 동작을 더 수행하도록 구성되는 장치.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 비디오의 상기 등장방형 매핑된 프레임들의 각각에 대한 다수의 코너 영역(corner region)들 상에 상기 평활화 동작을 더 수행하도록 구성되는 장치.
제1항에 있어서, 상기 상단 영역 및 상기 하단 영역은 비대칭(asymmetric)인 장치.
제1항에 있어서, 바운딩 박스 좌표(bounding box coordinates)들을 포함하는 평활화 된 영역 정보 및 필터링 타입, 필터링 강도, 및 고정 또는 가변 평활화가 사용되었는지 포함하는 평활화 된 필터링 정보를 포함하는 메타데이터를 송신하도록 구성되는 송수신기를 더 포함하는 장치.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 비디오의 상기 등장방형 매핑된 프레임들의 각각에 대한 상기 상단 영역 및 상기 하단 영역 상에 압착 처리를 수행하도록 더 구성되는 장치.
비디오 처리 장치에 있어서,
비디오의 평활화 된 등장방형 매핑된 프레임들에 대한 메타데이터를 수신하도록 구성되는 수신부; 및
비디오의 상기 평활화 된 등장방형 매핑된 프레임들의 외부 경계를 따라 평활화 된 영역들에 걸쳐(smoothed across smoothed regions along an outside border of the smoothed equirectangular mapped frames of a video) 평활화 된 상기 비디오의 상기 평활화 된 매핑된 프레임들을 복호화 하고; 상기 평활화 된 영역들 상에 강화 기술(enhancement technique)을 수행하고; 상기 비디오의 상기 등장방형 매핑된 프레임들의 각각을 구 형태로 랜더링(render) 하도록 구성되는 하나 이상의 프로세서를 포함하는 장치.
제10항에 있어서, 상기 강화 기술은 적어도 하나의 모서리 강화(edge enahncement) 또는 역방향 필터링(inverse filtering)을 포함하는 장치.
제10항에 있어서,
상기 메타데이터는 바운딩 박스 좌표(bounding box coordinates)들을 포함하는 평활화 된 영역 정보 및 필터링 타입, 필터링 강도, 및 고정 또는 가변 평활화가 사용되었는지를 포함하는 평활화 된 필터링 정보를 포함하는 장치.
제12항에 있어서,
상기 하나 이상의 프로세서는 상기 평활화 영역 정보에 기반하여 비디오의 상기 등장방형 매핑된 프레임들의 각각에 대한 상기 평활화 영역들을 식별하도록 더 구성되는 장치.
제12항에 있어서,
상기 하나 이상의 프로세서는 상기 평활화 필터 정보에 기반하여 비디오의 상기 등장방형 매핑된 프레임들의 각각에 대한 상기 평활화 기법들을 식별하도록 더 구성되는 장치.
비디오 처리 장치에 있어서,
메모리; 및
상기 메모리에 연결되는 하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는,
어안 렌즈(fisheye lens)에서 뒤틀린 평면을 시뮬레이션(simulate) 하기 위해 등거리(equidistant) 매핑을 사용하고;
뒤틀린 움직임 추정(warped motion estimation)을 도출하고; 및
비디오 코덱에서 인터 예측을 위한 추가적인 모드로서 상기 뒤틀린 움직임 추정을 사용하도록 구성되는 장치.
비디오 처리 장치를 위한 동작 방법에 있어서,
제1항 내지 제15항 중 하나를 구현하도록 구성되는 방법.