KR20240132303A - 양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및 업샘플링 - Google Patents

양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및 업샘플링 Download PDF

Info

Publication number
KR20240132303A
KR20240132303A KR1020247024424A KR20247024424A KR20240132303A KR 20240132303 A KR20240132303 A KR 20240132303A KR 1020247024424 A KR1020247024424 A KR 1020247024424A KR 20247024424 A KR20247024424 A KR 20247024424A KR 20240132303 A KR20240132303 A KR 20240132303A
Authority
KR
South Korea
Prior art keywords
point
feature
point cloud
neural network
points
Prior art date
Application number
KR1020247024424A
Other languages
English (en)
Inventor
무하마드 아사드 로디
지아하오 팡
동 티안
Original Assignee
인터디지털 브이씨 홀딩스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터디지털 브이씨 홀딩스 인코포레이티드 filed Critical 인터디지털 브이씨 홀딩스 인코포레이티드
Publication of KR20240132303A publication Critical patent/KR20240132303A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Abstract

양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및/또는 업샘플링을 위한 시스템, 방법 및 수단이 개시된다. 예에서, 포인트 기반 좌표 정제가 제공될 수 있다. 애프터-디코더 포인트 클라우드 정제 모듈은 다음 중 하나 이상을 포함할 수 있다. 모듈은 포인트 클라우드의 디코딩된 양자화된 버전에 액세스하는 것을 포함할 수 있다. 모듈은 포인트(들) 각각의 이웃 영역 내에서 포인트(들)에 액세스하는 것 및/또는 포인트(들)를 인출하는 것을 포함할 수 있다. 특징은, 예를 들어, 예컨대 세부사항들(예를 들어, 복잡한 세부사항들)을 요약하는, 인출된 포인트들의 3차원(3D)(예컨대, 또는 KD) 위치(들)에 기초하여, 포인트 기반 신경망 모듈을 사용하여 계산될 수 있다. 현재 포인트에 대한 정제 오프셋이 완전히 연결된(FC) 모듈을 사용하여 포괄적인 특징화에 기초하여 예측될 수 있다.

Description

양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및 업샘플링
상호 참조
본 출원은 2022년 1월 10일자로 출원된 미국 특허 출원 제63/297,894호, 및 2022년 10월 18일자로 출원된 미국 특허 출원 제63/417,226호의 이익을 주장하며, 이들의 내용은 전체적으로 본 명세서에 참고로 포함된다.
비디오 코딩 시스템은 디지털 비디오 신호를 압축하는 데, 예를 들어 그러한 신호에 대해 필요한 저장 및/또는 송신 대역폭을 감소시키는 데 사용될 수 있다. 비디오 코딩 시스템들은, 예를 들어, 웨이블릿 기반 시스템, 객체 기반 시스템, 및/또는 블록 기반 하이브리드 비디오 코딩 시스템과 같은 블록 기반 시스템을 포함할 수 있다. 포인트 클라우드에 대한 압축 및 처리에 사용되는 현재 도구들은 적절하지 않을 수 있다.
양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및/또는 업샘플링을 위한 시스템, 방법 및 수단이 개시된다. 예에서, 포인트 기반 좌표 정제가 제공될 수 있다. 애프터-디코더 포인트 클라우드 정제 모듈(after-decoder point cloud refinement module)은 다음 중 하나 이상을 포함할 수 있다. 모듈은 포인트 클라우드의 조대(coarse) 또는 디코딩된 양자화된 버전에 액세스하는 것을 포함할 수 있다. 모듈은 포인트(들) 각각의 이웃 영역 내에서 포인트(들)에 액세스하는 것 및/또는 포인트(들)를 인출하는 것을 포함할 수 있다. 모듈은, 예를 들어, 예컨대 세부사항들(예를 들어, 복잡한 세부사항들)을 요약하는, 인출된 포인트들의 복셀화된 버전에 기초하여, 컨볼루션 기반 신경망 모듈을 사용하여 특징을 계산하는 것을 포함할 수 있다. 다른 특징은, 예를 들어, 예컨대 세부사항들(예를 들어, 복잡한 세부사항들)을 요약하는, 인출된 포인트들의 3차원(3D)(예컨대, 또는 KD) 위치(들)에 기초하여, 포인트 기반 신경망 모듈을 사용하여 계산될 수 있다. 예에서, 특징(들)은 포괄적인 특징을 구성하도록 연결될 수 있다. 현재 포인트에 대한 정제 오프셋이 완전히 연결된(FC) 모듈을 사용하여 포괄적인 특징화(comprehensive featuring)에 기초하여 예측될 수 있다.
예에서, 좌표 업샘플링이 제공될 수 있다. 애프터-디코더 포인트 클라우드 업샘플링 모듈(예를 들어, 조대 포인트 클라우드 업샘플링 모델)은 다음 중 하나 이상을 포함할 수 있다. 포인트 클라우드의 디코딩된 양자화된 버전(예를 들어, 조대 포인트 클라우드)이 액세스될 수 있다. 모듈은 포인트들 각각의 이웃 영역 내에서 포인트(들)에 액세스하는 것 및/또는 포인트(들)를 인출하는 것을 포함할 수 있다. 특징(예를 들어, 하이브리드 특징)이 인출된 포인트(들)에 기초하여 신경망 모듈을 사용하여 계산될 수 있다. 현재 포인트에 대한 새로운 포인트들에 대한 오프셋들이 계산된 특징을 사용하여 FC 모듈을 통해 예측될 수 있다.
계층적 특징 전파(hierarchical feature propagation)가 수행될 수 있다. 예를 들어, 계층적 특징 전파는 위치 정제 및 업샘플링을 위한 소정 아키텍처들(예를 들어, 향상된 아키텍처들)을 사용하여 수행될 수 있다. 예를 들어, PointCRM 및/또는 PointUPM 아키텍처들이 계층적 특징 전파를 수행하도록 수정(예를 들어, 향상)될 수 있다. 계층적 특징 전파는 현재 옥트리 레벨(octree level)의 해상도와 매칭시키기 위해 이전(예를 들어, 부모, 이미 디코딩된) 레벨로부터 특징들을 업샘플링하는 것을 포함할 수 있다. 업샘플링된 특징들은 예를 들어 현재 레벨에서 포인트 정제들을 예측하기 위해 자식 노드들로 전파될 수 있다.
본 명세서의 어딘가에 개시된 각각의 특징이 설명되며, 따로따로/개별적으로, 그리고 본 명세서에 개시된 임의의 다른 특징과의, 그리고/또는 본 명세서에서 암시적으로 또는 명시적으로 참조될 수 있거나 달리 본 명세서에 개시된 주제의 범위에 속할 수 있는 다른 어딘가에 개시된 임의의 특징(들)과의 임의의 조합으로 구현될 수 있다.
도 1a는 하나 이상의 개시된 실시예가 구현될 수 있는 예시적인 통신 시스템을 예시하는 시스템 다이어그램이다.
도 1b는 실시예에 따른 도 1a에 예시된 통신 시스템 내에서 사용될 수 있는 예시적인 무선 송신/수신 유닛(WTRU)을 예시하는 시스템 다이어그램이다.
도 1c는 실시예에 따른 도 1a에 예시된 통신 시스템 내에서 사용될 수 있는 예시적인 라디오 액세스 네트워크(RAN) 및 예시적인 코어 네트워크(CN)를 예시하는 시스템 다이어그램이다.
도 1d는 실시예에 따른 도 1a에 예시된 통신 시스템 내에서 사용될 수 있는 추가의 예시적인 RAN 및 추가의 예시적인 CN을 예시하는 시스템 다이어그램이다.
도 2는 예시적인 비디오 인코더를 도시하는 다이어그램이다.
도 3은 비디오 디코더의 예를 도시하는 다이어그램이다.
도 4는 다양한 태양 및 예가 구현될 수 있는 시스템의 예를 도시하는 다이어그램이다.
도 5는 VoxelContextNet의 예를 도시한다.
도 6은 기본적인 포인트 기반 좌표 정제 모듈(PointCRM)의 예를 도시한다.
도 7은 다중 해상도 그룹화-향상(MRG-향상) PointCRM의 예를 도시한다.
도 8은 다중 스케일 그룹화-향상(MSG-향상) PointCRM의 예를 도시한다.
도 9는 하이브리드 아키텍처의 예를 도시한다.
도 10은 컨볼루션 기반 브랜치의 예를 도시한다.
도 11은 기본적인 포인트 기반 업샘플링 모듈(PointUPM)의 예를 도시한다.
도 12는 정확한 포인트 매칭을 갖는 기본적인 PointUPM의 예를 도시한다.
도 13은 폴딩-향상 PointUPM의 예를 도시한다.
도 14는 예측 기반 UPM의 예를 도시한다.
도 15는 계층적 특징 전파의 예를 도시한다.
도 16은 희소 컨볼루션들에 기초한 예시적인 복셀 브랜치를 예시한다.
도 17은 희소 컨볼루션들로 구성된 ResNet에 기초한 예시적인 복셀 브랜치를 예시한다.
도 18은 희소 컨볼루션들로 구성된 인셉션(Inception) ResNet에 기초한 복셀 브랜치의 예를 예시한다.
도 19는 트랜스포머 블록(transformer block)에 기초한 예시적인 포인트 브랜치의 다이어그램을 예시한다.
도 20은 동적 포인트 클라우드 압축을 위한 예시적인 인터-코딩 다이어그램을 예시한다.
도 21은 동적 포인트 클라우드 압축을 위한 인터-코딩을 위한 예시적인 디코더를 예시한다.
도 22는 예시적인 업데이트된 인터-코딩 다이어그램을 예시한다.
도 23은 향상된 기준 PC에 기초하여 인터-예측을 사용하는 예시적인 디코더를 예시한다.
이제 예시적인 실시예의 상세한 설명이 다양한 도면을 참조하여 설명될 것이다. 이러한 설명은 가능한 구현예의 상세한 예를 제공하지만, 세부 사항은 예시적인 것으로 의도되며 결코 본 출원의 범위를 제한하지 않는다는 점에 유의해야 한다.
도 1a는 하나 이상의 개시된 실시예가 구현될 수 있는 예시적인 통신 시스템(100)을 예시하는 다이어그램이다. 통신 시스템(100)은 음성, 데이터, 비디오, 메시징, 브로드캐스트 등과 같은 콘텐츠를 다수의 무선 사용자들에게 제공하는 다중 액세스 시스템일 수 있다. 통신 시스템(100)은 다수의 무선 사용자들이 무선 대역폭을 포함한 시스템 리소스들의 공유를 통해 그러한 콘텐츠에 액세스하는 것을 가능하게 할 수 있다. 예를 들어, 통신 시스템(100)은 CDMA(code division multiple access), TDMA(time division multiple access), FDMA(frequency division multiple access), OFDMA(orthogonal FDMA), SC-FDMA(single-carrier FDMA), ZT UW DTS-s OFDM(zero-tail unique-word DFT-Spread OFDM), UW-OFDM(unique word OFDM), 리소스 블록 필터링된 OFDM, FBMC(filter bank multicarrier) 등과 같은 하나 이상의 채널 액세스 방법들을 채용할 수 있다.
도 1a에 도시된 바와 같이, 통신 시스템(100)은 무선 송신/수신 유닛(WTRU)들(102a, 102b, 102c, 102d), RAN(104/113), CN(106/115), 공중 교환 전화망(PSTN)(108), 인터넷(110) 및 다른 네트워크(112)를 포함할 수 있지만, 개시된 실시예들은 임의의 개수의 WTRU들, 기지국들, 네트워크들 및/또는 네트워크 요소들을 고려한다는 것이 이해될 것이다. WTRU들(102a, 102b, 102c, 102d) 각각은 무선 환경에서 동작 및/또는 통신하도록 구성된 임의의 유형의 디바이스이다. 예로서, WTRU들(102a, 102b, 102c, 102d) - 이들 중 임의의 것은 "스테이션" 및/또는 "STA"로 지칭될 수 있음 - 은 무선 신호들을 송신 및/또는 수신하도록 구성될 수 있고 사용자 장비(UE), 이동국(mobile station), 고정 또는 모바일 가입자 유닛, 가입-기반 유닛(subscription-based unit), 호출기(pager), 휴대폰, 개인 휴대 정보 단말기(PDA), 스마트폰, 랩톱, 넷북, 개인용 컴퓨터, 무선 센서, 핫스팟 또는 Mi-Fi 디바이스, 사물 인터넷(IoT) 디바이스, 시계 또는 다른 웨어러블, 헤드-장착 디스플레이(HMD), 차량, 드론, 의료 디바이스 및 애플리케이션들(예를 들어, 원격 수술), 산업용 디바이스 및 애플리케이션들(예를 들어, 산업 및/또는 자동화된 처리 체인 환경에서 동작하는 로봇 및/또는 다른 무선 디바이스들), 소비자 전자 디바이스, 상업 및/또는 산업용 무선 네트워크에서 동작하는 디바이스 등을 포함할 수 있다. WTRU들(102a, 102b, 102c 및 102d) 중 임의의 것은 UE로 상호교환적으로 지칭될 수 있다.
통신 시스템들(100)은 기지국(114a) 및/또는 기지국(114b)을 또한 포함할 수 있다. 기지국들(114a, 114b) 각각은 CN(106/115), 인터넷(110) 및/또는 다른 네트워크들(112)과 같은, 하나 이상의 통신 네트워크들에 대한 액세스를 용이하게 하기 위해 WTRU들(102a, 102b, 102c, 102d) 중 적어도 하나와 무선으로 인터페이스하도록 구성된 임의의 유형의 디바이스일 수 있다. 예로서, 기지국들(114a, 114b)은 BTS(base transceiver station), 노드 B, eNode B, 홈 노드 B, 홈 eNode B, gNB, NR NodeB, 사이트 컨트롤러, 액세스 포인트(AP), 무선 라우터 등일 수 있다. 기지국들(114a, 114b)은 각각 단일 요소로서 도시되지만, 기지국들(114a, 114b)은 임의의 개수의 상호연결된 기지국들 및/또는 네트워크 요소들을 포함할 수 있다는 것이 이해될 것이다.
기지국(114a)은 기지국 컨트롤러(BSC), 라디오 네트워크 컨트롤러(RNC), 중계 노드들 등과 같은 다른 기지국들 및/또는 네트워크 요소들(도시되지 않음)을 또한 포함할 수 있는 RAN(104/113)의 일부일 수 있다. 기지국(114a) 및/또는 기지국(114b)은 셀(도시되지 않음)로 지칭될 수 있는, 하나 이상의 캐리어 주파수들 상에서 무선 신호들을 송신 및/또는 수신하도록 구성될 수 있다. 이러한 주파수들은 허가 스펙트럼 및 비허가 스펙트럼, 또는 허가 스펙트럼과 비허가 스펙트럼의 조합 내에 있을 수 있다. 셀은 비교적 고정될 수 있거나 시간 경과에 따라 변할 수 있는 특정 지리 영역에 대한 무선 서비스를 위한 커버리지를 제공할 수 있다. 셀은 셀 섹터들로 더욱 분할될 수 있다. 예를 들어, 기지국(114a)과 연관된 셀은 3개의 섹터들로 분할될 수 있다. 따라서, 일 실시예에서, 기지국(114a)은 3개의 트랜시버들, 즉 셀의 각 섹터에 대해 하나씩을 포함할 수 있다. 실시예에서, 기지국(114a)은 다중 입력 다중 출력(MIMO) 기술을 사용할 수 있고 셀의 각 섹터에 대해 다중 트랜시버들을 활용할 수 있다. 예를 들어, 신호들을 원하는 공간 방향들로 송신하고/하거나 수신하기 위해 빔포밍(beamforming)이 사용될 수 있다.
기지국들(114a, 114b)은 임의의 적합한 무선 통신 링크(예를 들어, 라디오 주파수(radio frequency, RF), 마이크로파, 센티미터파, 마이크로미터파, 적외선(IR), 자외선(UV), 가시광 등)일 수 있는 에어 인터페이스(air interface)(116)를 통해 WTRU들(102a, 102b, 102c, 102d) 중 하나 이상과 통신할 수 있다. 에어 인터페이스(116)는 임의의 적합한 라디오 액세스 기술(radio access technology, RAT)을 사용하여 확립될 수 있다.
더 구체적으로, 위에서 언급된 바와 같이, 통신 시스템(100)은 다중 액세스 시스템일 수 있고, CDMA, TDMA, FDMA, OFDMA, SC-FDMA 등과 같은 하나 이상의 채널 액세스 스킴을 채용할 수 있다. 예를 들어, RAN(104/113)의 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 광대역 CDMA(WCDMA)를 사용하여 에어 인터페이스(115/116/117)를 설정할 수 있는, 유니버설 모바일 통신 시스템(UMTS), 지상파 라디오 액세스(UTRA)와 같은 라디오 기술을 구현할 수 있다. WCDMA는 고속 패킷 액세스(High-Speed Packet Access, HSPA) 및/또는 진화된 HSPA(HSPA+)와 같은 통신 프로토콜들을 포함할 수 있다. HSPA는 고속 다운링크(DL) 패킷 액세스(HSDPA) 및/또는 고속 UL 패킷 액세스(HSUPA)를 포함할 수 있다.
실시예에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 예를 들어, LTE(Long Term Evolution) 및/또는 LTE-A(LTE-Advanced) 및/또는 LTE-A Pro(LTE-Advanced Pro)를 사용하여 에어 인터페이스(116)를 확립할 수 있는 E-UTRA(Evolved UMTS Terrestrial Radio Access)와 같은 라디오 기술을 구현할 수 있다.
실시예에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 뉴 라디오(NR)를 사용하여 에어 인터페이스(116)를 확립할 수 있는 NR 라디오 액세스와 같은 라디오 기술을 구현할 수 있다.
실시예에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 다수의 라디오 액세스 기술을 구현할 수 있다. 예를 들어, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 예를 들어, 이중 연결(dual connectivity, DC) 원리들을 사용하여, LTE 라디오 액세스 및 NR 라디오 액세스를 함께 구현할 수 있다. 이에 따라, WTRU들(102a, 102b, 102c)에 의해 이용되는 에어 인터페이스는 다수의 유형들의 라디오 액세스 기술들 및/또는 다수의 유형들의 기지국들(예를 들어, eNB 및 gNB)로/로부터 전송되는 송신을 특징으로 할 수 있다.
다른 실시예들에서, 기지국(114a) 및 WTRU들(102a, 102b, 102c)은 IEEE 802.11(즉, 무선 충실도(WiFi), IEEE 802.16(즉, 마이크로웨이브 액세스용 전세계 상호운용성(WiMAX)), CDMA2000, CDMA2000 1X, CDMA2000 EV-DO, 임시 표준 2000(IS-2000), 임시 표준 95 (IS-95), 임시 표준 856(IS-856), 모바일 통신용 글로벌 시스템(GSM), GSM 진화용 향상된 데이터 레이트(EDGE), GSM EDGE(GERAN) 등과 같은 라디오 기술들을 구현할 수 있다.
도 1a의 기지국(114b)은 예를 들어, 무선 라우터, 홈 노드 B, 홈 eNode B, 또는 액세스 포인트일 수 있고, 사업장, 집, 차량, 캠퍼스, 산업 시설, 공기 통로(예를 들어, 드론들에 의한 사용을 위한 것), 도로 등과 같은, 지역화된 지역에서 무선 연결성을 용이하게 하기 위해 임의의 적합한 RAT를 활용할 수 있다. 일 실시예에서, 기지국(114b) 및 WTRU들(102c, 102d)은 무선 근거리 네트워크(WLAN)를 설정하기 위해 IEEE 802.11과 같은 라디오 기술을 구현할 수 있다. 실시예에서, 기지국(114b) 및 WTRU들(102c, 102d)은 무선 개인 영역 네트워크(wireless personal area network, WPAN)를 확립하기 위해 IEEE 802.15와 같은 라디오 기술을 구현할 수 있다. 또 다른 실시예에서, 기지국(114b) 및 WTRU들(102c, 102d)은 피코셀(picocell) 또는 펨토셀(femtocell)을 설정하기 위해 셀룰러-기반 RAT(예를 들어, WCDMA, CDMA2000, GSM, LTE, LTE-A, LTE-A Pro, NR 등)를 활용할 수 있다. 도 1a에서 도시된 바와 같이, 기지국(114b)은 인터넷(110)에 직접 연결될 수 있다. 따라서, 기지국(114b)은 CN(106/115)을 통해 인터넷(110)에 액세스할 필요가 없을 수 있다.
RAN(104/113)은 하나 이상의 WTRU들(102a, 102b, 102c, 102d)에 음성, 데이터, 애플리케이션들 및/또는 인터넷 프로토콜(VoIP) 서비스들을 통한 음성을 제공하도록 구성된 임의의 유형의 네트워크일 수 있는, CN(106/115)과 통신할 수 있다. 데이터는 상이한 스루풋 요건들, 레이턴시 요건들, 오류 허용 한계 요건들, 신뢰성 요건들, 데이터 스루풋 요건들, 이동성 요건들 등과 같은 다양한 서비스 품질(QoS) 요건들을 가질 수 있다. CN(106/115)은 통화 제어, 요금 청구 서비스들, 모바일 위치-기반 서비스들, 선불 통화, 인터넷 연결성, 비디오 배포 등을 제공하고, 및/또는 사용자 인증과 같은, 높은 수준의 보안 기능들을 수행할 수 있다. 도 1a에는 도시되지 않았지만, RAN(104/113) 및/또는 CN(106/115)은 RAN(104/113)과 동일한 RAT 또는 상이한 RAT를 사용하는 다른 RAN들과 직접 또는 간접적으로 통신할 수 있다는 것이 인식될 것이다. 예를 들어, NR 라디오 기술을 활용할 수 있는, RAN(104/113)에 연결되는 것 외에도, CN(106/115)은 또한 GSM, UMTS, CDMA 2000, WiMAX, E-UTRA, 또는 WiFi 라디오 기술을 사용하는 다른 RAN(도시되지 않음)과 통신할 수 있다.
CN(106/115)은 또한 WTRU들(102a, 102b, 102c, 102d)이 PSTN(108), 인터넷(110) 및/또는 다른 네트워크들(112)에 액세스하기 위한 게이트웨이로서 역할을 할 수 있다. PSTN(108)은 POTS(plain old telephone service)를 제공하는 회선 교환 전화망들을 포함할 수 있다. 인터넷(110)은 송신 제어 프로토콜/인터넷 프로토콜(transmission control protocol/internet protocol, TCP/IP) 슈트(suite)에서의 TCP, 사용자 데이터그램 프로토콜(user datagram protocol, UDP) 및/또는 IP와 같은 공통 통신 프로토콜을 사용하는 상호연결된 컴퓨터 네트워크들 및 디바이스들의 글로벌 시스템을 포함할 수 있다. 네트워크들(112)은 다른 서비스 제공자들에 의해 소유되고/되거나 운영되는 유선 및/또는 무선 통신 네트워크들을 포함할 수 있다. 예를 들어, 네트워크들(112)은 RAN(104/113)과 동일한 RAT 또는 상이한 RAT를 사용할 수 있는, 하나 이상의 RAN들에 연결된 다른 CN을 포함할 수 있다.
통신 시스템(100) 내의 WTRU들(102a, 102b, 102c, 102d) 중 일부 또는 전부는 다중 모드 능력들을 포함할 수 있다(예를 들어, WTRU들(102a, 102b, 102c, 102d)은 상이한 무선 링크들을 통해 상이한 무선 네트워크들과 통신하기 위한 다수의 트랜시버들을 포함할 수 있다). 예를 들어, 도 1a에 도시된 WTRU(102c)는 셀룰러 기반 라디오 기술을 채용할 수 있는 기지국(114a), 및 IEEE 802 라디오 기술을 채용할 수 있는 기지국(114b)과 통신하도록 구성될 수 있다.
도 1b는 예시적인 WTRU(102)를 예시하는 시스템 다이어그램이다. 도 1b에 도시된 바와 같이, WTRU(102)는 프로세서(118), 트랜시버(120), 송신/수신 요소(122), 스피커/마이크(124), 키패드(126), 디스플레이/터치패드(128), 비탈착식 메모리(130), 탈착식 메모리(132), 전원(134), 글로벌 포지셔닝 시스템(GPS) 칩셋(136), 및/또는 다른 주변장치들(138)을 포함할 수 있다. WTRU(102)는 실시예와 여전히 부합하면서 전술한 요소들의 임의의 하위 조합을 포함할 수 있는 것으로 이해될 것이다.
프로세서(118)는 범용 프로세서, 특수 목적 프로세서, 종래의 프로세서, 디지털 신호 프로세서(DSP), 복수의 마이크로프로세서, DSP 코어와 연관된 하나 이상의 마이크로프로세서, 컨트롤러, 마이크로컨트롤러, 주문형 집적회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 회로, 임의의 다른 유형의 집적 회로(IC), 상태 머신 등일 수 있다. 프로세서(118)는 신호 코딩, 데이터 처리, 전력 제어, 입력/출력 처리, 및/또는 WTRU(102)가 무선 환경에서 동작할 수 있게 하는 다른 임의의 기능을 수행할 수 있다. 프로세서(118)는 송신/수신 요소(122)에 결합될 수 있는 트랜시버(120)에 결합될 수 있다. 도 1b는 프로세서(118)와 트랜시버(120)를 별개의 컴포넌트들로 묘사하지만, 프로세서(118)와 트랜시버(120)는 전자 패키지 또는 칩에 함께 통합될 수 있다는 것이 이해될 것이다.
송신/수신 요소(122)는 에어 인터페이스(116)를 통해 기지국(예를 들어, 기지국(114a))에 신호를 송신하거나 이로부터 신호를 수신하도록 구성될 수 있다. 예를 들어, 일 실시예에서, 송신/수신 요소(122)는 RF 신호들을 송신 및/또는 수신하도록 구성된 안테나일 수 있다. 실시예에서, 송신/수신 요소(122)는 예를 들면, IR, UV, 또는 가시광 신호를 송신하도록 그리고/또는 수신하도록 구성되는 방출기(emitter)/검출기(detector)일 수 있다. 또 다른 실시예에서, 송신/수신 요소(122)는 RF 및 광 신호들 둘 모두를 송신 및/또는 수신하도록 구성될 수 있다. 송신/수신 요소(122)는 무선 신호들의 임의의 조합을 송신 및/또는 수신하도록 구성될 수 있다는 것이 이해될 것이다.
송신/수신 요소(122)가 단일 요소로서 도 1b에서 도시되지만, WTRU(102)는 임의의 개수의 송신/수신 요소(122)를 포함할 수 있다. 보다 구체적으로, WTRU(102)는 MIMO 기술을 채용할 수 있다. 따라서, 일 실시예에서, WTRU(102)는 에어 인터페이스(116)를 통해 무선 신호들을 송신 및 수신하기 위한 2개 이상의 송신/수신 요소들(122)(예를 들어, 다중 안테나들)을 포함할 수 있다.
트랜시버(120)는 송신/수신 요소(122)에 의해 송신되는 신호를 변조하고 송신/수신 요소(122)에 의해 수신되는 신호를 복조하도록 구성될 수 있다. 위에서 언급된 바와 같이, WTRU(102)는 다중 모드 능력을 가질 수 있다. 따라서, 트랜시버(120)는 WTRU(102)가, 예를 들면, NR 및 IEEE 802.11과 같은 다수의 RAT를 통해 통신하는 것을 가능하게 하기 위한 다수의 트랜시버를 포함할 수 있다.
WTRU(102)의 프로세서(118)는 스피커/마이크(124), 키패드(126) 및/또는 디스플레이/터치 패드(128)(예를 들어, 액정 디스플레이(LCD) 디스플레이 유닛 또는 유기 발광 다이오드(OLED) 디스플레이 유닛)에 결합될 수 있고, 이로부터 사용자 입력 데이터를 수신할 수 있다. 프로세서(118)는 또한 사용자 데이터를 스피커/마이크(124), 키패드(126) 및/또는 디스플레이/터치 패드(128)에 출력할 수 있다. 또한, 프로세서(118)는 비탈착식 메모리(130) 및/또는 탈착식 메모리(132)와 같은 임의의 유형의 적합한 메모리로부터의 정보에 액세스할 수 있고 이러한 메모리에 데이터를 저장할 수 있다. 비탈착식 메모리(130)는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 하드 디스크, 또는 다른 임의의 유형의 메모리 저장 디바이스를 포함할 수 있다. 탈착식 메모리(132)는 가입자 식별 모듈(SIM) 카드, 메모리 스틱, 보안 디지털(SD) 메모리 카드 등을 포함할 수 있다. 다른 실시예들에서, 프로세서(118)는 서버 또는 홈 컴퓨터(도시되지 않음)와 같은 WTRU(102) 상에 물리적으로 위치하지 않는 메모리로부터 정보에 액세스하고 내부에 데이터를 저장할 수 있다.
프로세서(118)는 전원(134)으로부터 전력을 수신할 수 있고, 전력을 WTRU(102) 내의 다른 컴포넌트들에 분배하고/하거나 제어하도록 구성될 수 있다. 전원(134)은 WTRU(102)에 전력을 공급하기 위한 임의의 적합한 디바이스일 수 있다. 예를 들어, 전원(134)은 하나 이상의 건전지(예를 들어, 니켈-카드뮴(NiCd), 니켈-아연(NiZn), 니켈 금속 수소화물(NiMH), 리튬 이온(Li-ion) 등), 태양 전지, 연료 전지 등을 포함할 수 있다.
프로세서(118)는, 또한, WTRU(102)의 현재 위치에 관한 위치 정보(예를 들어, 경도 및 위도)를 제공하도록 구성될 수 있는 GPS 칩셋(136)에 결합될 수 있다. GPS 칩셋(136)으로부터의 정보에 더하여 또는 그 대신에, WTRU(102)는 기지국(예를 들어, 기지국들(114a, 114b))으로부터 에어 인터페이스(116)를 통해 위치 정보를 수신하고/하거나, 2개 이상의 인근 기지국으로부터 수신되는 신호들의 타이밍에 기초하여 자신의 위치를 결정할 수 있다. WTRU(102)는 실시예와 여전히 부합하면서 임의의 적합한 위치 결정 방법에 의해 위치 정보를 취득할 수 있다는 것이 이해될 것이다.
프로세서(118)는 추가 특징들, 기능성 및/또는 유선 또는 무선 연결성을 제공하는 하나 이상의 소프트웨어 및/또는 하드웨어 모듈들을 포함할 수 있는, 다른 주변장치들(138)에 추가로 결합될 수 있다. 예를 들어, 주변장치들(138)은 가속도계(accelerometer), 전자 나침반(e-compass), 위성 트랜시버(satellite transceiver), 디지털 카메라(사진들 및/또는 비디오용), 범용 직렬 버스(USB) 포트, 진동 디바이스, 텔레비전 트랜시버, 핸즈 프리 헤드셋, Bluetooth® 모듈, 주파수 변조(FM) 라디오 유닛, 디지털 음악 플레이어, 미디어 플레이어, 비디오 게임 플레이어 모듈, 인터넷 브라우저, 가상 현실 및/또는 증강 현실(VR/AR) 디바이스, 활동 추적기 등을 포함할 수 있다. 주변장치들(138)은 하나 이상의 센서들을 포함할 수 있으며, 센서들은 자이로스코프(gyroscope), 가속도계, 홀 효과 센서, 자력계, 방향 센서, 근접 센서, 온도 센서, 시간 센서; 위치 정보 센서; 고도계, 광 센서, 터치 센서, 자력계, 기압계, 제스처 센서, 생체인식 센서, 및/또는 습도 센서 중 하나 이상일 수 있다.
WTRU(102)는 신호들 중 일부 또는 전부(예를 들어, UL(예를 들어, 송신용) 및 다운링크(예를 들어, 수신용) 둘 모두에 대한 특정 서브프레임들과 연관됨)의 송신 및 수신이 공존 및/또는 동시일 수 있는 전이중 라디오(full duplex radio)를 포함할 수 있다. 전이중 라디오는 하드웨어(예를 들어, 초크(choke))를 통해 또는 프로세서(예를 들어, 별개의 프로세서(도시되지 않음) 또는 프로세서(118))를 통한 신호 처리를 통해 자가 간섭(self-interference)을 감소시키고/감소시키거나 실질적으로 제거하는 간섭 관리 유닛을 포함할 수 있다. 일 실시예에서, WRTU(102)는 신호들 중 일부 또는 전부(예를 들어, UL(예를 들어, 송신용) 또는 다운링크(예를 들어,수신용)에 대한 특정 서브프레임들과 연관됨)의 송신 및 수신하는 반이중 라디오(half-duplex radio)를 포함할 수 있다.
도 1c는 실시예에 따른 RAN(104) 및 CN(106)을 예시하는 시스템 다이어그램이다. 위에서 언급한 바와 같이, RAN(104)은 에어 인터페이스(116)를 통해 WTRU들(102a, 102b, 102c)과 통신하기 위해 E-UTRA 라디오 기술을 사용할 수 있다. RAN(104)은 CN(106)과 또한 통신할 수 있다.
RAN(104)은 eNode-B들(160a, 160b, 160c)을 포함할 수 있지만, RAN(104)은 실시예와 여전히 부합하면서 임의의 개수의 eNode-B를 포함할 수 있다는 것이 이해될 것이다. eNode-B들(160a, 160b, 160c)은 각각 에어 인터페이스(116)를 통해 WTRU들(102a, 102b, 102c)과 통신하기 위한 하나 이상의 트랜시버를 포함할 수 있다. 일 실시예에서, eNode-B들(160a, 160b, 160c)은 MIMO 기술을 구현할 수 있다. 따라서, eNode-B(160a)는 예를 들어, WTRU(102a)로 무선 신호들을 송신하고, 및/또는 그로부터 무선 신호들을 수신하기 위해 다중 안테나들을 사용할 수 있다.
eNode-B들(160a, 160b, 160c) 각각은 특정 셀(도시되지 않음)과 연관될 수 있고 라디오 리소스 관리 결정, 핸드오버 결정, UL 및/또는 DL에서 사용자들의 스케줄링 등을 처리하도록 구성될 수 있다. 도 1c에서 도시된 바와 같이, eNodeB들(160a, 160b, 160c)은 X2 인터페이스를 통해 서로 통신할 수 있다.
도 1c에서 도시된 CN(106)은 이동성 관리 엔티티(MME)(162), 서빙 게이트웨이(SGW)(164), 및 패킷 데이터 네트워크(PDN) 게이트웨이(또는 PGW)(166)를 포함할 수 있다. 전술한 요소들 각각은 CN(106)의 일부로서 묘사되어 있지만, 이러한 요소들 중 임의의 것은 CN 운영자가 아닌 엔티티에 의해 소유 및/또는 동작될 수 있다는 것이 이해될 것이다.
MME(162)는 S1 인터페이스를 통해 RAN(104)의 eNode-B들(162a, 162b, 162c)의 각각에 연결될 수 있고 제어 노드로서 역할을 할 수 있다. 예를 들어, MME(162)는 WTRU들(102a, 102b, 102c)의 사용자들을 인증하는 것, 베어러 활성화/비활성화, WTRU들(102a, 102b, 102c)의 초기 부착 동안 특정 서빙 게이트웨이를 선택하는 것 등에 대한 책임이 있을 수 있다. MME(162)는 RAN(104)과, GSM 및/또는 WCDMA와 같은 다른 라디오 기술을 채용하는 다른 RAN들(도시되지 않음) 간에 스위칭하기 위한 제어 평면 기능을 제공할 수 있다.
SGW(164)는 S1 인터페이스를 통해 RAN(104)의 eNode B들(160a, 160b, 160c) 각각에 연결될 수 있다. SGW(164)는 일반적으로 WTRU들(102a, 102b, 102c)로/로부터 사용자 데이터 패킷들을 라우팅하고 포워딩할 수 있다. SGW(164)는 eNode B간 핸드오버들 동안 사용자 평면들을 앵커링하고, DL 데이터가 WTRU들(102a, 102b, 102c)에 대해 이용가능할 때 페이징을 트리거하고, WTRU들(102a, 102b, 102c)의 컨텍스트들을 관리 및 저장하는 것과 같은, 다른 기능들을 수행할 수 있다.
SGW(164)는 WTRU들(102a, 102b, 102c)과 IP 인에이블드 디바이스(IP-enabled device)들 간의 통신을 용이하게 하기 위해, 예를 들어, 인터넷(110)과 같은 패킷 교환 네트워크들에 대한 액세스를 WTRU들(102a, 102b, 102c)에 제공할 수 있는 PGW(166)에 연결될 수 있다.
CN(106)은 다른 네트워크들과의 통신을 원활하게 해줄 수 있다. 예를 들어, CN(106)은 WTRU들(102a, 102b, 102c)과 전통적인 지상선 통신 디바이스들 간의 통신을 용이하게 하기 위해, PSTN(108)과 같은 회선 교환 네트워크들에 대한 액세스를 WTRU들(102a, 102b, 102c)에 제공할 수 있다. 예를 들어, CN(106)은 CN(106)과 PSTN(108) 간의 인터페이스로서의 역할을 하는 IP 게이트웨이(예를 들어, IP 멀티미디어 서브시스템(IP multimedia subsystem, IMS) 서버)를 포함할 수 있거나, 또는 이와 통신할 수 있다. 또한, CN(106)은 다른 서비스 제공자들에 의해 소유되고/되거나 운영되는 다른 유선 및/또는 무선 네트워크들을 포함할 수 있는 다른 네트워크들(112)에 대한 액세스를 WTRU들(102a, 102b, 102c)에 제공할 수 있다.
WTRU가 도 1a 내지 도 1d에서 무선 단말로서 설명되어 있지만, 소정의 대표적인 실시예들에서 이러한 단말이 통신 네트워크와의 유선 통신 인터페이스들을 (예를 들어, 일시적으로 또는 영구적으로) 사용할 수 있다는 것이 고려된다.
대표적인 실시예들에서, 다른 네트워크(112)는 WLAN일 수 있다.
인프라 기본 서비스 세트(BSS) 모드에서의 WLAN은 BSS에 대한 액세스 포인트(AP) 및 AP와 연관된 하나 이상의 스테이션(STA)을 가질 수 있다. AP는 BSS 내외로 트래픽을 운반하는 분배 시스템(DS) 또는 다른 유형의 유선/무선 네트워크에 대한 액세스 또는 인터페이스를 가질 수 있다. BSS 외부로부터 비롯되는 STA들로의 트래픽은 AP를 통해 도달할 수 있고 STA들에 전달될 수 있다. STA들로부터 비롯되어 BSS 외부의 목적지들로 향하는 트래픽은 각자의 목적지들로 전달되도록 AP로 전송될 수 있다. BSS 내의 STA들 사이의 트래픽은 예를 들어 AP를 통해 전송될 수 있으며, 여기서 소스 STA는 트래픽을 AP로 전송할 수 있고 AP는 트래픽을 목적지 STA로 전달할 수 있다. BSS 내의 STA들 간의 트래픽은 피어 투 피어 트래픽(peer-to-peer traffic)으로 고려되고/되거나 지칭될 수 있다. 피어 투 피어 트래픽은 직접 링크 셋업(direct link setup, DLS)을 이용하여 소스 STA와 목적지 STA 간에서 (예를 들어, 직접) 전송될 수 있다. 소정의 대표적인 실시예들에서, DLS는 802.11e DLS 또는 802.11z TDLS(tunneled DLS)를 사용할 수 있다. IBSS(Independent BSS) 모드를 사용하는 WLAN은 AP를 갖지 않을 수 있고, IBSS 내의 또는 IBSS를 사용하는 STA들(예를 들어, 모든 STA들)은 서로 직접 통신할 수 있다. 통신의 IBSS 모드는 때때로 본 명세서에서 통신의 "애드혹(ad-hoc)" 모드로 지칭될 수 있다.
802.11ac 인프라 동작 모드 또는 유사한 동작 모드를 사용할 때, AP는 주요 채널과 같은 고정 채널 상에서 비컨을 송신할 수 있다. 주요 채널은 고정된 폭(예를 들어, 20 ㎒ 너비의 대역폭)이거나, 시그널링을 통한 동적으로 설정된 폭일 수 있다. 주요 채널은 BSS의 동작 채널일 수 있고, STA들에 의해 AP와의 연결을 확립하기 위해 사용될 수 있다. 소정의 대표적인 실시예들에서, 캐리어 감지 다중 액세스/충돌 회피(CSMA/CA)는 예를 들어, 802.11 시스템들에서 구현될 수 있다. CSMA/CA의 경우, AP를 포함하는 STA들(예를 들어, 모든 STA)은 주요 채널을 감지할 수 있다. 주요 채널이 특정 STA에 의해 사용 중인 것으로 감지/검출 및/또는 결정되는 경우, 특정 STA는 백 오프(back off)될 수 있다. 하나의 STA가(예를 들어, 하나의 스테이션만이) 주어진 BSS에서 임의의 주어진 시간에 송신할 수 있다.
HT(High Throughput) STA들은 예를 들어, 40 ㎒ 폭 채널을 형성하기 위해 인접하거나 비인접한 20 ㎒ 채널을 가진 기본 20 ㎒ 채널의 조합을 통해 통신을 위해 40 ㎒ 폭 채널을 사용할 수 있다.
VHT(Very High Throughput) STA들은 20 ㎒, 40 ㎒, 80 ㎒ 및/또는 160 ㎒ 폭 채널들을 지원할 수 있다. 40 ㎒ 및/또는 80 ㎒ 채널들은 인접한 20 ㎒ 채널들을 조합함으로써 형성될 수 있다. 160 ㎒ 채널은 8개의 인접한 20 ㎒ 채널들을 조합함으로써, 또는 80+80 구성으로 지칭될 수 있는 2개의 비인접한 80 ㎒ 채널을 조합함으로써 형성될 수 있다. 80+80 구성의 경우, 데이터는 채널 인코딩 후에 데이터를 2개의 스트림으로 분할할 수 있는 세그먼트 파서(segment parser)를 통해 전달될 수 있다. 역 고속 푸리에 변환(IFFT) 처리, 및 시간 도메인 처리는 각 스트림에서 별도로 수행될 수 있다. 스트림들은 2개의 80 ㎒ 채널들에 매핑될 수 있고, 데이터는 송신 STA에 의해 송신될 수 있다. 수신 STA의 수신기에서, 위에서 설명한 80+80 구성에 대한 동작은 역전될 수 있고, 결합된 데이터는 중간 액세스 제어(MAC)로 전송될 수 있다.
802.11af 및 802.11ah에 의해 서브 1 ㎓ 동작 모드가 지원된다. 채널 동작 대역폭들, 및 캐리어들은 802.11n 및 802.11ac에서 사용되는 것들에 비해 802.11af 및 802.11ah에서 감소된다. 802.11af는 TV 백색 공간(TVWS) 스펙트럼에서 5 ㎒, 10 ㎒ 및 20 ㎒ 대역폭들을 지원하고, 802.11ah는 비-TVWS 스펙트럼을 사용하여 1 ㎒, 2 ㎒, 4 ㎒, 8 ㎒ 및 16 ㎒ 대역폭들을 지원한다. 대표적인 실시예에 따르면, 802.11ah는 매크로 커버리지 영역(macro coverage area)의 MTC 디바이스들과 같은, 미터 유형 제어/머신-유형 통신들을 지원할 수 있다. MTC 디바이스들은 소정의 능력들, 예를 들어, 소정의 그리고/또는 제한된 대역폭 지원(예를 들어, 대역폭만 지원)을 포함하는 제한된 능력들을 가질 수 있다. MTC 디바이스들은 (예컨대, 매우 긴 배터리 수명을 유지하기 위해) 임계치를 초과하는 배터리 수명을 갖는 배터리를 포함할 수 있다.
802.11n, 802.11ac, 802.11af 및 802.11ah와 같은 다수의 채널 및 채널 대역폭을 지원할 수 있는 WLAN 시스템들은 주요 채널로서 지정될 수 있는 채널을 포함한다. 주요 채널은 BSS 내의 모든 STA들에 의해 지원되는 가장 큰 공통 동작 대역폭과 동일한 대역폭을 가질 수 있다. 주요 채널의 대역폭은 BSS에서 동작하는 모든 STA들 중에서 가장 작은 대역폭 동작 모드를 지원하는 STA에 의해 설정되고/되거나 제한될 수 있다. 802.11ah의 예에서, 주요 채널은 AP 및 BSS 내의 다른 STA들이 2 ㎒, 4 ㎒, 8 ㎒, 16 ㎒ 및/또는 다른 채널 대역폭 동작 모드들을 지원하더라도 1 ㎒ 모드를 지원하는(예를 들어, 1 ㎒ 모드만 지원하는) STA들(예를 들어, MTC 유형 디바이스들)에 대해 1 ㎒ 폭일 수 있다. 캐리어 감지 및/또는 네트워크 할당 벡터(NAV) 설정들은 주요 채널의 상태에 따라 달라질 수 있다. 주요 채널이 예를 들어, STA(1 ㎒ 동작 모드만 지원)가 AP로의 송신으로 인해, 사용 중이라면, 전체 이용가능한 주파수 대역들은 주파수 대역들의 대부분이 유휴 상태(idle)로 남아있고 이용가능할 수 있음에도 불구하고 사용 중인 것으로 간주될 수 있다.
미국에서, 802.11ah에 의해 사용될 수 있는 이용가능한 주파수 대역들은 902 ㎒ 내지 928 ㎒이다. 한국에서, 이용가능한 주파수 대역들은 917.5 ㎒ 내지 923.5 ㎒이다. 일본에서, 이용가능한 주파수 대역들은 916.5 ㎒ 내지 927.5 ㎒이다. 802.11ah에 대해 이용가능한 총 대역폭은 국가 코드에 따라 6 ㎒ 내지 26 ㎒이다.
도 1d는 실시예에 따른 RAN(113) 및 CN(115)을 예시하는 시스템 다이어그램이다. 위에서 언급된 바와 같이, RAN(113)은 NR 라디오 기술을 채용하여 에어 인터페이스(116)를 통해 WTRU들(102a, 102b, 102c)과 통신할 수 있다. RAN(113)은 CN(115)과 또한 통신할 수 있다.
RAN(113)은 gNB들(180a, 180b, 180c)을 포함할 수 있지만, RAN(113)은 실시예와 여전히 부합하면서 임의의 개수의 gNB를 포함할 수도 있다는 것이 이해될 것이다. gNB들(180a, 180b, 180c)은 각각 에어 인터페이스(116)를 통해 WTRU들(102a, 102b, 102c)과 통신하기 위한 하나 이상의 트랜시버를 포함할 수 있다. 일 실시예에서, gNB들(180a, 180b, 180c)은 MIMO 기술을 구현할 수 있다. 예를 들어, gNB들(180a, 108b)은 gNB들(180a, 180b, 180c)로 신호들을 송신하고 및/또는 그로부터 신호들을 수신하기 위해 빔포밍을 활용할 수 있다. 따라서, gNB(180a)는 예를 들어, WTRU(102a)에 무선 신호들을 송신하고/하거나 이로부터 무선 신호들을 수신하기 위해 다수의 안테나를 사용할 수 있다. 실시예에서, gNB들(180a, 180b, 180c)은 캐리어 집성 기술을 구현할 수 있다. 예를 들어, gNB(180a)는 다수의 컴포넌트 캐리어들을 WTRU(102a)에 송신할 수 있다(도시되지 않음). 이러한 컴포넌트 캐리어들의 서브세트는 비허가 스펙트럼 상에 있을 수 있는 한편, 나머지 컴포넌트 캐리어들은 허가 스펙트럼 상에 있을 수 있다. 실시예에서, gNB들(180a, 180b, 180c)은 CoMP(Coordinated Multi-Point) 기술을 구현할 수 있다. 예를 들어, WTRU(102a)는 gNB(180a) 및 gNB(180b)(및/또는 gNB(180c))로부터 조정된 송신들을 수신할 수 있다.
WTRU들(102a, 102b, 102c)은 확장가능 뉴머롤로지(scalable numerology)와 연관된 송신들을 사용하여 gNB들(180a, 180b, 180c)과 통신할 수 있다. 예를 들어, OFDM 심볼 간격 및/또는 OFDM 서브캐리어 간격은 상이한 송신들, 상이한 셀들, 및/또는 무선 송신 스펙트럼의 상이한 부분들에 따라 달라질 수 있다. WTRU들(102a, 102b, 102c)은 다양하거나 확장가능한 길이들(예를 들어, 다양한 수의 OFDM 심볼들 및/또는 지속되는 다양한 길이들의 절대 시간을 포함하는)의 서브프레임 또는 송신 시간 인터벌들(TTI)을 사용하여 gNB들(180a, 180b, 180c)과 통신할 수 있다.
gNB들(180a, 180b, 180c)은 독립형 구성 및/또는 비독립형 구성에서 WTRU들(102a, 102b, 102c)과 통신하도록 구성될 수 있다. 독립형 구성에서, WTRU들(102a, 102b, 102c)은 (예를 들어, eNode-B들(160a, 160b, 160c)과 같은) 다른 RAN들에 또한 액세스하지 않고, gNB들(180a, 180b, 180c)과 통신할 수 있다. 독립형 구성에서, WTRU들(102a, 102b, 102c)은 이동성 앵커 포인트로서 gNB들(180a, 180b, 180c) 중 하나 이상을 이용할 수 있다. 독립형 구성에서, WTRU들(102a, 102b, 102c)은 비허가 대역에서 신호들을 사용하여 gNB들(180a, 180b, 180c)과 통신할 수 있다. 비독립형 구성에서, WTRU들(102a, 102b, 102c)은 gNB들(180a, 180b, 180c)과 통신/이에 연결하면서 eNode-B들(160a, 160b, 160c)과 같은 다른 RAN과 또한 통신/이에 연결할 수 있다. 예를 들어, WTRU들(102a, 102b, 102c)은 하나 이상의 gNB(180a, 180b, 180c) 및 하나 이상의 eNode-B(160a, 160b, 160c)와 실질적으로 동시에 통신하기 위해 DC 원리들을 구현할 수 있다. 비독립형 구성에서, eNode-B들(160a, 160b, 160c)은 WTRU들(102a, 102b, 102c)에 대한 이동성 앵커로서 역할을 할 수 있고, gNB들(180a, 180b, 180c)은 WTRU들(102a, 102b, 102c)을 서비스하기 위한 추가적인 커버리지 및/또는 스루풋을 제공할 수 있다.
gNB들(180a, 180b, 180c) 각각은 특정 셀(도시되지 않음)과 연관될 수 있고 라디오 리소스 관리 결정, 핸드오버 결정, UL 및/또는 DL에서 사용자들의 스케줄링, 네트워크 슬라이싱의 지원, 이중 연결, NR과 E-UTRA 사이의 상호작용, 사용자 평면 기능(UPF)을 향한 사용자 평면 데이터의 라우팅(184a, 184b), 액세스 및 이동성 관리 기능(AMF)을 향한 제어 평면 정보의 라우팅(182a, 182b) 등을 처리하도록 구성될 수 있다. 도 1d에 도시된 바와 같이, gNB들(180a, 180b, 180c)은 Xn 인터페이스를 통해 서로 통신할 수 있다.
도 1d에 도시된 CN(115)은 적어도 하나의 AMF(182a, 182b), 적어도 하나의 UPF(184a, 184b), 적어도 하나의 세션 관리 기능(SMF)(183a, 183b), 및 가능하게는 데이터 네트워크(DN)(185a, 185b)를 포함할 수 있다. 전술한 요소들 각각은 CN(115)의 일부로서 묘사되어 있지만, 이러한 요소들 중 임의의 것은 CN 운영자가 아닌 엔티티에 의해 소유 및/또는 동작될 수 있다는 것이 이해될 것이다.
AMF(182a, 182b)는 N2 인터페이스를 통해 RAN(113) 내의 gNB(180a, 180b, 180c) 중 하나 이상에 연결될 수 있고, 제어 노드로서 기능을 할 수 있다. 예를 들어, AMF(182a, 182b)는 WTRU들(102a, 102b, 102c)의 사용자 인증, 네트워크 슬라이싱에 대한 지원(예를 들어, 상이한 요구사항들을 갖는 상이한 PDU 세션들의 처리), 특정 SMF선택(183a, 183b), 등록 영역의 관리, NAS 시그널링의 종료, 이동성 관리 등을 담당할 수 있다. 네트워크 슬라이싱은 WTRU들(102a, 102b, 102c)을 활용하는 서비스들의 유형들에 기초하여 WTRU들(102a, 102b, 102c)에 대한 CN 지원을 맞춤화하기 위해 AMF(182a, 182b)에 의해 사용될 수 있다. 예를 들어, 상이한 네트워크 슬라이스들은 고신뢰성 저레이턴시(URLLC) 액세스에 의존하는 서비스들, 향상된 초고속(eMBB) 액세스에 의존하는 서비스들, 머신 유형 통신(MTC) 액세스를 위한 서비스들 등과 같은 다양한 사용 사례들에 설정될 수 있다. AMF(162)는 RAN(113)과 LTE, LTE-A, LTE-A 프로와 같은, 다른 라디오 기술들 및/또는 WiFi와 같은 비-3GPP 액세스 기술들을 사용하는 다른 RAN(도시되지 않음) 사이에서 스위칭하기 위한 제어 평면 기능을 제공할 수 있다.
SMF(183a, 183b)는 N11 인터페이스를 통해 CN(115)에서의 AMF(182a, 182b)에 연결될 수 있다. SMF(183a, 183b)는 또한 N4 인터페이스를 통해 CN(115)에서의 UPF(184a, 184b)에 연결될 수 있다. SMF(183a, 183b)는 UPF(184a, 184b)를 선택 및 제어하고, UPF(184a, 184b)를 통한 트래픽의 라우팅을 구성할 수 있다. SMF(183a, 183b)는 UE IP 어드레스 관리 및 할당, PDU 세션들 관리, 정책 시행 및 QoS 제어, 다운링크 데이터 통지들 제공 등과 같은, 다른 기능들을 수행할 수 있다. PDU 세션 유형은 IP 기반, 비 IP 기반, 이더넷 기반 등일 수 있다.
UPF(184a, 184b)는 WTRU들(102a, 102b, 102c)과 IP 지원 디바이스들 사이의 통신을 용이하게 하기 위해 인터넷(110)과 같은, 패킷-스위칭 네트워크들에 대한 액세스를 WTRU들(102a, 102b, 102c)에 제공할 수 있는, N3 인터페이스를 통해 RAN(113)의 gNB들(180a, 180b, 180c) 중 하나 이상에 연결될 수 있다. UPF(184, 184b)는 패킷 라우팅 및 포워딩, 사용자 평면 정책 시행, 다중-홈 PDU 세션 지원, 사용자 평면 QoS 처리, 다운링크 패킷 버퍼링, 이동성 앵커링 제공 등과 같은, 다른 기능들을 수행할 수 있다.
CN(115)은 다른 네트워크들과의 통신을 원활하게 해줄 수 있다. 예를 들어, CN(115)은 CN(115)과 PSTN(108) 간의 인터페이스로서의 역할을 하는 IP 게이트웨이(예를 들어, IP 멀티미디어 서브시스템(IP multimedia subsystem, IMS) 서버)를 포함할 수 있거나, 또는 이와 통신할 수 있다. 또한, CN(115)은 다른 서비스 제공자들에 의해 소유되고/되거나 운영되는 다른 유선 및/또는 무선 네트워크들을 포함할 수 있는 다른 네트워크들(112)에 대한 액세스를 WTRU들(102a, 102b, 102c)에 제공할 수 있다. 일 실시예에서, WTRU들(102a, 102b, 102c)은 UPF(184a, 184b)에 대한 N3 인터페이스 및 UPF(184a, 184b)와 DN(185a, 185b) 사이의 N6 인터페이스를 통해 UPF(184a, 184b)를 통해 로컬 데이터 네트워크(DN)(185a, 185b)에 연결될 수 있다.
도 1a 내지 도 1d 및 도 1a 내지 도 1d의 대응하는 설명을 고려하면, WTRU(102a-d), 기지국(114a-b), eNode-B(160a-c), MME(162), SGW(164), PGW(166), gNB(180a-c), AMF(182a-b), UPF(184a-b), SMF(183a-b), DN(185a-b) 및/또는 본 명세서에서 설명된 임의의 다른 디바이스(들) 중 하나 이상과 관련하여 본 명세서에서 설명된 기능들 중 하나 이상 또는 전부는 하나 이상의 에뮬레이션 디바이스(emulation device)(도시되지 않음)에 의해 수행될 수 있다. 에뮬레이션 디바이스들은 본 명세서에서 설명된 기능들 중 하나 이상 또는 전부를 에뮬레이션하도록 구성된 하나 이상의 디바이스일 수 있다. 예를 들어, 에뮬레이션 디바이스들은 다른 디바이스들을 테스트하고/하거나 네트워크 및/또는 WTRU 기능들을 시뮬레이션하기 위해 사용될 수 있다.
에뮬레이션 디바이스들은 실험실 환경 및/또는 운영자 네트워크 환경에서 다른 디바이스들의 하나 이상의 테스트를 구현하도록 설계될 수 있다. 예를 들어, 하나 이상의 에뮬레이션 디바이스는 통신 네트워크 내의 다른 디바이스들을 테스트하기 위해 유선 및/또는 무선 통신 네트워크의 일부로서 완전히 또는 부분적으로 구현되고/되거나 배치되면서 하나 이상의 또는 모든 기능을 수행할 수 있다. 하나 이상의 에뮬레이션 디바이스는 유선 및/또는 무선 통신 네트워크의 일부로서 일시적으로 구현/배치되면서 하나 이상의 또는 모든 기능을 수행할 수 있다. 에뮬레이션 디바이스는 테스트의 목적으로 다른 디바이스에 직접 결합될 수 있고/있거나, 오버-디-에어 무선 통신들을 사용하여 테스트를 수행할 수 있다.
하나 이상의 에뮬레이션 디바이스는 유선 및/또는 무선 통신 네트워크의 일부로서 구현/배치되지 않으면서 모든 기능들을 포함하는 하나 이상의 기능을 수행할 수 있다. 예를 들어, 에뮬레이션 디바이스들은 하나 이상의 컴포넌트의 테스트를 구현하기 위해 테스트 실험실 및/또는 배치되지 않은(예를 들어, 테스트) 유선 및/또는 무선 통신 네트워크에서의 테스트 시나리오에서 이용될 수 있다. 하나 이상의 에뮬레이션 디바이스는 테스트 장비일 수 있다. RF 회로부(예컨대, 이는 하나 이상의 안테나를 포함할 수 있음)를 통한 직접 RF 결합 및/또는 무선 통신이 데이터를 송신하고 그리고/또는 수신하기 위해 에뮬레이션 디바이스들에 의해 사용될 수 있다.
본 출원은 도구들, 특징부들, 예들 또는 실시예들, 모델들, 접근법들 등을 포함한 다양한 태양들을 기술한다. 이들 태양들 중 많은 것은 특이성을 갖고서 기술되며, 적어도, 개별 특성들을 보여주기 위해, 종종, 제한하는 것으로 들릴 수 있는 방식으로 기술된다. 그러나, 이는 설명의 명확성을 위한 것이며, 그러한 태양들의 적용 또는 범위를 제한하지 않는다. 실제로, 상이한 모든 태양들이 조합되고 상호교환되어 추가의 태양들을 제공할 수 있다. 또한, 태양들이 조합될 수 있고, 마찬가지로 이전의 출원에 기술된 태양들과 상호교환될 수 있다.
본 출원에서 기술되고 고려되는 태양들은 많은 다양한 형태로 구현될 수 있다. 본 명세서에서 설명되는 도 5 내지 도 8은 몇몇 실시예들을 제공할 수 있지만, 다른 실시예들이 고려된다. 도 5 내지 도 8의 논의는 구현예의 폭을 제한하지 않는다. 태양들 중 적어도 하나는 일반적으로 비디오 인코딩 및 디코딩에 관한 것이고, 적어도 하나의 다른 태양은 일반적으로 생성된 또는 인코딩된 비트스트림을 송신하는 것에 관한 것이다. 이들 및 다른 태양들은 방법, 장치, 기술된 방법들 중 임의의 방법에 따라 비디오 데이터를 인코딩 또는 디코딩하기 위한 명령어들이 저장된 컴퓨터 판독가능 저장 매체, 및/또는 기술된 방법들 중 임의의 방법에 따라 생성된 비트스트림이 저장된 컴퓨터 판독가능 저장 매체로서 구현될 수 있다.
본 출원에서, 용어 "재구성된" 및 "디코딩된"은 상호교환가능하게 사용될 수 있고, 용어 "픽셀" 및 "샘플"은 상호교환가능하게 사용될 수 있으며, 용어 "이미지", "픽처" 및 "프레임"은 상호교환가능하게 사용될 수 있다.
다양한 방법들이 본 명세서에 기술되어 있고, 각각의 방법은 기술된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법의 적절한 동작을 위해 단계들 또는 액션들의 특정 순서가 요구되지 않는 한, 특정 단계들 및/또는 액션들의 순서 및/또는 사용은 수정되거나 조합될 수 있다. 추가적으로, "제1", "제2" 등과 같은 용어들은, 예를 들어, "제1 디코딩" 및 "제2 디코딩"과 같은 요소, 컴포넌트, 단계, 동작 등을 수정하기 위해 다양한 실시예들에서 사용될 수 있다. 그러한 용어들의 사용은, 구체적으로 요구되지 않는 한 수정된 동작들에 대한 순서화를 의미하지 않는다. 따라서, 이러한 예에서, 제1 디코딩은 제2 디코딩 전에 수행될 필요가 없고, 예를 들어, 제2 디코딩 전에, 그 동안, 또는 그와 중첩되는 기간에 발생할 수 있다.
본 출원에 설명된 다양한 방법들 및 다른 태양들은 각각 도 2 및 도 3에 도시된 바와 같은 비디오 인코더(200) 및 비디오 디코더(300)의 모듈들, 예를 들어, 프리-인코딩 처리(201), 인트라 예측(260), 엔트로피 코딩(245) 및/또는 엔트로피 디코딩 모듈들(330), 인트라 예측(360), 포스트-디코딩 처리(385)를 수정할 수 있다(예를 들어, 그들을 수정하는 데 사용될 수 있다). 더욱이, 본 명세서에 개시된 주제는 VVC 또는 HEVC로 제한되지 않는 태양들을 제시하며, 예를 들어, 임의의 유형, 포맷 또는 버전의 비디오 코딩 - 표준으로 설명되든지 또는 권고로 설명되든지 간에, 이전부터 존재하든지 또는 장래에 개발되든지 간에 -, 및 임의의 그러한 표준들 및 권고들의 확장들(예를 들어, VVC 및 HEVC를 포함함)에 적용될 수 있다. 달리 나타내지 않거나, 기술적으로 배제되지 않는 한, 본 출원에 기술되는 태양들은 개별적으로 또는 조합하여 사용될 수 있다.
최소 및 최대 값 범위들(예를 들어, 0 내지 1, 0 내지 N, 또는 0 내지 255), 표시들 또는 결정들에 대한 비트 값들, 디폴트 값들, ID 번호들(예를 들어, 적응 ID들에 대해) 등과 같은, 다양한 수치 값들이 본 출원에 기술된 예들에서 사용된다. 이러한 그리고 다른 특정 값들은 예들을 설명할 목적을 위한 것이며, 설명된 태양들은 이러한 특정 값들로 제한되지 않는다.
도 2는 예시적인 비디오 인코더를 도시하는 다이어그램이다. 예시적인 인코더(200)의 변형들이 고려되지만, 인코더(200)는 모든 예상되는 변형들을 기술함이 없이 명료함을 위해 후술된다.
인코딩되기 전에, 비디오 시퀀스는, 예를 들어, 입력 컬러 픽처에 컬러 변환을 적용하거나(예컨대, RGB 4:4:4로부터 YCbCr 4:2:0으로의 변환), 또는 (예를 들어, 컬러 컴포넌트들 중 하나의 컴포넌트의 히스토그램 등화를 사용하여) 압축에 더 탄력적인 신호 분포를 얻기 위해 입력 픽처 컴포넌트들의 리매핑을 수행하는, 프리-인코딩 처리(201)를 거칠 수 있다. 메타데이터는 전처리와 연관될 수 있고, 비트스트림에 부착될 수 있다.
인코더(200)에서, 픽처는 후술되는 바와 같이 인코더 요소들에 의해 인코딩된다. 인코딩될 픽처는, 예를 들어, 코딩 유닛(CU)들의 유닛들로 파티셔닝되고(202) 처리된다. 각각의 유닛은, 예를 들어 인트라 또는 인터 모드를 사용하여 인코딩된다. 유닛이 인트라 모드에서 인코딩될 때, 그것은 인트라 예측(260)을 수행한다. 인터 모드에서, 모션 추정(275) 및 보상(270)이 수행된다. 인코더는 유닛을 인코딩하기 위해 인트라 모드 또는 인터 모드 중 어느 것을 사용할지를 결정하고(205), 예를 들어, 예측 모드 플래그에 의해 인트라/인터 결정을 나타낸다. 예측 잔차들은, 예를 들어, 오리지널 이미지 블록에서 예측된 블록을 감산(210)함으로써 계산된다.
이어서, 예측 잔차들은 변환되고(225) 양자화된다(230). 양자화된 변환 계수들뿐만 아니라 모션 벡터들 및 다른 신택스 요소들은 엔트로피 코딩되어(245) 비트스트림을 출력한다. 인코더는 변환을 스킵할 수 있고, 비변환된 잔차 신호에 직접 양자화를 적용할 수 있다. 인코더는 변환 및 양자화 둘 모두를 스킵할 수 있는데, 즉 잔차는 변환 또는 양자화 프로세스들의 적용 없이 직접 코딩된다.
인코더는 인코딩된 블록을 디코딩하여 추가 예측들을 위한 기준을 제공한다. 양자화된 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화(de-quantize)되고(240) 역변환된다(250). 디코딩된 예측 잔차들 및 예측된 블록을 조합하여(255) 이미지 블록이 재구성된다. 인루프 필터들(265)이, 예를 들어, 인코딩 아티팩트들을 감소시키기 위해 디블록킹/SAO(Sample Adaptive Offset) 필터링을 수행하도록 재구성된 픽처에 적용된다. 필터링된 이미지는 기준 픽처 버퍼(280)에 저장된다.
도 3은 비디오 디코더의 예를 도시하는 다이어그램이다. 예시적인 디코더(300)에서, 비트스트림은 후술되는 바와 같이 디코더 요소들에 의해 디코딩된다. 비디오 디코더(300)는 일반적으로, 도 2에 기술된 바와 같이, 인코딩 패스에 상반되는 디코딩 패스를 수행한다. 인코더(200)는 또한 일반적으로 비디오 데이터를 인코딩하는 것의 일부로서 비디오 디코딩을 수행할 수 있다. 예를 들어, 인코더(200)는 본 명세서에서 제시된 비디오 디코딩 단계들 중 하나 이상을 수행할 수 있다. 인코더는, 예를 들어, 다음 중 하나 이상에 대하여 디코더와의 동기화를 유지하기 위해, 디코딩된 이미지들을 재구성한다: 기준 픽처들, 엔트로피 코딩 콘텍스트들, 및 다른 디코더 관련 상태 변수들.
특히, 디코더의 입력은 비디오 인코더(200)에 의해 생성될 수 있는 비디오 비트스트림을 포함한다. 비트스트림은 먼저, 변환 계수들, 모션 벡터들, 및 다른 코딩된 정보를 획득하기 위해 엔트로피 디코딩된다(330). 픽처 파티션 정보는 픽처가 어떻게 파티셔닝되는지를 나타낸다. 따라서, 디코더는 디코딩된 픽처 파티셔닝 정보에 따라 픽처를 분할할 수 있다(335). 변환 계수들은 예측 잔차들을 디코딩하기 위해 탈양자화되고(340) 역변환된다(350). 디코딩된 예측 잔차들 및 예측된 블록을 조합하여(355) 이미지 블록이 재구성된다. 예측된 블록은 인트라 예측(360) 또는 모션 보상된 예측(즉, 인터 예측)(375)으로부터 획득될 수 있다(370). 재구성된 이미지에 인루프 필터들(365)이 적용된다. 필터링된 이미지는 기준 픽처 버퍼(380)에 저장된다.
디코딩된 픽처는 포스트-디코딩 처리(385), 예를 들어, 프리-인코딩 처리(201)에서 수행된 리매핑 프로세스의 역을 수행하는 역 리매핑 또는 역 컬러 변환(예를 들어, YCbCr 4:2:0으로부터 RGB 4:4:4로의 변환)을 추가로 거칠 수 있다. 포스트-디코딩 처리는, 프리-인코딩 처리에서 도출되고 비트스트림에서 시그널링된 메타데이터를 사용할 수 있다.
도 4는 본 명세서에 설명된 다양한 태양 및 실시예가 구현될 수 있는 시스템의 예를 도시하는 다이어그램이다. 시스템(400)은 후술되는 다양한 컴포넌트들을 포함하는 디바이스로서 구현될 수 있으며, 본 문서에 기술된 태양들 중 하나 이상을 수행하도록 구성된다. 그러한 디바이스들의 예들은, 다양한 전자 디바이스들, 예컨대 개인용 컴퓨터, 랩톱 컴퓨터, 스마트폰, 태블릿 컴퓨터, 디지털 멀티미디어 셋톱 박스, 디지털 텔레비전 수신기, 개인용 비디오 녹화 시스템, 커넥티드 가전, 및 서버를 포함하지만, 이들로 제한되지 않는다. 시스템(400)의 요소들은 단일 집적 회로(IC), 다수의 IC들, 및/또는 이산 컴포넌트들에서, 단독으로 또는 조합되어 구현될 수 있다. 예를 들어, 적어도 하나의 예에서, 시스템(400)의 처리 및 인코더/디코더 요소들은 다수의 IC들 및/또는 이산 컴포넌트들에 걸쳐 분산된다. 다양한 실시예들에서, 시스템(400)은, 예를 들어, 통신 버스를 통해 또는 전용 입력 및/또는 출력 포트들을 통해 하나 이상의 다른 시스템들, 또는 다른 전자 디바이스들에 통신가능하게 결합된다. 다양한 실시예들에서, 시스템(400)은 본 문서에 기술된 태양들 중 하나 이상을 구현하도록 구성된다.
시스템(400)은, 예를 들어, 본 문서에 기술된 다양한 태양들을 구현하기 위해 그 내부에 로딩된 명령어들을 실행하도록 구성된 적어도 하나의 프로세서(410)를 포함한다. 프로세서(410)는 내장된 메모리, 입력 출력 인터페이스, 및 당업계에 알려진 바와 같은 다양한 다른 회로부들을 포함할 수 있다. 시스템(400)은 적어도 하나의 메모리(420)(예컨대, 휘발성 메모리 디바이스, 및/또는 비휘발성 메모리 디바이스)를 포함한다. 시스템(400)은, 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리(Electrically Erasable Programmable Read-Only Memory, EEPROM), 판독-전용 메모리(Read-Only Memory, ROM), 프로그래밍가능 판독-전용 메모리(Programmable Read-Only Memory, PROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 동적 랜덤 액세스 메모리(Dynamic Random Access Memory, DRAM), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 플래시, 자기 디스크 드라이브, 및/또는 광 디스크 드라이브를 포함하지만 이에 제한되지 않는 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있는 저장 디바이스(440)를 포함한다. 저장 디바이스(440)는 비제한적인 예들로서, 내부 저장 디바이스, 부착된 저장 디바이스(분리가능한 저장 디바이스 및 분리가능하지 않은 저장 디바이스를 포함함), 및/또는 네트워크 액세스가능한 저장 디바이스를 포함할 수 있다.
시스템(400)은, 예를 들어, 인코딩된 비디오 또는 디코딩된 비디오를 제공하기 위해 데이터를 처리하도록 구성된 인코더/디코더 모듈(430)을 포함하고, 인코더/디코더 모듈(430)은 그 자체 프로세서 및 메모리를 포함할 수 있다. 인코더/디코더 모듈(430)은 인코딩 및/또는 디코딩 기능들을 수행하기 위해 디바이스에 포함될 수 있는 모듈(들)을 나타낸다. 알려진 바와 같이, 디바이스는 인코딩 및 디코딩 모듈들 중 하나 또는 둘 모두를 포함할 수 있다. 추가적으로, 인코더/디코더 모듈(430)은 시스템(400)의 별개의 요소로서 구현될 수 있거나, 또는 당업자에게 알려진 바와 같은 하드웨어와 소프트웨어의 조합으로서 프로세서(410) 내에 통합될 수 있다.
본 문서에 기술된 다양한 태양들을 수행하기 위해 프로세서(410) 또는 인코더/디코더(430)에 로딩될 프로그램 코드는 저장 디바이스(440)에 저장될 수 있고, 후속적으로 프로세서(410)에 의한 실행을 위해 메모리(420)에 로딩될 수 있다. 다양한 실시예들에 따르면, 프로세서(410), 메모리(420), 저장 디바이스(440), 및 인코더/디코더 모듈(430) 중 하나 이상은 본 문서에 기술된 프로세스들의 수행 동안 다양한 항목들 중 하나 이상을 저장할 수 있다. 이러한 저장된 항목들은 입력 비디오, 디코딩된 비디오 또는 디코딩된 비디오의 일부들, 비트스트림, 행렬들, 변수들, 및 식들, 공식들, 연산들 및 연산 로직의 처리로부터의 중간 또는 최종 결과들을 포함할 수 있지만, 이들로 제한되지 않는다.
몇몇 실시예들에서, 프로세서(410) 및/또는 인코더/디코더 모듈(430) 내부의 메모리는 명령어들을 저장하기 위해 그리고 인코딩 또는 디코딩 동안 필요한 처리를 위한 작업 메모리를 제공하기 위해 사용된다. 그러나, 다른 실시예들에서, 처리 디바이스(예를 들어, 처리 디바이스는 프로세서(410) 또는 인코더/디코더 모듈(430) 중 어느 하나일 수 있음) 외부의 메모리가 이러한 기능들 중 하나 이상에 사용된다. 외부 메모리는 메모리(420) 및/또는 저장 디바이스(440), 예를 들어, 동적 휘발성 메모리 및/또는 비휘발성 플래시 메모리일 수 있다. 여러 실시예들에서, 외부 비휘발성 플래시 메모리는 예를 들어, 텔레비전의 운영 체제를 저장하는 데 사용된다. 적어도 하나의 실시예에서, RAM과 같은 고속 외부 동적 휘발성 메모리가, 예를 들어 MPEG-2(MPEG는 Moving Picture Experts Group을 지칭하고, MPEG-2는 또한 ISO/IEC 13818로도 지칭되고, 13818-1은 또한 H.222로도 알려져 있고, 13818-2는 또한 H.262로도 알려져 있음), HEVC(HEVC는 High Efficiency Video Coding을 지칭하고, H.265 및 MPEG-H Part 2로도 알려져 있음), 또는 VVC(Versatile Video Coding, JVET(Joint Video Experts Team)에 의해 개발 중인 새로운 표준)와 같은, 비디오 코딩 및 디코딩 동작들을 위한 작업 메모리로서 사용된다.
시스템(400)의 요소들에 대한 입력은 블록(445)에 표시된 바와 같은 다양한 입력 디바이스들을 통해 제공될 수 있다. 그러한 입력 디바이스들은, (i) 예를 들어, 브로드캐스터(broadcaster)에 의해 무선으로(over the air) 송신된 무선 주파수(radio frequency, RF) 신호를 수신하는 RF 부분, (ii) 컴포넌트(COMP) 입력 단자(또는 COMP 입력 단자들의 세트), (iii) 범용 직렬 버스(Universal Serial Bus, USB) 입력 단자, 및/또는 (iv) 고화질 멀티미디어 인터페이스(HDMI) 입력 단자를 포함하지만, 이들로 제한되지 않는다. 도 4에 도시되지 않은 다른 예는 복합 비디오를 포함한다.
다양한 실시예들에서, 블록(445)의 입력 디바이스들은 당업계에 알려진 바와 같은 연관된 각자의 입력 처리 요소들을 갖는다. 예를 들어, RF 부분은, (i) 원하는 주파수를 선택하는 것(신호를 선택하는 것, 또는 신호를 주파수들의 대역으로 대역 제한하는 것으로도 지칭됨), (ii) 선택된 신호를 하향변환(downconvert)하는 것, (iii) (예를 들어) 소정 실시예들에서 채널로 지칭될 수 있는 신호 주파수 대역을 선택하기 위해 주파수들의 더 좁은 대역으로 다시 대역-제한하는 것, (iv) 하향변환되고 대역-제한된 신호를 복조하는 것, (v) 에러 정정을 수행하는 것, 및 (vi) 데이터 패킷들의 원하는 스트림을 선택하기 위해 역다중화하는 것에 적합한 요소들과 연관될 수 있다. 다양한 실시예들의 RF 부분은 이러한 기능들을 수행하기 위한 하나 이상의 요소들, 예를 들어 주파수 선택기들, 신호 선택기들, 대역-제한기들, 채널 선택기들, 필터들, 하향 변환기들, 복조기들, 에러 정정기들, 및 역다중화기들을 포함한다. RF 부분은, 예를 들어, 수신된 신호를 더 낮은 주파수(예를 들어, 중간 주파수 또는 기저대역 인근 주파수)로 또는 기저대역으로 하향 변환하는 것을 포함한, 다양한 이들 기능을 수행하는 튜너를 포함할 수 있다. 하나의 셋톱 박스 실시예에서, RF 부분 및 그의 연관된 입력 처리 요소는 유선(예를 들어, 케이블) 매체를 통해 송신된 RF 신호를 수신하고, 원하는 주파수 대역에 대해 필터링, 하향 변환, 및 다시 필터링함으로써 주파수 선택을 수행한다. 다양한 실시예들은 전술한(그리고 다른) 요소들의 순서를 재배열하고, 이들 요소들 중 일부를 제거하고/하거나 유사하거나 상이한 기능들을 수행하는 다른 요소들을 추가한다. 요소들을 추가하는 것은, 예를 들어, 증폭기들 및 아날로그-디지털 변환기를 삽입하는 것과 같이, 기존 요소들 사이에 요소들을 삽입하는 것을 포함할 수 있다. 다양한 실시예에서, RF 부분은 안테나를 포함한다.
또한, USB 및/또는 HDMI 단자들은 시스템(400)을 USB 및/또는 HDMI 접속부들을 통해 다른 전자 디바이스들에 접속하기 위한 각자의 인터페이스 프로세서들을 포함할 수 있다. 입력 처리의 다양한 태양들, 예를 들어, 리드 솔로몬(Reed-Solomon) 에러 정정은 필요에 따라, 예를 들어, 별개의 입력 처리 IC 내에서 또는 프로세서(410) 내에서 구현될 수 있다는 것이 이해되어야 한다. 유사하게, USB 또는 HDMI 인터페이스 처리의 태양들은 필요에 따라, 별개의 인터페이스 IC들 내에서 또는 프로세서(410) 내에서 구현될 수 있다. 복조, 에러 정정, 및 역다중화된 스트림은, 예를 들어, 출력 디바이스 상에서의 프레젠테이션을 위해 필요에 따라 데이터 스트림을 처리하도록 메모리 및 저장 요소들과 조합하여 동작하는 프로세서(410), 및 인코더/디코더(430)를 포함한 다양한 처리 요소들에 제공된다.
시스템(400)의 다양한 요소들이 통합된 하우징 내에 제공될 수 있다. 통합된 하우징 내에서, 다양한 요소들은 적합한 접속 배열체(425), 예를 들어, 인터-IC(I2C) 버스, 배선, 및 인쇄 회로 기판을 포함하는, 당업계에 알려진 바와 같은 내부 버스를 사용하여 상호접속되고 그들 사이에서 데이터를 전송할 수 있다.
시스템(400)은 통신 채널(460)을 통해 다른 디바이스들과의 통신을 가능하게 하는 통신 인터페이스(450)를 포함한다. 통신 인터페이스(450)는 통신 채널(460)을 통해 데이터를 송신하도록 그리고 수신하도록 구성된 트랜시버를 포함할 수 있지만, 이로 제한되지 않는다. 통신 인터페이스(450)는 모뎀 또는 네트워크 카드를 포함할 수 있지만 이에 제한되지 않으며, 통신 채널(460)은, 예를 들어, 유선 및/또는 무선 매체 내에서 구현될 수 있다.
데이터는, 다양한 실시예들에서, Wi-Fi 네트워크, 예를 들어 IEEE 802.11(IEEE는 전기 전자 기술자 협회(Institute of Electrical and Electronics Engineers)를 지칭함)과 같은 무선 네트워크를 사용하여, 시스템(400)에 스트리밍되거나 또는 달리 제공된다. 이러한 예들의 Wi-Fi 신호는 Wi-Fi 통신들에 대해 적응된 통신 채널(460) 및 통신 인터페이스(450)를 통해 수신된다. 이러한 실시예들의 통신 채널(460)은 전형적으로, 스트리밍 애플리케이션들 및 다른 오버더톱(over-the-top) 통신들을 허용하기 위한 인터넷을 포함하는 외부 네트워크들에 대한 액세스를 제공하는 액세스 포인트 또는 라우터에 접속된다. 다른 실시예들은 입력 블록(445)의 HDMI 접속을 통해 데이터를 전달하는 셋톱 박스를 사용하여 스트리밍된 데이터를 시스템(400)에 제공한다. 또 다른 실시예들은 입력 블록(445)의 RF 접속을 사용하여 스트리밍된 데이터를 시스템(400)에 제공한다. 전술한 바와 같이, 다양한 실시예들은 비-스트리밍 방식으로 데이터를 제공한다. 또한, 다양한 실시예들은 Wi-Fi 이외의 무선 네트워크들, 예를 들어 셀룰러 네트워크 또는 블루투스 네트워크를 사용한다.
시스템(400)은 디스플레이(475), 스피커들(485), 및 다른 주변 디바이스들(495)을 포함한 다양한 출력 디바이스들에 출력 신호를 제공할 수 있다. 다양한 실시예의 디스플레이(475)는, 예를 들어, 터치스크린 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 곡면 디스플레이, 및/또는 폴더블(foldable) 디스플레이 중 하나 이상을 포함한다. 디스플레이(475)는 텔레비전, 태블릿, 랩톱, 휴대폰(모바일폰), 또는 다른 디바이스를 위한 것일 수 있다. 디스플레이(475)는 또한 (예를 들어, 스마트폰에서와 같이) 다른 컴포넌트들과 통합될 수 있거나, 또는 별개일 수 있다(예를 들어, 랩톱을 위한 외부 모니터). 다른 주변 디바이스들(495)은, 실시예들의 다양한 예들에서, 독립형 디지털 비디오 디스크(또는 디지털 다기능 디스크)(두 용어들 모두에 대해, DVR), 디스크 플레이어, 스테레오 시스템 및/또는 조명 시스템 중 하나 이상을 포함한다. 다양한 실시예들은 시스템(400)의 출력에 기초하여 기능을 제공하는 하나 이상의 주변 디바이스들(495)을 사용한다. 예를 들어, 디스크 플레이어는 시스템(400)의 출력을 재생하는 기능을 수행한다.
다양한 실시예들에서, 제어 신호는, 시그널링, 예컨대, AV.Link, CEC(Consumer Electronics Control), 또는 사용자 개입이 있거나 또는 개입 없이 디바이스 대 디바이스 제어를 가능하게 하는 다른 통신 프로토콜을 사용하여 시스템(400)과 디스플레이(475), 스피커(485), 또는 다른 주변 디바이스(495) 사이에서 통신된다. 출력 디바이스들은 각자의 인터페이스들(470, 480, 490)을 통해 전용 접속부들을 거쳐 시스템(400)에 통신가능하게 결합될 수 있다. 대안적으로, 출력 디바이스들은 통신 인터페이스(450)를 통해 통신 채널(460)을 사용하여 시스템(400)에 접속될 수 있다. 디스플레이(475) 및 스피커(485)는, 예를 들어, 텔레비전과 같은 전자 디바이스에서 시스템(400)의 다른 컴포넌트와 단일 유닛으로 통합될 수 있다. 다양한 실시예들에서, 디스플레이 인터페이스(470)는, 예를 들어, 타이밍 컨트롤러(T Con) 칩과 같은 디스플레이 드라이버를 포함한다.
디스플레이(475) 및 스피커들(485)은 대안적으로, 예를 들어, 입력(445)의 RF 부분이 별개의 셋톱 박스의 일부인 경우, 다른 컴포넌트들 중 하나 이상과 별개일 수 있다. 디스플레이(475) 및 스피커들(485)이 외부 컴포넌트들인 다양한 실시예들에서, 출력 신호는, 예를 들어, HDMI 포트들, USB 포트들, 또는 COMP 출력들을 포함한 전용 출력 접속부들을 통해 제공될 수 있다.
실시예들은 프로세서(410)에 의해 구현되는 컴퓨터 소프트웨어에 의해 또는 하드웨어에 의해, 또는 하드웨어와 소프트웨어의 조합에 의해 수행될 수 있다. 비제한적인 예로서, 실시예들은 하나 이상의 집적 회로들에 의해 구현될 수 있다. 메모리(420)는 기술적 환경에 적절한 임의의 유형의 것일 수 있고, 비제한적인 예들로서, 광학 메모리 디바이스, 자기 메모리 디바이스, 반도체 기반 메모리 디바이스, 고정 메모리, 및 탈착식 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. 프로세서(410)는 기술적 환경에 적절한 임의의 유형의 것일 수 있고, 비제한적인 예들로서, 마이크로프로세서들, 범용 컴퓨터들, 특수 목적 컴퓨터들, 및 멀티-코어 아키텍처에 기반한 프로세서들 중 하나 이상을 포괄할 수 있다.
다양한 구현예들은 디코딩을 수반한다. 본 출원에서 사용되는 바와 같이, "디코딩"은 예를 들어, 수신된 인코딩된 시퀀스에 대해 수행되어 디스플레이에 적합한 최종 출력을 생성하는 프로세스의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 디코더에 의해 전형적으로 수행되는 프로세스들 중 하나 이상의 프로세스들, 예를 들어, 엔트로피 디코딩, 역양자화, 역변환, 및 차분 디코딩을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 본 출원에 기술된 다양한 구현예들의 디코더에 의해 수행되는 프로세스들, 예를 들어, 포인트 클라우드 컴포넌트들과 연관된 요소들, 속성들 및 메타데이터를 표시하는 (예를 들어, 본 명세서에 설명된 바와 같은) 신호들을 수신하고, 디코딩하고, 해석하는 것; 미디어 프레젠테이션 디스크립터(MPD) 내에서 포인트 클라우드 스트림들 및 그것들의 컴포넌트 서브 스트림들을 식별하는 것; 포인트 클라우드 및/또는 그것의 컴포넌트들의 버전들을 식별하는 것; MPD를 디코딩하여, 기하구조 기반 포인트 클라우드 압축(G-PCC) 콘텐츠에서 G-PCC 컴포넌트들을 식별하기 위해 메인 적응 세트 및 다른 적응 세트들을 식별하는 것; MPD를 디코딩하여, 적응 세트 또는 표현에서 포인트 클라우드 컴포넌트의 유형을 식별하는 것; MPD를 디코딩하여, 하나 이상의 사전 선택들을 식별하는 것; MPD를 디코딩하여, G-PCC 미디어의 하나 이상의 버전들을 식별하는 것; MPD를 디코딩하여, 하나 이상의 G-PCC 타일 그룹들을 식별하는 것; MPD를 디코딩하여, 적응 세트에서 G-PCC 컴포넌트에 대한 하나 이상의 타일 ID들을 식별하는 것; MPD를 디코딩하여, 공간 영역들의 하나 이상의 특성들 및 영역들과 G-PCC 타일들 사이의 매핑들, 공간 영역들의 특성들 및 영역들과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑들, 및/또는 공간 영역과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑을 식별하는 것; MPD를 디코딩하여, 동적 공간 영역들에 대한 시한 메타데이터 트랙을 식별하는 것 등을 포함한다.
추가 실시예들로서, 하나의 예에서, "디코딩"은 엔트로피 디코딩만을 지칭하고, 다른 실시예에서, "디코딩"은 차분 디코딩만을 지칭하고, 다른 실시예에서, "디코딩"은 엔트로피 디코딩과 차분 디코딩의 조합을 지칭한다. 어구 "디코딩 프로세스"가 동작들의 서브세트를 구체적으로 나타내기 위한 것인지, 또는 일반적으로 보다 광의의 디코딩 프로세스를 나타내기 위한 것인지 여부는 특정 설명들의 맥락에 기초하여 명확할 것이며, 당업자에 의해 잘 이해될 것으로 여겨진다.
다양한 구현예들은 인코딩을 수반한다. "디코딩"에 대한 상기 논의와 유사한 방식으로, 본 출원에서 사용되는 바와 같은 "인코딩"은, 예를 들어 입력 비디오 시퀀스에 대해 수행되어 인코딩된 비트스트림을 생성하는 프로세스들의 전부 또는 일부를 포함할 수 있다. 다양한 실시예들에서, 그러한 프로세스들은 전형적으로 인코더에 의해 수행되는 프로세스들, 예를 들어, 파티셔닝, 차분 인코딩, 변환, 양자화, 및 엔트로피 인코딩 중 하나 이상을 포함한다. 다양한 실시예들에서, 그러한 프로세스들은 또한, 또는 대안적으로, 본 출원에 기술된 다양한 구현예들의 인코더에 의해 수행되는 프로세스들, 예를 들어, 포인트 클라우드 컴포넌트들과 연관된 요소들, 속성들 및 메타데이터를 표시하는 (예를 들어, 본원에 설명된 바와 같은) 신호들을 생성하고, 인코딩하고, 전송하는 것; MPD를 인코딩하여, 포인트 클라우드 스트림들 및 그것들의 컴포넌트 서브 스트림들을 식별하는 것; MPD를 인코딩하여, 기하구조 기반 포인트 클라우드 압축(G-PCC) 콘텐츠에서 G-PCC 컴포넌트들의 식별을 지원하기 위해 메인 적응 세트 및 다른 적응 세트들을 식별하는 것; MPD를 인코딩하여, 적응 세트 또는 표현에서 포인트 클라우드 컴포넌트의 유형의 식별을 지원하는 것; MPD를 인코딩하여, 하나 이상의 사전 선택들을 식별하는 것; MPD를 인코딩하여, G-PCC 미디어의 하나 이상의 버전들의 식별을 지원하는 것; MPD를 인코딩하여, 하나 이상의 G-PCC 타일 그룹들의 식별을 지원하는 것; MPD를 인코딩하여, 적응 세트에서 G-PCC 컴포넌트에 대한 하나 이상의 타일 ID들의 식별을 지원하는 것; MPD를 인코딩하여, 공간 영역들의 하나 이상의 특성들 및 영역들과 G-PCC 타일들 사이의 매핑들, 공간 영역들의 특성들 및 영역들과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑들, 및/또는 공간 영역과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑의 식별을 지원하는 것; MPD를 디코딩하여, 동적 공간 영역들에 대한 시한 메타데이터 트랙을 식별하는 것 등을 포함한다.
추가 예들에서, 하나의 실시예에서, "인코딩"은 단지 엔트로피 인코딩을 지칭하며, 다른 실시예에서 "인코딩"은 단지 차분 인코딩을 지칭하고, 다른 실시예에서 "인코딩"은 차분 인코딩과 엔트로피 인코딩의 조합을 지칭한다. 어구 "인코딩 프로세스"가 동작들의 서브세트를 구체적으로 나타내기 위한 것인지, 또는 일반적으로 보다 광의의 인코딩 프로세스를 나타내기 위한 것인지 여부는 특정 설명들의 맥락에 기초하여 명확할 것이며, 당업자에 의해 잘 이해될 것으로 여겨진다.
본 명세서에서 제시된 논의 또는 도면들에 표시될 수 있는 신택스 요소들과 같은, 본 명세서에서 사용된 바와 같은 신택스 요소들은 설명적인 용어들이라는 점에 유의한다. 그렇기 때문에, 그들은 다른 신택스 요소 명칭들의 사용을 배제하지 않는다.
도면이 흐름도로서 제시될 때, 그것은 또한 대응하는 장치의 블록도를 제공한다는 것을 이해해야 한다. 유사하게, 도면이 블록도로서 제시될 때, 그것은 또한 대응하는 방법/프로세스의 흐름도를 제공한다는 것을 이해해야 한다.
인코딩 프로세스 동안, 계산 복잡성의 제약이 종종 있게 되면, 레이트와 왜곡 사이의 균형 또는 트레이드-오프가 일반적으로 고려된다. 레이트 왜곡 최적화는 일반적으로 레이트와 왜곡의 가중 합인 레이트 왜곡 함수를 최소화하는 것으로 공식화된다. 레이트 왜곡 최적화 문제를 해결하기 위한 상이한 접근법들이 있다. 예를 들어, 접근법들은, 코딩 및 디코딩 후 재구성된 신호의 코딩 비용 및 관련된 왜곡의 완전한 평가를 이용한, 모든 고려된 모드들 또는 코딩 파라미터들 값들을 포함하는 모든 인코딩 옵션들의 광범위한 검사에 기초할 수 있다. 특히 재구성된 것이 아니라 예측 또는 예측 잔차 신호에 기초한 근사화된 왜곡의 계산과 함께 인코딩 복잡성을 덜기 위해, 더 빠른 접근법들이 또한 사용될 수 있다. 이들 2개의 접근법들의 혼합은 또한, 예컨대, 가능한 인코딩 옵션들 중 일부만에 대한 근사화된 왜곡 및 다른 인코딩 옵션들에 대한 완전한 왜곡을 사용함으로써 사용될 수 있다. 다른 접근법들은 가능한 인코딩 옵션들의 서브세트만을 평가한다. 보다 일반적으로, 많은 접근법들은 최적화를 수행하기 위해 다양한 기술들 중 임의의 기술을 채용하지만, 최적화가 반드시 코딩 비용과 관련된 왜곡 둘 모두에 대한 완전한 평가이지는 않다.
본 명세서에 기술된 구현예들 및 태양들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호에서 구현될 수 있다. 단일 형태의 구현예의 맥락에서만 논의되더라도(예를 들어, 방법으로서만 논의됨), 논의된 특징들의 구현예는 또한 다른 형태들(예를 들어, 장치 또는 프로그램)로 구현될 수 있다. 장치는, 예를 들어, 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 방법은, 예를 들어, 프로세서에서 구현될 수 있으며, 이는, 예컨대 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능 로직 디바이스를 포함하는, 일반적으로 처리 디바이스를 지칭한다. 프로세서들은 또한, 예를 들어, 컴퓨터들, 휴대폰들, 휴대용/개인 디지털 어시스턴트들("PDA들"), 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.
"하나의 실시예", "실시예", "예", "하나의 구현예" 또는 "구현예"뿐만 아니라 그의 다른 변형들에 대한 언급은, 실시예와 관련하여 기술된 특정 특징부, 구조, 특성 등이 적어도 하나의 실시예에 포함됨을 의미한다. 따라서, 본 출원 전반에 걸친 다양한 곳에서 나타나는 어구 "하나의 실시예에서", "실시예에서", "예에서", "하나의 구현예에서", 또는 "구현예에서"뿐만 아니라 임의의 다른 변형들의 출현들은 반드시 모두 동일한 실시예 또는 예를 언급하는 것은 아니다.
또한, 본 출원은 다양한 정보들을 "결정하는 것"을 언급할 수 있다. 정보를 결정하는 것은, 예를 들어, 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 메모리로부터 정보를 검색하는 것 중 하나 이상을 포함할 수 있다. 획득하는 것은 수신하는 것, 검색하는 것, 구성하는 것, 생성하는 것, 및/또는 결정하는 것을 포함할 수 있다.
또한, 본 출원은 다양한 정보에 "액세스하는 것"을 언급할 수 있다. 정보에 액세스하는 것은, 예를 들어 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 검색하는 것, 정보를 저장하는 것, 정보를 이동시키는 것, 정보를 복사하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수 있다.
또한, 본 출원은 다양한 정보를 "수신하는 것"을 언급할 수 있다. 수신하는 것은 "액세스하는 것"과 마찬가지로 광의의 용어인 것으로 의도된다. 정보를 수신하는 것은, 예를 들어, 정보에 액세스하는 것, 또는 (예를 들어, 메모리로부터) 정보를 검색하는 것 중 하나 이상을 포함할 수 있다. 또한, "수신하는 것"은 전형적으로, 예를 들어 정보를 저장하는 동작, 정보를 처리하는 동작, 정보를 전송하는 동작, 정보를 이동하는 동작, 정보를 복사하는 동작, 정보를 소거하는 동작, 정보를 계산하는 동작, 정보를 결정하는 동작, 정보를 예측하는 동작, 또는 정보를 추정하는 동작과 같은 동작들 동안 어떤 방식으로든 수반된다.
예를 들어 다음의 "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우들에서 "/", "및/또는", 및 "적어도 하나" 중 임의의 것의 사용은 첫 번째 열거된 옵션(A) 단독의 선택, 또는 두 번째 열거된 옵션(B) 단독의 선택, 또는 옵션들(A 및 B) 둘 모두의 선택을 포함하도록 의도됨을 이해해야 한다. 추가의 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 하나"의 경우에서, 그러한 어구는 첫 번째 열거된 옵션(A) 단독의 선택, 또는 두 번째 열거된 옵션(B) 단독의 선택, 또는 세 번째 열거된 옵션(C) 단독의 선택, 또는 첫 번째 및 두 번째 열거된 옵션(A 및 B) 단독의 선택, 또는 첫 번째 및 세 번째 열거된 옵션(A 및 C) 단독의 선택, 또는 두 번째 및 세 번째 열거된 옵션(B 및 C) 단독의 선택, 또는 3개의 모든 옵션(A, B 및 C)의 선택을 포괄하도록 의도된다. 이는, 본 명세서에 기술된 바와 같은 많은 항목들에 대해, 본 명세서 및 관련 분야의 당업자에게 명백한 바와 같이 확장될 수 있다.
또한, 본 명세서에 사용된 바와 같이, 용어 "신호"는 특히 대응하는 디코더에게 무언가를 나타내는 것을 지칭한다. 예를 들어, 몇몇 실시예들에서, 인코더는 (예를 들어, 디코더로) MPD, 적응 세트, 표현, 사전선택, G-PCC 컴포넌트들, 디스크립터들 중에서 특히, G-PCCComponent 디스크립터, G-PCC 디스크립터 또는 필수 속성 디스크립터, 보충 속성 디스크립터, G-PCC 타일 인벤토리 디스크립터, G-PCC 정적 공간 영역 디스크립터, GPCCTileId 디스크립터, GPCC3DRegionID 디스크립터, 요소들 및 속성들, 메타데이터, 스키마(schema)들 등을 시그널링한다. 이러한 방식으로, 실시예에서 동일한 파라미터가 인코더 측 및 디코더 측 둘 모두에서 사용된다. 따라서, 예를 들어, 인코더는 디코더가 동일한 특정 파라미터를 사용할 수 있도록 디코더에 특정 파라미터를 송신할 수 있다(명시적 시그널링). 반대로, 디코더가 이미 특정 파라미터뿐만 아니라 다른 것들을 갖고 있다면, 단순히 디코더가 특정 파라미터를 알고 선택할 수 있게 하기 위해 송신 없이 시그널링이 사용될 수 있다(암시적 시그널링). 임의의 실제 기능들의 송신을 회피함으로써, 다양한 실시예들에서 비트 절약이 실현된다. 시그널링은 다양한 방식들로 달성될 수 있다는 것이 이해되어야 한다. 예를 들어, 하나 이상의 신택스 요소들, 플래그들 등이 다양한 실시예들에서 대응하는 디코더에 정보를 시그널링하는 데 사용된다. 전술된 표현이 단어 "신호"의 동사 형태와 관련되지만, 단어 "신호"는 또한 본 명세서에서 명사로서 사용될 수 있다.
당업자에게 명백할 바와 같이, 구현들은, 예를 들어 저장되거나 전송될 수 있는 정보를 반송하도록 포맷화된 다양한 신호들을 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어들, 또는 기술된 구현예들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 비트스트림을 반송하도록 포맷화될 수 있다. 그러한 신호는, 예를 들어, 전자기파로서(예를 들어, 스펙트럼의 무선 주파수 부분을 사용함) 또는 기저대역 신호로서 포맷화될 수 있다. 포맷화는, 예를 들어, 데이터 스트림을 인코딩하는 것, 및 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수 있다. 신호가 반송하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는, 알려진 바와 같이, 다양한 상이한 유선 또는 무선 링크들을 통해 전송될 수 있다. 신호는 프로세서 판독가능 매체에 저장될 수 있다.
양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및/또는 업샘플링을 위한 시스템, 방법 및 수단이 개시된다. 예에서, 포인트 기반 좌표 정제가 제공될 수 있다. 애프터-디코더 포인트 클라우드 정제 모듈(예를 들어, 조대 포인트 클라우드 정제 모듈)은 다음 중 하나 이상을 포함할 수 있다. 모듈은 포인트 클라우드의 조대 또는 디코딩된 양자화된 버전에 액세스하는 것을 포함할 수 있다. 모듈은 포인트(들) 각각의 이웃 영역 내에서 포인트(들)에 액세스하는 것 및/또는 포인트(들)를 인출하는 것을 포함할 수 있다. 모듈은, 예를 들어, 예컨대 세부사항들(예를 들어, 복잡한 세부사항들)을 요약하는, 인출된 포인트들의 복셀화된 버전에 기초하여, 컨볼루션 기반 신경망 모듈을 사용하여 특징을 계산하는 것을 포함할 수 있다. 다른 특징은, 예를 들어, 예컨대 세부사항들(예를 들어, 복잡한 세부사항들)을 요약하는, 인출된 포인트들의 3차원(3D)(예컨대, 또는 KD) 위치(들)에 기초하여, 포인트 기반 신경망 모듈을 사용하여 계산될 수 있다. 예에서, 특징(들)은 포괄적인 특징을 구성하도록 연결될 수 있다. 현재 포인트에 대한 정제 오프셋이 완전히 연결된(FC) 모듈을 사용하여 포괄적인 특징화에 기초하여 예측될 수 있다.
예에서, 좌표 업샘플링이 제공될 수 있다. 애프터-디코더 포인트 클라우드 업샘플링 모듈(예를 들어, 조대 포인트 클라우드 업샘플링 모듈)은 다음 중 하나 이상을 포함할 수 있다. 포인트 클라우드의 디코딩된 양자화된 버전(예를 들어, 조대 포인트 클라우드)이 액세스될 수 있다. 모듈은 포인트들 각각의 이웃 영역 내에서 포인트(들)에 액세스하는 것 및/또는 포인트(들)를 인출하는 것을 포함할 수 있다. 특징(예를 들어, 하이브리드 특징)이 인출된 포인트(들)에 기초하여 신경망 모듈을 사용하여 계산될 수 있다. 현재 포인트에 대한 새로운 포인트들에 대한 오프셋들이 계산된 특징을 사용하여 FC 모듈을 통해 예측될 수 있다.
많은 실시예들이 본 명세서에서 설명된다. 실시예들의 특징들이 다양한 청구항 카테고리들 및 유형들에 걸쳐 단독으로 또는 임의의 조합으로 제공될 수 있다. 또한, 실시예들은 예를 들어 다음 중 임의의 것과 같은, 다양한 청구항 카테고리들 및 유형들에 걸쳐, 단독으로 또는 임의의 조합으로, 본 명세서에 설명된 특징들, 디바이스들, 또는 태양들 중 하나 이상을 포함할 수 있다.
예시적인 디코더(300)와 같은 디코더로서, 상기 디코더는, 포인트 클라우드 컴포넌트들과 연관된 요소들, 속성들, 및 메타데이터를 나타내는 (예를 들어, 본 명세서에 기술된 바와 같은) 신호들을 수신하고, 디코딩하고, 해석하고; 미디어 프레젠테이션 디스크립터(MPD) 내에서 포인트 클라우드 스트림들 및 그들의 컴포넌트 서브 스트림들을 식별하고; 포인트 클라우드 및/또는 컴포넌트들의 버전들을 식별하고; MPD를 디코딩하여, 기하구조 기반 포인트 클라우드 압축(G-PCC) 콘텐츠에서 G-PCC 컴포넌트들을 식별하기 위해 메인 적응 세트 및 다른 적응 세트들을 식별하고; MPD를 디코딩하여, 적응 세트 또는 표현에서 포인트 클라우드 컴포넌트의 유형을 식별하고; MPD를 디코딩하여, 하나 이상의 사전 선택들을 식별하고; MPD를 디코딩하여, G-PCC 미디어의 하나 이상의 버전들을 식별하고; MPD를 디코딩하여, 하나 이상의 G-PCC 타일 그룹들을 식별하고; MPD를 디코딩하여, 적응 세트에서 G-PCC 컴포넌트에 대한 하나 이상의 타일 ID들을 식별하고; MPD를 디코딩하여, 공간 영역들의 하나 이상의 특성들 및 영역들과 G-PCC 타일들 사이의 매핑들, 공간 영역들의 특성들 및 영역들과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑들, 및/또는 공간 영역과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑을 식별하고; MPD를 디코딩하여, 동적 공간 영역들에 대한 시한 메타데이터 트랙을 식별하고 등등을 하도록 구성된다.
디코더에서 본 명세서에 기술된 예들을 가능하게 하기 위해 사용되는 엔트로피 디코딩, 역양자화, 역변환, 및 차동 디코딩 중 하나 이상을 포함하는 디코딩 도구들 및 기법들.
예시적인 인코더(200)와 같은 인코더로서, 상기 인코더는, 예를 들어, 포인트 클라우드 컴포넌트들과 연관된 요소들, 속성들, 및 메타데이터를 표시하는 (예를 들어, 본원에 기술된 바와 같은) 신호들을 생성하고, 인코딩하고, 전송하고; MPD를 인코딩하여, 포인트 클라우드 스트림들 및 컴포넌트 서브 스트림들을 표시하고; MPD를 인코딩하여, 기하구조 기반 포인트 클라우드 압축(G-PCC) 콘텐츠에서 G-PCC 컴포넌트들의 식별을 지원하기 위해 메인 적응 세트 및 다른 적응 세트들을 표시하고; MPD를 인코딩하여, 적응 세트 또는 표현에서 포인트 클라우드 컴포넌트의 유형의 식별을 지원하고; MPD를 인코딩하여, 하나 이상의 사전선택들을 식별하고; MPD를 인코딩하여, G-PCC 미디어의 하나 이상의 버전들의 식별을 지원하고; MPD를 인코딩하여, 하나 이상의 G-PCC 타일 그룹들의 식별을 지원하고; MPD를 인코딩하여, 적응 세트에서 G-PCC 컴포넌트에 대한 하나 이상의 타일 ID들의 식별을 지원하고; MPD를 인코딩하여, 공간 영역들의 하나 이상의 특성들 및 영역들과 G-PCC 타일들 사이의 매핑들, 공간 영역들의 특성들 및 영역들과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑들, 및/또는 공간 영역과 G-PCC 컴포넌트들의 대응하는 적응 세트들 사이의 매핑의 식별을 지원하고; MPD를 디코딩하여, 동적 공간 영역들에 대한 시한 메타데이터 트랙을 식별하고 등등을 하도록 구성된다.
인코더에서 본 명세서에 기술된 예들을 가능하게 하기 위해 사용되는 양자화, 엔트로피 코딩, 역양자화, 역변환, 및 차동 코딩 중 하나 이상을 포함하는 인코딩 도구들 및 기법들.
예를 들어, 디코더가 본 명세서에 기술된 예들 중 임의의 것을 수행하는 것과 연관된 표시를 식별할 수 있게 하도록 시그널링에 삽입되는 신택스 요소(들).
예를 들어, 인코더가 본 명세서에 기술된 예들 중 임의의 것을 수행하는 것과 연관된 표시를 생성하거나 또는 인코딩할 수 있게 하도록 시그널링에 삽입되는 신택스 요소(들).
비트스트림 또는 신호는 본 명세서에 기술된 예들 중 임의의 것을 수행하는 것과 연관된 기술된 신택스 요소들 중 하나 이상, 또는 그들의 변형들을 포함할 수 있다.
기술된 신택스 요소들, 또는 이들의 변형들 중 하나 이상을 포함하는 비트스트림 또는 신호를 생성하고 그리고/또는 송신하고 그리고/또는 수신하고 그리고/또는 디코딩하기 위한 방법, 프로세스, 장치, 명령어들을 저장하는 매체, 데이터를 저장하는 매체, 또는 신호.
본 명세서에 기술된 예들 중 임의의 것에 따라, 생성하고 그리고/또는 송신하고 그리고/또는 수신하고 그리고/또는 디코딩하기 위한 방법, 프로세스, 장치, 명령어들을 저장하는 매체, 데이터를 저장하는 매체, 또는 신호.
본 명세서에 기술된 예들 중 임의의 것에 따라, 포인트 클라우드 스트리밍 서비스들에서의 포인트 클라우드 컴포넌트 서브스트림들과 같은, 기하구조 기반 포인트 클라우드들의 적응적 스트리밍을 수행하는 TV, 셋톱 박스, 휴대폰, 태블릿, 또는 다른 전자 디바이스.
본 명세서에 기술된 예들 중 임의의 것에 따라, 포인트 클라우드 스트리밍 서비스들에서의 포인트 클라우드 컴포넌트 서브스트림들과 같은, 기하구조 기반 포인트 클라우드들의 적응적 스트리밍을 수행하는, 그리고 생성된 이미지를 (예를 들어, 모니터, 스크린, 또는 다른 유형의 디스플레이를 사용하여) 디스플레이하는 TV, 셋톱 박스, 휴대폰, 태블릿, 또는 다른 전자 디바이스.
본 명세서에 기술된 예들 중 임의의 것에 따라, 인코딩된 이미지를 포함하는 신호를 수신하기 위한 채널을 (예를 들어, 튜너를 사용하여) 선택하는, 그리고 포인트 클라우드 스트리밍 서비스들에서의 포인트 클라우드 컴포넌트 서브스트림들과 같은, 기하구조 기반 포인트 클라우드들의 적응적 스트리밍을 수행하는 TV, 셋톱 박스, 휴대폰, 태블릿, 또는 다른 전자 디바이스.
본 명세서에 기술된 예들 중 임의의 것에 따라, 인코딩된 이미지를 포함하는 신호를 무선으로 (예를 들어, 안테나를 사용하여) 수신하는, 그리고 포인트 클라우드 스트리밍 서비스들에서의 포인트 클라우드 컴포넌트 서브스트림들과 같은, 기하구조 기반 포인트 클라우드들의 적응적 스트리밍을 수행하는 TV, 셋톱 박스, 휴대폰, 태블릿, 또는 다른 전자 디바이스.
포인트 클라우드 압축 및/또는 신호들의 압축, 분석, 보간, 표현 및/또는 이해를 위한 도구들이 개발 및/또는 사용될 수 있다.
포인트 클라우드 데이터는 포맷과 연관될 수 있다. 포인트 클라우드는, 예를 들어 이를테면 자율 주행, 로봇 공학, 증강 현실/가상 현실(AR/VR), 토목 공학, 컴퓨터 그래픽, 애니메이션/영화 산업 등으로부터의, (예를 들어, 다수의) 비즈니스 도메인들에 걸쳐 사용되는 (예를 들어, 범용) 데이터 포맷과 연관될 수 있다. 3차원(3D) 광 검출 및 레인징(LiDAR) 센서들이 디바이스들, 예를 들어, 자율 주행 자동차, 퍼스널 컴퓨팅 디바이스, LiDAR 카메라 등에 배치될 수 있다. 3D 포인트 클라우드 데이터는 (예를 들어, 감지 기술에 있어서의 진보에 따라) 보다 실용적이 될 수 있으며, 본 명세서에서 설명된 애플리케이션들을 가능하게 할 것으로 예상될 수 있다.
포인트 클라우드 데이터는, 예를 들어 네트워크를 통해 그리고/또는 몰입형 통신(예를 들어, VR/AR)을 통해 연결된 자동차들 사이에서, 네트워크 트래픽의 대부분을 소비할 수 있다. 효율적인 표현 포맷(들)이 포인트 클라우드 이해 및/또는 통신을 위해 사용될 수 있다. 예를 들어, 원시 포인트 클라우드 데이터는, 예를 들어 세계 모델링 및/또는 감지를 위해, 조직화 및/또는 처리될 수 있다. 예를 들어 데이터의 저장 및/또는 송신이 본 명세서에서 설명된 바와 같이 사용되는 경우, 원시 포인트 클라우드(들)에 대한 압축이 사용될 수 있다.
포인트 클라우드(들)는 다수의 움직이는 객체를 포함할 수 있는, 동일한 장면의 순차적 스캔을 표현할 수 있다. 포인트 클라우드들은 정적 장면 및/또는 정적 객체들로부터 캡처된 정적 포인트 클라우드들과 비교하여 동적 포인트 클라우드들로 지칭될 수 있다. 동적 포인트 클라우드들은 프레임들로 조직화될 수 있으며, 이때 상이한 프레임들은 상이한 시간에서 캡처된다. 동적 포인트 클라우드들은 처리 및/또는 압축이 실시간이고/이거나 낮은 지연을 가질 것을 요구할 수 있다.
포인트 클라우드 데이터는 본 명세서에서 설명된 바와 같이 사용될 수 있다. 포인트 클라우드들은 예를 들어 자동차 산업 및/또는 자율주행 자동차 산업에서 사용될 수 있다. 자율주행 자동차들은 그들의 바로 인접한 주변의 현실에 기초하여 올바른 주행 결정을 내리기 위해 그들의 환경을 프로브(probe)할 수 있다(예를 들어, 프로브하는 것이 가능할 수 있다). (예를 들어, LiDAR와 같은) 센서들은 인식 엔진에 의해 사용될 수 있는 포인트 클라우드들(예를 들어, 동적 포인트 클라우드들)을 생성할 수 있다. 포인트 클라우드들 중 적어도 일부는 인간 눈에 의해 관찰되도록 의도되지 않을 수 있으며, 그들은 희소하고, 착색되지 않고, 그리고/또는 높은 캡처 빈도로 동적일 수 있다. 포인트 클라우드들은 예를 들어 LiDAR에 의해 제공되는 반사율과 같은 다른 속성들을 가질 수 있는데, 그 이유는 이러한 속성이 감지된 객체의 재료를 나타내고 결정을 하는 데 도움을 줄 수 있기 때문이다.
VR 및 몰입형 세계는 2차원(2D) 플랫 비디오(예를 들어, 그의 미래)에서 사용될 수 있다(예를 들어, 그에 포함될 수 있다). VR 및 몰입형 세계는, 예를 들어, 시청자가 시청자 앞의 가상 세계만을 보는 것이 가능할 수 있는 표준 텔레비전(TV)과는 대조적으로 시청자 주변의 그리고/또는 시청자를 포함하는 환경에 시청자를 몰입시킬 수 있다. 환경에서의 시청자의 자유도에 따라 몰입도에 있어서 다수의 계조(gradation)가 있을 수 있다. 포인트 클라우드는 VR 세계들을 분포시키기 위한 실용적인 포맷 후보일 수 있다. 포인트 클라우드들은 정적 또는 동적일 수 있고, (예를 들어, 한 번에 수백만개 이하의 포인트의) 평균 크기를 가질 수 있다.
포인트 클라우드들은 문화 유산/건물들에 대해 사용될 수 있으며, 여기서 조각상들 및/또는 건물들과 같은 객체들은 그것을 보내거나 그것에 방문함이 없이 객체의 공간 구성을 공유하기 위해 3D로 스캐닝된다. 이것은 객체가 파괴되는 경우에, 예를 들어 지진에 의해 사원이 파괴되는 경우에 객체에 대한 지식을 보존하는 것을 보장하는 방법일 수 있다. 포인트 클라우드는 정적이고, 착색되고, 그리고/또는 거대할 수 있다.
포인트 클라우드는, 3D 표현을 사용하여, 맵이 릴리프(relief)를 포함할 수 있는(예를 들어, 평면으로 제한되지 않을 수 있는) 토포그래피(topography) 및/또는 카토그래피(cartography)에 있을 수 있다. 3D 맵은, 예를 들어 포인트 클라우드 대신에 또는 그에 더하여, 메시를 사용할 수 있다. 포인트 클라우드는 3D 맵을 위한 적합한 데이터 포맷일 수 있다. 포인트 클라우드는 정적이고, 착색되고, 그리고/또는 거대할 수 있다.
포인트 클라우드들을 통한 세계 모델링 및/또는 감지는 머신들이 그들 주위의 3D 세계에 관한 지식을 얻도록 허용할 수 있으며, 이는 (예를 들어, 본 명세서에서 설명되는 바와 같이) 애플리케이션들에 의해 사용될 수 있다.
3D 포인트 클라우드 데이터는 객체 및/또는 장면의 표면 상에 하나 이상의 별개의 샘플(들)을 포함할 수 있다. 예에서, 포인트 샘플로 현실 세계를 완전히 표현하는 것은 많은 수의 포인트를 사용할 수 있다. 예를 들어, VR 몰입형 장면은 많은 수의(예를 들어, 수백만 개의) 포인트를 포함할 수 있는 반면, 포인트 클라우드는 더 많은 수의(예를 들어, 수억 개의) 포인트를 포함할 수 있다. 그러한 대규모 포인트 클라우드의 처리는, 특히 소비자 디바이스(예컨대, 제한된 계산 능력을 가질 수 있는, 스마트폰, 태블릿, 및 자동차 내비게이션 시스템)의 경우, 계산적으로 비용이 많이 들 수 있다.
포인트 클라우드의 처리 및/또는 추론은 효율적인 저장 기법을 사용할 수 있다. 예들(예를 들어, 알맞은 계산 비용으로 입력 포인트 클라우드를 저장 및 처리하는 것과 연관된 예들)에서, 기법은 (예를 들어, 먼저) 포인트-클라우드를 다운샘플링하는 것을 포함할 수 있으며, 여기서 다운샘플링된 포인트 클라우드는, 예를 들어 훨씬 더 적은 포인트를 가지면서, 입력 포인트 클라우드의 기하구조를 요약한다. 다운샘플링된 포인트 클라우드는 소비를 위해 후속 머신 작업에 공급될 수 있다. 저장 공간에 있어서의 추가 감소는, 무손실 압축을 위해 엔트로피 코딩 기술들을 통해 (예컨대, 오리지널 또는 다운샘플링된) 원시 포인트 클라우드 데이터를 비트스트림으로 변환함으로써 달성될 수 있다. 엔트로피 모델은 더 작은 비트스트림 및 효율적인 압축을 야기할 수 있다. 엔트로피 모델은 예를 들어 다운스트림 작업과 페어링될 수 있으며, 이는 엔트로피 인코더가 압축하면서 작업 특정 정보를 유지할 수 있게 할 수 있다.
무손실 코딩에 더하여, 시나리오는 품질 레벨들 하에서 유도된 왜곡을 유지하면서 개선된 압축비에 대해 손실 코딩을 추구할 수 있다.
옥트리 기반 포인트 클라우드 압축이 사용될 수 있다. 포인트 클라우드는 옥트리 분해 트리를 통해 표현될 수 있다. 루트 노드는 경계 상자 내의 전체 공간을 덮을 수 있다. 공간은 상이한(예를 들어, 모든) 방향들(예를 들어, x, y 및 z 방향)에서 동등하게 분할될 수 있으며, 이는 8개의 복셀로 이어진다. 복셀(예를 들어, 각각의 복셀)에 대해 (예를 들어, 하나 이상의 포인트(들)가 있는 경우) 복셀은 점유되는 것으로 마킹될 수 있는데, 예를 들어 '1'에 의해 표현될 수 있고; 그렇지 않으면, 그것은 비어 있는 것으로 마킹될 수 있는데, 예를 들어, '0'에 의해 표현될 수 있다. 루트 복셀 노드는 8 비트 값에 의해 설명될 수 있다.
점유된 복셀(예를 들어, 각각의 점유된 복셀)에 대해, 그의 공간은 8개의 자식 복셀로 추가로 분할될 수 있다(예를 들어, 옥트리의 다음 레벨로 이동될 수 있다). 현재 복셀은, 예를 들어, 자식 복셀의 점유에 기초하여 8비트 값에 의해 추가로 표현될 수 있다.
점유된 복셀의 분할은, 예를 들어, 특정(예를 들어, 마지막) 옥트리 깊이 레벨까지 계속될 수 있다. 옥트리의 리프는 포인트 클라우드를 나타낼 수 있다. 인코더 측에서, 옥트리 노드(예컨대, 노드 값)는 비트스트림을 생성하기 위해 엔트로피 코더로 전송될 수 있다. 디코더는 디코딩된 옥트리 노드 값을 사용하여 옥트리 구조를 재구성할 수 있고, 예를 들어, 옥트리 구조의 리프 노드에 기초하여 포인트 클라우드를 재구성할 수 있다.
예에서, 옥트리 노드를 효율적으로 엔트로피 코딩하기 위해, 확률 분포 모델이 더 높은 확률로 나타나는 옥트리 노드 값에 대해 더 짧은 심볼을 할당하는 데 이용될 수 있다.
포인트 클라우드 데이터의 옥트리 기반 코딩은 상이한 비트레이트 요건들에 대한 동일한 포인트 클라우드의 다수의 양자화된 버전을 야기할 수 있다. 양자화된 버전은 오리지널 포인트 클라우드보다 더 적은 포인트를 포함할 수 있으며, 그 비트레이트에 대한 최종 재구성으로 간주될 수 있다. 추가적인 비트레이트 비용을 발생시킴이 없이 포인트 클라우드의 품질을 개선하기 위해 양자화된 재구성을 정제하는 것이 본 명세서에서 제공될 수 있다.
학습-기반 좌표 정제 및 업샘플링이 수행(예를 들어, 제공)될 수 있다. 좌표 정제는 입력 포인트 클라우드의 양자화된 버전이 수반되는 경우(예를 들어, 수반될 때) 손상될 수 있다. 예에서, 포인트 클라우드의 양자화된 버전은 낮은 비트레이트에서 손실 압축 동안 획득될 수 있다. 산술 코딩 기법에 순종하는 정수 좌표 위치(들)를 획득하기 위해, 양자화가 입력 포인트 클라우드에 대해, 예를 들어 압축 전에(또는 압축 동안) 수행될 수 있다(예컨대, 행해질 수 있다). 포인트 클라우드와 연관된 더 미세한 세부사항들(예를 들어, 복잡한 세부사항들)은 양자화의 결과로서 상실될 수 있다. 세부사항들은 예를 들어 포인트별로 동작하는 좌표 정제 기법을 사용하여 복구될 수 있다. 하나의 그러한 학습 기반 기법이 (예를 들어, 도 5에 예시된 바와 같은) VoxelContextNet에서 제시되었을 수 있다. 학습-기반 기법은 하나 이상의 양자화된 포인트(예를 들어, 각각의 양자화된 포인트)의 위치를 정제하는 데 사용된 국소 표면 형상에 대한 특징(들)을 획득하기 위해 공간 이웃 복셀들에 걸쳐 3D 컨볼루션들을 사용할 수 있다. 좌표 정제 네트워크는 오리지널 포인트 클라우드를 참조하여 평균 제곱 오차(MSE) 손실로 훈련될 수 있으며, 둘 사이의 일치의 메트릭으로서 서빙될 수 있다.
학습-기반 업샘플링이 수행될 수 있다(예를 들어, 3D 스캐닝으로부터 얻어진 포인트 클라우드 데이터가 희소하고 불균일하게 분포될 수 있기 때문에). 업샘플링은 희소 포인트 클라우드로부터 조밀한 포인트 세트의 생성을 유발할 수 있다. 예에서, 이러한 결과를 달성하기 위해, 예를 들어, 업샘플링을 위해 전체 포인트 클라우드 또는 포인트 클라우드로부터의 패치에 대해 동작할 수 있는 컨볼루션, 그래프 컨볼루션, GAN(Generative Adversarial Network) 등과 같은, 다수의 유형의 아키텍처가 사용될 수 있다.
포인트 기반 좌표 정제 모듈(예를 들어, PointCRM)이 사용될 수 있다. 양자화된 포인트 클라우드의 좌표는, 예를 들어, 심층 학습 기반 정제(예를 들어, 심층 학습 기반 정제 모듈)를 사용하여(예를 들어, 그를 통해) 정제될 수 있다. 심층 학습 기반 정제(예를 들어, 모듈)는 국소 표면을 특성화하는 특징 디스크립터를 추출하는 데 이용될 수 있다. VoxelContextNet에서의 CRM과는 대조적으로, 이웃의 노드를 나타내기 위해 이진 복셀화된 이웃을 만드는 대신에, 예를 들어 이웃의 노드의 3D 위치가 고려될 수 있다. CRM은 복셀화된 이웃으로부터의 특징 추출을 위해 3D 컨볼루션을 사용할 수 있다. 3D 컨볼루션 기반 아키텍처가 예를 들어 3D 공간에서 반복 가능한 패턴에 대해 사용될 수 있지만, 장면 내의 세부사항을 놓칠 수 있다. CRM(예를 들어, PointCRM으로서 참조됨)은, 예를 들어, 세부사항을 추출하는 데 적합할 수 있는 다층 인식(MLP) 기반 아키텍처를 사용할 수 있다.
기본적인 PointCRM 아키텍처가 제공 및/또는 사용될 수 있다. PointCRM은, 예를 들어, MLP 아키텍처를 이용하는 포인트 기반 신경망을 통해 배치될 수 있다. 예에서, 도 6에 도시된 바와 같이 MLP 기반 특징 f를 출력할 수 있는 세트 추상화(SA) 모듈이 사용될 수 있다. 도 6은 기본적인 포인트 기반 좌표 정제 모듈(예를 들어, PointCRM)의 예를 도시한다. 포인트-기반 네트워크는 표면 내의 복잡한 구조들을 표현하는 데 사용될 수 있다(예를 들어, 표현하는 것이 가능할 수 있다). PointCRM은 (예를 들어, 현재 양자화된 포인트의 이웃으로부터의 것인) 포인트 세트 Vi를 입력으로서 취할 수 있다. Vi는 현재 양자화된 포인트에 대한 이웃하는 양자화된 포인트들의 3D 위치들의 형태로 제공될 수 있다. 출력 특징 f는 하나 이상의 양자화된 포인트(들)(예를 들어, 각각의 양자화된 포인트)에 대한 좌표 정제를 생성하기 위해 추가 계층들을 통해 처리될 수 있다.
도 6에 도시된 바와 같은 포인트 기반 아키텍처의 설계를 위해, 네트워크는 3개의 SA 계층에 이어서 4개의 완전 연결(FC) 계층으로 구성될 수 있다. 도 6은 하나 이상의 계층(예를 들어, 각각의 계층)의 구성을 예시한다. 도 6에 도시된 바와 같이, SA(64,0.2,8)은 입력 포인트들(예를 들어, 모든 입력 포인트들)이 8개의 최근접 이웃을 사용함으로써 각각이 0.2의 이웃 반경을 갖는, 64개의 포인트로서 추상화되는 것을 나타낼 수 있다. SA(1024)는 포인트들(예를 들어, 모든 포인트들)이 크기 1024의 특징 벡터를 갖는 단일 포인트로서 추상화되는 것을 나타낼 수 있다. FC(128)은 출력 크기 128을 갖는 완전 연결된 계층을 나타낼 수 있다. 마지막 FC 계층은, 예를 들어, 양자화된 포인트 위치에 대한 예측된 오프셋/정제에 대응하는 크기 3의 출력을 가질 수 있다. 예측된 오프셋은, 예를 들어, 업데이트된 위치를 얻기 위해 양자화된 포인트 위치에 추가될 수 있다. 업데이트된 위치는 오리지널 포인트 클라우드와 비교할 때 재구성 품질을 개선할 수 있다.
다중 해상도 그룹화(MRG)-향상 PointCRM 아키텍처가 사용 및/또는 제공될 수 있다. 기본적인 PointCRM 모듈은 도 7에 도시된 바와 같이 MRG 전략에 의해 향상(예를 들어, 개선)될 수 있다. 도 7은 다중 해상도 그룹화-향상(MRG-향상) PointCRM의 예를 도시한다. MRG 전략으로, 추상화 레벨들에 걸친 특징들이 함께 연결되어 출력 특징 f를 형성할 수 있다.
다중 스케일 그룹화(MSG)-향상 PointCRM 아키텍처가 제공될 수 있다. 예에서, PointCRM은 도 8에 도시된 바와 같이 MSG 전략을 사용하여 향상될 수 있다. 도 8은 다중 스케일 그룹화-향상(MSG-향상) PointCRM의 예를 도시한다. MSG 전략으로, 특징들이 동일한 추상화 레벨에서 상이한 스케일들로부터 추출 및 결합되어 출력 특징 f를 형성할 수 있다.
하이브리드 PointCRM 아키텍처(PVCRM)가 제공될 수 있다. 예에서, PointCRM은 도 9에 도시된 바와 같이 하이브리드 전략을 사용하여 향상될 수 있다. 도 9는 하이브리드 아키텍처의 예를 도시한다. VN은 복셀 기반 컨볼루션 브랜치를 지칭할 수 있고, PN은 포인트 기반 MLP 브랜치를 지칭할 수 있다. 하이브리드 전략으로, 특징들을 컨볼루션-기반(예를 들어, 도 10에 도시된 바와 같은) 및 포인트-기반 브랜치들로부터 병렬로 추출 및 결합되어 출력 특징 f를 형성할 수 있다. 도 10은 컨볼루션 기반 브랜치의 예를 도시한다.
포인트 기반 업샘플링 모듈(PointUPM)이 제공될 수 있다. CRM은 양자화된 포인트 클라우드 내의 디코딩된 포인트(예를 들어, 각각의 디코딩된 포인트)의 위치를 정제할 수 있다. 예를 들어, 포인트 클라우드는 조대 포인트 클라우드일 수 있다. 양자화된 포인트 클라우드 내의 포인트들의 수는, 예를 들어, 단지 포인트 위치들을 정제함으로써 달성될 수 있는 피크 신호-대-잡음비(PSNR)에 상한을 둘 수 있는 오리지널 포인트 클라우드(예를 들어, 조대 포인트 클라우드) 내의 포인트들의 수보다 적을 수 있다(예를 들어, 이하일 수 있다). 예를 들어, 조대 포인트 클라우드는 더 얇은 포인트 클라우드(예를 들어, 오리지널 포인트 클라우드 내의 포인트들의 수보다 적은 수를 포함함)일 수 있다. 포인트 클라우드는, 예를 들어, 코딩에 기초하여 조대할 수 있다. 포인트 클라우드는, 예를 들어, 오리지널 포인트 클라우드로부터 몇몇 포인트들을 잃는 것에 기초하여 조대할 수 있다. 포인트들은 양자화된 포인트 클라우드 내의 디코딩된 포인트(예를 들어, 각각의 디코딩된 포인트)에 대해, 예를 들어, 특히 더 많은 양자화를 갖는 더 낮은 비트레이트에서 추가될 수 있다(예를 들어, 포인트들을 추가하는 것이 더 나을 수 있다). (예를 들어, CRM에서와 같이 하나 대신에) 다수의 오프셋을 예측하는 포인트 기반 업샘플링 모듈이 정제된 위치들을 갖는 다수의 포인트를 추가하는 데 사용될 수 있다. UPM 내의 제1 헤드는 (예를 들어, CRM과 유사하게) 다음 중 하나 이상일 수 있다: 3D CNN-기반 UPM, SA-기반 PointUPM, MRG-향상 PointUPM, MSG-향상 PointUPM, 또는 하이브리드 PointUPM.
기본적인 UPM 아키텍처가 사용 및/또는 제공될 수 있다. 기본적인 UPM 아키텍처에서, 네트워크 내의 마지막 계층은 3k개의 값을 출력할 수 있으며, 여기서 k는 원하는 업샘플링 비율의 값이다. k=1을 갖는 것은 CRM 아키텍처를 나타낼 수 있고(예를 들어, 만들 수 있고), k>1을 갖는 것은 UPM 아키텍처를 나타낼 수 있다(예를 들어, 만들 수 있다)는 점에 유의한다. 도 11은 기본적인 포인트 기반 업샘플링 모듈(PointUPM)의 예를 도시한다.
정확한 포인트 매칭을 갖는 기본적인 UPM 아키텍처가 사용(예를 들어, 제공)될 수 있다. 예에서, UPM 아키텍처는 오리지널 입력 포인트 클라우드로서 정확한 수의 포인트를 출력하도록 향상(예를 들어, 개선)될 수 있다. 이것을 달성하는 것은 비트스트림 내에서 양자화된 포인트(예를 들어, 각각의 양자화된 포인트)와 연관된 업샘플링된 포인트들의 수를 시그널링하는 것을 수반할 수 있다. 각각의 양자화된 포인트에 대한 업샘플링된 포인트들의 수 u를 이용하여, UPM에서의 최종 FC 계층의 아키텍처는 u개의 별개의 포인트를 생성하도록 수정될 수 있다. 특징 벡터 f의 u개의 사본이 만들어질 수 있으며, 예를 들어, 각각에는 범위 [0,u-1]의 인덱스가 첨부된다. 확장된 사본들은 FC 계층에 입력되어 u개의 새로운 포인트와 연관된 u개의 오프셋에 대응하는 3u개의 값을 생성할 수 있다. 도 12는 정확한 포인트 매칭을 갖는 기본적인 PointUPM의 예를 도시한다.
정확한 포인트 매칭을 갖는 폴딩-향상 UPM 아키텍처가 제공될 수 있다. 예에서, 최종 FC 계층은 업샘플링된(예를 들어, 새로운) 포인트(예를 들어, 각각의 업샘플링된/새로운 포인트)에 대한 오프셋을 생성하기 위해 FoldingNet으로 대체될 수 있다. 도 13은 폴딩-향상 PointUPM의 예를 도시한다.
예측 기반 UPM 아키텍처가 제공될 수 있다. 예에서, 업샘플링에 사용될 최적의 수 u'을 예측하는 추가적인 FC 헤드가 UPM 아키텍처에 추가될 수 있다. FC 헤드는, L1-손실과 함께, 각각의 양자화된 포인트에 대한 업샘플링된 포인트들의 수(예를 들어, 실제 수) u로 훈련될 수 있다. 이러한 UPM을 위한 아키텍처가 도 14에 도시되어 있다. 도 14는 예측 기반 UPM의 예를 도시한다.
추론 동안, 제1 FC 헤드는 고정된 수의 오프셋을 출력할 수 있으며, 그 중에서 u'개의 오프셋이, 예를 들어, 예측 FC 헤드의 출력에 기초하여 선택될 수 있다. 아키텍처는 추가적인 정보가 전달될 필요가 없게 할 수 있으며, 비트레이트 비용이 증가하지 않을 수 있다.
정확한 포인트 매칭을 갖는 잔차 코딩 기반 UPM 아키텍처가 제공될 수 있다. 예에서, 예측-기반 UPM 아키텍처는 업샘플링된 포인트들의 예측 수와 실제 수 사이의 잔차를 계산하는 데 사용될 수 있다. 잔차는 입력 포인트 클라우드로서의 정확한 포인트 수와 매칭시키기 위해 디코더 측에서 업샘플링된 포인트들의 오리지널 수를 획득하기 위해 비트스트림에 추가될 수 있다.
진보된 PointCRM 및/또는 PointUPM 아키텍처가 제공될 수 있다. PointCRM 및/또는 PointUPM 아키텍처는, 예를 들어, 모듈들(예를 들어, 기존 모듈들)을 마이크로-아키텍처들(예를 들어, 보다 진보된 마이크로-아키텍처들)과 스와핑함으로써 향상(예를 들어, 더욱 향상)될 수 있다. 아키텍처의 버전(예를 들어, 진보된 버전)은, 예를 들어, 옥트리 레벨들(예를 들어, 이전 옥트리 레벨들, 이미 디코딩된 옥트리 레벨들)로부터의 특징들을 고려함으로써 실현될 수 있다. 아키텍처들은, 예를 들어, 본 명세서에서 설명된 바와 같이 향상될 수 있다.
계층적 특징 전파가 수행될 수 있다. 도 15는 계층적 특징 전파의 예를 도시한다. (예를 들어, PointCRM 및 PointUPM 아키텍처들에 대한) 예들에서, 현재 디코딩된 레벨에서의 점유 정보가 위치 정제 및 업샘플링을 위해 사용된다(예를 들어, 점유 정보만이 사용된다). (예를 들어, 본 명세서에서 설명되는 바와 같은 모델들의 보다 진보된 버전에 대한) 예들에서, 이전 레벨(예를 들어, 부모, 이미 디코딩된 레벨)로부터의 특징들은, 예를 들어, 현재 옥트리 레벨의 해상도와 매칭되도록 업샘플링될 수 있다. 업샘플링된 특징들은, 예를 들어, 현재 레벨에서 포인트 정제를 예측하기 위해 자식 노드로 전파될 수 있다.
이전(예를 들어, 부모) 레벨로부터의 특징들은 현재 레벨에서 노드들에 대해 디코딩하는 경우(예를 들어, 디코딩할 때) 이용 가능할 수 있다(예를 들어, 이미 이용 가능할 수 있다). 부모 레벨로부터의 특징들은, 예를 들어, 현재 레벨에서 (예를 들어, 모든) 자식 노드들에 대한 독특한 특징들을 획득하기 위해 업샘플링될 수 있다. 이러한 업샘플링은, 예를 들어, 다음 중 하나 이상을 사용하여 행해질 수 있다(예를 들어, 수행될 수 있다): MLP 기반 모듈(예를 들어, 대응하는 자식 노드에 대한 특징을 출력하기 위해 자식 노드에 대응하는 특징 벡터 및 인덱스를 취할 수 있음); 규칙적 또는 희소 컨볼루션-기반 모듈(예를 들어, 부모 레벨에서 특징 맵(예를 들어, 모든 특징 맵, 전체 특징 맵)을 취하고, 현재 레벨에서 (예를 들어, 모든) 노드에 대한 특징을 갖는 업샘플링된 특징 맵을 출력할 수 있음) 등. 특징은, 예를 들어, MLP 또는 규칙적/희소 컨볼루션 기반 모듈을 통해, (예를 들어, 그의 이웃 점유 정보로부터 획득된) 현재 노드의 특징에 페어링(예를 들어, 연결 또는 추가)될 수 있다. 결합된 특징은, 예를 들어, 최종 심층 특징에 도달하기 위해 특징 집계기 아키텍처를 통해 전파(예를 들어, 다시 전파)될 수 있다. 심층 특징은 포인트 위치 업데이트를 출력하기 위해 FC 오프셋 예측 모듈에 의해 사용될 수 있다. 제안된 계층적 특징 전파의 묘사가 도 15에 도시되어 있다.
진보된 마이크로-아키텍처가 결정 및/또는 제공될 수 있다. 예를 들어, 예컨대 PointCRM 및 PointUPM에서 특징을 추출 및 전파하기 위해 MLP 및 컨볼루션 기반 계층을 사용하기보다는, 컨볼루션, 희소 컨볼루션, ResNet(예를 들어, 잔차 네트워크), 인셉션 ResNet, 및 트랜스포머(예를 들어, 어텐션 기반 모델(attention-based model)) 등과 같은 아키텍처(예를 들어, 더 진보된 아키텍처)가 특징을 추출 및 전파하는 데 사용될 수 있다. 예를 들어 소정 아키텍처들(예를 들어, 컨볼루션, 희소 컨볼루션, ResNet(잔차 네트워크), 인셉션 ResNet, 및 트랜스포머(어텐션 기반 모델)와 같은 더 진보된 아키텍처들)을 사용하여 향상된 특징 추출 집계 능력이 제공될 수 있다. 컨볼루션 기반 마이크로-아키텍처들(예를 들어, 모든 컨볼루션 기반 마이크로-아키텍처들)이 복셀 브랜치에서 사용될 수 있다. MLP 기반 마이크로-아키텍처들은 예를 들어 본 명세서에서 설명된 바와 같이 포인트 브랜치에서 사용될 수 있다.
예에서, 복셀 기반 특징 추출기는, 예를 들어, ReLU 활성화 기능(예컨대, 도 16에 도시된 바와 같이, 모든 3D 컨볼루션을 따름)을 갖는 컨볼루션 계층(들)(예를 들어, 일련의 희소 3D 컨볼루션 계층들)을 포함할 수 있다. 도 16은 희소 컨볼루션들에 기초한 예시적인 복셀 브랜치를 예시한다. CONV D는 D개의 출력 채널을 갖는 희소 3D 컨볼루션 계층을 나타낼 수 있다.
예에서, 특징 집계 모듈은 도 17에 도시된 바와 같이 ResNet 아키텍처를 취할 수 있다. 도 17은 희소 컨볼루션들로 구성된 ResNet에 기초한 예시적인 복셀 브랜치를 예시한다. ResNet 블록의 아키텍처는 D개의 채널로 특징들을 집계할 수 있다. 도 17은 컨볼루션 계층들의 출력이 추가된, 입력으로부터의 잔차 연결을 예시한다. 이러한 잔차 연결은, 예를 들어, 컨볼루션 아키텍처 대신에 MLP 기반 아키텍처를 위해 형성될 수 있다.
예에서, 특징 집계 모듈은 도 18에 도시된 바와 같이 인셉션-ResNet(IRN) 아키텍처를 취할 수 있다. 도 18은 희소 컨볼루션들로 구성된 인셉션 ResNet에 기초한 복셀 브랜치의 예(예를 들어, D개의 채널로 특징들을 집계하기 위한 IRN 블록의 예시적인 아키텍처)를 예시한다.
예에서, 특징 전파 모듈은 (예를 들어, 본 명세서에서 설명된 바와 같은 복셀 트랜스포머와 유사한) 트랜스포머 아키텍처의 형태를 취할 수 있다. 도 19는 트랜스포머 블록에 기초한 예시적인 포인트 브랜치의 다이어그램을 예시한다. 예시적인 트랜스포머 블록은 잔차 연결을 갖는 셀프-어텐션 블록(self-attention block), 및 잔차 연결을 갖는 MLP 블록(예를 들어, MLP 계층들로 이루어짐)을 포함할 수 있다. 도 19에 도시된 셀프-어텐션 블록의 블록도가 여기서 설명된다.
복셀 위치 A와 연관된 현재 특징 벡터 f A 및 복셀 위치들 Ai와 연관된 그의 이웃하는 k개의 특징 f Ai가 주어지면 - 여기서 Ai(예를 들어, 0 ≤ i ≤ k - 1)는 입력 희소 텐서 내의 Ak개의 최근접 이웃들임 -, 셀프-어텐션 블록은 모든 이웃하는 특징들 f Ai에 기초하여 특징 f A를 업데이트할 수 있다(예를 들어, 업데이트하려고 노력할 수 있다). 포인트 A i 는 예를 들어 A의 좌표에 기초하여 k개의 최근접 이웃(kNN) 검색에 의해 획득될 수 있다. A에 대한 쿼리 임베딩 Q A 는 식 1을 사용하여 계산될 수 있다.
[식 1]
QA = MLPQ(f A)
키 임베딩 K Ai 및 A의 (예를 들어, 모든) 최근접 이웃들의 값 임베딩 V Ai 는 예를 들어 식 2를 사용하여 계산될 수 있으며
[식 2]
KAi=MLPK (f Ai) +EAi, VAI = MLPV(fAi) + EAI, 0 ≤ i ≤ k - 1
여기서, MLPQ(·), MLPK(·), 및 MLPV(·)는 각각 쿼리, 키, 값을 획득하기 위한 MLP 계층들일 수 있고, EAi는 예를 들어 식 3을 사용하여 계산되는, 복셀 A와 Ai 사이의 위치 인코딩일 수 있으며
[식 3]
EAi = MLPP (PA - PAi),
여기서, MLPP(·)는 위치 인코딩을 획득하기 위한 MLP 계층들일 수 있고, PA 및 PAi는 3-D 좌표들(예를 들어, 각각, 복셀들 A 및 Ai의 중심들)일 수 있다. 셀프-어텐션 블록에 의한 위치 A의 출력 특징은 식 4를 사용하여 결정될 수 있으며
[식 4]
여기서, σ(·)는 Softmax 정규화 함수일 수 있고, d는 특징 벡터 fA의 길이일 수 있고, c는 미리 정의된 상수일 수 있다.
트랜스포머 블록은 (예를 들어, 동일한 방식으로) 희소 텐서 내의 (예를 들어, 모든) 점유된 위치들에 대한 특징을 업데이트할 수 있다. 트랜스포머 블록은 (예를 들어, 이어서) 업데이트된 희소 텐서를 출력할 수 있다. 예에서(예를 들어, 단순화된 예에서), MLPQ(·), MLPK(·), MLPV(·), 및 MLPP(·)는, 예를 들어, 선형 투영들에 대응할 수 있는 완전 연결 계층(예를 들어, 단 하나의 완전 연결 계층)을 포함할 수 있다.
예에서, 특징 집계 블록들(예를 들어, 여러 개의 특징 집계 블록들)은 성능을 더욱 향상시키기 위해 (예를 들어, 직렬로) 함께 캐스케이드될 수 있다. 특징 집계 블록들은 동일한 유형의 것, 예를 들어 트랜스포머 블록들일 수 있다(예를 들어, 그들 모두가 트랜스포머 블록들이다). 이 경우에, 그들의 신경망 계층들의 파라미터들은 공유되거나 공유되지 않을 수 있다. 특징 집계 블록들은 (예를 들어, 또한) 상이한(예를 들어, 적합한) 유형들의 특징 집계 블록들의 혼합, 예를 들어 IRN 블록들과 트랜스포머 블록들의 혼합일 수 있다.
포인트 클라우드 압축을 위한 인-루프 사용이 수행될 수 있다.
(예를 들어, 본 명세서에서 설명된 바와 같은) CRM이 출력되기 전에 포인트 클라우드 품질을 향상시키기 위해 (예를 들어, 후처리로서) 사용될 수 있다. CRM은, 예를 들어 동적 포인트 클라우드 압축을 위해 인터-예측이 배치되어야 하는 경우(예를 들어, 배치되어야 할 때), 인-루프 방식으로 기준 포인트 클라우드를 향상시키는 데 사용될 수 있다. CRM은 좌표 정제 또는 업샘플링을 행하기 위해 이전 섹션에서 제시된 접근법(예를 들어, 본 명세서에 설명된 바와 같은 임의의 접근법)을 나타낼 수 있다.
도 20은 동적 포인트 클라우드 압축을 위한 예시적인 인터-코딩 다이어그램을 예시한다. 기준 포인트 클라우드 프레임은, 예를 들어, 현재 포인트 클라우드 프레임을 인코딩하기 위해 제공될 수 있다. 둘 모두의 PC 프레임들은 모션 추정 모듈에 공급될 수 있다. 생성된 모션 벡터들은 잔차 정보를 출력할 수 있는 "예측" 모듈을 위해 제공될 수 있다. 모션 벡터들 및 잔차 정보는, 예를 들어, 비트스트림들에 인코딩될 수 있다. 도 21은 동적 포인트 클라우드 압축을 위한 인터-코딩을 위한 예시적인 디코더를 예시한다. 예시된 바와 같이, 모션 벡터들 및 잔차들은 디코딩될 수 있다(예를 들어, 먼저 디코딩될 수 있다). 모션 벡터들 및 잔차들은 기준 포인트 클라우드 프레임과 함께 보상 모듈에 공급될 수 있다. 현재 포인트 클라우드 프레임의 재구성이 출력으로서 생성될 수 있다.
(예를 들어, 본 명세서에서 설명된 바와 같은) CRM이 기준 포인트 클라우드 프레임을, 예를 들어 그것이 기준으로 사용되기 전에, 향상시킬 수 있다. 도 22는 예시적인 업데이트된 인터-코딩 다이어그램을 예시한다. 도 22에 도시된 바와 같이, 인코더는 향상된 기준 PC에 기초하여 인터-예측을 사용할 수 있다. 기준 포인트 클라우드 프레임은 (예를 들어, 본 명세서에서 설명된 바와 같은) CRM 모듈에 의해 처리될 수 있다. 향상된 기준 포인트 클라우드는 모션 추정을 수행하기 위해 오리지널 기준 포인트 클라우드를 대체할 수 있다. 동일한 업데이트가 도 23에 예시된 바와 같이 업데이트된 디코더에서 사용될 수 있다. 도 23은 향상된 기준 PC에 기초하여 인터-예측을 사용하는 예시적인 디코더를 예시한다.
포인트 클라우드 데이터에 대한 코딩 기법은 각각의 비트레이트에서 오리지널 포인트 클라우드의 양자화된 그리고/또는 다운샘플링된 재구성을 생성할 수 있다. 예에서, 예를 들어 포인트 클라우드 데이터가 매끄러운 표면들을 갖는 현실 세계 객체들을 나타내기 때문에, 각각의 양자화된 재구성은 포인트 좌표(예를 들어, 각각의 포인트 좌표)의 추가 정제를 위해 사용될 수 있는 국소 표면 정보를 포함할 수 있다. 국소 정보는 재구성 품질의 개선을 위해 포인트 클라우드를 업샘플링하는 데 활용될 수 있다. 국소 양자화된 표면을 분석함으로써 본 명세서에 설명된 바와 같은 좌표 정제 및 업샘플링을 달성하기 위한 다수의 아키텍처가 제공될 수 있다.
이미 디코딩된 해상도(예를 들어, 옥트리 레벨)로부터의 계층적 특징 전파는, 예를 들어, 부모 레벨로부터 특징들을 업샘플링하여, 예를 들어 (예를 들어, 추가 특징 집계 전에) 그들을 현재 레벨의 해상도로 되게 함으로써 수행될 수 있으며, 예를 들어, 이는 현재(예를 들어, 레벨) 특징의 풍부도를 (예를 들어, 더욱) 개선할 수 있다.
특징들 및 요소들이 특정 조합들로 위에서 설명되지만, 당업자는 각각의 특징 또는 요소가 단독으로 또는 다른 특징들 및 요소들과의 임의의 조합으로 사용될 수 있다는 것을 알 것이다. 또한, 본 명세서에서 설명된 방법들은 컴퓨터 또는 프로세서에 의한 실행을 위해 컴퓨터 판독가능 매체에 통합된 컴퓨터 프로그램, 소프트웨어 또는 펌웨어로 구현될 수 있다. 컴퓨터 판독가능 매체들의 예들은 (유선 또는 무선 연결을 통해 송신되는) 전자 신호들 및 컴퓨터 판독가능 저장 매체들을 포함한다. 컴퓨터 판독가능 저장 매체들의 예들은 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 레지스터, 캐시 메모리, 반도체 메모리 디바이스들, 내부 하드 디스크들 및 탈착식 디스크들과 같은 자기 매체들, 광자기 매체들, 및 CD-ROM 디스크들 및 디지털 다기능 디스크(DVD)들과 같은 광학 매체들을 포함하지만, 이것으로 제한되지 않는다. 소프트웨어와 연관된 프로세서는 WTRU, UE, 단말, 기지국, RNC, 및/또는 임의의 호스트 컴퓨터에서 사용하기 위한 라디오 주파수 트랜시버를 구현하는 데 사용될 수 있다.

Claims (18)

  1. 디바이스로서,
    프로세서를 포함하며, 상기 프로세서는,
    조대 포인트 클라우드(coarse point cloud)를 획득하고 - 상기 조대 포인트 클라우드는 현재 포인트를 포함함 -;
    상기 조대 포인트 클라우드의 상기 현재 포인트와 연관된 이웃하는 포인트들의 세트를 결정하고;
    상기 현재 포인트와 연관된 제1 특징을 결정하고 - 상기 제1 특징은 포인트-기반 신경망 기법을 사용하여 결정됨 -;
    상기 제1 특징에 기초하여 상기 현재 포인트와 연관된 오프셋을 예측하도록 구성되는, 디바이스.
  2. 제1항에 있어서, 상기 포인트-기반 신경망 기법은 상기 이웃하는 포인트들의 세트의 포인트-기반 표현을 사용하는, 디바이스.
  3. 제2항에 있어서, 상기 이웃하는 포인트들의 세트의 상기 포인트-기반 표현은 상기 이웃하는 포인트들의 세트의 3D 또는 KD 위치들과 연관되는, 디바이스.
  4. 제1항에 있어서, 상기 프로세서는,
    포인트-기반 신경망을 배치하도록 추가로 구성되며, 상기 포인트-기반 신경망 기법은 상기 포인트-기반 신경망을 사용하는, 디바이스.
  5. 제1항에 있어서, 상기 제1 특징은 객체의 복잡한 세부사항들과 연관된 정보를 포함하는, 디바이스.
  6. 제1항에 있어서, 상기 프로세서는,
    객체와 연관된 제2 특징을 결정하고 - 상기 제2 특징은 복셀-기반 신경망 기법을 사용하여 결정됨 -;
    상기 제1 특징과 상기 제2 특징을 결합된 특징으로 결합하도록 추가로 구성되며, 상기 현재 포인트와 연관된 상기 오프셋은 상기 결합된 특징에 기초하여 추가로 예측되는, 디바이스.
  7. 제6항에 있어서, 상기 복셀-기반 신경망 기법은 상기 이웃하는 포인트들의 세트의 복셀화된 버전을 사용하고, 상기 복셀-기반 신경망 기법은 컨볼루션 신경망을 사용하는, 디바이스.
  8. 제1항에 있어서, 상기 프로세서는,
    상기 조대 포인트 클라우드에 기초하여 업샘플링된 포인트를 생성하고;
    상기 제1 특징에 기초하여 상기 업샘플링된 포인트와 연관된 오프셋을 예측하도록 추가로 구성되는, 디바이스.
  9. 제1항에 있어서, 상기 프로세서는,
    상기 조대 포인트 클라우드에 기초하여 업샘플링된 포인트를 생성하고;
    객체와 연관된 제2 특징을 결정하고 - 상기 제2 특징은 복셀-기반 신경망 기법을 사용하여 결정됨 -;
    상기 제1 특징과 상기 제2 특징을 결합된 특징으로 결합하고;
    상기 결합된 특징에 기초하여 상기 업샘플링된 포인트와 연관된 오프셋을 예측하도록 추가로 구성되는, 디바이스.
  10. 방법으로서,
    조대 포인트 클라우드를 획득하는 단계 - 상기 조대 포인트 클라우드는 현재 포인트를 포함함 -;
    상기 조대 포인트 클라우드의 상기 현재 포인트와 연관된 이웃하는 포인트들의 세트를 결정하는 단계;
    상기 현재 포인트와 연관된 제1 특징을 결정하는 단계 - 상기 제1 특징은 포인트-기반 신경망 기법을 사용하여 결정됨 -; 및
    상기 제1 특징에 기초하여 상기 현재 포인트와 연관된 오프셋을 예측하는 단계를 포함하는, 방법.
  11. 제10항에 있어서, 상기 포인트-기반 신경망 기법은 상기 이웃하는 포인트들의 세트의 포인트-기반 표현을 사용하는, 방법.
  12. 제11항에 있어서, 상기 이웃하는 포인트들의 세트의 상기 포인트-기반 표현은 상기 이웃하는 포인트들의 세트의 3D 또는 KD 위치들과 연관되는, 방법.
  13. 제10항에 있어서,
    포인트-기반 신경망을 배치하는 단계를 추가로 포함하며, 상기 포인트-기반 신경망 기법은 상기 포인트-기반 신경망을 사용하는, 방법.
  14. 제10항에 있어서, 상기 제1 특징은 객체의 복잡한 세부사항들과 연관된 정보를 포함하는, 방법.
  15. 제10항에 있어서,
    객체와 연관된 제2 특징을 결정하는 단계 - 상기 제2 특징은 복셀-기반 신경망 기법을 사용하여 결정됨 -; 및
    상기 제1 특징과 상기 제2 특징을 결합된 특징으로 결합하는 단계를 추가로 포함하며, 상기 현재 포인트와 연관된 상기 오프셋은 상기 결합된 특징에 기초하여 추가로 예측되는, 방법.
  16. 제15항에 있어서, 상기 복셀-기반 신경망 기법은 상기 이웃하는 포인트들의 세트의 복셀화된 버전을 사용하고, 상기 복셀-기반 신경망 기법은 컨볼루션 신경망을 사용하는, 방법.
  17. 제10항에 있어서,
    상기 조대 포인트 클라우드에 기초하여 업샘플링된 포인트를 생성하는 단계; 및
    상기 제1 특징에 기초하여 상기 업샘플링된 포인트와 연관된 오프셋을 예측하는 단계를 추가로 포함하는, 방법.
  18. 제10항에 있어서,
    상기 조대 포인트 클라우드에 기초하여 업샘플링된 포인트를 생성하는 단계;
    객체와 연관된 제2 특징을 결정하는 단계 - 상기 제2 특징은 복셀-기반 신경망 기법을 사용하여 결정됨 -;
    상기 제1 특징과 상기 제2 특징을 결합된 특징으로 결합하는 단계; 및
    상기 결합된 특징에 기초하여 상기 업샘플링된 포인트와 연관된 오프셋을 예측하는 단계를 추가로 포함하는, 방법.
KR1020247024424A 2022-01-10 2023-01-10 양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및 업샘플링 KR20240132303A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US63/297,894 2022-01-10
US63/417,226 2022-10-18

Publications (1)

Publication Number Publication Date
KR20240132303A true KR20240132303A (ko) 2024-09-03

Family

ID=

Similar Documents

Publication Publication Date Title
JP7406378B2 (ja) 360度ビデオ符号化のための適応的量子化
US20220191502A1 (en) Methods and apparatus for prediction refinement for decoder side motion vector refinement with optical flow
EP3939323A1 (en) Methods and systems for post-reconstruction filtering
US20240214558A1 (en) Interactions between neural network-based intra prediction modes and regular intra prediction modes
US20230276053A1 (en) Adaptive streaming of geometry-based point clouds
KR20240132303A (ko) 양자화된 포인트 클라우드 재구성으로부터의 좌표 정제 및 업샘플링
WO2023133350A1 (en) Coordinate refinement and upsampling from quantized point cloud reconstruction
CN118575195A (zh) 从量化点云重建进行坐标细化和上采样
KR20240132456A (ko) 묘사 맵 시그널링
WO2023122077A1 (en) Temporal attention-based neural networks for video compression
WO2023118254A1 (en) Delineation map signaling
WO2023118289A1 (en) Transform coding based on depth or motion information
EP4413731A1 (en) Cross-component depth-luma coding
EP4413736A1 (en) Motion vector coding with input motion vector data
KR20240127971A (ko) 깊이 맵 및/또는 움직임 맵을 사용한 병합 움직임 벡터 차분(mmvd)
KR20240089399A (ko) 깊이 모션 기반 다중 유형 트리 분할
WO2023194192A1 (en) Film grain synthesis using multiple correlated patterns
WO2024133043A1 (en) Decoder side intra mode derivation with contextual adjustment of the number of derived modes
WO2024133624A1 (en) Local illumination compensation with extended models
WO2023194191A1 (en) Converting stepwise scaling function to piecewise linear for film grain syntesis
WO2023118048A1 (en) Most probable mode list generation with template-based intra mode derivation and decoder-side intra mode derivation
KR20240089338A (ko) 기하구조 기반 포인트 클라우드의 적응적 스트리밍
WO2023194600A1 (en) Latency constrained template-based operations
EP4101173A1 (en) 3d point cloud enhancement with multiple measurements
WO2024003115A1 (en) Chroma multiple transform selection