KR20210118155A

KR20210118155A - 연장된 장기 참조 픽처 보유의 명시적 시그널링

Info

Publication number: KR20210118155A
Application number: KR1020217027065A
Authority: KR
Inventors: 보리보제 퍼트; 하리 칼바; 벨리보르 아지치
Original assignee: 오피 솔루션즈, 엘엘씨
Priority date: 2019-01-28
Filing date: 2020-01-28
Publication date: 2021-09-29
Also published as: SG11202108105YA; BR112021014753A2; EP3918799A4; EP3918799A1; JP2022524917A; CN113615184A; WO2020159993A1; MX2021009024A; JP7498502B2

Abstract

디코더는 회로망을 포함하고, 회로망은 비트스트림을 수신하고, 참조 리스트에 복수의 장기 참조 프레임들을 저장하고, 보유 시간에 기초한 시간의 길이 동안 참조 리스트에 장기 참조 프레임을 보유하고, 참조 리스트에 보유된 장기 참조 프레임을 사용하여 비디오의 적어도 일부를 디코딩하도록 구성된다. 관련된 장치들, 시스템들, 기술들 및 물품들 또한 설명된다.

Description

연장된 장기 참조 픽처 보유의 명시적 시그널링

관련 출원들에 대한 상호참조

본 출원은 2019년 1월 28일에 출원되고 발명의 명칭이 "EXPLICIT SIGNALING OF EXTENDED LONG TERM REFERENCE PICTURE RETENTION"인 미국 임시 특허 출원 일련 번호 제62/797,806호에 대한 우선권의 혜택을 주장하며, 이는 본원에 전체적으로 참조로 포함된다.

발명의 분야

본 발명은 일반적으로 비디오 압축 분야에 관한 것이다. 특히, 본 발명은 연장된 장기 참조 픽처 보유(extended long term reference picture retention)의 명시적 시그널링에 관한 것이다.

비디오 코덱은 디지털 비디오를 압축하거나 압축해제하는 전자 회로 또는 소프트웨어를 포함할 수 있다. 그것은 비압축된 비디오를 압축된 포맷으로 변환할 수 있거나 그 역도 또한 같다. 비디오 압축의 맥락에서, 비디오를 압축하는(및/또는 그것의 일부 기능을 수행하는) 디바이스는 전형적으로 인코더로 칭해질 수 있고, 비디오를 압축해제하는(및/또는 그것의 일부 기능을 수행하는) 디바이스는 디코더로 칭해질 수 있다.

압축된 데이터의 포맷은 표준 비디오 압축 사양에 합치할 수 있다. 압축된 비디오에는 원래 비디오 내에 존재하는 일부 정보가 결핍된다는 점에서 압축이 손실될 수 있다. 이것의 결과는 원래 비디오를 정확히 재구성하기에 불충분한 정보가 있기 때문에 압축해제된 비디오가 원래 비압축된 비디오보다 더 낮은 품질을 가질 수 있는 것을 포함할 수 있다.

비디오 품질, 비디오를 표현하기 위해 사용되는 데이터의 양(예를 들어, 비트 레이트에 의해 결정됨), 인코딩 및 디코딩 알고리즘들의 복잡성, 데이터 손실들 및 에러들에 대한 감도, 편집의 용이성, 랜덤 액세스, 엔드 투 엔드 지연(예를 들어, 레이턴시) 등 사이에 복잡한 관계들이 있을 수 있다.

모션 보상은 비디오 내의 객체들 및/또는 카메라의 모션을 설명함으로써 이전 및/또는 장래 프레임들과 같은 참조 프레임을 고려하여 비디오 프레임 또는 그것의 일부를 예측하는 접근법을 포함할 수 있다. 그것은 비디오 압축을 위한 비디오 데이터의 인코딩 및 디코딩, 예를 들어, 모션 픽처 전문가 그룹(Motion Picture Experts Group)(MPEG)-2(또한 고급 비디오 코딩(advanced video coding)(AVC) 및 H.264로 지칭됨) 표준을 사용하는 인코딩 및 디코딩에 채택될 수 있다. 모션 보상은 참조 픽처를 현재 픽처로 변환하는 측면에서 픽처를 기술할 수 있다. 참조 픽처는 현재 픽처와 비교할 때 시간상 이전일 수도 있고, 현재 픽처와 비교할 때 장래로부터의 것일 수도 있고, 또는 장기 참조(long term reference)(LTR) 프레임을 포함할 수도 있다. 이미지들이 이전에 송신된 및/또는 저장된 이미지들로부터 정확히 합성될 수 있을 때, 압축 효율이 향상될 수 있다.

장기 참조(LTR) 프레임들은 MPEG-2, H.264(AVC 또는 MPEG-4 파트 10이라고도 지칭됨) 및 H.265(고효율 비디오 코딩(High Efficiency Video Coding)(HEVC)이라고도 지칭됨)와 같은 비디오 코딩 표준들에서 사용되어 왔다. 비디오 비트스트림에서 LTR 프레임으로서 마킹된 프레임은 비트스트림 시그널링에 의해 명시적으로 제거될 때까지 참조로서 사용하도록 이용 가능할 수 있다. LTR 프레임들은 연장된 기간에 걸쳐 정적 배경(예를 들어, 화상 회의 또는 주차장 감시 비디오에서의 배경)을 갖는 장면들에서 예측 및 압축 효율을 향상시킬 수 있다. 그러나, 시간이 지나면, 장면의 배경이 점차 변경된다(예를 들어, 자동차들이 빈 자리에 주차될 때 배경 장면의 일부가 된다). 따라서, LTR 프레임을 업데이트하면 더 나은 예측을 허용하여 압축 성능을 향상시킨다.

H.264 및 H.265와 같은 현재 표준들은 새로이 디코딩된 프레임이 저장되고 참조 프레임으로서 이용 가능해지도록 시그널링함으로써 LTR 프레임들의 업데이트를 허용한다. 이러한 업데이트들은 인코더에 의해 시그널링되고, 전체 프레임이 업데이트된다. 그러나, 전체 프레임을 업데이트하는 데에는 비용이 많이 들 수 있다. 그리고, LTR 프레임이 업데이트될 때, 이전 LTR 프레임은 폐기된다. (예를 들어, 제1 장면으로부터 제2 장면으로 전환된 다음, 다시 제1 장면으로 전환되는 비디오들에서와 같이) 이전 및 폐기된 LTR 프레임과 연관된 정적 배경이 비디오에서 다시 발생하는 경우, 이전 LTR 프레임은 다시 비트스트림으로 인코딩되어야 하고, 이는 압축 효율을 감소시킨다.

양태에서, 디코더는 회로망을 포함하고, 회로망은 비트스트림을 수신하고, 참조 리스트(reference list)에 복수의 장기 참조 프레임(long term reference frame)들을 저장하고, 보유 시간(retention time)에 기초한 시간의 길이 동안 참조 리스트에 장기 참조 프레임을 보유하고, 참조 리스트에 보유된 장기 참조 프레임을 사용하여 비디오의 적어도 일부를 디코딩하도록 구성된다.

다른 양태에서, 방법은, 디코더에 의해, 비트스트림을 수신하는 단계를 포함한다. 방법은, 디코더에 의해, 참조 리스트에 복수의 장기 참조 프레임들을 저장하는 단계를 포함한다. 방법은, 디코더에 의해, 보유 시간에 기초한 시간의 길이 동안 참조 리스트에 장기 참조 프레임을 보유하는 단계를 포함한다. 방법은, 디코더에 의해, 참조 리스트에 보유된 장기 참조 프레임을 사용하여 비디오의 적어도 일부를 디코딩하는 단계를 포함한다.

본원에 설명되는 발명 대상의 하나 이상의 변형의 상세들은 아래의 첨부 도면들 및 설명에 제시된다. 본원에 설명되는 발명 대상의 다른 특징들 및 장점들은 설명 및 도면들로부터 분명하고, 청구항들로부터 분명할 것이다.

본 발명을 예시하기 위해, 도면들은 본 발명의 하나 이상의 실시예의 양태들을 도시한다. 그러나, 본 발명은 도면들에 도시된 정확한 배열들 및 도구들에 제한되지 않는다는 것이 이해되어야 한다.
도 1은 장기간에 걸친 프레임 예측을 위한 예시적인 참조 리스트를 예시한다.
도 2는 연장된 장기 참조(extended long term reference)(eLTR) 프레임 보유의 예시적인 프로세스를 예시하는 프로세스 흐름도로서, 여기서 eLTR 프레임은 참조 리스트에 보유된다.
도 3은 참조 리스트에 보유된 eLTR 프레임들로 비트스트림을 디코딩할 수 있는 예시적인 디코더를 예시하는 시스템 블록도이다.
도 4는 일부 기존 접근법들과 비교하여 압축 효율 향상들을 가능하게 할 수 있는 본 발명 대상의 일부 양태들에 따라 참조 리스트에 보유된 eLTR 프레임들로 비디오를 인코딩하는 예시적인 프로세스를 예시하는 프로세스 흐름도이다.
도 5는 참조 리스트에서의 eLTR 보유를 위해 시그널링할 수 있는 예시적인 비디오 인코더를 예시하는 시스템 블록도이다.
도 6은 본원에 개시된 방법론들 중 임의의 하나 이상 및 그것의 임의의 하나 이상의 부분을 구현하는 데 사용될 수 있는 컴퓨팅 시스템의 블록도이다.
도면들은 반드시 축척대로 도시된 것은 아니며, 가상 선들, 도식적 표현들 및 단편적인 뷰들에 의해 예시될 수 있다. 특정 사례들에서, 실시예들의 이해에 필요하지 않거나 다른 세부 사항들을 인지하기 어렵게 만드는 세부 사항들은 생략되었을 수 있다. 다양한 도면들에서 유사한 참조 기호들은 유사한 요소들을 나타낸다.

장기 참조 픽처(LTR)는 프레임의 특정 부분들이 시간이 지남에 따라 반복적으로 가려졌다 드러나는 경우들에서 비디오 프레임들의 더 나은 예측을 위해 사용될 수 있다. 전통적으로, LTR은 장면 또는 픽처-그룹(group-of-pictures)의 지속 시간에 걸쳐 사용되며, 그 후에 대체되거나 폐기된다. 본 발명 대상의 일부 구현들은 참조 리스트에서의 보유를 위해 최상의 후보 LTR들을 선택하여 LTR 사용의 유용성을 확장한다. 일부 구현들에서, 명시적으로 시그널링된 연장된 장기 참조(eLTR) 프레임들은 명시적으로 시그널링된 시간의 길이들 동안 참조 리스트에 보유될 수 있다. 본 발명 대상의 일부 구현들은 일부 기존 접근법들과 비교하여 상당한 압축 효율 이득들을 제공할 수 있다.

본 발명 대상의 일부 구현들은 비디오 코딩에서 eLTR 프레임의 선택 및 보유를 달성할 수 있다. eLTR는 현재 프레임 또는 예측을 위한 프레임 그룹에 의해 사용될 수 있는 픽처 참조 리스트에 보유될 수 있다. 리스트의 다른 모든 프레임들은 비교적 짧은 기간에 걸쳐 변경되지만, eLTR은 참조 리스트에 보유될 수 있다. 예를 들어, 도 1은 장기간에 걸친 프레임 예측을 위한 예시적인 참조 리스트를 예시한다. 비-제한적인 것으로서, 음영으로 도시된 예시된 예시적인 비디오 프레임들은 참조 프레임들을 사용하여 재구성될 수 있다. 참조 리스트는 시간이 지남에 따라 변경되는 프레임들 및 보유되는 eLTR을 포함할 수 있다.

일부 구현들에서, 여전히 도 1을 참조하면, 인코더는 eLTR 선택 및 보유 계산의 동작을 수행한다. 선택된 프레임들 및 보유 시간은, 예를 들어, 프레임 n에 대한 eLTR에 대한 인덱스(eLTRn) 및 보유 시간(TRn)을 나타내는 쌍들(eLTRn, TRn)을 사용하여 디코더에 시그널링될 수 있다. 디코더는 참조 리스트에 TRn의 기간 동안 프레임 eLTRn을 보유할 수 있다. eLTRn 프레임이 적어도 TRn 동안 참조 리스트에 상주한 후, eLTRn 프레임은 추가 사용을 위해 이용 불가능한 것으로 마킹될 수 있다. 일부 구현들에서, eLTRn 프레임은 메모리에 유지되지만 이용 불가능한 상태일 수 있다. 일부 구현들에서, 인코더는 eLTRn 프레임을 이용 가능한 것으로 또는 이용 불가능한 것으로 마킹하기 위해 디코더에 명시적으로 시그널링할 수 있다. 예를 들어, 보유 시간 TRn이 경과된 후 이전에 이용 불가능한 것으로 마킹된 eLTRn 프레임이 이용 가능한 것으로 마킹될 수 있다. 이러한 특징은 앞뒤로 전환되는 장면들을 포함하는 비디오에서와 같이 eLTRn을 장래에 다시 사용될 수 있게 할 수 있다. 일부 구현들에서, 인코더는 디코더가 메모리로부터 eLTRn 프레임을 제거하도록 하는 신호를 비트스트림에 포함할 수 있다. 디코더는 이러한 신호에 기초하여 참조 리스트 및 메모리로부터 eLTRn 프레임을 제거할 수 있다.

도 2는 eLTR 프레임 보유의 프로세스(200)의 비-제한적인 예를 예시하는 프로세스 흐름도로서, 여기서 eLTR 프레임은 참조 리스트에 보유된다. 이러한 eLTR 보유는 비디오 인코딩 및 디코딩에 대한 일부 기존 접근법들과 비교하여 압축 효율 향상들을 가능하게 할 수 있다.

단계(210)에서, 여전히 도 2를 참조하면, 비트스트림이 디코더에 의해 수신된다. 비트스트림은, 예를 들어, 데이터 압축을 사용할 때 디코더에 대한 입력인 비트들의 스트림에서 발견되는 데이터를 포함할 수 있다. 비트스트림은 비디오를 디코딩하는 데 필요한 정보를 포함할 수 있다. 수신은 비트스트림으로부터 블록 및 연관된 시그널링 정보를 추출 및/또는 파싱하는 것을 포함할 수 있다. 일부 구현들에서, 비트스트림을 수신하는 단계는 eLTR 프레임들, 그러한 프레임들에 대한 인덱스들(eLTRn), 및 연관된 보유 시간들(TRn)을 파싱하는 단계를 포함할 수 있으며, 여기서 보유 시간은 디코딩된 프레임들 및/또는 비디오 내의 시간에 기초한다.

계속해서 도 2를 참조하면, 단계(220)에서, eLTR 프레임이 참조 픽처 리스트에 저장될 수 있다.

단계(230)에서, 여전히 도 2를 참조하면, 저장된 eLTR 프레임은 연관된 보유 시간(TRn)에 기초한 시간의 길이 동안 참조 리스트에 보유(예를 들어, 유지)될 수 있다.

단계(240)에서, 여전히 도 2를 참조하면, 비디오의 적어도 일부가 비트스트림으로부터 디코딩될 수 있다. 디코딩은 현재 블록을 디코딩하는 것을 포함할 수 있다. 예를 들어, 비트스트림에 포함된 수신된 현재 코딩된 블록은, 예를 들어, 인터 예측을 사용하여 디코딩될 수 있다. 인터 예측을 통한 디코딩은 비트스트림에 포함된 잔차(residual)와 결합될 수 있는 예측을 계산하기 위한 참조로서 이전 프레임, 장래 프레임 및/또는 eLTR 프레임을 사용하는 것을 포함할 수 있다.

도 2를 추가로 참조하면, 후속 현재 블록들에 대해, eLTR 프레임이 인터 예측을 위한 참조 프레임으로서 활용될 수 있다. 예를 들어, 제2 코딩된 블록이 수신될 수 있다. 제2 코딩된 블록에 대해 인터 예측 모드가 인에이블되는지가 결정될 수 있고, 결정하는 것은 비트스트림으로부터 인터 예측 모드가 인에이블되는지를 나타내는 명시적 신호를 수신하는 것을 포함할 수 있다. 제2 디코딩된 블록이 참조 프레임으로서 eLTR 프레임을 사용하여 그리고 인터 예측 모드에 따라 결정될 수 있다. 예를 들어, 인터 예측을 통한 디코딩은 비트스트림에 포함된 잔차와 결합될 수 있는 예측을 계산하기 위한 참조로서 eLTR 프레임을 사용하는 것을 포함할 수 있다.

도 3은 참조 리스트에 보유된 eLTR 프레임들로 비트스트림(370)을 디코딩할 수 있는 디코더(300)의 비-제한적인 예를 예시하는 시스템 블록도이다. 디코더(300)는 엔트로피 디코더 프로세서(310), 역 양자화 및 역 변환 프로세서(320), 블록해제 필터(deblocking filter)(330), 프레임 버퍼(340), 모션 보상 프로세서(350) 및 인트라 예측 프로세서(360)를 포함할 수 있다. 일부 구현들에서, 비트스트림(370)은 eLTR 인덱스들(eLTRn) 및 보유 시간들(TRn)을 시그널링하는 파라미터들(예를 들어, 비트스트림 헤더 내의 필드들)을 포함할 수 있다. 모션 보상 프로세서(350)는 eLTR 프레임들을 사용하여 픽셀 정보를 재구성하고, 그들의 연관된 보유 시간들(TRn)에 따라 eLTR 프레임들을 보유할 수 있다. 예를 들어, eLTR 프레임(eLTRn)이 수신되고 적어도 연관된 보유 시간 동안 참조 리스트에 보유될 때, eLTR 프레임(eLTRn)은 적어도 연관된 참조 시간 동안 인터 예측 모드에 대한 참조로서 사용될 수 있다.

동작에서, 여전히 도 3을 참조하면, 비트스트림(370)이 디코더(300)에 의해 수신되며, 비트스트림을 양자화된 계수들로 엔트로피 디코딩할 수 있는 엔트로피 디코더 프로세서(310)에 입력될 수 있다. 양자화된 계수들은 역 양자화 및 역 변환을 수행하여 잔차 신호를 생성할 수 있는 역 양자화 및 역 변환 프로세서(320)에 제공될 수 있으며, 이 잔차 신호는 처리 모드에 따라 모션 보상 프로세서(350) 또는 인트라 예측 프로세서(360)의 출력에 추가될 수 있다. 모션 보상 프로세서(350) 및 인트라 예측 프로세서(360)의 출력은 이전에 디코딩된 블록 및/또는 참조 리스트에 유지된 eLTR 프레임들에 기초한 블록 예측을 포함할 수 있다. 예측 및 잔차의 합은 블록해제 필터(630)에 의해 처리되고 프레임 버퍼(640)에 저장될 수 있다.

도 4는 일부 기존 접근법들과 비교하여 압축 효율 향상들을 가능하게 할 수 있는 본 발명 대상의 일부 양태들에 따라 참조 리스트에 보유된 eLTR 프레임들로 비디오를 인코딩하는 프로세스(400)의 비-제한적인 예를 예시하는 프로세스 흐름도이다. 단계(410)에서, 비디오 프레임들의 시퀀스는 하나 이상의 eLTR 프레임을 결정하는 것을 포함하여 인코딩될 수 있다. 단계(420)에서, eLTR 프레임 보유 시간들(TRn)은, 예를 들어, eLTR 프레임이 인코더/디코더에 의해 활용되는 시간의 길이에 기초하여 결정될 수 있으며, 여기서, 예를 들어, 시간은 비디오에서 디코딩되는 프레임들에 기초한다.

단계(430)에서, 여전히 도 4를 참조하면, 추가적인 시그널링 파라미터들이 결정될 수 있다. 예를 들어, eLTR 프레임들을 이용 불가능한 것으로 또는 이용 가능한 것으로 마킹할지 여부 및 마킹할 시기가 결정될 수 있고, 각각의 eLTR 프레임이 메모리로부터 제거되어야 하는지 여부 및 제거되어야 하는 시기가 결정될 수 있다.

단계(440)에서, 여전히 도 4를 참조하면, eLTR 보유 시간 및 추가적인 시그널링 파라미터들이 비트스트림에 포함될 수 있다.

도 5는 참조 리스트에서의 eLTR 보유를 위해 시그널링할 수 있는 비디오 인코더(500)의 비-제한적인 예를 예시하는 시스템 블록도이다. 예시적인 비디오 인코더(500)는 트리-구조 매크로 블록 파티셔닝 스킴(tree-structured macro block partitioning scheme)(예를 들어, 쿼드-트리 + 이진 트리(quad-tree plus binary tree))과 같은 처리 스킴에 따라 초기에 세그먼트화되거나 분할될 수 있는 입력 비디오(505)를 수신한다. 트리-구조 매크로 블록 파티셔닝 스킴의 예는 픽처 프레임을 코딩 트리 유닛들(coding tree units)(CTU)로서 본 개시내용의 목적들을 위해 지칭될 수 있는 큰 블록 요소들로 파티셔닝하는 파티셔닝 스킴을 포함할 수 있다. 일부 구현들에서, 각각의 CTU는 코딩 유닛들(coding units)(CU)이라고 하는 다수의 서브-블록들로 일회 이상 추가로 파티셔닝될 수 있다. 이 파티셔닝의 결과는 예측 유닛들(predictive units)(PU)로서 본 개시내용의 목적들을 위해 지칭될 수 있는 서브-블록들의 그룹을 포함할 수 있다. 변환 유닛들(transform units)(TU)이 또한 활용될 수 있다.

여전히 도 5를 참조하면, 예시적인 비디오 인코더(500)는 인트라 예측 프로세서(515), eLTR 프레임 보유를 지원할 수 있는 (인터 예측 프로세서라고도 지칭되는) 모션 추정/보상 프로세서(520), 변환/양자화 프로세서(525), 역 양자화/역 변환 프로세서(530), 인-루프 필터(535), 디코딩된 픽처 버퍼(540) 및 엔트로피 코딩 프로세서(545)를 포함할 수 있다. 일부 구현들에서, 모션 추정/보상 프로세서(520)는 eLTR 보유 시간들 및 추가적인 시그널링 파라미터들을 결정할 수 있다. eLTR 프레임 보유 및 추가적인 파라미터들을 시그널링하는 비트스트림 파라미터들은 출력 비트스트림(550)에서의 포함을 위해 엔트로피 코딩 프로세서(545)에 입력될 수 있다.

동작에서, 계속해서 도 5를 참조하면, 입력 비디오(505)의 프레임의 각각의 블록에 대해, 블록을 인트라 픽처 예측을 통해 처리할 것인지 또는 모션 추정/보상을 사용하여 처리할 것인지가 결정될 수 있다. 블록은 인트라 예측 프로세서(510) 또는 모션 추정/보상 프로세서(520)에 제공될 수 있다. 블록이 인트라 예측을 통해 처리되는 경우, 인트라 예측 프로세서(510)가 예측자(predictor)를 출력하기 위한 처리를 수행할 수 있다. 블록이 모션 추정/보상을 통해 처리되는 경우, 모션 추정/보상 프로세서(520)가, 적용 가능한 경우, eLTR 프레임들을 인터 예측을 위한 참조로서 사용하는 것을 포함하는 처리를 수행할 수 있다.

계속해서 도 5를 참조하면, 입력 비디오로부터 예측자를 차감함으로써 잔차가 형성될 수 있다. 잔차는 변환/양자화 프로세서(525)에 의해 수신될 수 있으며, 이는 양자화될 수 있는 계수들을 생성하기 위해 변환 처리(예를 들어, 이산 코사인 변환(discrete cosine transform)(DCT))를 수행할 수 있다. 양자화된 계수들 및 임의의 연관된 시그널링 정보는 엔트로피 인코딩 및 출력 비트스트림(550)에서의 포함을 위해 엔트로피 코딩 프로세서(545)에 제공될 수 있다. 엔트로피 인코딩 프로세서(545)는 eLTR 프레임 보유와 관련된 시그널링 정보의 인코딩을 지원할 수 있다. 또한, 양자화된 계수들은 역 양자화/역 변환 프로세서(530)에 제공될 수 있으며, 이는 예측자와 조합되고 인 루프 필터(535)에 의해 처리될 수 있는 픽셀들을 재생할 수 있고, 그것의 출력은 eLTR 프레임 보유를 지원할 수 있는 모션 추정/보상 프로세서(520)에 의한 사용을 위해 디코딩된 픽처 버퍼(540)에 저장될 수 있다.

여전히 도 5를 참조하면, 수개의 변형들이 위에 상세히 설명되었지만, 다른 수정들 또는 추가들이 가능하다. 예를 들어, 일부 구현들에서, 현재 블록들은 임의의 비대칭 블록(8x4, 16x8 등)뿐만 아니라 임의의 대칭 블록들(8x8, 16x16, 32x32, 64x64, 128x128 등)을 포함할 수 있다.

일부 구현들에서, 계속해서 도 5를 참조하면, 쿼드트리 + 이진 결정 트리(quadtree plus binary decision tree)(QTBT)가 구현될 수 있다. QTBT에서, 코딩 트리 유닛 레벨에서, QTBT의 파티션 파라미터들은 임의의 오버헤드를 송신하는 것 없이 국부 특성들에 적응되도록 동적으로 도출될 수 있다. 그 후에, 코딩 유닛 레벨에서, 조인트-분류기 결정 트리 구조가 불필요한 반복들을 제거하고 잘못된 예측의 위험을 제어할 수 있다.

일부 구현들에서, 디코더는 eLTR 프레임들을 이용 불가능한 것으로 마킹할지 또는 참조 리스트로부터 제거할지 여부 및 이에 대한 시기를 결정하는 eLTR 프레임 보유 프로세서(도시 생략)를 포함할 수 있다.

일부 구현들에서, 본 발명 대상은 보유 기간의 중간에 디코더가 동조하는 브로드캐스트 (및 이와 유사한) 시나리오에 적용될 수 있다. 표준 재생을 지원하기 위해, 인코더는 (e)LTR 프레임을 순간 디코딩 리프레시(Instantaneous Decoding Refresh)(IDR) 타입 프레임으로서 마킹할 수 있다. 이 경우, 다음 이용 가능한 LTR(IDR) 프레임 이후에 스트리밍이 재개될 수 있다. 이러한 접근법은 인터-프레임들을 IDR 프레임들로서 지정하는 일부 현재 브로드캐스트 표준들과 유사할 수 있다.

본원에 설명되는 발명 대상은 많은 기술적 장점들을 제공한다. 예를 들어, 본 발명 대상의 일부 구현들은 참조 리스트에 보유된 eLTR 프레임을 사용한 블록들의 디코딩을 제공할 수 있다. 이러한 접근법들은 압축 효율을 증가시킬 수 있다.

본원에 설명되는 양태들 및 실시예들 중 임의의 하나 이상은, 컴퓨터 기술분야의 통상의 기술자에게 명백한 바와 같이, 본 명세서의 교시들에 따라 프로그램된 하나 이상의 머신(예를 들어, 전자 문서를 위한 사용자 컴퓨팅 디바이스, 문서 서버와 같은 하나 이상의 서버 디바이스 등으로서 활용되는 하나 이상의 컴퓨팅 디바이스)에서 실현 및/또는 구현되는 바와 같은 디지털 전자 회로망, 집적 회로망, 특별히 설계된 주문형 집적 회로(application specific integrated circuit)(ASIC)들, 필드 프로그램가능 게이트 어레이(field programmable gate array)(FPGA)들 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 그것의 조합들을 사용하여 편리하게 구현될 수 있다는 것에 유의해야 한다. 이러한 다양한 양태들 또는 특징들은 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고, 이들에 데이터 및 명령어들을 송신하도록 커플링되는, 특수 또는 일반 목적일 수 있는, 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템 상에서 실행가능하고 그리고/또는 해석가능한 하나 이상의 컴퓨터 프로그램 및/또는 소프트웨어에서의 구현을 포함할 수 있다. 소프트웨어 분야의 통상의 기술자에게 명백한 바와 같이, 적절한 소프트웨어 코딩은 본 개시내용의 교시들에 기초하여 숙련된 프로그래머들에 의해 쉽게 준비될 수 있다. 소프트웨어 및/또는 소프트웨어 모듈들을 채택하는 위에서 논의된 양태들 및 구현들은 또한 소프트웨어 및/또는 소프트웨어 모듈의 머신 실행 가능 명령어들의 구현을 지원하기 위한 적절한 하드웨어를 포함할 수 있다.

이러한 소프트웨어는 머신 판독 가능 저장 매체를 채택하는 컴퓨터 프로그램 제품일 수 있다. 머신 판독 가능 저장 매체는 머신(예를 들어, 컴퓨팅 디바이스)에 의한 실행을 위한 명령어들의 시퀀스를 저장 및/또는 인코딩할 수 있고 머신으로 하여금 본원에 설명된 방법론들 및/또는 실시예들 중 임의의 하나를 수행하게 하는 임의의 매체일 수 있다. 머신 판독 가능 저장 매체의 예들은 자기 디스크, 광 디스크(예를 들어, CD, CD-R, DVD, DVD-R 등), 광-자기 디스크, 판독 전용 메모리 "ROM" 디바이스, 랜덤 액세스 메모리 "RAM" 디바이스, 마그네틱 카드, 광학 카드, 솔리드 스테이트 메모리 디바이스, EPROM, EEPROM, 프로그램가능 로직 디바이스(Programmable Logic Device)(PLD)들 및/또는 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 본원에 사용된 머신 판독 가능 매체는 단일 매체뿐만 아니라, 예를 들어, 컴퓨터 메모리와 결합된 하나 이상의 하드 디스크 드라이브 또는 컴팩트 디스크들의 모음과 같은 물리적으로 분리된 매체의 모음을 포함하도록 의도된다. 본원에서 사용되는 바와 같이, 머신 판독 가능 저장 매체는 일시적인 형태들의 신호 송신을 포함하지 않는다.

이러한 소프트웨어는 또한 반송파와 같은 데이터 캐리어 상에서 데이터 신호로서 운반되는 정보(예를 들어, 데이터)를 포함할 수 있다. 예를 들어, 머신 실행 가능 정보는 데이터 캐리어에서 구체화되는 데이터-운반 신호로서 포함될 수 있으며, 여기서 신호는 머신(예를 들어, 컴퓨팅 디바이스)에 의한 실행을 위한 명령어의 시퀀스 또는 그 일부, 및 머신으로 하여금 본원에 설명된 방법론들 및/또는 실시예들 중 임의의 하나를 수행하게 하는 임의의 관련된 정보(예를 들어, 데이터 구조들 및 데이터)를 인코딩한다.

컴퓨팅 디바이스의 예들은 전자 책 판독 디바이스, 컴퓨터 워크스테이션, 단말기 컴퓨터, 서버 컴퓨터, 핸드헬드 디바이스(예를 들어, 태블릿 컴퓨터, 스마트폰 등), 웹 기기, 네트워크 라우터, 네트워크 스위치, 네트워크 브리지, 해당 머신에 의해 취해질 액션을 지정하는 명령어들의 시퀀스를 실행할 수 있는 임의의 머신 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 일 예에서, 컴퓨팅 디바이스는 키오스크를 포함하고/하거나 그에 포함될 수 있다.

도 6은 컴퓨팅 디바이스의 일 실시예의 도식적 표현을, 제어 시스템으로 하여금 본 개시내용의 양태들 및/또는 방법론들 중 임의의 하나 이상을 수행하게 하기 위한 명령어들의 세트가 실행될 수 있는 예시적인 형태의 컴퓨터 시스템(600)으로 도시한다. 또한, 다수의 컴퓨팅 디바이스들이 디바이스들 중 하나 이상으로 하여금 본 개시내용의 양태들 및/또는 방법론들 중 임의의 하나 이상을 수행하게 하기 위해 특별히 구성된 명령어들의 세트를 구현하는 데 활용될 수 있다는 것이 고려된다. 컴퓨터 시스템(600)은 버스(612)를 통해 서로 및 다른 구성요소들과 통신하는 프로세서(604) 및 메모리(608)를 포함한다. 버스(612)는 다양한 버스 아키텍처들 중 임의의 것을 사용하는 메모리 버스, 메모리 제어기, 주변 버스, 로컬 버스 및 이들의 임의의 조합들을 포함하되, 이에 제한되는 않는 수개의 타입들의 버스 구조들 중 임의의 것을 포함할 수 있다.

메모리(608)는 랜덤 액세스 메모리 구성요소, 판독 전용 구성요소 및 이들의 임의의 조합들을 포함하되, 이에 제한되지 않는 다양한 구성요소들(예를 들어, 머신 판독 가능 매체)를 포함할 수 있다. 일 예에서, 예를 들어, 시동 동안 컴퓨터 시스템(600) 내의 요소들 사이에서 정보를 전송하는 것을 돕는 기본 루틴들을 포함하는 기본 입/출력 시스템(616)(BIOS)이 메모리(608)에 저장될 수 있다. 메모리(608)는 또한 본 개시내용의 양태들 및/또는 방법론들 중 임의의 하나 이상을 구체화하는 명령어들(예를 들어, 소프트웨어)(620)을 포함할 수 있다(예를 들어, 하나 이상의 머신 판독 가능 매체 상에 저장할 수 있다). 다른 예에서, 메모리(608)는 운영 체제, 하나 이상의 애플리케이션 프로그램, 다른 프로그램 모듈들, 프로그램 데이터 및 이들의 임의의 조합들을 포함하되, 이에 제한되지 않는 임의의 수의 프로그램 모듈들을 추가로 포함할 수 있다.

컴퓨터 시스템(600)은 또한 저장 디바이스(624)를 포함할 수 있다. 저장 디바이스(예를 들어, 저장 디바이스(624))의 예들은 하드 디스크 드라이브, 자기 디스크 드라이브, 광학 매체와 결합된 광 디스크 드라이브, 솔리드 스테이트 메모리 디바이스 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 저장 디바이스(624)는 적절한 인터페이스(도시 생략)에 의해 버스(612)에 연결될 수 있다. 예시적인 인터페이스들은 SCSI, ATA(advanced technology attachment), 직렬 ATA, USB(universal serial bus), IEEE 1394(FIREWIRE) 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 일 예에서, 저장 디바이스(624)(또는 그것의 하나 이상의 구성요소)는 (예를 들어, 외부 포트 커넥터(도시 생략)를 통해) 컴퓨터 시스템(600)과 이동식으로 인터페이스될 수 있다. 특히, 저장 디바이스(624) 및 연관된 머신 판독 가능 매체(628)는 컴퓨터 시스템(600)에 대한 머신 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들 및/또는 다른 데이터의 비휘발성 및/또는 휘발성 저장을 제공할 수 있다. 일 예에서, 소프트웨어(620)는 머신 판독 가능 매체(628) 내에 완전히 또는 부분적으로 상주할 수 있다. 다른 예에서, 소프트웨어(620)는 프로세서(604) 내에 완전히 또는 부분적으로 상주할 수 있다.

컴퓨터 시스템(600)은 또한 입력 디바이스(632)를 포함할 수 있다. 일 예에서, 컴퓨터 시스템(600)의 사용자는 입력 디바이스(632)를 통해 컴퓨터 시스템(600)에 명령들 및/또는 다른 정보를 입력할 수 있다. 입력 디바이스(632)의 예들은 영숫자 입력 디바이스(예를 들어, 키보드), 포인팅 디바이스, 조이스틱, 게임 패드, 오디오 입력 디바이스(예를 들어, 마이크로폰, 음성 응답 시스템 등), 커서 제어 디바이스(예를 들어, 마우스), 터치 패드, 광학 스캐너, 비디오 캡처 디바이스(예를 들어, 스틸 카메라, 비디오 카메라), 터치 스크린 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 입력 디바이스(632)는 직렬 인터페이스, 병렬 인터페이스, 게임 포트, USB 인터페이스, FIREWIRE 인터페이스, 버스(612)에 대한 직접 인터페이스 및 이들의 임의의 조합들을 포함하되, 이에 제한되지 않는 다양한 인터페이스들(도시 생략) 중 임의의 것을 통해 버스(612)에 인터페이스될 수 있다. 입력 디바이스(632)는 아래에서 추가로 논의되는 디스플레이(636)의 일부이거나 이와 별개일 수 있는 터치 스크린 인터페이스를 포함할 수 있다. 입력 디바이스(632)는 위에서 설명된 바와 같이 그래픽 인터페이스에서 하나 이상의 그래픽 표현을 선택하기 위한 사용자 선택 디바이스로서 활용될 수 있다.

사용자는 또한 저장 디바이스(624)(예를 들어, 이동식 디스크 드라이브, 플래시 드라이브 등) 및/또는 네트워크 인터페이스 디바이스(640)를 통해 컴퓨터 시스템(600)에 명령들 및/또는 다른 정보를 입력할 수 있다. 네트워크 인터페이스 디바이스(640)와 같은 네트워크 인터페이스 디바이스는 컴퓨터 시스템(600)을 네트워크(644)와 같은 다양한 네트워크들 및 그에 연결된 하나 이상의 원격 디바이스(648) 중 하나 이상에 연결하기 위해 활용될 수 있다. 네트워크 인터페이스 디바이스의 예들은 네트워크 인터페이스 카드(예를 들어, 모바일 네트워크 인터페이스 카드, LAN 카드), 모뎀 및 이들의 임의의 조합을 포함하지만, 이에 제한되지 않는다. 네트워크의 예들은 광역 네트워크(예를 들어, 인터넷, 기업 네트워크), 근거리 네트워크(예를 들어, 사무실, 건물, 캠퍼스 또는 다른 비교적 작은 지리적 공간과 연관된 네트워크), 전화 네트워크, 전화/음성 공급자와 연관된 데이터 네트워크(예를 들어, 이동 통신 공급자 데이터 및/또는 음성 네트워크), 두 컴퓨팅 디바이스 사이의 직접 연결, 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 네트워크(644)와 같은 네트워크는 유선 및/또는 무선 통신 모드를 채택할 수 있다. 일반적으로, 임의의 네트워크 토폴로지가 사용될 수 있다. 정보(예를 들어, 데이터, 소프트웨어(620) 등)는 네트워크 인터페이스 디바이스(640)를 통해 컴퓨터 시스템(600)으로 및/또는 컴퓨터 시스템(600)으로부터 통신될 수 있다.

컴퓨터 시스템(600)은 디스플레이 디바이스(636)와 같은 디스플레이 디바이스에 디스플레이 가능한 이미지를 전달하기 위한 비디오 디스플레이 어댑터(652)를 추가로 포함할 수 있다. 디스플레이 디바이스의 예들은 액정 디스플레이(liquid crystal display)(LCD), 음극선관(cathode ray tube)(CRT), 플라즈마 디스플레이, 발광 다이오드(light emitting diode)(LED) 디스플레이 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다. 디스플레이 어댑터(652) 및 디스플레이 디바이스(636)는 프로세서(604)와 결합하여 본 개시내용의 양태들의 그래픽 표현을 제공하는 데 활용될 수 있다. 디스플레이 디바이스에 추가하여, 컴퓨터 시스템(600)은 오디오 스피커, 프린터 및 이들의 임의의 조합들을 포함하되, 이에 제한되지 않는 하나 이상의 다른 주변 출력 디바이스를 포함할 수 있다. 이러한 주변 출력 디바이스들은 주변 인터페이스(656)를 통해 버스(612)에 연결될 수 있다. 주변 인터페이스의 예들은 직렬 포트, USB 연결, FIREWIRE 연결, 병렬 연결 및 이들의 임의의 조합들을 포함하지만, 이에 제한되지 않는다.

전술한 내용은 본 발명의 예시적인 실시예들에 대한 상세한 설명이었다. 본 발명의 사상 및 범위를 벗어나지 않고 다양한 수정들 및 추가들이 이루어질 수 있다. 위에서 설명된 다양한 실시예들 각각의 특징들은 연관된 새로운 실시예들에서 다수의 특징 결합들을 제공하기 위해 적절한 다른 설명된 실시예들의 특징들과 결합될 수 있다. 또한, 전술한 내용은 다수의 개별적인 실시예들을 설명하지만, 본원에 설명된 것은 단지 본 발명의 원리들의 적용을 예시한 것에 불과하다. 또한, 본원의 특정 방법들이 특정 순서로 수행되는 것으로 예시 및/또는 설명될 수 있지만, 본원에 개시된 실시예들을 달성하기 위해 순서는 통상의 기술 내에서 매우 가변적이다. 따라서, 이 설명은 단지 예로서 취해지는 것을 의미하며, 본 발명의 범위를 달리 제한하지 않는다.

상기 설명들 및 청구항들에서, "중 적어도 하나" 또는 "중 하나 이상"과 같은 구들은 요소들 또는 특징들의 연결 리스트 후에 발생할 수 있다. 용어 "및/또는" 또한 2개 이상의 요소 또는 특징의 리스트에서 발생할 수 있다. 그것이 사용되는 맥락에 의해 암시적으로 또는 명시적으로 달리 모순되지 않는 한, 그러한 구는 열거된 요소들 또는 특징들 중 어느 것을 개별적으로 의미하거나 다른 열거된 요소들 또는 특징들 중 어느 것과 조합하여 열거된 요소들 또는 특징들 중 어느 것을 의미하도록 의도된다. 예를 들어, 구들 "A 및 B 중 적어도 하나"; "A 및 B 중 하나 이상"; 및 "A 및/또는 B"는 "A 단독, B 단독, 또는 A 및 B 함께"를 의미하도록 각각 의도된다. 유사한 해석은 또한 3개 이상의 아이템을 포함하는 리스트들을 위해 의도된다. 예를 들어, 구들 "A, B, 및 C 중 적어도 하나"; "A, B, 및 C 중 하나 이상"; 및 "A, B, 및/또는 C"는 "A 단독, B 단독, C 단독, A 및 B 함께, A 및 C 함께, B 및 C 함께, 또는 A 및 B 및 C 함께"를 의미하도록 각각 의도된다. 게다가, 용어 "기초하여"의 사용은 위에서 그리고 청구항들에서 "에 적어도 부분적으로 기초하여"를 의미하도록 의도되어, 비열거된 특징 또는 요소가 또한 허용가능하다.

본원에 설명되는 발명 대상은 원하는 구성에 따라 시스템들, 장치, 방법들, 및/또는 물품들로 구체화될 수 있다. 상술한 설명에 제시되는 구현들은 본원에 설명되는 발명 대상과 일치하는 모든 구현들을 표현하지는 않는다. 대신에, 그들은 설명된 발명 대상과 관련된 양태들과 일치하는 일부 예들일 뿐이다. 수개의 변형들이 위에 상세히 설명되었지만, 다른 수정들 또는 추가들이 가능하다. 특히, 추가 특징들 및/또는 변형들이 본원에 제시되는 것들에 더하여 제공될 수 있다. 예를 들어, 위에 설명된 구현들은 개시된 특징들의 다양한 조합들 및 서브조합들 및/또는 위에 개시된 수개의 추가 특징들의 조합들 및 서브조합들에 관한 것일 수 있다. 게다가, 첨부 도면들에 도시되고 그리고/또는 본원에 설명되는 논리 흐름들은 바람직한 결과들을 달성하기 위해, 도시되는 특정 순서, 또는 순차적 순서를 반드시 필요로 하는 것은 아니다. 다른 구현들은 이하의 청구항들의 범위 내에 있을 수 있다.

Claims

디코더로서,
회로망
을 포함하고, 상기 회로망은,
비트스트림을 수신하고,
참조 리스트(reference list)에 복수의 장기 참조 프레임(long term reference frame)들을 저장하고,
보유 시간(retention time)에 기초한 시간의 길이 동안 상기 참조 리스트에 장기 참조 프레임을 보유하고,
상기 참조 리스트에 보유된 상기 장기 참조 프레임을 사용하여 비디오의 적어도 일부를 디코딩하도록
구성되는, 디코더.
제1항에 있어서, 상기 저장된 장기 참조 프레임들 내의 각각의 장기 참조 프레임은 연관된 보유 시간을 포함하는, 디코더.
제1항에 있어서, 상기 장기 참조 프레임이 적어도 상기 보유 시간 동안 상기 참조 리스트에 상주한 후에 상기 장기 참조 프레임을 이용 불가능한 것으로 마킹하도록 추가로 구성되는, 디코더.
제3항에 있어서, 상기 비트스트림 내의 신호에 기초하여 상기 장기 참조 프레임을 이용 가능한 것으로 마킹하도록 추가로 구성되는, 디코더.
제1항에 있어서, 상기 비트스트림은 메모리로부터 상기 장기 참조 프레임을 제거하기 위한 신호를 포함하는, 디코더.
제5항에 있어서, 상기 신호에 기초하여 상기 참조 리스트로부터 상기 장기 참조 프레임을 제거하도록 추가로 구성되는, 디코더.
제1항에 있어서,
상기 비트스트림을 수신하고 상기 비트스트림을 양자화된 계수들로 디코딩하도록 구성되는 엔트로피 디코더 프로세서;
역 이산 코사인을 수행하는 것을 포함하여 상기 양자화된 계수들을 처리하도록 구성되는 역 양자화 및 역 변환 프로세서;
블록해제 필터(deblocking filter);
프레임 버퍼; 및
인트라 예측 프로세서
를 추가로 포함하는, 디코더.
제1항에 있어서,
코딩된 블록을 수신하고,
상기 코딩된 블록에 대해 인터 예측 모드가 인에이블되는 것으로 결정하고,
상기 장기 참조 프레임을 참조 프레임으로서 사용하여 그리고 상기 인터 예측 모드에 따라 디코딩된 블록을 결정하도록
추가로 구성되는, 디코더.
제8항에 있어서, 상기 디코딩된 블록은 쿼드트리 + 이진 결정 트리(quadtree plus binary decision tree)의 일부를 형성하는, 디코더.
제8항에 있어서, 상기 디코딩된 블록은 쿼드트리 + 이진 결정 트리의 비-리프 노드(non-leaf node)인, 디코더.
방법으로서,
디코더에 의해, 비트스트림을 수신하는 단계;
상기 디코더에 의해, 참조 리스트에 복수의 장기 참조 프레임들을 저장하는 단계;
상기 디코더에 의해, 보유 시간에 기초한 시간의 길이 동안 상기 참조 리스트에 장기 참조 프레임을 보유하는 단계; 및
상기 디코더에 의해, 상기 참조 리스트에 보유된 상기 장기 참조 프레임을 사용하여 비디오의 적어도 일부를 디코딩하는 단계
를 포함하는, 방법.
제11항에 있어서, 상기 저장된 장기 참조 프레임들 내의 각각의 장기 참조 프레임은 연관된 보유 시간을 포함하는, 방법.
제11항에 있어서, 상기 장기 참조 프레임이 적어도 상기 보유 시간 동안 상기 참조 리스트에 상주한 후에 상기 장기 참조 프레임을 이용 불가능한 것으로 마킹하는 단계를 추가로 포함하는, 방법.
제13항에 있어서, 상기 비트스트림 내의 신호에 기초하여 상기 장기 참조 프레임을 이용 가능한 것으로 마킹하는 단계를 추가로 포함하는, 방법.
제11항에 있어서, 상기 비트스트림은 메모리로부터 상기 장기 참조 프레임을 제거하기 위한 신호를 포함하는, 방법.
제15항에 있어서, 상기 신호에 기초하여 상기 참조 리스트로부터 상기 장기 참조 프레임을 제거하는 단계를 추가로 포함하는, 방법.
제11항에 있어서, 상기 디코더는,
상기 비트스트림을 수신하고 상기 비트스트림을 양자화된 계수로 디코딩하도록 구성되는 엔트로피 디코더 프로세서;
역 이산 코사인을 수행하는 것을 포함하여 상기 양자화된 계수들을 처리하도록 구성되는 역 양자화 및 역 변환 프로세서;
블록해제 필터;
프레임 버퍼; 및
인트라 예측 프로세서
를 추가로 포함하는, 방법.
제11항에 있어서,
코딩된 블록을 수신하는 단계;
상기 코딩된 블록에 대해 인터 예측 모드가 인에이블되는 것으로 결정하는 단계; 및
상기 장기 참조 프레임을 참조 프레임으로서 사용하여 그리고 상기 인터 예측 모드에 따라 디코딩된 블록을 결정하는 단계
를 추가로 포함하는, 방법.
제18항에 있어서, 상기 디코딩된 블록은 쿼드트리 + 이진 결정 트리의 일부를 형성하는, 방법.
제18항에 있어서, 상기 디코딩된 블록은 쿼드트리 + 이진 결정 트리의 비-리프 노드인, 방법.