KR20080104071A

KR20080104071A - 비디오 압축에 대한 인코더 보조-프레임 레이트 업 컨버젼(ｅａ-ｆｒｕｃ)을 위한 방법 및 장치

Info

Publication number: KR20080104071A
Application number: KR1020087025619A
Authority: KR
Inventors: 비자야라크쉬미 알. 라빈드란; 팽 시; 고돈 켄트 왈커
Original assignee: 콸콤 인코포레이티드
Priority date: 2004-07-20
Filing date: 2005-07-20
Publication date: 2008-11-28
Also published as: CN101189882B; MX2007000810A; US20060165176A1; EP1772017A2; KR101016168B1; RU2377737C2; WO2006012384A2; WO2006012384A3; US8374246B2; CN101189882A; AU2005267171A1; EP2194720A1; US20130188742A1; TW200625964A; EP2096873A3; BRPI0513527A; JP2008507915A; EP2096873A2; CA2574297A1; RU2007106081A

Abstract

압축 효율과 재구성된 비디오 품질을 향상시키기 위해 디코더에서 발생하게 되는 FRUC 프로세싱을 이용하도록 비디오 인코더에서의 비디오 코딩 및 전-처리 연산들을 이용하는 인코더 보조 프레임 레이트 업 컨버젼(EA-FRUC) 시스템이 제시된다. EA-FRUC 시스템의 동작은 프레임 시퀀스에 있는 프레임의 공간 활성도를 결정함으로써 비디오 컨텐트의 프레임 시퀀스에 있는 프레임을 인코딩할 것인지 여부를 결정하는 단계; 상기 프레임의 시간 활성도를 결정하는 단계; 결정된 공간 활성도와 결정된 시간 활성도에 기반하여 공간-시간 활성도를 결정하는 단계; 결정된 공간 활성도, 결정된 시간 활성도 및 결정된 공간-시간 활성도 중 적어도 하나에 기반하여 소스 프레임에 있는 리던던시 레벨을 결정하는 단계; 및 결정된 리던던시가 미리 결정된 임계치들 내에 있으면 프레임에 있는 넌-리던던트 정보를 인코딩하는 단계를 포함한다.

Description

비디오 압축에 대한 인코더 보조-프레임 레이트 업 컨버젼(ＥＡ-ＦＲＵＣ)을 위한 방법 및 장치{METHOD AND APPARATUS FOR ENCODER ASSISTED-FRAME RATE UP CONVERSION (EA-FRUC) FOR VIDEO COMPRESSION}

여기에 설명된 실시예들은 일반적으로 디지털 비디오 압축에 관한 것이며, 더욱 상세하게는, 비디오 압축에 대한 인코더 보조-프레임 레이트 업 컨버젼(EA-FRUC)을 위한 방법 및 장치에 관한 것이다.

본 특허 출원은 출원번호가 60/589,901이고 출원일이 2004년 7월 20일이고 발명의 명칭이 "Encoder Assisted Frame Rate Up Conversion"이며, 본 출원의 양수인에 의해 양수되고 여기에 참조로서 통합된 미국 특허 가출원에 대한 우선권을 주장한다.

다양한 프레임 레이트들을 지원하는 비디오 포맷들이 오늘날 존재한다. 다음의 포맷들은 현재 가장 널리 보급된 것들이며, 이들에 의해 지원되는 초당 프레임(fps)에 의해 순서대로 나열되어 있다: 24 (원래의 필름), 25 (PAL), 30 (전형적으로 인터레이스된 비디오) 및 60 (고화질(HD), 예를 들어, 720p). 이러한 프레임 레이트들이 대부분의 애플리케이션들에 적합하더라도, 모바일 핸드셋 비디오 통신 을 위해 요구되는 낮은 대역폭을 달성하기 위해서는, 프레임 레이트들은 때때로 15, 10, 7. 5 또는 3 fps와 같은 낮은 레이트로 떨어지게 된다. 이러한 낮은 레이트들이 몇몇 비디오를 디스플레이하기 위한 보다 낮은 계산 능력을 가지는 로우 엔드 디바이스들을 허용하더라도, 결과적인 비디오 품질은 움직임의 부드러움 보다는 "갑작스러운 움직임(jerkiness)"(즉, 슬라이드쇼 효과를 가짐)으로 인하여 떨어지게 된다. 또한, 드롭된 프레임들은 종종 비디오의 모션의 양을 정확하게 트래킹하지 않는다. 예를 들어, 스포츠 이벤트들에서 발생하는 것과 같은 "고속 동작(high motion)" 비디오 컨텐트 부분들에서는 프레임들이 거의 드롭되지 않아야 하는 반면에, 토크쇼에서 발생하는 것과 같은 "저속 동작" 비디오 컨텐트 세그먼트들에서는 더 많은 프레임들이 드롭될 수 있다. 비디오 압축은 컨텐트 종속적일 필요가 있으며, 비디오 압축 효율성을 향상시키기 위해서 코딩될 시퀀스의 모션 및 텍스쳐(texture) 특성들을 분석하고 통합할 수 있도록 하는 것이 바람직할 것이다.

프레임 레이트 업 컨버젼(FRUC: Frame Rate Up Conversion)은 재구성된 비디오의 프레임 레이트를 증가시키기 위해 비디오 디코더에서 비디오 보간을 이용하는 프로세스이다. FRUC에서, 보간된 프레임들은 레퍼런스들로서 수신된 프레임들을 사용하여 생성된다. 현재, FRUC 프레임 보간을 구현하는 시스템들은 모션 보상 보간과 전송된 모션 벡터들의 프로세싱에 기반한 접근법들을 포함한다. FRUC는 또한 다양한 비디오 포맷들 사이에서의 변환을 위해 사용된다. 예를 들어, 필름 및 비디오 사이의 각각의 컬러 프레임 레이트 차이들을 조정하는 필름-대-비디오테입 전달 기법인, 텔레시네(Telecine) 및 역 텔레시네 애플리케이션들에서, 프로그레시브 비디오(24 프레임/초)는 NTSC 인터레이스된 비디오(29. 97 프레임/초)로 변환된다.

다른 FRUC 접근법은 모션 추정 및 블록 기반 프로세싱의 결함들에 의해 야기되는 블록 압축 가공물(artifact)들을 줄이기 위해 가중-적응 모션 보상 보간(WAMCI)을 이용한다. 이러한 접근은 다수의 모션 보상 보간(MCI) 이미지들의 가중합에 의한 보간에 기초한다. 블록 경계들에 있는 블록 압축 가공물들은 또한 오버랩된 블록 모션 보상(OBMC)과 유사한 기법을 적용함으로써 제안된 방법에서 줄어들게 된다. 구체적으로, 오버랩된 영역들을 처리하면서 블러링(blurring)을 줄이기 위해서, 상기 방법은 블록 모션 타입을 결정하도록 모션 분석을 이용하고 적응적으로 OBMC를 적용한다. 실험에 의거한 결과들은 제안된 접근법이 블록 압축 가공물들을 상당하게 줄여서 결과들을 향상시킨다고 제시하고 있다.

또다른 FRUC 접근법은 인코더로부터 부정확하게 전송된 임의의 모션 벡터들의 사용에 의해 야기되는 압축 가공물들을 줄이기 위해 벡터 신뢰성 분석을 이용한다. 이러한 접근법에서, 프레임 해석을 위한 가장 바람직한 접근법을 결정하기 위해 전송된 모션 벡터들과 비교되는 모션 벡터들을 구성하도록 모션 추정이 이용된다. 모션 추정을 이용하는 기존의 업-컨버젼 알고리즘들에서, 추정 프로세스는 프레임이 보간되도록 허용하는 모션 벡터들을 구성하기 위해 두 개의 인접한 디코딩된 프레임들을 이용하여 수행된다. 그러나, 이러한 알고리즘들은 모션 추정 연산을 위해 요구되는 계산의 양에 대한 고려없이 전송 대역폭의 활용을 향상시키도록 시도한다. 이와 비교하여, 전송된 모션 벡터들을 이용하는 업-컨버젼 알고리즘들에서는, 보간된 프레임들의 품질은 인코더에 의해 획득된 모션 벡터들에 크게 의존 한다. 이러한 두가지 접근법들의 조합을 이용하여, 전송된 모션 벡터들은 먼저 이들이 보간 프레임들을 구성하는데 사용될 수 있는지 여부를 결정하기 위해 분석된다. 그 다음에 보간을 위해 사용되는 상기 방법은 적응적으로 세 가지 방법들로부터 선택된다: 로컬 모션-보상 보간, 글로벌 모션-보상 보간 및 프레임-반복 보간.

FRUC 기법들은 일반적으로 비디오 디코더의 후-처리 기능들로서 구현됨에도 불구하고, 그리하여 비디오 인코더는 전형적으로 이러한 동작에 포함되지 않는다. 그러나, 인코더-보조(encoder-assisted) FRUC(EA-FRUC)로서 지칭되는 접근법에서는, 여전히 디코더가 제거되는 벡터 또는 잔여 데이터 없이 독립적으로 프레임들의 중요 부분들을 재생성하도록 허용하면서, 인코더는 모션 벡터들 또는 기준 프레임들(예를 들어, 잔여 데이터)과 관련된 특정 정보의 전송이 제거될 있는지 여부를 결정할 수 있다. 예를 들어, 양방향 예측 비디오 코딩 방법은 MPEG-2에서 B-프레임 코딩을 향상시킨 방법으로서 소개되어 있다. 이러한 방법에서, 모션-보상 예측 코딩에서 실제 모션 벡터들의 애플리케이션을 인에이블하기 위해 에러 기준의 사용이 제안된다. 왜곡 측정은 절대차 합계(SAD)에 기반하지만, 이러한 왜곡 측정은 특히 시퀀스에 있는 두 개의 프레임들 사이의 모션 양이 한정되어야 할 필요가 있는 실제 왜곡 측정을 제공하는데 있어서는 불충분하다고 알려져 있다. 또한, 임계치 변동에 대한 분류들은 가급적이면 컨텐트 종속적이기 때문에, 이러한 임계치들이 가변적이어야 하는 경우에 임계치들의 변화는 고정된 임계치들을 이용하여 분류된다.

EA-FRUC에 대한 연구 분야는 관심이 증대되고 있는 분야이다. 비디오 압축 에 대한 이러한 영역, 특히 스트리밍 비디오 및 비디오 전화와 같은 저 비트-레이트 애플리케이션들에 대하여 관심이 증대되고 있으며, 또한 전송자가 높은 복잡성을 가지는 애플리케이션들을 지원할 수 있는 네트워크 노드에 존재하며 수신자가 전력 및 복잡성 제약들을 가지고 있는 핸드헬드인 경우에 있어서 관심이 증대되고 있다. EA-FRUC는 또한 디코더가 임의의 표준 또는 널리 보급된 비디오 코딩 기술을 따르는 오픈 시스템과 독점적인 디코딩 기법들이 채택될 수 있는 닫힌 시스템들에 대한 애플리케이션을 제시하고 있다.

바람직한 것은 저-전력 프로세싱에 의존하는 멀티미디어 모바일 장치들에 적합하도록 보간을 수행하기 위해 필요한 정보를 전송하는데 필요한 대역폭의 양을 줄이고 또한 보간된 프레임들을 생성하는데 필요한 계산의 양을 줄이면서, 높은 품질의 보간된 프레임들을 디코더에서 제공할 수 있는 기법이다.

따라서, 위에서 논의된 이슈들을 극복할 필요가 있다.

본 발명의 실시예들은 압축 효율 및 재구성된 비디오 품질을 향상시키기 위해 디코더에서 발생하게 되는 FRUC 프로세싱을 이용하도록 비디오 인코더에서의 비디오 코딩 및 전-처리 연산들을 이용하는 인코더 보조 프레임 레이트 업 컨버젼(EA-FRUC) 시스템을 제공한다.

일 실시예에서, 본 발명의 프로세스는 프레임들의 시퀀스에 있는 프레임의 공간 활성도(spatial activity)를 결정함으로써 비디오 컨텐트의 프레임들의 시퀀스에 있는 프레임을 인코딩할 것인지 여부를 결정하는 단계; 상기 프레임의 시간 활성도(temporal activity)를 결정하는 단계; 결정된 공간 활성도, 결정된 시간 활성도 및 결정된 공간-시간 활성도(spatio-temporal activity) 중 적어도 하나의 리던던시(redundancy)를 결정하는 단계; 및 결정된 리던던시가 미리 결정된 임계치보다 낮으면 상기 프레임을 인코딩하는 단계를 포함한다.

다른 실시예에서, 본 발명의 프로세스는 프레임들의 시퀀스에 있는 프레임들의 세트에서 공간 활성도를 결정함으로써 비디오 컨텐트의 프레임들의 시퀀스에 있는 하나 이상의 프레임들의 세트를 인코딩할 것인지 여부를 결정하는 단계; 상기 프레임들의 세트에서 시간 활성도를 결정하는 단계; 결정된 공간 활성도, 결정된 시간 활성도 및 결정된 공간-시간 활성도 중 적어도 하나의 리던던시를 결정하는 단계; 및 결정된 리던던시들이 미리 결정된 임계치들의 세트 내에 있으면 하나 이상의 상기 프레임들의 세트를 인코딩하는 단계를 포함한다.

다른 실시예에서, 프레임들의 시퀀스를 포함하는 비디오 시퀀스의 구성을 위 한 방법을 컴퓨터가 실행하도록 하기 위해 저장된 명령들을 포함하는 컴퓨터 판독가능 매체가 제시된다. 상기 방법은 프레임들의 시퀀스에 있는 프레임의 공간 활성도를 결정하는 단계; 상기 프레임의 시간 활성도를 결정하는 단계; 결정된 공간 활성도 및 결정된 시간 활성도 중 적어도 하나의 리던던시를 결정하는 단계; 및 결정된 리던던시가 미리 결정된 임계치보다 낮으면 상기 프레임을 인코딩하는 단계를 포함한다.

다른 실시예에서, 프레임들의 시퀀스를 포함하는 비디오 시퀀스의 구성을 위한 장치가 제시된다. 상기 장치는 프레임들의 시퀀스에 있는 프레임의 공간 활성도를 결정하기 위한 수단; 상기 프레임의 시간 활성도를 결정하기 위한 수단; 결정된 공간 활성도 및 결정된 시간 활성도 중 적어도 하나의 리던던시를 결정하기 위한 수단; 및 결정된 리던던시가 미리 결정된 임계치보다 낮으면 상기 프레임을 인코딩하기 위한 수단을 포함한다.

또다른 실시예에서, 프레임들의 시퀀스를 포함하는 비디오 시퀀스의 구성을 위한 방법을 구현하도록 구성된 적어도 하나의 프로세서가 제시된다. 상기 방법은 프레임들의 시퀀스에 있는 프레임의 공간 활성도를 결정하는 단계; 상기 프레임의 시간 활성도를 결정하는 단계; 결정된 공간 활성도 및 결정된 시간 활성도 중 적어도 하나의 리던던시를 결정하는 단계; 및 결정된 리던던시가 미리 결정된 임계치보다 낮으면 상기 프레임을 인코딩하는 단계를 포함한다.

다른 목적들, 특징들 및 장점들은 다음의 상세한 설명으로부터 당업자에게 명백할 것이다. 그러나, 예시적인 실시예들을 나타내면서, 상세한 설명 및 구체적 인 예들은 설명의 목적으로 제공되는 것인지 발명을 한정하기 위한 것이 아니라는 것을 이해하도록 한다. 다음의 설명에 제시되는 많은 변경들 및 변형들은 본 발명의 범위를 벗어남이 없이 이루어지며, 본 발명에 대한 설명은 이러한 모든 변형들을 포함한다는 것을 이해하도록 한다.

본 발명의 다음의 도면들과 관련하여 보다 용이하게 이해될 수 있다.

프레임 레이트 업 컨버젼(FRUC)은 저비트 레이트 비디오 전송에 있어서 디코더에서 프레임 레이트를 증가시키기 위한 기법이다. 전형적으로, 이것은 디코더의 연산이다. 그러나, 디코더에서 FRUC 알고리즘에 대한 필요성을 미리 고려함으로써, 비디오 인코더는 전체적인 압축된 비트 레이트를 증가시켜서 - 그리하여 압축 효율성을 향상시키기 위해 비디오 시퀀스에 있는 프레임 또는 프레임들이 드롭(즉, 디코더로 전송되지 않음)될 수 있는 현명한 결정들을 행할 수 있다. 인코더 보조-FRUC(EA-FRUC) 시스템의 일 실시예에서, 여기에 설명되는 바와 같이, 인코더는 디코더에서 사용되는 FRUC 알고리즘에 대한 선행 지식을 가지고 있을 뿐만 아니라 소스 프레임들에 대한 액세스를 가지고 그와 함께 생성된 보간 프레임을 사용하며, FRUC를 수행하는 디코더를 보조하고 보간 동안 이루어지는 결정들을 향상시키기 위해 추가적인 정보를 전송한다. FRUC가 디코더에서 수행될 것이라는 지식을 이용하여, EA-FRUC 시스템은 압축 효율성(그에 따라 전송 대역폭의 활용을 향상시킴)과 재구성된 비디오 품질을 향상시키기 위해 비디오 인코더에서의 비디오 코딩 및 전-처리 연산들을 이용한다. 구체적으로, 인코더에 의해 정상적으로 전송된 정보를 보충하거나 또는 교체할 수 있는 인코더로부터의 정보가 정규 또는 인코더 보조 FRUC에서 사용되도록 디코더로 제공된다.

일 실시예에서, 인코더에 의해 제공되는 정보는 디코더에서 보간되는 이미지의 공간(예를 들어, 정밀함(refinement), 모드 결정들, 인접 특성들) 및 시간(예를 들어, 모션 벡터(들) 결정) 특성들과 같은 파라미터들을 포함할 뿐만 아니라, 정상적인 예측(B 또는 P) 프레임 코딩과 FRUC 프로세스에 의해 생성되는 보간된 프레임과 관련된 차이 정보를 포함한다. FRUC 프로세스에 의해 보간된 프레임들은 여기에서 "F-프레임들"로 지칭될 것이다.

도 1은 일 실시예에 따라 구성된 비디오 인코딩/디코딩("코딩") 시스템(100)을 나타낸다. 코딩 시스템(100)은 전송을 위한 데이터와 하나 이상의 디코더들에 의한 디코딩을 최적화하기 위해 디지털 비디오 데이터를 처리하는 비디오 인코더(104)를 포함한다. 구체적으로, 일 실시예에서, 비디오 인코더(104)는 비디오(102)를 디코더(154)로 전송하기 위해 요구되는 대역폭을 줄이도록 입력 소스 비디오(102)를 인코딩하고 압축하기 위한 비디오 인코딩 알고리즘을 사용한다. 비디오 인코더(104)의 압축 효율은 다양한 방법들을 통해 향상될 수 있으며, 이러한 방법들 중 하나는 전송된 프레임 레이트 감소(즉, 전송되어야 하는 프레임들의 개수 감소)를 통해 이루어진다. 그 다음에 FRUC 메커니즘들은 디코딩된 비디오 스트림의 프레임 레이트를 증가시키고 모션 해석(rendition)을 향상시키기 위해 디코더(154)에서 사용된다. 구체적으로, 디코더(154)는 인코더(104)로부터 수신된 인코딩된 비디오 스트림에 있는 기준 프레임들을 사용하여 보간된 프레임들을 생성한 다. 여기서 추가적으로 설명되는 바와 같이, 비디오 인코더(104)는 인코딩 연산 동안에 FRUC를 수행하기 위한 비디오 디코더(154)의 기능에 대하여 "알고 있으며(aware)", 전송되는 프레임들의 수 및 크기를 줄이기 위해 이러한 가능성을 이용한다.

F 프레임들의 분석

일 실시예에서, 코딩 시스템(100)의 인코더(104)는 (i) 비디오 시퀀스의 각각의 프레임과 (ii) 비디오 시퀀스에 있는 프레임들 사이에서 공간 및 시간 복잡도를 결정하기 위해 컨텐트 분류 모듈(106)을 포함한다. 인코더(104)는 (i) 영상들의 그룹(GOP: Group of Pictures)으로 알려져 있는, 프레임들의 시퀀스에 있는 프레임들이 드롭될 수 있는지 여부와, (ii) 얼마나 많은 연속적인 프레임들이 두 개의 코딩된 프레임들 사이에서 드롭될 수 있는지를 결정하기 위해 이러한 연산의 결과를 이용한다. 정의에 의해, 각각의 GOP는 배치된 하나의 I 영상(프레임)과 P 영상(프레임) 및 하나 이상의 B 영상들(프레임)로서 구성된다. GOP는 랜덤 액세스를 용이하게 하기 위해 액세스 포인트로서 서비스되는 I 프레임을 가지는 기본 액세스 유니트로서 제공된다. GOP는 가변적인 개수의 프레임들로 구성될 수 있다는 것을 유의하도록 한다. 임의의 드롭된 프레임들은 디코더(154)에서 알려진 FRUC 기법들을 이용하여 필요에 따라 적절하게 재구성될 것이다. 일 실시예에서, 다음의 방법들 중 하나가 분석을 위해 채택될 수 있다:

1. 시퀀스에 있는 활성도(예를 들어, 느린 동작 대 빠른 동작, 평평한 구역들 대 복잡한 텍스쳐)에 의존하여 시퀀스에 있는 각각의 프레임에 대한 중요도를 분류(rank)하고, 그 다음에 시퀀스에 있는 모든 가장 상관도가 높은 프레임들을 드롭(버림)시킨다.

2. 디코더(154)에서 이용가능한 FRUC 알고리즘은 예측되는 FRUC 프레임을 구성하기 위해 인코더(104)에서 사용된다. 소스 프레임과 소스 프레임의 보간된 버전 사이의 상관도가 높으면, 소스 프레임은 드롭된다. 대안적으로, 소스 프레임이 B-프레임으로서 인코딩되고 재구성된 B-프레임이 자신의 보간된 버전과 상관도가 높으면, 이러한 상관도가 높은 B-프레임은 드롭된다. 그렇지 않으면, 소스 프레임은 인코딩되고 전송된다. 소스 프레임과 보간된 프레임 또는 B-프레임과 보간된 프레임 사이의 상관이 적당한 정도이면, 프레임의 넌-리던던트(non-redundant)한 부분은 프레임과 대응하는 소스 프레임과 관련하여 보간된 프레임의 품질을 향상시키기 위해 사용되는 보조 정보로서 코딩된다.

도 2는 소스 컨텐트를 분류하기 위해 코딩 시스템(100)에 의해 이용되는 프로세스의 일 실시예를 나타낸다. 일 실시예에 있어서, 단계 208에서 소스 컨텐트의 인코딩 성능을 위한 임의의 레이턴시(latency) 제약들이 존재하는지 여부가 결정된다. 예를 들어, 레이턴시 요구들(예를 들어, 비디오 전화와 같은 대화형 비디오를 전달하는 스트림들)에 의해 제한되는 실시간 스트리밍 애플리케이션들 또는 인코더들은 전형적으로 하나의 패스(pass)에서 모든 인코딩 연산들을 완료해야 한다. 이러한 경우에, 연산은 단계 208에서 계속되며, 여기서 1-패스 인코딩 프로세스가 수행된다. 반면에, 인코딩된 비디오가 저장되고 그리하여 타이밍 자원들과 관련하여 어떠한 제약들도 인코딩 연산에 적용되지 않는, 주문형 비디오(VOD)와 같 은 대화형이 아닌 비디오, 디지털 카메라 및 캠코더 애플리케이션들은 단계 216에서와 같이 2-패스 인코딩을 이용하여 처리될 수 있다. 여기서 설명되는 바와 같이, 이러한 차이점들 때문에, 두 개의 모드들에 대하여 코딩 시스템들(100)에 의해 수행되는 컨텐트 분류의 범위와 성질은 가변적이다.

공간 활성도

도 2와 관련하여 그리고 다시 도 1과 관련하여, 공간 활성도는 단계 210에서 컨텐트 분류 모듈(106)에 의해 결정된다. 구체적으로, 컨텐트 분류 모듈(106)은 비디오 소스(102)의 공간 활성도의 양을 결정한다. 일 실시예에서, 공간 활성도는 비디오 시퀀스의 이미지 프레임들에 있는 가장자리(edge), 순도가 가장 높은 색(saturated color) 및 높은 콘트라스트(contrast) 객체들과 같은 텍스쳐 정보의 양을 지칭한다. 일반적으로, 비디오 시퀀스에 있는 텍스쳐 정보의 양이 많을수록, 공간 활성도는 더 커진다. 일 실시예에서, 텍스쳐 정보는 다음의 측정들을 이용하여 양이 정해질 수 있다:

a. 평균: 블록-기반 코딩에서, 각각의 블록의 평균은 (i) 프레임의 평균 또는 (ii) 가변적인 크기들을 가지는 인접한 블록들의 평균과 비교된다.

b. 분산: 각각의 매크로블록에 있는 픽셀 분산의 양은 공간 활성도를 결정하기 위해 미리-결정된 데이터-종속 임계치와 비교될 수 있다. 대안적으로, 블록들은 분산 및 평균 측정들에 기반하여 분류될 수 있으며, 이러한 경우에 상이한 임계치들이 평균값들의 상이한 범위들에 대하여 사용될 수 있다.

c. 가변 블록 크기/형태 평균 및 분산: 평균 및 분산 측정들은 가변적인 블 록 크기들과 이미지 또는 프레임의 임의의 크기(또는 형태)의 영역들로 정해진 객체들로 확대될 수 있다.

d. 콘트라스트 비(Contrast Ratio): (i) 블록, 영역 또는 객체의 표준편차와 (ii) 영역 또는 인접 블록들(예를 들어, 3x3 블록)의 평균의 비는 인접한 엘리먼트들 내에서 콘트라스트에 대한 측정을 제공하기 위해 사용될 수 있다. 추가적으로, 콘트라스트-비는 평균값들에 기반하여 가중될 수 있다. 구체적으로, 주어진 블록 또는 매크로블록의 콘트라스트 비는 현재 블록의 평균과 인접한 모든 블록들의 평균에 의해 정규화된 인접 블록들의 평균(인접한 3x3 9개의 블록들에 있는 8개의 인접 블록들)의 차이들의 합으로서 표현된다. 이러한 측정은 상당한 정교성(granularity)을 공간 텍스쳐 정보로 제공하며, 공간 텍스쳐 정보는 공간 활성도로 해석되고 (또한 ABSDCT로 알려져 있는) 가변 블록 크기 DCT에 대한 블록 분할 알고리즘으로서 성공적으로 사용된다.

e. 모션 벡터 필드: 예측된 프레임들(예를 들어, P 또는 B 프레임들)에서, 예측된 프레임의 매크로블록들의 모션 벡터들(및 서브블록들의 모션 벡터들)은 모션 벡터 필드를 형성하기 위해 매핑될 수 있다. 이러한 필드들은 이상치(outlier) 모션 벡터들을 평탄하게 하기 위한 모션 벡터 프로세싱을 위해 사용되며, 일반적으로 (i) 시퀀스에 있는 전체 모션; (ii) (예를 들어, 모션 벡터 필드의 강도, 밀도 및/또는 크기에 기반하는) 프레임들의 다양한 객체들에 대한 모션 활성도; 및 (iii) 프레임에 있는 이동 객체들의 수에 대한 표시자들이다. 모션 활성도 레벨은 또한 시퀀스에 걸쳐서 (가장자리들에 대한 탐지를 요구하는) 객체들과 (영역들 사 이의 차이값들에 대한 탐지를 요구하는) 변화성(variability) 모두를 탐지하기 위해 모션 활성도 프로세스에 의한 탐지 필요성에 기인하여 특정 시퀀스의 공간 활성도에 대한 표시를 제공한다.

f. 가장자리 탐지: 이미지 프로세싱에서의 가장자리 탐지 알고리즘들은 전형적으로 소벨(Sobel) 필터와 같은 고역 통과 필터를 특정한 윈도우(예를 들어, 3x3 또는 5x5 영역)에 걸쳐서 이미지에 있는 픽셀들로 적용하며, 그 다음에 필터링된 출력은 가장자리의 존재를 결정하기 위해 임계치와 비교된다. 탐지된 가장자리들에 대한 도표와 가장자리들의 양은 공간 활성도의 표시로 제공된다.

g. 이미지 프로세싱과 관련된 당업자들에 알려진 바와 같이 공간 활성도에 대한 다양한 다른 표시자들이 존재하며, 임의의 이러한 측정은 도 2에 도시된 프로세스에 적용될 수 있다.

시간 활성도

단계 212에서, 시간 활성도는 컨텐트 분류 모듈(106)에 의해 결정된다. 비디오 시퀀스에 있는 모션의 양은 비디오 시퀀스를 압축하는데 사용될 수 있는 비디오 시퀀스의 프레임들에 있는 시간 상관과 리던던시의 양을 결정한다. 일 실시예에서, 시간 활성도의 양을 측정하는 것은 다음의 접근들 중 하나를 통해 결정된다:

a. 모션 벡터 필드: 이러한 측정은 보간된 프레임에 대한 모션 벡터 필드를 구성하기 위해 공간 활성도 모듈(210)에 대하여 위에서 설명된 바와 같이 동일한 접근법을 이용하며 그 다음에 모션 벡터 필드를 분석한다.

b. 예측된 프레임 크기: 예측된 프레임의 크기는 프레임의 엔트로피에 대한 표시자이며, 이는 예측된 프레임에 있어서, 예측된 프레임 크기는 예측으로부터의 모션 벡터들과 나머지들을 코딩하기 위해 요구되는 비트들의 수에 의존하기 때문이다. 일반적으로, 모션(또는 시간 활성도)의 양이 많을수록, 예측된 프레임들에서 코딩되어야 할 엔트로피가 커지게 된다.

c. MPEG-7 서술자: MPEG-7 모션 활성도 서술자(MAD)는 비디오 시퀀스의 "액션 강도(intensity of action)" 또는 "페이스(pace)"에 대한 인간의 지각을 "캡쳐"하도록 시도한다. 예를 들어, 축구 게임에서 골을 득점하는 순간은 대부분의 인간 시청자들에 의해 "하이 액션" 시퀀스로 인식될 것이다. 이와 비교하여, 대화하는 사람의 "머리 및 어깨"는 동일한 시청자들에 의해 확실하게 "로우 액션" 시퀀스로 인식될 것이다. MPEG-7 MAD는 통상적인 비디오에서 액션 강도의 전체 범위를 정확하게 캡쳐하도록 제시되었다. MPEG-7 MAD는 비디오 세그먼트들을 매우 낮은 강도에서 매우 높은 강도까지의 범위에서 5가지 계층으로 분류하기 위해 모션 벡터들의 양자화된 표준편차를 이용한다.

d. 모션 활성도: 모션 활성도 서술자는 효율적인 컨텐트 분석, 인덱싱, 브라우징 및 비디오 데이터 모션 활성도의 조회에 대한 문제들을 언급하고, MPEG-7 표준의 서술자로서 포함되었으며, 여기서 비디오 데이터 모션 활성도는 비디오 시퀀스의 모션 양으로서 정의된다. 제안된 기법은 주어진 비디오 세그먼트의 프레임들 중에서 양자화된 픽셀 차이들의 누적(accumulation)을 이용하여 자동적으로 모션 활성도를 측정하도록 시도한다. 그 결과, 각각의 장면의 누적된 모션은 2차원 행렬로서 표현된다. 이러한 행렬들을 비교하고 효과적으로 각각의 장면의 다양한 모션들을 표현하는 MAD들을 생성하기 위한 스케일가능한 기법이 또한 제공된다. 모션의 정도(양)뿐만 아니라 모션의 위치들이 계산되고 표시된다.

위의 공간 및 시간 활성도 측정들 모두는 단지 예시들이다. 다른 실시예들에서, 임의의 그리고 모든 이러한 알고리즘들은 프레임에서 그리고 프레임들 사이에서 공간 및 시간 활성도의 레벨을 평가하고 등급을 매기기 위한 간단한 임계치를 사용하여 이용될 수 있다.

공간-시간 활성도

단계 214에서, GOP 및 프레임들을 통한 공간 활성도 절대치의 변화량(분산)과 같은 인접 프레임들 또는 프레임들의 세트 사이의 공간 활성도 절대치는 단순한 프레임 차이들 및/또는 프레임들 사이의 상관도를 결정하기 위한 분산 및 첨도(kurtosis)와 같은 고차원 통계들을 이용하여 측정된다.

대안적으로, 콘트라스트 비의 원리들은 공간-시간 활성도 측정을 제공하기 위해 시간 도메인으로 확장된다.

리던던시의 결정

단계 212에 의해 결정된 시간 또는 모션 활성도 메트릭들과 관련하여 단계 210에서 결정된 공간 활성도 메트릭들은 주어진 시퀀스에 대하여 전제적인 공간 시간 활성도를 결정하기 위해 사용된다. 예를 들어, 하이브리드 비디오 압축에서, 시퀀스에 있는 첫번째 프레임(예를 들어, 랜덤 액세스 포인트 또는 장면 전환 후 첫번째 프레임)이 - 전형적으로 임의의 시간 예측과 독립적으로 인코딩된다. 이러한 첫번째 프레임은 I 프레임으로 지칭된다. 시퀀스에 있는 다음 프레임들은 I 프 레임 또는 이전에 논의된 바와 같이 P 또는 B 프레임들로 지칭되는 다른 이전의 프레임(들)로부터 현저하게 예측된다. 일 실시예에서, 비디오 소스 시퀀스의 기준 프레임 및 예측 프레임 사이의 리던던시는 아래 방법들을 사용하여 결정될 수 있다.

a. 상관(correlation): 기준 프레임의 등가의 동일위치(collocated) 유닛에 대한 (i) 하나 이상의 매크로블록; (ii) 프레임의 다른 기본 유닛들; 또는 (iii) 전체 예측 프레임의 픽셀들 중 2개의 엘리먼트의 상관이 리던던시를 결정하기 위해서 수행될 수 있다. 이러한 처리 방법은 계산적으로 값비싼 연산이지만, 리던던시에 대한 정확한 추정치를 제공한다.

b. 모션 벡터: 매크로블록들의 이웃에서 그리고 전체 프레임에 대해서, 모션 벡터들의 크기 및 상관은 기준 프레임 및 예측 프레임들 사이에서 비교된다. 그리고 나서, 모션 벡터 평탄화(smoothing) 또는 다른 모션 벡터 처리가 적용되어 모션 벡터 분산을 결정하거나, 또는 활성도에 기반하여 모션 필드들을 분류한다.

c. 중요도: 그리고 나서, 각 매크로블록 또는 매크로블록들의 윈도우가 리던던시 레벨에 따라 낮음, 중간, 높음으로 등급이 매겨진다. 낮은 리던던시 블록은 양-방향성 예측을 사용하여 B-프레임들로 코딩되고, 중간 리던던시 블록은 디코더에 다음 정보들 중 하나 이상을 제공한다: 디코더 FRUC에서 모션 벡터 처리 결과들을 정교하게 하기 위한 모션 벡터, 텍스쳐의 차이를 정교하기 위한 잔여(residue) 정보, DC 오프셋 형태의 휘도 쉬프트 정보 등. 높은 리던던시 블록은 FRUC 보간 프레임의 대응하는 블록들과 잘 상관하는 블록이고, 스킵된다.

매크로블록 또는 매크로블록들의 윈도우 3x3에 대한 상술한 정보들 모두는 보조 정보로 지칭된다.

FRUC 에 대한 프레임들의 선택

소스 비디오의 리던던시의 양이 상술한 바와 같이 결정된 후에, 컨텐츠에 기반하여 분류가 이뤄진다. 일 실시예에서, 다양한 샘플 소스 데이터가 특정 애플리케이션에 대한 분류 파라미터들을 설정하기 위해서 이용되고, 따라서 코딩 시스템(100)은 그 실행에 의해 지원될 것이 기대되는 특정 컨텐츠로 튜닝된다. 이러한 분류 메커니즘은 정상 하이브리드 코딩에서 예측 프레임들의 사이즈를 사용한다. 일 실시예에서, 예측 프레임에 대한 보다 큰 리던던시 인자 및 보다 작은 사이즈를 사용할수록, 보간된 프레임이 인코딩 처리 동안 스킵될 확률이 커진다. 따라서, 이러한 프레임들은 전송 비디오 시퀀스에서 포함되지 않지만, 결과적으로 디코딩/FRUC 처리 동안 업 컨버트될 것이다.

상술한 메커니즘은 도3에 제시된 바와 같이 1-패스(one-pass) 및 저 복잡도 2-패스(two-pass) 인코딩에 적용되고, 이들은 이동 캠코더 애플리케이션과 같은 애플리케이션들에 유용하다; 이 경우, 완전한 또는 부분적인 제1 패스 인코딩 후에 뒤이어 완전한 제2 패스 인코딩을 수행하기 위해서 대기시간(latency) 및 프로세서 능력이 장치의 능력을 제한한다. 그러나, 인터넷 또는 무선 멀티미디어 서버 구현에서와 같이 인코더 복잡도가 중요하지 않은 경우, 정상적인 하이브리드 인코딩이 제1 패스에서 수행되고, 그리고 나서 공간 활성도(activity), 시간 활성도, 공간-시간 활성도가 도 4에 제시된 바와 같이 제2 패스에서 결정될 수 있다. 일 실시예 에서, 비디오 시퀀스의 예측된 프레임 사이즈들(예를 들면, 비디오 시퀀스의 P 및 B 프레임들의 프레임 사이즈들) 및 프레임 특성들(예를 들면, 모션 벡터 대 계수 데이터에 대한 비트들의 비율)에 기반하여, 저 비용(예를 들면, 낮은 전송 비용 프레임들)이 디코더(104)에서 드롭(drop)될 수 있고, 디코딩된 기준 프레임들을 사용하여 디코더(154)에서 재건될 수 있다. 또 다른 실시예에서, 작은 엔트로피가 인코더(104)에 의해 인코딩되고 디코더(154)로 전송되어 아래에서 설명되는 바와 같이 업-컨버젼 처리를 통해 디코더(154)를 보조할 수 있다. 보조의 목적이 비록 재건된 비디오의 품질을 향상시키는데 있지만, 모드 결정 처리 동안 올바른 결정을 하는데 있어서 디코더(154)의 FRUC 엔진(158)을 원조함으로써 디코더(154)에 대한 계산적인 부담을 경감시키는데 사용될 수도 있다.

소스 및 FRUC 보간된 프레임들 사이의 엔트로피 코딩

여기서 주지되는 바와 같이, EA-FRUC의 주요한 장점들 중 하나는 보간될 프레임에 대한 소스 프레임이 인코더에서 가용하다는 것이다. 따라서, FRUC 결정들은 소스 및 재건 프레임 사이의 에러를 최소화하도록 인도될 수 있다. 예를 들어, 여기서 제시되는 제안된 FRUC 처리 방법들은 모션 벡터 처리, 컨텐츠 식별 및 할당에 의존한다. 이러한 처리들에서, 교합(occlusion) 및 오버래핑 영역들의 보간은 어렵다. 그러나, 도1의 엔트로피 결정 모듈(108)에 의한 엔트로피 코딩을 사용하여, 이러한 영역들은 식별되고 적절한 사이드(side) 정보가 디코더(154)로 전송되어 FRUC 처리를 보조한다. 이러한 엔트로피 인코딩의 다른 애플리케이션은 특허출원번호 11/173,121, 제목 "Method and Apparatus for Using Frame Rate up Conversion Techniques in Scalable Video Coding"에 제시된 바와 같은 FRUC 처리의 스케일가능한 비디오 인코딩 애플리케이션들이다. 일 실시예에서, 엔트로피 결정 모듈(108)은 엔트로피 코딩을 위해 다음 측정치들을 사용할 수 있다:

1. 픽셀 차이 데이터: 재건된 FRUC 프레임 및 소스 프레임 사이의 픽셀 잔여(residue)가 전송을 위해 변환되고, 양자화되며, 엔트로피 코딩된다. 이러한 방법은 간단하다. 그러나, 인코딩 처리로부터의 임의의 잔존하는 잔여는 높은 에너지를 포함하고 잘 압축되지 않는다.

2. 임계화: 임계화는 SAD에 기반하기 보다는 활성도 (공간 또는 시간) 측정치 또는 인간 시각 시스템 마스킹 및 감응도에 기반한다. 인간 시각 시스템(HVS)은 컬러, 휘도, 콘트라스트 등과 같은 다양한 시각 효과들에 대한 인간 눈의 감응도를 기술하는 경험적 모델이다. SAD는 시각 품질 측면에 아니라 평균 자승 측면에서 에러를 최소화하는 것으로 알려져 있다.

3. 모션 벡터: 소스 프레임으로부터 큰 차이를 갖는 영역들에 대한 정확한 모션 벡터 데이터가 코딩 및 전송된다. 이러한 모션 벡터는 코절(casual) 및 넌-코절 방식으로 소스 및 재건 기준 프레임들을 사용하여 추정된다. 코절 코딩은 코딩/디코딩 순간에 이용가능한 정보(예를 들면, 디코딩 순서의 관점에서 이전 매크로블록들로부터의 정보)를 이용하는 예측 코딩이고, 넌-코절 코딩은 보간 정보(예를 들면, 다음 매크로블록으로부터의 정보)를 이용하는 보간 코딩이다.

4. B-프레임 인코딩: 상술한 특허 출원 제목 "Method and Apparatus for Using Frame Rate up Conversion Techniques in Scalable Video Coding"에서, B-프 레임 예측 동안 기준 프레임들 중 하나로서 FRUC-보간된 프레임을 사용하는 것이 설명된다. 이러한 방법은 전송된 텍스쳐 데이터에서 평균적으로 30% 감소를 제공할 수 있다.

5. 모드 기반: 상술한 B-프레임 인코딩 방법은 인코딩 B-프레임들의 기준 프레임으로서 보간된 프레임을 사용하는 것을 설명한다. 보간된 프레임을 사용할지에 대한 결정은 레이트(즉, 주어진 왜곡에 대한 비트 레이트를 최소화하기 위해서), 왜곡(주어진 타겟 비트 레이트에 대한 왜곡을 최소화하기 위해서), 및/또는 품질(즉, HVS 기반 또는 평균 자승 에러를 최소화하기 위해서, 주어진 타겟 비트 레이트에 대한 지각적인 품질에 기반한 품질을 측정하기 위한 메트릭)에 기반할 수 있다.

인코딩될 엔트로피가 결정되면, 일 실시예에서 호프만(Huffman) 또는 산술 코드들과 같이 일반적으로 사용되는 가변 길이 코드들이 데이터를 인코딩하는데 적용될 수 있다. 또한, 잔류들과 같은 라플라시안 분포를 갖는 데이터에 대해서, 고롬-라이스(Golomb-Rice) 또는 익스프-고롬(Exp-Golomb) 코드들이 사용될 수 있다.

비트스트림 생성

비디오 코딩 표준은 임의의 표준 정합 비디오 디코더에 의해 디코딩될 비트스트림을 정의한다. 그러나, 이러한 인코더 동작은 인코딩된 비트스트림이 재건 처리에서 표준-호환 디코더와 호환될 수 있는 한 임의의 인코더 기술이 사용될 수 있다는 점에서 "개방(open)"되어 있다. 디코더 능력들이 알려지지 않은 개방형(open-ended) 애플리케이션들에서, 표준-순응형(standard-compliant) 비트스트림 이 인코더에 의해 생성될 필요가 있고, 성능은 순응형 디코더에 대해 최적화된다. 일 실시예에서, 코딩 시스템(100)의 비트스트림 생성 모듈(112)은 표준-순응형 비트스트림 생성기(114), 표준 비-순응형 비트스트림 생성기(116), 및 독점(proprietary) 비트스트림 생성기(118)의 동작을 제어한다. 이러한 생성기들 각각의 동작은 아래에서 설명된다.

프로파일들 및 레벨들은 비디오 코딩 표준들에서 정의되는데, 왜냐하면 이들은 오디오-시각 객체들의 코딩을 위한 큰 세트의 툴들을 제공하기 때문이며, 표준들의 효과적인 실행들을 허용하기 위해서, 특정 애플리케이션들에 사용될 툴 세트의 서브셋들이 식별된다. "프로파일"로 지칭되는 이러한 서브셋들은 디코더가 실행하여야 하는 툴 세트의 툴들의 수를 제한한다. 또한, 각각의 이러한 프로파일들에 있어서, 하나 이상의 복잡도 레벨들이 설정되어 계산적인 복잡성을 제한한다.

순응형(compliant) 표준들 및 프로파일

무선 멀티미디어 통신에서 수신기들의 표준 순응형 디코더들이 전송된 스트림을 디코딩하기 위해서, 이러한 비디오 디코더들은 특정 프로파일들 및 레벨들을 따른다. 비록 FRUC 알고리즘들이 다양한 표준들에서 제공되지만, 이들은 일반적으로 표준 프로파일의 부분이 아니다. 따라서, EA-FRUC를 수용하기 위해서 비트스트림 신택스(syntax) 및/또는 시맨틱스(semantics)에 대한 어떠한 수정도 이뤄지지 않는 것이 바람직하다.

기존의 표준들을 따르기 위해서, 코딩 시스템(100)은 표준 순응형 신택스(순응형 프로파일)을 사용하여, "보조" 정보를 전송할 수 있다. 일 실시예에서, 표준 신택스는 EA-FRUC 처리를 실행하기 위해서 다음 방법으로 표준 순응형 생성기(114)에 의해 사용된다:

a. B-프레임 신택스: B-프레임들이 인헨스먼트 계층의 일부이고 단지 기본 계층만이 수신되거나, 또는 리던던트 매크로블록들이 스킵모드 매크로블록들이고 전체 B-프레임이 전송되지 않는 경우로 인해서, B-프레임들이 수신되지 않는 경우, 단지 보조 정보만이 정상적인 B-프레임 코딩을 통해 전송된다.

b. 리던던트 슬라이스 또는 픽쳐들; H.264는 이러한 신택스를 제공한다. 프레임들의 일부가 리던던트한 경우에 전체 슬라이스 또는 프레임이 전송될 필요가 없다. 슬라이스의 일부(약간의 중요한 매크로블록들) 또는 프레임의 일부(중요한 것으로 결정된 약간의 슬라이스)가 이러한 신택스를 사용하여 전송된다. 이러한 특징은 H.264에 정의된 모든 프로파일들 중 일부이다.

c. 보충 인헨스먼트 정보(SEI): SEI의 특정 필드들은 "보조" 정보를 전송하는데 사용될 수 있는 H.264의 프로파일들의 일부이다.

순응형 표준들, 비-순응형 프로파일

많은 비디오 코딩 표준들에서 툴 세트들은 표준에서 정의된 프로파일들에 순응하지 않는 개인(private) 데이터를 전달하기 위한 신택스 및 시맨틱스를 포함한다(즉, 툴들은 표준적인(normative) 기준들에 반대되는 정보를 제공한다). 분석된(parsed) 개인 데이터의 해석은 목적지 장치들에 특정될 수 있고, 폐쇄형 통신에서 이러한 특징은 성능을 개선하는데 이용될 수 있다. 일 실시예에서, 표준 비-순응형 비트스트림 생성기(116)는 이러한 표준 비-순응형 개인 데이터를 이용하여 이 러한 특징의 응용에서 FRUC에 "보조" 정보를 제공한다. 폐쇄 루프 시스템에서 개인 정보의 사용은 "보조" 정보의 전송에서 보다 많은 유연성을 제공하는데, 왜냐하면 이들을 이용하는데 필요한 디코더 수정들이 최소화되고 간단한 "플러그-인(plug-ins)" 또는 "애드-온(add-ons)"을 통해 인에이블될 수 있기 때문이다:

a. SEI의 특정 필드들: H.264의 프로파일들의 일부가 아닌 이러한 필드들은 "보조" 정보를 전송하는데 사용될 수 있다.

b. 사용자 데이터: MPEG-2 및 MPEG-4는 "보조" 정보를 전송하는데 사용될 수 있는 개인 데이터를 전달하는 신택스를 제공한다.

독점(proprietary)

독점 비트스트림 생성기(118)에서 제공되는 표준 비-순응형 독점 코덱은 여기서 제공되는 EA-FRUC 방법의 유연성을 증가시킨다. 구체적으로, (예를 들어, DCT, 정수, 하다마드, 웨이블릿, 객체, 광흐름, 또는 모르핑과 같은 변환들에 기반하여) 임의의 그리고 모든 비디오 압축 기술들은 EA-FRUC에 대해 위해서 설명한 바와 같이 압축 효율을 증가시키고 비트 레이트 감소를 달성하기 위해서 적용되는 비디오 보간에 대한 일반적인 알고리즘을 사용할 수 있다. 독점 코덱을 사용하는 장점은 비트스트림 생성기(118)의 독점 특성은 매우 유연한 플랫폼을 제공하여 모든 FRUC 및 EA-FRUC 알고리즘들을 이용할 수 있도록 하여 준다는 것이다. 표준들에 의해 도입되는 비트스트림 오버헤드(예를 들면, 총 비트 레이트의 25%를 점유하는 H.264의 매크로블록 헤더들)가 크게 감소되거나 제거될 수 있다. 조인트 소스-채널 코딩이 또한 가능하고, 이는 에러가 빈번한 채널들 상에서의 멀티미디어 전송에 특히 바람직하다. 예를 들어, 조인트 소스 및 전송 채널 확률, 분포 및 특성들을 이용하는 독점 방식은 코딩 시스템(100)이 특정 스트림을 우선 순위화하고(prioritize) 필요한 파라미터들 및 데이터를 추가하여 에러들로부터 복원될 수 있도록 하는 능력을 제공한다.

에러 은닉을 위한 FRUC 및 EA - FRUC

인기를 얻고 있는 무선 멀티미디어는 전송되는 비디오가 에러를 잘 복원하는 것을 필요로 하고, 비트, 패킷, 및 버스트 에러들을 숨길 수 있는 스마트 비디오 디코더들을 필요로 한다. 비디오 압축은 리던던시를 제거하고 압축 스트림에서 엔트로피를 증가시킨다. 그러나, 아이러니하게도, 리던던트 정보의 제거 및 엔트로피의 증가는 매우 중요하기 때문에 하나의 비트, 바이트 또는 패킷 데이터의 손실은 재건된 비디오 품질에 영향을 미칠 수 있다; 하나의 블록 손실에서부터 많은 매크로블록들 또는 슬라이스들에 이르기까지, 다음 I 또는 순시 디코딩 리프레쉬(IDR) 프레임이 정확하게 수신될 때까지 현재 GOP를 통해 전파됨. IDR은 순시 디코딩 리프레쉬(Instantaneous Decoding Refresh)를 나타내는 H.264 용어이다. IDR 픽쳐는 IDR 픽쳐를 디코딩하는데 필요한 액세스 유닛을 넘어서 어떠한 예측 정보도 존재하는 않는 비트스트림의 절대 리프레쉬 포인트(액세스 유닛)이다. 비디오 전화, 비디오 화상회의, 및 비디오 이메일과 같은 애플리케이션에서 에러가 발생하는 확률은 상당하고 에러 은닉이 중요하다. 에러들은 또한 대화형 애플리케이션들에서 대기시간에 영향을 미친다. 다행히, 다양한 형태의 FRUC에서 제공되는 프레임, 슬라이스, 매크로블록 및 블록 보간 및 보간-보조 알고리즘(예를 들면, 모 션 벡터 할당 및 모션 벡터 처리)이 에러 은닉을 위해 사용될 수 있다.

도5는 액세스 단말(502x) 및 액세스 포인트(504x)의 블록 다이어그램이며, 여기서 디코더(154) 및 인코더(104)는 EA-FRUC 시스템(100)의 애플리케이션에서 각각 위치한다. 역방향 링크에 대해, 액세스 단말(502x)에서, 송신(TX) 데이터 프로세서(514)는 데이터 버퍼(512)로부터 트래픽 데이터를 수신하고, 선택된 코딩 및 변조 방식에 따라 각 데이터 패킷을 처리하며(예를 들면, 인코딩, 인터리빙, 및 심벌 매핑), 데이터 심벌들을 제공한다. 데이터 심벌은 데이터에 대한 변조 심벌이며, 파일럿 심벌은 파일럿에 대한 변조 심벌이다. 변조기(516)는 데이터 심벌, 파일럿 심벌, 및 역방향 링크에 대한 시그널링을 수신하고, (예를 들면 OFDM) 변조 및 시스템에 의해 규정된 다른 처리를 수행하고, 출력 칩 스트림을 제공한다. 송신기 유닛(TMTR)(518)은 출력 칩 스트림을 처리하여(예를 들면, 아날로그 변환, 필터링, 증폭, 및 주파수 업컨버팅), 변조된 신호를 생성하고, 변조된 신호는 안테나(520)를 통해 전송된다.

액세스 포인트(504x)에서, 액세스 단말(502x) 및 액세스 포인트(504x)와 통신하는 다른 단말들에 의해 전송된 변조된 신호들은 안테나(552)에 의해 수신된다. 수신기 유닛(RCVR)(554)은 안테나(552)로부터 수신된 신호를 처리하여(예를 들면, 컨디셔닝 및 디지털화), 수신된 샘플들을 제공한다. 복조기(556)는 수신 샘플들을 처리하여(예를 들면, 복조 및 검출) 검출된 데이터 심벌들을 제공하고, 이러한 검출된 데이터 심벌들은 단말들에 의해 액세스 포인트(504x)로 전송된 데이터 심벌들의 잡음 있는 추정치이다. 수신(RX) 데이터 프로세서(558)는 각 단말에 대해 검출 된 데이터 심벌들을 처리하여(예를 들면, 심벌 디매핑, 디인터리빙, 및 디코딩), 그 단말에 대한 디코딩된 데이터를 제공한다.

순방향 링크의 경우, 액세스 포인트(504x)에서, 트래픽 데이터는 송신 데이터 프로세서(560)에 의해 처리되어 데이터 심벌들을 생성한다. 변조기(562)는 데이터 심벌, 파일럿 심벌, 및 순방향 링크에 대한 시그널링을 수신하여, (예를 들면, OFDM) 변조 및 다른 관련 처리를 수행하고, 출력 칩 스트림을 제공하며, 출력 칩 스트림은 추가로 송신 유닛(564)에 의해 컨디셔닝되어 안테나(522)로부터 전송된다. 순방향 링크 시그널링은 역방향 링크 상에서 액세스 포인트(504x)로 전송하는 모든 단말들에 대한 제어기(570)에 의해 생성된 제어 명령들을 포함한다. 액세스 단말(502x)에서, 액세스 포인트(504x)에 의해 전송된 변조 신호는 안테나(520)에 의해 수신되어, 수신 유닛(522)에 의해 컨디셔닝 및 디지털화되며, 복조기(524)에 의해 처리되어 검출 데이터 심벌들을 획득한다. 수신 데이터 프로세서(1026)는 검출 데이터 심벌들을 처리하여 단말에 대한 검출 데이터 및 순방향 링크 시그널링을 제공한다. 제어기(530)는 전력 제어 명령들을 수신하여 액세스 포인트(504x)에 대한 역방향 링크 상에서 데이터 전송 및 전송 전력을 제어한다. 제어기(530 및 570)는 액세스 단말(502x) 및 액세스 포인트(504x) 각각의 동작을 제어한다. 메모리 유닛(532 및 572)은 제어기(530 및 570)에 의해 사용되는 프로그램 코드들 및 데이터를 각각 저장한다.

여기서 제시된 "액세스 단말"은 음성 및/또는 데이터 연결성을 사용자에게 제공하는 장치를 지칭한다. 이러한 액세스 단말은 랩톱 컴퓨터 또는 데스크톱 컴 퓨터와 같은 컴퓨팅 장치에 연결되거나, 또는 개인 휴대 단말기와 같이 그 내부에 이러한 장치를 내장할 수 있다. 액세스 단말은 또한 가입자 유닛, 이동국, 원격국, 원격 단말, 사용자 단말, 사용자 에이전트, 또는 사용자 장치로 지칭될 수 있다. 이러한 액세스 단말은 가입자국, 무선 장치, 셀룰러 장치, PCS 전화기, 코드리스 전화, 세션 개시 프로토콜(SIP) 폰, 무선 로컬 루프(WLL) 스테이션, 개인 휴대 단말기(PDA), 무선 연결 능력을 구비한 휴대용 장치, 또는 무선 모뎀에 연결된 다른 처리 장치일 수 있다.

여기서 제시된 "액세스 포인트"는 무선상에서 하나 이상의 섹터들을 통해서 액세스 단말들과 통신할 수 있는 액세스 네트워크 내의 장치를 지칭한다. 액세스 포인트는 수신된 무선 인터페이스 프레임들을 IP 패킷들로 전달함으로써 액세스 단말 및, IP 네트워크를 포함하는 나머지 액세스 네트워크 사이에서 라우터로서 기능한다. 액세스 포인트는 또한 무선 인터페이스에 대한 속성들의 관리를 조정한다.

제시된 실시예들은 다음 기술들 중 하나 또는 이들의 조합에 적용될 수 있다; 코드 분할 다중 접속(CDMA) 시스템, 다중 캐리어 CDMA(MC-CDMA), 와이드밴드 CDMA(W-CDMA), 고속 다운링크 패킷 접속(HSDPA), 시분할 다중 접속(TDMA) 시스템, 주파수 분할 다중 접속(FDMA) 시스템, 및 직교 주파수 분할 다중 접속(OFDMA) 시스템.

여기서 제시된 방법들은 당업자에게 잘 알려진 다양한 통신 하드웨어, 프로세서 및 시스템들 상에서 구현된다. 예를 들어, 클라이언트가 여기서 제시된 대로 동작하도록 하기 위한 일반적인 요건은 클라이언트가 컨텐츠 및 정보를 디스플레이 하는 디스플레이, 클라이언트의 동작을 제어하는 제어기, 및 클라이언트의 동작과 관련된 데이터 및 프로그램들을 저장하는 메모리를 갖는 것이다. 일 실시예에서, 클라이언트는 셀룰러 전화이다. 또 다른 실시예에서, 클라이언트는 통신 능력을 구비한 휴대용 컴퓨터이다. 또 다른 실시예에서, 클라이언트는 통신 능력을 구비한 개인 컴퓨터이다

다양한 예시적인 논리 블록들, 모듈들, 및 회로들이 범용 프로세서; 디지털 신호 처리기, DSP; 주문형 집적회로, ASIC; 필드 프로그래밍 가능한 게이트 어레이, FPGA; 또는 다른 프로그래밍 가능한 논리 장치; 이산 게이트 또는 트랜지스터 논리; 이산 하드웨어 컴포넌트들; 또는 이러한 기능들을 구현하도록 설계된 것들의 조합을 통해 구현 또는 수행될 수 있다. 범용 프로세서는 마이크로 프로세서 일 수 있지만; 대안적 실시예에서, 이러한 프로세서는 기존 프로세서, 제어기, 마이크로 제어기, 또는 상태 머신일 수 있다. 프로세서는 예를 들어, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로 프로세서, 또는 이러한 구성들의 조합과 같이 계산 장치들의 조합으로서 구현될 수 있다.

상술한 방법의 단계들 및 알고리즘은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들의 조합에 의해 직접 구현될 수 있다. 소프트웨어 모듈들은 랜덤 액세스 메모리(RAM); 플래쉬 메모리; 판독 전용 메모리(ROM); 전기적 프로그래밍 가능한 ROM(EPROM); 전기적 삭제가능하고 프로그래밍 가능한 ROM(EEPROM); 레지스터; 하드디스크; 휴대용 디스크; 콤팩트 디스크 ROM(CD-ROM); 또는 공지된 저장 매체의 임의의 형태로서 존재한다. 예시적인 저장매체는 프로세서와 결합되어, 프로세서는 저장매체로부터 정보를 판독하여 저장매체에 정보를 기록한다. 대안적으로, 저장 매체는 프로세서의 구성요소일 수 있다. 이러한 프로세서 및 저장매체는 ASIC 에 위치한다. ASIC 는 사용자 단말에 위치할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말에서 이산 컴포넌트로서 존재할 수 있다.

상술한 실시예들은 당업자가 본원발명을 보다 용이하게 실시할 수 있도록 하기 위해 기술되었다. 이러한 실시예들에 대한 다양한 변형들을 당업자는 잘 이해할 수 있을 것이며, 여기서 정의된 원리들은 본 발명의 영역을 벗어남이 없이, 다른 실시예들, 예를 들면 인스턴트 메세징 서비스 또는 다른 임의의 무선 데이터 통신 애플리케이션에 적용될 수 있다. 따라서, 본 발명은 여기서 제시된 실시예들로 제한되지 않으며, 여기서 제시된 사상을 따르는 다른 실시예들 포함한다. 여기서 사용되는 "예시적인" 및 "실시예"와 같은 용어들은 이해를 돕기 위해 단지 예시적으로 제시된 것일 뿐이다. 따라서, "예시적인" 및 "실시예"는 다른 실시예들에 비해 선호되는 또는 바람직한 것으로 해석될 필요는 없다.

도 1은 일 실시예에 따른 인코더 보조 프레임 레이트 업 컨버젼(EA-FRUC)을 구현하는 비디오 코딩 시스템의 블록 다이어그램이다.

도 2는 도 1의 EA-FRUC 시스템의 동작을 나타내는 플로우 다이어그램이다.

도 3은 도 1의 EA-FRUC 시스템의 일 실시예에 따른 1-패스 인코딩을 나타내는 다이어그램이다.

도 4는 도 1의 EA-FRUC 시스템의 일 실시예에 따른 2-패스 인코딩을 나타내는 다이어그램이다.

도 5는 무선 시스템에 적용한 EA-FRUC 시스템을 나타내는 블록 다이어그램이다.

동일한 참조번호는 도면들에 걸쳐 동일한 부분을 지칭하도록 사용된다.

Claims

프레임들의 시퀀스를 포함하는 비디오 시퀀스의 구성을 위한 방법으로서,

상기 프레임들의 시퀀스에서 활성도(activity) 타입의 양을 결정하는 단계 - 상기 활성도 타입은 공간 활성도, 시간 활성도 및 공간-시간 활성도로 구성되는 그룹으로부터 선택됨 -;

상기 활성도에 있는 리던던시(redundancy)를 결정하는 단계; 및

상기 결정된 리던던시가 제 1 미리 결정된 임계치보다 작으면 상기 프레임을 인코딩하는 단계를 포함하며,

상기 결정된 리던던시가 상기 제 1 미리 결정된 임계치 및 상기 제 1 미리 결정된 임계치보다 큰 제 2 미리 결정된 임계치 사이에 있으면, 상기 프레임의 넌-리던던트(non-redundant)한 부분이 인코딩되는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 프레임들의 시퀀스에서 상기 공간 활성도를 결정하는 단계는 상기 시퀀스의 적어도 하나의 프레임에 있는 텍스쳐(texture) 정보의 양을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 프레임들의 시퀀스에서 상기 시간 활성도를 결정하는 단계는 상기 프레 임들의 시퀀스에 있는 적어도 두 개의 프레임들 사이의 시간 상관과 리던던시의 양을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 프레임들의 시퀀스의 프레임에서 상기 공간-시간 활성도를 결정하는 단계는 상기 프레임들의 시퀀스에 있는 적어도 두 개의 프레임들 사이에서 텍스쳐 정보의 양에 대한 시간 상관과 리던던시의 양을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 활성도에 있는 리던던시를 결정하는 단계는 콘트라스트(contrast) 비 측정, 공간 복잡도 측정 및 분산 측정으로 구성된 그룹으로부터 선택된 적어도 하나의 공간 활성도 측정을 이용하여 리던던시를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 활성도에 있는 리던던시를 결정하는 단계는 모션 필드 강도 측정, 시간 복잡도 측정 및 절대차들의 합 측정으로 구성된 그룹으로부터 선택된 적어도 하나의 시간 활성도 측정을 이용하여 리던던시를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서,

상기 활성도에 있는 리던던시를 결정하는 단계는 복수의 인접 프레임들 사이의 공간 활성도 측정들의 상관, 방향성 측정, 가변하는 공간 활성도 측정들을 가지는 영역들 사이에서의 조인트 동작들, 모션 필드 강도 측정, 시간 복잡도 측정 및 절대차들의 합 측정으로 구성된 그룹들로부터 선택된 적어도 두 개의 활성도 측정들을 비교함으로써 리던던시를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
두 개의 프레임들 사이에서 차이 정보를 결정하는 방법으로서,

픽셀 차이들 측정, 모드 결정 임계치 측정 및 보간된 프레임 정밀성(refinement) 측정으로 구성된 그룹으로부터 선택된 차이 측정을 결정하는 단계를 포함하며, 상기 차이 측정의 결정은 프레임 레이트 업 컨버젼 프로세스를 이용하여 수행되는 것을 특징으로 하는 방법.
프레임들의 시퀀스를 포함하는 비디오 시퀀스의 구성을 위한 방법을 컴퓨터가 실행하도록 저장된 명령들을 포함하는 컴퓨터 판독 가능매체로서, 상기 방법은,

상기 프레임들의 시퀀스에서 활성도 타입의 양을 결정하는 단계 - 상기 활성도 타입은 공간 활성도, 시간 활성도 및 공간-시간 활성도로 구성되는 그룹으로부터 선택됨 -;

상기 활성도에 있는 리던던시를 결정하는 단계; 및

상기 결정된 리던던시가 제 1 미리 결정된 임계치보다 작으면 상기 프레임을 인코딩하는 단계를 포함하며,

상기 결정된 리던던시가 상기 제 1 미리 결정된 임계치 및 상기 제 1 미리 결정된 임계치보다 큰 제 2 미리 결정된 임계치 사이에 있으면, 상기 프레임의 넌-리던던트한 부분이 인코딩되는 것을 특징으로 하는 컴퓨터 판독 가능매체.
제 9 항에 있어서,

상기 프레임들의 시퀀스에서 상기 공간 활성도를 결정하는 단계는 상기 시퀀스의 적어도 하나의 프레임에 있는 텍스쳐 정보의 양을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능매체.
제 9 항에 있어서,

상기 프레임들의 시퀀스에서 상기 시간 활성도를 결정하는 단계는 상기 프레임들의 시퀀스에 있는 적어도 두 개의 프레임들 사이의 시간 상관과 리던던시의 양을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능매체.
제 9 항에 있어서,

상기 프레임들의 시퀀스의 프레임에서 상기 공간-시간 활성도를 결정하는 단계는 상기 프레임들의 시퀀스에 있는 적어도 두 개의 프레임들 사이에서 텍스쳐 정 보의 양에 대한 시간 상관과 리던던시의 양을 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능매체.
제 9 항에 있어서,

상기 활성도에 있는 리던던시를 결정하는 단계는 콘트라스트 비 측정, 공간 복잡도 측정 및 분산 측정으로 구성된 그룹으로부터 선택된 적어도 하나의 공간 활성도 측정을 이용하여 리던던시를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능매체.
제 9 항에 있어서,

상기 활성도에 있는 리던던시를 결정하는 단계는 모션 필드 강도 측정, 시간 복잡도 측정 및 절대차들의 합 측정으로 구성된 그룹으로부터 선택된 적어도 하나의 시간 활성도 측정을 이용하여 리던던시를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능매체.
제 9 항에 있어서,

상기 활성도에 있는 리던던시를 결정하는 단계는 복수의 인접 프레임들 사이의 공간 활성도 측정들의 상관, 방향성 측정, 가변하는 공간 활성도 측정들을 가지는 영역들 사이에서의 조인트 동작들, 모션 필드 강도 측정, 시간 복잡도 측정 및 절대차들의 합 측정으로 구성된 그룹들로부터 선택된 적어도 두 개의 활성도 측정 들을 비교함으로써 리던던시를 결정하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능매체.
두 개의 프레임들 사이에서 차이 정보를 결정하기 위한 방법을 컴퓨터가 실행하도록 저장된 명령들을 포함하는 컴퓨터 판독 가능매체로서, 상기 방법은,

픽셀 차이들 측정, 모드 결정 임계치 측정 및 보간된 프레임 정밀성 측정으로 구성된 그룹으로부터 선택된 차이 측정을 결정하는 단계를 포함하며, 상기 차이 측정의 결정은 프레임 레이트 업 컨버젼 프로세스를 이용하여 수행되는 것을 특징으로 하는 컴퓨터 판독 가능매체.
프레임들의 시퀀스를 포함하는 비디오 시퀀스의 구성을 위한 장치로서,

상기 프레임들의 시퀀스에서 활성도 타입의 양을 결정하기 위한 수단 - 상기 활성도 타입은 공간 활성도, 시간 활성도 및 공간-시간 활성도로 구성되는 그룹으로부터 선택됨 -;

상기 활성도에 있는 리던던시를 결정하기 위한 수단; 및

상기 결정된 리던던시가 제 1 미리 결정된 임계치보다 작으면 상기 프레임을 인코딩하기 위한 수단을 포함하며,

상기 결정된 리던던시가 상기 제 1 미리 결정된 임계치 및 상기 제 1 미리 결정된 임계치보다 큰 제 2 미리 결정된 임계치 사이에 있으면, 상기 프레임의 넌-리던던트한 부분이 인코딩되는 것을 특징으로 하는 장치.
제 17 항에 있어서,

상기 프레임들의 시퀀스에서 상기 공간 활성도를 결정하기 위한 수단은 상기 시퀀스의 적어도 하나의 프레임에 있는 텍스쳐 정보의 양을 결정하기 위한 수단을 포함하는 것을 특징으로 하는 장치.
제 17 항에 있어서,

상기 프레임들의 시퀀스에서 상기 시간 활성도를 결정하기 위한 수단은 상기 프레임들의 시퀀스에 있는 적어도 두 개의 프레임들 사이의 시간 상관과 리던던시의 양을 결정하기 위한 수단을 포함하는 것을 특징으로 하는 장치.
제 17 항에 있어서,

상기 프레임들의 시퀀스의 프레임에서 상기 공간-시간 활성도를 결정하기 위한 수단은 상기 프레임들의 시퀀스에 있는 적어도 두 개의 프레임들 사이에서 텍스쳐 정보의 양에 대한 시간 상관과 리던던시의 양을 결정하기 위한 수단을 포함하는 것을 특징으로 하는 장치.
제 17 항에 있어서,

상기 활성도에 있는 리던던시를 결정하기 위한 수단은 콘트라스트 비 측정, 공간 복잡도 측정 및 분산 측정으로 구성된 그룹으로부터 선택된 적어도 하나의 공 간 활성도 측정을 이용하여 리던던시를 결정하기 위한 수단을 포함하는 것을 특징으로 하는 장치.
제 17 항에 있어서,

상기 활성도에 있는 리던던시를 결정하기 위한 수단은 모션 필드 강도 측정, 시간 복잡도 측정 및 절대차들의 합 측정으로 구성된 그룹으로부터 선택된 적어도 하나의 시간 활성도 측정을 이용하여 리던던시를 결정하기 위한 수단을 포함하는 것을 특징으로 하는 장치.
제 17 항에 있어서,

상기 활성도에 있는 리던던시를 결정하기 위한 수단은 복수의 인접 프레임들 사이의 공간 활성도 측정들의 상관, 방향성 측정, 가변하는 공간 활성도 측정들을 가지는 영역들 사이에서의 조인트 동작들, 모션 필드 강도 측정, 시간 복잡도 측정 및 절대차들의 합 측정으로 구성된 그룹들로부터 선택된 적어도 두 개의 활성도 측정들을 비교함으로써 리던던시를 결정하기 위한 수단을 포함하는 것을 특징으로 하는 장치.
두 개의 프레임들 사이에서 차이 정보를 결정하는 장치로서,

픽셀 차이들 측정, 모드 결정 임계치 측정 및 보간된 프레임 정밀성 측정으로 구성된 그룹으로부터 선택된 차이 측정을 결정하기 위한 수단을 포함하며, 상기 차이 측정의 결정은 프레임 레이트 업 컨버젼 프로세스를 이용하여 수행되는 것을 특징으로 하는 장치.