KR100748194B1

KR100748194B1 - 향상된 비디오 압축 프레임 보간

Info

Publication number: KR100748194B1
Application number: KR1020047021483A
Authority: KR
Inventors: 디모스게리에이
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2002-06-28
Filing date: 2003-06-27
Publication date: 2007-08-10
Also published as: US20160301949A1; US20110096838A1; US8160142B2; US20130279584A1; US8503529B2; EP2254339B1; US20130070851A1; US8873629B2; US8213507B2; MY154424A; AU2008200457B2; HUE048316T2; US20140098864A1; US8542738B2; HK1148888A1; AU2010212510A1; CN102256135A; US20070268967A1; US8279929B2; JP2006513592A

Abstract

비디오 이미지 압축 시스템에서 하나 또는 그 이상의 예측된 프레임의 이미지 화질을 향상시키기 위한 방법, 시스템 및 컴퓨터 프로그램이 제공되며, 각각의 프레임은 복수의 화소를 포함한다. 특정 유형의 프레임의 매크로블록의 화상 영역은 일부 경우에는 하나 또는 그 이상의 참조가능한 프레임에 대한 참조와, 다른 경우에는 2개 또는 그 이상의 참조가능한 프레임을 참조하여 인코딩될 수 있다. 이러한 인코딩은 동일하지 않은 가중과 같은 보간을 포함할 것이다. 화상 영역의 DC 값 또는 AC 값은 가중으로 또는 가중없이도 원활히 보간될 수 있을 것이다. 가변적인 수의 양방향 예측된 프레임을 갖는 이러한 프레임의 코드 패턴은 동적으로 결정될 수 있다. 프레임은 디스플레이 순서와는 상이한 전달 순서로 인코더에서 디코더로 전송될 수 있다. 샤프닝 및/또는 소프트닝 필터는 움직임 벡터 보상된 예측 동안에 특정 프레임의 화상 영역에 적용될 수 있다.

움직임 벡터, 양방향 예측, 움직임 보상 가중치, 비율 보간, 혼합 보간

Description

향상된 비디오 압축 프레임 보간{IMPROVED INTERPOLATION OF VIDEO COMPRESSION FRAMES}

본 출원은 2001년 7월 11일자 출원된 미국 특허출원 번호 제09/904,203호의 일부계속 출원이며, 2002년 6월 28일자 출원된 미국 일부계속 출원 번호 제10/187,395호를 그 우선권으로 한다.

본 발명은 비디오 압축에 관한 것으로, 보다 구체적으로는 MPEG-형의 인코딩 및 디코딩 시스템에서의 비디오 압축 프레임의 향상된 보간에 관한 것이다.

MPEG 비디오 압축(MPEG Video Compression)

MPEG-2 및 MPEG-4는 이미지 시퀀스를 더욱 간결한 부호화된 데이타의 형태로 표현하는데 효율적인 방식을 제공하는 각각의 비디오 신택스(video syntax)를 정의하는 국제 비디오 압축 표준이다. "신택스"란 부호화된 비트의 언어를 의미한다. 예를들어, 약간의 토큰만으로 전체 블록의 샘플(예를들어, MPEG-2에 대해서는 64개의 샘플)을 표현할 수 있다. 양측의 MPEG 표준은 또한 부호화된 비트가 간결한 표현으로부터 원래 포맷의 이미지 시퀀스의 근사로 맵핑되는 디코딩(재구성) 프로세스를 기술한다. 예를들어, 부호화된 비트스트림 내의 플래그는 후속의 비트가 이산 코사인 변환(DCT) 알고리듬으로 디코딩되기 전에 예측 알고리듬으로 선행되어야 하는지의 여부에 대해 알려줄 수 있을 것이다. 디코딩 프로세스를 포함하는 알고리듬은 이들 MPEG 표준에 의해 정의된 의미론(semantic)에 의해 규정된다. 이 신택스는 공간적 용장도(spatial redundancy), 시간적 용장도(temporal redundancy), 균일한 움직임(uniform motion), 공간적 매스킹(spatial masking) 등과 같은 공통적인 비디오 특성을 개발하기 위해 적용될 수 있다. MPEG 디코더는 인입 데이타 스트림을 구문분석하여 디코딩할 수 있어야만 하지만, 데이타 스트림이 해당 MPEG 신택스로 컴파일하는 한, 매우 다양한 가능한 데이타 구조 및 압축 기술이 사용될 수 있다(비록 의미론이 순응적이지 않기 때문에 기술적으로 이러한 다양한 데이타 구조와 압축 기술은 표준에서 벗어나 있더라도). 요구된 의미론을 대안의 신택스에 부여하는 것도 가능하다.

이들 MPEG 표준은 인트라프레임 및 인터프레임 메쏘드를 포함한 다양한 압축 방법을 사용한다. 대부분의 비디오 장면에서, 전경에서 동작이 발생하는 동안에도 배경은 상대적으로 안정하게 유지한다. 배경은 움직일 수도 있지만, 종종 상당한 양의 장면이 중복된다. 이들 MPEG 표준은 "인트라" 프레임 혹은 "I 프레임"으로 지칭되는 기준 프레임(reference frame)을 작성함으로써 압축을 개시한다. I 프레임은 다른 프레임에 대한 참조없이 압축되어, 비디오 정보의 전체 프레임을 포함한다. I 프레임은 랜덤 액세스를 위한 데이타 비트스트림내로의 엔트리 포인트를 제공하지만, 단지 중간 정도의 압축율로만 압축될 수 있다. 통상적으로, I 프레임을 표현하는 데이타는 매 12번째 내지 15번째 프레임에 위치된다(일부 환경에서는 I 프레임간에 더 넓은 간격을 사용하는 것이 유용하기도 함). 그 후, 기준 I 프레임 사이에 위치하는 프레임들의 적은 부분만이 브라켓팅 I 프레임(the bracketing I frames)과 상이하기 때문에, 이미지 차분만이 캡쳐, 압축 및 저장된다. 이러한 차분을 위해 2가지 유형의 프레임, 즉 예측 프레임(P 프레임)과 양방향 예측(또는 보간) 프레임(B 프레임)이 사용된다.

P 프레임은 일반적으로 과거의 프레임(I 프레임 또는 이전의 P 프레임 중의 하나)을 참조하여 인코딩되며, 후속의 P 프레임에 대한 기준으로써 사용된다. P 프레임은 약간 높은 정도의 압축을 받아들인다. B 프레임은 가장 높은 정도의 압축을 제공하지만, 인코딩되기 위해서는 과거의 기준 프레임과 미래의 기준 프레임 모두를 필요로 한다. P 프레임 및 I 프레임은 이들이 P 프레임 또는 B 프레임에 의해 참조될 수 있기 때문에 "참조가능한 프레임(referenceable frame)"이다.

매크로블록은 이미지 화소의 영역이다. MPEG-2에 대해, 매크로블록은 8×8 DCT 블록을 P 프레임에 대한 하나의 움직임 벡터와 B 프레임에 대한 하나 또는 2개의 움직임 벡터와 함께 묶은 16×16 화소이다. P 프레임내의 매크로블록은 인트라-프레임 또는 인터-프레임 코딩(인트라-프레임 또는 인터-프레임 예측 코딩) 중의 하나를 사용하여 개별적으로 인코딩될 수도 있을 것이다. B 프레임내의 매크로블록은 인트라-프레임 코딩, 전방 예측 코딩, 후방 예측 코딩 또는 전방 및 후방 모두(즉, 양방향으로 보간된) 예측된 코딩을 사용하여 개별적으로 인코딩될 수도 있을 것이다. MPEG-4 비디오 코딩에서는 다소 상이하지만 유사한 구조가 사용된다.

코딩한 후, MPEG 데이타 비트스트림은 I, P 및 B 프레임의 시퀀스를 포함한다. 시퀀스는 I, P 및 B 프레임의 어떠한 것으로도 구성될 수 있을 것이다(그들의 위치에 관해 약간의 소소한 의미론적 제한이 존재함). 그러나, 산업적 실시에서는 고정된 프레임 패턴(예를들어, IBBPBBPBBPBBPBB)을 갖는 것이 일반적이다.

움직임 벡터 예측(Motion Vector Prediction)

MPEG-2 및 MPEG-4(및 H.263과 같은 유사 표준)에서, B-타입(양방향으로 예측된) 프레임의 사용은 압축 효율에서 이점을 갖는 것으로 입증되었다. 이러한 프레임들의 각각의 매크로블록에 대한 움직임 벡터는 다음의 3가지 방법 중의 어떠한 방법에 의해서도 예측될 수 있다:

모드 1 : 이전의 I 또는 P 프레임(즉, 비양방향 예측 프레임)으로부터 전방 예측함.

모드 2 : 후속하는 I 또는 P 프레임으로부터 후방 예측함.

모드 3 : 후속의 I 또는 P 프레임과 이전의 I 또는 P 프레임으로부터 양방향 예측함.

모드 1은 P 프레임에 대해 사용된 전방 예측 방법과 일치한다. 모드 2는 후속 프레임으로부터 후방으로 작용한다는 것을 제외하고는 동일한 개념이다. 모드 3은 이전 프레임과 후속 프레임 양자로부터의 정보를 조합하는 보간 모드이다.

이들 3가지 모드에 추가하여, MPEG-4는 또한 B 프레임에 대해 제2 보간 움직임 벡터 예측 모드, 즉 후속 B 프레임으로부터의 움직임 벡터를 사용하는 직접 모드 예측에 델타값을 더한 모드를 지원한다(공동 위치된 P 매크로블록으로부터의 움직임 벡터가 8×8 모드로 분할되어 16×16 매크로블록에 대해 4개의 움직임 벡터의 결과로 나타난다면, 델타는 B 프레임에서의 모두 4개의 독립적인 움직임 벡터에 적 용된다). 후속 P 프레임의 움직임 벡터는 이전 P 또는 I 프레임을 나타내어 준다. 움직임 벡터를 후속 P 프레임으로부터 가중(weight)시키기 위해 비율이 사용된다. 비율은 후속 P 프레임과 이전 P 프레임(또는 I 프레임)에 대한 현재의 B 프레임의 상대적인 시간적 위치이다.

도 1은 종래 기술에 따른 프레임과 MPEG-4 직접 모드 움직임 벡터의 시간 라인을 도시한다. MPEG-4 직접 모드(모드 4)의 개념은 각각의 개재하고 있는(intervening) B 프레임에서의 매크로블록의 움직임이 다음 P 프레임에서의 동일 지점을 코딩하기 위해 사용되는 움직임에 가깝게 되기 쉽다는 것이다. 델타는 후속 P 프레임에 대한 해당 움직임 벡터(MV)(103)로부터 구해진 비율 움직임 벡터에 대한 소소한 정정(minor correction)을 만들기 위해 사용된다. 도 1에는 이전의 P 또는 I 프레임(105)과 다음의 P 프레임(106) 사이의 "시간 거리(time distance)"를 함수로 하여 각각의 중간 B 프레임(104a, 104b)에 대한 움직임 벡터(101, 102)에 제공된 비율 가중이 도시되어 있다. 해당 중간 B 프레임(104a, 104b)에 지정된 움직임 벡터(101, 102)는 다음 P 프레임에 대한 움직임 벡터(103)의 지정된 가중값(각각 1/3과 2/3)에 델타값을 더한 것과 동일하다.

MPEG-2에서는 B 프레임에 대한 모든 예측 모드가 코딩시에 테스트되고, 각각의 매크로블록에 대한 최상의 예측을 찾아내기 위해 비교된다. 우수한 예측이 없다면, 매크로블록은 "I"("인트라"에 대해) 매크로블록으로써 자체만으로 코딩된다. 코딩 모드는 전방(모드 1), 후방(모드 2) 및 양방향(모드 3) 중에서 최상의 모드로 또는 인트라 코딩으로 선택된다. MPEG에서, 인트라 코딩 선택은 허용되지 않는다. 그 대신, 직접 모드가 제4 선택이 된다. 다시, 최상의 코딩 모드는 일부의 최상 매칭 기준에 기초하여 선택된다. 기준 MPEG-2 및 MPEG-4 소프트웨어 인코더에서, 최상 매칭은 DC 매칭(절대값의 합 혹은 "SAD(sum of absolute difference)")을 사용하여 결정된다.

부호화된 데이타 비트스트림에서의 연속적인 B 프레임의 수는 MPEG에서의 "M" 파라미터값에 의해 결정된다. M-1은 각각의 P 프레임과 다음 P(또는 I) 프레임 사이의 B 프레임의 수이다. 그러므로, M=3에 대하여, 도 1에 예시된 바와 같이 각각의 P(또는 I) 프레임 사이에 2개의 B 프레임이 존재한다. M의 값, 그리고 그에 따라 순차적 B 프레임의 수를 억제하는 주된 제한요소는 P(또는 I) 프레임 사이의 움직임 변화의 양이 커진다는 것이다. 더 많은 수의 B 프레임은 P(또는 I) 프레임 사이의 더 많은 양의 시간을 의미한다. 그러므로, 움직임 벡터의 효율 및 코딩 범위 제한은 중간 B 프레임의 수에 관해 궁극적인 한계점을 발생한다.

또한, 각각의 디코딩된 P 프레임이 다음의 후속 P 프레임을 예측하기 위한 개시 지점으로써 사용되기 때문에, P 프레임이 "변화 에너지"를 전방으로 이동 픽쳐 스트림과 함께 운반한다는 것을 유념하는 것도 중요하다. B 프레임은 그러나 사용 후에 폐기된다. 그러므로, B 프레임을 작성하기 위해 사용된 어떠한 비트도 그 프레임을 위해서만 사용되며, P 프레임과는 달리 후속 프레임의 디코딩에 도움을 주는 보정치를 제공하지 않는다.

본 발명은 각각의 프레임이 복수의 화소를 포함하는 비디오 이미지 압축 시 스템에서 하나 또는 그 이상의 예측 프레임의 이미지 화질을 향상시키기 위한 방법, 시스템 및 컴퓨터 프로그램에 관한 것이다.

일특징으로, 본 발명은 양방향 예측된 프레임의 각각의 화소의 값을 양방향 예측된 프레임의 시퀀스를 감싸는(bracket) 비양방향 예측된 프레임에서의 대응 화소값의 가중된 비율로써 결정하는 단계를 포함한다. 일실시예에서, 가중된 비율은 브라켓팅 비양방향 예측된 프레임들 사이의 거리의 함수이다. 다른 실시예에서, 가중된 비율은 브라켓팅 비양방향 예측된 프레임들간의 거리와 브라켓팅 비양방향 예측된 프레임들의 동일 평균의 혼합 함수이다.

본 발명의 다른 특징으로, 화소값의 보간은 선형적 거리 또는 원래의 비선형적 표현과 상이한 다른 최적화된 비선형적 거리에서의 표현에 관해 수행된다.

본 발명의 다른 특징은 다음을 내포하는 시스템, 컴퓨터 프로그램 및 방법을 포함한다:

ㆍ 화상 영역을 포함하는 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 예측 프레임의 적어도 하나의 화상 영역은 2개 이상의 참조가능한 프레임을 참조하여 인코딩됨.

ㆍ 화상 영역을 포함하는 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 예측 프레임의 적어도 하나의 화소 영역은 디스플레이 순서로 하나 이상의 참조가능한 프레임을 참조하여 인코딩되며, 적어도 하나의 이러한 참조가능한 프레임은 적어도 하나의 예측 프레임에 대한 디스플레이 순서에서 가장 인접한 이전의 참조가능한 프레임이 아님.

ㆍ 매크로블록을 포함하는 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 예측 프레임 내의 적어도 하나의 매크로블록은 2개 이상의 참조가능한 프레임으로부터의 보간에 의해 인코딩됨.

ㆍ 화상 영역을 포함하는 기준가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 양방향 예측 프레임의 적어도 하나의 화상 영역은 2개보다 많은 움직임 벡터를 포함하도록 인코딩되며, 각각의 이러한 움직임 벡터는 적어도 하나의 참조가능한 프레임에서의 대응 화소 영역을 참조함.

ㆍ 화상 영역을 포함하는 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 예측 프레임의 적어도 하나의 화상 영역은 적어도 2개의 움직임 벡터를 포함하도록 인코딩되며, 각각의 이러한 움직임 벡터는 참조가능한 프레임에서의 대응 화상 영역을 참조하며, 이러한 적어도 하나의 예측 프레임의 각각의 이러한 화상 영역은 2개 이상의 참조가능한 프레임으로부터의 보간에 의해 인코딩됨.

ㆍ 화상 영역을 포함하는 참조가능한 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 양방향 예측된 프레임의 적어도 하나의 화상 영역은 2개 이상의 참조가능한 프레임으로부터의 선택된 화상 영역의 동일하지 않은 가중으로써 인코딩됨.

ㆍ 화상 영역을 포함하는 참조가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 양방향 예측된 프레임의 적 어도 하나의 화상 영역은 2개 이상의 참조가능한 프레임으로부터의 보간에 의해 인코딩되며, 2개 이상의 참조가능한 프레임 중의 적어도 하나는 적어도 하나의 개재하고 있는 참조가능한 프레임에 의해 양방향 예측된 프레임으로부터 디스플레이 순서로 이격되며, 이러한 적어도 하나의 화상 영역은 이러한 적어도 2개 이상의 참조가능한 프레임의 선택된 화상 영역의 동일하지 않은 가중으로써 인코딩됨.

ㆍ 화상 영역을 포함하는 참조가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 양방향 압축된 프레임의 적어도 하나의 화상 영역은 2개 이상의 참조가능한 프레임으로부터의 보간에 의해 인코딩되며, 2개 이상의 참조가능한 프레임의 적어도 하나는 적어도 하나의 개재하고 있는 후속의 참조가능한 프레임에 의해 양방향 예측된 프레임으로부터 디스플레이 순서로 이격됨.

ㆍ 화상 영역을 포함하는 참조가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 양방향 예측된 프레임의 적어도 하나의 화상 영역은 2개 이상의 참조가능한 프레임의 선택된 화상 영역으로부터의 동일하지 않은 가중으로써 인코딩됨.

ㆍ 각각이 매크로블록으로 배열된 화소값을 포함하는 예측 및 양방향 예측된 프레임들의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 양방향 예측된 프레임 내의 적어도 하나의 매크로블록은 2개 이상의 예측된 프레임으로부터의 움직임 벡터에 기초한 직접 모드 예측을 사용하여 결정됨.

ㆍ 각각이 매크로블록으로 배열된 화소값을 포함하는 참조가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 양방향 예측된 프레임 내의 적어도 하나의 매크로블록은 하나 이상의 예측된 프레임으로부터의 움직임 벡터에 기초한 직접 모드 예측을 사용하여 디스플레이 순서로 결정되며, 이러한 하나 이상의 예측 프레임의 적어도 하나는 디스플레이 순서에서 양방향 예측된 프레임보다 이전임.

ㆍ 각각이 매크로블록으로 배열된 화소값을 포함하는 참조가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 양방향 예측된 프레임 내의 적어도 하나의 매크로블록은 하나 이상의 예측 프레임으로부터의 움직임 벡터에 기초한 직접 모드 예측을 사용하여 결정되며, 이러한 하나 이상의 예측 프레임의 적어도 하나는 디스플레이 순서에서 양방향 예측된 프레임보다 후속하고, 적어도 하나의 개재하고 있는 참조가능한 프레임에 의해 양방향 예측된 프레임으로부터 이격됨.

ㆍ 복수의 화상 영역이 DC 값을 갖고 각각의 이러한 화상 영역이 AC 화소값을 각각 갖는 화소들을 포함하는 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 프레임의 적어도 하나의 화상 영역의 AC 화소값과 DC 값 중의 적어도 하나는 적어도 하나의 다른 프레임으로부터의 해당의 각각의 AC 화소값과 DC 값의 가중된 보간으로써 결정됨.

ㆍ 복수의 화상 영역이 DC 값을 갖고 각각의 이러한 화상 영역이 AC 화소값을 각각 갖는 화소들을 포함하는 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 예측 프레임의 적어도 하나의 화상 영역의 AC 화소값과 DC 값의 적어도 하나는 2개 이상의 참조가능한 프레임의 해당의 각각의 AC 화소값과 DC 값으로부터 보간됨.

ㆍ 비디오 이미지 압축 시스템에서 2개 이상의 양방향 예측된 중간 프레임의 시퀀스의 이미지 화질을 향상시키는 단계, 각각의 프레임은 DC 값을 갖는 복수의 화상 영역을 포함하며, 각각의 이러한 화상 영역은 AC 화소값을 각각 갖는 화소들을 포함하며, 상기 단계는 다음 단계 중의 적어도 하나를 포함한다: 양방향 예측된 중간 프레임의 각각의 화상 영역의 AC 화소값을 양방향으로 예측된 중간 프레임의 시퀀스를 감싸는 참조가능한 프레임에서의 해당 AC 화소값의 제1 가중 비율로써 결정하는 단계, 그리고 이러한 양방향 예측된 중간 프레임의 각각의 화상 영역의 DC 값을 양방향 예측된 중간 프레임의 시퀀스를 감싸는 참조가능한 프레임에서의 해당 DC 값의 제2 가중 비율로써 결정하는 단계. 초기 표현을 갖는 복수의 화소를 포함하는 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 프레임의 화소들은 적어도 2개의 다른 프레임의 대응 화소로부터 보간되며, 적어도 2개의 다른 프레임의 이러한 대응 화소들은 상이한 표현으로 변환된 동안 보간되어, 그 결과의 보간된 화소들이 초기 표현으로 다시 변환됨.

ㆍ 참조가능하고 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템에서, 가변적인 수의 양방향 예측된 프레임을 갖는 이러한 프레임들의 코드 패턴을 동적으로 결정하는 단계, 이러한 단계는 다음의 단계를 포함한다: 참조가능한 프레임으로 개시하고 적어도 하나의 즉각적으로 후속하는 양방향 예측된 프레임을 가지며 참조가능한 프레임으로 종료하는 초기 시퀀스를 선택하는 단계; 테스트 시퀀스를 생성하기 위해 초기 시퀀스의 종료부에 참조가능한 프레임을 추가하는 단계; 테스트 시퀀스를 선택된 평가 기준에 대하여 평가하는 단계; 테스트 시퀀스를 평가하는 단계를 충족하는 각각에 대하여, 추가된 참조가능한 프레임 이전에 양방향 프레임을 삽입하고 평가 단계를 반복하는 단계; 테스트 시퀀스를 평가하는 단계가 충족되지 않는다면, 이전의 테스트 시퀀스를 현재의 코드 패턴으로 받아들이는 단계.

ㆍ 적어도 하나의 양방향 예측된 프레임에 의해 이격된 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 이러한 양방향 예측된 프레임의 수는 이러한 시퀀스에서 변화하며, 적어도 하나의 이러한 양방향 예측된 프레임의 적어도 하나의 화상 영역은 적어도 2개의 참조가능한 프레임에 대응하는 화소값의 동일하지 않은 가중을 사용하여 결정됨.

ㆍ 디코더에 의한 디코딩을 위해 코더에 의해 인코딩된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 적어도 하나의 프레임의 적어도 하나의 화상 영역은 2개 이상의 다른 프레임의 가중된 보간에 기초하며, 이러한 가중된 보간은 코더 및 디코더에 이용 가능한 적어도 한 세트의 가중치에 기초하며, 이러한 적어도 한 세트의 가중치의 선택된 가중치에 대한 지정은 하나 이상의 현재 작용중인 가중치를 선택하기 위해 코더에서 디코더로 통신됨.

ㆍ 디코더에 의한 디코딩을 위해 코더에 의해 인코딩된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 프레임의 적어도 하나의 화상 영역은 2개 이상의 다른 프레임의 가중된 보간에 기초하며, 이러한 가중된 보 간은 적어도 한 세트의 가중치에 기초하며, 적어도 한 세트의 가중치는 디코더에 다운로드되고, 그 후 이러한 적어도 한 세트의 가중치의 선택된 가중치에 대한 지정은 하나 이상의 현재 작용중인 가중치를 선택하기 위해 코더에서 디코더로 통신됨.

ㆍ 디코더에 의한 디코딩을 위해 코더에 의해 인코딩된 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 참조가능한 프레임의 시퀀스에서의 예측 프레임은 코딩 후에 이러한 예측 프레임의 디스플레이 순서와 상이한 전달 순서로 인코더에 의해 디코더에 전송됨.

ㆍ 화상 영역에 배열된 화소를 포함하는 참조가능한 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 적어도 하나의 예측 프레임의 적어도 하나의 화상 영역은 2개 이상의 참조가능한 프레임을 참조하여 인코딩되며, 각각의 이러한 화상 영역은 이러한 2개 이상의 참조가능한 프레임에 대응하는 화소값의 동일하지 않은 가중을 사용하여 결정됨.

ㆍ 각각이 화소 영역을 포함하는 예측 프레임, 양방향 예측된 프레임 및 인트라 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템, 여기서 샤프닝 필터(sharpening filter) 및 소프트닝 필터(softening filter)의 세트로부터 선택된 적어도 하나의 필터가 이러한 예측 프레임 또는 양방향 예측된 프레임의 움직임 벡터 보상된 예측 동안 예측 프레임 또는 양방향 예측된 프레임의 적어도 하나의 화상 영역에 적용됨.

본 발명의 하나 또는 그 이상의 실시예의 세부내용은 첨부 도면 및 이하의 상세한 설명에서 설명된다. 본 발명의 다른 특징, 목적 및 장점은 상세한 설명과 도면 그리고 청구범위로부터 명백하게 될 것이다.

도 1은 종래기술에 따른 프레임과 MPEG-4 직접 모드 움직임 벡터의 시간 라인을 나타내는 도면이다.

도 2는 본 발명의 이러한 특징에 따른 프레임과 비율 화소 가중값의 시간 라인을 나타내는 도면이다.

도 3은 본 발명의 이러한 특징에 따른 프레임과, 혼합, 비율 및 동일 화소 가중값들의 시간 라인을 나타내는 도면이다.

도 4는 본 발명의 예시 실시예를 컴퓨터로 구현될 수도 있는 방법으로써 나타내고 있는 흐름도이다.

도 5는 2개의 이전의 P 프레임과 이전의 I 프레임에 대한 현재의 P 프레임에 의한 복수의 이전의 참조의 예를 나타내는 도면이다.

도 6a는 브라케팅 I 프레임들 및/또는 P 프레임들 사이의 일정수의 B 프레임들을 나타내고 있는 대표적인 종래 기술의 MPEG-2 코딩 패턴을 도시하는 도면이다.

도 6b는 브라케팅 I 프레임들 및/또는 P 프레임들 사이의 가변적인 수의 B 프레임들과 I 프레임 사이의 가변적인 거리를 나타내고 있는 이론적으로 가능한 종래 기술의 MPEG-4 비디오 코딩 패턴을 도시하는 도면이다.

도 7은 코드 패턴을 도시하는 도면이다.

도 8은 DC 보간이 AC 보간과 구별되는 보간 방법의 일실시예를 도시하는 흐 름도이다.

도 9는 다른 표현을 사용하는 휘도 화소의 보간을 위한 방법의 일실시예를 도시하는 흐름도이다.

도 10은 다른 표현을 사용하는 색도 화소의 보간을 위한 방법의 일실시예를 도시하는 흐름도이다.

도 11은 2개의 P 프레임의 각각에 대한 고유한 움직임 벡터 영역 크기를 나타내는 도면이다.

도 12는 1-어웨이 후속 P 프레임을 참조하는 2-어웨이 후속 P 프레임으로부터의 거리를 함수로 하여 결정된 B 프레임에 대한 보간 가중치를 갖는 B 프레임 및 P 프레임의 시퀀스를 도시하는 도면이다.

도 13은 2-어웨이 이전 P 프레임을 참조하는 1-어웨이 후속 P 프레임으로부터의 거리를 함수로 하여 결정된 B 프레임에 대한 보간 가중치를 갖는 B 프레임 및 P 프레임의 시퀀스를 도시하는 도면이다.

도 14는 후속 P 프레임이 이전의 P 프레임을 참조하는 복수의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다.

도 15는 가장 인접한 후속 P 프레임이 이전의 P 프레임을 참조하는 움직임 벡터를 갖고 다음으로 가장 인접한 후속 P 프레임이 이전의 P 프레임을 기준으로 하는 복수의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다.

도 16은 가장 인접한 이전의 P 프레임이 이전의 P 프레임을 참조하는 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다.

도 17은 가장 인접한 이전의 P 프레임이 이전의 P 프레임을 참조하는 2개의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다.

도 18은 가장 인접한 이전의 P 프레임이 이전의 P 프레임을 참조하는 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다.

도 19는 3개의 P 프레임 P1, P2 및 P3에서 P3가 P1과 P2의 각각에 대해 하나씩 2개의 움직임 벡터를 가지고 보간된 기준을 사용하는 경우를 나타내고 있는 프레임 시퀀스를 도시하는 도면이다.

도 20은 4개의 P 프레임 P1, P2, P3 및 P4에서 P4가 P1, P2 및 P3의 각각에 대해 하나씩 3개의 움직임 벡터를 가지고 보간된 기준을 사용하는 경우를 나타내고 있는 프레임 시퀀스를 도시하는 도면이다.

도 21은 각양의 P 프레임들이 각종의 이전 P 프레임들을 참조하는 하나 또는 그 이상의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스와, 특정의 B 프레임에 의한 각각의 전방 및 후방 참조에 할당된 상이한 가중치를 나타내는 도면이다.

도 22는 P 프레임의 비트스트림 순서가 디스플레이 순서와 상이한 P 및 B 프레임의 시퀀스를 나타내는 도면이다.

도 23은 가중치가 할당된 P 및 B 프레임의 시퀀스를 도시하는 도면이다.

도 24는 프레임대 시간 내에서 물체의 위치를 나타내는 그래프이다.

상기 도면에서 동일 도면 부호는 동일 구성요소를 나타낸다.

총론(Overview)

본 발명의 일특징은 M에 대한 값으로 3을 사용하여 각각의 P(또는 I) 프레임 사이에 2개의 B 프레임을 제공하는 실시가 공통적이라는 것에 대한 인지에 기초한다. 그러나, M=2 및 M=4 또는 그 이상도 유용하다. M의 값(B 프레임의 수 + 1) 또한 프레임 레이트에 대해 근본적인 관계를 갖고 있다는 것을 유념하는 것이 매우 중요하다. 필름 영화의 속도인 초당 24 프레임(fps)에서, 프레임간의 1/24초 시간 거리는 프레임 단위에서 실질적인 이미지 변화를 발생할 수 있다. 그러나, 60fps, 72fps 또는 더 높은 프레임 레이트에서, 인접 프레임간의 시간 거리는 그에 대응하여 감소된다. 그 결과, 더 높은 수의 B 프레임(즉, 더 높은 값의 M)이 유용하게 되고, 프레임 레이트가 증가됨에 따라 압축 효율에서 이점을 갖는다.

본 발명의 다른 특징은 MPEG-2 및 MPEG-4 비디오 압축 양쪽 모두가 지나치게 간략화된 보간 방법을 활용한다는 인지에 기초한다. 예를들어, 모드 3에 대해, 프레임의 각각의 매크로블록에 대한 양방향 예측은 2개의 해당 움직임 벡터에 의해 배치된 바와 같은 후속 및 이전 프레임 매크로블록의 동일 평균이다. 이 동일 평균은 B 프레임이 이전 및 후속 P(또는 I) 프레임으로부터 시간면에서 동일거리에 있을 것이기 때문에 M=2(즉, 단일의 중간 B 프레임)에 적합한 것이다. 그러나, 더 높은 값의 모든 M에 대해, 대칭적으로 중앙에 위치된 B 프레임만이(즉, M=4, 6, 8 등이라면 중간 프레임) 동일 가중을 사용하여 최적으로 예측될 것이다. 유사하게, MPEG-4 직접 모드 4에서, 움직임 벡터가 비율적으로 가중된다하더라도, 각각의 중간 B 프레임에 대한 예측된 화소값은 이전 P(또는 I) 및 후속 P 프레임의 해당 화소의 동일 비율이 된다.

그러므로, M＞2에 대하여 각각의 B 프레임에 대한 예측된 화소값에 적절한 비율 가중을 적용하는 것이 향상을 나타낸다. 현재의 B 프레임에서의 각각의 화소에 대한 비율 가중은 이전 및 후속 P(또는 I) 프레임에 대하여 현재의 B 프레임의 상대적인 위치에 대응한다. 그러므로, M=3인 경우, 최초의 B 프레임은 이전 프레임으로부터의 해당 화소값(움직임 벡터 조정됨)의 2/3를 사용하고, 후속 프레임(움직임 벡터 조정됨)으로부터의 해당 화소값의 1/3을 사용할 것이다.

도 2는 본 발명의 특징에 따른 프레임과 비율 화소 가중의 시간 라인을 도시하는 도면이다. 각각의 중간 B 프레임(201a, 201b)의 각각의 매크로블록 내에서의 화소값은 이전 P 또는 I 프레임(A)과 다음 P 또는 I 프레임(B) 사이의 "거리"를 함수로 하여 가중되며, 더 근접한 I 또는 P 프레임에는 더 큰 가중치가 부여된다. 즉, 양방향으로 예측된 B 프레임의 각각의 화소값은 브라캣된(bracketing) 비-양방향으로 예측된 프레임 A 및 B의 해당 화소값의 가중된 조합이다. 이 예에서, M=3에 대해, 최초의 B 프레임(201a)에 대한 가중은 2/3A + 1/3B이고, 두번째 B 프레임(201b)에 대한 가중은 1/3A + 2/3B와 동일하다. 종래의 MPEG 시스템 하에서 할당될 수도 있는 동일 평균 가중도 도시되어 있으며, 각각의 B 프레임(201a, 201b)에 대한 MPEG-1, MPEG-2 및 MPEG-4 가중은 (A+B)/2와 동일할 것이다.

확장된 동적 영역 및 명암대비 영역에의 적용(Application to Extended Dynamic Range and Contrast Range)

M이 2보다 크다면, 중간 B 프레임에서의 화소값의 비율 가중은 다수의 경우에 양방향(모드 3) 및 직접(MPEG-4 모드 4) 코딩의 효율을 향상시킬 것이다. 예의 경우는 페이드-아웃(fade-out) 및 크로스-디졸브(cross-dissolve)와 같은 공통적인 영화 및 비디오 편집 효과를 포함한다. 이러한 유형의 비디오 효과는 단순한 DC 매칭 알고리듬의 사용과, B 프레임에 대한 동일 비율의 결과로 나타나는 M=3(즉, 2개의 중간 B 프레임)의 공통적인 사용으로 인해, MPEG-2 및 MPEG-4 양쪽 모두에 대해 문제가 있는 코딩의 경우이다. 이러한 경우의 코딩은 본 발명에 따른 비율 B 프레임 보간에 의해 향상된다.

비율 B 프레임 보간은 동적 및 명암대비 영역을 확장시키기 위한 코딩 효율 향상에도 직접적으로 적용된다. 이미지 코딩에서는 조도(illumination)의 변화가 공통적으로 발생한다. 이러한 조도 변화는 물체가 점차적으로 음영(약한 그림자 가장자리)에 들어갈 때(또는 음영으로부터 벗어날 때)에 발생한다. 밝기(예컨대, 대수적 휘도 Y에 의해 구현된 바와 같은)에 대하여 대수적 코딩 표현(logarithmic coding representation)이 사용된다면, 조명 밝기 변화가 DC 오프셋 변화로 될 것이다. 조명의 밝기가 절반으로 저하된다면, 화소값은 동일량만큼 증가될 것이다. 그러므로, 이러한 변화를 코딩하기 위해, AC 매치가 발견되어야만 하며, 코딩된 DC 차(DC difference)가 영역에 적용된다. P 프레임 내로 코딩되는 이러한 DC 차는 마찬가지로 각각의 개재하고 있는 B 프레임에 비례적으로 적용되어야 한다(본 출원인에게 양도된 "Method and System for Improving Compresses Image Chroma Information"이라는 명칭의 공동 계류중인 미국 특허출원 제09/905,039호를 참조하기 바라며, 상기 특허출원은 대수적 코딩 표현에 관한 추가의 정보를 위해 본 명세서에 참고자료로 통합된다).

조도의 변화외에도, 명암대비의 변화 또한 비율 B 프레임 보간에 이득이 된다. 예를들어, 비행기가 구름 또는 안개에서 벗어나 관측자를 향해 이동할 때, 그 명암대비는 점차적으로 증가할 것이다. 이 명암대비 증가는 해당 P 프레임 코딩된 매크로블록의 DCT의 AC 계수에서 증가된 진폭으로써 표시될 것이다. 또한, 개재하고 있는 B 프레임에서의 명암대비 변화는 비율 보간에 의해 가장 근접하게 근사되어 코딩 효율을 향상시킬 것이다.

비율 B 프레임 보간을 사용한 동적 영역 및 명암대비 코딩 효율에서의 향상은 프레임 레이트가 더 높아지게 되고 M의 값이 증가될 때 점점 더 중요하게 된다.

시간적 층화에의 높은 M 값의 적용(Applying High M Values to Temporal Layering)

본 발명의 실시예를 사용하면, 코딩 효율을 유지하거나 획득하면서 M의 값의 증가와 그에 따른 브라켓팅 P 및/또는 I 프레임 사이의 B 프레임의 수의 증가가 가능하게 된다. 본 발명의 실시예를 사용함으로써 시간적 층화(temporal layering)를 포함한 다수의 어플리케이션에 이점을 갖는다. 예를들어, "Temporal and Resolution Layering for Advanced Television"이라는 명칭의 미국 특허 제5,988,863호(본 출원인에게 양도되었으며, 참고자료로 통합됨)에서, B 프레임이 층화된 시간적 레이트(층화된 시간적 프레임 레이트)에 적합한 메카니즘이라고 언급되어 있다. 이러한 레이트의 가요성은 이용 가능한 연속적인 B 프레임의 수에 관련된다. 예를들어, 단일의 B 프레임(M=2)은 72fps 스트림 내에서는 36fps 디코딩된 시간적 레이어를 지원하거나 60fps 스트림 내에서의 30fps 디코딩된 시간적 레 이어를 지원할 수 있다. 3개의 B 프레임(M=4)은 72fps 스트림 내에서 36fps 및 18fps 디코딩된 시간적 레이어 양쪽 모두를 지원할 수 있고, 60fps 스트림 내에서는 30fps 및 15fps 디코딩된 시간적 레이어를 지원할 수 있다. M=10을 사용하면, 120fps 스트림 내에서는 12fps, 24fps 및 60fps 디코딩된 시간적 레이어를 지원할 수 있다. M=4는 또한 72fps 및 36fps에서 디코딩된 시간적 레이어를 제공하기 위해 144fps 스트림과 사용될 수 있다.

매 N번째 프레임을 고려한 향상으로써, 120fps 또는 72fps의 복수 프레임이 "Enhancements to Temporal and Resolution Layering"이라는 명칭의 공동 계류중인 미국 특허출원 제09/545,233호(본 출원인에게 양도되고, 참고자료로 통합됨)에 설명된 바와 같이 디코딩되고 비례적으로 혼합되어, 24fps 결과치의 움직임 얼룩(blur) 특성을 향상시킨다.

심지어는 더 높은 프레임 레이트가 "System and Method for Motion Compensation and Frame Rate Conversion"이라는 명칭의 공동 계류중인 미국 특허출원 제09/435,277호(본 출원인에게 양도되고, 참고자료로 통합됨)에 개시된 방법을 활용하여 합성될 수 있다. 예를들어, 초당 288 프레임의 유효 프레임 레이트를 생성하기 위해 움직임 보상된 프레임 레이트 변환에 72 fps 카메라 원본이 사용될 수 있다. M=12를 사용하면, 144fps, 96fps 및 32fps(그리고, 당연히 원래의 72fps)와 같은 다른 유용한 레이트뿐만 아니라 48fps 및 24fps 프레임 레이트 양쪽 모두가 얻어질 수 있다. 이 방법을 사용한 프레임 레이트 변환은 정수배가 될 필요가 없다. 예를들어, 120fps의 유효 레이트가 72fps 소스로부터 생성될 수 있으 며, 그리고나서 60fps 및 24fps 레이트(M=10을 사용한) 양쪽 모두에 대한 소스로써 사용될 수 있다.

그러므로, 시간적 층화는 B 프레임 보간의 성능을 최적화함에 있어서 이점을 갖는다. 전술된 비율 B 프레임 보간은 더 많은 수의 연속적인 B 프레임 함수를 더욱 효율적으로 만들며, 그에 의해 이러한 이점들을 가능하게 한다.

혼합된 B-프레임 보간 비율(Blended B-Frame Interpolation Propertions)

동일 평균 가중이 B 프레임 화소값에 대한 움직임 보상된 예측기로써 종래의 시스템에서 사용되어왔던 한가지 이유는 특정 B 프레임 이전 또는 이후의 P(또는 I) 프레임이 잡음성 프레임이 되어 그에 따라 불완전한 매치를 표현할 수도 있기 때문이다. 동일 혼합은 보간된 움직임-보상 블록에서의 잡음의 제거를 최적화할 것이다. 양자화된 DCT 함수를 사용하여 코딩되는 차 잉여(difference residual)가 존재한다. 물론, 움직임 보상된 비율로부터의 매치가 우수할수록, 요구될 차 잉여가 더 적어지고, 그 결과의 이미지 화질이 더 높아지게 된다.

음영 또는 안개 속으로 이동하여 벗어나는 물체가 존재하는 경우에, 여기에서는 M＞2인 실제 비율이 더 우수한 예측을 제공한다. 그러나, 조도 및 명암대비 변화가 발생하지 않을 때, 움직임 벡터를 따라 전방으로 이동하는 매크로블록의 오차가 후방의 디스플레이된 블록으로부터의 오차와 평균되어 각각에서의 오차가 절반으로 감소될 것이기 때문에, 동일 가중은 더 우수한 예측기인 것으로 입증될 것이다. 그렇다 하더라도, P(또는 I) 프레임에 더 가까운 B 프레임 매크로블록은 멀리있는 P(또는 I) 프레임에 대해서보다 가까이에 있는 그 프레임에 더 많이 서로 관련하기가 쉬울 것이다.

그러므로, 지역적인 명암대비 또는 밝기 변화와 같은 일부 환경에서는 전술된 바와 같이 B 프레임 매크로블록 화소 가중(휘도 및 컬러 모두에 대해)에 실제 비율을 이용하는 것이 바람직하다. 다른 환경에서는 MPEG-2 및 MPEG-4에서와 같이 동일 비율을 이용하는 것이 더 적합할 수도 있을 것이다

본 발명의 다른 특징은 B 프레임 화소 보간을 위한 이들 2가지 비율 기술(동일 평균과 프레임-거리 비율)의 혼합을 이용한다. 예를들어, M=3의 경우, 1/3과 2/3 비율의 3/4이 동일 평균의 1/4과 혼합되어 2개의 비율이 3/8과 5/8이 될 수 있다. 이 기술은 "혼합 계수" F를 사용함으로써 일반화될 수 있을 것이다:

가중치 = F·(프레임 거리 비율 가중치) + (1-F)·(동일 평균 가중치)

혼합 계수 F의 유용한 범위는 1부터 0까지이며, 1은 순수한 비율 보간을 나타내고, 0은 순수한 동일 평균을 나타낸다(값을 반대로 지정하는 것도 이용 가능할 것이다).

도 3은 본 발명의 이러한 특징에 따른 프레임과, 혼합된 가중값, 비율 가중값 및 동일 화소 가중값의 시간 라인을 나타내는 도면이다. 각각의 중간 B 프레임(301a, 301b)의 각각의 매크로블록의 화소값은 이전 P 또는 I 프레임(A)과 다음 P 또는 I 프레임(B)간의 "시간 거리"를 함수로 하여, 그리고 A와 B의 동일 평균을 함수로 하여 가중된다. 이 예에서, M=3과 혼합 계수 F=3/4에 대하여, 최초의 B 프레임(301a)에 대한 혼합 가중은 (5/8)A + (3/8)B 와 동일하다(즉, (2/3)A+(1/3)B의 비율 가중의 3/4에, (A+B)/2의 동일 평균 가중의 1/4을 더한 것). 유사하게, 두번 째의 B 프레임(301b)에 대한 가중은 (3/8)A + (5/8)B 와 동일하다.

혼합 계수 F의 값은 완전한 인코딩을 위해, 또는 화상의 각각의 그룹(GOP), B 프레임의 영역, 각각의 B 프레임 혹은 B 프레임 내의 각각의 영역(예를들어, 각각의 매크로블록에 대해서와 같이 미세하게, 또는 8×8 모드의 P 벡터를 사용하는 MPEG-4 직접 모드의 경우에는 심지어 개개의 8×8 움직임 블록)을 위해 전체적으로 설정될 수 있다.

비트 이코노미의 관점에서, 그리고 혼합 비율이 각각의 매크로블록과 함께 전달되기에 충분한 것이 항상 중요한 것은 아니라는 사실을 감안하면, 혼합의 최적의 사용은 압축되는 이미지의 유형에 관련되어야만 한다. 예를들어, 페이드되거 디졸브되거나 혹은 전체적인 조도 또는 명암대비가 점차적으로 변화하는 곳의 이미지에 대하여, 1에 가깝거나 1인 혼합 계수 F(즉, 비율 보간을 선택함)는 일반적으로 가장 최적의 것이 된다. 이러한 조도 또는 명암대비 변화가 없는 주행중인 이미지에 대해서는 2/3, 1/2 또는 1/3과 같은 낮은 혼합 계수값이 최상의 선택을 형성할 것이며, 그에 의해 동일 평균 보간의 이점의 일부뿐만 아니라 비율 보간의 이점의 일부를 유지할 것이다. 0 내지 1 범위 내의 모든 혼합 계수값이 유용할 것이며, 이 범위 내의 한 특정값이 임의의 주어진 B 프레임에 대해 최적인 것으로 입증된다.

광범위의 동적 영역 및 광범위의 명암대비 영역 이미지에 대하여서는, 혼합 계수는 국부적인 지역 특성에 좌우되어 지역별로 결정될 수 있다. 그러나, 일반적으로, 광범위의 조도 및 명암대비는 동일 평균보다는 순수 비율 보간에 우호적인 혼합 계수값쪽으로 권유된다.

화면 유형에 의한 혼합 계수의 표를 작성하기 위해 특정 유형의 화면과의 경험이 사용될 수도 있지만, 최적의 혼합 계수는 일반적으로 실험적으로 결정된다. 예를들어, 프레임 또는 지역에 대한 혼합 비율을 선택하기 위해 이미지 변화 특성의 판정이 사용될 수 있다. 이와 달리, B 프레임은 다수의 후보 혼합 계수(전체 프레임에 대해서인지 아니면 지역별로인지)를 사용하여 코딩될 수 있으며, 후보 혼합 계수의 각각은 이미지 화질(예를들어, 가장 높은 신호대 잡음비, 즉 SNR에 의해 결정된)을 최적화하기 위해 그리고 최저의 비트 카운트에 대하여 평가된다. 이들 후보 평가는 그리고나서 혼합 비율에 대한 최상의 값을 선택하기 위해 사용될 수 있다. 이미지 변화 특성 및 코딩된 화질/효율 양쪽 모두의 조합도 사용될 수 있다.

B 프레임의 시퀀스의 중간 부근에 있는 또는 낮은 값의 M에서 기인한 M 프레임은 계산된 비율이 이미 동일 평균 부근에 있기 때문에 비율 보간에 의해 매우 크게 영향받지는 않는다. 그러나, 더 높은 값의 M에 대해, 극단의 B 프레임 위치는 혼합 계수의 선택에 의해 크게 영향받을 수 있다. 보다 중앙의 위치보다는 평균의 이상을 이용하는 이들 극단의 위치에 대해서는 혼합 계수가 상이하게 될 것이고, 이들 극단의 위치가 양쪽의 이웃하는 P(또는 I) 프레임의 높은 비율을 이미 가지고 있기 때문에 평균으로부터 아무런 이득을 얻지 못한다는 점에 유의하기 바란다. 예를들어, M=5라면, 첫번째와 4번째 B 프레임은 동일 평균의 이상으로 혼합하는 혼합 계수 F를 사용할 것이지만, 두번째와 3번째의 중간 B 프레임은 엄격한 2/5 및 3/5 동일 평균 비율을 사용할 것이다. 비율대 평균 혼합 계수가 시퀀스 내에서의 B 프레임의 위치를 함수로 하여 변경한다면, 혼합 계수의 변경값은 압축된 비트스트림 내에 또는 디코더에 대한 부수 정보(side information)로써 전달될 수 있다.

고정된 범용 혼합 계수가 요구된다면(값을 전달하기 위한 방법의 결여로 인해), 2/3의 값이 보편적으로 최적에 가까우며, 인코더와 디코더 양자에서의 B 프레임 보간에 대한 고정값으로써 선택될 수 있다. 예를들어, 혼합 계수로 F=2/3을 사용하면, M=3에 대해서는 성공적인 프레임 비율이 7/18(7/18 = 2/3*1/3 + 1/3*1/2)과 11/18(11/18 = 2/3*2/3 + 1/3*1/2)이 될 것이다.

선형 보간(Linear Interpolation)

비디오 프레임 화소값은 일반적으로 원래 이미지 정보를 수치값으로 맵핑하는 특별한 표현으로 저장된다. 이러한 맵핑은 선형 또는 비선형 표현의 결과로 될 것이다. 예를들어, 압축에 사용된 휘도값은 비선형이다. 여러 형태의 비선형 표현의 사용은 대수, 지수(다양한 파워에 대한) 및 블랙 보정(black correction)(비디오 신호에 흔히 사용되는)과의 지수를 포함한다.

협폭의 동적 범위에 걸쳐 또는 그 부근의 영역의 보간에 대해, 이들 부근의 보간은 조각형(piece-wise) 선형 보간을 표현하기 때문에, 비선형 표현이 수용 가능하다. 그러므로, 밝기의 작은 변동은 선형 보간에 의해 합리적으로 근사된다. 그러나, 광범위의 동적 영역 및 광범위의 명암대비 영역 이미지에서 발생하는 것과 같은 밝기의 광범위의 변동에 대해서는, 비선형 신호를 선형적으로 처리하는 것이 부정확하게 될 것이다. 정상적인 명암대비 영역 이미지에 대해서조차도, 선형 페 이드 및 크로스-디졸브는 선형 보간에 의해 저하될 수 있다. 일부 페이드 및 크로스-디졸브는 비선형 페이드 및 디졸브 레이트를 이용하여 복잡도를 추가로 심화시킨다.

그러므로, 비율 혼합 또는 더욱 간단한 비율 보간이나 동일 평균 보간의 사용을 통한 추가의 향상은 선형 공간 또는 원래의 비선형 휘도 표현과 상이한 다른 최적화된 비선형 공간에서 표현된 화소값에 관한 이러한 보간을 수행하는 것이다.

이러한 추가의 향상은 예를들어 2개의 비선형 휘도 신호(이전 및 후속 P(I) 프레임으로부터의)를 선형 표현 또는 상이한 비선형 표현으로 최초 변환함으로써 달성될 수 있을 것이다. 그리고나서, 역변환이 적용된 후에 비율 혼합이 적용되어, 이미지의 원래 비선형 휘도 표현에서 혼합된 결과를 산출한다. 그러나, 비율 함수는 휘도 신호의 더욱 최적의 표현에 관해 수행될 것이다.

안개 및 구름에서 변동과 관련된 명암대비 변화를 발생하는 것과 같이 색상이 페이드하거나 더욱 포화되어갈 때, 이 선형 또는 비선형 변환을 색상(색도) 값에 이득이 되도록 적용하는 것 또한 유용하다.

일례의 실시예(Example Embodiment)

도 4는 컴퓨터로 시행될 수도 있는 방법으로써의 본 발명의 예시 실시예를 나타내는 흐름도이다.

단계 400 : 비디오 이미지 압축 시스템에서, B 프레임을 계산하기 위한 직접 및 보간 모드에 대해, 소스(예를들어, 비디오 이미지 스트림)로부터의 이러한 시퀀스 입력을 감싸는 적어도 2개의 비양방향으로 예측된 프레임으로부터 구해진 (1)프 레임-거리 비율 또는 (2)동일 가중과 프레임-거리 비율의 혼합 중의 하나를 사용하여 2개 또는 그 이상의 양방향으로 예측된 중간 프레임의 입력 시퀀스의 각각의 화소에 적용할 보간값을 결정한다.

단계 401 : 이미지 단위(예를들어, 화상군(GOP), 프레임의 시퀀스, 화면, 프레임, 프레임 내의 영역, 매크로블록, DCT 블록 또는 화소의 유사한 유용한 그룹화 또는 선택)에 대하여 보간값을 최적화한다. 보간값은 전체 인코딩 세션에 대해서는 정적으로, 혹은 각각의 이미지 단위에 대해서는 동적으로 설정될 수도 있을 것이다.

단계 402 : 화면 유형 또는 코딩 간략화에 대하여 보간값을 추가로 최적화한다. 예를들어, 보간값은 동적으로(2/3 비율 및 1/3 동일 평균과 같은) 설정되거나, 동일 평균 부근의 프레임에 대해서는 비례적으로 그러나 인접 P(또는 I) 프레임 부근에서는 동일 평균과 혼합되어 설정되거나, 페이드 및 크로스 디졸브와 같은 전체적인 화면 특성에 기초하여 동적으로 설정되거나, 국부적 명암대비와 국부적 동적 영역 등의 국부적 이미지 영역 특성에 기초하여서는 동적으로(그리고 국부적으로) 설정되거나, 혹은 생성된 최소 코딩 비트와 코딩 성능(최고의 코딩 SNR과 같은)에 기초하여서는 동적으로(그리고 국부적으로) 설정될 수도 있을 것이다.

단계 403 : 정적으로 결정되지 않았다면 적합한 비율량을 디코더에 전달한다.

단계 404 : 옵션으로, 각각의 프레임에 대한 휘도(및 옵션으로 색도) 정보를 다른 비선형 표현으로 변환하고, 정적으로 결정되지 않았다면 이 다른 표현을 디코 더에 전달한다.

단계 405 : 결정된 보간값을 사용하여 비율 화소값을 결정한다.

단계 406 : 필요시(단계 404 때문에), 원래 표현으로 재변환한다.

확장된 P 프레임 참조(Extended P frame reference)

전술된 바와 같이, 종래 기술의 MPEG-1, MPEG-2 및 MPEG-4 압축 방법에서, P 프레임은 이전의 P 또는 I 프레임을 참조하고, B 프레임은 가장 인접한 이전 및 후속 P 및/또는 I 프레임을 참조한다. 동일한 기술이 저비트 레이트 압축 기술을 포함하고 있는 H.261 및 H.263 움직임 보상된 DCT 압축 표준에 사용된다.

개발중인 H.263++ 및 H.26L 표준에서, B 프레임 참조는 현재 프레임을 직접적으로 감싸고 있지 않은 P 또는 I 프레임의 지점까지로 확장된다. 즉, B 프레임 내의 매크로 블록은 이전 P 프레임 앞의 하나의 P 또는 I 프레임을 가리키거나, 후속 P 프레임 뒤의 하나의 P 또는 I 프레임을 가리킬 수 있다. 매크로블록당 하나 또는 그 이상의 비트로, 이전 또는 후속 P 프레임의 건너뜀(skipping)이 간략하게 신호될 수 있다. 개념적으로, B 프레임에서의 참조를 위해 이전 P 프레임의 사용은 단지 저장을 필요로 한다. H.263++ 및 H.26L의 저비트 레이트 코딩 사용에 대해서는 적은 양의 추가 메모리를 필요로 한다. 후속 P 프레임 참조를 위해, P 프레임 코딩 순서는 B 프레임 코딩에 대하여 수정되어야 하며, 그리하여 추가의 P 프레임(또는 I 프레임도 가능)이 B 프레임을 개재시키기 전에 디코딩되어야만 한다. 그러므로, 코딩 순서 또한 후속 P 프레임 참조를 위한 주요사항이 된다.

P 프레임 유형과 B 프레임 유형간의 주요한 구분은, (1)B 프레임은 양방향으 로 참조될 수 있을 것이고(매크로블록당 최대 2개의 움직임 벡터), (2)B 프레임은 사용 후 폐기되고(이것은 또한 B 프레임이 시간적 층화를 제공하기 위해 디코딩 동안 스킵될 수 있다는 것을 의미함), (3) P 프레임은 각각의 P 프레임이 각각의 후속 P 프레임에 대한 기준으로써의 사용을 위해 디코딩되어야만 하기 때문에 하나 하나씩 차례로 "스테핑 스톤(stepping stones)"으로써 사용된다는 점이다.

본 발명의 다른 특징으로써, P 프레임(B 프레임에 반대되는 것으로써의)은 하나 또는 그 이상의 이전 P 또는 I 프레임(가장 인접한 이전 P 또는 I 프레임만을 참조하는 각각의 P 프레임의 경우를 제외한)을 참조하여 디코드된다. 그러므로, 예를들어, 매크로블록당 2개 또는 그 이상의 움직임 벡터가 현재의 P 프레임에 대해 사용될 수 있으며, 그 전부가 시간적으로 뒤쪽을 가리킨다(즉, 하나 또는 그 이상의 이전에 디코딩된 프레임을). 이러한 P 프레임은 "스테핑 스톤" 캐릭터를 여전히 유지한다. 도 5는 2개의 이전의 P 프레임(502, 504)과 이전의 I 프레임(506)에 대한 현재의 P 프레임(500)에 의한 복수의 이전의 참조의 예를 나타내는 도면이다.

추가로, 전술된 바와 같이, 이러한 P 프레임 참조에서의 매크로블록 보간의 개념을 적용하는 것이 가능하다. 그러므로, 하나보다 많은 이전의 P 또는 I 프레임에 대한 단일 참조를 신호하는 것에 추가하여, 각각의 이러한 프레임 참조에 대해 하나의 움직임 벡터를 사용하여 복수의 이전 P 또는 I 프레임의 비율을 혼합하는 것도 가능하다. 예를들어, 2개의 프레임 참조를 갖는 B 프레임 보간 모드를 사용하는 전술된 기술은 P 프레임 내의 임의의 매크로블록이 2개의 움직임 벡터를 사 용하여 2개의 이전 P 프레임, 또는 하나의 이전 P 프레임과 하나의 이전 I 프레임을 참조하도록 적용될 수 있을 것이다. 이 기술은 2개의 움직임 벡터 사이를 보간하지만, 양자의 움직임 벡터가 시간적으로 뒤쪽을 가르키기 때문에 시간적으로 양방향(그것은 B 프레임 보간과 함께하는 경우임)이지는 않다. 이러한 동시 발생적인 참조를 위해 메모리에 다수의 이전 P 또는 I 프레임을 유지하는 것이 상당히 실시되는 곳에서는 메모리 비용이 적절하게 증가된다.

이러한 P 프레임 보간을 적용함에 있어서, 이전의 2개 또는 그 이상의 P 프레임(그리고, 옵션으로 하나의 이전 I 프레임)의 각종의 유용한 비율을 선택하여 디코더에 알려주는 것이 건설적이다. 특히, 프레임의 동일 혼합은 유용한 혼합 비율 중의 하나이다. 예를들어, 2개의 이전 P 프레임을 기준으로 한다면, 각각의 P 프레임의 동일한 1/2 양이 혼합될 수 있다. 3개의 이전 P 프레임에 대해서는 1/3 동일 혼합이 사용될 수 있다.

2개의 P 프레임의 다른 유용한 혼합은 가장 최근의 이전 프레임의 1/2과, 다음의 가장 최근의 이전 프레임의 1/3과, 가장 늦은 최근의 이전 프레임의 1/6이다.

어떠한 경우에도, 복수의 이전 P 프레임(그리고, 옵션으로 하나의 I 프레임)의 간략한 세트의 유용한 혼합이 이용될 수 있고, 간략하게 인코더에서 디코더로 신호될 수 있다. 이용된 특정 혼합 비율은 이미지 단위에 대한 코딩 효율을 최적화하기에 유용할 때마다 선택될 수 있다. 다수의 혼합 비율은 동일한 수의 비트를 사용하여 선택될 수 있으며, 그 비트는 요구된 이미지 단위에 적합할 때마다 디코더에 전달될 수 있다.

본 발명의 다른 특징으로써, 단일 P 프레임 참조를 가장 최근의 이전 P(또는 I) 프레임에서 더 "멀리 있는" 이전 P(또는 I) 프레임으로 전환 선택하는 것도 유용하다. 이러한 방식으로, P 프레임은 매크로블록당(또는, 옵션으로 MPEG-4 스타일 코딩에서는 8×8 블록당) 단일 움직임 벡터를 이용할 수 있을 것이지만, 참조가 단일의 특정 이전 프레임 P를 지칭한다는 것을 나타내주기 위해 하나 또는 그 이상의 비트를 이용할 것이다. 이 모드에서의 P 프레임 매크로블록은 보간되지 않을 것이지만, 그 대신 참조를 위해 가능한 2개, 3개 또는 그 이상의 이전 P(또는 I) 프레임 선별로부터 선택되는 이전 프레임을 참조할 것이다. 예를들어, 2-비트 코드는 선별의 단일 참조 프레임으로써 최대 4개의 이전 프레임 중의 하나를 지정할 수 있다. 이 2-비트 코드는 어떠한 편리한 이미지 단위에서는 변경될 수도 있다.

B 프레임의 적용 가능한 수(Adaptive Number of B Frames)

MPEG 코딩에서 I, P 및 B 프레임 유형의 고정된 패턴을 사용하는 것은 통상적이다. P 프레임 사이의 B 프레임의 수는 통상적으로 일정하다. 예를들어, MPEG-2 코딩에서는 P(또는 I) 프레임 사이에 2개의 B 프레임을 사용하는 것이 일반적이다. 도 6a는 브라켓팅 I 프레임(600) 및/또는 P 프레임(602) 사이에 일정수의 B 프레임(즉, 2개)을 나타내고 있는 대표적인 종래 기술의 MPEG-2 코딩 패턴을 도시하는 도면이다.

MPEG-4 비디오 코딩 표준은 개념적으로 브라켓팅 I 프레임 및/또는 P 프레임 사이의 가변적인 수의 B 프레임과 I 프레임 사이의 가변적인 양의 거리를 허용한다. 도 6b는 I 프레임(600) 사이의 가변적인 거리뿐만 아니라 브라켓팅 I 프레임 (600) 및/또는 P 프레임(602) 사이의 가변적인 수의 B 프레임을 나타내고 있는 이론적으로 가능한 종래 기술의 MPEG-4 비디오 코딩 패턴을 도시하는 도면이다.

이 가요적인 코딩 구조는 가장 효율적인 B 및 P 프레임 코딩 유형을 이동중인 이미지 프레임에 매칭시킴으로써 코딩 효율을 향상시키기 위해 이론적으로 이용될 수 있다. 이 가요성이 특별하게 허용된다 하더라도, 이것은 거의 연구되지 않아 왔으며, 이러한 가요적인 구조에서 B 및 P 프레임의 배치를 실제적으로 결정하기 위한 메카니즘도 알려진 것이 없다.

본 발명의 다른 특징은 본 명세서에 기술된 개념을 이 가요적인 코딩 구조 및 흔히 사용되는 간략한 고정된 코딩 패턴에 적용한다. 그에 따라, B 프레임은 전술된 방법을 사용하여 보간될 수 있는 한편, P 프레임은 하나보다 많은 이전 P 또는 I 프레임을 참조하고 본 설명에 따라 보간될 수 있을 것이다.

특히, B 프레임 내의 매크로블록은 고정된 구조만큼 효율적으로 가요적인 코딩 구조에 적합한 비율 혼합을 이용할 수 있다. 비율 혼합은 또한 가장 인접한 브라켓팅 P 또는 I 프레임보다 더 멀리 떨어져 있는 P 또는 I 프레임을 B 프레임이 참조할 때에 이용될 수도 있다.

유사하게, P 프레임은 고정된 패턴 구조만큼 효율적으로 이러한 가용적인 코딩 구조의 하나보다 많은 이전 P 또는 I 프레임을 참조할 수 있다. 더욱이, 혼합 비율은 이러한 P 프레임이 하나보다 많은 이전 P 프레임(옵션으로, 하나의 I 프레임을 플러스)을 참조할 때 이러한 P 프레임 내의 매크로블록에 적용될 수 있다.

(A) 가요적인 코딩 패턴에서의 배치를 결정(Determining Placement in Flexible Coding Patterns)

다음의 방법은 인코더가 프레임 코딩 패턴과 이용된 혼합 비율 모두의 효율을 최적화하도록 한다. 프레임의 선택된 영역에 대하여, 최적의 또는 거의 최적의(특정된 기준에 대하여) 패턴을 결정하기 위해 다수의 후보 코딩 패턴이 시도될 수 있다. 도 7은 검사될 수 있는 코드 패턴을 나타내는 도면이다. P 또는 I 프레임으로 종료하는 초기 시퀀스(700)가 임의로 선택되고, 추가의 P 및/또는 B 프레임에 대한 토대로써 사용되며, 그리고나서 이들 프레임이 평가된다(하술된 바와 같이). 일실시예에서, P 프레임은 평가를 위한 제1 테스트 시퀀스(702)를 작성하기 위해 초기 시퀀스(700)에 추가된다. 평가가 충족되면, 제2 테스트 시퀀스(704)를 작성하기 위해 개재하고 있는 B 프레임이 삽입된다. 각각의 충족 평가에 대하여, 평가 기준이 비충족될 때까지 점차적으로 더 긴 테스트 시퀀스(706∼712)를 작성하기 위해 추가의 B 프레임이 삽입된다. 그 지점에서, 이전 코딩 시퀀스가 수용된다. 이전에 수용된 코딩 시퀀스에 대한 최종 P 프레임을 신규 P 프레임을 추가하기 위한 개시 지점으로써 사용하고 그리고나서 신규 B 프레임을 삽입함으로써 이 프로세스가 반복된다.

최적의 또는 거의 최적의 코딩 패턴은 코딩된 이미지 화질대 요구된 코딩 비트의 수와 같은 다양한 코딩 특성의 트레이드오프를 종종 수반하는 다양한 평가 기준에 기초하여 선택될 수 있다. 공통적인 평가 기준은 가장 적은 사용 비트수(고정된 양자화 파라미터 테스트에서) 또는 최상의 신호대 잡음비(고정된 비트-레이트 테스트에서) 혹은 이 둘의 조합을 포함한다.

DC 매치의 측정치를 형성하는 절대값의 합(SAD)을 최소화하는 것도 일반적이다. "Motion Estimation for Video Compression System"이라는 명칭의 공동 계류중인 미국 특허출원 번호 제09/904,192호(본 출원인에게 양도되고, 참고자료로 통합됨)에 개시된 바와 같이, AC 매치 기준은 또한 특정 후보 매치의 품질에 대한 유용한 측정이다(상기 특허 출원 또한 다른 유용한 최적화를 개시한다). 그러므로, 모든 매크로블록의 최상의 매치에 걸쳐 축적된 AC 및 DC 매치 기준이 검사되어 각각의 후보 코딩 패턴의 전체적인 매치 품질을 결정할 수 있다. 이 AC/DC 매치 기술은 신호대 잡음비(SNR)를, 그리고 각각의 프레임 패턴 유형에 대한 코딩된 비트의 수의 근사치와 함께 사용된 때의 최소 사용 비트 테스트를 증가시키거나 대체할 수 있다. P 프레임에 대해서보다는 더 높은 양자화 파라미터(QP) 값을 갖는 B 프레임 내의 매크로블록을 코딩하는 것이 보편적이어서, 다양한 후보 코딩 패턴 내에서의 품질(종종 신호대 잡음비로 측정된)과 사용 비트의 수 모두에 영향을 준다.

(B) 가요적인 코딩 패턴에서의 혼합 비율 최적화(Blend Proportion Optimization in Flexible Coding Patterns)

옵션으로, 상기의 방법에 따라 결정된 각각의 후보 패턴에 대해, 하나 또는 그 이상의 기준에 관련한 적합성(예를들어, 최적 또는 거의 최적의 혼합 비율)에 관해 혼합 비율이 테스트될 수도 있을 것이다. 이것은 예를들어 최상의 품질(가장 낮은 SNR) 및/또는 효율(최소의 사용 비트)을 테스트함으로써 행해질 수 있다. P 프레임에서의 각각의 매크로블록에 대한 하나 또는 그 이상의 이전 참조의 사용은 각각의 후보 참조 패턴 및 혼합 비율을 테스트하는 동일한 방식으로 결정되어 하나 또는 그 이상의 적합한 참조의 세트를 결정할 수 있다.

이 다음 단계(도 7에서의 단계 700)를 위한 코딩 패턴이 선택된 후, 각종의 후보 코딩 패턴에 대해 후속 단계(단계 702∼712)가 테스트될 수 있다. 이러한 방식으로, 이동 중인 이미지 시퀀스의 더 효율적인 코딩이 결정될 수 있다. 그에 따라, 상기의 섹션(A)에서 설명된 바와 같이 효율이 최적화/향상될 수 있으며, 혼합 최적화가 각각의 테스트된 코딩 단계에서 적용될 수 있다.

DC 대 AC 보간(DC vs. AC Interpolation)

이미지 프레임의 대수적 표현을 사용할 때와 같은 다수의 경우의 이미지 코딩에서, 프레임 화소값의 전술된 보간은 조도의 변화를 최적으로 코딩할 것이다. 그러나, 선택적 비디오 "감마-곡선", 선형 및 다른 표현에서, 상이한 보간 혼합 계수를 화소의 AC 값에 적용하기 보다는 DC 값에 적용하는 것이 유용한 것으로 나타날 것이다. 도 8은 AC 보간과는 다른 DC 보간을 갖는 보간 방법의 일실시예를 나타내는 흐름도이다. 제1 및 제2 입력 프레임(802, 802')으로부터의 선택된 이미지 영역(보편적으로, DCT 블록 또는 매크로블록)에 대해, 각각의 이러한 영역에 대한 평균 화소값이 추출되며(804, 804'), 이에 의해 DC 값(즉, 전체 선택 영역의 평균값)(806, 806')을 선택된 영역의 AC 값(즉, 부호가 부여된 화소값 잔여분)(808, 808')으로부터 분리한다. 각각의 DC 값(806, 806')은 AC(부호가 부여된) 화소값(808, 808')을 승산하기 위해 사용된 보간 가중치(814, 814')와는 상이한 보간 가중치(810, 810')에 의해 승산될 수 있다. 신규 보간된 DC 값(812) 및 신규 보간된 AC 값(816)은 조합될 수 있고(818), 그 결과 선택된 영역에 대한 신규 예측(820)의 결과로 나타난다.

본 발명에서의 다른 보간값과 마찬가지로, 적합한 가중치가 이미지 단위당 디코더에 신호될 수 있다. 적은 수의 비트는 화소값의 AC 대 DC 특성의 독립적 보간을 선택할뿐만 아니라 다수의 보간값들 사이를 선택할 수 있다.

선형 및 비선형 보간(Linear & Non-linear Interpolation)

보간은 선형적 가중 평균이다. 보간 연산이 선형적이고 각각의 이미지 프레임의 화소값이 간혹 비선형적 형태(비디오 감마 또는 대수적 표현과 같은)로 표현되기 때문에, 보간 프로세스의 추가의 최적화가 가능하게 된다. 예를들어, AC 값과 별도의 DC 값의 보간뿐만 아니라 프레임의 특정 시퀀스에 대한 화소의 보간은 선형적 화소 표현으로 최적화되거나 거의 최적화될 것이다. 그러나, 다른 프레임 시퀀스에 대해, 이러한 보간은 화소가 대수적 값으로써 또는 다른 화소 표현으로 표현된다면 최적화되거나 거의 최적화될 것이다. 더욱이, U 및 V(색도) 신호 성분을 보간하기 위한 최적 또는 거의 최적의 표현은 Y(휘도) 신호 성분에 대한 최적 또는 거의 최적의 표현과는 상이하게 될 것이다. 따라서 이것은 화소 표현을 보간 프로시져의 일부로써의 다른 표현으로 변환하기 위한 본 발명의 유용한 특징이다.

도 9는 다른 표현을 사용하는 휘도 화소의 보간을 위한 방법의 일실시예를 나타내는 흐름도이다. 초기 표현(예를들어, 비디오 감마 또는 대수)에서의 휘도(Y) 화소의 영역 또는 블록으로 개시하면(단계 900), 화소 데이타는 초기 표현과는 상이한 다른 표현(예를들어, 선형, 대수, 비디오 감마)로 변형된다(단계 902). 변형된 화소 영역 또는 블록은 전술된 바와 같이 보간되고(단계 906), 다시 초기 표 현으로 변형된다(단계 906). 그 결과는 보간된 화소 휘도값이 된다(단계 908).

도 10은 다른 표현을 사용하여 색도 화소의 보간을 위한 방법의 일실시예를 나타내는 흐름도이다. 초기 표현(예를들어, 비디오 감마 또는 대수)의 색도(U, V) 화소의 영역 또는 블록으로 개시하면(단계 1000), 화소 데이타는 초기 표현과는 상이한 다른 표현(예를들어, 선형, 대수, 비디오 감마)으로 변형된다(단계 1002). 변형된 화소 영역 또는 블록은 전술된 바와 같이 보간되고(단계 1006), 다시 초기 표현으로 변형된다(단계 1006). 그 결과는 보간된 화소 색도값이 된다(단계 1008).

표현간의 변형은 "Method and System for Improving Compressed Image Chroma Information"이라는 명칭의 미국 특허출원 번호 제09/905,039호의 교시에 따라 수행될 수도 있을 것이며, 상기 특허출원은 본 출원인에게 양도되어 참고자료로 통합된다. 다른 표현 변형 및 그 역이 단순한 탐색표를 사용하여 수행될 수도 있음에 유의하기 바란다.

본 발명의 이러한 특징의 변동으로써, AC 보간을 위한 다른(선형 또는 비선형) 표현 공간은 DC 보간을 위한 다른 표현 공간과 상이하게 될 수도 있을 것이다.

보간 가중치와 마찬가지로, 다른 보간 표현이 휘도(Y) 및 색도(U, V)의 각각에 대해 사용되도록 하는 선택은 각각의 선택된 이미지 단위에 대해 적은 수의 비트를 사용하여 디코더에 신호될 수도 있을 것이다.

매크로블록당의 움직임 벡터의 수(Number of Motion Vectors per Macroblock)

MPEG-2에서, P 프레임의 16×16 매크로블록당 하나의 움직임 벡터가 허용된다. B 프레임에서, MPEG-2는 16×16 매크로블록당 최대 2개의 움직임 벡터를 허용하여 양방향 보간 모드에 대응한다. MPEG-4 비디오 코딩에서, P 프레임의 16×16 매크로블록당 최대 4개의 움직임 벡터가 허용되어, 8×8 DCT 블록당 하나의 움직임 벡터에 대응한다. MPEG-4 B 프레임에서, 보간 모드를 사용할 때에 각각의 16×16 매크로블록에 대해 최대 2개의 움직임 벡터가 허용된다. MPEG-4 직접 모드에서의 단일 움직임 벡터 델타는 후속의 해당 P 프레임 매크로블록이 4개의 벡터를 갖는 8×8 모드로 설정된다면 4개의 독립적인 "절대적(implicit)" 움직임 벡터의 결과가 될 수 있다. 이것은 16×16 B 프레임 매크로블록으로 운반된 하나의 움직임 벡터를 후속의 P 프레임 매크로블록으로부터의 대응하는 4개의 독립적 움직임 벡터의 각각에 추가하고, 그 후에 시간적으로 거리를 조정함으로써 달성된다(B 프레임이 P 프레임의 이전 P 또는 I 프레임 기준보다 시간적으로 더 근접함).

본 발명의 일특징은 매크로블록과 같은 화상 영역당의 움직임 벡터의 수를 증가시키기 위해 옵션을 포함한다. 예를들어, 간혹 B 프레임 매크로블록당 2개보다 많은 움직임 벡터를 갖는 것이 이로운 것으로 입증될 것이다. 이들 움직임 벡터는 추가의 P 또는 I 프레임을 참조하고 가중 합계에서 3개 또는 그 이상의 보간 항을 가짐으로써 적용될 수 있다. B 프레임 매크로블록의 8×8 DCT 블록을 위한 독립적인 벡터를 허용하기 위해 추가의 움직임 벡터가 적용될 수도 있다. 또한, 별도의 델타를 후속 P 프레임으로부터의 4개의 8×8 영역 움직임 벡터의 각각에 적용함으로써 직접 모드 개념을 확장하기 위해 4개의 독립적 델타가 사용될 수 있다.

더욱이, P 프레임은 전술된 B-프레임 2-보간-항 기술(B-frame two-interpolation-term technique)을 사용하는 보간 모드에서의 하나보다 많은 이전 프레임을 참조하기 위해 B-프레임 실시 기술을 사용하여 적합화될 수 있다. 이 기술은 2개보다 많은 이전 P 또는 I 프레임까지 용이하게 확장될 수 있으며, 그 결과의 보간은 보간 합계에서 3개 또는 그 이상의 항을 갖게 된다.

본 발명의 다른 특징(예를들어, 화소 표현 및 DC 대 AC 보간 방법)과 마찬가지로, 특정의 가중 합계는 이미지 단위당 적은 수의 비트를 사용하여 디코더에 통신될 수 있다.

본 발명의 이 특징을 적용함에 있어서, 8×8 화소 DCT 블록과 움직임 벡터 필드간의 대응은 MPEG-2 및 MPEG-4와 같이 엄격하게 될 필요는 없다. 예를들어, 움직임 벡터에 대한 16×16, 16×8(MPEG-4에서의 인터레이스로만 사용됨) 및 8×8이 아닌 다른 영역 크기를 사용하는 것이 유용할 수도 있을 것이다. 이러한 다른 영역 크기는 4×8, 8×12, 8×16, 6×12, 2×8, 4×8, 24×8, 32×32, 24×24, 24×16, 8×24, 32×8, 32×4 등의 임의의 수의 유용한 영역 크기를 포함할 수도 있다. 더 적은 수의 이러한 유용한 크기를 사용하면, 소수의 비트가 움직임 벡터 영역 크기와 DCT 블록 크기간의 대응을 디코더에게 신호할 수 있다. 종래의 8×8 DCT 블록이 사용되는 시스템에서, 움직임 벡터 필드에 대한 간략한 세트의 대응은 움직임 보상 동안의 처리를 간략화시키는데 유용하다. DCT 블록 크기가 8×8과 상이한 시스템에서, "Enhanced Temporal and Resolution Layering in Advance Television"이라는 명칭의 공동 계류중인 미국 특허출원 번호 제09/545,233호에 개 시된 바와 같이 움직임 벡터 필드를 특정함에 있어서 더 큰 가요성이 달성될 수 있으며, 상기 특허출원은 본 출원인에게 양도되어 참고자료로 통합된다. 움직임 벡터 영역 경계가 DCT 영역 경계에 대응할 필요는 없다는 점에 유의하기 바란다. 실제로, 움직임 벡터 영역 에지가 DCT 블록 내에(그리고 DCT 블록의 에지가 아닌) 위치하도록 하는 방식으로 움직임 벡터 영역을 정의하는 것이 종종 유용하다.

움직임 벡터 필드의 가요성을 확장하는 개념은 본 발명의 보간 특성에 적용한다. 각각의 화소와 하나 또는 그 이상의 기준 프레임에 대한 하나 또는 그 이상의 움직임 벡터간의 일치가 특정되는 한, 전술된 보간 방법은 본 발명의 일반적 특성의 전부를 사용하는 유용한 움직임 벡터의 완전한 가요성에 적용될 수 있다. 심지어는, 각각의 움직임 벡터에 대응하는 영역의 크기가 P 프레임을 사용할 때의 각각의 이전 프레임 기준, 그리고 B 프레임을 사용할 때의 각각의 이전 및 미래 프레임 기준과 상이할 수 있다. 본 발명의 향상된 보간 방법을 적용할 때에 움직임 벡터에 대한 영역 크기들이 상이하다면, 보간은 공통적인 중첩 영역을 반영한다. 움직임 벡터 참조를 위한 공통적인 중첩 영역은 DC 및 AC 화소값을 별도로 보간할 때에 DC 항이 결정되는 영역으로써 시용될 수 있다.

도 11은 2개의 P 프레임(1104, 1106)의 각각에 대한 고유 움직임 벡터 영역 크기(1100, 1102)를 나타내는 도면이다. 본 발명에 따라 보간값을 계산하기 전에, 움직임 벡터 영역 크기의 단위체(1108)가 결정된다. 단위체(1108)는 할당된 움직임 벡터를 갖도록 고려되는 영역의 전부를 한정한다.

그러므로, 예를들어, 이전의 P 프레임(1104)의 뒤쪽으로 B 프레임(1112)의 4 ×4 DCT 영역을 보간함에 있어서, 단위체(1108) 내의 4×4 영역(1110)은 이전의 P 프레임에서의 8×16 영역(1114)에 대응하는 움직임 벡터를 사용할 것이다. 전방으로 예측한다면, 단위체(1108) 내의 영역(1110)은 다음 P 프레임내의 4×16 영역(1115)에 대응하는 움직임 벡터를 사용할 것이다. 유사하게, 단위체(1108) 내의 영역(1116)의 후방으로의 보간은 8×16 영역(1114)에 대응하는 움직임 벡터를 사용하는 한편, 동일 영역을 전방으로 예측하는 것은 12×16 영역(1117)에 대응하는 움직임 벡터를 사용할 것이다.

본 발명의 일실시예에서, 일반화된(즉, 비균일한 크기) 움직임 벡터의 보간을 달성하기 위해 2개의 단계가 사용된다. 제1 단계는 도 11에 대하여 설명된 바와 같이 움직임 벡터 공통 영역을 결정하는 것이다. 이것은 각각의 이전 또는 후속 프레임 참조를 위한 화소와 움직임 벡터의 대응(즉, 특정된 화소 영역 크기당의 움직임 벡터의 수)을 확립한다. 제2 단계는 화소의 각각의 영역에 대해 작용하는 적합한 화소 방법 및 보간 계수를 이용하는 것이다. 최적 또는 거의 최적의 움직임 벡터 영역 및 보간 방법이 특정되도록 하고 모든 화소가 완전하게 특정된 자신의 벡터 및 보간 방법을 갖도록 하는 것이 인코더의 태스크이다. 이것은 움직임 벡터의 고정된 패턴(전체 프레임에 대해 특정된 각각의 32×8 블록에 대한 하나의 움직임 벡터와 같은)의 경우에 단일의 특정된 보간 방법(전체 프레임에 대해 특정된 참조 프레임의 각각의 거리에 대한 고정된 비율 혼합과 같은)으로 매우 간략하게 될 수 있다. 이 방법은 움직임 벡터 영역 크기에 대해 영역 변경이 이루어진다면, 그리고 이전 또는 후속 프레임 중의 어느 것이 참조되는지에 좌우되어 영역 크 기가 상이하게 되는 곳(예를들어, 가장 인접한 이전 프레임에 대해서는 8×8 블록, 그리고 그 다음으로 가장 인접한 이전 프레임에 대해서는 32×8 블록)에서는 상당히 복잡하게 될 수 있다. 더욱이, 보간 방법은 프레임 내에서 지역적으로 특정될 수 있다.

인코딩시에, 인코더는 움직임 벡터 영역 형상과 크기 사이를 선택하기 위해 최적 또는 거의 최적의 비트의 사용을 결정하고, 최적 또는 거의 최적의 보간 방법을 선택한다. 결정은 또한 참조된 프레임의 수와 거리를 특정하기 위해 요구된다. 이들의 상세는 다수의 후보 움직임 벡터 영역 크기와, 참조를 위한 후보 프레임과, 각각의 이러한 움직임 벡터 영역에 대한 보간 방법을 최적 또는 거의 최적의 코딩이 발견될 때까지 고갈적으로 테스트함으로써 결정될 수 있다. 최적성(선택된 기준에 관련한)은 블록을 인코딩한 후의 최소의 SNR 또는 블록을 코딩한 후의 고정된 양자화 파라미터(QP)에 대한 최저수의 비트를 찾아냄으로써, 또는 다른 적합한 측정을 적용함으로써 결정될 수 있다.

직접 모드 확장(Direct Mode Extension)

MPEG-4에서 B 프레임 매크로블록에 사용된 종래의 직접 모드는 움직임 벡터 코딩에 효율적이 될 수 있어서 8×8 블록 모드의 이점에 단순한 공통 델타를 제공한다. 직접 모드는 시간적인 거리에 기초한 해당 매크로블록 위치에 있고 이전 P 프레임을 참조하는 후속 P 프레임으로부터의 각각의 해당 움직임 벡터를 가중시킨다. 예를들어, M=3(즉, 2개의 개재 B 프레임)이라면, 단순한 선형 보간으로, 최초의 B 프레임은 후속 P 프레임 움직임 벡터의 -2/3배를 사용하여 이러한 P 프레임에 대하여 화소 오프셋을 결정하고, 후속 P 프레임 움직임 벡터의 1/3배를 사용하여 이전 P 프레임에 대하여 화소 오프셋을 결정한다. 유사하게, 두번째 B 프레임은 동일한 P 프레임 움직임 벡터의 -1/3배를 사용하여 이러한 P 프레임에 대하여 화소 오프셋을 결정하고, 후속 P 프레임 움직임 벡터의 2/3배를 사용하여 이전 P 프레임에 대하여 화소 오프셋을 결정한다. 직접 모드에서, 각각의 해당 움직임 벡터에 작은 델타가 추가된다. 본 발명의 다른 특징으로써, 이 개념은 프레임 규모 비율을 결정하기 위해 프레임 간격을 고려함으로써, 하나 또는 그 이상의 n-어웨이 P 프레임을 가르키고 그 다음에 하나 또는 그 이상의 이전 또는 후속 P 프레임 혹은 I 프레임을 참조하는 B 프레임 참조까지 확장될 수 있다.

도 12는 1-어웨이 후속 P 프레임을 참조하는 2-어웨이 후속 P 프레임으로부터의 거리를 함수로 하여 결정된 B 프레임에 대한 보간 가중치를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 예시된 예에서, M=3은 브라켓팅 P 프레임(1204, 1206) 사이에 2개의 연속적인 B 프레임(1200, 1202)을 나타내고 있다. 이 예에서, 그 다음으로 가장 인접한 후속 P 프레임(1208)(즉, n=2)의 각각의 공동 위치된 매크로블록은 개재(즉, 가장 인접한) P 프레임(1204)을 가르킬 것이며, 최초의 2개의 B 프레임(1200, 1202)은 종래의 MPEG에서와 같이 가장 인접한 후속 P 프레임(1204)이 아닌 다음으로 가장 인접한 후속 P 프레임(1208)을 참조할 것이다. 그러므로, 최초의 B 프레임(1200)에 대해, 그 다음으로 가장 인접한 후속 P 프레임(1208)으로부터의 움직임 벡터 mv의 5/3배인 프레임 규모 비율이 P 프레임(1208)에 대한 화소 오프셋으로써 사용될 것이며, 두번째 B 프레임(1202)은 동일 움직임 벡 터의 4/3배의 오프셋을 사용할 것이다.

B 프레임에 의해 참조된 가장 인접한 후속 P 프레임이 그 다음의 가장 인접한 이전 P 프레임을 가르킨다면, 움직임 벡터에 적용하기 위해 적합한 프레임 규모 분수를 획득하기 위해 단순한 프레임 거리가 사용될 수 있다. 도 13은 2-어웨이 이전 P 프레임을 참조하는 1-어웨이 후속 P 프레임으로부터의 거리를 함수로 하여 결정된 B 프레임에 대한 보간 가중치를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 예시된 예에서, M=3이며, B 프레임(1300, 1302)은 가장 인접한 후속 P 프레임(1304)를 참조하고, 이 후속 P 프레임은 그 다음에 2-어웨이 P 프레임(1306)을 참조한다. 그러므로, 가장 인접한 후속 P 프레임(1304)의 움직임 벡터가 6 프레임 거리에 있는 2-어웨이 이전 P 프레임을 가르키기 때문에, 최초의 B 프레임(1300)에 대해, 화소 오프셋 비율은 가장 인접한 후속 P 프레임(1304)으로부터의 움직임 벡터 mv에 2/6이 승산된 프레임 규모 비율이며, 두번째 B 프레임(1302)은 동일 움직임 벡터에 1/6이 승산된 프레임 규모 비율의 화소 오프셋을 가질 것이다.

일반적으로, 직접 모드에서 단일 P 프레임을 참조하는 B 프레임의 경우에, 프레임 거리 방법은 그 B 프레임으로부터 그 프레임이 참조한 또는 "타겟의" P 프레임까지의 프레임 거리에 동일한 프레임 규모 비율의 분자(numerator)를 설정하고, 타겟의 P 프레임으로부터 타겟의 P 프레임에 의해 참조된 다른 P 프레임까지의 프레임 거리에 동일한 분모를 설정한다. 프레임 규모 비율의 부호는 B 프레임에서부터 후속 P 프레임까지 이루어진 측정에 대해서는 음이며, B 프레임에서부터 이전의 P 프레임까지 이루어진 측정에 대해서는 양이다. 프레임 거리 또는 프레임 규 모 비율을 P 프레임 움직임 벡터에 적용하는 이러한 간단한 방법은 효율적인 직접 모드 코딩을 달성할 수 있다.

추가로, 본 발명의 다른 특징은 직접 모드가 P 프레임의 복수의 보간된 움직임 벡터 기준에 적용할 수 있도록 한다. 예를들어, P 프레임이 가장 인접한 그리고 그 다음으로 가장 인접한 이전 P 프레임으로부터 보간된다면, 본 발명의 특징에 따른 직접 모드 참조는 각각의 복수의 참조 직접 모드 B 프레임 매크로블록에 대한 보간된 혼합을 허용한다. 일반적으로, P 프레임의 2개 또는 그 이상의 움직임 벡터는 적용된 적합한 프레임 규모 비율을 가질 수 있다. 2개 또는 그 이상의 프레임 거리 수정된 움직임 벡터는 하술된 바와 같이 그 프레임을 참조 또는 대상으로 하는 각각의 B 프레임에 대한 대응 보간 가중치와 함께 사용되어, 보간된 B 프레임 매크로블록 움직임 보상을 발생할 수 있다.

도 14는 후속 B 프레임이 이전의 P 프레임들을 참조하는 복수의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 이 예에서, B 프레임(1400)은 후속 P 프레임(P3)을 참조한다. 이 P3 프레임은 대응하는 이전의 P 프레임(P2, P1)을 참조하는 2개의 움직임 벡터 mv1 및 mv2를 갖는다. 이 예에서, B 프레임(1400)의 각각의 매크로블록은 2개의 가중 항 중의 하나 또는 이러한 가중 항의 조합을 사용하여 직접 모드로 보간될 수 있다.

B 프레임(1400)에 대한 각각의 매크로블록은 혼합 형태로 구성될 것이다:

ㆍ mv1의 1/3인 프레임 규모 비율로 배치된 프레임 P2의 해당 화소(여기서, 화소는 약간의 비율 가중치 i에 의해 승산될 수도 있음) + mv1의 -2/3인 프레임 규 모 비율로 배치된 프레임 P3의 해당 화소(여기서, 화소는 약간의 비율 가중치 j에 의해 승산될 수도 있음); 및

ㆍ mv2의 2/3(4/6)의 프레임 규모 비율로 배치된 프레임 P1의 해당 화소(여기서, 화소는 약간의 비율 가중치 k에 의해 승산될 수도 있음) + mv2의 -1/3(-2/6)의 프레임 규모 비율로 배치된 프레임 P3의 해당 화소(여기서, 화소는 약간의 비율 가중치 l에 의해 승산될 수도 있음).

모든 직접 모드와 마찬가지로, 움직임 벡터 델타는 mv1 및 mv2의 각각과 함께 이용될 수 있다.

본 발명의 이러한 특징에 따르면, B 프레임내의 직접 모드 예측된 매크로블록은 또한 복수의 이전 P 프레임과 마찬가지로 보간 및 움직임 벡터 프레임 규모 분수의 동일한 방법학을 사용하여 복수의 후속 P 프레임을 참조할 수 있다. 도 15는 가장 인접한 후속 P 프레임이 이전의 P 프레임을 참조하는 하나의 움직임 벡터를 갖고 그 다음으로 가장 인접한 후속 P 프레임이 이전의 P 프레임을 참조하는 복수의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 이 에에서, B 프레임(1500)은 2개의 후속 P 프레임(P2, P3)을 참조한다. P3 프레임은 대응하는 이전의 P 프레임(P2, P1)을 참조하는 2개의 움직임 벡터 mv1 및 mv2를 갖는다. P2 프레임은 이전의 P 프레임(P1)을 참조하는 하나의 움직임 벡터 mv3를 갖는다. 이 예에서, B 프레임(1500)의 각각의 매크로블록은 3개의 가중 항을 사용하여 직접 모드로 보간된다. 이 경우, 움직임 벡터 프레임 규모 비율은 1보다 크거나 -1보다 작을 수도 있을 것이다.

직접 모드 B 프레임 매크로블록 보간의 이러한 형태의 가중은 본 명세서에 개시된 바와 같은 보간의 전체적인 일반적 특징을 이용할 수 있다. 특히, 각각의 가중치 또는 가중치의 조합은 각종의 이미지 단위에 대한 최상의 성능(예를들어, 화질대 비트의 수)을 위해 테스트될 수 있다. 이러한 향상된 직접 모드를 위한 보간 분수 세트는 이미지 단위당의 작은 비트수로 디코더에 특정될 수 있다.

B 프레임(1500)에 대한 각각의 매크로블록은 혼합된 형태로써 구성될 것이다:

ㆍ mv1의 -5/3인 프레임 규모 비율로 배치된 프레임 P3의 해당 화소(여기서, 화소는 약간의 비율 가중치 i에 의해 승산될 수도 있음) + mv1의 -2/3인 프레임 규모 비율로 배치된 프레임 P2의 해당 화소(여기서, 화소는 약간의 비율 가중치 j에 의해 승산될 수도 있음);

ㆍ mv2의 -5/6인 프레임 규모 비율로 배치된 프레임 P3의 해당 화소(여기서, 화소는 약간의 비율 가중치 k에 의해 승산될 수도 있음) + mv2의 1/6인 프레임 규모 비율로 배치된 프레임 P1의 해당 화소(여기서, 화소는 약간의 비율 가중치 l에 의해 승산될 수도 있음); 및

ㆍ mv3의 -2/3인 프레임 규모 비율로 배치된 프레임 P2의 해당 화소(여기서, 화소는 약간의 비율 가중치 m에 의해 승산될 수도 있음) + mv3의 1/3인 프레임 규모 비율로 배치된 프레임 P1의 해당 화소(여기서, 화소는 약간의 비율 가중치 n에 의해 승산될 수도 있음).

모든 직접 모드와 마찬가지로, 움직임 벡터 델타는 mv1, mv2 및 mv3의 각각 과 함께 이용될 수 있다.

특히 이로운 직접 코딩 모드는 그 다음으로 가장 인접한 후속 P 프레임이 후보 B 프레임을 감싸는 가장 인접한 P 프레임들을 참조할 때에 종종 발생한다는 점에 유의하기 바란다.

MPEG-4에서의 B 프레임의 직접 모드 코딩은 항상 P 프레임의 움직임 벡터를 기준으로써 사용한다. 본 발명의 다른 특징에 따르면, B 프레임이 이전의 P 프레임의 공동 위치된 매크로블록의 움직임 벡터를 참조하는 것이 가능하며, 이것은 직접 모드 코딩 기준의 이로운 선별을 입증할 것이다. 이 경우, 움직임 벡터 프레임 규모 비율은 그 다음으로 가장 인접한 이전 P 프레임이 가장 인접한 이전 프레임의 P 움직임 벡터에 의해 참조될 때에는 1보다 클 것이다. 도 16은 가장 인접한 이전 P 프레임이 이전의 P 프레임을 참조하는 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 이 예에서, B 프레임(1600)은 1-어웨이 이전 P 프레임(P2)를 참조한다. 프레임 P2의 움직임 벡터 mv는 다음의 이전 P 프레임 P1(B 프레임(1600)에 관하여 2-어웨이)을 참조한다. 적합한 프레임 규모 비율이 도시되어 있다.

가장 인접한 이전 P 프레임이 복수의 벡터 및 프레임으로부터 보간된다면, 도 14와 관련하여 설명된 것과 유사한 방법이 적용되어 움직임 벡터 프레임 규모 분수 및 보간 가중치를 획득한다. 도 17은 가장 인접한 이전 P 프레임이 이전의 P 프레임을 참조하는 2개의 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내주는 도면이다. 이 예에서, B 프레임(1700)은 이전 P 프레임 P3를 참조한다. 이전 P3 프레임의 하나의 움직임 벡터 mv1은 다음의 이전 P 프레임 P2를 참조하는 한편, 제2 움직임 벡터 mv2는 2-어웨이 이전 P 프레임 P1을 참조한다. 적합한 프레임 규모 비율이 도시되어 있다.

B 프레임(1700)에 대한 각각의 매크로블록은 혼합 형태로써 구성될 것이다:

ㆍ mv1의 1/3인 프레임 규모 비율로 배치된 프레임 P3의 해당 화소(여기서, 화소는 약간의 비율 가중치 i에 의해 승산될 수도 있음) + mv1의 4/3인 프레임 규모 비율로 배치된 프레임 P2의 해당 화소(여기서, 화소는 약간의 비율 가중치 j에 의해 승산될 수도 있음); 및

ㆍ mv2의 1/6인 프레임 규모 비율로 배치된 프레임 P3의 해당 화소(여기서, 화소는 약간의 비율 가중치 k에 의해 승산될 수도 있음) + mv2의 7/6인 프레임 규모 비율로 배치된 프레임 P1의 해당 화소(여기서, 화소는 약간의 비율 가중치 l에 의해 승산될 수도 있음).

이전 P 프레임(B 프레임에 관련하여)의 움직임 벡터가 그 다음으로 가장 인접한 이전 P 프레임을 가르킬 때, 그 다음의 가장 인저한 이전 프레임을 도 16에서와 같이 보간 기준으로써 이용할 필요가 없다. 이 경우, 가장 인접한 이전 P 프레임의 움직임 벡터는 B 프레임에서부터 그 P 프레임까지의 프레임 거리 비율로로 단축된다. 도 18은 가장 인접한 이전 P 프레임이 이전의 P 프레임을 참조하는 움직임 벡터를 갖는 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 이 예에서, M=3에 대해, 최초의 B 프레임(1800)은 가장 인접한 이전 P 프레임 P2의 움직임 벡터 mv의 1/3과 -2/3배의 프레임 거리 비율을 사용할 것이다. 두번째의 B 프레임(1802)은 2/3과 -1/2 프레임 거리 분수(도시되지 않음)를 사용할 것이다. 이러한 선택은 이 경우를 도 16에 도시된 경우와 구별하기 위해 디코더에 신호될 것이다.

모든 다른 코등 모드와 마찬가지로, 직접 모드의 사용은 호보 모드를 다른 이용 가능한 보간 및 단일-벡터 코딩 모드와 기준 프레임에 대하여 테스트하는 것을 수반한다. 직접 모드 테스트를 위해, 가장 인접한 후속 P 프레임(그리고, 옵션으로 그 다음으로 가장 인접한 후속 P 프레임 또는 더 멀리있는 후속 P 프레임 및/또는 하나 또는 그 이상의 이전 P 프레임)은 디코더에 의해 사용될 직접 모드 P 참조 프레임 거리를 특정하기 위해 사용될 수 있다.

확장된 보간값(Extended Interpolation Values)

MPEG-1, 2 및 4와 H.261 및 H.263 표준에서는 B 프레임이 움직임 벡터에 의해 배치된 바와 같은 전방 참조된 프레임과 후방 참조된 프레임의 화소값의 동일 가중을 사용하도록 특정하고 있다. 본 발명의 다른 특징은 B 프레임 코딩 효율을 현저하게 향상시킬 수 있는 각종의 유용한 동일하지 않은 가중의 적용과, 시간적으로 후방 또는 전방으로의 2개 또는 그 이상의 참조를 포함하는 2개보다 많은 참조까지의 이러한 동일하지 않은 가중의 확장을 포함한다. 본 발명의 이러한 특징은 또한 P 프레임에 대해 참조 및 보간되는 하나보다 많은 프레임을 위한 방법을 포함한다. 더욱이, 2개 또는 그 이상의 참조가 시간적으로 전방을 가르킬 때, 또는 2개 또는 그 이상의 참조가 시간적으로 후방을 가르킬 때, 1.0을 초과하는 가중치뿐만 아니라 음의 가중치를 사용하는 것이 간혹 유용할 것이다.

예를들어, 도 19는 3개의 P 프레임 P1, P2 및 P3에서 P3가 P1과 P2의 각각에 대해서 하나씩 2개의 움직임 벡터를 가지고 보간 참조를 사용하는 경우를 나타내는 프레임 시퀀스이다. 예를들어 P1과 P3 사이의 프레임의 간격에 걸쳐 연속적 변화가 발생하고 있다면, P2-P1(즉, P2에 대한 움직임 벡터에 의해 배치된 프레임 P2의 화소값 - P1에 대한 움직임 벡터에 의해 배치된 프레임 P1의 화소값)는 P3-P2 와 동일할 것이다. 유사하게, P3-P1은 P2-P1 및 P3-P2의 양의 두배가 될 것이다. 이러한 경우에, 프레임 P3에 대한 화소값은 다음의 수학식을 통해 P1 및 P2와 상이하게 예측될 수 있다:

P3 = P1 + 2×(P2 - P1) = (2×P2) - P1

이 경우, P3에 대한 보간 가중치는 2.0이고, P1에 대해서는 -1.0이다.

다른 예처럼, 도 20은 4개의 P 프레임 P1, P2, P3 및 P4에서 P4가 P1, P2 및 P3의 각각에 대해 하나씩 3개의 움직임 벡터로 보간 참조를 사용하는 경우를 나타내는 프레임 시퀀스이다. 그러므로, P4가 P3, P3 및 P1으로부터 예측되기 때문에, 3개의 움직임 벡터 및 보간 가중치가 적용할 것이다. 이 경우 프레임의 이러한 간격에 걸쳐 연속적인 변화가 발생하고 있다면, P2-P1은 P3-P2 및 P4-P3 모두와 동일할 것이고, P4-P1은 3×(P2-P1) 및 3×(P3-P2) 모두와 동일할 것이다.

그러므로, 이 예의 경우에, P2와 P1에 기초한 P4의 예측은 다음과 같이 될 것이다:

P4 = P1 + 3×(P2 - P1) = (3×P2) - (2×P1) (가중치 3.0 및 -2.0)

P3와 P1에 기초한 P4의 예측은 다음과 같이 될 것이다:

P4 = P1 + 3/2×(P3-P1) = (3/2×P3) - (1/2×P1) (가중치 1.5 및 -0.5)

P3와 P2에 기초한 P4의 예측은 다음과 같이 될 것이다:

P4 = P2 + 2×(P3 - P2) = (2×P3) - P2 (가중치 2.0 및 -1.0)

그러나, P3과 P2를 포함하여 P4에 가장 근접한 변화가 P1을 포함한 예측보다 더 신뢰적인 P4의 예측기일 것이다. 그러므로, P1을 포함한 상기의 2개의 항의 각각에 1/4 가중을 제공하고 P3와 P2만을 포함하는 항에 1/2 가중을 제공함으로써 다음과 같은 결과가 될 것이다:

1/2(2P3 - P2) + 1/4(3/2P3 - 1/2P1) + 1/4(3P2 - 2P1) = 11/8P3 + 1/4P2 - 5/8P1 (가중치 1.375, 0.25 및 -0.625)

따라서, 때로는 1.0 이상과 0 미만 모두의 가중치를 사용하는 것이 유용할 것이다. 다른 배수에서, 한 프레임에서 다음 프레임으로의 잡음형 변이가 존재한다면, 0.0과 1.0 사이의 관대한 계수를 갖는 양의 가중 평균은 P4의 매크로블록(또는 화소의 다른 영역)의 최상의 예측기를 산출할 것이다. 예를들어, 도 20에서의 P1, P2 및 P3의 각각의 것의 1/3의 동일 가중은 일부 경우에 P4의 최상의 예측기를 형성할 것이다.

최상의 매치의 움직임 벡터가 적용되어 이 예에서의 컴퓨터 처리에 의해 이용되는 P1, P2, P3, 등의 영역을 결정된다. 이 매치는 일부 경우에 AC 매치가 될 것이어서 가변 DC 항이 AC 계수를 통해 예측될 수 있을 것이다. 이와 달리, DC 매치(절대값의 합과 같은)가 사용된다면, AC 계수에서의 변화가 간혹 예측될 수 있다. 다른 경우에, 다양한 형태의 움직임 벡터 매치가 다양한 가중 혼합으로 최상의 예측을 형성할 것이다. 일반적으로, 특정 경우에 대한 최상의 예측기는 본 명 세서에 설명된 방법을 사용하여 실험적으로 결정된다.

이러한 기술은 또한 시간적으로 전방 또는 후방 중의 하나를 가르키는 2개 또는 그 이상의 움직임 벡터를 갖는 B 프레임에 적용할 수 있다. 시간적으로 전방을 가르킬 때, P 프레임에 대해 전술된 계수 패턴은 현재의 P 프레임에 대해 후방으로 정확하게 예측하기 하기 위해 반전된다. 본 발명의 이러한 특징을 이용하여 전방과 후방의 양방향으로 2개 또는 그 이상의 움직임 벡터를 가져 양방향으로 정확하게 예측하는 것도 가능하다. 이러한 다양한 예측의 적합한 가중 혼합은 현재의 B 프레임의 매크로블록(또는 다른 화소 영역)을 최상으로 예측하는 혼합 가중을 선택함으로써 최적화될 수 있다.

도 21은 다양한 P 프레임이 다양한 이전 P 프레임을 참조하는 하나 또는 그 이상의 움직임 벡터를 갖는 P 및 B의 시퀀스와, 특정한 B 프레임에 의한 각각의 전방 및 후방 참조에 할당된 상이한 가중치 a∼e를 나타내는 도면이다. 이 예에서, B 프레임(2100)은 3개의 이전 P 프레임과 2개의 후속 P 프레임을 참조한다.

도 21에 예시된 예에서, 프레임 P5는 이 예가 작용하도록 디코드되어야만 한다. 비트스트림 내의 프레임을 디코딩을 위해 요구된 순서("전달 순서")로 주문하는 것이 때로는 유용하며, 이 순서는 반드시 디스플레이의 순서("디스플레이 순서")인 것은 아니다. 예를들어, 주기적 움직임(예를들어, 물체의 회전)을 나타내는 프레임 시퀀스에서, 특정 P 프레임은 가장 인접한 후속 P 프레임보다 멀리 있는 P 프레임에 더 유사할 수도 있을 것이다. 도 22는 P 프레임의 비트스트림 전달 순서가 디스플레이 순서와 상이한 P 및 B 프레임의 시퀀스를 나타내는 도면이다. 이 예에서, 프레임 P3는 프레임 P4보다는 프레임 P5에 더 유사하다. 따라서, P4 전에 P5를 전달하여 디코드하는 것이 유용하지만, P5 이전에 P4를 디스플레이한다. 바람직하게는, 각각의 P 프레임은 이러한 P 프레임이 폐기될 수 있을 때(예를들어, 비트스트림에서의 n개 프레임의 만료 또는 디스플레이 순서에서 프레임 X의 후) 디코더에 신호를 보내야만 한다.

가중이 작은 세트의 선별로부터 선택된다면, 어느 가중이 사용될지를 적은 수의 비트가 디코더에 신호할 수 있다. 본 명세서에서 설명된 모든 다른 가중치와 마찬가지로, 이것은 이미지 단위당 한번 또는 가중치의 변경이 유용한 디코딩 프로세스에서의 임의의 다른 시점에서 디코더에 신호될 수 있다.

신규 가중 세트를 다운로드하는 것도 가능하다. 이러한 방식으로, 적은 수의 가중 세트가 소정 시각에 활성화될 것이다. 이에 의해 활성 가중 세트 중의 어느 것이 디코딩 프로세스에서의 어떠한 소정 시점에 사용될지를 적은 수의 비트로 디코더에 신호할 수 있게 된다. 적합한 가중 세트를 결정하기 위해, 인코딩 동안 많은 수의 가중치가 테스트될 수 있다. 적은 서브세트가 높은 효율을 제공하는 것으로 판명된다면, 그 서브세트는 사용을 위해 디코더에 신호될 수 있다. 서브세트의 특정 성분이 단지 소수의 비트로 디코더에 신호될 수 있다. 예를들어, 10 비트가 1024 서브세트 성분 중의 1를 선택할 수 있다. 더욱이, 특정의 적은 서브세트가 효율을 유지하기 위해 변경되어야만할 때, 신규 서브세트가 디코더에 신호될 수 있다. 그러므로, 인코더는 가중 세트를 업데이트하기 위해 요구된 비트의 수에 대하여 가중 세트 성분 중에서 선택하도록 요구된 비트의 수를 동적으로 최적화할 수 있다. 추가로, 1/2, 1/3, 1/4 등과 같은 공통적인 유용한 가중치를 신호하기 위해 적은 수의 단코드(short code)가 사용될 수 있다. 이러한 방식으로, P 프레임에서의 K-전방-벡터 예측(여기서, K=1, 2, 3,...), 또는 B 프레임에서의 K-전방-벡터 및 L-후방-벡터 예측(여기서, K 및 L은 0, 1, 2, 3,... 중에서 선택됨), 또는 P 프레임에서의 K-전방-벡터 및 L-후방-벡터 예측(여기서, K 및 L은 0, 1, 2, 3,... 중에서 선택됨)과 같은 가중치의 세트를, 현재의 M 값(즉, 이웃하는 P(또는 I) 프레임에 대한 B 프레임의 상대적 위치)을 함수로 하여 신호하기 위해 적은 수의 비트가 사용될 수 있다.

도 23은 가중치가 할당된 P 및 B 프레임의 시퀀스를 나타내는 도면이다. B 프레임(2300)은 B 프레임 가중치 세트(2302)의 테이블로부터 할당되는 값인 가중치 a∼e를 갖는다. P 프레임(2304)은 P 프레임 가중치 세트(2306)의 테이블로부터 할당되는 값이 가중치 m, n을 갖는다. 일부 가중치는 정적(즉, 디코더에 영구적으로 다운로드됨)이며, 인코더에 의해 신호된다. 다른 가중치는 동적으로 다운로드되며, 그리고나서 신호된다.

이 동일한 기술은 DC 보간 대 AC 보간을 선택하기 위해 가중치 세트를 동적으로 업데이트하기 위해 사용될 것이다. 추가로, 정상(선형) 보간(비선형 표현으로 정상적으로 표현된 화소값의) 대 변환된 값(다른 선형 또는 비선형 표현으로)의 선형 보간을 선택하는 코드값이 신호될 수 있다. 유사하게, 이러한 코드값은 이러한 보간이 AC 값에 적용할 아니면 DC 값에 적용할지와 예측의 AC 부분과 DC 부분을 분리할지의 여부를 신호할 수 있다.

현재 사용 중인 가중 계수의 세트간을 선택하는데 필요한 비트의 수를 최소로 하기 위해 활성 서브세팅이 사용될 수도 있다. 예를들어, 1024개의 다운로드된 가중 세트가 디코더에 유지되어 있다면, 아마도 16개가 프레임의 하나의 특정 부분 동안 활성될 필요가 있을 것이다. 그러므로, 16개(1024에서 벗어난)의 가중 세트 중의 어느 서브세트가 활성이 될지를 선택함으로써, 이들 16개 중의 어느 가중 세트가 활성이 되는지를 선택하기 위해 4비트만이 사용될 필요가 있다. 서브세트는 또한 대부분의 공통적인 서브세트에 대해 단코드를 사용하여 신호될 수도 있으며, 이에 의해 적은 수의 비트로 공통적으로 사용된 서브세트 중에서 선택할 수 있게 된다.

소프트닝 및 샤프닝(Softening and Sharpening)

평균값의 감산을 통한 AC 신호로부터의 DC 성분의 간단한 분리와 마찬가지로, 움직임 벡터 보상된 예측 동안에 다른 필터링 연산도 가능하다. 예를들어, 각종의 주파수 대역을 추출하기 위해 화소 영역(매크로블록과 같은)에 각종의 고역-통과, 대역-통과 및 저역-통과 필터가 적용될 수 있다. 이들 주파수 대역은 움직임 보상을 수행할 때에 수정될 수 있다. 예를들어, 이미지를 부드럽게 하기 위해(첨예도를 없애거나 다소 흐릿하게 하는) 최고 주파수를 필터링 제거하는 것이 잡음성 이동 이미지에 유용할 수도 있을 것이다. 양자화를 위한 스티퍼 틸드 매트릭스(steeper tilt matrix)와 조합된 더 부드러운 이미지 화소(스티퍼 틸트 매트릭스가 현재의 블록에서 더 높은 주파수 잡음을 무시함)는 더욱 효율적인 코딩 방법을 형성할 것이다. 모든 이미지 단위에 대한 양자화 틸트 매트릭스에서의 변화를 신호 하는 것은 이미 가능하다. 휘도 및 색도를 위한 주문형 틸트 매트릭스를 다운로드하는 것도 가능하다. 움직임 보상의 효력이 틸트 매트릭스의 변경 여부로 향상될 수 있다는 점에 유의하기 바란다. 그러나, 움직임 보상 동안 가해지는 필터 파라미터와 틸트 매트릭스 모두를 변경하는 것이 가장 효과적일 것이다.

색도 특정 틸트 매트릭스와 함께 색도 코딩을 위해 감도된 해상도를 사용하는 것이 일반적이다. 그러나, 색도 코딩의 해상도는 이 경우에는 정적이다(수직 및 수평으로 4:2:0 코딩 반해상도 또는 수평으로만 4:2:2 코딩 반해상도와 같이). 코딩 효력은 움직임 보상 동안 동적 필터 프로세스를 이미지 단위당 선택된 색도 및 휘도 모두에 적용함으로써(독립적으로 또는 일렬로) 본 발명의 이러한 특징에 따라 증가될 수 있다.

앞에서 언급된 "Enhanced Temporal and Resolution Layering in Advanced Television"이라는 명칭의 미국 특허출원 번호 제09/545,233호는 음의 로브(negative lobes)(절삭된 사인 함수)를 갖는 향상된 변위 필터의 사용을 개시한다. 이들 필터는 움직임 벡터 배치의 분수-화소 부분을 수행할 때에 첨예도를 보존한다는 장점을 갖는다. 정수의 화소 배치 지점 및 분수 지점의 양측 모두에서, 일부 매크로블록(또는 다른 유용한 이미지 영역)은 자신의 첨예도를 감소 또는 증가시키는 필터를 사용하여 더 최적으로 배치된다. 예를들어, "랙 포커스(rack focus)"(프레임 내의 일부 물체가 시간이 경과함에 따라 초점에서 벗어나가고 있고, 프레임의 다른 부분이 초점 안으로 들어옴)에 대해, 첨예도와 연성도 양쪽 모두에서의 변화 중의 하나는 전이(transition)이다. 그러므로, 이미지 내의 특정 영역에서의 첨예도를 증가시키면서 다른 영역에서의 첨예도를 감소시킬 수 있는 움직임 보상 필터는 코딩 효율을 향상시킬 수 있다. 특히, 화상의 영역이 초점에서 지나가고 있다면, 첨예도를 감소시키는 것이 이로울 것이며, 이것은 이미지를 연성화하고(이에 의해 더 우수한 매치를 생성하는 것이 가능해질 수 있음) 그레인 및/또는 잡음을 감소시킬 것이다(이에 의해 코딩 효율을 향상시킬 수 있음). 이미지의 영역이 초점 안으로 들어오면, 최대 첨예도를 보존하거나 심지어는 더 큰 음의 로브 필터값을 사용하여 첨예도를 증가시키는 것이 이로울 것이다.

색도 필터링 또한 코딩 동안의 첨예도 증가 및 감소에 이득을 줄 수 있다. 예를들어, 4:2:0 코딩(수평과 수직으로 반해상도 색도)의 코딩 효율 이점의 대부분은 U 및/또는 V 채널에서의 전해상도를 보존하면서 색도를 위한 더 연성의 움직임 보상 필터를 사용함으로써 달성될 수 있다. U 및 V 채널에서의 컬러 디테일이 높을 때에만 최고 첨예도의 배치 필터를 선택할 필요가 있을 것이며, 더 연성의 필터는 높은 컬러 잡음 또는 그레인이 존재하는 곳에서 더 유용할 것이다.

포커스에서의 변화 외에도, 한 프레임에서 다음 프레임으로 움직임 얼룩 변화의 방향 및 양을 갖는 것도 일반적이다. 24fps의 동화상 영상 프레임 레이트에서, 단순한 대화 장면은 한 프레임에서 다음 프레임으로 움직임 얼룩의 상당한 변화를 가질 수 있다. 예를들어, 카메라의 개방 셔터 시간 동안 입술의 움직으로 인해 윗입술이 한 프레임에서는 얼룩이 되고 다음 프레임에서는 선명하게 될 수도 있을 것이다. 이러한 움직임 얼룩에 대해, 움직임 보상 동안 샤프닝 및 소프트닝(블러링) 필터를 가질뿐만 아니라 샤프닝 및 소프트닝에 대한 방향적 특성을 갖는 것 이 이로울 것이다. 예를들어, 움직임의 방향이 결정될 수 있다면, 그 방향에 따른 소프트닝 및 샤프닝은 이미지 특징부의 이동 또는 정치에 대응하도록 사용될 수 있다. 움직임 보상을 위해 사용된 움직임 벡터는 그 자체로 움직임의 양에 대한 일부 유용한 정보를 제공할 수 있으며, 주변 프레임(또는 대응 영역) 중의 어떠한 것에 관하여 특정 프레임(또는 프레임 내의 영역)에 대한 움직임의 양의 변화(즉, 움직임 얼룩)를 제공할 수 있다. 특히, 움직임 벡터는 P 프레임간의 최상의 이동 매치인 한편, 움직임 얼룩은 프레임 내의 개방 셔터 시간 동안의 이동의 결과로 비롯된다.

도 24는 프레임대 시간 내에서의 물체의 위치의 그래프이다. 카메라의 셔터가 프레임 시간의 일부 동안에만 개방된다. 셔터가 개방되는 동안의 물체의 어떠한 움직임도 얼룩의 결과로 나타난다. 움직임 얼룩의 양은 셔터 개방 시간 동안의 위치 변화의 양으로 나타내어진다. 그러므로, 셔터가 개방되는 동안의 위치 곡선(2400)의 경사는 움직임 얼룩의 측정치이다.

움직임 얼룩의 양과 움직임의 방향은 또한 첨예도 매트릭스, 주변 움직임 벡터(이미지 영역이 일치하는), 특징부 얼룩 검출 및 프레임 영역의 인간 보조 지정의 조합으로부터 결정될 수 있다. 필터는 결정된 움직임 얼룩의 양과 움직임 방향에 기초하여 선택될 수 있다. 예를들어, 다양한 필터 대 결정된 움직임 얼룩 및 방향의 맵핑은 실험적으로 결정될 수 있다.

본 발명의 다른 특징과 조합될 때, 이러한 지능적으로 적용된 필터는 압축 코딩 효율을 현저히 향상시킬 수 있다. 적은 수의 비트가 디코더에 신호된다면 적 은 수의 이러한 필터가 선택될 수 있다. 또한, 이것은 이미지 단위당 한번 또는 디코딩 프로세스에서의 다른 유용한 지점에서 행해질 수 있다. 가중 세트와 마찬가지로, 활성 서브세팅 메카니즘뿐만 아니라 동적으로 로딩된 세트의 필터가 사용되어, 가장 이로운 세트의 필터 파라미터간을 선택하기 위해 요구된 비트의 수를 최소화할 수 있다.

실시(Implementation)

본 발명은 하드웨어나 소프트웨어 또는 이들의 조합(예를들어, 프로그래밍 가능한 논리회로 어레이)으로 실시될 수도 있을 것이다. 다른 상황에서 특정되지 않았다면, 본 발명의 일부로써 포함된 알고리듬은 어떠한 특정 컴퓨터 또는 다른 장치에 본질적으로 관련되지 않는다. 특히, 각종 범용의 기기가 본 명세서의 교시에 따라 작성된 프로그램과 함께 사용되거나, 또는 특별한 기능을 수행하기 위해 더욱 특수화된 장치(예를들어, 집적회로)를 구성하기에 더욱 편리하게 될 것이다. 그러므로, 본 발명은 각각 적어도 하나의 프로세서, 적어도 하나의 데이타 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 구성요소를 포함한), 적어도 하나의 입력 장치 또는 포트 및 적어도 하나의 출력 장치 또는 포트를 포함하는 하나 또는 그 이상의 프로그래밍 가능한 컴퓨터 시스템 상에서 실행하는 하나 또는 그 이상의 컴퓨터 프로그램으로 실시될 수도 있을 것이다. 프로그램 코드는 본 명세서에 개시된 기능을 수행하고 출력 정보를 발생하기 위해 입력 데이타에 적용된다. 출력 정보는 하나 또는 그 이상의 출력 장치에 공지된 형태로 적용된다.

각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 임의의 요구된 컴 퓨터 언어(기계어, 어셈블리어, 고레벨 프로시져 언저, 로직 언어, 객체 지향 프로그래밍 언어)로 실시될 수 있다. 어떠한 경우에는 언어는 컴파일된 언어 또는 인터프리트 언어가 될 수도 있을 것이다.

각각의 이러한 컴퓨터 프로그램은 본 명세서에 개시된 프로시져를 수행하기 위해 컴퓨터 시스템에 의해 저장 매체 또는 장치가 판독될 때에 컴퓨터를 구성하고 작동시키기 위해서, 범용 또는 특수 목적의 프로그래밍 가능한 컴퓨터에 의해 판독 가능한 저장 매체 또는 장치(예를들어, 고상 메모리나 고상 매체 또는 자기 매체나 광학 매체)에 저장되거나 다운로드되는 것이 바람직하다. 본 발명의 시스템은 컴퓨터 프로그램으로 구성된 컴퓨터 판독가능한 저장 매체로써 실시되도록 고려될 수도 있을 것이며, 그와 같이 구성된 저장 매체는 컴퓨터 시스템으로 하여금 본 명세서에 설명된 기능을 수행하기 위해 특정의 사전 결정된 방식으로 작동하도록 한다.

본 발명의 다수의 실시예가 설명되어 있다. 그럼에도 불구하고, 본 발명의 정신과 기술사상으로부터 일탈함이 없이 각종 수정이 이루어질 수도 있음을 이해하기 바란다. 예를들어, 전술된 단계의 일부가 순서에 독립적이어서, 설명된 것과는 다른 순서로 수행될 수 있다. 따라서, 다른 실시예는 다음의 청구범위의 기술사상 내에 있는 것으로 간주한다.

Claims

비디오 이미지 압축을 위한 방법에 있어서,

화상 영역을 가지며 예측된 프레임 및 참조가능한 프레임을 포함하는 프레임의 시퀀스를 제공하는 단계와;

상기 시퀀스에서 2개 또는 그 이상의 이전의 참조가능한 프레임을 참조하여 적어도 하나의 예측된 프레임의 화상 영역을 인코딩하는 단계

를 포함하는 비디오 이미지 압축 방법.
제1항에 있어서, 상기 적어도 하나의 예측된 프레임은 참조가능한 프레임을 포함하는 것인 비디오 이미지 압축 방법.
제1항에 있어서, 상기 참조가능한 프레임은 예측된 프레임 및 인트라 프레임을 포함하는 것인 비디오 이미지 압축 방법.
제1항에 있어서, 상기 예측된 프레임은 참조가능한 예측된 프레임 및 양방향 예측된 프레임을 포함하는 것인 비디오 이미지 압축 방법.
제4항에 있어서, 상기 적어도 하나의 예측된 프레임은 양방향 예측된 프레임을 포함하는 것인 비디오 이미지 압축 방법.
제5항에 있어서, 상기 시퀀스에서 2개 또는 그 이상의 후속 참조가능한 프레임을 참조하여 양방향 예측된 프레임의 화상 영역을 인코딩하는 단계를 더 포함하는 것인 비디오 이미지 압축 방법.
제1항에 있어서, 상기 2개 또는 그 이상의 이전의 참조가능한 프레임의 적어도 하나를 식별하는 단계를 더 포함하는 것인 비디오 이미지 압축 방법.
제1항에 있어서, 상기 인코딩 단계는 상기 2개 또는 그 이상의 이전의 참조가능한 프레임으로부터 선택된 화상 영역의 동일하지 않은 가중을 사용하여 인코딩하는 단계를 포함하며, 상기 동일하지 않은 가중은 상기 참조가능한 프레임들 각각에 대한 시간적 거리의 함수를 포함하는 것인 비디오 이미지 압축 방법.
제8항에 있어서, 상기 동일하지 않은 가중을 식별하는 단계를 더 포함하는 것인 비디오 이미지 압축 방법.
제8항에 있어서, 상기 동일하지 않은 가중은 1보다 크거나 0보다 작은 가중치를 포함하는 것인 비디오 이미지 압축 방법.
제8항에 있어서, 상기 프레임은 화상 영역으로 배열되는 프레임을 포함하며,

상기 인코딩 단계는 상기 2개 또는 그 이상의 참조가능한 프레임에 대응하는 동일하지 않은 화소값을 사용하여 인코딩하는 단계를 포함하는 것인 비디오 이미지 압축 방법.
제1항에 있어서, 상기 프레임의 시퀀스는 참조가능한 프레임 및 양방향 예측된 프레임을 포함하며, 상기 프레임의 각각은 매크로블록으로 배열되는 화소값을 포함하는 것인 비디오 이미지 압축 방법.
제12항에 있어서, 하나 또는 그 이상의 예측된 프레임으로부터의 움직임 벡터에 기초한 직접 모드 예측을 사용하여 디스플레이 순서로 양방향 예측된 프레임 내의 적어도 하나의 매크로블록을 결정하는 단계를 더 포함하는 것인 비디오 이미지 압축 방법.
제13항에 있어서, 상기 인코딩 단계는 상기 2개 또는 그 이상의 이전의 참조가능한 프레임으로부터 선택된 화상 영역의 동일하지 않은 가중을 사용하여 인코딩하는 단계를 포함하는 것인 비디오 이미지 압축 방법.
제14항에 있어서, 적어도 하나의 그러한 움직임 벡터는 0보다 작거나 1보다 큰 프레임 규모 분수에 의해 크기조정되는 것인 비디오 이미지 압축 방법.
비디오 이미지 압축을 위한 방법에 있어서,

화상 영역을 가지며, 양방향 예측된(B) 프레임과, 예측된(P) 프레임 및 인트라(I) 프레임을 포함한 참조가능한 프레임을 포함하는 프레임의 시퀀스를 제공하는 단계와;

상기 시퀀스에서 적어도 하나의 개재 참조가능한 프레임에 의해 상기 P 프레임으로부터 이격되어 있는 이전의 참조가능한 프레임을 참조하여 적어도 하나의 P 프레임의 화상 영역을 인코딩하는 단계

를 포함하는 비디오 이미지 압축 방법.
제16항에 있어서, 상기 이전의 참조가능한 프레임을 식별하는 단계와;

상기 식별을 이용하여 디코더에 신호하는 단계를 더 포함하는 것인 비디오 이미지 압축 방법.
참조가능한 프레임과 양방향 예측된 프레임의 시퀀스를 갖는 비디오 이미지 압축 시스템에서, 가변적인 수의 양방향 예측된 프레임을 갖는 이러한 프레임의 코드 패턴을 동적으로 결정하기 위한 방법에 있어서,

참조가능한 프레임으로 개시하고 적어도 하나의 바로 후속하는 양방향 예측된 프레임을 가지며 참조가능한 프레임으로 종료하는 초기 시퀀스를 선택하는 단계와;

상기 초기 시퀀스의 종료부에 참조가능한 프레임을 추가하여 테스트 시퀀스 를 생성하는 단계와;

선택된 평가 기준에 대하여 상기 테스트 시퀀스를 평가하는 단계와;

상기 테스트 시퀀스 평가 단계가 만족스러울 때마다, 상기 추가된 참조가능한 프레임 앞에 양방향 프레임을 삽입하여 상기 평가 단계를 반복하는 단계와;

상기 테스트 시퀀스 평가 단계가 불만족스러운 경우에는, 이전의 테스트 시퀀스를 현재의 코드 패턴으로서 수용하는 단계

를 포함하는 코드 패턴의 결정 방법.
제18항에 있어서, 선택된 테스트 시퀀스의 프레임의 적어도 하나의 화상 영역에 대한 보간 혼합 비율을 결정하는 단계를 더 포함하는 것인 코드 패턴의 결정 방법.