KR100392970B1

KR100392970B1 - 비디오데이터압축방법및장치

Info

Publication number: KR100392970B1
Application number: KR1019950033801A
Authority: KR
Inventors: 안도유지
Original assignee: 소니 가부시끼 가이샤
Priority date: 1994-09-29
Filing date: 1995-09-28
Publication date: 2003-11-14
Also published as: EP0705041A2; US5757968A; JPH0898185A; KR960013083A; DE69529137T2; EP0705041A3; EP1098530A3; US5832121A; JP3711571B2; DE69529137D1; EP1098530A2; EP0705041B1

Abstract

[구성]

입력 화상 데이터를 복수 프레임 축적하는 프레임 메모리(40)와 복수 프레임 화상 데이터로부터 정보량을 평가하고 장면 전환을 검출하는 장면 전환 검출 회로(31)와, 장면 전환의 검출에 기초하여 프레임내 부호화에 의한 압축 방법을 선택함과 동시에 GOP 길이의 결정을 행하는 GOP 길이 제어 회로(34)와 압축 방법 선택 회로(32)와 선택된 압축 방법에 따라서 입력 화상 데이터를 압축 부호화하는 차분기(12)로부터 가변 길이 부호화 회로(17)까지, 및 로컬 디코드와 움직임 검출기(20), 움직임 보상기(21)등을 갖는다.

[효과]

효율이 좋은 화상 압축이 가능하고, 전체적으로 화질을 향상시킬 수 있다.

Description

비디오 데이터 압축 방법 및 장치{Video data compressing method and apparatus}

<발명의 분야>

본 발명은, 예를 들면, 화상을 압축 부호화하는 경우에 사용하기에 적절한 화상 부호화 장치에 관한 것이다.

<관련 기술의 설명>

종래의 동화상을 압축 부호화하는 경우에 사용하기에 적절한 화상 부호화 장치의 구성예를 제 5 도에 도시한다.

이 제 5 도의 화상 부호화 장치에 있어서, 입력 단자(1)에는 제 6 도에 도시하는 바와 같이,

의 픽셀 수로 디지털화된 화상 데이터가 공급된다.

상기 입력 단자(1)에 공급된 입력 화상 데이터는 해당 입력 화상 데이터를 일시적으로 축적하여 알맞은 순번으로 교체하기 위한 프레임 메모리(10)를 통해 움직임 검출기(20)와 블록 분할기(11)에 보내진다.

해당 블록 분할기(11)는 프레임 메모리(10)로부터 공급된 각각의 프레임을 제 7 도에 도시하는 바와 같이 휘도 성분(Y), 크로마 성분(Cr, Cb) 각각을 8 x 8픽셀의 블록으로 분할한다. 또, 휘도 성분(Y)의 4개의 블록(Y0, Y1, Y2, Y3)과 하나의 크로마 성분(Cb)의 블록과, 하나의 크로마 성분(Cr)의 블록으로 이루어지는 합계 6개의 블록(Y0, Y1, V2, Y3, Cb, Cr)은 매크로블록(MB)이라고 하고 있다.

이 블록 분할기(11)로부터의 매크로블록 단위의 데이터는 차분기(12)에 보내진다.

이 차분기(12)에서는, 블록 분할기(11)로부터의 데이터와 후술하는 프레임간 예측 화상 데이터의 차분을 취하고, 그 출력을 후술하는 프레임간 예측 부호화가 이루어지는 프레임의 데이터로서 절환 스위치(13)의 피절환 단자(b)에 보낸다. 또, 해당 절환 스위치(13)의 피절환 단자(a)에는 상기 블록 분할기(11)로부터의 데이터가 후술하는 프레임내 부호화가 이루어지는 프레임의 데이터로서 공급된다.

상기 절환 스위치(13)를 통한 블록 단위의 데이터는 DCT 회로(14)에 의해 이산 코사인 변환(DCT) 처리되고, 그 DCT 계수가 양자화기(15)에 보내진다. 해당 양자화기(15)에서는 소정의 양자화 스텝 폭으로 상기 DCT 출력을 양자화하고, 이 양자화한 계수가 지그재그 스캔 회로(16)에 보내진다.

해당 지그재그 스캔 회로(16)에서는 상기 양자화 계수를 제 8 도에 도시하는 바와 같이, 소위 지그재그 스캔에 의해 재배열하고, 그 출력을 가변 길이 부호화 회로(17)에 보낸다. 이 가변 길이 부호화 회로(17)에서는 상기 지그재그 스캔 회로(16)의 출력 데이터를 가변 길이 부호화(VLC)하고, 그 출력을 출력 버퍼(18)에 보냄과 동시에, 해당 가변 길이 부호화 처리에 의해 발생된 부호량을 나타내는 정보를 양자화 스텝 제어기(19)에 보낸다. 양자화 스텝 제어기(19)는 가변 길이 부호화 회로(17)로부터의 부호량을 나타내는 정보에 기초하여 양자화기(15)의 양자화 스텝 폭을 제어한다. 또, 상기 출력 버퍼(18)로부터 출력된 데이터는 압축 부호화가 이루어진 부호화 출력으로서 출력 단자(2)로부터 출력된다.

또한, 상기 양자화기(15)로부터의 출력은 역양자화기(27)에 의해 역양자화되고, 또한 역 DCT 회로(26)에 의해 역 DCT 처리된다. 해당 역 DCT 회로(26)의 출력은 가산기(25)에 보내진다.

이 가산기(25)에는, 프레임간 예측 부호화의 프레임일 때 ON이 되는 절환 스위치(24)를 통한 움직임 보상기(21)로부터의 프레임간 예측 화상 데이터도 공급되고, 해당 데이터와 상기 역 DCT 회로(26)의 출력 데이터의 가산이 행하여진다. 이 가산기(25)의 출력 데이터는 프레임 메모리(22)에 일시적으로 축적된 후 움직임 보상기 (21)에 보내진다.

해당 움직임 보상기(21)는 상기 움직임 검출기(20)에 의해 검출된 움직임 벡터에 기초하여 움직임 보상을 행하고, 이에 따라 얻어진 프레임간 예측 화상 데이터를 출력한다.

이하, 상기 제 5 도의 종래 화상 부호화 장치의 구체적인 동작에 대해서 상세히 설명한다. 여기서, 설명을 위해 하기와 같이 각 프레임의 호명을 정의한다.

우선, 표시 순서대로 프레임을 나열했을 때, 각각을 I0, B1, B2, P3, B4, B5, P6, B7, B8, I9, B10, B11, B12, ...라고 하자. 이들 프레임 중 I, P, B는 후에 설명하지만 압축 방법의 종류를 나타내고, 이들 I, P, B 다음의 숫자는 단순히 표시 순서를 나타내고 있다.

컬러 동화상 부호화 방법의 국제표준화 작업 그룹인, 소위 MPEG(Moving Picture Expert Croup) 중 MPEG1에서는 이와 같은 화상을 압축하기 위해 하기와 같이 하는 것을 규정하고 있다.

먼저, I0의 화상을 압축한다.

다음에, P3의 화상을 압축하는 것이지만, P3 그 자체를 압축하는 것이 아니라 P3과 I0의 화상 차분 데이터를 압축한다.

그 다음에, B1의 화상을 압축하는 것이지만, B1 그 자체를 압축하는 것이 아니라 B1과 I0, 또는 B1과 P3의 차분 데이터, 또는 I0과 P3의 평균치의 차분(어느 것이든 정보가 적은 쪽)을 압축한다.

그 다음으로, B2의 화상을 압축하는 것이지만, B2 그 자체를 압축하는 것이 아니라 B2와 I0, 또는 B2와 P3의 차분 데이터, 또는 I0과 P3의 평균치의 차분(어느 것이든 정보가 적은 쪽을 택함)을 압축한다.

다음으로, P6의 화상을 압축하는 것이지만, P6 그 자체를 압축하는 것이 아니라 P6과 P3의 화상 차분 데이터를 압축한다.

상술한 바와 같은 처리를 순번대로 나란히 나타내면,

로 된다. 이와 같이 인코드 순서는 I0, P3, B1, B2, P6, B4, B5, P9, B7, B8, I9, P12, B10, B11, ...와 같이 표시 순서와는 순번이 바뀐다. 압축 후의 데이터(부호화 데이터)는 이 순번으로 나열된다.

이하, 상술한 것을 제 5 도의 구성 동작과 함께 더 상세히 서술한다.

첫번째 화상(즉, 10)의 인코드에서는, 먼저 상기 프레임 메모리(10)로부터 첫번째로 압축해야 하는 화상 데이터가 블록 분할기(11)에 의해 블록화된다. 이 블록 분할기(11)로부터는 상기 Y0, Y1, Y2, Y3, Cb, Cr의 순서로 블록마다 데이터가 출력되고, 피절환 단자(a) 측으로 절환된 절환 스위치(13)를 통해 DCT 회로(14)에 보내진다. 이 DCT 회로(14)에서는 각각의 블록에 대해서 종횡 2차원의 이산 코사인 변환 처리를 행한다. 이에 따라, 시간축이었던 데이터가 주파수축으로 변환된다.

이 DCT 회로(14)로부터의 DCT 계수는 양자화기(15)에 보내지고, 해당 양자화기(15)에서 소정의 양자화 스텝 폭으로 양자화된다. 그후, 지그재그 스캔 회로(16)에 의해 제 8 도와 같이 지그재그 순으로 재배열된다. 이와 같이 지그재그 순으로 배열하면, 뒤로 갈수록 그 계수는 주파수 성분이 높은 계수가 되기 때문에, 일반적으로 계수의 값은 뒤쪽이 같아지는 경향이 있다. 따라서, 어느 값(S)으로 양자화하면, 뒤로 갈수록 그 결과는 0이 되는 빈도가 증가하고, 결과적으로 고역성분이 떨어지게 된다.

그후, 이 양자화 후의 계수는 가변 길이 부호화(VLC) 회로(17)에 보내지고, 여기서 이른바 허프만 코딩이 행하여진다. 이 결과 얻어지는 압축된 비트 스트림은 출력 버퍼(18)에 일단 축적된 후 일정한 비트 레이트로 송출된다. 해당 출력 버퍼(18)는 불규칙으로 발생하는 비트 스트림을 일정한 비트 레이트로 송출할 수 있도록 하기 위한 완충 메모리이다.

이상과 같이 1매의 화상만 단독으로 압축하는 것을 프레임내(인트라: Intra)부호화라고 하, 이 화상을 I 픽처라고 한다.

따라서, 디코더가 상기의 I 픽처 비트 스트림을 수신한 경우는, 이상에 서술한 것을 역으로 하여 첫번째 화상을 완성시킨다.

다음에, 두번째 화상(즉, p3)의 인코드에서는 이하와 같이 이루어진다.

즉, 이 두번째 이후에도 I 픽처로서 압축하여 비트 스트림을 만들어도 좋지만 압축율을 높이는데는 연속하는 화상의 내용에는 상관있는 것을 이용하여, 이하와 같은 방법으로 압축한다.

우선, 움직임 검출기(20)에서는 두번째 화상을 구성하는 매크로블록마다 첫번째 화상(10) 중에서 그것과 잘 맞는 패턴을 추출하고, 그것을 움직임 벡터라고 하는 (x, y)의 상대 위치 좌표로 표현한다.

또, 두번째 화상에서는 각각의 블록을 상기 I 픽처의 경우와 같이 그대로 DCT 회로(24)에 보내는 것이 아니고, 그 블록마다의 움직임 벡터에 따라 첫번째 화상으로부터 끌어온 블록과의 차분 데이터(차분기(12)에 의한 차분 데이터)를 DCT 회로(14)에 보내도록 한다.

여기서, 예를 들면, 상기 움직임 벡터에 의해 표시된 첫번째 화상의 패턴과 지금부터 압축하려고 하는 블록의 패턴 사이에서 상관이 상당히 강해지면 그 차분 데이터는 상당히 작아지고, 따라서, 상기 프레임내(인트라) 부호화로 압축하는 것보다도 상기 움직임 벡터와 상기 차분 데이터를 부호화한 쪽이 압축 후의 데이터량은 작아진다.

이와 같은 압축 방법을 프레임간(인터, Inter) 예측 부호화라고 한다. 단, 항상 차분 데이터가 적어지는 것이 아니고, 도안(화상 내용)에 따라서는 차분을 취하는 것보다 상기 프레임내 부호화로 압축하는 쪽이 압축율을 높이는 경우가 있다. 이와 같은 경우는 상기 프레임내 부호화로 압축한다. 프레임간 예측 부호화로 하는지 프레임내 부호화로 하는지는 매크로블록마다 다르다.

이상의 것을 제 5 도의 화상 부호화 장치(인코더)에 따라 설명하면, 먼저 프레임간 예측 부호화를 행하기 위해서는 인코더측에서 끊임없이 디코더측에서 만들어지는 화상과 같은 화상을 만들어 놓을 필요가 있다.

그 때문에 인코더 내에는 디코더와 같은 회로가 존재한다. 이 회로를 로컬 디코더(국부 복호기)라고 한다. 제 5 도의 역양자화기(27), 역 DCT 회로(26), 가산기(25), 프레임 메모리(22), 움직임 보상기(21)가 해당 로컬 디코더에 대응하고 프레임 메모리(22) 내에 기억되는 화상의 것을 로컬 디코드된 픽처(Local decoded picture) 또는 로컬 디코드된 데이터(Local decoded data)라고 한다. 이에 대해서, 압축 전의 화상 데이터는 오리지널 픽처(Original picture) 또는 오리지널 데이터(Original data)라고 한다.

또, 전술한 첫번째 I 픽처의 압축시에도, 상기 로컬 디코더를 통해 복호화된 첫번째 화상이 상기 프레임 메모리(22) 내에 격납된다. 여기서, 주의해야 할 것은, 이 로컬 디코더에 의해 얻어지는 화상은 압축 전 화상이 아니고 압축 후 복원한 화상이며, 압축에 의한 화질 열화가 있는, 디코더가 복호화하는 화상과 거의 같은 화상이라는 것이다.

이와 같은 상태의 인코더에 두번째 화상(P3) 데이터 (Original data)가 들어 오지만(이 단계에서 이미 움직임 벡터는 검출 완료하지 않으면 안됨), 데이터는 블록마다 움직임 벡터를 가지며, 이 벡터가 움직임 보상기(MC, Motion Compensation)(21)에 부여된다. 해당 움직임 보상 회로(21)는 그 움직임 벡터가 나타내는 로걸 디코드된 픽처 상의 데이터(움직임 보상 데이터, MC data, 1 매크로 블록)를 상기 프레임간 예측 화상 데이터로서 출력한다.

상기 두번째 오리지널 데이터와 이 움직임 보상 데이터(프레임간 예측 화상 데이터)의 픽셀마다 차분기(12)에 의한 차분 데이터가 상기 DCT 회로(14)에 입력된다. 그리고 난 후의 압축 방법은 기본적으로 I 픽처와 같다. 상술한 바와 같은 압축 방법에 의해 압축하는 화상을 전방향 예측 부호화 화상, P 픽처(Predicted picture)라고 한다.

더 상세히 설명하면, P 픽처에 있어서 모든 매크로블록이 프레임간 예측 부호화로 압축한다고 제한하지 않고, 프레임내 부호화로 압축하는 편이 효율이 좋다고 판단됐을 때는 그 매크로블록은 해당 프레임내 부호화로 부호화를 행한다.

즉, P 픽처에 있어서도 매크로블록마다 프레임내 부호화에 따를 것인지(이 매크로블록을 인트라 매크로블록이라고 한다), 또는 프레임간 예측 부호화에 따를 것인지(이 매크로블록을 인터 매크로블록이라고 한다)를 선택하여 압축을 행한다.

상술한 바와 같이, 상기 로컬 디코더에서는 양자화기(15)의 출력이 역양자화기(27)에서 역앙자화되고, 또 역 DCT 회로(26)에서 역 DCT 처리된 후, 인코드시에 움직임 보상 데이터(MC data)와 결합하여 최종적인 로컬 디코드된 픽처가 된다.

다음에, 세번째 화상(즉, B1)의 인코드에서는 이하와 같이 이루어진다.

상기 세번째 화상(B1)의 인코드에서는 I0, P3의 두 화상 각각에 대한 움직임벡터를 탐색한다. 여기서, I0에 대한 움직임 벡터를 포워드 벡터(forward Vector)MVf(x, y)라고 하고, p3에 대한 움직임 벡터를 백워드 벡터(Back ward Vector)MVb(x, y)라고 한다.

이 세번째 화상에 대해서도 차분 데이터를 압축하는 것이지만 어느 데이터를 압축하는지가 문제이다. 이 경우도 가장 정보량이 적은 것의 차분을 취하면 좋다. 이때의 압축 방법 선택지로서는

(1) 포워드 벡터 MVf(x, y)를 나타내는 10 상의 데이터와의 차분

(2) 백워드 벡터 MVb(k, y)를 나타내는 P3 상의 데이터와의 차분

(3) 포워드 벡터 MVf(x, y)를 나타내는 I0 상의 데이터와 백워드 벡터 MVb(x, y)를 나타내는 P3 상의 데이터의 평균치와의 차분

(4) 차분 데이터는 사용하지 않는다(프레임내 부호화)

의 4개이다. 매크로블록마다 이 4 종류의 압축 방법에서 하나가 선택된다. 상기 압축 방법의 선택지 중 (1), (2), (3)의 경우는 각각의 움직임 벡터도 움직임 보상기(21)에 보내지고, 차분기(21)에서는 그 움직임 보상 데이터와의 차분을 취하고, 이것이 DCT 회로(14)에 보내진다. 상기 압축 방법의 선택지 중 (4)의 경우는 그대로의 데이터가 DCT 회로(14)에 보내진다.

상술한 첫번째, 두번째의 인코드 처리 결과, 로컬 디코드된 픽처를 격납하는 프레임 메모리(22)에는 I0, P3의 두 픽처가 복원되어 있으므로 이와 같은 것이 가능하다.

다음에, 네번째 화상(즉, B2)의 인코드에서는 이하와 같이 이루어진다.

상기 네번째 화상(B2)의 인코드에서는 상술한 세번째(B1) 인코드 방법의 경우의 설명문에서 B1을 B2로 대체하는 것 이외에는 상기 세번째 인코드와 같은 방법으로 압축한다.

다음에, 다섯번째 화상(즉, P6)의 인코드에서는 이하와 같이 이루어진다.

상기 다섯번째 화상(P6)의 인코드에서는 상술한 두번째(P3) 인코드 방법의 경우의 설명문에서 P3을 P6으로, I0을 P3으로 대체하는 것뿐이며, 다른 것은 같은 설명이 된다.

여섯번째 이후는 상술한 것의 반복이므로 설명은 생략한다.

또, MPEG에 있어서는 GOP(Group of Picture)라고 하는 것이 규정되어 있다.

즉, 몇 장의 픽처의 모임을 그룹 오브 픽처(GOP)라고 하고 있으며, 해당 GOP는 부호화 데이터(압축 후의 데이터) 상에서 보아 연속한 화상의 모임이어야 한다. 또, GOP는 렌덤 액세스를 고려한 것으로, 이를 위해서는 부호화 데이터 상에서 보아 GOP의 최초에 오는 픽처는 상기 I 픽처일 필요가 있다. 또, 표시 순서(디스플레이 순서)에서 GOP의 최후는 I 또는 P 픽처이어야만 한다.

제 9 도에는 최초가 4매의 픽처로 이루어지는 GOP에서, 그 이후가 6매의 픽처로 이루어지는 GOP가 되는 예를 들고 있다. 또 제 9A 도는 디스플레이 순서를 도시하며, 제 9B 도는 부호화 데이터 순서를 도시하고 있다.

이 제 9 도에 있어서, GOP2에 주목하면, B4, B5는 P3, I6으로 형성되기 때문에, 예를 들면, 렌덤 액세스에서 I6에 액세스되면 P3이 없어지므로 B4, B5는 정확하게 복호화될 수 없다. 이와 같이 GOP 내에서만 바르게 복호화될 수 없는 GOP는클로즈드 GOP(Closed GOP)가 아니라고 한다.

이에 대해, 만약에 B4, B5가 I6밖에 참조하지 않는 것으로 하면, 예를 들어, 랜덤 액세스에서 I6에 액세스해도, P3은 필요없기 때문에, 이들 B4, B5는 바르게 복화화할 수 있게 된다. 이와 같이 GOP 내 만의 정보에서, 완전히 복호화할 수 있는 GOP를 클로즈드 GOP(Closed GOP)라고 한다.

이상과 같은 압축 방법의 선택 중에서 가장 효율이 좋은 방법으로 압축하는 것이지만, 그 결과 발생하는 부호화 데이터(Coded data)의 양은 입력 화상에도 의존하여, 실제로 압축해 보기 않으면 판단할 수 없다.

그러나, 압축후 데이터의 비트 레이트를 일정하게 하기 위해 제어하는 것도 필요하다. 해당 제어를 행하기 위한 파라미터는 양자화기(15)에 부여하는 상기 부호량을 표시하는 정보로서의 양자화 스텝(또는 양자화 스케일, Q-scale)이다. 같은 압축 방법이어도, 상기 양자화 스텝을 크게 하면 발생 비트량은 감소하고, 작게 하면 증가한다.

이 양자화 스텝의 값은 다음과 같이 하여 제어한다.

인코더에는 압축후의 데이터를 일정의 비트 레이트로 하기 위해, 출력에 완충 버퍼(출력 버퍼(18))가 설치되어 있고, 이에 따라 화상마다 어느 정도의 데이터 발생량의 차는 흡수할 수 있도록 되어 있다.

그러나, 결정된 비트 레이트를 넘는 데이터의 발생이 계속되면, 출력 버퍼(18)의 남은량이 증가하고, 마침내는 오버플로를 일으키게 된다. 역으로, 비트 레이트를 하회하는 데이터의 발생이 계속되면 출력 버퍼(18)의 남은량은 감소하고,초후에는 언더플로를 일으키게 된다.

따라서, 인코더는 출력 버퍼(18)의 남은량을 피드백함으로써, 상기 양자화 스텝 제어기(19)가 양자화기(15)의 양자화 스텝을 제어하고, 여기서 출력 버퍼(18)의 남은량이 적어지면 그다지 압축하지 않도록 양자화 스텝을 작게 하도록 제어하며, 출력 버퍼(18)의 남은량이 많아지면 압축율을 높이도록 양자화 스텝을 크게 하도록 제어를 행하고 있다.

또, 전술한 압축 방법(상기 프레임내 부호화나 프레임간 예측 부호화)에 의해 발생하는 부호화 데이터량의 범위에는 큰 차가 있다.

특히 프레임내 부호화 방식으로 압축을 하면 대량의 데이터가 발생하기 때문에, 출력 버퍼(18)의 빈 용량이 작은 경우에는 양자화 스텝 사이즈를 크게 하지 않으면 안되며, 경우에 따라서는 양자화 스텝 사이즈를 최대로 해도 버퍼(18)의 오버 플로를 초래할지도 모른다. 가령, 버퍼(18)에 들어갔어도 양자화 스텝이 크면 프레임내 부호화의 화상은 이후의 프레임간 예측 부호화 화질에 영향을 주기 때문에, 프레임내 부호화로 압축을 행하기 전체는 출력 버퍼(18)에 충분한 빈 용량이 필요하다.

따라서, 미리 결정된 순서의 압축 방법을 정해 두고, 프레임내 부호화 전에는 충분한 출력 버퍼(18)의 빈 용량을 확보하도록, 양자화 스텝 제어기(19)는 양자화 스텝 사이즈의 피드백 제어를 행하도록 하고 있다.

이상과 같이 하여 일정한 레이트의 부호화 데이터로 억제하는 것이 가능하게 된다.

여기서, 프레임내 부호화의 픽처는 압축 후의 데이터 사이즈가 크고, 일반적으로 프레임간 예측 부호화의 픽처가 많은 쪽이 평균 비트 레이트에 대해 화질을 향상시킬 수 있다.

그러나, 통상은 랜덤 액세스성을 고려하여 정기적으로 프레임내 부호화의 픽처를 삽입하고, 이에 따라 GOP를 구분하는 일이 많다.

한편, 상기 프레임간 예측 부호화 픽처 중 특히 양방향 예측 부호화 화상, B픽처에서는 데이터 사이즈가 상당히 작아지고, 또 프레임내 부호화의 픽처 1매에 대해서 어느 정도 매수의 프레임간 예측 부호화의 픽처(특히 B 픽처)를 사이에 넣음으로써, 적절한 화질을 확보하면서 출력 버퍼를 통한 평균 비트 레이트도 낮게 유지할 수 있다.

그런데, 장면 전환(scene change) 등의 앞 화상과의 상관이 극히 낮은 화상에서는 프레임간 예측 부호화로는 효율좋게 압축할 수 없다. 오히려 프레임내 부호화 쪽을 효율좋게 압축할 수 있다. 따라서, 그와 같은 화상의 경우는 프레임내 부호화를 행해야 한다.

그러나 그렇게 하면 GOP를 구분하기 위한 프레임내 부호화 픽처와는 다른 화상이 프레임내 부호화의 픽처로서 삽입되게 되고, 결과적으로 GOP 내부에서 프레임간 예측 부호화 픽처에 대한 프레임내 부호화 픽처의 비율이 높아진다. 따라서, 출력되는 데이터를 일정한 비트 레이트로 억제하려고 하면 화질이 희생된다.

또, 랜덤 액세스를 위하여 GOP를 나누는데 장면이 바뀌는 때와 GOP의 구분부분이 일치하지 않는 것은 적합하지 않다.

또한, 어떤 시퀀스를 소정의 프레임으로 알맞게 종료하도록 부호화하는 경우, 그 최후의 화상이 GOP의 구분 부분이 되는 것은 희박하며, 최후 GOP의 길이도 너무 짧은 것이 생겨 최후에 화질을 손상할 우려가 있다.

이 때문에, 예를 들면, 한번 부호화를 시도해 그 결과를 피드백하여 GOP를 다시 구분할 수 있지만, 이것은 효율이 나쁘고 또 실시간 인코더에는 적합하지 않다.

또, 최후의 화상이 I 픽처 또는 P 픽처가 되는 것은 제한할 수 없지만, GOP의 최후는 I 픽처 또는 P 픽처로 끝나지 않으면 안된다는 제약이 있다. 그러나, 이것도 또한 부호하를 다시 행하는 것은 효율성이 나쁘고, 모든 조합의 부호화를 행하는 것도 장치의 규모를 크게 한다.

<발명의 개요>

그래서, 본 발명은 상술한 바와 같은 실정을 감안하여 제안된 것이며, 효율이 좋은 화상 압축이 가능하고, 전체적으로 화질을 향상시킬 수 있는 화상 부호화 장치를 제공하는 것을 목적으로 한다.

본 발명의 화상 부호화 장치는 상술한 목적을 달성하기 위해 제안된 것이며, 입력 화상 데이터를 복수 매 축적하는 화상 데이터 축적 수단과, 상기 화상 데이터 축적 수단에 축적된 복수 매의 화상 데이터로부터 해당 입력 화상 데이터의 정보량을 평가하고, 장면 전환을 검출하는 장면 전환 검출 수단과, 상기 장면 전환 검출 수단으로부터 장면 전환의 검출에 기초하여 프레임내 부호화에 의한 압축 방법과 복수 매의 화상으로 구성되는 소정 단위의 길이를 선택하는 선택 수단과, 상기 선택 수단에 의해 선택된 압축 방법에 따라 상기 입력 화상 데이터에 소정의 압축 부호화 처리를 행하는 압축 부호화 처리 수단을 갖는 것을 특징으로 한다.

여기서, 상기 선택 수단은, 상기 장면 전환 검출 수단으로부터의 장면 전환의 검출에 따라 복수 매의 화상으로 구성되는 소정 단위 내에 있어서의 프레임내 부호화되는 화상의 매수와 프레임간 예측 부호화되는 화상의 매수를 적응적으로 변경하여 해당 소정 단위의 길이를 결정하는 단위 길이 제어 수단과, 해당 단위 길이 제어 수단으로부터 출력에 기초하여 상기 소정 단위 내의 각 화상의 압축 방법을 선택하는 압축 방법 선택 수단으로 이루어진다. 또, 이때의 상기 선택 수단은, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 클 때에만 상기 장면 전환의 검출에 따른 상기 소정 단위의 길이 결정을 행한다. 바꾸어 말하면, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 매수의 비율이 소정 비율보다 작을 때는 상기 소정 단위의 길이를 장면 전환의 검출에 따른 길이로 하지 않고, 예를 들면, 연장하도록 한다.

본 발명에 의하면 입력 화상 데이터의 정보량을 평가하여 장면 전환을 검출하고, 이 장면 전환의 검출에 맞추어 압축 방법으로서 프레임내 부호화를 선택하는 것으로, 전후 화상의 상관이 낮아지는 장면 전환 부분에서의 압축 효율을 높이도록 하고 있다.

또, 본 발명에 의하면, 장면 전환의 검출에 따라 소정 단위의 길이를 변경하는 것으로, 장면이 바뀌는 때와 소정 단위로 구분하는 것을 일치시키고 있다.

또한, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 작을 때에는, 소정 단위의 길이를 장면 전환의 검출에 따른 길이로 하지 않고, 예를 들면, 연장하도록 하는 것이며, 출력되는 데이터를 일정한 비트 레이트로 억제하여 화질의 레벨을 유지하도록 하고 있다.

양호한 실시예에 대한 설명

이하, 도면을 참조하여 본 발명의 실시예에 대하여 상술한다.

제 1 도에는 본 발명의 실시예의 화상 부호화 장치의 개략 구성을 도시한다. 또, 제 1 도에 있어서, 상술한 제 5 도와 같은 구성에 대해서는 동일의 지시부호를 붙여서 그 설명에 대해서는 생략한다.

제 1 도의 구성에 있어서, 상기 제 5 도의 구성에 추가된 구성요소는 장면 전환 검출 회로(31)와 GOP 길이 제어 회로(34)와 압축 방법 선택 회로(32)이고, 또 프레임 메모리(40)와 양자화 스텝 제어기(33)가 변경되어 있다.

즉, 본 발명의 실시예의 화상 부호화 장치는 입력 화상 데이터를 복수 프레임 축적하는 화상 데이터 축적 수단인 프레임 메모리(40)과, 상기 프래임 메모리(40)에 축적된 복수 프레임의 화상 데이터로부터 해당 입력 화상 데이터의 정보량을 평가하고, 장면 전환을 검출하는 장면 전환 검출 회로(31)와, 상기 장면 전환 검출 회로(31)로부터의 장면 전환의 검출에 기초하여 프레임내 부호화에 의한 압축 방법을 선택하는 선택 수단과, 상기 선택 수단에 의해 선택된 압축 방법에 따라 상기 입력 화상 데이터에 소정의 압축 부호화 처리를 실시하는 압축 부호화 처리 수단으로서의 차분기(12)로부터 가변 길이 부호화 회로(17)까지, 및 로컬 디코더와 움직임 검출기(20), 움직임 보상기(21) 등을 갖는 것이다.

여기서, 상기 선택 수단은, 상기 장면 전환 검출 회로(31)로부터의 장면 전환 검출에 따라 복수의 화상으로 구성되는 소정 단위(GOP) 내에 있어서의 프레임내 부호화되는 화상의 매수와 프레임간 예측 부호화되는 화상의 매수를 적응적으로 변경하여 해당 GOP 길이를 걸정하는 단위 길이 제어 수단으로서의 GOP 길이 제어 회로(34)와, 해당 GOP 길이 제어 회로(34)로부터의 출력에 기초하여 상기 GOP 내의 각 화상의 압축 방법을 선택하는 압축 방법 선택 회로(32)로 이루어진다.

또, 이때의 상기 선택 수단은 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 클 때만 상기 장면 전환 검출에 따른 상기 GOP 길이의 결정을 행한다. 다시 말하면, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 작을 때는 상기 GOP 길이를 장면 전환 검출에 따른 길이로 하지 않고, 예를 들면, 길게 한다.

이 제 1 도에 있어서, 먼저 입력 단자(1)로부터 입력된 입력 화상 데이터는 프레임 메모리(40)에 축적된다. 이 프레임 메모리(40)는 제 5 도의 프레임 메모리(10)와는 달리, 소정수의 프레임을 축적할 수 있는 것이다. 이때 축적할 소정수의 프레임으로서는, 후술하는 바와 같이, 프레임내 부호화의 픽처가 GOP에 1매만으로 했을 때, 그에 대해 적절한 화질이 보증될 뿐 프레임간 예측 부호화 픽처가 GOP에 포함될 때의 해당 GOP의 길이분보다도 많아야 한다. 다시 말하면, 프레임 메모리(40)에 기억되는 프레임 수는 적절한 화질이 보증될 뿐 프레임내 부호화 픽처 1매에 대한 프레임간 예측 부호화 픽처의 매수 이상, 즉, 지금 부호화하고 있는 화상을 프레임내 부호화했다고 하더라도 그에 의해 발생한 데이터량을 제거할 뿐 프레임간 예측 부호화 픽처가 연속해서 송출될 수 있을 때까지, 프레임내 부호화가 이루어지지 않음을 보증할 수 있는 것만 필요하다.

물론 상기 소정 프레임 수는 이에 한정되는 것이 아니라 여러 가지 조건에 맞춰 더 많게 하여도 된다. 예를 들면, 미리 GOP가 결정되고 나서 레이트(rate)제어를 행하는 유형의 장치의 경우, 후술하는 바와 같이 GOP 길이를 결정하여 부호화가 개시될 때까지 화상을 축적하는 만큼의 용량의 프레임 메모리를 필요로 한다.

상기 프레임 메모리(40)에 축적된 화상 데이터는 적당한 장면 전환 검출 회로(31)에 보내진다.

여기서, 장면 전환은 전후의 화상에서 상관이 현저하게 손상되는 곳을 말한다. 본 실시예에서는, 예를 들면, 움직임 벡터 보상 후의 화상과의 차분치의 화상 전체의 총합을 구하고, 최후의 값과 비교함으로써 장면 전환을 검출할 수 있다.

예를 들면, 이 장면 전환의 검출시에는, 먼저 화상 정보의 평가로서 크게 구별하여 2개의 파라미터를 산출한다.

제 1 파라미터는 프레임내 부호화로 압축을 행한 경우의 압축 후 데이터량을 예측할 수 있도록 그 화상 자신의 정보량을 나타내는 것이다. 이 제 1 파라미터로서는, 예를 들면, 프레임 메모리(40)로부터 공급된 화상 데이터에 대해 DCT 처리를 블록마다 행하고, 그 DCT 계수의 합이나 통계를 낸 것으로 하거나, 또, 거기에서는 규모가 커지는 경우에는 평균 자승 오차의 블록마다 합을 구한 것으로 한다. 어쨌든 화상의 정보를 나타내고, 압축 후의 데이터량을 유추하는데 충분한 파라미터가이용된다.

제 2 파라미터는 프레임간 예측 부호화로 압축을 행한 경우의 압축 후의 데이터량을 예측할 수 있는 화상의 차분 정보량을 나타내는 것이다. 이 경우의 파라미터로서는, 예를 들면, 프레임 메모리(40)에 격납된 화상과 움직임 보상 후의 화상과의 차분치의 블록 내의 합을 이용한다. 이 파라미터 산출시에는 일반적인 움직임 벡터 검출 회로(움직임 검출기(20))에서 얻어지는 움직임 벡터가 검출된 최소 오차를 이용할 수 있다.

다음에, GOP 길이 제어 회로(34)에서는, 상기 장면 전환 검출 회로(31)로부터의 장면 전환 검출에 기초하여, 후술하는 제 2 도 및 제 3 도의 흐름도에서 설명하는 바와 같이 GOP 길이의 제어를 행한다.

이 GOP 길이 제어 회로(34)에서 결정된 GOP 길이의 정보가 압축 방법 선택 회로(32)에 보내진다.

여기서, 프레임내 부호화 방식에 의한 압축에서는 적어도 GOP의 최초로 해야 한다. GOP는 렌덤 액세스를 고려하여 어느 정도의 간격으로 하므로, 필수적으로 프레임내 부호화의 픽처는 어느 정도 정기적으로 발생하고, 장면 전환 등에 의해서도 발생한다. 따라서, 해당 압축 방법 선택 회로(32)에는, 상기 GOP 길이 제어 회로(34)로부터의 GOP 길이를 나타내는 정보와 함께 상기 GOP 길이 제어 회로(34)를 거친 화상의 카운트와 장면 전환 검출 회로(31)의 출력이 가해지도록 되어 있다.

해당 압축 방법 선택 회로(32)는, 상기 장면 전환 검출 회로(31)로부터의 출력에 기초하여, 프레임내 부호화/프레임간 예측 부호화(P, B 픽처) 중 어떤 압축 방식으로 압축을 행하는지를 선택함과 동시에, 상기 GOP 길이를 나타내는 정보에 기초하여 프레임내 부호화 픽처의 삽입을 행한다.

또, 양자화 스텝 제어기(33)는, 가변 길이 부호화 회로(17)로부터의 부호량을 나타내는 정보와, 상기 압축 방법 선택 회로(32)에서 선택한 압축 방식을 나타내는 정보에 기초하여 양자화기(15)의 양자화 스텝을 제어한다.

해당 양자화기(15)에서는 상술한 양자화 스텝 폭으로 상기 DCT 출력을 양자화하고, 이 양자화한 계수가 지그재그 스캔 회로(16)에 보내진다.

해당 지그재그 스캔 회로(16)에서는, 소위 지그재그 스텝에 의해 재배열하고, 그 출력을 가변 길이 부호화 회로(17)에 보낸다. 이 가변 길이 부호화 회로(17)에서는 상기 지그재그 스캔 회로(16)의 출력 데이터를 가변 길이 부호화(VLC)하고, 그 출력을 출력 버퍼(18)에 보내는 동시에 해당 가변 길이 부호화 처리에 의해 발생한 부호량을 나타내는 정보를 양자화 스텝 제어기(33)에 보낸다. 또, 상기 출력 버퍼(18)로부터 출력된 데이터는 압축 부호화가 이루어진 부호화 출력으로서 출력 단자(2)로부터 출력된다. 또, 이 부호화 출력은, 기록 장치(35)에 의해 기록 매체(36)에 기록된다. 기록 장치(35)는 도시되지 않은 것의 내부에 오류 정정 부호 부가 회로, 및 변조 회로 등을 내재한다. 또, 기록 매체(36)는 구체적으로는 광 디스크이고, 콤팩트디스크와 같은 ROM(Read Only Memory) 디스크를 대량 생산하기 위한 마스터 디스크이다. 또는 기록 가능한 디스크이다.

다음에, 본 실시예의 구성에 있어서의 처리의 흐름을 제 2 도와 제 3 도의 흐름도에 따라 설명한다.

여기서, 제 2 도와 제 3 도의 흐름도의 설명에 앞서, 이들 흐름도에서 기술하는 정수 및 변수를 아래와 같이 정의한다.

통상의 GOP 길이를 정수 DefaultLen으로 하고, 프레임내 부호화 픽처가 GOP에 1매만으로 하였을 때 그에 대해서 적절한 화질이 보증될 때만의 프레임간 예측부호화의 픽처가 GOP 에 포함되었을 때의 해당 GOP 길이를 변수 MinLen, GOP를 구분하는 최단(最短)의 경계를 변수 MinGOP, 렌덤 액세스 보증을 위한 GOP의 최장치를 변수 MaxLen, 다음 GOP 구분의 목표치를 변수 TargetLen, GOP 선두로부터의 길이를 변수 CurLen, 부호화 순서에서의 픽처 번호를 변수 PicNo, n번째 GOP의 선두 픽처 번호를 유지하는 변수 GOPbegin[n], n번째 GOP의 말미 픽처 번호를 유지하는 변수 GOPend[n]으로 한다.

또, 흐름도에는 도시하지 않지만, 하기의 조건을 전제로 한다.

먼저, 전단에서 입력 화상을 순차 프레임 메모리(40)에 축적하고, 장면 전환을 검출한다. 해당 장면 전환의 검출 목적은, 전술한 바와 같이 프레임간 예측 부호화로 효율이 좋게 압축할 수 없는 화상을 검출하는 것이므로, 예를 들면, 움직임 보상 후의 차분의 결과가 전과 비교하여 급격하게 크게 되었을 경우를 검출할 수 있다.

또, 적응적으로 GOP를 구별하기 위해서 프레임내 부호화의 픽처를 처음에는 설정하지 않고 M에 따라 모든 P 픽처, B 픽처로서 움직임 검출을 한다. GOP 결정시에는 부호화 순서로 재배열되어 있는 것으로 한다.

이하, 제 2 도의 흐름도로 설명한다.

단계 S151에서는 최초로 각 변수를 리셋한다.

즉, n = 0

CurLen = 1

PicNo = 0

GOPbegin[n] = PicNo

TargetLen = DefaultLen

MinGOP = MilLen

와 같이 리셋한다.

다음 단계 S152에서는, GOP에 있어서, 최초의 P 픽처인지의 여부의 판정을 행한다. 이 단계 S152에서 최초 P 픽처가 아니라고 판정한 경우에는 단계 S157에서 진행하고, 여기서 픽처 타입을 P 픽처에서 I 픽처로 변경한다. 또, 단계 S152에서 최초의 P 픽처라고 판정한 경우에는 단계 S153으로 진행한다.

상기 단계 S153에서는, 현재의 픽처(Current picture)가 시퀀스 최후의 화상인지의 여부를 판정한다. 이 단계 (S153)에서 현재의 픽처가 시퀀스의 최후의 화상이라고 판정한 경우에는 단계 S154로 진행하고, 여기서 그 화상을 GOP 최후로 한다. 한편, 단계 S153에서 최후의 화상이 아니라고 판정한 경우에는 단계 S158로 진행한다.

상기 단계 S154 다음의 단계 S155에서는 디스플레이 표시 순서(Displayorder)에서 시퀀스의 최후가 P 픽처인지의 여부를 판정한다. 상기 단계 S155에서 최후의 p 픽처가 아니라고 판정한 경우(B 픽처라고 판정한 경우)에는 단계 S156으로 진행한다. 상기 단계 S156에서는 B 픽처로 시퀀스를 종료할 수 없으므로 P 픽처가 되도록 변경한다. 또, 단계 S155에서 최후가 P 픽처라고 판정한 경우에는 처리를 종료한다.

또, 상기 단계 S153에서 최후의 화상이 아니라고 판정한 경우에 진행하는 단계 S158에서는 장면 전환 되었는지(scene change)의 여부를 판정한다. 상기 단계 S158에 있어서, 장면 전환이라고 판정한 경우에는 단계 S159로 진행하고, 장면 전환이 아니라고 판정할 경우에는 단계 S164로 진행한다.

상기 단계 S158에서 장면 전환이라고 판정한 경우의 단계 S159에서는, 상기 변수 CurLen과 변수 MaxLen을 비교하고, CurLen

상기 단계 S160에서는 변수 CurLen과 변수 MinGOP를 비교하고, CurLen

단계 S161에서는, GOP가 짧고, I 픽처에서 발생하는 데이터량을 분산할 수 없기 때문에, 장면 전환 후의 최후의 P 픽처를 프레임내 부호화의 픽처로 하고, 새로운 장면 전환을 위해 증가된 I 픽처분도 고려하며,

MinGOP += MinLen

TargetLen += MinLen

로 한다. 그후는 단계 S162로 진행한다.

또, 단계 S163에서는, 변수 CurLen과 변수 MaxLen의 비교 결과가 CurLen≥MaxLen이라면, GOP가 너무 길게 되는 것을 피하기 위해 장면 전환을 계기고 GOP를 구분한다. 그후는 단계 S162로 진행한다.

한편, 단계 S158에서, 장면 전환이 아니라고 판정한 경우의 단계 S164에서는 변수 CurLen과 변수 TargetLen을 비교한다. 이 단계 S164에서 CurLen=TaggetLen라고 판정한 경우에는 단계 S166으로 진행한다.

이 단계 S166에서는 다음 화상의 픽처 타입이 B 픽처인지의 여부를 판정하고, B 픽처라고 판정한 경우에는 단계 S167로 진행한다. 이 단계 S167에서는, B픽처로 시퀀스를 종료할 수 없기 때문에 목표 GOP의 길이를 1 늘린다. 그후는 단계 S162로 진행한다.

또, 단계 S164에서 CurLen≠ TargetLen이라고 판정한 경우에는 단계 S165로 진행한다. 이 단계 S165에서는 변수 CurLen과 변수 TargetLen + 변수 MinLen을 비교한다. 상기 단계 S165에 있어서, CurLen≤ TargetLen+MinLen이라고 판정한 경우에는 단계 S168로 진행하고, CurLen> TargetLen+MinLen이라고 판정한 경우에는 단계 S162로 진행한다.

상기 단계 S168에서는, 목표 GOP 길이로 GOP를 구분하여도 다음 GOP의 선두 I 픽처에서 발생하는 데이터량을 분산하는데 충분한 구간선까지 장면 전환이 존재하지 않으므로 변수(TargetLen)로 GOP를 구분한다. 이 단계 S168 이후에는 단계 S162로 진행한다.

단계 S162에서는, 변수 CurLen, PicNo를 카운트 업(Count up)하고, 단계 S152로 되돌아간다.

다음으로, 제 3 도의 흐름도에서는 단계 S169에 있어서 GOP 길이를 지정된길이로 정하고, 다음 GOP 길이 결정을 위한 변수를 초기화한다. 단계 S170에서는 디스플레이 표시 순서(Display order)에서 GOP의 최후가 P 픽처인지의 여부를 판정한다. 상기 단계 S170에서 최후의 P 픽처가 아니라고 판정한 경우(B 픽처라고 판정한 경우)에는, 단계 S171로 진행한다. 상기 단계 S171에서는, B 픽처로 GOP를 종료할 수 없으므로 P 픽처가 되도록 변경한다. 또, 단계 S170에서 최후가 P 픽처라고 판정한 경우에는 처리를 종료한다.

또, 상술한 제 2 도, 제 3 도의 흐름도에 있어서, GOP의 말미 픽처 타입을 변경하는 방법으로서는 아래와 같은 것을 들 수 있다.

즉, GOP의 최후는 I 픽처나 P 픽처이어야 하지만, 예를 들면, 장면 전환으로 GOP를 구분할 경우, M=2 이상인 시퀀스에서는 앞의 GOP가 반드시 그렇게 된다고는 한정할 수 없다. 거기서, 상술한 바와 같이, GOP의 최후가 B 픽처로 종료되었을 경우 그 최후의 B 픽처를 P 픽처로 바꾸도록 하고 있다.

이 예로써, 예를 들면, 비트 스트림의 순번(Bitstream order)이 제 4 도의 (c)와 같이 되어 있고, 디스플레이 표시 순서(Display order)가 제 4 도의 (a)와 같이 되어 있음으로써, 상기 제 4 도의 (a)의 디스플레이 표시 순서, 예를 들면, B13과 P14의 사이에 장면 전환이 발생하고 있는 것과 같은 경우에 대하여 설명한다. 이 경우, 제 4 도의 (a)의 장면 전환 직전의 B13을 제 4 도의 (b)에 도시하는 바와 같이 P 픽처(예를 들면, P13)로 변경하고, 또, 제 4 도의 (a)의 장면 전환 직후의 P14를 제 4 도의 (b)에 도시하는 바와 같이 I 픽처(예를 들면, P14)로 변경한다.

여기서, 실시간 인코더의 경우는 부호화를 다시 행하는 것은 곤란하므로, 본 실시예에서는 상기 제 4도의 (a) 및 (b)에 도시하는 바와 같이 B13을 P13으로 변경할 때, P11로부터의 포워드 벡터(forward vector)만을 이용하여 P 픽처(P13)로서 부호화한다. 또 이때, B12에 대해서는 P11로부터의 포워드 벡터만을 이용하면서 B픽처(B11)로서 부호화한다.

상술한 바와 같이, 본 발명의 실시예의 화상 부호화 장치에 있어서는, 입력 화상 데이터의 정보량을 평가하여 장면 전환을 검출하고, 이 장면 전환 검출에 맞춰 압축 방법으로서 프레임내 부호화를 선택하는 것으로, 전후 화상의 상관이 낮아지는 장면 전환 부분에서의 압축 효율을 높일 수 있다.

또, 본 실시예의 장치에 있어서는, 장면 전환 검출에 따라 GOP 길이를 변경하는 것으로, 장면이 바뀌는 때와 GOP가 구분되는 때를 일치시킬 수 있다.

또한, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 작을 때에는 GOP 길이를 장면 전환 검출에 따른 길이로 하지 않고, 예를 들면, 연장하도록 하는 것으로, 출력되는 데이터를 일정한 비트 레이트로 억제하고 화질의 레벨을 유지할 수 있게 되어 있다.

본 발명의 화상 부호화 장치에 있어서는, 입력 화상 데이터의 정보량을 평가하여 장면 전환을 검출하고 이 장면 전환의 검출에 맞춰 압축 방법으로서 프레임내 부호화를 선택하는 것으로, 전후 화상의 상관이 낮아지는 장면 전환 부분에서의 압축 효율을 높일 수 있고, 따라서 효율이 좋은 화상 압축이 가능하고 전체적으로 화질을 향상시킬 수 있다.

또, 본 발명에 있어서는 장면 전환 검출에 따라 소정 단위의 길이를 변경하는 것으로, 장면이 바뀌는 때와 소정 단위의 구분이 되는 때를 일치시킬 수 있다.

또한, 본 발명에 있어시는, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상의 매수의 비율이 소정 비율보다 작을 때에는 소정 단위의 길이를 장면 전환 검출에 따른 길이로 하지 않고, 예를 들면, 연장하도록 하는 것으로, 출력되는 데이터를 일정한 비트 레이트로 억제할 수 있고, 따라서 출력되는 데이터를 일정한 비트 레이트에서 억제할 수 있음과 동시에 화질을 희생하지 않아도 된다.

제 1 도는 본 발명의 실시예의 화상 부호화 장치의 개략 구성을 도시하는 블록 회로도.

제 2 도는 GOP 결정의 흐름도.

제 3 도는 결정된 GOP에 따른 픽처 타입 결정의 흐름도.

제 4 도는 GOP 말미의 픽처 타입의 변경예를 설명하기 위한 도면.

제 5 도는 종래의 화상 부호화 장치 개략 구성을 도시하는 블록 회로도.

제 6 도는 화상의 해상도와 구성에 대해서 설명하기 위한 도면.

제 7 도는 매크로블록과 블록에 대해서 설명하기 위한 도면.

제 8 도는 지그재그 스캔에 대해서 설명하기 위한 도면.

제 9 도는 GOP의 일 예에 대해서 설명하기 위한 도면.

♠ 도면의 주요부분에 대한 부호의 설명 ♠

11 : 블록 분할기 12 : 차분기

17 : 가변길이 부호화 회로 20 : 움직임 검출기

21 : 움직임 보상기 32 : 압축 방법 선택 회로

34 : GOP 길이 회로

Claims

화상 부호화 장치에 있어서,

입력 화상 데이터를 복수 매 축적하는 호상 데이터 축적 수단과,

상기 화상 데이터 축적 수단에 축적된 복수 매의 화상 데이터로부터 해당 입력 화상 데이터의 정보량을 평가하고, 장면 전환을 검출하는 장면 전환 검출 수단과,

상기 장면 전환 검출 수단으로부터의 장면 전환의 검출에 기초하여, 프레임내 부호화에 의한 압축 방법으로 형성된 화상과, 프레임간 예측 부호화에 의한 압축 방법으로 형성된 화상으로 구성되는 소정 단위 길이의 GOP를 선택하는 선택 수단과,

상기 선택 수단에 의해 선택된 GOP에 따라, 상기 입력 화상 데이터에 소정의 압축 부호화 처리를 실시하는 압축 부호화 처리 수단을 포함하며,

상기 선택 수단은, 상기 장면 전환 검출 수단으로부터의 장면 전환 검출에 따라, 상기 GOP에 있어서의 상기 프레임내 부호화되는 화상의 매수와 상기 프레임간 예측 부호화되는 화상의 매수를 적응적으로 변경하여, 해당 GOP를 결정하는 단위 길이 제어 수단을 포함하고,

상기 선택 수단은, 상기 단위 길이 제어 수단으로부터의 출력에 기초하여, 상기 GOP 내에 있는 프레임간 예측 부호화 화상을 다른 프레임간 예측 부호화 화상으로 변경하는, 화상 부호화 장치.
제 1 항에 있어서,

상기 GOP 내에 있는 프레임간 예측 부호화 화상은 양방향 예측 부호화 화상(B 픽처)이고, 다른 프레임간 예측 부호화 화상은 전방향 예측 부호화 화상(P 픽처)인 것을 특징으로 하는, 화상 부호화 장치.
제 1 항에 있어서,

상기 선택 수단은, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 클 때만 상기 장면 전환 검출에 따른 상기 GOP의 결정을 행하는 것을 특징으로 하는, 화상 부호화 장치.
화상 부호화 방법에 있어서,

입력 화상 데이터를 복수 매 축적하는 단계,

상기 축적된 복수 매의 화상 데이터로부터 해당 입력 화상 데이터의 정보량을 평가하고, 장면 전환을 검출하는 단계,

상기 장면 전환의 검출에 기초하여, 프레임내 부호화에 의한 압축 방법으로 형성된 화상과 프레임간 예측 부호화에 의한 압축 방법으로 형성된 화상으로 구성되는 소정 단위 길이의 GOP를 선택하는 단계,

상기 선택된 GOP에 따라 상기 입력 화상 데이터에 소정의 압축 부호화 처리를 실시하는 단계를 포함하고,

상기 GOP를 선택하는 단계는, 상기 장면 전환의 검출에 따라, 상기 GOP에 있어서의 상기 프래임내 부호화되는 화상 매수와 상기 프레임간 예측 부호화되는 화상 매수를 적응적으로 변경하여, 해당 GOP를 결정하고,

상기 GOP를 선택하는 단계는, 해당 GOP에 기초하여, 상기 GOP 내에 있는 프레임간 예측 부호화 화상을 다른 프레임간 예측 부호화 화상으로 변경하는, 화상 부호화 방법.
제 4 항에 있어서,

상기 GOP 내에 있는 프레임간 예측 부호화 화상은 양방향 예측 부호화 화상(B 픽처)이고, 다른 프레임간 예측 부호화 화상은 전방향 예측 부호화 화상(P 픽처)인, 화상 부호화 방법.
제 4 항에 있어서,

상기 GOP를 선택하는 단계는, 프레임내 부호화되는 화상 매수에 대한 프레임간 예측 부호화되는 화상 매수의 비율이 소정 비율보다 클 때만 상기 장면 전환의 검출에 따른 상기 GOP 결정을 행하는, 화상 부호화 방법.
제 4, 항, 제 5 항 및 제 6 항 중 어느 한 항에 기재된 영상 부호화 방법에 의해 형성된 부호화 신호가 기록된 기록 매체.