KR100539923B1

KR100539923B1 - 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법

Info

Publication number: KR100539923B1
Application number: KR10-2003-0008255A
Authority: KR
Inventors: 이승철; 신대규
Original assignee: 삼성전자주식회사
Priority date: 2003-02-10
Filing date: 2003-02-10
Publication date: 2005-12-28
Also published as: CN1522073A; US20040158719A1; EP1453321A2; JP2004248285A; CN1225914C; KR20040072259A; EP1453321A3

Abstract

화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더가 개시된다. 비디오 엔코더는, 입력되는 비디오신호로부터 개체의 움직임을 추정하여 개체의 움직임 벡터를 산출하는 움직임추정부, 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하여 화자영역검출부, 움직임벡터추정부로부터 출력된 비디오신호를 이산 코사인 변환하여 DCT계수들을 산출하는 DCT(Discrete Cosine Transform)부, DCT계수들을 이용하여 상기 화자영역으로부터 화자의 얼굴영역을 검출하고 검출된 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 얼굴영역검출부, 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 적응적비트율제어부, 및 양자화 스텝 사이즈 및 차별 양자화 테이블에 따라 DCT 계수들을 양자화하는 양자화부를 갖는다.

Description

화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법{A VIDEO ENCODER CAPABLE OF ENCODING DEFERENTIALLY AS DISTINGUISHING IMAGE OF USER AND METHOD FOR COMPRESSING A VIDEO SIGNAL USING THAT}

본 발명은 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법에 관한 것으로서, 보다 상세하게는, 화자의 얼굴부분과 기타 부분을 구분하여 영상의 질을 차등적으로 적용할 수 있는 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법에 관한 것이다.

통신 기술이 발전함에 따라 영상 압축 기술 및 멀티미디어 전송 기술 등이 급속도로 진보되고 있다. 이와 함께 디지털 카메라 등과 같은 영상 촬상 장치의 폭넓은 보급으로, 영상 촬상 장치에 대해 외부 디바이스와 연결되어 영상 데이터의 전송이 가능한 기술이 요구되고 있다. 또한, 휴대폰을 이용하여 상대방과 통화를 할 때, 음성 통신뿐만 아니라 상대방의 얼굴을 보면서 화상 통신을 하고자 하는 욕구가 발생하고 있다.

상기와 같은 욕구를 충족시키기 위해 MPEG1(Motion Picture Expert Group 1), MPEG2, MPEG4, 및 H.263 등과 같은 영상 압축 기술이 제안되고 있으며, 이러한 영상 압축 기술을 통해 휴대폰을 이용한 화상 통신이 현실화 및 상용화되고 있다.

MPEG4란 국제표준화위원회(ISO)와 국제전기학회(IEC)가 공동으로 설립한 기술자문 위원회(JTC : Joint Technical Committee) 산하 멀티미디어 관련 부호화 기술의 국제 표준 규격을 제정하는 조직인 SC29(Sub Committee 29)에서 WG11(Working Group 11)이라는 이름으로 활동하고 있는 동영상 및 관련 오디오 신호 압축 및 복원에 관한 기술 표준조직을 말한다. MPEG1 및 MPEG2는 정해진 데이터 처리량에 따라 임의의 크기로 입력되는 동영상과 음성정보를 압축하고 이에 대응하여 생성되는 비트스트림(bitstream)을 전송하는 기술이다. 이에 따라, MPEG2로 압축된 비트스트림을 수신하는 수신 단에서는 수신된 비트스트림을 디코딩(decoding)하여 화면이나 스피커를 통해 출력되도록 한다.

H.263은 ITU-T에서 제안된 동영상압축 표준의 하나로 저 전송률을 가지는 통신선로(64kbps이하)에서 영상 회의나 비디오 전화 등을 위해 제안된 동영상압축기술이다.

현재 상용화 진행 중인 CDMA EVDO 및 UMTS망을 통한 양방향 화상 통화가 가능한 휴대폰 내부에 탑재되는 H.263/MPEG4 비디오 엔코더는, 휴대폰에 장착된 카메라로부터 영상을 입력받아서 이를 효율적인 압축방법으로 압축하여 전송프로토콜 계층에 넘겨주는 역할을 하게 된다. 이러한 H.263/MPEG4 비디오 엔코더는 휴대폰이라는 제한된 리소스와 계산능력을 가진 환경에 적합하게 최적화 되어 있으며, 128kbps이하의 협대역 통신환경에 맞게 화질과 비트스트림 크기를 적절하게 조절한다.

도 1은 종래의 디지털 비디오 신호를 압축하기 위한 비디오 엔코더, 예를 들어 MPEG2 방식의 이미지 부호화 시스템을 도시하는 도면이다.

프레임 형식의 비디오 신호는 프레임 메모리(10)에 입력된다. 상기 프레임은 블록 단위로 처리될 수 있도록 픽셀 데이터의 연속적인 블록으로 프레임 메모리(10)에 저장된다. 프레임의 블록은 통상적으로 8 ×8 내지 16 ×16의 화소크기를 가진다.

DCT(Discrete Cosine Transform)부(12)는 프레임 메모리(10)로부터 블록 단위로 판독되는 비디오 신호를 이산코사인 변환하고 DCT 계수들을 발생한다. 양자화부(14)는 상기 DCT 계수들을 양자화한다. 비트율 제어부(30)는 목표 전송 비트율을 맞추기 위하여 양자화부(14)에서 양자화에 사용될 양자화 테이블을 결정하기 위한 양자화스텝사이즈정보를 양자화부(14)에 제공한다. 이에 따라, 양자화부(14)는 제공된 양자화스텝사이즈정보를 기초로 양자화 테이블을 결정하고, 결정된 양자화 테이블에 따라 DCT 계수들을 양자화한다.

양자화된 DCT 계수들은 지그재그형으로 스캐닝되어 가변길이 부호화부(Variable Length Coder)(16)로 입력된다. 가변길이부호화부(16)는 스캐닝된 DCT 계수들을 가변길이 부호화된 데이터로 변환한다. 가변길이 부호화된 DCT 계수들은 도시되지 않은 비트열 발생부를 통해 연속적인 비트열(Bit Stream)로 변환된다. 상기 비트열은 소정 시간 동안 버퍼(18)에 저장에 저장되고, 입력되는 신호에 따라 출력한다. 이때, 버퍼(18)는 얼마의 비트열을 저장할 수 있는지를 나타내는 버퍼상태정보를 비트율제어부(30)에 제공한다. 이에 따라, 비트율제어부(30)는 제공된 버퍼상태정보를 기초로 양자화스텝사이즈를 결정하고, 결정된 양자화스텝사이즈정보를 양자화부(14) 및 가변길이부호화부(16)에 제공한다. 이에 따라, 양자화부(14)는 제공된 양자화스텝사이즈정보를 기초로 DCT 계수들을 양자화하고, 가변길이부호화부(16)는 제공된 양자화스텝사이즈정보를 기초로 양자화된 DCT 계수들을 가변적으로 부호화한다.

한편, 양자화부(14)에서 양자화된 DCT 계수들은 역양자화부(20)로도 입력되어 역양자화된다. 역양자화부(20)에 의해 역양자화된 DCT 계수들은 역 이산 코사인 변환부(Inverse Discrete Cosine Transform: 이하 "역DCT"라 칭함)(22)에서 역 이산 코사인 변환되어 블록 단위의 재생된 화소 데이터로 된다. 블록 단위의 재생된 화소 데이터는 프레임 메모리(24)에 저장된다. 한 비디오 프레임의 전체 블록이 순차적으로 재생되고 프레임 메모리(24)에 저장된다. 프레임 메모리(24)에 저장된 재생된 이미지 프레임은 움직임추정부(Motion Estimation)(26)에서 재생되는 이미지로부터 움직임 객체를 추정하기 위한 참조 프레임으로 사용된다.

첫 번째 비디오 프레임의 전체 블록이 도면의 비디오 엔코더에 의해 처리된 후 두 번째 비디오 프레임이 상기 비디오 엔코더에 입력된다. 움직임추정부(26)는 프레임 메모리(24)에 저장된 참조 프레임의 탐색 영역에서 두 번째 프레임의 첫 번째 매크로블록(Macro Block: MB)과 가장 유사한 영역을 찾는다. 통상적으로, 탐색 영역은 복수개의 후보 매크로블록들로 구성된다. 움직임추정부(26)는 매크로블록과 동일한 화소 크기를 가지는 참조 영역을 탐색 영역 내에서 상하좌우로 반(0.5) 화소(Half Pixel) 단위로 이동하면서, 매크로블록과 참조 영역 각각의 화소 대 화소를 비교한다. 매크로블록은 통상적으로 8 ×8 또는 16 ×16의 크기를 가진다. 여기서, 움직임 추정을 위해 FBMA(Full Searching Block Matching Algorithm), TSS(Three Step Search), 다이아몬드 탐색(Diamond Search) 또는 계층적 움직임 추정(Hierachical Motion Estimation) 등과 같은 통상의 다양한 탐색 알고리즘(Searching Algorithm) 또는 블록 매칭(Block Matching) 기법들이 사용된다. 이러한 비교 과정을 통해 움직임 추정부(26)에서 비교된 참조 프레임의 가장 유사한 참조 영역과 두 번째 이미지 프레임의 매크로블록 간의 위치관계를 나타내는 움직임 벡터(Motion Vector: MV)가 결정된다.

가산부(28)는 두 번째 프레임의 첫 번째 매크로블록과 참조 프레임의 가장 유사한 참조 영역을 가산하여, 두 번째 프레임의 첫 번째 매크로블록과 참조 프레임의 가장 유사한 참조 영역 간의 차분을 산출한다. 상기 차분은 움직임 벡터(MV)와 함께 DCT부(12), 양자화부(14) 및 가변길이부호화부(16)을 거쳐 부호화된다. 여기서 차분과 움직임 벡터는 별개의 모듈에서 별개의 과정을 통해 각 구해지는 것으로 설명되었으나, 움직임 벡터와 차분이 하나의 모듈을 통해 구해지도록 구현될 수도 있음을 유의하여야 한다. 차분은 역양자화부(20)와 역DCT부(22)로도 입력되고 다음 프레임의 움직임 추정을 위해 재생된 화소 데이터로 제2프레임 메모리(24)에 저장된다. 상기 과정은 두 번째 프레임의 전체 블록에 대해 순차적으로 적용된다.

상술한 바와 같이 움직임 추정을 위해 사용되는 참조 프레임은 원본의 이미지 프레임이 아니고, 이미 부호화된, 즉 양자화된 DCT 계수들을 다시 복호화하여 재생된 프레임이다. 이것은 비디오 엔코더에서 부호화된 이미지 데이터를 수신하여 복호화할 때와 동일한 과정을 거치도록 함으로써, 비디오 엔코더와 비디오 디코더 간의 오차를 최소화하기 위함이다.

한편, 상기의 비디오 엔코더 및 디코더가 적용된 휴대폰을 이용한 화상통신용 비디오 코덱(CODEC)의 경우, 지연시간과 연산량을 고려하여 I 픽처(Intra-Picture) 및 P 픽처(Predictive-Picture)의 프레임만을 사용한다. 이때, 비디오 엔코더는 통신대역폭에 맞추기 위하여 영상의 내용에 따라 양자화값을 동적으로 적용하여 화질을 조절하면서 일정한 크기의 비트스트림을 생성시킨다.

상기 I 픽처는 인트라 부호화영상 즉 프레임 내 부호화영상이다. I 픽처의 역할은 GOP(Group of Picture)의 독립성을 확보하고, 화면의 모든 것을 인트라 부호화한다. I 픽처는 부호화될 때 원 영상과 같은 순서로 부호화된다. 상기 P 픽처는 프레임간 순방향 예측 부호화영상이다. P 픽처는 화면 내의 소블록 단위의 부분에서 인트라 부호화를 포함하는 경우도 있다. P 픽처는 원 영상과 같은 순서로 부호화된다.

이에 따라, 영상의 움직임이 많거나 화면이 복잡한 경우, 비트량이 증가하게 되어 양자화값을 크게 적용하여 화질이 저하되는 반면 압축률을 높이는 작용이 이루어 질 수 있다. 반대로, 영상의 움직임이 적고 화면이 단순한 경우, 양자화 값을 작게 적용하여 화질을 원본영상에 근접시킬 수 있다.

일반적으로, 화상통화의 경우 전체 영상 내에 배경을 제외한 개체의 수가 제한적일 가능성이 높고, 그 개체의 일부분은 화자에게 있어서 중요한 의미를 가지게 된다. 즉, 화상통화 영상에서는 배경이 가장 중요도가 낮고, 그 다음이 화자 주변의 사람이나 화자와 근접한 개체이며, 더욱 중요한 것이 화자 본인이다. 특히 화자의 얼굴부분은 화상 통화시 가장 높은 중요도를 가진다고 할 수 있다.

그런데, 현재 사용되고 있는 화상통신용 비디오 엔코더 장치는 전체 영상에 대한 압축을 수행할 때 개체에 대한 개념을 전혀 고려하지 않고 있다. 즉 종래의 화상통신용 비디오 엔코더는 전체 영상에 대해 동일하게 압축률을 적용한다.

도 2는 전체 영상에 동일한 압축률 즉 동일한 양자화 스텝 사이즈를 적용함에 따른 화질 변화의 예를 나타낸 도면이다. 도시된 바와 같이, 전체 영상에 대해 동일한 양자화 스텝 사이즈를 적용함에 따라, 압축되어 화면에 표시되는 영상의 화질이 전체적으로 떨어지는 것을 알 수 있다.

따라서, 종래의 화상통신용 비디오 엔코더 장치는 전체 영상 중 상대적으로 화질을 더 떨어뜨려도 화상 통신을 하는데 상관없는 부분과, 화질을 떨어뜨렸을 경우 화상 통신에 심각한 문제점을 발생시킬 수 있는 부분을 전혀 구분하지 못한다.

현재 MPEG에서는 개체를 분리하여 부호화하는 기술이 제안되고 있으나, 이와 같이 개체를 정밀하게 분리하는 목적은 다양한 배경에서 해당 개체를 사용하려는 것이다. 따라서 이러한 기술은 실시간 및 이동통신 환경에서는 구현하기가 어렵다. 따라서, 3GPP/3GPP2에서의 화상통신용 표준 비디오 코덱에는 이와 같은 고려가 전혀 이뤄지지 않고 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 화자의 얼굴로 추정되는 영역을 타 영역에 대하여 적응적으로 화질을 보다 우수하게 유지시킬 수 있는 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법을 제공하는데 있다.

본 발명의 다른 목적은, 화자의 얼굴로 추정되는 영역을 타 영역에 대하여 적응적으로 화질을 보다 우수하게 유지시키기 위해 표준 화상통신용 비디오 엔코더에 쉽게 적용이 가능한 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법을 제공하는데 있다.

본 발명의 또 다른 목적은, 동영상의 움직임 벡터 정보와 화자의 얼굴 부위의 색상 정보를 이용하여 얼굴 색상 영역으로 판단되는 경우, 화자의 얼굴 부위를 기타 부분보다 개선된 영상의 질로 표현할 수 있는 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법을 제공하는데 있다.

상기와 같은 목적은 본 발명에 따라, 이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더에 있어서, 입력되는 비디오신호로부터 개체의 움직임을 추정하여 개체의 움직임 벡터를 산출하는 움직임추정부; 산출된 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 화자영역검출부; 움직임추정부로부터 출력된 비디오신호를 이산 코사인 변환하여 DCT계수들을 산출하는 DCT(Discrete Cosine Transform)부; DCT계수들을 이용하여 상기 화자영역으로부터 화자의 얼굴영역을 검출하고, 검출된 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 얼굴영역검출부; 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 적응적비트율제어부; 및 양자화 스텝 사이즈 및 차별 양자화 테이블에 따라 DCT 계수들을 양자화하는 양자화부를 포함하는 비디오 엔코더에 의해 달성된다.

바람직하게는, 적응적 비트율 제어부는 화자영역 및 얼굴영역을 기초로 양자화 스텝 사이즈를 가변적으로 설정한다. 또한, 움직임추정부는 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 개체의 움직임을 추정하고, 개체의 움직임 추정에 대응하는 움직임 벡터를 산출한다.

또한, 상기 화자영역검출부는 움직임 벡터로부터 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터를 산출하고, 배경 이미지 벡터 및 전경 이미지 벡터로부터 화자 영역을 검출한다.

상기 얼굴영역검출부는 DCT부에서 발생한 DCT 계수 중 화자영역검출부에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 화자의 얼굴 영역으로 판단한다.

본 발명의 비디오 엔코더는, 양자화부에서 차별 양자화된 DCT 계수들에 대해 역 양자화를 수행하는 역양자화부; 역양자화된 DCT 계수들에 대해 역 이산 코사인 변환을 수행하는 IDCT부; 및 기 입력된 역 이산 코사인 변환된 비디오신호와 입력되는 역 이산 코사인 변환된 비디오신호를 비교하여 개체의 움직임을 보상하는 움직임보상부를 더 갖는다. 이에 따라, 상기 움직임보상부는 움직임보상부로부터 움직임이 보상된 비디오신호를 기준으로 외부로부터 입력되는 비디오신호에 대한 움직임 벡터를 산출한다.

한편, 상기와 같은 목적은 본 발명에 따라, 이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법에 있어서, 입력되는 비디오신호로부터 개체의 움직임을 추정하여 개체의 움직임 벡터를 산출하는 단계; 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 단계; 비디오신호를 이산 코사인 변환하여 DCT(Discrete Cosine Transform) 계수들을 산출하는 단계; DCT계수들을 이용하여 상기 화자영역으로부터 화자의 얼굴영역을 검출하고, 검출된 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 단계; 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 단계; 및 양자화 스텝 사이즈 및 차별 양자화 테이블에 따라 DCT 계수들을 양자화하는 단계를 포함하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법에 의해 달성된다.

바람직하게는, 상기 양자화 스텝 사이즈 설정단계에서는 화자영역 및 얼굴영역 중 적어도 어느 하나를 기초로 양자화 스텝 사이즈가 가변적으로 설정된다. 또한, 상기 움직임추정단계에서는 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 상기 개체의 움직임이 추정되고, 개체의 움직임 추정에 대응하는 움직임 벡터가 산출된다.

상기 화자영역검출단계에서는 움직임 벡터로부터 상기 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터가 산출되고, 배경 이미지 벡터 및 상기 전경 이미지 벡터로부터 화자 영역이 검출된다. 상기 얼굴영역검출단계에서는 DCT 계수 중 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역이 화자의 얼굴 영역으로 판단된다.

본 발명에 따르면, 화자의 얼굴 영역과 비 얼굴 영역을 구분하여 얼굴 영역은 양자화 스텝 사이즈를 작게 하고 비 얼굴 영역은 양자화 스텝 사이즈를 크게 하여 각각 차별적으로 양자화를 수행함으로써, 화상 통신시 비디오 엔코더의 동작에 따른 부하를 가중시키지 않으면서 화자의 얼굴 영상의 화질 저하를 효과적으로 방지할 수 있다. 이에 따라, 움직임이 있는 얼굴 영역을 비롯한 붉은 계통의 블록들의 화질 저하가 타 블록들에 비하여 보다 적게 이루어질 수 있다.

이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

도 3은 본 발명에 따른 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더의 바람직한 실시예를 도시한 블록도이다.

도시되 바와 같이, 비디오 엔코더는 움직임추정부(100), 화자영역검출부(120), DCT(Discrete Cosine Transform)부(140), 얼굴영역검출부(160), 적응적비트율제어부(180), 양자화부(200), 가변길이부호화부(220), 역양자화부(240), IDCT(Inverse Discrete Cosine Transform)부(260), 움직임보상부(280)를 갖는다.

움직임추정부(100)는 입력되는 비디오신호의 현재 프레임과, 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출한다. 이때 검출된 참조 프레임의 가장 유사한 참조 영역과 현재 프레임의 매크로블록 간의 위치관계를 나타내는 움직임 벡터(Motion Vector: MV)가 결정된다.

화자영역검출부(120)는 움직임추정부(100)에서 결정된 움직임 벡터 중 비디오신호의 중심으로부터 소정 영역을 제외한 주변부의 움직임 벡터들의 크기와 방향의 일관성을 검출한다. 화자영역검출부(120)는 검출된 주변부 움직임 벡터의 크기에 대한 평균값을 산출한다. 이때 화자영역검출부(120)는 산출된 평균값 중 설정된 편차값의 범위 내에 포함되는 평균값들의 평균값을 산출한다. 이때 산출된 평균값들의 평균값은 비디오신호에 대한 배경 이미지 벡터(background image vector)로 결정된다. 또한, 화자영역검출부(120)는 움직임추정부(100)에서 결정된 움직임 벡터에서 배경 이미지 벡터를 감산 연산하여 비디오신호의 주변부를 제외한 중심부 영역에 대해 전경 이미지 벡터(foreground image vector)를 산출한다. 이때, 화자영역검출부(120)는 전경 이미지 벡터 중 크기 및 방향이 소정의 범위 내에 포함되는 전경 이미지 벡터를 모아서 화자 영역의 경계를 결정한다. 화자영역검출부(120)는 결정된 화자 영역 내의 영역에 대해 수평 및 수직 지향 스캐닝(horizontal and vertical directional scanning)을 수행하여 직각 모양의 화자 영역에 검출한다.

DCT부(140)는 움직임추정부(100)에 입력된 비디오신호를 이산코사인 변환하고 DCT 계수들을 발생한다.

얼굴영역검출부(160)는 DCT부(140)에서 발생한 DCT 계수 중 화자영역검출부(120)에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 화자의 얼굴 영역으로 판단한다. 이때, 문턱치의 설정은 사용자에 의해 임의로 설정될 수도 있고, 실험치에 의해 얻어진 최적값일 수도 있다. 얼굴영역검출부(160)는 화자 영역으로부터 얼굴 영역의 판단 결과에 따라, DCT계수들이 차별적으로 양자화되기 위한 차별 양자화 여부 정보인 차별 양자화 테이블을 생성한다.

적응적비트율제어부(180)는 화자영역검출부(120)에서 검출된 화자영역정보와 얼굴영역검출부(160)에서 검출된 얼굴영역정보를 이용하여 양자화 스텝 사이즈 조정에 사용될 가중 테이블을 생성한다. 바람직하게는, 적응적비트율제어부(180)는 대상 비디오신호의 소정 영역이 화자영역이면서 얼굴영역이면, 양자화 스텝 사이즈를 기준치보다 작게 설정하고, 그 이외의 경우에는 양자화 스텝 사이즈를 기준치보다 크게 설정한다.

양자화부(200)는 얼굴영역검출부(160)에서 생성된 차별 양자화 테이블 및 적응적비트율제어부(180)에서 출력된 양자화 스텝 사이즈에 따라 DCT부(140)에서 출력된 DCT 계수들을 가변적으로 양자화한다.

가변길이부호화부(220)는 양자화된 DCT 계수들을 가변길이 부호화된 데이터로 변환한다. 가변길이 부호화된 DCT 계수들은 도시되지 않은 비트열 발생부를 통해 연속적인 비트열(Bit Stream)로 변환되어 출력된다.

역양자화부(240)는 양자화부(200)에서 양자화된 DCT 계수들을 역양자화한다. IDCT부(260)는 역양자화된 DCT 계수들을 역 이산 코사인 변환하여 블록 단위의 재생된 화소 데이터로 변환한다.

움직임보상부(280)는 IDCT부(260)에서 재생된 화소 데이터의 움직임을 보상한다. 움직임보상부(280)에서 보상된 화소 데이터는 움직임추정부(100)에서 재생되는 이미지로부터 움직임 객체를 추정하기 위한 참조 프레임으로 사용된다.

따라서, 입력되는 비디오신호에 대해 일괄적으로 동일한 양자화 스텝 사이즈를 적용하지 않고 화자의 얼굴 영역을 구분하여 얼굴 영역과 비 얼굴 영역을 구분하여 상이한 양자화 스텝 사이즈에 따라 양자화를 수행함으로써, 얼굴 영역에 대한 기준 해상도를 유지할 수 있다. 이에 따라, 움직임이 있는 얼굴 영역을 비롯한 붉은 계통의 블록들의 화질 저하가 타 블록들에 비하여 보다 적게 이루어질 수 있다.

본 실시예에서는 적색성분과 청색성분을 구분하여 각각의 대응하는 크기 값을 비교하므로 얼굴 영역을 결정하고 이에 따른 차별 양자화를 통해 얼굴 영역의 화질 저하가 적게 발생하도록 하고 있으나, 사용자 인터페이스에 의해 얼굴 부분의 대략적인 특징을 얻을 수 있고 이에 의해 적색 성분의 범위를 문턱치로 지정할 수도 있다.

도 4는 도 3에 의해 입력되는 비디오신호로부터 얼굴 영역과 비 얼굴 영역에 대한 차별 양자화 과정을 그림으로 나타낸 도면이다. 먼저, 도면의 a)는 움직임추정부(100)에 입력되는 원래의 비디오신호를 재생하여 화면에 표시할 경우 나타나는 화질의 영상이다. b)는 화자영역검출부(120)에 의해 검출된 화자 영역(120a)이 화면의 중앙 부분에 위치한 상태를 나타내고 있다. c)는 얼굴영역검출부(160)에 의해 검출된 화자의 얼굴 영역(160a)이 화면에 표시된 상태를 나타내고 있다. d)는 양자화부(200)에 의해 얼굴영역(160a)과 비 얼굴 영역을 구분하여 차별적으로 양자화함에 따라 표시되는 비디오신호의 표시 상태를 나타내고 있다.

도 5는 도 3에 의해 전체 영상에 대해 얼굴 영역과 비 얼굴 영역을 구분하여 양자화부(200)에서 차별 양자화 스텝을 적용함에 따라 화면에 표시된 영상의 예를 도시한 도면이다. 도시된 바와 같이, 전체 영상 중 얼굴 영역에 대해 기준치보다 작은 양자화 스텝 사이즈를 적용하고 비 얼굴영역에 대해서는 기준치보다 큰 양자화 스텝 사이즈를 적용하여 해당 영역을 양자화함으로써, 얼굴 영역에 대해 기준치 이상의 화질 수준을 보상받을 수 있다.

도 6은 본 발명에 따른 비디오 엔코더를 이용한 비디오 신호의 압축 방법의 바람직한 실시예를 도시한 순서도이다.

먼저, 움직임추정부(100)는 입력되는 비디오신호의 현재 프레임과, 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 프레임의 매크로블록 간의 위치관계를 나타내는 움직임 벡터(Motion Vector: MV)를 산출한다(S100). 화자영역검출부(120)는 움직임추정부(100)에서 결정된 움직임 벡터 중 비디오신호의 중심으로부터 소정 영역을 제외한 주변부의 움직임 벡터들의 크기와 방향의 일관성을 검출하여 비디오신호 중 화자영역을 검출한다(S120).

한편, DCT부(140)는 움직임추정부(100)에 입력된 비디오신호를 이산코사인 변환하고 DCT 계수들을 발생한다(S140).

얼굴영역검출부(160)는 DCT부(140)에서 발생한 DCT 계수 중 화자영역검출부(120)에서 검출된 화자 영역에 대응하는 DCT 계수들을 이용하여 화자의 얼굴 영역을 검출한다(S160). 바람직하게는, 얼굴영역검출부(160)는 DCT부(140)에서 발생한 DCT 계수 중 화자영역검출부(120)에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 화자의 얼굴 영역으로 판단한다. 이때, 문턱치의 설정은 사용자에 의해 임의로 설정될 수도 있고, 실험치에 의해 얻어진 최적값일 수도 있다. 얼굴영역검출부(160)는 화자 영역으로부터 얼굴 영역의 판단 결과에 따라, DCT계수들이 차별적으로 양자화되기 위한 차별 양자화 여부 정보인 차별 양자화 테이블을 생성한다.

적응적비트율제어부(180)는 화자영역검출부(120)에서 검출된 화자영역정보와 얼굴영역검출부(160)에서 검출된 얼굴영역정보를 이용하여 양자화 스텝 사이즈를 가변적으로 설정한다(S180). 바람직하게는, 적응적비트율제어부(180)는 대상 비디오신호의 소정 영역이 화자영역이면서 얼굴영역이면, 양자화 스텝 사이즈를 기준치보다 작게 설정하고, 그 이외의 경우에는 양자화 스텝 사이즈를 기준치보다 크게 설정한다.

양자화부(200)는 얼굴영역검출부(160)에서 생성된 차별 양자화 테이블 및 적응적비트율제어부(180)에서 출력된 양자화 스텝 사이즈에 따라 DCT부(140)에서 출력된 DCT 계수들을 가변적으로 양자화한다(S200). 가변길이부호화부(220)는 얼굴 영역과 비 얼굴 영역을 구분하여 가변적으로 양자화된 DCT 계수들을 가변길이 부호화된 데이터로 변환한다(S220). 가변길이 부호화된 DCT 계수들은 도시되지 않은 비트열 발생부를 통해 연속적인 비트열(Bit Stream)로 변환되어 출력된다.

이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.

도 1은 종래의 디지털 비디오 신호를 압축하기 위한 비디오 엔코더, 예를 들어 MPEG2 방식의 이미지 부호화 시스템을 도시하는 도면,

도 2는 전체 영상에 동일한 압축률 즉 동일한 양자화 스텝 사이즈를 적용함에 따른 화질 변화의 예를 나타낸 도면,

도 3은 본 발명에 따른 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더의 바람직한 실시예를 도시한 블록도,

도 4는 도 3에 의해 입력되는 비디오신호로부터 얼굴 영역과 비 얼굴 영역에 대한 차별 양자화 과정을 그림으로 나타낸 도면,

도 5는 도 3에 의해 전체 영상에 대해 얼굴 영역과 비 얼굴 영역을 구분하여 양자화부에서 차별 양자화 스텝을 적용함에 따라 화면에 표시된 영상의 예를 도시한 도면, 그리고

* 도면의 주요 부분에 대한 부호의 설명 *

100 : 움직임추정부 120 : 화자영역검출부

140 : DCT부 160 : 얼굴영역검출부

180 : 적응적 비트율 제어부 200 : 양자화부

220 : 가변길이부호화부 240 : 역양자화부

260 : IDCT부 280 : 움직임보상부

Claims

이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더에 있어서,

입력되는 비디오신호로부터 개체의 움직임을 추정하여 상기 개체의 움직임 벡터를 산출하는 움직임추정부;

상기 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 화자영역검출부;

상기 움직임추정부로부터 출력된 비디오신호를 이산 코사인 변환하여 DCT계수들을 산출하는 DCT(Discrete Cosine Transform)부;

상기 DCT계수들을 이용하여 상기 화자영역으로부터 상기 화자의 얼굴영역을 검출하고, 검출된 상기 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 얼굴영역검출부;

상기 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 적응적비트율제어부; 및

상기 양자화 스텝 사이즈 및 상기 차별 양자화 테이블에 따라 상기 DCT 계수들을 양자화하는 양자화부를 포함하는 것을 특징으로 하는 비디오 엔코더.
제 1항에 있어서,

상기 적응적 비트율 제어부는 상기 화자영역 및 상기 얼굴영역 중 적어도 어느 하나를 기초로 상기 양자화 스텝 사이즈를 가변적으로 설정하는 것을 특징으로 하는 비디오 엔코더.
제 2항에 있어서,

상기 움직임추정부는 상기 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 상기 개체의 움직임을 추정하고, 상기 개체의 움직임 추정에 대응하는 상기 움직임 벡터를 산출하는 것을 특징으로 하는 비디오 엔코더.
제 3항에 있어서,

상기 화자영역검출부는 상기 움직임 벡터로부터 상기 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터를 산출하고, 상기 배경 이미지 벡터 및 상기 전경 이미지 벡터로부터 화자 영역을 검출하는 것을 특징으로 하는 비디오 엔코더.
제 4항에 있어서,

상기 얼굴영역검출부는 상기 DCT부에서 발생한 DCT 계수 중 상기 화자영역검출부에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 상기 화자의 얼굴 영역으로 판단하는 것을 특징으로 하는 비디오 엔코더.
제 5항에 있어서,

상기 양자화부에서 차별 양자화된 DCT 계수들에 대해 가변 길이 부호화를 수행하는 가변길이부호화부를 더 포함하는 것을 특징으로 하는 비디오 엔코더.
제 6항에 있어서,

상기 양자화부에서 차별 양자화된 DCT 계수들에 대해 역 양자화를 수행하는 역양자화부;

상기 역양자화된 DCT 계수들에 대해 역 이산 코사인 변환을 수행하는 IDCT부; 및

기 입력된 역 이산 코사인 변환된 비디오신호와 입력되는 역 이산 코사인 변환된 비디오신호를 비교하여 상기 개체의 움직임을 보상하는 움직임보상부를 더 포함하는 것을 특징으로 하는 비디오 엔코더.
제 7항에 있어서,

상기 움직임보상부로부터 움직임이 보상된 비디오신호를 기준으로 상기 움직임보상부는 외부로부터 입력되는 비디오신호에 대한 상기 움직임 벡터를 산출하는 것을 특징으로 하는 비디오 엔코더.
이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법에 있어서,

입력되는 비디오신호로부터 개체의 움직임을 추정하여 상기 개체의 움직임 벡터를 산출하는 단계;

상기 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 단계;

상기 비디오신호를 이산 코사인 변환하여 DCT(Discrete Cosine Transform) 계수들을 산출하는 단계;

상기 DCT계수들을 이용하여 상기 화자영역으로부터 상기 화자의 얼굴영역을 검출하고, 검출된 상기 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 단계;

상기 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 단계; 및

상기 양자화 스텝 사이즈 및 상기 차별 양자화 테이블에 따라 상기 DCT 계수들을 양자화하는 단계를 포함하는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 9항에 있어서,

상기 양자화 스텝 사이즈 설정단계에서는 상기 화자영역 및 상기 얼굴영역 중 적어도 어느 하나를 기초로 상기 양자화 스텝 사이즈가 가변적으로 설정되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 10항에 있어서,

상기 움직임추정단계에서는 상기 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 상기 개체의 움직임이 추정되고, 상기 개체의 움직임 추정에 대응하는 상기 움직임 벡터가 산출되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 11항에 있어서,

상기 화자영역검출단계에서는 상기 움직임 벡터로부터 상기 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터가 산출되고, 상기 배경 이미지 벡터 및 상기 전경 이미지 벡터로부터 화자 영역이 검출되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 12항에 있어서,

상기 얼굴영역검출단계에서는 상기 DCT 계수 중 상기 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역이 상기 화자의 얼굴 영역으로 판단되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 13항에 있어서,

상기 양자화단계에서 차별 양자화된 DCT 계수들에 대해 가변 길이 부호화를 수행하는 단계를 더 포함하는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 14항에 있어서,

상기 양자화단계에서 차별 양자화된 DCT 계수들에 대해 역 양자화를 수행하는 단계;

상기 역양자화된 DCT 계수들에 대해 역 이산 코사인 변환을 수행하는 단계; 및

기 입력된 역 이산 코사인 변환된 비디오신호와 입력되는 역 이산 코사인 변환된 비디오신호를 비교하여 상기 개체의 움직임을 보상하는 단계를 더 포함하는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
제 15항에 있어서,

상기 움직임추정단계에서는 상기 움직임보상단계에서 움직임이 보상된 비디오신호를 기준으로하여 외부로부터 입력되는 비디오신호에 대한 상기 움직임 벡터가 산출되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.