KR100539923B1 - 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법 - Google Patents

화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법 Download PDF

Info

Publication number
KR100539923B1
KR100539923B1 KR10-2003-0008255A KR20030008255A KR100539923B1 KR 100539923 B1 KR100539923 B1 KR 100539923B1 KR 20030008255 A KR20030008255 A KR 20030008255A KR 100539923 B1 KR100539923 B1 KR 100539923B1
Authority
KR
South Korea
Prior art keywords
speaker
video signal
quantization
region
video
Prior art date
Application number
KR10-2003-0008255A
Other languages
English (en)
Other versions
KR20040072259A (ko
Inventor
이승철
신대규
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2003-0008255A priority Critical patent/KR100539923B1/ko
Priority to CNB031278256A priority patent/CN1225914C/zh
Priority to US10/643,536 priority patent/US20040158719A1/en
Priority to EP20040001823 priority patent/EP1453321A3/en
Priority to JP2004034105A priority patent/JP2004248285A/ja
Publication of KR20040072259A publication Critical patent/KR20040072259A/ko
Application granted granted Critical
Publication of KR100539923B1 publication Critical patent/KR100539923B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더가 개시된다. 비디오 엔코더는, 입력되는 비디오신호로부터 개체의 움직임을 추정하여 개체의 움직임 벡터를 산출하는 움직임추정부, 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하여 화자영역검출부, 움직임벡터추정부로부터 출력된 비디오신호를 이산 코사인 변환하여 DCT계수들을 산출하는 DCT(Discrete Cosine Transform)부, DCT계수들을 이용하여 상기 화자영역으로부터 화자의 얼굴영역을 검출하고 검출된 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 얼굴영역검출부, 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 적응적비트율제어부, 및 양자화 스텝 사이즈 및 차별 양자화 테이블에 따라 DCT 계수들을 양자화하는 양자화부를 갖는다.

Description

화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법{A VIDEO ENCODER CAPABLE OF ENCODING DEFERENTIALLY AS DISTINGUISHING IMAGE OF USER AND METHOD FOR COMPRESSING A VIDEO SIGNAL USING THAT}
본 발명은 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법에 관한 것으로서, 보다 상세하게는, 화자의 얼굴부분과 기타 부분을 구분하여 영상의 질을 차등적으로 적용할 수 있는 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법에 관한 것이다.
통신 기술이 발전함에 따라 영상 압축 기술 및 멀티미디어 전송 기술 등이 급속도로 진보되고 있다. 이와 함께 디지털 카메라 등과 같은 영상 촬상 장치의 폭넓은 보급으로, 영상 촬상 장치에 대해 외부 디바이스와 연결되어 영상 데이터의 전송이 가능한 기술이 요구되고 있다. 또한, 휴대폰을 이용하여 상대방과 통화를 할 때, 음성 통신뿐만 아니라 상대방의 얼굴을 보면서 화상 통신을 하고자 하는 욕구가 발생하고 있다.
상기와 같은 욕구를 충족시키기 위해 MPEG1(Motion Picture Expert Group 1), MPEG2, MPEG4, 및 H.263 등과 같은 영상 압축 기술이 제안되고 있으며, 이러한 영상 압축 기술을 통해 휴대폰을 이용한 화상 통신이 현실화 및 상용화되고 있다.
MPEG4란 국제표준화위원회(ISO)와 국제전기학회(IEC)가 공동으로 설립한 기술자문 위원회(JTC : Joint Technical Committee) 산하 멀티미디어 관련 부호화 기술의 국제 표준 규격을 제정하는 조직인 SC29(Sub Committee 29)에서 WG11(Working Group 11)이라는 이름으로 활동하고 있는 동영상 및 관련 오디오 신호 압축 및 복원에 관한 기술 표준조직을 말한다. MPEG1 및 MPEG2는 정해진 데이터 처리량에 따라 임의의 크기로 입력되는 동영상과 음성정보를 압축하고 이에 대응하여 생성되는 비트스트림(bitstream)을 전송하는 기술이다. 이에 따라, MPEG2로 압축된 비트스트림을 수신하는 수신 단에서는 수신된 비트스트림을 디코딩(decoding)하여 화면이나 스피커를 통해 출력되도록 한다.
H.263은 ITU-T에서 제안된 동영상압축 표준의 하나로 저 전송률을 가지는 통신선로(64kbps이하)에서 영상 회의나 비디오 전화 등을 위해 제안된 동영상압축기술이다.
현재 상용화 진행 중인 CDMA EVDO 및 UMTS망을 통한 양방향 화상 통화가 가능한 휴대폰 내부에 탑재되는 H.263/MPEG4 비디오 엔코더는, 휴대폰에 장착된 카메라로부터 영상을 입력받아서 이를 효율적인 압축방법으로 압축하여 전송프로토콜 계층에 넘겨주는 역할을 하게 된다. 이러한 H.263/MPEG4 비디오 엔코더는 휴대폰이라는 제한된 리소스와 계산능력을 가진 환경에 적합하게 최적화 되어 있으며, 128kbps이하의 협대역 통신환경에 맞게 화질과 비트스트림 크기를 적절하게 조절한다.
도 1은 종래의 디지털 비디오 신호를 압축하기 위한 비디오 엔코더, 예를 들어 MPEG2 방식의 이미지 부호화 시스템을 도시하는 도면이다.
프레임 형식의 비디오 신호는 프레임 메모리(10)에 입력된다. 상기 프레임은 블록 단위로 처리될 수 있도록 픽셀 데이터의 연속적인 블록으로 프레임 메모리(10)에 저장된다. 프레임의 블록은 통상적으로 8 ×8 내지 16 ×16의 화소크기를 가진다.
DCT(Discrete Cosine Transform)부(12)는 프레임 메모리(10)로부터 블록 단위로 판독되는 비디오 신호를 이산코사인 변환하고 DCT 계수들을 발생한다. 양자화부(14)는 상기 DCT 계수들을 양자화한다. 비트율 제어부(30)는 목표 전송 비트율을 맞추기 위하여 양자화부(14)에서 양자화에 사용될 양자화 테이블을 결정하기 위한 양자화스텝사이즈정보를 양자화부(14)에 제공한다. 이에 따라, 양자화부(14)는 제공된 양자화스텝사이즈정보를 기초로 양자화 테이블을 결정하고, 결정된 양자화 테이블에 따라 DCT 계수들을 양자화한다.
양자화된 DCT 계수들은 지그재그형으로 스캐닝되어 가변길이 부호화부(Variable Length Coder)(16)로 입력된다. 가변길이부호화부(16)는 스캐닝된 DCT 계수들을 가변길이 부호화된 데이터로 변환한다. 가변길이 부호화된 DCT 계수들은 도시되지 않은 비트열 발생부를 통해 연속적인 비트열(Bit Stream)로 변환된다. 상기 비트열은 소정 시간 동안 버퍼(18)에 저장에 저장되고, 입력되는 신호에 따라 출력한다. 이때, 버퍼(18)는 얼마의 비트열을 저장할 수 있는지를 나타내는 버퍼상태정보를 비트율제어부(30)에 제공한다. 이에 따라, 비트율제어부(30)는 제공된 버퍼상태정보를 기초로 양자화스텝사이즈를 결정하고, 결정된 양자화스텝사이즈정보를 양자화부(14) 및 가변길이부호화부(16)에 제공한다. 이에 따라, 양자화부(14)는 제공된 양자화스텝사이즈정보를 기초로 DCT 계수들을 양자화하고, 가변길이부호화부(16)는 제공된 양자화스텝사이즈정보를 기초로 양자화된 DCT 계수들을 가변적으로 부호화한다.
한편, 양자화부(14)에서 양자화된 DCT 계수들은 역양자화부(20)로도 입력되어 역양자화된다. 역양자화부(20)에 의해 역양자화된 DCT 계수들은 역 이산 코사인 변환부(Inverse Discrete Cosine Transform: 이하 "역DCT"라 칭함)(22)에서 역 이산 코사인 변환되어 블록 단위의 재생된 화소 데이터로 된다. 블록 단위의 재생된 화소 데이터는 프레임 메모리(24)에 저장된다. 한 비디오 프레임의 전체 블록이 순차적으로 재생되고 프레임 메모리(24)에 저장된다. 프레임 메모리(24)에 저장된 재생된 이미지 프레임은 움직임추정부(Motion Estimation)(26)에서 재생되는 이미지로부터 움직임 객체를 추정하기 위한 참조 프레임으로 사용된다.
첫 번째 비디오 프레임의 전체 블록이 도면의 비디오 엔코더에 의해 처리된 후 두 번째 비디오 프레임이 상기 비디오 엔코더에 입력된다. 움직임추정부(26)는 프레임 메모리(24)에 저장된 참조 프레임의 탐색 영역에서 두 번째 프레임의 첫 번째 매크로블록(Macro Block: MB)과 가장 유사한 영역을 찾는다. 통상적으로, 탐색 영역은 복수개의 후보 매크로블록들로 구성된다. 움직임추정부(26)는 매크로블록과 동일한 화소 크기를 가지는 참조 영역을 탐색 영역 내에서 상하좌우로 반(0.5) 화소(Half Pixel) 단위로 이동하면서, 매크로블록과 참조 영역 각각의 화소 대 화소를 비교한다. 매크로블록은 통상적으로 8 ×8 또는 16 ×16의 크기를 가진다. 여기서, 움직임 추정을 위해 FBMA(Full Searching Block Matching Algorithm), TSS(Three Step Search), 다이아몬드 탐색(Diamond Search) 또는 계층적 움직임 추정(Hierachical Motion Estimation) 등과 같은 통상의 다양한 탐색 알고리즘(Searching Algorithm) 또는 블록 매칭(Block Matching) 기법들이 사용된다. 이러한 비교 과정을 통해 움직임 추정부(26)에서 비교된 참조 프레임의 가장 유사한 참조 영역과 두 번째 이미지 프레임의 매크로블록 간의 위치관계를 나타내는 움직임 벡터(Motion Vector: MV)가 결정된다.
가산부(28)는 두 번째 프레임의 첫 번째 매크로블록과 참조 프레임의 가장 유사한 참조 영역을 가산하여, 두 번째 프레임의 첫 번째 매크로블록과 참조 프레임의 가장 유사한 참조 영역 간의 차분을 산출한다. 상기 차분은 움직임 벡터(MV)와 함께 DCT부(12), 양자화부(14) 및 가변길이부호화부(16)을 거쳐 부호화된다. 여기서 차분과 움직임 벡터는 별개의 모듈에서 별개의 과정을 통해 각 구해지는 것으로 설명되었으나, 움직임 벡터와 차분이 하나의 모듈을 통해 구해지도록 구현될 수도 있음을 유의하여야 한다. 차분은 역양자화부(20)와 역DCT부(22)로도 입력되고 다음 프레임의 움직임 추정을 위해 재생된 화소 데이터로 제2프레임 메모리(24)에 저장된다. 상기 과정은 두 번째 프레임의 전체 블록에 대해 순차적으로 적용된다.
상술한 바와 같이 움직임 추정을 위해 사용되는 참조 프레임은 원본의 이미지 프레임이 아니고, 이미 부호화된, 즉 양자화된 DCT 계수들을 다시 복호화하여 재생된 프레임이다. 이것은 비디오 엔코더에서 부호화된 이미지 데이터를 수신하여 복호화할 때와 동일한 과정을 거치도록 함으로써, 비디오 엔코더와 비디오 디코더 간의 오차를 최소화하기 위함이다.
한편, 상기의 비디오 엔코더 및 디코더가 적용된 휴대폰을 이용한 화상통신용 비디오 코덱(CODEC)의 경우, 지연시간과 연산량을 고려하여 I 픽처(Intra-Picture) 및 P 픽처(Predictive-Picture)의 프레임만을 사용한다. 이때, 비디오 엔코더는 통신대역폭에 맞추기 위하여 영상의 내용에 따라 양자화값을 동적으로 적용하여 화질을 조절하면서 일정한 크기의 비트스트림을 생성시킨다.
상기 I 픽처는 인트라 부호화영상 즉 프레임 내 부호화영상이다. I 픽처의 역할은 GOP(Group of Picture)의 독립성을 확보하고, 화면의 모든 것을 인트라 부호화한다. I 픽처는 부호화될 때 원 영상과 같은 순서로 부호화된다. 상기 P 픽처는 프레임간 순방향 예측 부호화영상이다. P 픽처는 화면 내의 소블록 단위의 부분에서 인트라 부호화를 포함하는 경우도 있다. P 픽처는 원 영상과 같은 순서로 부호화된다.
이에 따라, 영상의 움직임이 많거나 화면이 복잡한 경우, 비트량이 증가하게 되어 양자화값을 크게 적용하여 화질이 저하되는 반면 압축률을 높이는 작용이 이루어 질 수 있다. 반대로, 영상의 움직임이 적고 화면이 단순한 경우, 양자화 값을 작게 적용하여 화질을 원본영상에 근접시킬 수 있다.
일반적으로, 화상통화의 경우 전체 영상 내에 배경을 제외한 개체의 수가 제한적일 가능성이 높고, 그 개체의 일부분은 화자에게 있어서 중요한 의미를 가지게 된다. 즉, 화상통화 영상에서는 배경이 가장 중요도가 낮고, 그 다음이 화자 주변의 사람이나 화자와 근접한 개체이며, 더욱 중요한 것이 화자 본인이다. 특히 화자의 얼굴부분은 화상 통화시 가장 높은 중요도를 가진다고 할 수 있다.
그런데, 현재 사용되고 있는 화상통신용 비디오 엔코더 장치는 전체 영상에 대한 압축을 수행할 때 개체에 대한 개념을 전혀 고려하지 않고 있다. 즉 종래의 화상통신용 비디오 엔코더는 전체 영상에 대해 동일하게 압축률을 적용한다.
도 2는 전체 영상에 동일한 압축률 즉 동일한 양자화 스텝 사이즈를 적용함에 따른 화질 변화의 예를 나타낸 도면이다. 도시된 바와 같이, 전체 영상에 대해 동일한 양자화 스텝 사이즈를 적용함에 따라, 압축되어 화면에 표시되는 영상의 화질이 전체적으로 떨어지는 것을 알 수 있다.
따라서, 종래의 화상통신용 비디오 엔코더 장치는 전체 영상 중 상대적으로 화질을 더 떨어뜨려도 화상 통신을 하는데 상관없는 부분과, 화질을 떨어뜨렸을 경우 화상 통신에 심각한 문제점을 발생시킬 수 있는 부분을 전혀 구분하지 못한다.
현재 MPEG에서는 개체를 분리하여 부호화하는 기술이 제안되고 있으나, 이와 같이 개체를 정밀하게 분리하는 목적은 다양한 배경에서 해당 개체를 사용하려는 것이다. 따라서 이러한 기술은 실시간 및 이동통신 환경에서는 구현하기가 어렵다. 따라서, 3GPP/3GPP2에서의 화상통신용 표준 비디오 코덱에는 이와 같은 고려가 전혀 이뤄지지 않고 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 화자의 얼굴로 추정되는 영역을 타 영역에 대하여 적응적으로 화질을 보다 우수하게 유지시킬 수 있는 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법을 제공하는데 있다.
본 발명의 다른 목적은, 화자의 얼굴로 추정되는 영역을 타 영역에 대하여 적응적으로 화질을 보다 우수하게 유지시키기 위해 표준 화상통신용 비디오 엔코더에 쉽게 적용이 가능한 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법을 제공하는데 있다.
본 발명의 또 다른 목적은, 동영상의 움직임 벡터 정보와 화자의 얼굴 부위의 색상 정보를 이용하여 얼굴 색상 영역으로 판단되는 경우, 화자의 얼굴 부위를 기타 부분보다 개선된 영상의 질로 표현할 수 있는 화상통신용 비디오 엔코더 및 이를 이용한 영상 압축 방법을 제공하는데 있다.
상기와 같은 목적은 본 발명에 따라, 이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더에 있어서, 입력되는 비디오신호로부터 개체의 움직임을 추정하여 개체의 움직임 벡터를 산출하는 움직임추정부; 산출된 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 화자영역검출부; 움직임추정부로부터 출력된 비디오신호를 이산 코사인 변환하여 DCT계수들을 산출하는 DCT(Discrete Cosine Transform)부; DCT계수들을 이용하여 상기 화자영역으로부터 화자의 얼굴영역을 검출하고, 검출된 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 얼굴영역검출부; 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 적응적비트율제어부; 및 양자화 스텝 사이즈 및 차별 양자화 테이블에 따라 DCT 계수들을 양자화하는 양자화부를 포함하는 비디오 엔코더에 의해 달성된다.
바람직하게는, 적응적 비트율 제어부는 화자영역 및 얼굴영역을 기초로 양자화 스텝 사이즈를 가변적으로 설정한다. 또한, 움직임추정부는 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 개체의 움직임을 추정하고, 개체의 움직임 추정에 대응하는 움직임 벡터를 산출한다.
또한, 상기 화자영역검출부는 움직임 벡터로부터 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터를 산출하고, 배경 이미지 벡터 및 전경 이미지 벡터로부터 화자 영역을 검출한다.
상기 얼굴영역검출부는 DCT부에서 발생한 DCT 계수 중 화자영역검출부에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 화자의 얼굴 영역으로 판단한다.
본 발명의 비디오 엔코더는, 양자화부에서 차별 양자화된 DCT 계수들에 대해 역 양자화를 수행하는 역양자화부; 역양자화된 DCT 계수들에 대해 역 이산 코사인 변환을 수행하는 IDCT부; 및 기 입력된 역 이산 코사인 변환된 비디오신호와 입력되는 역 이산 코사인 변환된 비디오신호를 비교하여 개체의 움직임을 보상하는 움직임보상부를 더 갖는다. 이에 따라, 상기 움직임보상부는 움직임보상부로부터 움직임이 보상된 비디오신호를 기준으로 외부로부터 입력되는 비디오신호에 대한 움직임 벡터를 산출한다.
한편, 상기와 같은 목적은 본 발명에 따라, 이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법에 있어서, 입력되는 비디오신호로부터 개체의 움직임을 추정하여 개체의 움직임 벡터를 산출하는 단계; 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 단계; 비디오신호를 이산 코사인 변환하여 DCT(Discrete Cosine Transform) 계수들을 산출하는 단계; DCT계수들을 이용하여 상기 화자영역으로부터 화자의 얼굴영역을 검출하고, 검출된 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 단계; 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 단계; 및 양자화 스텝 사이즈 및 차별 양자화 테이블에 따라 DCT 계수들을 양자화하는 단계를 포함하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법에 의해 달성된다.
바람직하게는, 상기 양자화 스텝 사이즈 설정단계에서는 화자영역 및 얼굴영역 중 적어도 어느 하나를 기초로 양자화 스텝 사이즈가 가변적으로 설정된다. 또한, 상기 움직임추정단계에서는 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 상기 개체의 움직임이 추정되고, 개체의 움직임 추정에 대응하는 움직임 벡터가 산출된다.
상기 화자영역검출단계에서는 움직임 벡터로부터 상기 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터가 산출되고, 배경 이미지 벡터 및 상기 전경 이미지 벡터로부터 화자 영역이 검출된다. 상기 얼굴영역검출단계에서는 DCT 계수 중 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역이 화자의 얼굴 영역으로 판단된다.
본 발명에 따르면, 화자의 얼굴 영역과 비 얼굴 영역을 구분하여 얼굴 영역은 양자화 스텝 사이즈를 작게 하고 비 얼굴 영역은 양자화 스텝 사이즈를 크게 하여 각각 차별적으로 양자화를 수행함으로써, 화상 통신시 비디오 엔코더의 동작에 따른 부하를 가중시키지 않으면서 화자의 얼굴 영상의 화질 저하를 효과적으로 방지할 수 있다. 이에 따라, 움직임이 있는 얼굴 영역을 비롯한 붉은 계통의 블록들의 화질 저하가 타 블록들에 비하여 보다 적게 이루어질 수 있다.
이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 3은 본 발명에 따른 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더의 바람직한 실시예를 도시한 블록도이다.
도시되 바와 같이, 비디오 엔코더는 움직임추정부(100), 화자영역검출부(120), DCT(Discrete Cosine Transform)부(140), 얼굴영역검출부(160), 적응적비트율제어부(180), 양자화부(200), 가변길이부호화부(220), 역양자화부(240), IDCT(Inverse Discrete Cosine Transform)부(260), 움직임보상부(280)를 갖는다.
움직임추정부(100)는 입력되는 비디오신호의 현재 프레임과, 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출한다. 이때 검출된 참조 프레임의 가장 유사한 참조 영역과 현재 프레임의 매크로블록 간의 위치관계를 나타내는 움직임 벡터(Motion Vector: MV)가 결정된다.
화자영역검출부(120)는 움직임추정부(100)에서 결정된 움직임 벡터 중 비디오신호의 중심으로부터 소정 영역을 제외한 주변부의 움직임 벡터들의 크기와 방향의 일관성을 검출한다. 화자영역검출부(120)는 검출된 주변부 움직임 벡터의 크기에 대한 평균값을 산출한다. 이때 화자영역검출부(120)는 산출된 평균값 중 설정된 편차값의 범위 내에 포함되는 평균값들의 평균값을 산출한다. 이때 산출된 평균값들의 평균값은 비디오신호에 대한 배경 이미지 벡터(background image vector)로 결정된다. 또한, 화자영역검출부(120)는 움직임추정부(100)에서 결정된 움직임 벡터에서 배경 이미지 벡터를 감산 연산하여 비디오신호의 주변부를 제외한 중심부 영역에 대해 전경 이미지 벡터(foreground image vector)를 산출한다. 이때, 화자영역검출부(120)는 전경 이미지 벡터 중 크기 및 방향이 소정의 범위 내에 포함되는 전경 이미지 벡터를 모아서 화자 영역의 경계를 결정한다. 화자영역검출부(120)는 결정된 화자 영역 내의 영역에 대해 수평 및 수직 지향 스캐닝(horizontal and vertical directional scanning)을 수행하여 직각 모양의 화자 영역에 검출한다.
DCT부(140)는 움직임추정부(100)에 입력된 비디오신호를 이산코사인 변환하고 DCT 계수들을 발생한다.
얼굴영역검출부(160)는 DCT부(140)에서 발생한 DCT 계수 중 화자영역검출부(120)에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 화자의 얼굴 영역으로 판단한다. 이때, 문턱치의 설정은 사용자에 의해 임의로 설정될 수도 있고, 실험치에 의해 얻어진 최적값일 수도 있다. 얼굴영역검출부(160)는 화자 영역으로부터 얼굴 영역의 판단 결과에 따라, DCT계수들이 차별적으로 양자화되기 위한 차별 양자화 여부 정보인 차별 양자화 테이블을 생성한다.
적응적비트율제어부(180)는 화자영역검출부(120)에서 검출된 화자영역정보와 얼굴영역검출부(160)에서 검출된 얼굴영역정보를 이용하여 양자화 스텝 사이즈 조정에 사용될 가중 테이블을 생성한다. 바람직하게는, 적응적비트율제어부(180)는 대상 비디오신호의 소정 영역이 화자영역이면서 얼굴영역이면, 양자화 스텝 사이즈를 기준치보다 작게 설정하고, 그 이외의 경우에는 양자화 스텝 사이즈를 기준치보다 크게 설정한다.
양자화부(200)는 얼굴영역검출부(160)에서 생성된 차별 양자화 테이블 및 적응적비트율제어부(180)에서 출력된 양자화 스텝 사이즈에 따라 DCT부(140)에서 출력된 DCT 계수들을 가변적으로 양자화한다.
가변길이부호화부(220)는 양자화된 DCT 계수들을 가변길이 부호화된 데이터로 변환한다. 가변길이 부호화된 DCT 계수들은 도시되지 않은 비트열 발생부를 통해 연속적인 비트열(Bit Stream)로 변환되어 출력된다.
역양자화부(240)는 양자화부(200)에서 양자화된 DCT 계수들을 역양자화한다. IDCT부(260)는 역양자화된 DCT 계수들을 역 이산 코사인 변환하여 블록 단위의 재생된 화소 데이터로 변환한다.
움직임보상부(280)는 IDCT부(260)에서 재생된 화소 데이터의 움직임을 보상한다. 움직임보상부(280)에서 보상된 화소 데이터는 움직임추정부(100)에서 재생되는 이미지로부터 움직임 객체를 추정하기 위한 참조 프레임으로 사용된다.
따라서, 입력되는 비디오신호에 대해 일괄적으로 동일한 양자화 스텝 사이즈를 적용하지 않고 화자의 얼굴 영역을 구분하여 얼굴 영역과 비 얼굴 영역을 구분하여 상이한 양자화 스텝 사이즈에 따라 양자화를 수행함으로써, 얼굴 영역에 대한 기준 해상도를 유지할 수 있다. 이에 따라, 움직임이 있는 얼굴 영역을 비롯한 붉은 계통의 블록들의 화질 저하가 타 블록들에 비하여 보다 적게 이루어질 수 있다.
본 실시예에서는 적색성분과 청색성분을 구분하여 각각의 대응하는 크기 값을 비교하므로 얼굴 영역을 결정하고 이에 따른 차별 양자화를 통해 얼굴 영역의 화질 저하가 적게 발생하도록 하고 있으나, 사용자 인터페이스에 의해 얼굴 부분의 대략적인 특징을 얻을 수 있고 이에 의해 적색 성분의 범위를 문턱치로 지정할 수도 있다.
도 4는 도 3에 의해 입력되는 비디오신호로부터 얼굴 영역과 비 얼굴 영역에 대한 차별 양자화 과정을 그림으로 나타낸 도면이다. 먼저, 도면의 a)는 움직임추정부(100)에 입력되는 원래의 비디오신호를 재생하여 화면에 표시할 경우 나타나는 화질의 영상이다. b)는 화자영역검출부(120)에 의해 검출된 화자 영역(120a)이 화면의 중앙 부분에 위치한 상태를 나타내고 있다. c)는 얼굴영역검출부(160)에 의해 검출된 화자의 얼굴 영역(160a)이 화면에 표시된 상태를 나타내고 있다. d)는 양자화부(200)에 의해 얼굴영역(160a)과 비 얼굴 영역을 구분하여 차별적으로 양자화함에 따라 표시되는 비디오신호의 표시 상태를 나타내고 있다.
도 5는 도 3에 의해 전체 영상에 대해 얼굴 영역과 비 얼굴 영역을 구분하여 양자화부(200)에서 차별 양자화 스텝을 적용함에 따라 화면에 표시된 영상의 예를 도시한 도면이다. 도시된 바와 같이, 전체 영상 중 얼굴 영역에 대해 기준치보다 작은 양자화 스텝 사이즈를 적용하고 비 얼굴영역에 대해서는 기준치보다 큰 양자화 스텝 사이즈를 적용하여 해당 영역을 양자화함으로써, 얼굴 영역에 대해 기준치 이상의 화질 수준을 보상받을 수 있다.
도 6은 본 발명에 따른 비디오 엔코더를 이용한 비디오 신호의 압축 방법의 바람직한 실시예를 도시한 순서도이다.
먼저, 움직임추정부(100)는 입력되는 비디오신호의 현재 프레임과, 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 프레임의 매크로블록 간의 위치관계를 나타내는 움직임 벡터(Motion Vector: MV)를 산출한다(S100). 화자영역검출부(120)는 움직임추정부(100)에서 결정된 움직임 벡터 중 비디오신호의 중심으로부터 소정 영역을 제외한 주변부의 움직임 벡터들의 크기와 방향의 일관성을 검출하여 비디오신호 중 화자영역을 검출한다(S120).
한편, DCT부(140)는 움직임추정부(100)에 입력된 비디오신호를 이산코사인 변환하고 DCT 계수들을 발생한다(S140).
얼굴영역검출부(160)는 DCT부(140)에서 발생한 DCT 계수 중 화자영역검출부(120)에서 검출된 화자 영역에 대응하는 DCT 계수들을 이용하여 화자의 얼굴 영역을 검출한다(S160). 바람직하게는, 얼굴영역검출부(160)는 DCT부(140)에서 발생한 DCT 계수 중 화자영역검출부(120)에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 화자의 얼굴 영역으로 판단한다. 이때, 문턱치의 설정은 사용자에 의해 임의로 설정될 수도 있고, 실험치에 의해 얻어진 최적값일 수도 있다. 얼굴영역검출부(160)는 화자 영역으로부터 얼굴 영역의 판단 결과에 따라, DCT계수들이 차별적으로 양자화되기 위한 차별 양자화 여부 정보인 차별 양자화 테이블을 생성한다.
적응적비트율제어부(180)는 화자영역검출부(120)에서 검출된 화자영역정보와 얼굴영역검출부(160)에서 검출된 얼굴영역정보를 이용하여 양자화 스텝 사이즈를 가변적으로 설정한다(S180). 바람직하게는, 적응적비트율제어부(180)는 대상 비디오신호의 소정 영역이 화자영역이면서 얼굴영역이면, 양자화 스텝 사이즈를 기준치보다 작게 설정하고, 그 이외의 경우에는 양자화 스텝 사이즈를 기준치보다 크게 설정한다.
양자화부(200)는 얼굴영역검출부(160)에서 생성된 차별 양자화 테이블 및 적응적비트율제어부(180)에서 출력된 양자화 스텝 사이즈에 따라 DCT부(140)에서 출력된 DCT 계수들을 가변적으로 양자화한다(S200). 가변길이부호화부(220)는 얼굴 영역과 비 얼굴 영역을 구분하여 가변적으로 양자화된 DCT 계수들을 가변길이 부호화된 데이터로 변환한다(S220). 가변길이 부호화된 DCT 계수들은 도시되지 않은 비트열 발생부를 통해 연속적인 비트열(Bit Stream)로 변환되어 출력된다.
따라서, 입력되는 비디오신호에 대해 일괄적으로 동일한 양자화 스텝 사이즈를 적용하지 않고 화자의 얼굴 영역을 구분하여 얼굴 영역과 비 얼굴 영역을 구분하여 상이한 양자화 스텝 사이즈에 따라 양자화를 수행함으로써, 얼굴 영역에 대한 기준 해상도를 유지할 수 있다. 이에 따라, 움직임이 있는 얼굴 영역을 비롯한 붉은 계통의 블록들의 화질 저하가 타 블록들에 비하여 보다 적게 이루어질 수 있다.
본 실시예에서는 적색성분과 청색성분을 구분하여 각각의 대응하는 크기 값을 비교하므로 얼굴 영역을 결정하고 이에 따른 차별 양자화를 통해 얼굴 영역의 화질 저하가 적게 발생하도록 하고 있으나, 사용자 인터페이스에 의해 얼굴 부분의 대략적인 특징을 얻을 수 있고 이에 의해 적색 성분의 범위를 문턱치로 지정할 수도 있다.
본 발명에 따르면, 화자의 얼굴 영역과 비 얼굴 영역을 구분하여 얼굴 영역은 양자화 스텝 사이즈를 작게 하고 비 얼굴 영역은 양자화 스텝 사이즈를 크게 하여 각각 차별적으로 양자화를 수행함으로써, 화상 통신시 비디오 엔코더의 동작에 따른 부하를 가중시키지 않으면서 화자의 얼굴 영상의 화질 저하를 효과적으로 방지할 수 있다. 이에 따라, 움직임이 있는 얼굴 영역을 비롯한 붉은 계통의 블록들의 화질 저하가 타 블록들에 비하여 보다 적게 이루어질 수 있다.
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.
도 1은 종래의 디지털 비디오 신호를 압축하기 위한 비디오 엔코더, 예를 들어 MPEG2 방식의 이미지 부호화 시스템을 도시하는 도면,
도 2는 전체 영상에 동일한 압축률 즉 동일한 양자화 스텝 사이즈를 적용함에 따른 화질 변화의 예를 나타낸 도면,
도 3은 본 발명에 따른 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수 있는 비디오 엔코더의 바람직한 실시예를 도시한 블록도,
도 4는 도 3에 의해 입력되는 비디오신호로부터 얼굴 영역과 비 얼굴 영역에 대한 차별 양자화 과정을 그림으로 나타낸 도면,
도 5는 도 3에 의해 전체 영상에 대해 얼굴 영역과 비 얼굴 영역을 구분하여 양자화부에서 차별 양자화 스텝을 적용함에 따라 화면에 표시된 영상의 예를 도시한 도면, 그리고
도 6은 본 발명에 따른 비디오 엔코더를 이용한 비디오 신호의 압축 방법의 바람직한 실시예를 도시한 순서도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
100 : 움직임추정부 120 : 화자영역검출부
140 : DCT부 160 : 얼굴영역검출부
180 : 적응적 비트율 제어부 200 : 양자화부
220 : 가변길이부호화부 240 : 역양자화부
260 : IDCT부 280 : 움직임보상부

Claims (16)

  1. 이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더에 있어서,
    입력되는 비디오신호로부터 개체의 움직임을 추정하여 상기 개체의 움직임 벡터를 산출하는 움직임추정부;
    상기 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 화자영역검출부;
    상기 움직임추정부로부터 출력된 비디오신호를 이산 코사인 변환하여 DCT계수들을 산출하는 DCT(Discrete Cosine Transform)부;
    상기 DCT계수들을 이용하여 상기 화자영역으로부터 상기 화자의 얼굴영역을 검출하고, 검출된 상기 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 얼굴영역검출부;
    상기 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 적응적비트율제어부; 및
    상기 양자화 스텝 사이즈 및 상기 차별 양자화 테이블에 따라 상기 DCT 계수들을 양자화하는 양자화부를 포함하는 것을 특징으로 하는 비디오 엔코더.
  2. 제 1항에 있어서,
    상기 적응적 비트율 제어부는 상기 화자영역 및 상기 얼굴영역 중 적어도 어느 하나를 기초로 상기 양자화 스텝 사이즈를 가변적으로 설정하는 것을 특징으로 하는 비디오 엔코더.
  3. 제 2항에 있어서,
    상기 움직임추정부는 상기 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 상기 개체의 움직임을 추정하고, 상기 개체의 움직임 추정에 대응하는 상기 움직임 벡터를 산출하는 것을 특징으로 하는 비디오 엔코더.
  4. 제 3항에 있어서,
    상기 화자영역검출부는 상기 움직임 벡터로부터 상기 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터를 산출하고, 상기 배경 이미지 벡터 및 상기 전경 이미지 벡터로부터 화자 영역을 검출하는 것을 특징으로 하는 비디오 엔코더.
  5. 제 4항에 있어서,
    상기 얼굴영역검출부는 상기 DCT부에서 발생한 DCT 계수 중 상기 화자영역검출부에서 검출된 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역을 상기 화자의 얼굴 영역으로 판단하는 것을 특징으로 하는 비디오 엔코더.
  6. 제 5항에 있어서,
    상기 양자화부에서 차별 양자화된 DCT 계수들에 대해 가변 길이 부호화를 수행하는 가변길이부호화부를 더 포함하는 것을 특징으로 하는 비디오 엔코더.
  7. 제 6항에 있어서,
    상기 양자화부에서 차별 양자화된 DCT 계수들에 대해 역 양자화를 수행하는 역양자화부;
    상기 역양자화된 DCT 계수들에 대해 역 이산 코사인 변환을 수행하는 IDCT부; 및
    기 입력된 역 이산 코사인 변환된 비디오신호와 입력되는 역 이산 코사인 변환된 비디오신호를 비교하여 상기 개체의 움직임을 보상하는 움직임보상부를 더 포함하는 것을 특징으로 하는 비디오 엔코더.
  8. 제 7항에 있어서,
    상기 움직임보상부로부터 움직임이 보상된 비디오신호를 기준으로 상기 움직임보상부는 외부로부터 입력되는 비디오신호에 대한 상기 움직임 벡터를 산출하는 것을 특징으로 하는 비디오 엔코더.
  9. 이산코사인변환 및 움직임 추정을 통해 비디오신호를 부호화하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법에 있어서,
    입력되는 비디오신호로부터 개체의 움직임을 추정하여 상기 개체의 움직임 벡터를 산출하는 단계;
    상기 움직임 벡터로부터 화자의 윤곽을 나타내는 화자영역을 검출하는 단계;
    상기 비디오신호를 이산 코사인 변환하여 DCT(Discrete Cosine Transform) 계수들을 산출하는 단계;
    상기 DCT계수들을 이용하여 상기 화자영역으로부터 상기 화자의 얼굴영역을 검출하고, 검출된 상기 얼굴영역과 비 얼굴영역을 구분하여 차별 양자화 테이블을 생성하는 단계;
    상기 화자영역을 기초로 양자화를 위한 양자화 스텝 사이즈를 가변적으로 설정하는 단계; 및
    상기 양자화 스텝 사이즈 및 상기 차별 양자화 테이블에 따라 상기 DCT 계수들을 양자화하는 단계를 포함하는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  10. 제 9항에 있어서,
    상기 양자화 스텝 사이즈 설정단계에서는 상기 화자영역 및 상기 얼굴영역 중 적어도 어느 하나를 기초로 상기 양자화 스텝 사이즈가 가변적으로 설정되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  11. 제 10항에 있어서,
    상기 움직임추정단계에서는 상기 비디오신호의 현재 프레임과 기 입력되어 부호화 및 복호화된 후 움직임이 보상된 참조 프레임을 일정한 화소 간격으로 대응하는 각각의 화소 대 화소를 비교하여 가장 유사한 화소를 검출하여 상기 개체의 움직임이 추정되고, 상기 개체의 움직임 추정에 대응하는 상기 움직임 벡터가 산출되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  12. 제 11항에 있어서,
    상기 화자영역검출단계에서는 상기 움직임 벡터로부터 상기 움직임 벡터의 크기 및 방향에 대한 일관성 여부에 따라 배경 이미지 벡터 및 전경 이미지 벡터가 산출되고, 상기 배경 이미지 벡터 및 상기 전경 이미지 벡터로부터 화자 영역이 검출되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  13. 제 12항에 있어서,
    상기 얼굴영역검출단계에서는 상기 DCT 계수 중 상기 화자 영역에 대응하는 DCT 계수들로부터 동일 영역에 대해 적색 성분과 청색 성분의 DC값 크기를 비교하여 적색 성분이 크면서 설정된 문턱치보다 큰 것으로 판단되면, 화자 영역 중 비교된 DCT 계수에 대응하는 영역이 상기 화자의 얼굴 영역으로 판단되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  14. 제 13항에 있어서,
    상기 양자화단계에서 차별 양자화된 DCT 계수들에 대해 가변 길이 부호화를 수행하는 단계를 더 포함하는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  15. 제 14항에 있어서,
    상기 양자화단계에서 차별 양자화된 DCT 계수들에 대해 역 양자화를 수행하는 단계;
    상기 역양자화된 DCT 계수들에 대해 역 이산 코사인 변환을 수행하는 단계; 및
    기 입력된 역 이산 코사인 변환된 비디오신호와 입력되는 역 이산 코사인 변환된 비디오신호를 비교하여 상기 개체의 움직임을 보상하는 단계를 더 포함하는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
  16. 제 15항에 있어서,
    상기 움직임추정단계에서는 상기 움직임보상단계에서 움직임이 보상된 비디오신호를 기준으로하여 외부로부터 입력되는 비디오신호에 대한 상기 움직임 벡터가 산출되는 것을 특징으로 하는 비디오 엔코더를 이용한 화상 통신을 위한 비디오신호의 압축방법.
KR10-2003-0008255A 2003-02-10 2003-02-10 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법 KR100539923B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2003-0008255A KR100539923B1 (ko) 2003-02-10 2003-02-10 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법
CNB031278256A CN1225914C (zh) 2003-02-10 2003-08-11 视频编码器和使用视频编码器的压缩视频信号的方法
US10/643,536 US20040158719A1 (en) 2003-02-10 2003-08-19 Video encoder capable of differentially encoding image of speaker during visual call and method for compressing video signal using the same
EP20040001823 EP1453321A3 (en) 2003-02-10 2004-01-28 Video encoder capable of differentially encoding image of speaker during visual call and method for compressing video signal
JP2004034105A JP2004248285A (ja) 2003-02-10 2004-02-10 画像通話時における話者の映像の差動的符号化可能のビデオエンコーダ及びこれを利用したビデオ信号圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0008255A KR100539923B1 (ko) 2003-02-10 2003-02-10 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법

Publications (2)

Publication Number Publication Date
KR20040072259A KR20040072259A (ko) 2004-08-18
KR100539923B1 true KR100539923B1 (ko) 2005-12-28

Family

ID=32768601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0008255A KR100539923B1 (ko) 2003-02-10 2003-02-10 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법

Country Status (5)

Country Link
US (1) US20040158719A1 (ko)
EP (1) EP1453321A3 (ko)
JP (1) JP2004248285A (ko)
KR (1) KR100539923B1 (ko)
CN (1) CN1225914C (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8422546B2 (en) * 2005-05-25 2013-04-16 Microsoft Corporation Adaptive video encoding using a perceptual model
KR100792247B1 (ko) * 2006-02-28 2008-01-07 주식회사 팬택앤큐리텔 이미지 데이터 처리 시스템 및 그 방법
US8599841B1 (en) 2006-03-28 2013-12-03 Nvidia Corporation Multi-format bitstream decoding engine
US8593469B2 (en) * 2006-03-29 2013-11-26 Nvidia Corporation Method and circuit for efficient caching of reference video data
US8130828B2 (en) * 2006-04-07 2012-03-06 Microsoft Corporation Adjusting quantization to preserve non-zero AC coefficients
US8503536B2 (en) 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US7995649B2 (en) * 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8059721B2 (en) * 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US7974340B2 (en) 2006-04-07 2011-07-05 Microsoft Corporation Adaptive B-picture quantization control
US8019171B2 (en) * 2006-04-19 2011-09-13 Microsoft Corporation Vision-based compression
US8711925B2 (en) 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
KR100786413B1 (ko) * 2006-06-13 2007-12-17 주식회사 팬택앤큐리텔 이미지 데이터 처리 시스템
US7653130B2 (en) * 2006-12-27 2010-01-26 General Instrument Corporation Method and apparatus for bit rate reduction in video telephony
US8238424B2 (en) 2007-02-09 2012-08-07 Microsoft Corporation Complexity-based adaptive preprocessing for multiple-pass video compression
US8498335B2 (en) 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US8243797B2 (en) 2007-03-30 2012-08-14 Microsoft Corporation Regions of interest for quality adjustments
KR100843257B1 (ko) * 2007-04-11 2008-07-02 인하대학교 산학협력단 윤곽선 복원을 이용한 얼굴검출 장치 및 방법
US8442337B2 (en) 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
US8331438B2 (en) 2007-06-05 2012-12-11 Microsoft Corporation Adaptive selection of picture-level quantization parameters for predicted video pictures
US8477852B2 (en) * 2007-06-20 2013-07-02 Nvidia Corporation Uniform video decoding and display
US8548049B2 (en) 2007-07-02 2013-10-01 Vixs Systems, Inc Pattern detection module, video encoding system and method for use therewith
US9313504B2 (en) 2007-07-02 2016-04-12 Vixs Systems, Inc. Pattern detection module with region detection, video encoding system and method for use therewith
CN101621684B (zh) * 2008-07-02 2013-05-29 Vixs系统公司 模式检测模块、视频编码系统及其使用的方法
CN101374220B (zh) * 2007-08-23 2010-06-16 凌阳科技股份有限公司 视频画面传送方法与系统
US8502709B2 (en) * 2007-09-17 2013-08-06 Nvidia Corporation Decoding variable length codes in media applications
US8849051B2 (en) * 2007-09-17 2014-09-30 Nvidia Corporation Decoding variable length codes in JPEG applications
CN101472131B (zh) * 2007-12-28 2012-07-04 希姆通信息技术(上海)有限公司 带有运动感知功能的视频电话的图像质量增强方法
US8189933B2 (en) 2008-03-31 2012-05-29 Microsoft Corporation Classifying and controlling encoding quality for textured, dark smooth and smooth video content
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US9307267B2 (en) * 2008-12-11 2016-04-05 Nvidia Corporation Techniques for scalable dynamic data encoding and decoding
CN101494718B (zh) * 2009-01-23 2011-02-09 逐点半导体(上海)有限公司 图像编码方法和装置
CN101867799B (zh) * 2009-04-17 2011-11-16 北京大学 一种视频帧处理方法和视频编码器
US20100295957A1 (en) * 2009-05-19 2010-11-25 Sony Ericsson Mobile Communications Ab Method of capturing digital images and image capturing apparatus
US10375287B2 (en) * 2009-10-21 2019-08-06 Disney Enterprises, Inc. Object trail-based analysis and control of video
US20110158310A1 (en) * 2009-12-30 2011-06-30 Nvidia Corporation Decoding data using lookup tables
CN102118617A (zh) * 2011-03-22 2011-07-06 成都市华为赛门铁克科技有限公司 运动搜索方法和装置
WO2013147756A1 (en) * 2012-03-28 2013-10-03 Intel Corporation Content aware selective adjusting of motion estimation
WO2014094216A1 (en) * 2012-12-18 2014-06-26 Intel Corporation Multiple region video conference encoding
GB2514540B (en) * 2013-04-10 2020-01-08 Microsoft Technology Licensing Llc Resource for encoding a video signal
GB201312382D0 (en) 2013-07-10 2013-08-21 Microsoft Corp Region-of-interest aware video coding
JP2017103744A (ja) * 2015-12-04 2017-06-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像復号方法、画像符号化方法、画像復号装置、画像符号化装置、及び画像符号化復号装置
WO2018012366A1 (ja) * 2016-07-13 2018-01-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 復号装置、符号化装置、復号方法及び符号化方法
US11166080B2 (en) 2017-12-21 2021-11-02 Facebook, Inc. Systems and methods for presenting content
CN109324778B (zh) * 2018-12-04 2020-03-27 深圳市华星光电半导体显示技术有限公司 补偿表压缩方法
EP3811626B1 (en) * 2019-08-16 2022-12-07 Google LLC Face-based frame packing for video calls

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940011605B1 (ko) * 1991-12-20 1994-12-22 삼성전자 주식회사 고정비트율 설정에 의한 영상압축방식
US5852669A (en) * 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US6456655B1 (en) * 1994-09-30 2002-09-24 Canon Kabushiki Kaisha Image encoding using activity discrimination and color detection to control quantizing characteristics
JP3258840B2 (ja) * 1994-12-27 2002-02-18 シャープ株式会社 動画像符号化装置および領域抽出装置
US5764803A (en) * 1996-04-03 1998-06-09 Lucent Technologies Inc. Motion-adaptive modelling of scene content for very low bit rate model-assisted coding of video sequences
WO1999023600A1 (en) * 1997-11-04 1999-05-14 The Trustees Of Columbia University In The City Of New York Video signal face region detection
US6496607B1 (en) * 1998-06-26 2002-12-17 Sarnoff Corporation Method and apparatus for region-based allocation of processing resources and control of input image formation
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP4208315B2 (ja) * 1998-12-25 2009-01-14 キヤノン株式会社 データ通信制御装置及びその制御方法、データ通信システム、記録媒体
JP2004534287A (ja) * 2000-09-27 2004-11-11 デビッド エヌ レヴィン 感知状態の組織的変化時における不変の刺激表現創出のための自己指示の方法及び装置
US6944346B2 (en) * 2002-05-28 2005-09-13 Koninklijke Philips Electronics N.V. Efficiency FGST framework employing higher quality reference frames

Also Published As

Publication number Publication date
CN1522073A (zh) 2004-08-18
US20040158719A1 (en) 2004-08-12
EP1453321A2 (en) 2004-09-01
JP2004248285A (ja) 2004-09-02
CN1225914C (zh) 2005-11-02
KR20040072259A (ko) 2004-08-18
EP1453321A3 (en) 2006-12-06

Similar Documents

Publication Publication Date Title
KR100539923B1 (ko) 화상통화시 화자의 영상을 구분하여 차등적 부호화할 수있는 비디오 엔코더 및 이를 이용한 비디오신호의 압축방법
JP3133517B2 (ja) 画像領域検出装置、該画像検出装置を用いた画像符号化装置
JPH04196976A (ja) 画像符号化装置
EP0984634A2 (en) Moving picture coding apparatus
WO2006099082A2 (en) Content adaptive multimedia processing
KR20110045026A (ko) 압축 도메인에서 유사성 메트릭에 기초한 비디오 코딩의 지능형 프레임 스키핑
US20030161402A1 (en) Motion wake identification and control mechanism
WO1999016012A1 (en) Compression encoder bit allocation utilizing colormetric-adaptive weighting as in flesh-tone weighting
KR20050089838A (ko) 선택된 매크로블록에 대한 스킵 모션 추정으로 비디오인코딩하는 방법
JP2004080786A (ja) 離散コサイン変換係数を参照する動き推定方法及び装置
KR100229796B1 (ko) 열화영상에 대한 보상기능을 갖는 영상 복호화 시스템
JP2007134755A (ja) 動画像符号化装置及び画像記録再生装置
US7236529B2 (en) Methods and systems for video transcoding in DCT domain with low complexity
US20060146932A1 (en) Method and apparatus for providing motion estimation with weight prediction
KR100770873B1 (ko) 영상 부호화시 비트율 제어 방법 및 장치
KR20020066498A (ko) 동영상 부호화 장치 및 방법
KR100586103B1 (ko) 동영상 부호화 방법
JPH0984024A (ja) 動画像信号の符号化装置
KR20090037288A (ko) 동영상 부호화 데이터율 제어를 위한 실시간 장면 전환검출 방법, 이를 이용한 영상통화 품질 향상 방법, 및영상통화 시스템
Yu et al. Half-pixel motion estimation bypass based on a linear model
KR100778473B1 (ko) 비트율 제어 방법
JPH0646411A (ja) 画像符号化装置
KR0124162B1 (ko) 예측 부호화 방법
Balaji et al. Fast intra mode prediction for HEVC based on distortion variance
US20070025440A1 (en) Video encoding method and device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081107

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee