KR100602048B1 - 동화상 송수신장치 - Google Patents

동화상 송수신장치 Download PDF

Info

Publication number
KR100602048B1
KR100602048B1 KR1020030075869A KR20030075869A KR100602048B1 KR 100602048 B1 KR100602048 B1 KR 100602048B1 KR 1020030075869 A KR1020030075869 A KR 1020030075869A KR 20030075869 A KR20030075869 A KR 20030075869A KR 100602048 B1 KR100602048 B1 KR 100602048B1
Authority
KR
South Korea
Prior art keywords
face
image
eye
mouth
input data
Prior art date
Application number
KR1020030075869A
Other languages
English (en)
Other versions
KR20050041008A (ko
Inventor
박주현
이재범
Original Assignee
정보통신연구진흥원
(주)마무리안디자인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정보통신연구진흥원, (주)마무리안디자인 filed Critical 정보통신연구진흥원
Priority to KR1020030075869A priority Critical patent/KR100602048B1/ko
Publication of KR20050041008A publication Critical patent/KR20050041008A/ko
Application granted granted Critical
Publication of KR100602048B1 publication Critical patent/KR100602048B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type

Landscapes

  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 하드웨어적으로 얼굴을 트레킹함으로써 전력소모를 최소화하도록 한 얼굴트레킹 동화상 송수신장치를 제공한다.
상기 목적을 위하여 본 발명에는 콘트롤 프로세서, 상기 콘트롤 프로세서에 의하여 제어되며 입력된 데이터를 이산 코사인 변환(DCT: Discrete Cosine Transform)을 수행하는 DCT부, 움직임을 추적하는 모션 에스티메이션부(ME: Motion Estimation)를 포함하는 동화상 송수신 장치에 있어서: 상기 DCT부는 상기 입력된 데이터의 이산 코사인 변환을 수행하고, 상기 입력된 데이터를 필터링하여 바이너리 이미지를 출력하여 상기 모션 에스티메이션부로 입력시키고, 상기 모션 에스티메이션부는 입력되는 데이터의 움직임을 추적하고, 상기 바이너리 이미지로부터 얼굴 참조블락을 사용하여 얼굴이미지를 추출하며, 눈, 코, 입 참조블락을 사용하여 상기 추출된 얼굴이미지로부터 눈, 코, 입의 이미지를 추출하는 기술구성이 개시된다.
얼굴, 트래킹, 웨이팅,

Description

동화상 송수신장치{Apparatus for receiving and transmitting of video frame}
도 1은 본 발명의 일실시예를 구현하기 위한 MPEG-4 에직(ASIC) 칩의 회로블럭도이다.
도 2는 본 발명의 일실시예에서 소벨을 적용한 회로블록도이다.
도 3은 본 발명의 일실시예에서 참조 블록을 설명하기 위한 블록도이다.
도 4는 본 발명의 일실시예에서 다른 각도에서의 참조 템플레이트를 설명하기 위한 블록도이다.
도 5는 본 발명의 일실시예에서 픽셀에 가중치를 부여한 경우에 이미지의 예를 나타난 도면이다.
본 발명은 휴대폰과 같이 중요도를 갖는 얼굴을 중심으로 화상을 전송하고자 하는 경우의 동화상 송수신장치에 관한 것으로, 더욱 상세하게는 하드웨어적으로 얼굴을 트레킹함으로써 전력소모를 최소화하도록 한 동화상 송수신장치에 관한 것이다.
휴대폰과 같이 상대방의 얼굴을 보면서 대화하기 위한 동영상 전송방법에서는 배경화면과 얼굴은 중요도를 달리 하기 때문에 얼굴을 우선 트레킹하고, 나머지 배경에 대하여는 화질을 떨어뜨려 전송하게 된다. 이와 같이 동일압축률에서 중요한 얼굴에 대한 영상품질을 높이기 위하여 수행되는 얼굴트레킹을 순수한 소프트웨어 알고리즘으로 수행하게되면 리얼타임제한에 의하여 맞추기 힘들 뿐만 아니라 전력소모가 크게 된다.
본 발명은 상기의 문제점을 해결하기 위한 것으로, 본원의 목적은 현재 일반적으로 사용되는 멀티미디어의 구성하드웨어를 효율적으로 사용하여 얼굴트레킹 알고리즘을 구현함으로써 리얼타임에 적합하게 신속히 트레킹이 이루어질 수 있도록 함으로써 밧데리 소모가 작고 신속한 전송이 이루어질 수 있도록 하기 위한 동화상 송수신장치를 제공한다.
본 발명의 다른 문제점은 휴대폰과 같이 얼굴의 화상품질이 중요한 동화상 전송에서 얼굴을 중심으로한 화상품질을 높이도록 하기 위한 동화상 송수신장치를 제공한다.
상기 목적을 달성하기 위하여 본 발명에는 콘트롤 프로세서, 상기 콘트롤 프로세서에 의하여 제어되며 입력된 데이터를 이산 코사인 변환(DCT: Discrete Cosine Transform)을 수행하는 DCT부, 움직임을 추적하는 모션 에스티메이션부(ME: Motion Estimation)를 포함하는 동화상 송수신 장치에 있어서: 상기 DCT부는 상기 입력된 데이터의 이산 코사인 변환을 수행하고, 상기 입력된 데이터를 필터링하여 바이너리 이미지를 출력하여 상기 모션 에스티메이션부로 입력시키고, 상기 모션 에스티메이션부는 입력되는 데이터의 움직임을 추적하고, 상기 바이너리 이미지로부터 얼굴 참조블락을 사용하여 얼굴이미지를 추출하며, 눈, 코, 입 참조블락을 사용하여 상기 추출된 얼굴이미지로부터 눈, 코, 입의 이미지를 추출하는 것이다.
삭제
이하, 첨부된 도면에 따라서 본원의 일실시예를 상세히 기술하기로 한다.
도 1은 본 발명의 일실시예를 구현하기 위한 MPEG-4 에직(ASIC) 칩의 회로블럭도이다.
MPEG-4 에직(ASIC) 칩은 콘트롤 프로세서(control processor)와 콘트롤 프로세스(control processor)에 의하여 제어되는 메모리 콘트롤러(Memory controller)와 호스트 인터페이스(Host IF), 직렬 인터페이스(Serial I/F), 오디오 인터페이스(Audio I/F), 비디오 입출력부(Video I/O)가 연결되며, 움직임을 추적하는 모션 에스티메이션(ME: Motion Estimation)부, 가변장 인코딩부(VLE:Variable Length Encoding), 이산 코사인 변환부(DCT: Discrete cosine transform), 가변장 디코딩부(VLD:Variable Length Decoding)로 이루어진다.
이때, ME는 코릴레이터(상관관계연산자)로서 압축할 때는 현재의 매크로 블록에 대하여 가장 유사한 블록을 이전의 프레임으로부터 찾는 움직임을 추정하는 역할을 하지만 페이스 트레킹을 수행하는 경우에 페이스 타원을 찾아주거나 페이스 세부 구조를 찾아준다. 또한, 이산/역이산 코사인변환부는 메트릭스- 벡터의 곱을 연산하는 내적 연산자로서 먼저 얼굴을 찾기전에 전처리 필터링을 수행한다. DCT나 IDCT는 4×4 행렬(matrix)을 입력 4-쌍의 벡터와 곱을 하는 단위(unit)를 통하여 구현할 수 있다. 즉,
Figure 112003040629895-pat00001
Figure 112003040629895-pat00002
의 관계가 있으며, 여기서
Figure 112003040629895-pat00003
이다.
블록 필터링의 이론에 따르면 4차 텝의 선형 필터링(linear filtering) {h(0), h(1), h(2), h(3)}의 결과를 매트릭스로 표현해본다면,
Figure 112003040629895-pat00004
의 관계가 있으며, 여기서 x는 입력, y는 출력을 나타낸다
얼굴을 찾기 이전에 먼저 입력 영상을 에지-바이너리 영상으로 만드는데 여기서 필터링을 해야한다. 일반적으로 입력 영상내에 있는 오브젝트들의 가장자리신호를 찾아내기위해서는 영상을 하이페스 필터링을 한다음 특정한 값 대역을 1로 치환하고 나머지 부분은 0으로 대치한다. 밝기 변화가 심한 에지 부분이 1로 치환되므로, 에지-바이너리 영상을 만들수 있다. 제일 많이 쓰는 하이페스 필터링 중의 하나는 소벨(Sobel)이다.
도 2는 본 발명의 일실시예에서 소벨(Sobel)을 적용하는 회로 블록도를 나타낸다.
소벨(Sobel)은 3차원이므로 각 방향으로 {-1, 0, 1}과 {-2, 0, 2}가 되는 3차텝 하이패스 필터라고 생각할수 있다. 각 방향으로의 필터링한 값들을 더하는 것이므로, 전 구절에서 설명한 블락 필터링을 이용하여 계산 할수 있다. 즉, DCT 블락의 계수만을 필터 계수로 바꾸어 동일한 DCT 블락을 사용하여 하이패스 필터링을 시킬수 있다.
얼굴을 찾는 알고리듬은 2가지의 써브 알고리듬으로 구성되어있다. 첫째는 얼굴의 윤곽을 찾는 엘립스 로케이션(Ellipse Location) 알고리듬, 그리고 둘째는 일단 찾은 타원 속에서 눈코입을 다시 찾는 눈-코-입 로케이션(Eyes-nose-mouth Location) 알고리듬이다
먼저 도 2에서 도시된 바와 같이, 들어온 입력 이미지를 바이너리 에지-이미지로 만드는 과정이 필요하다. 나중에 바이너리로 만든 이미지는 써치 윈도우로 ME 엔진 속으로 들어가야 하므로 먼저 그 크기를 조정해야한다. 이때 ME 엔진은 31×31 크기의 써치 윈도우 싸이즈를 가지고 있다. 이를 고려한 적절한 다운샘플링 팩터(downsampling factor)는 QCIF싸이즈의 경우 5, CIF싸이즈의 경우 10이다. 일단 다운샘플이 끝난 다음, 소벨(Sobel) 오퍼레이터를 통과한 후 바이너리 디시즌을 한다. 바이너리 디시즌이 끝이난 데이터는 ME의 써치 윈도우로 가져가게 된다. 이러한 연산 과정에서 2 군데서 리니어 필터링이 필요한데(다운샘플 프리필터, 소벨 오퍼레이션), 이것은 4×4의 메트릭스를 통한 블락 필터링으로 해결할 수 있다. 따라서, DCT 엔진 부분을 재사용(re-use)함에 의해서 이부분을 해결할 수 있다. DCT는 정의에 의해서 8×8 메트릭스-곱의 연산을 의미함으로, 우리는 이부분 중 4×4 메트릭스-곱 한 파트를 사용한다.
일단 바이너리 에지-이미지가 구해진후 ME 엔진을 이용하여 도 3의 과정을 거쳐서, 최대로 유사한 (코릴레이션이 높은) 패턴을 선택한다. 도 3에 나타난 바와 같이, 바이너리 에지-이미지는 각 픽셀의 값이 0 아니면 255이다. 이 이미지는 전체 그림에서 에지의 데이터를 찾아내기 때문에 문틀이라든지, 콤퓨터/사람의 머리 윤곽등이 결과로써 나오게된다. 그 위에서 제일 타원에 유사한 패턴을 찾아내자는게 본 부분의 목적이다. ME 엔진은 참조 블록(reference block)과 비교하여 참조블록들과 제일 비슷한 패턴이 어디에 있는지를 알게된다.
연산의 간편함을 위해서, 어떤 각도로도 기울지 않는 도 3과 같은 4개 패턴의 타원 템플릿을 참조 블록으로 사용한다. 또 크기가 다른 4가지의 타원 형태를 사용한다. 그 이유는, 얼굴이 주어진 화면에서 작은 포션을 차지할 수도 있고 (상대적으로 멀리 있는 경우), 주어진 화면에서 큰 포션을 차지할 수도 있기 때문이다 (상대적으로 가까운 경우).
일단 얼굴의 위치를 찾았으면 얼굴 내부의 눈-코-입 부분을 찾는 다음 단계의 처리를 한다. 눈-코-입을 찾기위해서 사용되는 이미지는 원 이미지를 바이너리화한 후에 모폴로지컬 에로션(morphological erosion) 연산을 한다. 이 연산은 일반적으로 구멍이 있으면 구멍을 더 크고 선명하게 만들고 작은점은 그것을 완전히 없애버리는 역할을 한다. 일반적으로 눈과 코, 입 부분의 바이너리 이미지는 그것의 구조가 독특하게 형성된다. 눈은 코나 입을 중심으로 대칭적이며, 눈의 위치는 감정에 따른 인상이나 표정에 상관없이 없이 변하지 않는다. 도 4에서 도시된 바와 같이, 그런 특징은 3 가지 참조 패턴에 의하여 잡아낼 수 있다. 말하는 얼굴은 약간 각도를 가지고 표현될 수 있어서, 이 알고리듬에서 -5°, 0°, 5°의 3 가지 각도의 템플릿을 사용하여 최고로 상관도를 가진 패턴을 찾아낸다. 결과에 따라서, 얼굴이 기울어졌는지 아닌지를 결정할 수 있고, 타원 내부에서의 정확한 눈-코-입의 위치도 아울러 결정할 수 있다.
얼굴이 기울어졌는지 아닌지를 결정할 수 있고, 타원 내부에서의 정확한 눈-코-입의 위치도 아울러 결정할 수 있다. 주의할 것은 실제 참조 블록을 만들때, 도 5 에서 처럼, 각 픽셀마다 다른 가중치(weighting)를 주어서 템플릿을 변형시킨다 그 이유는 도 5 에서의 전형적인 바이너리 에지-이미지처럼 눈-코-입 부분의 데이터가 원하는 패턴처럼 나오지 않거나, 모폴로지칼 오퍼레이션을 한 후에 데이터의 일부분이 손실되거나 하는 경우가 많기 때문이다. 픽셀 가중치는 패턴중 어느 부분을 더욱 더 고려하여 패턴을 찾을 것인가를 결정하는 역할을 한다. 예를 들어서 눈 부근을 더욱 고려하고 싶다면, W0, W1, 그리고 W2 를 255로 주면 된다. 실험적으로 눈 부근이 입이나 코 부근 보다는 훨씬 상황에 따른 변화가 적다. 따라서 눈 부근의 고려가 더욱 더 되어야 좋은 결과를 얻는다.
상기의 구성과 목적을 갖는 본 발명에 따르면, 얼굴 트레킹을 수행하기 위하여 종래의 멀티미디어 하드웨어를 변형함으로써 알고리즘을 신속히 수행하도록 하여 동화상을 리얼타임으로 전송시키고, 밧데리소모를 최소화시킨다.

Claims (4)

  1. 콘트롤 프로세서, 상기 콘트롤 프로세서에 의하여 제어되며 입력된 데이터를 이산 코사인 변환(DCT: Discrete Cosine Transform)을 수행하는 DCT부, 움직임을 추적하는 모션 에스티메이션부(ME: Motion Estimation)를 포함하는 동화상 송수신 장치에 있어서:
    상기 DCT부는 상기 입력된 데이터의 이산 코사인 변환을 수행하고, 상기 입력된 데이터를 필터링하여 바이너리 이미지를 출력하여 상기 모션 에스티메이션부로 입력시키고,
    상기 모션 에스티메이션부는 입력되는 데이터의 움직임을 추적하고, 상기 바이너리 이미지로부터 얼굴 참조블락을 사용하여 얼굴이미지를 추출하며, 눈, 코, 입 참조블락을 사용하여 상기 추출된 얼굴이미지로부터 눈, 코, 입의 이미지를 추출하는 것을 특징으로 하는 동화상 송수신장치.
  2. 제 1 항에 있어서, 상기 DCT부는 이산 코사인 변환을 수행하는 8×8 행렬로 이루어지며, 바이너리 이미지를 추출하기 위하여 상기 8×8 행렬중 4 ×4 행렬을 이용하는 것을 특징으로 하는 동화상 송수신장치.
  3. 제 1 항에 있어서, 상기 얼굴 참조블락은 타원형의 크기가 서로 다른 템플 레이트들을 사용하여 상기 얼굴이 화면에서 차지하는 크기를 결정하도록 하는 것을 특징으로 하는 동화상 송수신 장치.
  4. 제 1 항에 있어서, 상기 눈, 코, 입 참조블락이 상기 얼굴 이미지에 연산될 때, 상기 눈에 가장 높은 가중치를 부여하는 것을 특징으로 하는 동화상 송수신 장치.
KR1020030075869A 2003-10-29 2003-10-29 동화상 송수신장치 KR100602048B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030075869A KR100602048B1 (ko) 2003-10-29 2003-10-29 동화상 송수신장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030075869A KR100602048B1 (ko) 2003-10-29 2003-10-29 동화상 송수신장치

Publications (2)

Publication Number Publication Date
KR20050041008A KR20050041008A (ko) 2005-05-04
KR100602048B1 true KR100602048B1 (ko) 2006-07-19

Family

ID=37242550

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030075869A KR100602048B1 (ko) 2003-10-29 2003-10-29 동화상 송수신장치

Country Status (1)

Country Link
KR (1) KR100602048B1 (ko)

Also Published As

Publication number Publication date
KR20050041008A (ko) 2005-05-04

Similar Documents

Publication Publication Date Title
US5832115A (en) Ternary image templates for improved semantic compression
US7167519B2 (en) Real-time video object generation for smart cameras
CA2827625C (en) Loop filtering by removing noise using weighted filtering of pixel values according to the similarity between values of target pixels and pixels in templates
EP1639829B1 (en) Optical flow estimation method
WO2007071172A1 (en) Auto-regressive method and filter for denoising images and videos
JPH07284107A (ja) 映像フレーム差を利用した映像信号伝送装置
Stoffels et al. Object‐oriented image analysis for very‐low‐bitrate video‐coding systems using the CNN universal machine
Hartung et al. Object-oriented H. 263 compatible video coding platform for conferencing applications
KR20130039698A (ko) 데이터 스트림에서 블록-단위로 예측 인코딩된 비디오 프레임의 블록의 돌출 값을 결정하기 위한 방법 및 디바이스
Lan et al. Exploiting non-local correlation via signal-dependent transform (SDT)
Naman et al. Inter-frame prediction using motion hints
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
KR100602048B1 (ko) 동화상 송수신장치
CN113810692B (zh) 对变化和移动进行分帧的方法、图像处理装置及程序产品
Paul Efficient video coding using optimal compression plane and background modelling
CN115914834A (zh) 视频处理方法及装置
Nadernejad et al. Artifact reduction of compressed images and video combining adaptive fuzzy filtering and directional anisotropic diffusion
Wige et al. Efficient coding of video sequences by non-local in-loop denoising of reference frames
WO2023133888A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
Peng et al. DSP implementation of digital image stabilizer
Yu et al. Neural texture transfer assisted video coding with adaptive up-sampling
WO2023133889A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质
Ammar et al. HEVC saliency map computation
Fu et al. Fast global motion estimation based on local motion segmentation
Hussain et al. A Hardware Model to Measure Motion Estimation with Bit Plane Matching Algorithm

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130610

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee