KR20050041008A - 동화상 송수신장치 - Google Patents

동화상 송수신장치 Download PDF

Info

Publication number
KR20050041008A
KR20050041008A KR1020030075869A KR20030075869A KR20050041008A KR 20050041008 A KR20050041008 A KR 20050041008A KR 1020030075869 A KR1020030075869 A KR 1020030075869A KR 20030075869 A KR20030075869 A KR 20030075869A KR 20050041008 A KR20050041008 A KR 20050041008A
Authority
KR
South Korea
Prior art keywords
face
moving picture
tracking
control processor
transmitting
Prior art date
Application number
KR1020030075869A
Other languages
English (en)
Other versions
KR100602048B1 (ko
Inventor
박주현
이재범
Original Assignee
정보통신연구진흥원
(주)마무리안디자인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정보통신연구진흥원, (주)마무리안디자인 filed Critical 정보통신연구진흥원
Priority to KR1020030075869A priority Critical patent/KR100602048B1/ko
Publication of KR20050041008A publication Critical patent/KR20050041008A/ko
Application granted granted Critical
Publication of KR100602048B1 publication Critical patent/KR100602048B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type

Landscapes

  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 하드웨어적으로 얼굴을 트레킹함으로써 전력소모를 최소화하도록 한 얼굴트레킹 동화상 송수신장치를 제공한다.
상기 목적을 위하여 본 발명에는 멀티미디어 하드웨어를 이용하여 동화상을 전송시키는 동화상 송수신 장치에 있어서: 상기 멀티미디어 하드웨어는 콘트롤 프로세서; 상기 콘트롤 프로세서에 연결되어 압축시나 복원시에는 움직임을 추정하지만 얼굴 트레킹시에는 얼굴의 타원을 추적하는 모션 에스티메이션부; 상기 콘트롤 프로세서에 연결되어 압축시나 복원시에는 이산/ 역이산 코사인 변환을 수행하지만 얼굴 트레킹시에는 페이스 세부구조를 찾아주는 기능을 수행하는 이산/역이산 코사인 변환부를 포함하는 기술구성이 개시된다.

Description

동화상 송수신장치{Apparatus for receiving and transmitting of video frame}
본 발명은 휴대폰과 같이 중요도를 갖는 얼굴을 중심으로 화상을 전송하고자 하는 경우의 동화상 송수신장치에 관한 것으로, 더욱 상세하게는 하드웨어적으로 얼굴을 트레킹함으로써 전력소모를 최소화하도록 한 동화상 송수신장치에 관한 것이다.
휴대폰과 같이 상대방의 얼굴을 보면서 대화하기 위한 동영상 전송방법에서는 배경화면과 얼굴은 중요도를 달리 하기 때문에 얼굴을 우선 트레킹하고, 나머지 배경에 대하여는 화질을 떨어뜨려 전송하게 된다. 이와 같이 동일압축률에서 중요한 얼굴에 대한 영상품질을 높이기 위하여 수행되는 얼굴트레킹을 순수한 소프트웨어 알고리즘으로 수행하게되면 리얼타임제한에 의하여 맞추기 힘들 뿐만 아니라 전력소모가 크게 된다.
본 발명은 상기의 문제점을 해결하기 위한 것으로, 본원의 목적은 현재 일반적으로 사용되는 멀티미디어의 구성하드웨어를 효율적으로 사용하여 얼굴트레킹 알고리즘을 구현함으로써 리얼타임에 적합하게 신속히 트레킹이 이루어질 수 있도록 함으로써 밧데리 소모가 작고 신속한 전송이 이루어질 수 있도록 하기 위한 동화상 송수신장치를 제공한다.
본 발명의 다른 문제점은 휴대폰과 같이 얼굴의 화상품질이 중요한 동화상 전송에서 얼굴을 중심으로한 화상품질을 높이도록 하기 위한 동화상 송수신장치를 제공한다.
상기 목적을 달성하기 위하여 본 발명에는 멀티미디어 하드웨어를 이용하여 동화상을 전송시키는 동화상 송수신 장치에 있어서: 상기 멀티미디어 하드웨어는 콘트롤 프로세서; 상기 콘트롤 프로세서에 연결되어 압축시나 복원시에는 움직임을 추정하지만 얼굴 트레킹시에는 얼굴의 타원을 추적하는 모션 에스티메이션부; 상기 콘트롤 프로세서에 연결되어 압축시나 복원시에는 이산/ 역이산 코사인 변환을 수행하지만 얼굴 트레킹시에는 페이스 세부구조를 찾아주는 기능을 수행하는 이산/역이산 코사인 변환부를 포함하는 것이다.
또한 본 발명에서 상기 이산/역이산 코사인 변환부는 4×4 matrix를 입력 4-tuple 벡터와 곱을 수행하는 유니트인 것이 바람직하다.
이하, 첨부된 도면에 따라서 본원의 일실시예를 상세히 기술하기로 한다.
도 1은 본 발명의 일실시예를 구현하기 위한 MPEG-4 ASIC 칩의 회로블럭도이다.
MPEG-4 ASIC 칩은 콘트롤 프로세서(control processor)와 콘트롤 프로세스(control processor)에 의하여 제어되는 메모리 콘트롤러(Memory controller)와 호스트 인터페이스(Host IF), 직렬 인터페이스(Serial I/F), 오디오 인터페이스(Audio I/F), 비디오 입출력부(Video I/O)가 연결되며, 움직임 추정부(ME: Motion Estimation), VLE, 이산 코사인 변환부(DCT: Discrete cosine transform), 가변장 디코딩부(VLD:Variable Length Decoding)로 이루어진다.
이때, ME는 코릴레이터(상관관계연산자)로서 압축할 때는 현재의 매크로 블록에 대하여 가장 유사한 블록을 이전의 프레임으로부터 찾는 움직임을 추정하는 역할을 하지만 페이스 트레킹을 수행하는 경우에 페이스 타원을 찾아주거나 페이스 세부 구조를 찾아준다. 또한, 이산/역이산 코사인변환부는 메트릭스- 벡터의 곱을 연산하는 내적 연산자로서 먼저 얼굴을 찾기전에 전처리 필터링을 수행한다. DCT나 IDCT는 4×4 matrix를 입력 4-tuple 벡터와 곱을 하는 unit을 통하여 구현할 수 있다. 즉,
의 관계가 있으며, 여기서
이다.
블록 필터링의 이론에 따르면 4차 텝의 linear filtering {h(0), h(1), h(2), h(3)}의 결과를 매트릭스로 표현해본다면,
의 관계가 있으며, 여기서 x는 입력, y는 출력을 나타낸다
얼굴을 찾기 이전에 먼저 입력 영상을 에지-바이너리 영상으로 만드는데 여기서 필터링을 해야한다. 일반적으로 입력 영상내에 있는 오브젝트들의 가장자리신호를 찾아내기위해서는 영상을 하이페스 필터링을 한다음 특정한 값 대역을 1로 치환하고 나머지 부분은 0으로 대치한다. 밝기 변화가 심한 에지 부분이 1로 치환되므로, 에지-바이너리 영상을 만들수 있다. 제일 많이 쓰는 하이페스 필터링 중의 하나는 Sobel이다.
도 2는 본 발명의 일실시예에서 Sobel을 적용하는 회로 블록도를 나타낸다.
Sobel은 3차원 이므로 각 방향으로 {-1, 0, 1}과 {-2, 0, 2}가 되는 3차텝 하이페스 필터라고 생각할수 있다. 각 방향으로의 필터링한 값들을 더하는 것이므로, 전 구절에서 설명한 블락 필터링을 이용하여 계산 할수 있다즉, DCT 블락의 계수만을 필터 계수로 바꾸어 동일한 DCT 블락을 사용하여 하이페스 필터링을 시킬수 있다
얼굴을 찾는 알고리듬은 2가지의 써브 알고리듬으로 구성되어있다. 첫째는 얼굴의 윤곽을 찾는 Ellipse Location 알고리듬, 그리고 둘째는 일단 찾은 타원 속에서 눈코입을 다시 찾는 Eyes-nose-mouth Location 알고리듬이다
먼저 도 2에서 도시된 바와 같이, 들어온 이미지를 바이너리 에지-이미지로 만드는 과정이 필요하다. 나중에 바이너리로 만든 이미지는 써치 윈도우로 ME 엔진 속으로 들어가야 하므로 먼저 그 크기를 조정해야한다. 이때 ME 엔진은 31×31 크기의 써치 윈도우 싸이즈를 가지고 있다. 이를 고려한 적절한 downsampling facotr 은 QCIF싸이즈의 경우 5, CIF싸이즈의 경우 10이다. 일단 다운샘플이 끝난 다음, Sobel 오퍼레이터를 통과한 후 바이너리 디시즌을 한다. 바이너리 디시즌이 끝이난 데이터는 ME의 써치 윈도우로 가져가게 된다. 이러한 연산 과정에서 2 군데서 리니어 필터링이 필요한데(다운샘플 프리필터, Sobel 오퍼레이션), 이것은 4×4의 메트릭스를 통한 블락 필터링으로 해결할 수있다. 따라서, DCT 엔진 부분을 re-use함에 의해서 이부분을 해결할 수 있다. DCT는 정의에 의해서 8×8 메트릭스-곱의 연산을 의미함으로, 우리는 이부분 중 4×4 메트릭스-곱 한 파트를 사용한다.
일단 바이너리 에지-이미지가 구해진후 ME 엔진을 이용하여 도 3의 과정을 거쳐서, 최대로 유사한 (코릴레이션이 높은) 패턴을 선택한다. 도 3에 나타난 바와 같이, 바이너리 에지-이미지는 각 픽셀의 값이 0 아니면 255이다. 이 이미지는 전체 그림에서 에지의 데이터를 찾아내기 때문에 문틀이라든지, 콤퓨터/사람의 머리 윤곽등이 결과로써 나오게된다. 그 위에서 제일 타원에 유사한 페턴을 찾아내자는게 본 부분의 목적이다. ME 엔진은 결과로써 제일 유사한 페턴이 있는 곳의 포인트를 리턴한다 (모션벡터). 그러므로, 타원과 제일 비슷한 페턴이 어디에 있는지를 알게된다.
연산의 간편함을 위해서, 어떤 각도로도 기울지 않는 그림과 같은 4개 패턴의 타원 템틀릿을 레프런스 블락으로 사용한다. 또 크기가 다른 4가지의 타원 형태를 사용한다. 그 이유는, 얼굴이 주어진 화면에서 작은 포션을 차지할 수도 있고 (상대적으로 멀리 있는 경우), 주어진 화면에서 큰 포션을 차지할 수도 있기 때문이다 (상대적으로 가까운 경우).
일단 얼굴의 위치를 찾았으면 얼굴 내부의 눈-코-입 부분을 찾는 다음 단계의 처리를 한다. 눈-코-입을 찾기위해서 사용되는 이미지는 원 이미지를 바이너리화한 후에 morphological erosion 연산을 한다. 이 연산은 일반적으로 구멍이 있으면 구멍을 더 크고 선명하게 만들고 작은점은 그것을 완전히 없애버리는 역할을 한다. 일반적으로 눈과 코, 입 부분의 바이너리 이미지는 그것의 구조가 독특하게 형성된다. 눈은 코나 입을 중심으로 대칭적이며, 눈의 위치는 감정에 따른 인상이나 표정에 상관없이 없이 변하지 않는다. 도 4에서 도시된 바와 같이, 그런 특징은 3 가지 레프런스 페턴에 의하여 잡아낼 수있다. 말하는 얼굴은 약간 각도를 가지고 표현될 수 있어서, 이 알고리듬에서 -5°, 0°, 5°의 3 가지 각도의 템플릿을 사용하여 최고로 상관도를 가진 패턴을 찾아낸다. 결과에 따라서, 얼굴이 기울어졌는지 아닌지를 결정할 수 있고, 타원 내부에서의 정확한 눈-코-입의 위치도 아울러 결정할 수 있다.
얼굴이 기울어졌는지 아닌지를 결정할 수 있고, 타원 내부에서의 정확한 눈-코-입의 위치도 아울러 결정할 수 있다. 주의할 것은 실제 레프런스 블락을 만들때, 도 5 에서 처럼, 각 픽셀마다 다른 weighting을 주어서 템플릿을 변형시킨다 그 이유는 도 5 에서의 전형적인 바이너리 에지-이미지처럼 눈-코-입 부분의 데이터가 원하는 패턴처럼 나오지 않거나, 모폴로지칼 오퍼레이션을 한 후에 데이터의 일부분이 손실되거나 하는 경우가 많기 때문이다. 픽셀 weighting은 패턴중 어느 부분을 더욱 더 고려하여 패턴을 찾을것인가를 결정하는 역할을 한다. 예를 들어서 눈 부근을 더욱 고려하고 싶다면, W0, W1, 그리고 W2 를 255로 주면 된다. 실험적으로 눈 부근이 입이나 코 부근 보다는 훨씬 상황에 따른 변화가 적다. 따라서 눈 부근의 고려가 더욱 더 되어야 좋은 결과를 얻는다.
상기의 구성과 목적을 갖는 본 발명에 따르면, 얼굴 트레킹을 수행하기 위하여 종래의 멀티미디어 하드웨어를 변형함으로써 알고리즘을 신속히 수행하도록 하여 동화상을 리얼타임으로 전송시키고, 밧데리소모를 최소화시킨다.
도 1은 본 발명의 일실시예를 구현하기 위한 MPEG-4 ASIC 칩의 회로블럭도이다.
도 2는 본 발명의 일실시예에서 sobel을 적용한 회로블록도이다.
도 3은 본 발명의 일실시예에서 레퍼런스 블록을 설명하기 위한 블록도이다.
도 4는 본 발명의 일실시예에서 서로 다른에서의 레퍼런스 블록을 설명하기 위한 블록도이다.
도 5는 본 발명의 일실시예에서 픽셀에 웨이팅을 부여한 경우에 이미지의 예를 나타난 도면이다.

Claims (2)

  1. 멀티미디어 하드웨어를 이용하여 동화상을 전송시키는 동화상 송수신 장치에 있어서:
    상기 멀티미디어 하드웨어는
    콘트롤 프로세서;
    상기 콘트롤 프로세서에 연결되어 압축시나 복원시에는 움직임을 추정하지만 얼굴 트레킹시에는 얼굴의 타원을 추적하는 모션 에스티메이션부;
    상기 콘트롤 프로세서에 연결되어 압축시나 복원시에는 이산/ 역이산 코사인 변환을 수행하지만 얼굴 트레킹시에는 페이스 세부구조를 찾아주는 기능을 수행하는 이산/역이산 코사인 변환부를 포함하는 것을 특징으로 하는 동화상 송수신장치.
  2. 제 1 항에 있어서, 이산/역이산 코사인 변환부는 4×4 matrix를 입력 4-tuple 벡터와 곱을 수행하는 유니트인 것을 특징으로 하는 동화상 송수신장치.
KR1020030075869A 2003-10-29 2003-10-29 동화상 송수신장치 KR100602048B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030075869A KR100602048B1 (ko) 2003-10-29 2003-10-29 동화상 송수신장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030075869A KR100602048B1 (ko) 2003-10-29 2003-10-29 동화상 송수신장치

Publications (2)

Publication Number Publication Date
KR20050041008A true KR20050041008A (ko) 2005-05-04
KR100602048B1 KR100602048B1 (ko) 2006-07-19

Family

ID=37242550

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030075869A KR100602048B1 (ko) 2003-10-29 2003-10-29 동화상 송수신장치

Country Status (1)

Country Link
KR (1) KR100602048B1 (ko)

Also Published As

Publication number Publication date
KR100602048B1 (ko) 2006-07-19

Similar Documents

Publication Publication Date Title
JP2920209B2 (ja) 動画像の符号化によるブロック化現象除去方法
US5832115A (en) Ternary image templates for improved semantic compression
USRE45135E1 (en) Method of removing blocking artifacts in a coding system of a moving picture
JP5007228B2 (ja) 画像クリーンアップおよび前置符号化
EP1639829B1 (en) Optical flow estimation method
EP0666695A2 (en) Adaptive spatial-temporal postprocessing for low bit-rate coded image sequences
JP2009303236A (ja) 適応的画像安定
US6574374B1 (en) Enhancing image compression performance by morphological processing
US20050169537A1 (en) System and method for image background removal in mobile multi-media communications
Stoffels et al. Object‐oriented image analysis for very‐low‐bitrate video‐coding systems using the CNN universal machine
Naman et al. Inter-frame prediction using motion hints
CN111416937B (zh) 图像处理方法、装置、存储介质及移动设备
Rawat et al. Adaptive motion smoothening for video stabilization
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
Xia et al. Visual sensitivity-based low-bit-rate image compression algorithm
CN113810692B (zh) 对变化和移动进行分帧的方法、图像处理装置及程序产品
KR100602048B1 (ko) 동화상 송수신장치
CN115914834A (zh) 视频处理方法及装置
CN112567722B (zh) 用于处理含有噪声的视频序列中的数据的方法和装置
CN111684811B (zh) 用于有损图像压缩的形态学抗振铃滤波器
Peng et al. Integration of image stabilizer with video codec for digital video cameras
Nadernejad et al. Artifact reduction of compressed images and video combining adaptive fuzzy filtering and directional anisotropic diffusion
JP2663878B2 (ja) 人物動き領域検出装置
Peng et al. DSP implementation of digital image stabilizer
WO2023133888A1 (zh) 图像处理方法、装置、遥控设备、系统及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130610

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee