KR100602048B1

KR100602048B1 - 동화상 송수신장치

Info

Publication number: KR100602048B1
Application number: KR1020030075869A
Authority: KR
Inventors: 박주현; 이재범
Original assignee: 정보통신연구진흥원; (주)마무리안디자인
Priority date: 2003-10-29
Filing date: 2003-10-29
Publication date: 2006-07-19
Also published as: KR20050041008A

Abstract

본 발명은 하드웨어적으로 얼굴을 트레킹함으로써 전력소모를 최소화하도록 한 얼굴트레킹 동화상 송수신장치를 제공한다.

상기 목적을 위하여 본 발명에는 콘트롤 프로세서, 상기 콘트롤 프로세서에 의하여 제어되며 입력된 데이터를 이산 코사인 변환(DCT: Discrete Cosine Transform)을 수행하는 DCT부, 움직임을 추적하는 모션 에스티메이션부(ME: Motion Estimation)를 포함하는 동화상 송수신 장치에 있어서: 상기 DCT부는 상기 입력된 데이터의 이산 코사인 변환을 수행하고, 상기 입력된 데이터를 필터링하여 바이너리 이미지를 출력하여 상기 모션 에스티메이션부로 입력시키고, 상기 모션 에스티메이션부는 입력되는 데이터의 움직임을 추적하고, 상기 바이너리 이미지로부터 얼굴 참조블락을 사용하여 얼굴이미지를 추출하며, 눈, 코, 입 참조블락을 사용하여 상기 추출된 얼굴이미지로부터 눈, 코, 입의 이미지를 추출하는 기술구성이 개시된다.

얼굴, 트래킹, 웨이팅,

Description

동화상 송수신장치{Apparatus for receiving and transmitting of video frame}

도 1은 본 발명의 일실시예를 구현하기 위한 MPEG-4 에직(ASIC) 칩의 회로블럭도이다.

도 2는 본 발명의 일실시예에서 소벨을 적용한 회로블록도이다.

도 3은 본 발명의 일실시예에서 참조 블록을 설명하기 위한 블록도이다.

도 4는 본 발명의 일실시예에서 다른 각도에서의 참조 템플레이트를 설명하기 위한 블록도이다.

도 5는 본 발명의 일실시예에서 픽셀에 가중치를 부여한 경우에 이미지의 예를 나타난 도면이다.

본 발명은 휴대폰과 같이 중요도를 갖는 얼굴을 중심으로 화상을 전송하고자 하는 경우의 동화상 송수신장치에 관한 것으로, 더욱 상세하게는 하드웨어적으로 얼굴을 트레킹함으로써 전력소모를 최소화하도록 한 동화상 송수신장치에 관한 것이다.

휴대폰과 같이 상대방의 얼굴을 보면서 대화하기 위한 동영상 전송방법에서는 배경화면과 얼굴은 중요도를 달리 하기 때문에 얼굴을 우선 트레킹하고, 나머지 배경에 대하여는 화질을 떨어뜨려 전송하게 된다. 이와 같이 동일압축률에서 중요한 얼굴에 대한 영상품질을 높이기 위하여 수행되는 얼굴트레킹을 순수한 소프트웨어 알고리즘으로 수행하게되면 리얼타임제한에 의하여 맞추기 힘들 뿐만 아니라 전력소모가 크게 된다.

본 발명은 상기의 문제점을 해결하기 위한 것으로, 본원의 목적은 현재 일반적으로 사용되는 멀티미디어의 구성하드웨어를 효율적으로 사용하여 얼굴트레킹 알고리즘을 구현함으로써 리얼타임에 적합하게 신속히 트레킹이 이루어질 수 있도록 함으로써 밧데리 소모가 작고 신속한 전송이 이루어질 수 있도록 하기 위한 동화상 송수신장치를 제공한다.

본 발명의 다른 문제점은 휴대폰과 같이 얼굴의 화상품질이 중요한 동화상 전송에서 얼굴을 중심으로한 화상품질을 높이도록 하기 위한 동화상 송수신장치를 제공한다.

상기 목적을 달성하기 위하여 본 발명에는 콘트롤 프로세서, 상기 콘트롤 프로세서에 의하여 제어되며 입력된 데이터를 이산 코사인 변환(DCT: Discrete Cosine Transform)을 수행하는 DCT부, 움직임을 추적하는 모션 에스티메이션부(ME: Motion Estimation)를 포함하는 동화상 송수신 장치에 있어서: 상기 DCT부는 상기 입력된 데이터의 이산 코사인 변환을 수행하고, 상기 입력된 데이터를 필터링하여 바이너리 이미지를 출력하여 상기 모션 에스티메이션부로 입력시키고, 상기 모션 에스티메이션부는 입력되는 데이터의 움직임을 추적하고, 상기 바이너리 이미지로부터 얼굴 참조블락을 사용하여 얼굴이미지를 추출하며, 눈, 코, 입 참조블락을 사용하여 상기 추출된 얼굴이미지로부터 눈, 코, 입의 이미지를 추출하는 것이다.

삭제

이하, 첨부된 도면에 따라서 본원의 일실시예를 상세히 기술하기로 한다.

MPEG-4 에직(ASIC) 칩은 콘트롤 프로세서(control processor)와 콘트롤 프로세스(control processor)에 의하여 제어되는 메모리 콘트롤러(Memory controller)와 호스트 인터페이스(Host IF), 직렬 인터페이스(Serial I/F), 오디오 인터페이스(Audio I/F), 비디오 입출력부(Video I/O)가 연결되며, 움직임을 추적하는 모션 에스티메이션(ME: Motion Estimation)부, 가변장 인코딩부(VLE:Variable Length Encoding), 이산 코사인 변환부(DCT: Discrete cosine transform), 가변장 디코딩부(VLD:Variable Length Decoding)로 이루어진다.

이때, ME는 코릴레이터(상관관계연산자)로서 압축할 때는 현재의 매크로 블록에 대하여 가장 유사한 블록을 이전의 프레임으로부터 찾는 움직임을 추정하는 역할을 하지만 페이스 트레킹을 수행하는 경우에 페이스 타원을 찾아주거나 페이스 세부 구조를 찾아준다. 또한, 이산/역이산 코사인변환부는 메트릭스- 벡터의 곱을 연산하는 내적 연산자로서 먼저 얼굴을 찾기전에 전처리 필터링을 수행한다. DCT나 IDCT는 4×4 행렬(matrix)을 입력 4-쌍의 벡터와 곱을 하는 단위(unit)를 통하여 구현할 수 있다. 즉,

의 관계가 있으며, 여기서

이다.

블록 필터링의 이론에 따르면 4차 텝의 선형 필터링(linear filtering) {h(0), h(1), h(2), h(3)}의 결과를 매트릭스로 표현해본다면,

의 관계가 있으며, 여기서 x는 입력, y는 출력을 나타낸다

얼굴을 찾기 이전에 먼저 입력 영상을 에지-바이너리 영상으로 만드는데 여기서 필터링을 해야한다. 일반적으로 입력 영상내에 있는 오브젝트들의 가장자리신호를 찾아내기위해서는 영상을 하이페스 필터링을 한다음 특정한 값 대역을 1로 치환하고 나머지 부분은 0으로 대치한다. 밝기 변화가 심한 에지 부분이 1로 치환되므로, 에지-바이너리 영상을 만들수 있다. 제일 많이 쓰는 하이페스 필터링 중의 하나는 소벨(Sobel)이다.

도 2는 본 발명의 일실시예에서 소벨(Sobel)을 적용하는 회로 블록도를 나타낸다.

소벨(Sobel)은 3차원이므로 각 방향으로 {-1, 0, 1}과 {-2, 0, 2}가 되는 3차텝 하이패스 필터라고 생각할수 있다. 각 방향으로의 필터링한 값들을 더하는 것이므로, 전 구절에서 설명한 블락 필터링을 이용하여 계산 할수 있다. 즉, DCT 블락의 계수만을 필터 계수로 바꾸어 동일한 DCT 블락을 사용하여 하이패스 필터링을 시킬수 있다.

얼굴을 찾는 알고리듬은 2가지의 써브 알고리듬으로 구성되어있다. 첫째는 얼굴의 윤곽을 찾는 엘립스 로케이션(Ellipse Location) 알고리듬, 그리고 둘째는 일단 찾은 타원 속에서 눈코입을 다시 찾는 눈-코-입 로케이션(Eyes-nose-mouth Location) 알고리듬이다

먼저 도 2에서 도시된 바와 같이, 들어온 입력 이미지를 바이너리 에지-이미지로 만드는 과정이 필요하다. 나중에 바이너리로 만든 이미지는 써치 윈도우로 ME 엔진 속으로 들어가야 하므로 먼저 그 크기를 조정해야한다. 이때 ME 엔진은 31×31 크기의 써치 윈도우 싸이즈를 가지고 있다. 이를 고려한 적절한 다운샘플링 팩터(downsampling factor)는 QCIF싸이즈의 경우 5, CIF싸이즈의 경우 10이다. 일단 다운샘플이 끝난 다음, 소벨(Sobel) 오퍼레이터를 통과한 후 바이너리 디시즌을 한다. 바이너리 디시즌이 끝이난 데이터는 ME의 써치 윈도우로 가져가게 된다. 이러한 연산 과정에서 2 군데서 리니어 필터링이 필요한데(다운샘플 프리필터, 소벨 오퍼레이션), 이것은 4×4의 메트릭스를 통한 블락 필터링으로 해결할 수 있다. 따라서, DCT 엔진 부분을 재사용(re-use)함에 의해서 이부분을 해결할 수 있다. DCT는 정의에 의해서 8×8 메트릭스-곱의 연산을 의미함으로, 우리는 이부분 중 4×4 메트릭스-곱 한 파트를 사용한다.

일단 바이너리 에지-이미지가 구해진후 ME 엔진을 이용하여 도 3의 과정을 거쳐서, 최대로 유사한 (코릴레이션이 높은) 패턴을 선택한다. 도 3에 나타난 바와 같이, 바이너리 에지-이미지는 각 픽셀의 값이 0 아니면 255이다. 이 이미지는 전체 그림에서 에지의 데이터를 찾아내기 때문에 문틀이라든지, 콤퓨터/사람의 머리 윤곽등이 결과로써 나오게된다. 그 위에서 제일 타원에 유사한 패턴을 찾아내자는게 본 부분의 목적이다. ME 엔진은 참조 블록(reference block)과 비교하여 참조블록들과 제일 비슷한 패턴이 어디에 있는지를 알게된다.

연산의 간편함을 위해서, 어떤 각도로도 기울지 않는 도 3과 같은 4개 패턴의 타원 템플릿을 참조 블록으로 사용한다. 또 크기가 다른 4가지의 타원 형태를 사용한다. 그 이유는, 얼굴이 주어진 화면에서 작은 포션을 차지할 수도 있고 (상대적으로 멀리 있는 경우), 주어진 화면에서 큰 포션을 차지할 수도 있기 때문이다 (상대적으로 가까운 경우).

일단 얼굴의 위치를 찾았으면 얼굴 내부의 눈-코-입 부분을 찾는 다음 단계의 처리를 한다. 눈-코-입을 찾기위해서 사용되는 이미지는 원 이미지를 바이너리화한 후에 모폴로지컬 에로션(morphological erosion) 연산을 한다. 이 연산은 일반적으로 구멍이 있으면 구멍을 더 크고 선명하게 만들고 작은점은 그것을 완전히 없애버리는 역할을 한다. 일반적으로 눈과 코, 입 부분의 바이너리 이미지는 그것의 구조가 독특하게 형성된다. 눈은 코나 입을 중심으로 대칭적이며, 눈의 위치는 감정에 따른 인상이나 표정에 상관없이 없이 변하지 않는다. 도 4에서 도시된 바와 같이, 그런 특징은 3 가지 참조 패턴에 의하여 잡아낼 수 있다. 말하는 얼굴은 약간 각도를 가지고 표현될 수 있어서, 이 알고리듬에서 -5°, 0°, 5°의 3 가지 각도의 템플릿을 사용하여 최고로 상관도를 가진 패턴을 찾아낸다. 결과에 따라서, 얼굴이 기울어졌는지 아닌지를 결정할 수 있고, 타원 내부에서의 정확한 눈-코-입의 위치도 아울러 결정할 수 있다.

얼굴이 기울어졌는지 아닌지를 결정할 수 있고, 타원 내부에서의 정확한 눈-코-입의 위치도 아울러 결정할 수 있다. 주의할 것은 실제 참조 블록을 만들때, 도 5 에서 처럼, 각 픽셀마다 다른 가중치(weighting)를 주어서 템플릿을 변형시킨다 그 이유는 도 5 에서의 전형적인 바이너리 에지-이미지처럼 눈-코-입 부분의 데이터가 원하는 패턴처럼 나오지 않거나, 모폴로지칼 오퍼레이션을 한 후에 데이터의 일부분이 손실되거나 하는 경우가 많기 때문이다. 픽셀 가중치는 패턴중 어느 부분을 더욱 더 고려하여 패턴을 찾을 것인가를 결정하는 역할을 한다. 예를 들어서 눈 부근을 더욱 고려하고 싶다면, Ｗ₀, Ｗ₁, 그리고 Ｗ₂ 를 255로 주면 된다. 실험적으로 눈 부근이 입이나 코 부근 보다는 훨씬 상황에 따른 변화가 적다. 따라서 눈 부근의 고려가 더욱 더 되어야 좋은 결과를 얻는다.

상기의 구성과 목적을 갖는 본 발명에 따르면, 얼굴 트레킹을 수행하기 위하여 종래의 멀티미디어 하드웨어를 변형함으로써 알고리즘을 신속히 수행하도록 하여 동화상을 리얼타임으로 전송시키고, 밧데리소모를 최소화시킨다.

Claims

콘트롤 프로세서, 상기 콘트롤 프로세서에 의하여 제어되며 입력된 데이터를 이산 코사인 변환(DCT: Discrete Cosine Transform)을 수행하는 DCT부, 움직임을 추적하는 모션 에스티메이션부(ME: Motion Estimation)를 포함하는 동화상 송수신 장치에 있어서:

상기 DCT부는 상기 입력된 데이터의 이산 코사인 변환을 수행하고, 상기 입력된 데이터를 필터링하여 바이너리 이미지를 출력하여 상기 모션 에스티메이션부로 입력시키고,

상기 모션 에스티메이션부는 입력되는 데이터의 움직임을 추적하고, 상기 바이너리 이미지로부터 얼굴 참조블락을 사용하여 얼굴이미지를 추출하며, 눈, 코, 입 참조블락을 사용하여 상기 추출된 얼굴이미지로부터 눈, 코, 입의 이미지를 추출하는 것을 특징으로 하는 동화상 송수신장치.
제 1 항에 있어서, 상기 DCT부는 이산 코사인 변환을 수행하는 8×8 행렬로 이루어지며, 바이너리 이미지를 추출하기 위하여 상기 8×8 행렬중 4 ×4 행렬을 이용하는 것을 특징으로 하는 동화상 송수신장치.
제 1 항에 있어서, 상기 얼굴 참조블락은 타원형의 크기가 서로 다른 템플 레이트들을 사용하여 상기 얼굴이 화면에서 차지하는 크기를 결정하도록 하는 것을 특징으로 하는 동화상 송수신 장치.
제 1 항에 있어서, 상기 눈, 코, 입 참조블락이 상기 얼굴 이미지에 연산될 때, 상기 눈에 가장 높은 가중치를 부여하는 것을 특징으로 하는 동화상 송수신 장치.