KR20070000744A

KR20070000744A - 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을가지는 영상 전화기 및 그 방법

Info

Publication number: KR20070000744A
Application number: KR1020050056320A
Authority: KR
Inventors: 서상용; 이상수; 김진한
Original assignee: 주식회사 케이티
Priority date: 2005-06-28
Filing date: 2005-06-28
Publication date: 2007-01-03

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 영상 통화가 가능한 영상 전화기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조(삽입 등)함으로써, 영상통화 시 사용자의 사생활을 보호하기 위한 영상 전화기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 영상 전화기에 있어서, 외부의 피사체를 촬상하여 영상통화 이미지를 입력하기 위한 통화영상 입력 수단; 상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조하기 위한 배경 변조 수단; 상기 배경 변조 수단에서 변조한 영상통화 이미지를 인코딩하여 소정 포맷으로 압축하고, 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제하여 디코딩하기 위한 코딩/디코딩 수단; 동영상 통화 모드 요구에 따라 상기 코딩/디코딩 수단을 제어하여 상기 상대방 단말 기 측으로부터 수신한 영상통화 이미지의 압축을 해제한 후 디코딩시키고, 상기 배경 변조 수단에서 변조한 영상통화 이미지를 상기 코딩/디코딩 수단을 제어하여 인코딩시킨 후 소정 포맷으로 압축하여 상기 상대방 단말기 측으로 송신시키기 위한 제어 수단; 및 상기 제어 수단의 제어에 따라 상기 코딩/디코딩 수단으로부터의 영상통화 이미지를 디스플레이하기 위한 표시 수단을 포함함.

4. 발명의 중요한 용도

본 발명은 유.무선 영상 전화기 등에 이용됨.

영상 전화, 배경 변조, 영역 분할, 화자 영역 추출, 영역 이득 계산, 영역 상태 결정, 매스크 이미지, 사생활 보호

Description

화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기 및 그 방법{Video phone having background transformation function using mask image and its method}

도 1은 종래의 무선통신 단말기에서의 배경 이미지 분리 처리 방법에 대한 흐름도,

도 2는 도 1의 방법에 따른 배경 이미지 제거 및 삽입 과정을 설명하기 위한 일예시도,

도 3은 본 발명에 따른 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기의 일실시예 구성도,

도 4는 본 발명에 따른 화자 영역의 매스크 이미지를 이용한 배경 변조 방법에 대한 일실시예 흐름도이다.

* 도면의 주요 부분에 대한 부호의 설명

302 : 제어부 310 : 코덱부

322 : 배경 변조부 323 : 영역 분할부

324 : 화자 영역 추출부 3240 : 영역 이득 계산부

3242 : 영역 상태 결정부 3244 : 매스크 이미지 생성부

326 : 배경 이미지 변조부 328 : 통화영상 입력부

본 발명은 영상 통화가 가능한 영상 전화기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조함으로써, 영상통화 시 사용자의 사생활을 보호하기 위한 영상 전화기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

본 발명에서 영상 전화기는 무선 영상 전화기뿐만 아니라 유선 영상 전화기를 모두 포함한다. 이하의 일실시예에서는 무선 영상 전화기를 예로 들어 설명하나, 본 발명이 이에 한정되는 것이 아님을 미리 밝혀둔다.

영상 전화 시스템은 전화로 음성 서비스와 영상 서비스를 동시에 지원하여 상대를 보면서 통화를 할 수 있는 시스템이다. 90년대 중반부터 제안되어 이의 실현을 위한 많은 시스템이 제안되어 왔고, 유선통신뿐만 아니라 무선통신 시장에서의 그 활용성이 더욱 증가되고 있다. 특히, 3세대 및 4세대 이동통신 시스템이 상 용화를 준비하면서 가장 중점적으로 주목받는 기능 중의 하나가 바로 영상 통화 기능이며, 2003년 12월부터는 이의 시범 서비스가 시작되었다. 특히, 유선통신 분야에서는 전화선, ADSL(Asymmetric Digital Subscriber Line), 케이블 통신망과 같은 데이터 통신망의 발달과 더불어 데이터 통신 기반의 영상 전화 서비스가 확대되었다.

한편, IP(Internet Protocol) 텔레포니 시장확산, 광대역통합망(BcN) 시범서비스 등으로 IP 영상전화 서비스의 시장형성이 본격화되고 있는 가운데, 최근 이들 시장을 겨냥한 IP 영상 전화기 제품개발 경쟁이 치열해지고 있다. 특히, 기존에 영상 전화기 전문업체로 잘 알려진 "씨앤에스테크놀로지"와 "욱성전자" 등 국내 장비업체는 물론 시스코시스템즈, 어바이어, 노텔네트웍스 등 주요 네트워크 업체들도 기업용 시장을 겨냥한 중·고가의 영상 전화기 개발 일정을 제시하면서 시장에 합류할 움직임이다. 이들 장비업체들은 올해 기간통신업체들의 영상전화 서비스를 시작으로 개인용 시장은 물론 대기업, 금융권 등 기업용으로 영상 전화기 시장이 빠르게 확산될 것으로 전망하고, 신제품 출시와 함께 마케팅 공세를 강화하고 있다.

주요 통신서비스 업체들은 영상전화 서비스를 NGN(Next Generation Network) 서비스 초기에 킬러 애플리케이션 1순위로 꼽고 있다. 영상전화 서비스를 활성화시킴으로써, 기존에 음성중심의 통신 인프라를 멀티미디어 기반으로 전환하고 다양한 부가통신 서비스와도 연계가 가능하다는게 관련업계의 평가다. NGN 시범서비스를 통해 "KT"는 이미 지난해 하반기부터 영상전화 서비스를 NGN 킬러 애플리케이션으로 삼고, 현재 국내 모 벤처기업과 IP 영상 전화기 개발작업을 전개하고 있다.

IP 영상 전화기는 인터넷 네트워크를 기반으로 IP 음성 전화는 물론 전화기에 설치된 LCD(Liquid Crystal Display) 화면으로 상대방을 보거나 데이터 정보를 교환하면서 통화가 가능한 단말기로, 광대역통합망(BcN) 시대에 가장 핵심적인 킬러 애플리케이션으로 부상하고 있다.

그러나 이러한 유·무선 영상 전화 시스템의 확대에 있어서 중요한 걸림돌 중의 하나는 사생활 보호 문제이다. 영상 전화는 음성뿐만 아니라 통화 시의 배경 화면을 전송하기 때문에 가정의 모습이나 통화 당시의 주변 환경을 그대로 전송함으로써, 화자의 사생활이 침해될 여지가 상당하기 때문이다.

이에 따라, 홍콩의 "허치슨 텔레콤"은 영상 통신이 되는 휴대전화를 받기 직전에 배경 화면을 선택할 수 있는 배경변화 옵션기능을 개발 중이라고 밝혔다. 이 기술은 고객으로 하여금 원하는 배경을 미리 저장해 두고 통화시 원하는 배경을 삽입함으로써, 통화 시의 장소 노출을 꺼려하는 고객에게 유용한 서비스가 될 것이라고 밝혔다. 그러나 이 배경변환 옵션기능의 배경 화면은 고정 화상이기 때문에 사용의 제약이 존재한다. 휴대전화 LCD 화면의 동적인 배경을 처리하여 사용자가 원하는 자연스러운 배경의 대치가 아닌 미리 정해진 배경 화면으로의 단순 대치이다.

이러한 단점을 개선하기 위한 종래 기술을 도 1을 참조하여 설명하면 다음과 같다.

도 1은 종래의 무선통신 단말기에서의 배경 이미지 분리 처리 방법에 대한 흐름도로서, 배경 이미지 제거 및 의사 배경 이미지 삽입을 예로 들어 처리하는 과정을 나타내고 있다.

먼저, 무선통신 단말기의 제어부는 무선통신 단말기 간에 통화로가 형성되는 경우(10) 사용자로부터 동영상 통화 모드 요구가 있는지 여부를 검사한다(11). 이 때, 만일 사용자가 동영상 통화 서비스를 구현하기 위해 동영상 통화 모드키를 입력시키지 않는 경우 제어부는 일반 음성 통화를 위한 통상적인 동작을 수행한다(12). 이후, 제어부는 통화가 종료되는지 여부를 검사하여(13) 통화가 종료되지 않는 경우 다시 상기 "12" 과정으로 돌아가서 일반 음성 통화를 계속하고, 통화 종료이면 통화를 종료한다.

한편, 상기 검사 결과(11), 사용자가 동영상 통화 서비스를 요구하는 동영상 통화 모드키를 입력시키는 경우 제어부는 현재 통화중인 사용자의 영상통화 이미지를 입력받기 위한 통화영상 입력부 내의 각 구성요소들을 동작시킨다(14). 이에 따라 통화영상 입력부 내의 렌즈부를 통해 입력되는 사용자의 모습과 사용자 후면 배경이 씨모스(CMOS) 센서, 아날로그/디지털 변환기(ADC), 디에스피(DSP)를 거치면서 영상통화 이미지(영상통화 데이터)로 변환되어 입력된다. 즉, 상기 통화영상 입력부로부터 사용자의 모습과 배경에 대한 영상통화 이미지(영상통화 데이터)가 입력된다(15).

이후, 제어부는 사용자로부터 배경 이미지 제거 요구가 있는지 여부를 검사한다(16). 이 때, 상기 배경 이미지(배경 화면)는 전술한 바와 같이 동영상 통화 모드 시 오히려 사용자의 사생활을 노출시킬 수 있는 영상으로, 단말기 사용자는 배경 이미지를 상대방 단말기 사용자에게 노출시키고 싶지 않은 경우 배경 이미지 제거를 요구하게 되는 것이다.

상기 검사 결과(16), 사용자로부터 배경 이미지 제거 요구가 없는 경우 제어부는 코덱부를 제어하여 입력 영상통화 이미지를 JPEG 또는 MPEG의 소정 포맷으로 압축시킨 후(21), RF부를 통해 외부의 무선통신망으로 무선으로 송신시킨다(22).

한편, 상기 검사 결과(16), 사용자로부터 배경 이미지 제거 요구가 있는 경우 제어부는 상기 입력받은 영상통화 이미지 중 사용자 후면 배경에 대한 배경 이미지를 추출하여 제거시킨다(17).

즉, 도 2에 도시된 바와 같이 사용자 모습에 대한 주화상(200)과 사용자 모습 후면 배경에 대한 배경 이미지(202)로 구성된 도 2의 (a)에 도시된 원래의 입력 영상통화 이미지는 상기 "17" 과정을 거치면서 도 2의 (b)에 도시된 바와 같이 배경 이미지(202)가 제거되어 사용자 모습에 대한 주화상(200)만 남게 되는 것이다. 따라서 개인의 사생활 보호가 필요한 동영상 통화의 경우에, 상기 배경 이미지(202)가 상대방 단말기로 전송되는 것을 방지할 수 있게 된다.

이후, 제어부는 사용자로부터 의사 배경 이미지 삽입 요구가 있는지 여부를 검사한다(18). 이 때, 상기 의사 배경 이미지는 상기 입력 영상통화 이미지로부터 배경 이미지가 제거된 배경 영역에 사용자의 선택에 따라 삽입되는 배경 이미지를 의미하는 것으로, 사용자는 자신의 사생활과 관계없는 다양한 배경 이미지를 미리 편집하여 저장하여 두었다가 원하는 배경 이미지를 선택하여 본래의 배경 이미지가 있던 배경 영역에 삽입을 요구하게 되는 것이다. 이 때, 만일 상기 사용자로부터 의사 배경 이미지 삽입 요구가 없는 경우 제어부는 코덱부를 제어하여 상기 배경 이미지가 제거된 영상통화 이미지를 JPEG 또는 MPEG의 소정 포맷으로 압축시킨 후 (21), RF부를 통해 외부의 무선통신망으로 무선으로 송신시킨다(22).

한편, 상기 검사 결과(18), 사용자로부터 의사 배경 이미지 삽입 요구가 있는 경우 제어부는 상기 입력 영상통화 이미지에서 배경 이미지가 제거된 배경 영역에 삽입될 의사 배경 이미지를 선택받는다(19).

이후, 제어부는 배경 이미지 처리부 내의 배경 이미지 삽입부를 제어하여, 사용자로부터 선택받은 의사 배경 이미지를 상기 입력 영상통화 이미지 내의 배경 영역에 삽입시킨다(20).

즉, 사용자는 도 2에 도시된 바와 같이 배경 이미지(202)가 제거된 도 2의 (b)에 도시된 영상통화 이미지의 배경 영역에 자신이 원하는 의사 배경 이미지를 선택하여 삽입을 요구하게 되는데, 이에 따라 배경 이미지 삽입부를 통해 도 2의 (c)에 도시된 바와 같은 의사 배경 이미지(204)가 도 2의 (b)에 도시된 배경 이미지가 제거된 영상통화 이미지의 배경 영역에 삽입되어 도 2의 (d)에 도시된 바와 같은 사용자 주화상(200)과 의사 배경 이미지(204)가 합성된 영상이 생성되는 것이다. 따라서 배경 이미지(202)가 개인의 사생활 보호가 필요한 영상인 경우 사용자로부터 선택된 사생활 보호가 필요 없는 의사 배경 이미지(204)가 원래의 영상통화 이미지의 배경 영역에 삽입되어 상대방 단말기로 전송되어 개인의 사생활이 보호될 수 있게 된다.

이후, 제어부는 코덱부를 제어하여 의사 배경 이미지가 삽입된 영상통화 이미지를 JPEG 또는 MPEG의 소정 포맷으로 압축시킨 후(21), RF부를 통해 외부의 무선통신망으로 무선 송신시킨다(22).

그런데, 상기와 같은 종래 기술은 단순히 사용자의 얼굴 윤곽선 추출 방식을 이용하여 원래의 영상통화 이미지에서 배경 이미지를 추출하여 제거하기 때문에 정밀도가 떨어지는 단점이 있다.

그에 따라, 상기와 같은 종래 기술은 의사 배경 이미지가 정밀하게 삽입되지 못하게 된다. 즉, 사용자 주화상과 의사 배경 이미지가 정밀하게 합성되지 못하게 된다. 결국, 이처럼 엉성하게 합성된 영상이 상대측 단말기로 전송됨에 따라 상대방이 금방 배경 화면이 대치되었음을 감지하게 되는 단점이 있다.

그런데, 가족, 애인, 친구, 거래처 사람 등의 경우에는 상대방의 배경 화면 대치를 인지함에 따라 기분이 상하게 되는 문제가 발생할 수 있다.

따라서 사용자의 사생활을 완벽하게 보호하기 위해서는 좀 더 정밀하게 원래의 영상통화 이미지에서 배경 이미지를 추출하여 제거한 후에 의사 배경 이미지를 삽입할 수 있는 방식이 절실히 필요하다.

본 발명은 상기 문제점을 해결하고 상기 요구에 부응하기 위하여 제안된 것으로, 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조(삽입 등)함으로써, 영상통화 시 사용자의 사생활을 보호하기 위한 영상 전화기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 영상 전화기에 있어서, 외부의 피사체를 촬상하여 영상통화 이미지를 입력하기 위한 통화영상 입력 수단; 상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조하기 위한 배경 변조 수단; 상기 배경 변조 수단에서 변조한 영상통화 이미지를 인코딩하여 소정 포맷으로 압축하고, 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제하여 디코딩하기 위한 코딩/디코딩 수단; 동영상 통화 모드 요구에 따라 상기 코딩/디코딩 수단을 제어하여 상기 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제한 후 디코딩시키고, 상기 배경 변조 수단에서 변조한 영상통화 이미지를 상기 코딩/디코딩 수단을 제어하여 인코딩시킨 후 소정 포맷으로 압축하여 상기 상대방 단말기 측으로 송신시키기 위한 제어 수단; 및 상기 제어 수단의 제어에 따라 상기 코딩/디코딩 수단으로부터의 영상통화 이미지를 디스플레이하기 위한 표시 수단을 포함한다.

또한 본 발명의 다른 장치는, 영상 전화기에 있어서, 외부의 피사체를 촬상하여 영상통화 이미지를 입력하기 위한 통화영상 입력 수단; 상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조하기 위한 배경 변조 수단; 상기 배경 변조 수단에서 변조한 영상통화 이미지를 인코딩하여 소정 포맷으로 압축하고, 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제하여 디코딩하기 위한 코딩/디코딩 수단; 동영상 통화 모드 요구에 따라 상기 코딩/디코딩 수단을 제어하여 상기 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제한 후 디코딩시키고, 상기 배경 변조 수단에서 변조한 영상통화 이미지를 상기 코딩/디코딩 수단을 제어하여 인코딩시킨 후 소정 포맷으로 압축하여 상기 상대방 단말기 측으로 송신시키기 위한 제어 수단; 및 상기 제어 수단의 제어에 따라 상기 코딩/디코딩 수단으로부터의 영상통화 이미지를 디스플레이하기 위한 표시 수단을 포함한다.

또한 상기 본 발명의 각 배경 변조 수단은, 상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 현재 이미지 프레임과 이전 이미지 프레임을 비교하여 카메라 모션에 의한 배경의 움직임이 확인됨에 따라 이전 이미지 프레임을 변환하여 현재 이미지 프레임의 배경과 이전 이미지 프레임의 배경을 일치시키기 위 한 카메라 모션 벌충 수단을 더 포함한다.

또한 상기 본 발명의 각 배경 변조 수단은, 상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지에 포함되어 있는 노이즈 성분을 제거하기 위한 잡음 제거 수단을 더 포함한다.

또한 상기 본 발명의 각 배경 변조 수단은, 특정 프레임 이미지에 대하여 배경 이미지를 변조한 후부터, 다음으로 입력되는 현재 프레임 이미지에 대해서 화자 영역 매스크 이미지를 구축할 것인지 또는 이전 프레임 이미지에 대한 화자 영역 매스크 이미지를 재사용하여 바로 상기 배경 이미지 변조 과정으로 건너뛸 것인지를 판별하여 프레임을 스킵하는 기능을 더 수행한다.

또한 상기 본 발명의 각 배경 변조 수단은, 상기 통화영상 입력 수단으로부터 입력되는 현재 프레임 이미지의 크기를 축소시키는 수단; 및 상기 배경 이미지 변조 과정 수행 직전에 원래 크기로 매스크 이미지를 복구하기 위한 수단을 더 포함한다.

또한 상기 본 발명의 각 배경 변조 수단은, 최종적으로 결정된 카메라 모션에 관한 매개 변수를 조사하여 이전 프레임 이미지의 변환이 필요한지를 판단하여 이전 프레임 이미지를 변환하지 않고 재사용하는 기능을 더 수행한다.

또한 상기 본 발명의 각 배경 변조 수단은, 상기 영역 분할 수단에서 영역 분할 후 만들어진 영역들을, 두 이웃 영역들 간의 평균 색상차, 경계선 길이, 경계선 픽셀들 간의 색상차를 고려하여, 병합하여 영역들의 개수를 줄이는 수단을 더 포함한다.

한편, 본 발명의 방법은, 화자 영역의 매스크 이미지를 이용한 배경 변조 방법에 있어서, 영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 단계; 배경 변조를 요구받는 단계; 상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 단계; 상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하는 영역 이득 계산 단계; 상기 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출하는 화자 영역 추출 단계; 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 단계; 상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 단계; 및 상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 단계를 포함한다.

또한 본 발명의 다른 방법은, 화자 영역의 매스크 이미지를 이용한 배경 변조 방법에 있어서, 영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 단계; 배경 변조를 요구받는 단계; 상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 단계; 상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역을 추출하는 화자 영역 추출 단계; 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 단계; 상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 단계; 및 상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 단계를 포함한다.

또한 상기 본 발명의 각 방법은, 상기 입력되는 영상통화 이미지의 현재 이미지 프레임과 이전 이미지 프레임을 비교하여 카메라 모션에 의한 배경의 움직임이 확인됨에 따라 이전 이미지 프레임을 변환하여 현재 이미지 프레임의 배경과 이전 이미지 프레임의 배경을 일치시키는 카메라 모션 벌충 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 상기 입력되는 영상통화 이미지에 포함되어 있는 노이즈 성분을 제거하는 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 사용자가 상대 통화자에게 전화를 거는 동안과 사용자가 상대 통화자가 전화 받기를 기다리는 동안 또는 상대 통화자로부터 전화가 와서 전화음이 울리는 동안, 영상 전화기가 상기 각 단계를 수행하여 배경 이미지를 변조한 상태로 사용자(화자)의 모습을 디스플레이하여 주고, 그에 따른 사용자로부터의 선택 신호에 따라 그 때의 영역들의 정보를 이용하여 후속 이미지를 처리하여 현재 매스크 이미지의 경향을 상속시키는 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 상기 추출한 화자 영역들 중에서 화자 영역으로 잘못 추출된 움직이는 배경 영역들을 정정하기 위하여, 각 영역들의 접촉 관계를 고려하여 이웃 관계 그래프를 생성하여 영역을 그룹화한 후에, 사람 피부색과 크기를 이용하여 화자 그룹(영역)을 추출하는 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 특정 프레임 이미지에 대하여 배경 이미지 를 변조한 후부터, 다음으로 입력되는 현재 프레임 이미지에 대해서 화자 영역 매스크 이미지를 구축할 것인지 또는 이전 프레임 이미지에 대한 화자 영역 매스크 이미지를 재사용하여 바로 상기 배경 이미지 변조 단계로 건너뛸 것인지를 판별하여 프레임을 스킵하는 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 입력되는 현재 프레임 이미지의 크기를 축소하는 단계; 및 상기 배경 이미지 변조 단계 수행 직전에 원래 크기로 매스크 이미지를 복구하는 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 상기 카메라 모션 벌충 단계를 수행 중 최종적으로 결정된 카메라 모션에 관한 매개 변수를 조사하여 이전 프레임 이미지의 변환이 필요한지를 판단하여 이전 프레임 이미지를 변환하지 않고 재사용하는 단계를 더 포함한다.

또한 상기 본 발명의 각 방법은, 상기 영역 분할 단계를 수행한 후 만들어진 영역들을, 두 이웃 영역들 간의 평균 색상차, 경계선 길이, 경계선 픽셀들 간의 색상차를 고려하여, 병합하여 영역들의 개수를 줄이는 단계를 더 포함한다.

한편, 본 발명은, 프로세서를 구비한 영상 전화기에, 영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 기능; 배경 변조를 요구받는 기능; 상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 기능; 상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하는 영역 이득 계산 기능; 상기 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결 정하여 화자 영역을 추출하는 화자 영역 추출 기능; 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 기능; 상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 기능; 및 상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

또한, 본 발명은, 프로세서를 구비한 영상 전화기에, 영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 기능; 배경 변조를 요구받는 기능; 상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 기능; 상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역을 추출하는 화자 영역 추출 기능; 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 기능; 상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 기능; 및 상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 3은 본 발명에 따른 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기의 일실시예 구성도이다.

도 3에 도시된 바와 같이, 본 발명에 따른 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기는, 외부의 피사체를 촬상하여 영상통화 이미지를 입력하기 위한 통화영상 입력부(328), 상기 통화영상 입력부(328)로부터 입력되는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조(삽입 등)하기 위한 배경 변조부(322), 상기 배경 변조부(322)에서 변조한 영상통화 이미지를 인코딩하여 소정 포맷으로 압축하고, 상대방 단말기 측으로부터 RF(Radio Frequency)부(300)를 통하여 수신한 영상통화 이미지의 압축을 해제하여 디코딩하기 위한 코덱부(310), 키 입력부(306)를 통한 동영상 통화 모드 요구에 따라 상기 코덱부(310)를 제어하여 상기 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제한 후 디코딩시키고, 상기 배경 변조부(322)에서 변조한 영상통화 이미지를 상기 코덱부(310)를 제어하여 인코딩시킨 후 소정 포맷으로 압축하여 상기 상대방 단말기 측으로 RF부(300)를 통하여 송신시키 기 위한 제어부(302), 및 상기 제어부(302)의 제어에 따라 상기 코덱부(310)에서 디코딩한 상대방의 영상통화 이미지를 디스플레이하기 위한 표시부(316)를 포함한다.

상기 각 구성요소와 그외의 주변 구성요소들에 대하여 좀 더 상세히 살펴보면 다음과 같다.

상기 제어부(302)는 음성 통화 및 각종 멀티미디어 기능 수행을 위한 이동통신 단말기의 전반적인 동작을 제어한다. 또한 동영상 통화 서비스 구현을 위해 사용자로부터의 동영상 통화 모드 요구가 있는 경우 코덱부(Codec)(310)를 제어하여 상대방 단말기 측으로부터 외부의 무선 통신망을 통해 무선으로 수신되는 정지영상 또는 동영상 등과 같은 영상통화 이미지의 압축을 해제한 후 디코딩하도록 제어하고, 통화영상 입력부(328)로부터 입력되는 영상통화 이미지를 인코딩한 후 JPEG/MPEG(Joint Photographic Experts Group/Moving Picture Experts Group)의 소정 포맷으로 압축하여 외부의 무선 통신망을 통해 상대방 단말기로 송신하도록 제어한다.

그리고 본 발명의 일실시예에 따라 동영상 통화 시 사용자로부터의 배경 이미지 분리(제거) 요구가 있는 경우 배경 변조부(322)를 제어하여 상기 통화영상 입력부(328)로부터 입력되는 사용자의 영상통화 이미지 중 배경 이미지(Background Image)를 제거하여 송신하거나 또는 사용자에 의해 선택된 의사 배경 이미지(Pseudo Background Image)를 상기 영상통화 이미지의 배경 영역에 삽입하여 상대방 단말기로 송신한다.

여기서, 본 발명의 핵심인 배경 이미지 제거 방식에 대하여 좀 더 상세히 살펴보면, 먼저 영역 분할부(323)가 통화영상 입력부(328)로부터 입력되는 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할한다. 이후, 영역 이득 계산부(3240)가 상기 영역 분할부(323)에서 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산한다. 이후, 영역 상태 결정부(3242)가 상기 영역 이득 계산부(3240)에서 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출(배경 영역을 분리)한다. 이후, 매스크 이미지 생성부(3244)가 상기 영역 상태 결정부(3242)에서 추출한 화자 영역에 대한 매스크 이미지를 생성한다. 이후, 배경 이미지 변조부(326)가 상기 매스크 이미지 생성부(3244)에서 생성한 매스크 이미지를 이용하여 배경 이미지를 변조(삽입 등)한다.

다른 실시예로, 상기 사용자 단말기의 모드가 의사 동영상 통화 모드로 설정되는 경우에는 사용자에 의해 선택된 의사 동영상 이미지를 사용자의 동영상 통화 모습을 담은 영상통화 이미지 대신에 상대방 단말기 측으로 무선으로 송신한다.

한편, 제 1 메모리(303)는 단말기의 전반적인 동작을 제어하는 소정의 프로그램을 저장하고 있으며, 제어부(302)에 의해 단말기의 전반적인 동작이 수행될 때 입/출력되는 데이터를 소정의 설정된 영역에 저장한다. 그리고 RF(Radio Frequency)부(300)는 고주파 처리부와 중간주파수 처리부 및 기저대역 처리부의 포괄적 구성부를 의미하며, 안테나(ANT)를 통해 수신되는 외부의 무선 통신망으로부터의 음성 및 각종 멀티미디어 데이터를 무선통신 대역 주파수에서 1차적으로 처리 하고, 이를 다시 낮은 주파수 대역으로 낮추는 중간주파수 처리와, 이를 다시 제어부(302)에서 처리 가능한 주파수 대역의 신호로 처리한다. 또한 RF부(300)는 단말기에 구비된 통화영상 입력부(328)로부터 입력되어 코덱부(310)에서 인코딩 및 압축 처리된 각종 영상통화 이미지를 무선통신 대역 주파수 신호로 변조하여 외부의 무선 통신망으로 무선 송신한다.

그리고 오디오부(304)는 상기 제어부(302)의 제어에 따라 마이크를 통해 입력되는 음성신호를 RF부(300)로 전달하여 무선신호로 변조되도록 하고, RF부(300)를 통해 수신되는 음성신호를 복조하여 스피커(SPK)로 출력한다. 또한 동영상 통화 모드 시 상기 RF부(300)로부터 수신되는 상대방의 영상통화 이미지에 포함된 오디오신호를 복조하여 스피커(SPK)를 통해 출력한다.

그리고 키입력부(306)는 다수의 숫자키 및 동영상 통화 서비스를 위한 동영상 통화 모드 키를 구비하고 있으며, 사용자가 소정의 키를 누를 때 해당되는 키데이터를 발생하여 제어부(302)로 전달한다. 그리고 제 1 표시부(308)는 일반 통화 모드 시 단말기의 각종 정보를 표시하는 LCD(Liquid Crystal Display)를 포함하고, 키입력부(306)에서 발생되는 키데이터 및 제어부(302)의 각종 정보신호를 전달받아 디스플레이한다. 그리고 제 2 표시부(316)는 동영상 통화 모드 시 통화영상 입력부(328)를 통해 입력되는 자신의 영상통화 이미지나, 외부의 무선 통신망으로부터 수신되는 상대방 영상통화 이미지를 디스플레이한다. 이를 위하여, 상기 영상통화 이미지를 디스플레이하기 위한 TFT-LCD(320)와, 코덱부(310)로부터 입력되는 각종 영상통화 이미지가 TFT-LCD(320) 상에 디스플레이되도록 제어부(302)에 제어에 따라 TFT-LCD(320)를 구동시키기 위한 LCD 구동부(318)를 포함한다.

상기 통화영상 입력부(328)는 동영상 통화 모드 시 사용자의 모습 및 사용자 후면에 존재하는 각종 배경에 대한 배경 이미지를 촬상하여 코덱부(310)로 전달한다. 그 동작을 살펴보면, 피사체의 이미지는 렌즈부(336)를 통하여 씨모스 센서(334)로 전달된다. 그러면, 씨모스 센서(334)는 렌즈부(336)를 통과한 피사체의 광신호를 전기적 신호(촬상 영상신호)로 변환하여 출력하며, 카메라가 가지는 노출, 감마, 이득조정, 화이트 밸런스, 컬러 매트릭스 등의 기능을 수행한다. 이어서, ADC(Analog-to-Digital Converter)(332)는 씨모스 센서(334)에서 이득조절된 1필드분의 촬상 영상신호를 디지털 신호로 변환하여 DSP(Digital Signal Processor)(330)로 전달한다. 그러면, DSP(330)는 디지털 신호로 변환된 1필드분의 촬영 영상신호를 NTSC(National Television System Committee) 또는 PAL(Phase Alternation by Line) 방식의 영상신호로 처리한다.

다음으로, 본 발명의 핵심 구성요소인 배경 변조부(322)는, 상기 통화영상 입력부(328)로부터 입력되는 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하기 위한 영역 분할부(323), 상기 영역 분할부(323)에서 분할한 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출한 후에 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하기 위한 화자 영역 추출부(324), 및 상기 화자 영역 추출부(324)에서 생성한 매스크 이미지를 이용하여 배경 이미지를 변조(삽입 등)하기 위한 배경 이미지 변조부(326)를 포함한다. 이에 대한 상세 동작은 후술하기 로 한다.

그리고 상기 화자 영역 추출부(324)는, 상기 영역 분할부(323)에서 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하기 위한 영역 이득 계산부(3240), 상기 영역 이득 계산부(3240)에서 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출하기 위한 영역 상태 결정부(3242), 및 상기 영역 상태 결정부(3242)에서 추출한 화자 영역에 대한 매스크 이미지를 생성하기 위한 매스크 이미지 생성부(3244)를 포함한다. 이에 대한 상세 동작은 후술하기로 한다.

그리고 코덱부(310)는 제어부(302)의 제어에 따라 통화영상 입력부(328)를 통하여 입력되는 촬상 영상신호(Y, C)를 JPEG 또는 MPEG 포맷으로 변환하고 소정 비율로 압축하며, 외부의 무선 통신망으로부터 무선 수신되는 상대방 영상통화 이미지의 압축을 해제하고 디코딩하여 제 2 표시부(316)를 통해 출력한다. 상기 외부의 무선 통신망으로부터 무선 수신되는 영상통화 이미지는 통화중인 상대방 단말기로부터 송신되는 영상통화 이미지가 될 수 있으며, 또한 이동교환국(도면에 도시되지 않음)에 연결된 웹 서버(Web Server)들 또는 다수의 영상 콘텐츠 서버(Image Contents Server)들로부터 제공되는 각종 영상 데이터가 될 수도 있다. 상기 코덱부(310)에 연결된 제 2 메모리(312)는 코덱부(310)의 각종 동작을 수행하기 위한 프로그램을 저장하는 메모리로서, 통상 SRAM(Static Random Access Memory)으로 구현 가능하고, 제 3 메모리(314)는 통화영상 입력부(328) 내의 렌즈부(336)를 통해 입력되는 영상통화 이미지 및 외부의 무선 통신망으로부터 수신되는 상대방 영상통 화 이미지를 저장하기 위한 메모리로서, 통상 플래시 메모리(Flash Memory)로 구현 가능하다.

도 4는 본 발명에 따른 화자 영역의 매스크 이미지를 이용한 배경 변조 방법에 대한 일실시예 흐름도로서, 설명의 편의상 배경 이미지 제거 및 의사 배경 이미지 삽입에 대한 동작 제어 흐름을 설명하고 있으나, 이는 설명의 용이함을 위한 것일 뿐 의사 동영상 모드 시에도 의사 배경 삽입 모드에서와 같이 동일하게 적용 가능하다.

먼저, 제어부(302)는 단말기 간에 통화로가 형성되는 경우(400) 사용자로부터 동영상 통화 모드 요구가 있는지 여부를 검사한다(402). 이 때, 만일 사용자가 동영상 통화 서비스를 구현하기 위해 동영상 통화 모드키를 입력시키지 않는 경우 제어부(302)는 일반 음성 통화를 위한 통상적인 동작을 수행한다(404). 이후, 제어부(302)는 통화가 종료되는지 여부를 검사하여(406) 통화가 종료되지 않는 경우 다시 상기 "404" 과정으로 돌아가서 일반 음성 통화를 계속하고, 통화 종료이면 통화를 종료한다.

한편, 상기 검사 결과(402), 사용자가 동영상 통화 서비스를 요구하는 동영상 통화 모드키를 입력시키는 경우 제어부(302)는 현재 통화중인 사용자의 영상통화 이미지를 입력받기 위한 통화영상 입력부(328) 내의 각 구성요소들을 동작시킨다(408). 이에 따라 통화영상 입력부(328) 내의 렌즈부(336)를 통해 입력되는 사용자의 모습과 사용자 후면 배경이 씨모스(CMOS) 센서(334), 아날로그/디지털 변환기(ADC)(332), 디에스피(DSP)(330)를 거치면서 영상통화 이미지(영상통화 데이터)로 변환되어 입력된다. 즉, 상기 통화영상 입력부(328)로부터 사용자의 모습과 배경에 대한 영상통화 이미지(영상통화 데이터)가 입력된다(410).

이후, 제어부(302)는 사용자로부터 배경 이미지 제거 요구가 있는지 여부를 검사한다(412). 이 때, 상기 배경 이미지(배경 화면)는 전술한 바와 같이 동영상 통화 모드 시 오히려 사용자의 사생활을 노출시킬 수 있는 영상으로, 단말기 사용자는 배경 이미지를 상대방 단말기 사용자에게 노출시키고 싶지 않은 경우 배경 이미지 제거를 요구하게 되는 것이다.

상기 검사 결과(412), 사용자로부터 배경 이미지 제거 요구가 없는 경우 제어부(302)는 코덱부(310)를 제어하여 입력 영상통화 이미지를 JPEG 또는 MPEG의 소정 포맷으로 압축시킨 후(424), RF부(300)를 통해 외부의 무선통신망으로 무선으로 송신시킨다(426).

한편, 상기 검사 결과(412), 사용자로부터 배경 이미지 제거 요구가 있는 경우 제어부(302)의 제어에 따라, 영역 분할부(323)가 통화영상 입력부(328)로부터 입력되는 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할한다(414). 이후, 영역 이득 계산부(3240)가 상기 영역 분할부(323)에서 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산한다(416). 이후, 영역 상태 결정부(3242)가 상기 영역 이득 계산부(3240)에서 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출(배경 영역을 분리)한다(418). 이후, 매스크 이미지 생성부(3244)가 상기 영역 상태 결정부(3242)에서 추출한 화자 영역에 대한 매스크 이미지를 생성한다(420). 이후, 배경 이미지 변조부(326)가 상기 매스크 이미지 생성부(3244)에서 생성한 매스크 이미지를 이용하여 배경 이미지를 변조(단일색 처리, 새로운 배경으로 대체 등)한다(422).

이후, 제어부(302)는 코덱부(310)를 제어하여 변조된 영상통화 이미지를 JPEG 또는 MPEG의 소정 포맷으로 압축시킨 후(424), RF부(300)를 통해 외부의 무선통신망으로 무선 송신시킨다(426).

다음으로, 상기 배경 이미지를 제거한 후에 변조하는 과정(414 내지 422)에 대한 구체적인 실시예를 좀 더 구체적으로 살펴보면 다음과 같다.

첫 번째로, 영상통화 이미지에서 화자와 그를 제외한 배경 이미지를 분리하여 배경 이미지를 변조하는 기술에 대하여 살펴보면 다음과 같다.

먼저, 화자를 촬영하는 영상 전화기의 센서의 오류 등으로 인하여 촬상되어 입력되는 이미지 스트림(영상통화 이미지)이 노이즈 성분을 포함할 수 있다. 따라서 영상통화 이미지의 각 이미지 프레임 내에 존재하는 노이즈 성분을 제거하기 위하여 필터를 적용한다. 이 과정은 본 발명의 부가요소이다.

일예로, 노이즈 성분을 제거하는 기술에 대하여 살펴보면, 보통의 이미지에는 카메라의 센서 또는 필름의 영향 등에 의한 잡음 성분이 존재한다. 이러한 잡음 성분은 이미지 내의 개체의 윤곽을 구분하는 데에 악영향을 미친다. 따라서 본 발명에서는 영상통화 이미지에 가우시안 필터(Gaussian filter)를 적용하여 잡음 성분을 제거한다. 이처럼, 가우시안 필터를 이용하여 이미지의 잡음 성분을 제거하는 기술은 이미 널리 알려진 기술이므로 본 명세서에서는 이에 대한 구체적인 설명은 생략하기로 한다.

이후, 현재 이미지 프레임과 이전 이미지 프레임을 비교하여, 영상 전화기에 장착된 카메라 모션에 의한 배경의 움직임이 있었는지 판별하고, 이전 이미지 프레임을 변환하여 현재 이미지 프레임의 배경과 이전 이미지 프레임의 배경이 일치되도록 한다. 이 과정도 본 발명의 부가요소이다.

이러한 카메라 모션 벌충 기술에 대하여 구체적으로 살펴보면, 영상 전화기를 이용하여 동영상 통화를 할 때, 영상 전화기를 든 손이 흔들림으로 인하여 카메라의 이동, 회전 등과 같은 카메라 모션이 발생한다. 이러한 카메라 모션이 발생하면 화자뿐만 아니라 배경 개체들도 연속된 프레임 이미지들 상에서 보면 흔들리는 것처럼 보인다. 따라서 본 발명에서는 카메라 모션이 없었던 것처럼 이전 이미지를 변환하여, 배경 개체들의 위치가 현재 이미지에서 해당 개체들과 일치하도록 해준다.

예를 들어, x와 y가 이전 이미지의 한 픽셀 I_p(x,y)의 위치라고 하고, a₁, a₂를 카메라 모션에 관한 매개 변수라고 할 때, 변환된 이전 이미지의 한 픽셀

가 되고,

는 다음의 [수학식 1]에 의해 계산된다.

상기 매개 변수 a₁, a₂는 카메라 모션에 의한 이전 이미지와 현재 이미지의 매칭되는 픽셀들의 차의 합(에러)

(x, y는 현재 이미지의 배경 픽셀)이 최소가 되도록 결정된다.

여기서, E를 최소화하는 a₁, a₂를 결정하기 위해서, 본 발명에서는 레벤버그 마르퀴트(Levenberg-Marquardt) 비선형 최소화 알고리즘을 사용한다.

그리고 a₁, a₂가 최종적으로 결정되었을 때, 이전 프레임 이미지를 변환한다.

이후, 현재 이미지 프레임에서 픽셀들을 묶어 의미있는 영역(그룹)을 만드는 방식으로 현재 프레임을 분할한다. 즉, 현재 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할한다.

이러한 이미지 분할 기술에 대하여 구체적으로 살펴보면, 현재 영상통화 이미지의 각 픽셀에 대해서 화자에 속하는지 배경에 해당하는 지를 계산하는 것은 매우 시간이 많이 걸리고, 화자 내부의 픽셀들에 대해서는 잘못 판단하는 경우가 많이 생긴다. 예를 들어, 사람 얼굴의 픽셀들의 색깔 값은 비슷한데, 얼굴이 움직이더라도 얼굴 안쪽의 픽셀들은 주변 픽셀들과 색깔 차가 거의 없기 때문에 움직임이 없다고 판별되는 수가 많다.

이러한 이유로 한 개체에 속한다고 믿어지는 픽셀들을 한 그룹(영역)으로 묶는 작업이 필요하다. 그 이후에, 해당 영역에 대해서 화자 영역에 속하는지 또는 배경 영역에 속하는지를 판단하게 되고, 그 결과로 같은 그룹에 속하는 픽셀들은 전부가 화자 영역에 속하든지 또는 배경 영역에 속하게 된다.

본 발명에서는 일예로 워터쉐드(watershed) 영상 분할 알고리즘을 사용하여 통화영상 이미지를 많은 개수의 영역으로 분할한다. 이러한 워터쉐드 알고리즘을 이용한 영상 분할 기술은 이미 널리 알려진 기술이므로 본 발명에서는 이에 대한 구체적인 설명은 생략하기로 한다.

이후, 현재 이미지 프레임과 이전 이미지 프레임을 비교하여 화자 영역들의 매스크 이미지를 구축한다. 이 때, 현재 이미지의 영역들 중에서 화자 영역에 속한다고 판단되는 것들만을 추출하여 매스크 이미지를 생성한다. 즉, 상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출(배경 영역을 분리)한 후에 상기 추출한 화자 영역에 대한 매스크 이미지를 생성한다.

이처럼 화자 영역을 추출하여 매스크 이미지를 생성하는 기술에 대하여 구체적으로 살펴보면, 먼저 어떤 영역이 화자 영역에 속하는지를 판단하기 위하여, 그 영역이 화자 영역에 속할 때(상태 F)의 이득(gain)과 배경 영역에 속할 때(상태 B)의 이득을 각각 계산한다.

여기서, 영역의 상태가 화자 영역에 속할 때(상태 F)의 이득은 다음의 [수학식 2]와 같이 계산된다.

여기서, num_pixel은 영역의 픽셀 개수이다. P_motion은 -1에서 1사이([-1, 1])의 값으로서, 각 영역의 픽셀들에 대해서, 현재 이미지와 이전 (변환된) 이미지에서의 명도 차가 거의 없을 때 -1에 가깝고, 명도 차가 크면 1에 가깝다. 따라서 1에 가까울수록 이 영역은 움직임이 있다는 것으로서 화자일 가능성이 높다. P_{motion_memory}는 [-0.5, 1]사이의 값으로서, 고려되는 영역이 예전부터 움직임이 계속 있어 왔다면 1에 가까워지고, 예전에 움직임이 없었다면 -0.5를 가지게 된다. 이 속성 값은 이전 이미지의 해당 픽셀로부터 상속받는다. P_skin은 [0, 1]사이의 값으로서, 각 영역의 픽셀 대다수가 사람 피부색 영역에 속하면 1이 된다. P_{class_memory}는 [-0.5, 1]사이의 값으로서, 고려되는 영역이 예전부터 상태 F이었을 때는 1에 가깝고, 상태 B이었을 때는 -0.5에 가깝다. 이 속성 값은 이전 이미지의 해당 픽셀로부터 상속받는다. P_neighbor는 [-1, 1]사이의 값으로서, 고려되는 영역과 이웃 영역들 간의 관계를 나타낸다. 고려되는 영역과 그 이웃 영역의 상태가 같으면 양의 가중치를 얻고, 상태가 다르면 음의 가중치를 얻는데, 색깔 차가 작을수록 가중치의 크기가 커진다. 고려되는 영역과 이웃 영역들 간의 가중치의 합이 바로 P_neighbor이다. 즉, 색깔이 비슷하면서 이웃 영역들 간에 상태가 똑같으면 이득이 커진다.

그리고 영역의 상태가 배경 영역에 속할 때(상태 B)의 이득은 다음의 [수학식 3]과 같다.

여기서, 영역들의 이득의 합이 가장 크도록 영역들의 상태를 결정하는 방법은 다음과 같다. 먼저, P_neighbor를 고려하지 않고, 각 영역들의 이득이 크도록 상태를 정한다. 그런 다음에, P_neighbor를 고려하면서 이득 합을 계산한다. 각 영역과 그 이웃 영역의 상태가 다를 때, 그 영역의 상태를 바꾸고 나서 이득 합을 계산하여 전보다 이득이 커졌으면 현재 상태를 고정시키고 다음 과정으로 진행하고, 그렇지 않으면 원래 상태로 환원하고 다음 과정으로 진행한다. 위와 같은 과정을 반복 수행하면, 전체적으로 가장 이득의 합이 크도록 영역들의 상태를 결정할 수 있다. 그런 다음에, 영역의 상태가 배경 영역에 속하는(상태 B) 픽셀은 0의 값을 갖도록 하고, 영역의 상태가 화자 영역에 속하는(상태 F) 픽셀은 1의 값을 갖도록 하여 매스크 이미지를 생성한다.

이후, 화자 영역을 제외한 나머지 부분(배경 영역)에 새로운 배경 이미지를 삽입하는 등의 방식으로 배경을 변조한다. 즉, 상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조(단일색 처리, 새로운 배경으로 대체 등)한다.

이러한 배경 변조 기술을 구체적으로 살펴보면, 사용자가 지정한 새로운 배경 이미지 위에 매스크 이미지를 이용하여, 매스크 이미지의 픽셀이 1일 때만 현재 이미지의 픽셀 값을 덮어 씌워서 화자 영역만을 복사한다.

두 번째로, 화자 영역 추출의 정확성을 높이는 부가적인 기법들에 대하여 살 펴보면 다음과 같다.

먼저, 사용자의 선택 기능에 의한 화자 영역 추출의 정확성을 높이는 기법에 대하여 살펴보면, 사용자가 상대 통화자에게 전화를 거는 동안과 사용자가 상대 통화자가 전화 받기를 기다리는 동안 또는 상대 통화자로부터 전화가 와서 전화음이 울리는 동안, 영상 전화기에서는 전술한 과정들을 수행하여 배경 이미지가 변조된 상태로 사용자(화자)의 모습을 디스플레이하여 주고, 사용자에게 화자 영역이 잘 분리된 프레임이 지나갈 때 버튼 등을 눌러 배경 이미지의 변조가 잘된 프레임을 선택하도록 한다. 즉, 특정 프레임의 화자 매스크 이미지가 만족할만한 수준이다는 것을 선택하면서 통화를 시작하도록 하여, 그 때의 영역들의 정보를 이용하여 화자 영역 추출의 정확도를 높일 수 있다.

이렇게 사용자가 만족하는 수준의 매스크 이미지를 선택했을 때, 영역의 속성인 P_{motion_memory}와 P_{class_memory}를 다음과 같이 인위적으로 변경한다. 영역의 상태가 화자 영역에 속하는(상태 F) 영역의 P_{motion_memory}와 P_{class_memory}를 1로 변경하고, 영역의 상태가 배경 영역에 속하는(상태 B) 영역의 해당 속성 값을 -1로 변경한다. 이렇게 함으로써, 이어지는 후속 이미지를 처리할 때 현재 매스크 이미지의 경향을 따르게 한다.

다음으로, 사람 피부색과 크기를 이용하여 정확히 화자 영역을 추출하는 기법에 대하여 살펴보면, 전술한 바와 같이 추출한 화자 영역들 중에서 화자 영역으로 잘못 판별(추출)된 움직이는 배경 영역들을 정정하기 위하여, 각 영역들의 접촉 관계를 고려하여 이웃 관계 그래프를 생성하여 영역을 그룹화한 후에, 사람 피부색과 크기 등을 이용하여 화자 그룹(영역)만을 더욱 정확히 판별(추출)한다.

이를 구체적으로 살펴보면, 전술한 화자 영역 추출(판별) 과정은 주로 움직임이 있는 영역을 화자 영역(상태 F)으로 판별한다. 그러나 영상통화 이미지에서는 화자뿐만 아니라 지나가는 사람, 자동차, 나무, 동물 등의 움직이는 배경 개체들이 존재할 수 있다. 이러한 배경 개체들도 상태 F로 판별되기 때문에, 영상통화 이미지 내에서 상태 F의 영역들이 흩어져 있게 된다. 따라서 상태 F인 영역 중에서 다시 화자 영역만을 추출하기 위한 방법이 필요하다. 일반적으로 화자는 영상 전화기의 카메라에 대해서 가장 가까이에 있기 때문에 영상통화 이미지에서 가장 크게 디스플레이되고, 화자의 얼굴이 화면 중앙에 보이는 경우가 많기 때문에 이점을 이용하여 아래의 과정과 같이 화자 영역을 추출한다.

먼저, 영역들 간의 접촉 관계를 이용하여 이웃 관계 그래프를 생성한다.

이후, 영역의 상태가 같은 접해있는 영역들을 하나의 그룹으로 묶는다.

이후, 상기 그룹화한 그룹 중, 사람 피부색을 가진 영역을 포함한 그룹 중에서 상태가 F이면서 가장 큰 영역을 화자 영역으로 선택(추출)한다. 그 외의 나머지 F 상태의 그룹들은 움직이는 배경 개체이므로 전부 상태 B로 만든다.

세 번째로, 실시간 처리를 위한 속도 향상 기법들에 대하여 살펴보면 다음과 같다. 이 기법들도 본 발명의 부가요소이다.

일반적으로 상대방과의 영상 전화 통화는 실시간으로 이루어져야 하기 때문에, 본 발명도 마찬가지로 실시간으로 작동 가능하여야 한다. 따라서 본 발명에서 는 화자 영역 추출의 정확도를 떨어뜨리지 않으면서 실행 속도를 향상시키기 위해서 다음의 기술들을 적용한다.

먼저, 프레임 스킵(건너뛰기)을 이용한 처리 속도 향상 기법에 대하여 살펴보면, 첫 번째 프레임 이미지에 대하여 배경 이미지 변조 과정을 수행한 후부터, 다음으로 입력되는 현재 프레임 이미지에 대해서 화자 영역 매스크 이미지를 구축할 것인지 또는 이전 프레임 이미지에 대한 화자 영역 매스크 이미지를 재사용하여 바로 변조 과정으로 건너뛸 것인지를 판별하여 프레임을 스킵함으로써, 영상 전화기에서의 처리 실행 시간을 단축시킬 수 있다.

이를 좀 더 구체적으로 살펴보면, 영상통화 이미지에서 화자 영역만을 표현하는 매스크 이미지를 구축하는 과정들은 계산 시간이 많이 소요된다. 그런데, 이미지 스트림의 연속된 이미지들 간에는 화자의 위치가 크게 틀어지지 않으므로, 현재 영상통화 이미지에 대한 화자 영역 매스크 이미지는 그 다음 영상통화 이미지의 화자 영역 매스크 이미지와 매우 비슷할 것이다. 따라서 첫 번째 프레임에 대해서만 전술한 과정들을 거쳐 매스크 이미지를 생성한 후에 이어지는 두 번째 프레임 및 세 번째 프레임에 대해서는 전술한 과정들을 거치지 않고, 첫 번째 프레임의 매스크 이미지를 재사용한다. 이러한 기법을 사용하면 매 프레임마다 화자 영역 매스크 이미지를 생성하지 않고, 3 프레임당 한번씩만 매스크 이미지를 생성하기 때문에 3배의 속도 향상을 가져올 수 있다. 물론, 스킵하는 프레임의 수는 2 프레임당 또는 4 프레임당 등으로 적절하게 조절이 가능하다.

다음으로, 이미지 크기 축소를 이용한 처리 속도 향상 기법에 대하여 살펴보 면, 입력되는 현재 프레임 이미지의 크기를 예를 들어 1/2 정도로 적절히 축소한 후에 전술한 다음 과정들을 수행하여 화자 영역 매스크 이미지를 생성(구축)한 후에, 배경 이미지 변조 과정 수행전에 원래 크기로 매스크 이미지를 복구하여 배경 이미지를 변조함으로써, 영상 전화기에서의 처리 실행 시간을 단축시킬 수 있다.

이를 좀 더 구체적으로 살펴보면, 기본적인 이미지의 처리 시간은 이미지의 크기에 크게 영향을 받는다. 따라서 본 발명에서는 가로 길이와 세로 길이가 각각 현재 이미지의 1/2이 되는 새로운 이미지를 만들어, 이 새로 만든 이미지를 노이즈 제거 과정에서부터 매스크 이미지 생성 과정까지 현재 이미지로 사용하도록 한다. 이를 통해서 노이즈 제거 과정에서부터 매스크 이미지 생성 과정까지의 이미지 처리 시간은 4배로 빨라진다. 이후, 생성된 매스크 이미지를 다시 2배로 확대하여 배경 이미지 변조 과정에 적용시킨다.

이처럼 이미지 크기를 축소할 때, 현재 픽셀을 포함하는 이웃 4개 픽셀의 색상을 평균하여 새로운 이미지의 픽셀의 값을 채우는 기존의 방식이 있으나, 이 기본 방식은 이미지의 개체의 윤곽을 흐리게 함으로써 화자 영역 추출의 정확도를 떨어뜨린다. 따라서 본 발명에서는 이웃한 3개 픽셀의 색상은 버리고, 현재 픽셀의 값을 새로운 이미지의 픽셀에 주는 방식을 사용함으로써, 더 간단하고 속도도 빠르다.

다음으로, 이전 프레임 이미지 재사용을 이용한 처리 속도 향상 기법에 대하여 살펴보면, 전술한 카메라 모션 벌충 과정을 수행 중 최종적으로 결정된 카메라 모션에 관한 매개 변수를 조사하여 이전 프레임 이미지의 변환이 필요한지를 판단 하여 이전 프레임 이미지를 변환하지 않고 재사용함으로써, 영상 전화기에서의 처리 실행 시간을 단축시킬 수 있다.

이를 좀 더 구체적으로 살펴보면, 전술한 카메라 모션 벌충 과정에서는 현재 프레임 이미지와 이전 프레임 이미지의 배경을 일치시키기 위하여 카메라 모션을 벌충한다. 이 때, 사용되는 매개 변수 a₁, a₂의 값이 0에 가까우면 카메라의 모션이 거의 없다는 것을 말한다. 이처럼 카메라의 모션이 없다면 카메라 모션을 벌충할 필요도 없기 때문에, 이전 프레임 이미지도 변환할 필요가 없다. 결국, 매개 변수 a₁, a₂의 값이 0에 가깝다면 이전 프레임 이미지를 변환하지 않고 재사용함으로써, 처리 속도를 향상시킬 수 있다.

다음으로, 영역 병합을 이용한 처리 속도 향상 기법에 대하여 살펴보면, 이미지의 영역 분할 과정을 수행한 후 만들어진 영역들을, 두 이웃 영역들 간의 평균 색상차, 경계선 길이, 경계선 픽셀들 간의 색상차를 고려하여, 병합하여 영역들의 개수를 줄임으로써, 영상 전화기에서의 처리 실행 시간을 단축시킬 수 있다.

이를 좀 더 구체적으로 살펴보면, 이미지의 영역 분할 과정을 거치면 현재 프레임 이미지는 수십 또는 수백 개의 영역으로 분할되는데, 영역의 개수는 이득 계산 과정, 화자 영역 추출 과정 및 매스크 이미지 생성 과정의 실행 시간에 큰 영향을 미친다. 따라서 본 발명에서는 해당 영역과 그 이웃 영역들 간의 평균 색상의 차, 경계선 길이, 두 영역 간의 경계선에서의 색상차를 고려하여, 특정 임계치 이하이면 두 영역을 병합하여 영역의 개수를 줄임으로써, 처리 속도를 향상시킬 수 있다.

다음으로, 몬테 카를로(Monte Carlo) 방식을 이용하여 영역 상태를 판별(결정)함으로써 처리 속도를 향상시키는 기법에 대하여 살펴보면, 영역 상태를 결정하여 화자 영역을 추출하기 위하여 현재 프레임 이미지의 모든 픽셀들을 조사하는 대신에, 각 영역의 이득을 계산하여 영역 상태를 결정하는 과정과 현재 프레임의 일부 픽셀만을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용함으로써, 영상 전화기에서의 처리 실행 시간을 단축시킬 수 있다.

이를 좀 더 구체적으로 살펴보면, 전술한 화자 영역 판별(추출)을 위한 이득 계산 과정은 시간이 많이 걸리는 작업이다. 그런데, 몬테 카를로(Monte Carlo) 방식은 현재 프레임의 일부 픽셀들을 임의로 선택해서, 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 조사하여, 현재 프레임의 영역들의 상태를 결정하는 방식이다. 따라서 가끔씩만 현재 프레임의 모든 픽셀들을 조사하여 화자 영역을 판별(추출)하는 과정을 거치고, 일부 픽셀만 조사하는 몬테 카를로(Monte Carlo) 방식을 자주 사용함으로써, 처리 속도를 향상시킬 수 있다.

전술한 바와 같은 본 발명은, 차후 하드웨어의 적용에 따라 크로마키 기법 등을 적용할 수 있는 기술적인 확장성을 포함한다. 또한 본 발명은 비슷한 환경을 채용하는 시스템, 예를 들면 영상 전화기를 이용하여 화자 또는 얼굴을 인식하는 생체 인식 시스템 등에 활용할 수 있다. 또한 본 발명은 영상 이미지에서 의미있는 대상(화자)을 효율적이고 빠른 시간 내에 추출할 수 있어, 실시간 영상뿐만 아니라 일반적인 MPEG 기술이 적용된 모든 영상에 적용될 수 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조(삽입 등)함으로써, 영상통화 시 사용자의 사생활을 보다 완벽하게 보호할 수 있는 효과가 있다.

또한 본 발명은, 상기와 같이 사생활을 보다 완벽하게 보호함으로써, 영상 전화 서비스 사용자들의 편리성을 향상시킬 수 있고, 그에 따라 시장 활성화에도 기여할 수 있다.

또한 본 발명은, 통화 시의 배경과 무관한 다른 배경으로의 자연스러운 전환 등의 기술을 접목함으로써, 상대 대화자가 기술의 적용 여부를 인지하지 못하도록 할 수 있는 효과가 있다.

또한 본 발명은, 차후 하드웨어의 적용에 따라 크로마키 기법 등을 적용할 수 있고, 영상 전화기를 이용하여 화자 또는 얼굴을 인식하는 생체 인식 시스템 등에 활용할 수 있으며, 실시간 영상뿐만 아니라 일반적인 MPEG 기술이 적용된 모든 영상에 적용될 수 있다.

Claims

영상 전화기에 있어서,

외부의 피사체를 촬상하여 영상통화 이미지를 입력하기 위한 통화영상 입력 수단;

상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정한 후에 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조하기 위한 배경 변조 수단;

상기 배경 변조 수단에서 변조한 영상통화 이미지를 인코딩하여 소정 포맷으로 압축하고, 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제하여 디코딩하기 위한 코딩/디코딩 수단;

동영상 통화 모드 요구에 따라 상기 코딩/디코딩 수단을 제어하여 상기 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제한 후 디코딩시키고, 상기 배경 변조 수단에서 변조한 영상통화 이미지를 상기 코딩/디코딩 수단을 제어하여 인코딩시킨 후 소정 포맷으로 압축하여 상기 상대방 단말기 측으로 송신시키기 위한 제어 수단; 및

상기 제어 수단의 제어에 따라 상기 코딩/디코딩 수단으로부터의 영상통화 이미지를 디스플레이하기 위한 표시 수단

을 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항에 있어서,

상기 배경 변조 수단은,

상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하기 위한 영역 분할 수단;

상기 영역 분할 수단에서 분할한 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출한 후에 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하기 위한 화자 영역 추출 수단; 및

상기 화자 영역 추출 수단에서 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하기 위한 배경 이미지 변조 수단

을 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 2 항에 있어서,

상기 화자 영역 추출 수단은,

상기 영역 분할 수단에서 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하기 위한 영역 이득 계산 수단;

상기 영역 이득 계산 수단에서 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출하기 위한 영역 상태 결정 수단; 및

상기 영역 상태 결정 수단에서 추출한 화자 영역에 대한 매스크 이미지를 생성하기 위한 매스크 이미지 생성 수단

을 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 2 항에 있어서,

상기 화자 영역 추출 수단은,

상기 추출한 화자 영역들 중에서 화자 영역으로 잘못 추출된 움직이는 배경 영역들을 정정하기 위하여, 각 영역들의 접촉 관계를 고려하여 이웃 관계 그래프를 생성하여 영역을 그룹화한 후에, 사람 피부색과 크기를 이용하여 화자 그룹(영역)을 추출하는 기능을 더 수행하는 것을 특징으로 하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
영상 전화기에 있어서,

외부의 피사체를 촬상하여 영상통화 이미지를 입력하기 위한 통화영상 입력 수단;

상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역의 매스크 이미지를 생성하여 배경 이미지를 변조하기 위한 배경 변조 수단;

상기 배경 변조 수단에서 변조한 영상통화 이미지를 인코딩하여 소정 포맷으로 압축하고, 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제하여 디코딩하기 위한 코딩/디코딩 수단;

동영상 통화 모드 요구에 따라 상기 코딩/디코딩 수단을 제어하여 상기 상대방 단말기 측으로부터 수신한 영상통화 이미지의 압축을 해제한 후 디코딩시키고, 상기 배경 변조 수단에서 변조한 영상통화 이미지를 상기 코딩/디코딩 수단을 제어하여 인코딩시킨 후 소정 포맷으로 압축하여 상기 상대방 단말기 측으로 송신시키기 위한 제어 수단; 및

상기 제어 수단의 제어에 따라 상기 코딩/디코딩 수단으로부터의 영상통화 이미지를 디스플레이하기 위한 표시 수단

을 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 5 항에 있어서,

상기 배경 변조 수단은,

상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하기 위한 영역 분할 수단;

상기 영역 분할 수단에서 분할한 각 영역의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역을 추출한 후에 상기 추출한 화자 영역에 대한 매스크 이미지를 생성하기 위한 화자 영역 추출 수단; 및

상기 화자 영역 추출 수단에서 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하기 위한 배경 이미지 변조 수단

을 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 6 항에 있어서,

상기 화자 영역 추출 수단은,

상기 추출한 화자 영역들 중에서 화자 영역으로 잘못 추출된 움직이는 배경 영역들을 정정하기 위하여, 각 영역들의 접촉 관계를 고려하여 이웃 관계 그래프를 생성하여 영역을 그룹화한 후에, 사람 피부색과 크기를 이용하여 화자 그룹(영역)을 추출하는 기능을 더 수행하는 것을 특징으로 하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 배경 변조 수단은,

상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지의 현재 이미지 프레임과 이전 이미지 프레임을 비교하여 카메라 모션에 의한 배경의 움직임이 확인됨에 따라 이전 이미지 프레임을 변환하여 현재 이미지 프레임의 배경과 이전 이미지 프레임의 배경을 일치시키기 위한 카메라 모션 벌충 수단

을 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 배경 변조 수단은,

상기 통화영상 입력 수단으로부터 입력되는 영상통화 이미지에 포함되어 있 는 노이즈 성분을 제거하기 위한 잡음 제거 수단

을 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 배경 변조 수단은,

특정 프레임 이미지에 대하여 배경 이미지를 변조한 후부터, 다음으로 입력되는 현재 프레임 이미지에 대해서 화자 영역 매스크 이미지를 구축할 것인지 또는 이전 프레임 이미지에 대한 화자 영역 매스크 이미지를 재사용하여 바로 상기 배경 이미지 변조 과정으로 건너뛸 것인지를 판별하여 프레임을 스킵하는 기능을 더 수행하는 것을 특징으로 하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 배경 변조 수단은,

상기 통화영상 입력 수단으로부터 입력되는 현재 프레임 이미지의 크기를 축소시키는 수단; 및

상기 배경 이미지 변조 과정 수행 직전에 원래 크기로 매스크 이미지를 복구 하기 위한 수단

을 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 배경 변조 수단은,

최종적으로 결정된 카메라 모션에 관한 매개 변수를 조사하여 이전 프레임 이미지의 변환이 필요한지를 판단하여 이전 프레임 이미지를 변환하지 않고 재사용하는 기능을 더 수행하는 것을 특징으로 하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 배경 변조 수단은,

상기 영역 분할 수단에서 영역 분할 후 만들어진 영역들을, 두 이웃 영역들 간의 평균 색상차, 경계선 길이, 경계선 픽셀들 간의 색상차를 고려하여, 병합하여 영역들의 개수를 줄이는 수단

을 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 기능을 가지는 영상 전화기.
화자 영역의 매스크 이미지를 이용한 배경 변조 방법에 있어서,

영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 단계;

배경 변조를 요구받는 단계;

상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 단계;

상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하는 영역 이득 계산 단계;

상기 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출하는 화자 영역 추출 단계;

상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 단계;

상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 단계; 및

상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 단계

를 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
화자 영역의 매스크 이미지를 이용한 배경 변조 방법에 있어서,

영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 단계;

배경 변조를 요구받는 단계;

상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 단계;

상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역을 추출하는 화자 영역 추출 단계;

상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 단계;

상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 단계; 및

상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 단계

를 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 14 항 또는 제 15 항에 있어서,

상기 화자 영역에 속할 때의 이득은 하기의 [수학식 2]와 같이 계산하고, 상기 배경 영역에 속할 때의 이득은 하기의 [수학식 3]과 같이 계산하는 것을 특징으 로 하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.

[수학식 2]

[수학식 3]

(여기서, num_pixel은 영역의 픽셀 개수이고, P_motion은 [-1, 1]의 값으로서, 각 영역의 픽셀들에 대해서, 현재 이미지와 이전 (변환된) 이미지에서의 명도 차가 거의 없을 때 -1에 가깝고, 명도 차가 크면 1에 가깝다. P_{motion_memory}는 [-0.5, 1]사이의 값으로서, 고려되는 영역이 예전부터 움직임이 계속 있어 왔다면 1에 가까워지고, 예전에 움직임이 없었다면 -0.5를 가지게 된다. P_skin은 [0, 1]사이의 값으로서, 각 영역의 픽셀 대다수가 사람 피부색 영역에 속하면 1이 된다. P_{class_memory}는 [-0.5, 1]사이의 값으로서, 고려되는 영역이 예전부터 상태 F이었을 때는 1에 가깝고, 상태 B이었을 때는 -0.5에 가깝다. P_neighbor는 [-1, 1]사이의 값으로서, 고려되는 영역과 이웃 영역들 간의 관계를 나타낸다. 고려되는 영역과 이웃 영역들 간의 가중치의 합이 바로 P_neighbor이다.)
제 16 항에 있어서,

상기 화자 영역 추출 단계의 영역 상태 결정 과정은,

상기 계산한 각 영역들의 이득의 합이 가장 크도록 영역들의 상태를 결정하는 것을 특징으로 하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 14 항 또는 제 15 항에 있어서,

상기 입력되는 영상통화 이미지의 현재 이미지 프레임과 이전 이미지 프레임을 비교하여 카메라 모션에 의한 배경의 움직임이 확인됨에 따라 이전 이미지 프레임을 변환하여 현재 이미지 프레임의 배경과 이전 이미지 프레임의 배경을 일치시키는 카메라 모션 벌충 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 18 항에 있어서,

상기 입력되는 영상통화 이미지에 포함되어 있는 노이즈 성분을 제거하는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 19 항에 있어서,

사용자가 상대 통화자에게 전화를 거는 동안과 사용자가 상대 통화자가 전화 받기를 기다리는 동안 또는 상대 통화자로부터 전화가 와서 전화음이 울리는 동안, 영상 전화기가 상기 각 단계를 수행하여 배경 이미지를 변조한 상태로 사용자(화자)의 모습을 디스플레이하여 주고, 그에 따른 사용자로부터의 선택 신호에 따라 그 때의 영역들의 정보를 이용하여 후속 이미지를 처리하여 현재 매스크 이미지의 경향을 상속시키는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 19 항에 있어서,

상기 추출한 화자 영역들 중에서 화자 영역으로 잘못 추출된 움직이는 배경 영역들을 정정하기 위하여, 각 영역들의 접촉 관계를 고려하여 이웃 관계 그래프를 생성하여 영역을 그룹화한 후에, 사람 피부색과 크기를 이용하여 화자 그룹(영역)을 추출하는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 19 항에 있어서,

특정 프레임 이미지에 대하여 배경 이미지를 변조한 후부터, 다음으로 입력되는 현재 프레임 이미지에 대해서 화자 영역 매스크 이미지를 구축할 것인지 또는 이전 프레임 이미지에 대한 화자 영역 매스크 이미지를 재사용하여 바로 상기 배경 이미지 변조 단계로 건너뛸 것인지를 판별하여 프레임을 스킵하는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 19 항에 있어서,

입력되는 현재 프레임 이미지의 크기를 축소하는 단계; 및

상기 배경 이미지 변조 단계 수행 직전에 원래 크기로 매스크 이미지를 복구하는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 19 항에 있어서,

상기 카메라 모션 벌충 단계를 수행 중 최종적으로 결정된 카메라 모션에 관한 매개 변수를 조사하여 이전 프레임 이미지의 변환이 필요한지를 판단하여 이전 프레임 이미지를 변환하지 않고 재사용하는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
제 19 항에 있어서,

상기 영역 분할 단계를 수행한 후 만들어진 영역들을, 두 이웃 영역들 간의 평균 색상차, 경계선 길이, 경계선 픽셀들 간의 색상차를 고려하여, 병합하여 영역들의 개수를 줄이는 단계

를 더 포함하는 화자 영역의 매스크 이미지를 이용한 배경 변조 방법.
프로세서를 구비한 영상 전화기에,

영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 기능;

배경 변조를 요구받는 기능;

상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 기능;

상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하는 영역 이득 계산 기능;

상기 계산한 이득에 따라 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하여 화자 영역을 추출하는 화자 영역 추출 기능;

상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 기능;

상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 기능; 및

상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
프로세서를 구비한 영상 전화기에,

영상 통화 모드 요구에 따라 영상통화 이미지를 입력받는 기능;

배경 변조를 요구받는 기능;

상기 입력받은 영상통화 이미지의 프레임에서 픽셀들을 묶어 의미있는 영역을 생성하여 프레임을 분할하는 영역 분할 기능;

상기 분할한 각 영역에 대하여 화자 영역에 속할 때의 이득과 배경 영역에 속할 때의 이득을 계산하여 해당 영역이 속하는 영역 상태(화자 영역 또는 배경 영역)를 결정하는 과정과, 현재 프레임의 일부 픽셀을 임의적으로 선택하여 이전 프레임의 해당 픽셀들이 속한 영역의 상태를 상속하게 하는 몬테 카를로(Monte Carlo) 방식을 교대로 사용하여 화자 영역을 추출하는 화자 영역 추출 기능;

상기 추출한 화자 영역에 대한 매스크 이미지를 생성하는 매스크 이미지 생성 기능;

상기 생성한 매스크 이미지를 이용하여 배경 이미지를 변조하는 배경 이미지 변조 기능; 및

상기 변조한 영상통화 이미지를 소정 포맷으로 압축하여 전송하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 26 항 또는 제 27 항에 있어서,

상기 입력되는 영상통화 이미지의 현재 이미지 프레임과 이전 이미지 프레임을 비교하여 카메라 모션에 의한 배경의 움직임이 확인됨에 따라 이전 이미지 프레임을 변환하여 현재 이미지 프레임의 배경과 이전 이미지 프레임의 배경을 일치시키는 카메라 모션 벌충 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 28 항에 있어서,

상기 입력되는 영상통화 이미지에 포함되어 있는 노이즈 성분을 제거하는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 29 항에 있어서,

사용자가 상대 통화자에게 전화를 거는 동안과 사용자가 상대 통화자가 전화 받기를 기다리는 동안 또는 상대 통화자로부터 전화가 와서 전화음이 울리는 동안, 영상 전화기가 상기 각 기능을 수행하여 배경 이미지를 변조한 상태로 사용자(화자)의 모습을 디스플레이하여 주고, 그에 따른 사용자로부터의 선택 신호에 따라 그 때의 영역들의 정보를 이용하여 후속 이미지를 처리하여 현재 매스크 이미지의 경향을 상속시키는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 29 항에 있어서,

상기 추출한 화자 영역들 중에서 화자 영역으로 잘못 추출된 움직이는 배경 영역들을 정정하기 위하여, 각 영역들의 접촉 관계를 고려하여 이웃 관계 그래프를 생성하여 영역을 그룹화한 후에, 사람 피부색과 크기를 이용하여 화자 그룹(영역)을 추출하는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 29 항에 있어서,

특정 프레임 이미지에 대하여 배경 이미지를 변조한 후부터, 다음으로 입력되는 현재 프레임 이미지에 대해서 화자 영역 매스크 이미지를 구축할 것인지 또는 이전 프레임 이미지에 대한 화자 영역 매스크 이미지를 재사용하여 바로 상기 배경 이미지 변조 기능으로 건너뛸 것인지를 판별하여 프레임을 스킵하는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 29 항에 있어서,

입력되는 현재 프레임 이미지의 크기를 축소하는 기능; 및

상기 배경 이미지 변조 기능 수행 직전에 원래 크기로 매스크 이미지를 복구하는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 29 항에 있어서,

상기 카메라 모션 벌충 기능을 수행 중 최종적으로 결정된 카메라 모션에 관한 매개 변수를 조사하여 이전 프레임 이미지의 변환이 필요한지를 판단하여 이전 프레임 이미지를 변환하지 않고 재사용하는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 29 항에 있어서,

상기 영역 분할 기능을 수행한 후 만들어진 영역들을, 두 이웃 영역들 간의 평균 색상차, 경계선 길이, 경계선 픽셀들 간의 색상차를 고려하여, 병합하여 영역들의 개수를 줄이는 기능

을 더 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.