KR20100041061A

KR20100041061A - 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말

Info

Publication number: KR20100041061A
Application number: KR1020080100051A
Authority: KR
Inventors: 전재욱; 진승훈; 박종현; 김동균; 조윤찬; 조영준
Original assignee: 성균관대학교산학협력단
Priority date: 2008-10-13
Filing date: 2008-10-13
Publication date: 2010-04-22

Abstract

본 발명은 화자의 얼굴을 확대하는 영상 통화 서비스 방법 및 이를 위한 단말에 관한 것으로, 영상 통화 단말은 촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계, 상기 영상 통화 단말은 상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계 및 영상 통화 단말은 결정된 발화자 주위 소정의 영역을 추출한 후 추출된 영상 데이터만을 상대방 영상 통화 단말로 전송하는 단계를 포함하는 영상 통화 방법 및 이를 위한 단말을 제공함으로써 발화자를 중심으로 한 고해상도의 영상 통화가 가능하다.

영상 통화, 화자, 얼굴 인식, 해상도 변환

Description

화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말{Video Telephony Method Magnifying the Speaker's Face and Terminal Using Thereof}

본 발명은 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말에 관한 것으로, 특히 촬영된 영상 중 입의 움직임 또는 다중 마이크를 이용한 음성 입력 방향을 고려하여 화자를 결정하고 결정된 화자의 얼굴에 대한 이미지를 전송하는 방법 및 이를 위한 단말에 관한 것이다.

일반적으로 종래의 이동 통신 단말기는 음성통화 위주로 사용되었지만, 기술의 발달로 화상 통화가 가능한 시스템이 구현되고 이동 통신과 관련한 기술 또한 많이 발전하여 현재는 화상 통화가 가능하게 되었다. 또한, 이동 통신 단말기를 이용한 새로운 서비스에 대한 사용자의 요구 때문에 화상 통화에 대한 관심은 더욱 높아지고 있는 상황이다.

일반적인 영상통화에서 모바일 기기의 카메라는 통화를 하는 사람의 수에 관계없이 일정한 해상도로 영상을 캡쳐하고 캡쳐된 영상을 상대방 영상 통화 단말로 전송한다. 국내에서 주로 사용되는 3세대 이동통신의 영상 통화 단말은 174×144의 해상도를 가지는 QCIF 규격으로 영상 데이터를 송수신한다. 많은 사람들이 함께 영상통화를 이용하는 경우 일반적인 영상 통화 방식에 따르면 작은 사이즈의 화면에 많은 사람들이 한꺼번에 촬영되므로 사람들 각각의 얼굴이 매우 작게 표현된다. 따라서 통화 상대자는 화면에 보이는 사람들의 얼굴을 분간하기 힘들며, 현재 어떤 사람이 말을 하고 있는지 알아내기가 어렵다는 문제점을 가지고 있다.

따라서 본 발명은 상기한 종래 기술에 따른 문제점을 해결하기 위한 것으로, 특히 하나의 영상 통화 단말로 여러 사람이 함께 영상통화를 이용하는 경우에도 영상 통화 단말의 카메라에 촬영되는 사람들 중에서 현재 말을 하고 있는 사람 또는 원하는 사람의 얼굴을 결정하고, 결정된 얼굴을 중심으로 한 소정의 영역에 대하여 고해상도의 영상 데이터를 전송하는 영상 통화 방법 및 이를 위한 단말의 제공을 그 목적으로 한다.

본 발명의 일 측면에 따른 영상 통화 방법은 영상 통화 단말은 촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계; 상기 영상 통화 단말은 상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단 계; 및 상기 영상 통화 단말은 결정된 발화자 주위 소정의 영역을 추출한 후 추출된 영상 데이터만을 상대방 영상 통화 단말로 전송하는 단계를 포함한다.

이 경우 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는, 입력된 영상에 존재하는 사람들의 입술을 인식하는 단계; 와 상기 인식된 입술이 일정 시간 이상 움직이는 사람을 현재 발화자로 결정하는 단계를 포함할 수 있다. 여기서 상기 입술을 인식하는 단계는 입 영역에서의 에지를 구하고 그 사이각, 방향, 곡률 중 적어도 하나의 조건을 이용하여 입술의 외곽선을 인식하는 것을 특징으로 할 수 있다.

또한 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는, 적어도 두 개 이상의 마이크를 통해 상기 영상 통화 단말로 입력된 신호들의 지연 시간을 이용하여 발화자를 결정하는 것을 특징으로 할 수 있다.

한편 상기 입력되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식한 후 인식된 사람의 얼굴 영역을 마킹하는 단계를 더 포함하는 것이 더 바람직하다. 이 경우 상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는, 사용자가 마킹된 다수의 사람 얼굴 영역 중 선택한 사람을 현재 발화자로 결정할 수 있다.

상기 촬영된 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계는, 대상이 되는 얼굴과 비교할 표준 템플릿을 작성하는 단계; 와 상기 촬영된 영상과 상기 표준 템플릿을 비교하여 얼굴을 인식하는 단계를 포함할 수 있다.

상기 소정의 영역을 추출하는 단계는, 상기 입력된 영상 중 발화자의 얼굴 영역을 추출하는 것을 특징으로 한다. 이 경우 상기 추출된 영역의 픽셀에 대하여 샘플링 또는 보간 중 적어도 하나의 영상 처리를 하는 단계를 더 포함할 수 있다.

본 발명의 다른 측면에 따른 영상 통화 단말은 카메라를 통해 촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 얼굴 인식부; 상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 발화자 결정부; 및 상기 결정된 발화자 주위 소정의 영역을 추출하는 영상처리부; 및 상기 추출된 영상을 상대방 영상 통화 단말로 전송하는 통신제어부를 포함한다.

상기 발화자 결정부는, 입력된 영상에 존재하는 사람들의 입술을 인식하고, 상기 인식된 입술이 일정 시간 이상 움직이는 사람을 현재 발화자로 결정할 수 있다. 이 때 입 영역에서의 에지를 구하고 그 사이각, 방향, 곡률 중 적어도 하나의 조건을 이용하여 입술의 외곽선을 인식할 수 있다. 또한 발화자 결정부는 적어도 두 개 이상의 마이크를 통해 상기 영상 통화 단말로 입력된 신호들의 지연 시간을 이용하여 발화자를 결정할 수 있다.

한편 상기 얼굴 인식부는, 촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식한 후 인식된 사람의 얼굴 영역을 마킹할 수도 있다. 상기 발화자 결정부는, 사용자가 마킹된 다수의 사람 얼굴 영역 중 선택한 사람을 현재 발화자로 결정할 수 있다.

상기 얼굴 인식부는, 대상이 되는 얼굴과 비교할 표준 템플릿을 작성하여 저장해두고, 상기 촬영된 영상과 상기 표준 템플릿을 비교하여 얼굴을 인식하는 것을 특징으로 하는 영상 통화 단말.

한편 상기 영상 처리부는, 상기 촬영된 영상 중 현재 발화자의 얼굴 영역을 추출하는 것을 특징으로 할 수 있다. 이 경우 상기 영상 처리부는, 상기 추출된 영역의 픽셀에 대해 샘플링 또는 보간 중 적어도 하나의 영상 처리를 할 수 있다.

본 발명의 또 다른 측면에 따른 영상 처리 방법은 입력된 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계; 상기 인식된 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계; 및 상기 결정된 발화자 주위 소정의 영역을 추출하는 단계를 포함한다.

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는, 입력된 영상 중 사람 얼굴의 입의 움직임을 체크하는 단계; 일정 시간 이상 동안 입술이 움직이는 사람을 발화자로 결정하는 단계를 포함할 수 있다.

또한 상기 입력된 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계는, 대상이 되는 얼굴과 비교할 표준 템플릿을 작성하는 단계; 와 상기 촬영된 영상과 상기 표준 템플릿을 비교하여 얼굴을 인식하는 단계를 포함할 수 있다.

본 발명에 따른 영상 처리 방법은 상기 추출된 영역의 픽셀에 대하여 샘플링 또는 보간 중 적어도 하나의 영상 처리를 하는 단계를 더 포함하는 것이 보다 바람직하다.

상기한 바와 같이 본 발명에 따른 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말에 따르면 일대다(1 : 多) 또는 다대다(多 : 多) 영상 통화를 하 는 경우 발화자를 중심으로 고해상도의 영상을 전송하므로 말하고 있는 사람의 표정이나 동작을 인식하고 말하고자 하는 내용을 전달하는 것이 수월하다.

또한, 고해상도 카메라에서 영상 내에 존재하는 모든 얼굴을 검출하고 다수의 해상도에 따른 영상을 이용하여 영상통화를 할 수 있으므로 기존의 영상통화와 동일한 서비스를 이용하는 것도 가능하다.

뿐만 아니라 사용자는 통화 영상에 표현된 특정인의 얼굴을 수동 또는 자동으로 선택할 수 있으므로 사용자의 의도나 주위 환경에 따라 최적화되어 있는 영상통화를 실시할 수 있다는 장점이 존재한다.

이하, 본 발명에 따른 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말에 대하여 첨부된 도면을 참조하여 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 화자의 얼굴을 확대하기 위한 영상 통화 단말의 구성을 나타낸 도면이다.

도 1에 도시된 바와 같이 본 발명에 따른 영상 통화 단말(10)은 카메라(11), 얼굴인식부(12), 발화자 결정부(13), 영상처리부(14), 디스플레이부(15), 키 입력부(16) 및 통신제어부(17) 등으로 구성될 수 있다.

카메라(11)는 영상처리부(14) 등의 제어를 받아 영상 통화 단말(10) 주위에 위치하는 사용자 등의 전경 및 그 배경 등을 촬영하는 구성 요소에 해당한다. 본 발명에 따른 카메라(10)는 영상처리부(14)가 요구한 해상도에 따라 소정의 영역을 촬영할 수 있다.

얼굴인식부(12)는 카메라(11)로부터 전달받은 영상에서 사람의 얼굴만을 검출, 인식하는 기능을 담당한다. 얼굴인식부(12)는 인식된 사람의 얼굴 영역을 사각형, 원형 등의 도형을 이용하여 마킹할 수도 있다. 이와 같이 마킹하는 이유 중 하나는 사용자가 방향키 또는 터치스크린의 인터페이스를 이용하여 수동으로 발화자를 선택할 수 있도록 하기 위해서이다. 얼굴인식부(12)는 눈, 코, 입, 눈썹 등 각각의 얼굴 성분들이 서로 일정한 거리와 위치 관계를 가지고 있다는 특징을 이용하여 입력된 영상에서 얼굴을 인식할 수 있다.

또한 본 발명에 따른 얼굴인식부(12)는 얼굴에 대한 표준 템플릿(Template)을 생성하여 두고, 입력되는 영상과 표준 템플릿을 비교함으로써 얼굴을 인식할 수 있다. 이와 같이 템플릿을 이용하는 경우 얼굴의 특징 성분이 용이하게 검출되도록 존재할 필요가 없어 조명 변화나 배경의 영향을 덜 받는 다는 장점을 얻을 수 있다. 다양한 크기와 모양의 얼굴 템플릿을 제작하여 두고, 입력되는 영상과 다수의 템플릿을 상호 비교함으로써 얼굴을 인식할 수 있다.

뿐만 아니라, 본 발명에 따른 얼굴인식부(12)는 외형 기반 방법을 이용할 수도 있다. 외형 기반 방법이란 학습 영상 집합에 의해 학습된 모델을 이용해서 얼굴을 검출하는 방법이다. 이 방법은 복잡한 영상에서 얼굴영역을 검출하기 위해 기존의 얼굴 영역과 얼굴이 아닌 영역의 학습 데이터 집단을 이용해 학습된 고유 벡터들을 만들고 이를 이용해 얼굴을 검출한다. 상기 외형 기반 방법은 학습을 통해 여러 제약 조건들을 극복할 수 있어 보다 인식률이 높다.

발화자 결정부(13)는 입력된 영상에서 현재 말하고 있는 사람, 즉 화자(話者)를 결정하는 구성 요소에 해당한다. 이와 같이 화자를 결정하는 방법으로서 본 발명은 다음과 방법들을 제안한다.

먼저 화자 결정은 입모양의 움직임을 이용하여 결정될 수 있다. 얼굴을 인식하는 방법과 유사하게 화자 결정부(13)는 입력되는 영상에서 입술을 인식한다. 다른 영역은 상대적으로 움직이지 않은 상태에서 입술 영역만 움직이는 경우 화자 결정부(13)는 입술을 움직이는 사람을 화자로 결정하는 것이다.

이 경우 발화자 결정부(13)는 입술이 움직인다고 바로 화자를 결정하는 것보다 일정 시간 동안 입술이 움직이는 경우 해당 사람을 화자로 결정함으로써 화자 결정 오류의 발생 빈도를 줄일 수 있다.

특히 본 발명에 따른 발화자 결정부(13)는 입술 형태를 찾기 위하여 입 영역에서 에지(Edge)를 구하고 사이각, 방향, 곡률(curvature) 등의 조건을 조사하여 입술의 외곽선을 인식하는 방법을 이용한다. 뿐만 아니라, 색을 이용한 입술 모델과 입의 형태적 특성을 반영하는 특징들을 사용하여 입술을 인식하는 방법 등을 이용하여 입술 형태를 인식할 수도 있다.

다른 실시예로, 발화자 결정부(13)는 입력되는 음성의 방향을 검출함으로써 화자를 결정할 수도 있다. 예를 들어 본 실시예에 따른 발화자 결정부(13)는 두 개 이상의 센서 또는 마이크를 이용할 수 있다. 복수 개의 센서가 감지한 음성 신호들 간의 시간 지연과 세기 차이를 이용하여 발화자 결정부(13)는 음원의 방향을 찾을 수 있다. 음원의 방향과 현재 촬영하고 있는 영상을 매칭하여 촬영된 영상 중 발화 자를 결정할 수 있다.

마지막 실시예로, 발화자 결정부(13)는 사용자가 수동으로 선택한 사람을 화자로 결정할 수도 있다. 위에서 설명한 바와 같이 얼굴인식부(12)는 검출한 사람의 얼굴에 도형을 이용하여 마킹을 할 수 있다. 다수의 사람 얼굴이 마킹되어 디스플레이되는 것이다. 이 때 사용자는 영상 통화 단말의 방향키 또는 터치패드 등의 키 입력부(16)를 이용하여 사람의 얼굴을 선택할 수 있다. 발화자 결정부(13)는 사용자가 선택한 사람을 발화자로 결정하는 것이다.

영상처리부(14)는 사용자가 선택한 화자의 얼굴을 고해상도로 전송할 수 있도록 전반적인 영상처리를 수행한다. 먼저, 영상처리부(14)는 카메라(11)로 하여금 종래의 영상통화시 전송할 수 있는 해상도보다 높은 해상도로 주위 피사체를 촬영하도록 제어한다.

발화자 결정부(13)는 상대적으로 고해상도로 촬영된 영상에 대해 화자를 결정하는데, 영상처리부(14)는 결정된 화자 주위의 영역을 잘라내게 된다. 이 때 영상처리부(14)는 영상통화 시 전송할 수 있는 해상도에 맞게 입력된 영상을 잘라내는 것이다.

바람직하게 영상처리부(14)는 촬영 영상 픽셀을 샘플링하거나 보간할 수도 있다. 영상처리부(14)는 이와 같은 영상처리를 통해 보다 좋은 품질의 영상을 얻을 수 있다.

통신제어부(17)는 영상처리부(14)가 이상에서 설명한 영상처리를 한 결과 영상을 상대방 영상 통화 단말로 전송하게 된다. 물론 이때 통신제어부(17)는 일반적 인 영상통화 시 전송할 수 있는 데이터 전송속도에 따라 영상을 전송하는 것이다. 이와 같은 작업을 통해 기존의 영상통화방법과 동일한 데이터 전송 속도를 이용하여, 고해상도의 발화자 얼굴 영상을 상대편 영상 통화 단말로 전송할 수 있다.

디스플레이부(15)에는 카메라(11)로 촬영된 영상 또는 상대방 영상 통화 단말 등으로부터 전달된 영상을 출력하기 위한 장치에 해당한다. 키 입력부(16)는 사용자가 영상 통화 단말(10)에 자신이 원하는 명령을 입력시키기 위한 인터페이스에 해당한다. 이와 같은 키 입력부(16)는 방향키, 숫자키, 터치스크린 등을 포함하며 본 발명은 위에 열거된 인터페이스에 한정되지 않는다.

도 2는 도 1의 영상 통화 단말이 수행하는 영상 처리 개념을 나타낸 도면이다.

도 2의 (A)에 도시된 바와 같이 일반적인 영상 통화 단말은 저해상도로 피사체를 촬영한다. 예를 들어, 도 2의 (A)의 촬영이미지는 340×240 해상도의 촬영 영상에 해당한다. 물론 현재 국내에서 주로 사용 중인 3세대 이동통신 영상통화는 174×144의 QCIF 해상도를 지원하지만, 종래의 영상 통화 단말은 320×240의 해상도를 가지는 이미지를 전송할 능력을 가지고 있는 것으로 가정하여 설명한다.

이에 반하여 본 발명에 따른 영상 통화 단말의 카메라는 도 2의 (A) 보다 높은 해상도로 피사체를 촬영한다. 상대적으로 고해상도로 촬영한 영상이 도 2의 (B) 이미지로 상기 도 2의 (B)이미지는 1152×864의 해상도를 가진다. 여기서 도 2의 (B) 이미지는 도 2의 (A) 이미지와 비교할 때 해상도가 다를 뿐 피사체는 동일한 것을 알 수 있다.

이 때 본 발명에 따른 영상 통화 단말은 도 2의 (B) 이미지에서 현재 말을 하고 있는 사람, 즉 화자를 결정하게 된다. 화자의 결정 후 영상 통화 단말은 도 2의 (A) 이미지와 같은 320×240의 크기로 화자의 얼굴 주위 영역을 잘라낸다. 이와 같이 잘라낸 영상이 도 2의 (C) 이미지에 해당한다. 도 2의 (C) 이미지는 도 2의 (A) 이미지와 동일한 해상도를 가진다. 따라서 종래의 영상 통화 단말도 정상적으로 도 2의 (C) 이미지를 상대방 영상 통화 단말로 전송할 수 있는 것이다. 물론, 도 2의 (C) 이미지를 필요에 따라 샘플링 또는 보간하여 보다 품질을 개선할 수도 있다. 이와 같은 과정을 통해 카메라 주위의 넓은 영역을 촬영한 저해상도의 영상 데이터가 아닌 고해상도의 발화자 얼굴 영상만을 전송함으로써 사용자는 보다 실감난 영상 통화를 즐길 수 있게 된다.

도 3은 본 발명의 다른 실시예에 따른 얼굴 검출 기반 영상 통화 방법을 나타낸 도면이다.

도 3에 도시한 바와 같이 먼저 영상 통화 장치는 고해상도로 카메라 주위의 영상을 촬영한다(S301). 이 경우 영상 통화 장치는 도 2의 (B)와 같은 이미지를 얻게 된다.

영상 통화 장치는 촬영된 영상 중 사람의 얼굴이 인식하고, 그 영역에 사각형 또는 원과 같은 도형으로 마킹한다(S302). 이 경우 촬영된 영상에 둘 이상의 얼굴이 존재하는 경우 영상 통화 장치는 둘 이상의 얼굴을 모두 인식하고 그에 따른 마킹을 할 수 있다.

S303 단계에서 화자 결정을 수동적으로 결정하도록 설정된 경우, 영상 통화 단말은 사용자로부터 현재 촬영된 영상 중 화자를 입력받는다(S304). 이 경우 사용자는 영상 통화 단말의 방향키 또는 터치패드 등을 이용하여 화자 또는 자신이 원하는 인물을 선택할 수 있다.

만일 S303 단계에서 화자 결정을 자동적으로 결정하도록 설정된 경우, 본 발명에 따른 영상 통화 단말은 촬영된 영상의 얼굴 또는 음향의 방향을 이용하여 화자의 얼굴을 결정한다(S305). 특히 S305 단계에서 영상 통화 단말은 입 영역이 일정 시간 이상동안 움직이는 얼굴을 화자로 결정할 수 있다. 또한, 촬영된 영상의 얼굴 중 입 영역의 움직임이 아닌 음성 발화 방향을 감지하여 화자를 결정할 수도 있다. 이러한 구체적 과정은 위에서 설명한 바 있다.

S304 단계 또는 S305 단계에 따라 화자가 결정된 경우 영상 통화 단말은 촬영된 화자의 얼굴만을 잘라내는 영상 처리를 수행한다(S306). 영상 통화 단말은 전송 가능한 영상 해상도에 맞게 화자의 얼굴만을 잘라내는 영상 처리를 수행하는 것이 바람직하다. 이 경우 영상 통화 단말은 샘플링을 하거나 보간을 하는 등의 추가적인 영상 처리를 수행할 수도 있다.

영상 통화 단말은 S306 단계에서 획득한 화자의 얼굴 영상을 RF 처리하여 상대편 영상 통화 단말로 전송한다(S307). 이와 같은 방법을 이용하여 두 영상 통화 단말의 사용자는 필요없는 배경이 다수 존재하는 저해상도의 화면이 아닌 화자의 얼굴이 강조된 고해상도의 화면을 즐기면서 영상 통화를 수행할 수 있다.

도 4는 본 발명에 따른 영상 통화 중 화자 얼굴 자동 선택 동작 화면을 나타낸 도면이다.

도 4의 (A) 이미지는 본 발명에 따른 영상 통화 단말의 카메라가 고해상도로 세 명의 여성을 촬영을 하고 있음을 보여주고 있다. 도 4의 (A)의 녹색 사각형 마킹은 영상 통화 단말이 화면에 촬영된 화면에 등장하는 사람들의 얼굴이다. 도 4의 (A)는 영상 통화 단말이 정상적으로 촬영된 영상에 존재하는 사람의 얼굴을 인식한 상태이다.

이와 같이 촬영된 영상에 존재하는 사람의 얼굴을 인식한 후 본 발명에 따른 영상 통화 단말은 각 얼굴 중에서 입모양을 감지한다. 영상 통화 단말은 소정의 시간 동안 감지하여 입이 움직이는 경우, 그 사람을 발화자로 결정한다. 물론, 위에서 살펴본 바와 같이 영상 통화 단말은 다중 마이크를 내장하여 발화자의 음성발화방향을 기반으로 발화자를 결정할 수도 있다.

현재 도 4에서는 가운데 인물의 입이 움직인 경우이며 영상 통화 단말은 가운데 인물을 화자로 결정한다. 화자로 결정된 인물의 얼굴 영역에는 녹색이 아닌 적색의 사각형 마킹이 될 수 있다.

도 5는 본 발명에 따른 영상 통화 중 화자 얼굴 수동 선택 동작 화면을 나타낸 도면이다.

도 4와 마찬가지로 본 발명에 따른 영상 통화 단말의 카메라는 고해상도로 화면 속의 모든 사람의 얼굴을 인식한다. 즉, 도 5에 도시된 화면에 나타난 사람들의 얼굴은 녹색의 사각형으로 마킹되어 있다.

도 5에서는 사용자가 영상 통화 단말의 방향키 또는 터치패드와 같은 인터페이스를 이용하여 마킹되어 있는 얼굴 화자의 얼굴을 선택한 경우이다. 이 때 사용자는 반드시 화자를 선택할 필요는 없으며, 자신이 확대하여 보고 싶은 인물의 얼굴을 선택할 수도 있다.

도 6은 선택된 얼굴 영상을 이용하여 영상 통화를 수행하는 화면을 나타낸 도면이다.

도 4에서는 촬영된 영상에서 세 인물 중 가운데의 인물이 선택되었으며, 도 5에서는 촬영된 영상에서 가장 우측의 인물이 선택되었다. 송수신측 영상 통화 단말은 각각 선택된 인물의 얼굴만을 잘라내는 영상 편집을 수행하고 이를 상대방 영상 통화 단말로 전송한다.

도 6에 도시된 영상 통화 단말에서 하측 영역에는 도 4에서 선택된 가운데 여성의 얼굴이 디스플레이된다. 마찬가지로 도 6의 영상 통화 단말에서 상측 영역에는 도 5에서는 선택된 인물의 얼굴이 확대되어 디스플레이된다. 이 때 디스플레이된 영상은 일반 영상 통화의 경우보다 고해상도인 영상에 해당한다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해 할 것이다. 그러므로 본 발명의 권리 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의하여 정해져야 한다.

도 1은 본 발명의 일 실시예에 따른 화자의 얼굴을 확대하기 위한 영상 통화 단말의 구성을 나타낸 도면.

도 2는 도 1의 영상 통화 단말이 수행하는 영상 처리 개념을 나타낸 도면.

도 3은 본 발명의 다른 실시예에 따른 얼굴 검출 기반 영상 통화 방법을 나타낸 도면.

도 4는 본 발명에 따른 영상 통화 중 화자 얼굴 자동 선택 동작 화면을 나타낸 도면.

도 5는 본 발명에 따른 영상 통화 중 화자 얼굴 수동 선택 동작 화면을 나타낸 도면.

도 6은 선택된 얼굴 영상을 이용하여 영상 통화를 수행하는 화면을 나타낸 도면.

<도면의 주요 부분에 대한 부호 설명>

10 : 영상 통화 단말 11 : 카메라

12 : 얼굴인식부 13 : 발화자 결정부

14 : 영상처리부 15 : 디스플레이부

16 : 키 입력부 17 : 통신제어부

Claims

영상 통화 단말은 촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계;

상기 영상 통화 단말은 상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계; 및

상기 영상 통화 단말은 결정된 발화자 주위 소정의 영역을 추출한 후 추출된 영상 데이터만을 상대방 영상 통화 단말로 전송하는 단계를 포함하는 영상 통화 방법.
제1항에 있어서,

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는,

입력된 영상에 존재하는 사람들의 입술을 인식하는 단계; 와

상기 인식된 입술이 일정 시간 이상 움직이는 사람을 현재 발화자로 결정하는 단계를 포함하는 영상 통화 방법.
제2항에 있어서,

상기 입술을 인식하는 단계는,

입 영역에서의 에지를 구하고 그 사이각, 방향, 곡률 중 적어도 하나의 조건 을 이용하여 입술의 외곽선을 인식하는 것을 특징으로 하는 영상 통화 방법.
제1항에 있어서,

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는,

적어도 두 개 이상의 마이크를 통해 상기 영상 통화 단말로 입력된 신호들의 지연 시간을 이용하여 발화자를 결정하는 것을 특징으로 하는 영상 통화 방법.
제1항에 있어서,

상기 입력되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식한 후 인식된 사람의 얼굴 영역을 마킹하는 단계를 더 포함하는 영상 통화 방법.
제5항에 있어서,

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는,

사용자가 마킹된 다수의 사람 얼굴 영역 중 선택한 사람을 현재 발화자로 결정하는 것을 특징으로 하는 영상 통화 방법.
제1항에 있어서,

상기 촬영된 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계는,

대상이 되는 얼굴과 비교할 표준 템플릿을 작성하는 단계; 와

상기 촬영된 영상과 상기 표준 템플릿을 비교하여 얼굴을 인식하는 단계를 포함하는 영상 통화 방법.
제1항에 있어서,

상기 소정의 영역을 추출하는 단계는,

상기 입력된 영상 중 발화자의 얼굴 영역을 추출하는 것을 특징으로 하는 영상 통화 방법.
제8항에 있어서,

상기 추출된 영역의 픽셀에 대하여 샘플링 또는 보간 중 적어도 하나의 영상 처리를 하는 단계를 더 포함하는 것을 특징으로 하는 영상 통화 방법.
카메라를 통해 촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 얼굴 인식부;

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 발화자 결정부; 및

상기 결정된 발화자 주위 소정의 영역을 추출하는 영상처리부; 및

상기 추출된 영상을 상대방 영상 통화 단말로 전송하는 통신제어부를 포함하는 영상 통화 단말.
제10항에 있어서,

상기 발화자 결정부는,

입력된 영상에 존재하는 사람들의 입술을 인식하고, 상기 인식된 입술이 일정 시간 이상 움직이는 사람을 현재 발화자로 결정하는 것을 특징으로 하는 영상 통화 단말.
제11항에 있어서,

상기 발화자 결정부는,

입 영역에서의 에지를 구하고 그 사이각, 방향, 곡률 중 적어도 하나의 조건을 이용하여 입술의 외곽선을 인식하는 것을 특징으로 하는 영상 통화 단말.
제1항에 있어서,

상기 발화자 결정부는,

적어도 두 개 이상의 마이크를 통해 상기 영상 통화 단말로 입력된 신호들의 지연 시간을 이용하여 발화자를 결정하는 것을 특징으로 하는 영상 통화 단말.
제10항에 있어서,

상기 얼굴 인식부는,

촬영되는 영상에 존재하는 적어도 하나의 사람 얼굴을 인식한 후 인식된 사 람의 얼굴 영역을 마킹하는 것을 특징으로 하는 영상 통화 단말.
제14항에 있어서,

상기 발화자 결정부는,

사용자가 마킹된 다수의 사람 얼굴 영역 중 선택한 사람을 현재 발화자로 결정하는 것을 특징으로 하는 영상 통화 단말.
제10항에 있어서,

상기 얼굴 인식부는,

대상이 되는 얼굴과 비교할 표준 템플릿을 작성하여 저장해두고, 상기 촬영된 영상과 상기 표준 템플릿을 비교하여 얼굴을 인식하는 것을 특징으로 하는 영상 통화 단말.
제10항에 있어서,

상기 영상 처리부는,

상기 촬영된 영상 중 현재 발화자의 얼굴 영역을 추출하는 것을 특징으로 하는 영상 통화 단말.
제17항에 있어서,

상기 영상 처리부는,

상기 추출된 영역의 픽셀에 대해 샘플링 또는 보간 중 적어도 하나의 영상 처리를 하는 것을 특징으로 하는 영상 통화 단말.
입력된 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계;

상기 인식된 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계; 및

상기 결정된 발화자 주위 소정의 영역을 추출하는 단계를 포함하는 영상 처리 방법.
제19항에 있어서,

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는,

입력된 영상 중 사람 얼굴의 입의 움직임을 체크하는 단계;

일정 시간 이상 동안 입술이 움직이는 사람을 발화자로 결정하는 단계를 포함하는 영상 처리 방법
제19항에 있어서,

상기 적어도 하나의 사람 얼굴에 대한 영상을 이용하여 현재 발화자를 결정하는 단계는,

적어도 두 개 이상의 마이크를 통해 상기 영상 통화 단말로 입력된 신호들의 지연 시간을 이용하여 발화자를 결정하는 것을 특징으로 하는 영상 처리 방법.
제19항에 있어서,

상기 입력된 영상에 존재하는 적어도 하나의 사람 얼굴을 인식하는 단계는,

대상이 되는 얼굴과 비교할 표준 템플릿을 작성하는 단계; 와

상기 촬영된 영상과 상기 표준 템플릿을 비교하여 얼굴을 인식하는 단계를 포함하는 영상 처리 방법.