KR101626157B1

KR101626157B1 - 화상통화시 음성 신호의 출력 레벨 제어 방법 및 장치

Info

Publication number: KR101626157B1
Application number: KR1020090050011A
Authority: KR
Inventors: 송희준; 윤제한; 심현식; 박영희
Original assignee: 삼성전자주식회사
Priority date: 2009-06-05
Filing date: 2009-06-05
Publication date: 2016-06-13
Also published as: US20100315485A1; US8229089B2; KR20100131221A

Abstract

본 발명에 따른 음성 신호의 출력 레벨 제어 방법은 영상 통화에 사용할 입력 영상신호 및 입력 음성신호를 입력받는 과정과, 영상 통화가 연결된 상대측 단말로부터 수신되는 수신 영상신호 및 수신 음성신호를 출력하는 과정과, 상기 영상신호에 포함된 사용자의 얼굴영역을 추출하는 과정과, 상기 추출된 얼굴영역의 크기정보를 확인하는 과정과, 상기 크기정보를 이용하여, 사용자와의 거리에 대한 거리정보를 확인하는 과정과, 상기 거리정보를 고려하여, 상기 수신 음성신호의 출력 수준을 제어하는 과정을 포함한다.

영상, 통화, 음성, 출력, 제어, 조정, 조절, 얼굴, 검출, 거리

Description

화상통화시 음성 신호의 출력 레벨 제어 방법 및 장치{METHOD FOR CONTROL OF OUTPUT LEVEL OF VOICE SIGNAL FOR VIDEO TELEPHONY SERVICE AND APPARATUS FOR THE SAME}

본 발명은 화상통화가 가능한 단말에 관한 것으로써, 특히 단말의 볼륨을 조절하는 방법 및 장치에 관한 것이다.

각종 전자, 통신산업의 발달로 말미암아, 휴대용 무선통신단말기가 널리 보급되고 있으며, 사용자의 욕구에 부응하기 위하여 상기 단말기의 기능은 다양화되어가고 있으며, 반면에 점차 소형 경박화 되어가고 있는 추세이다.

소프트웨어적으로는 단순한 통화기능 이외에, 음악 파일을 다운받아서 청취를 하고, VOD(Video On Demand) 파일을 받아서 동영상을 감상하거나, 소정의 피사체를 촬영하여 앨범 등으로 저장하는 다양한 기능들이 부가되고 있다.

이와 함께, 하드웨어적으로 상기 단말기에 부착 또는 부가하여 사용되고 있는 주변기기 역시 발전하고 있다. 예를 들면, 착탈이 가능하거나(attachable) 내장형(built-in)으로 구성되는 디지털 카메라 장치, 공중파 방송을 청취할 수 있는 DMB(Digital Multimedia Broadcasting) 기능, 단말기 상에 장착하여 통화가능 하도 록 설치되는 이어 마이크로폰 장치 등이 대별될 수 있다. 상기 카메라는 최근에는 화상 통화(Video telephony)를 위해 사용되고 있다.

상술한 화상 통화는 사용자가 상대방과 통화시, 발신 단말에 의해 송신자 동영상이 압축되어 전송되고, 수신 단말에서는 상기 압축된 상대방 동영상을 원래의 동영상으로 복원하여 표시부에 디스플레이한다. 물론, 수신자의 동영상도 압축되어 발신 단말기로 전송되고, 상기 발신 단말기에서는 상기 압축된 수신자의 동영상을 원래의 동영상으로 복원하여 표시부에 디스플레이한다.

현재까지 제안된 화상 통화 시스템은 상대방을 직접 보면서 통화하는 기능을 일반적으로 제공하고 있지만, 무선 통신 환경의 특성, 무선 통신 속도의 한계, 화상 통화를 수행하는 환경적 요소 등을 적극적으로 반영하여 서비스를 제공하고 있지 못하고 있다. 특히, 음성 통화가 발신 단말의 마이크에 사용자의 입을 근접시키고 발신 단말의 스피커에 사용자의 귀를 근접한 상태에서 통화를 수행하는 것과 다르게, 화상 통화는 사용자와 단말에 구비된 카메라를 미리 정해진 거리 이상 이격시킨 상태에서 통화가 진행되어야 한다. 따라서, 화상 통화를 진행하는 경우 주변의 잡음이 송수신될 가능성이 높으며, 나아가 잡음이 심할 경우 통화를 원할하게 진행하기 어려운 문제가 발생한다.

본 발명은 전술한 문제점을 고려하여 안출된 것으로서, 사용자와 단말 사이의 거리 및 주변의 잡음을 고려하여 수신 음성의 출력 레벨을 자동적으로 제어하는 방법 및 장치에 관한 것이다.

본 발명의 일 측면에 따른 음성 신호의 출력 레벨 제어 방법은 영상 통화에 사용할 입력 영상신호 및 입력 음성신호를 입력받는 과정과, 영상 통화가 연결된 상대측 단말로부터 수신되는 수신 영상신호 및 수신 음성신호를 출력하는 과정과, 상기 영상신호에 포함된 사용자의 얼굴영역을 추출하는 과정과, 상기 추출된 얼굴영역의 크기정보를 확인하는 과정과, 상기 크기정보를 이용하여, 사용자와의 거리에 대한 거리정보를 확인하는 과정과, 상기 거리정보를 고려하여, 상기 수신 음성신호의 출력 수준을 제어하는 과정을 포함한다.

본 발명의 다른 측면에 따른 음성신호 출력제어장치는 영상 통화를 위한 음성 신호의 출력을 제어하는 장치에 있어서, 영상 통화에 사용할 입력 영상신호 및 상대측 단말로부터 수신되는 수신 영상신호를 처리하는 영상신호 전처리부와, 상기 입력 영상신호에 포함된 사용자의 얼굴영역의 크기를 확인하는 얼굴영역 확인부와, 영상 통화에 사용할 입력 음성신호 및 상대측 단말로부터 수신되는 수신 음성신호를 처리하는 음성신호 처리부와, 상기 얼굴영역의 크기에 기초한 사용자와의 거리를 고려하여, 상기 수신 음성신호의 출력 수준을 제어하는 음성신호 출력 레벨 제 어부를 포함한다.

본 발명에 따른 음성 신호의 출력 레벨 제어 방법 및 장치에 따르면, 주변의 소음 정도 및 사용자와 단말 사이의 거리를 고려하여 수신 음성신호의 출력 레벨을 자동적으로 조절할 수 있다.

이하 본 발명에 따른 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.

도 1은 본 발명이 적용되는 이동통신 단말기의 블록 구성도로서, 본 발명에서는 영상통화를 수행할 수 있는 다양한 장치들 중에서, 영상통화가 가능한 이동통신 단말기를 예로 들어 본 발명이 적용될 수 있는 하드웨어적인 기반 장치에 대해 먼저 설명하도록 한다.

도 1을 참조하면, 이동통신 단말기는 RF부(1), 무선데이터 처리부(3), 제어부(5), 메모리부(7), 키입력부(9), 표시부(10), 카메라모듈(11), 영상처리부(13), 마이크(15), 스피커(17), 및 음성처리부(19)를 포함한다.

RF부(1)는 사용자의 음성신호, 영상신호, 문자 및 제어 데이터를 무선 신호로 변조하여 이동통신망의 기지국(미도시)으로 송신하고, 기지국으로부터 무선 신 호를 수신하여 음성, 문자, 제어 데이터 등으로 복조하여 출력한다. 무선데이터 처리부(3)는 제어부(5)의 제어하에, 상기 RF부(1)에서 수신한 수신 영상신호 및 수신 음성신호를 검출하여 영상처리부(13) 및 음성처리부(19)로 각각 제공하고, 영상처리부(13) 및 음성처리부(19)로부터 입력되는 입력 영상신호 및 입력 음성신호를 데이터화하여 RF부(1)로 출력한다. 또한, 무선데이터 처리부(3)는 RF부(1)를 통해 입력된 문자, 제어 데이터를 제어부(5)로 제공한다.

카메라모듈(11)은 제어부(5)의 제어하에 일반적인 디지털 카메라 기능을 수행하여, 피사체에 대한 영상신호를 생성하여 영상처리부(13)로 제공한다. 영상처리부(13)는 카메라모듈(11)로부터 출력되는 영상 데이터를 처리하여 적절한 포맷의 디지털 영상 데이터로 변환한다.

키입력부(9)는 사용자로부터 전화 번호 또는 문자를 입력받기 위한 장치로써, 숫자 및 문자 정보를 입력하기 위한 키들 및 각종 기능을 설정하기 위한 기능키들을 구비하며, 이의 입력 신호를 제어부(5)로 출력한다. 표시부(10)는 액정표시장치(Liquid Crystal Display: LCD) 등과 같은 표시장치로 이루어질 수 있으며, 제어부(5)의 제어하에 해당 단말기의 각종 동작 상태에 대한 메시지를 비롯하여 촬영한 디지털 영상 데이터를 표시한다.

제어부(5)는 상기 각 기능부들의 동작을 총괄적으로 제어하여 이동통신 단말기의 전반적인 동작을 제어하는 기능을 수행한다. 즉, 제어부(5)는 키입력부(10)를 통해 입력된 번호 및 메뉴 선택 신호에 따른 처리를 수행하고, 카메라모듈(11)을 통해 외부 촬영 신호를 입력받고 그에 따른 처리를 수행하며, 카메라 촬영 영상을 비롯한 각종 동작에 필요한 영상 출력 신호를 표시부(10)를 통해 출력하게 된다.

또한, 제어부(5)는 영상통화 기능 수행을 요청받고, 카메라모듈(11), 영상처리부(13), 마이크(15), 및 음성처리부(19)의 동작을 제어하여, 영상통화에 사용할 입력 영상신호 및 입력 음성신호가 상대측 단말로 전송되도록 제어하고, 상기 상대측 단말로부터 수신되는 수신 영상신호 및 수신 음성신호가 각각 표시부(10) 및 스피커(17)로 출력되도록 제어한다. 그리고, 제어부(5)는 영상통화를 수행하는 과정에서 영상처리부(13) 및 음성처리부(19)로부터 제공되는 정보를 이용하여, 수신 음성신호의 출력 레벨을 제어하는 동작을 수행한다.

나아가, 제어부(5)는 필요에 따라 메모리부(7)에 저장된 출력할 내용을 가지고 오거나, 또는 그 내용을 메모리부(7)에 저장한다. 메모리부(7)는 제어부(5)의 동작 관련된 다수의 프로그램과 데이터를 저장하고, 특히 제어부(5)에서 영상통화를 수행하고, 영상통화를 수행하는 과정에서 수신 음성신호의 출력 레벨을 제어하기 위한 동작 프로그램 및 관련 정보들을 저장한다. 또한 이동통신 단말기의 사용시에 필요한 다양한 정보를 저장하는데 사용된다.

이러한 구성을 가지는 이동통신 단말기는 영상통화 및 수신 음성신호의 출력 레벨을 제어 기능을 포함하여 통상적인 이동통신 서비스 관련 동작을 수행한다. 특히 상기 이동통신 단말기는 본 발명의 특징에 따라 영상통화 수행 시에, 영상처리부(13)로부터 제공되는 얼굴영역의 크기에 기초하여 수신 음성신호의 출력 레벨을 제어한다. 이하 첨부 도면을 참조하여 본 발명에 따른 수신 음성신호의 출력 레벨을 제어하는 방법 및 상기 방법이 적용되는 이동통신 단말의 구성과 동작에 대해 보다 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 방법이 적용되는 이동통신 단말의 일부 기능부의 구성을 상세하게 도시하는 블록도이다.

본 발명에 따른 수신 음성신호의 출력 레벨을 제어하는 방법이 적용되는 이동통신 단말은 영상처리부(13), 음성처리부(19), 및 음성신호 출력레벨 제어부(21)를 구비한다.

영상처리부(13)는 영상통화를 위해 입력되는 입력 영상신호(예컨대, 영상 프레임)에 대해 화질 개선 알고리즘 등의 전처리를 수행하고, 상기 입력 영상신호에 포함된 사용자의 얼굴영역을 검출하여, 검출된 얼굴영역의 크기를 음성신호 출력레벨 제어부(21)로 제공한다.

음성처리부(19)는 영상통화를 위해 입력되는 입력 음성신호에 포함된 잡음 등을 검출하는 전처리를 수행하고, 영상통화를 위해 연결된 상대측 단말로부터 수신된 수신 음성신호의 음성 크기 레벨을 확인하여 음성신호 출력레벨 제어부(21)로 제공한다.

영상처리부(13) 및 음성처리부(19)로부터 입력 영상신호의 얼굴영역의 크기와 수신 음성신호의 음성 크기 레벨을 수신한 음성신호 출력레벨 제어부(21)는, 입력 영상신호의 얼굴영역의 크기를 기준으로 이동통신 단말과 상기 이동통신 단말의 사용자 사이의 거리를 추정한다. 그리고, 상기 음성신호 출력레벨 제어부(21)는 상기 추정된 거리를 반영하여, 상기 수신 음성신호의 출력 레벨을 결정하고, 그 출력값을 제어한다.

나아가, 상기 영상처리부(13)는 입력 영상신호 및 수신 영상 신호를 전처리하는 영상신호 전처리부(131), 전처리된 입력 영상신호에 포함된 얼굴영역을 확인하는 얼굴영역 확인부(132)를 포함할 수 있다.

상기 얼굴영역 확인부(132)는 입력 영상신호로부터 사용자의 얼굴영역을 추출하는 얼굴영역 추출부(133) 및 상기 추출된 얼굴영역의 크기를 추정하는 크기 추정부(134)를 포함할 수 있다.

얼굴영역 추출부(133)는 AdaBoost, Neural Networks, Support Vector Machines, Principle Component Analysis 등과 같은 패턴 매칭 알고리즘을 사용하여, 입력 영상신호로부터 사용자의 얼굴영역을 추출할 수 있다.

한편, 얼굴영역 추출부(133)가 검출한 사용자의 얼굴영역은 대략적인 얼굴의 크기를 반영할 수는 있지만, 사용자의 특성이나 사용자의 사용환경에 따라 그 크기가 다르게 나타날 수 있다. 따라서, 크기 추정부(134)는 사용자의 특성이나 사용자의 사용환경에 따른 얼굴영역의 크기에 대한 오차를 줄이고, 얼굴영역의 일괄적인 크기를 검출할 수 있도록 하는 방안이 요구된다. 이를 위해, 본 발명에 구비된 크기 추정부(134)는 상기 얼굴영역에 포함된 눈 영역 및 입 영역을 검출하고, 검출된 눈 영역들 사이의 거리, 눈 영역과 입 영역 사이의 거리 등을 이용하여 얼굴영역을 정규화함으로써, 얼굴영역의 크기를 일정하게 추정한다. 나아가, 상기 크기 추정부(134)는 얼굴영역을 추출하는데 사용하는 AdaBoost, Neural Networks, Support Vector Machines, Principle Component Analysis 등과 같은 패턴 매칭 알고리즘을 이용하여 눈 영역 및 입 영역을 검출할 수 있다.

도 3a 내지 도 3c는 촬영 각도 또는 사용자의 얼굴 방향에 따른 눈 영역과 입 영역 사이의 거리 관계를 예시하는 도면이다. 도 3a는 사용자의 얼굴 방향과 대향하도록 위치한 카메라로부터 입력되는 얼굴영역의 일 예시도이고, 도 3b는 사용자 얼굴의 측면 방향에 위치한 카메라로부터 입력되는 얼굴영역의 일 예시도이고, 도 3c는 사용자 얼굴의 상부 방향에 위치한 카메라로부터 입력되는 얼굴영역의 일 예시도이다.

카메라가 사용자의 얼굴 방향과 대향하도록 위치하는 경우 도 3a와 같이 눈 영역들 사이의 거리(D1)와 눈 영역과 입 영역 사이의 거리(D2)를 이용하여 얼굴영역(31)을 추정할 수 있다. 카메라가 사용자 얼굴의 측면 방향에 위치하는 경우에는 도 3b와 같이 눈 영역들 사이의 거리(D3)가 도 3a의 거리(D1)보다 상대적으로 더 짧게 검출되고, 눈 영역과 입 영역 사이의 거리(D4)는 도 3a의 거리(D2)와 동일하게 검출되며, 이에 대응하여 사용자 얼굴영역(33)은 도 3a의 얼굴영역(31)보다 상대적으로 더 작게 추정될 수 있다. 또한, 카메라가 사용자 얼굴의 상부 방향에 위치하는 경우에는 도 3c와 같이 눈 영역들 사이의 거리(D5)는 도 3a의 거리(D1)와 동일하게 검출되고, 눈 영역과 입 영역 사이의 거리(D6)는 도 3a의 거리(D2)보다 상대적으로 더 짧게 검출되며, 이에 대응하여 사용자 얼굴영역(35)은 도 3a의 얼굴영역(31)보다 상대적으로 더 작게 추정될 수 있다.

결국, 이동통신 단말과 사용자와의 거리가 동일하지만, 사용자와 상기 이동통신 단말(의 사용자를 촬영하는 카메라) 사이의 촬영 각도나, 사용자의 얼굴 방향에 따라서, 얼굴영역의 크기를 추정하는데 오차가 발생할 수 있다. 이러한 오차를 줄이기 위하여, 본 발명의 일 실시예에 따른 방법이 적용되는 이동통신 단말은 얼굴영역 추적부(135) 및 얼굴영역 보정부(136)를 더 구비할 수 있다. 상기 얼굴영역 추적부(135)는 얼굴영역 추출부(133)으로부터 순차적으로 얼굴영역을 제공받으며, 이전 시각에 입력된 입력 영상신호에 포함된 제1얼굴영역과 현재 입력되는 입력 영상신호에 포함된 제2얼굴영역 사이의 상관도을 분석하여 얼굴영역의 위치 변화를 추적한다. 상기 얼굴영역 보정부(136)는 상기 제1얼굴영역과 제2얼굴영역의 검출 오차를 보정하고, 일시적으로 변화되는 검출 위치를 보정하여 크기 추정부(134)에 제공한다. 예컨대, 상기 얼굴영역 보정부(136)는 상기 제1얼굴영역과 제2얼굴영역의 상관도(이하, '제1상관도'라 함.)가 미리 정해진 임계값(이하, '제1임계값'이라 함.)과 같거나 상대적으로 크게 나타날 경우, 제2얼굴영역의 크기 및 위치를 제1얼굴영역의 크기 및 위치에 맞추어 보정한다. 반면, 제1상관도가 제1임계값보다 상대적으로 적게 나타날 경우, 제2얼굴영역을 보정하지 않고 제2얼굴영역의 위치 및 크기를 유지한다.

나아가, 본 발명의 일 실시예에 따른 방법이 적용되는 이동통신 단말은, 전술한 바와 같은 오차 발생을 더 줄이기 위하여, 신체영역 추적부(137)를 더 구비할 수 있다.

신체영역 추적부(137)는 AdaBoost, Neural Networks, Support Vector Machines, Principle Component Analysis 등과 같은 패턴 매칭 알고리즘을 이용하여, 영상신호 전처리부(131)로부터 제공되는 입력 영상신호로부터 사용자의 신체(body)영역을 추출한다. 그리고, 신체영역 추적부(137)는 이전 시각에 입력된 입 력 영상신호에 포함된 제1신체영역과 현재 입력되는 입력 영상신호에 포함된 제2신체영역 사이의 상관도을 분석하여 신체영역의 위치 변화를 추적한다.

상기 신체영역 추적부(137)가 상기 제1신체영역과 제2신체영역의 상관도(이하, '제2상관도'라 함.)가 미리 정해진 임계값(이하, '제2임계값'이라 함.)과 같거나 상대적으로 크게 나타날 경우, 신체영역의 움직임은 거의 없으며 얼굴영역의 방향만 변화된 것으로 추적하여, 그 결과를 얼굴영역 보정부(136)에 제공한다. 이에 대응하여, 얼굴영역 보정부(136)는 현재 입력 영상에 포함된 얼굴영역의 위치 및 크기를 이전 영상에 포함된 얼굴영역의 위치 및 크기에 맞게 보정하고, 보정된 열굴영역을 크기 추정부(134)에 제공한다. 반면, 상기 신체영역 추적부(137)는 상기 제2상관도가 상기 제2임계값보다 상대적으로 작게 나타날 경우 신체영역 및 얼굴영역이 모두 변화된 것으로 추적하여, 그 결과를 얼굴영역 보정부(136)에 제공하고, 얼굴영역 보정부(136)는 현재 입력 영상에 포함된 얼굴영역의 위치 및 크기를 보정하지 않고 유지하여, 크기 추정부(134)에 제공한다.

도 4a는 이전 입력 영상신호에 의한 영상픽처를 예시하고, 도 4b는 현재 입력 영상신호에 의한 영상픽처를 예시한다. 이하, 도 4a 및 4b를 참조하여, 얼굴영역 추적부(135), 신체영역 추적부(137), 및 얼굴영역 보정부(136)의 동작을 예시한다.

우선, 얼굴영역 추적부(135)는 얼굴영역 추출부(133)으로부터 순차적으로 얼굴영역을 제공받으며, 이전 시각에 입력된 입력 영상신호(도 4a)에 포함된 제1얼굴영역(41)과 현재 입력되는 입력 영상신호(도 4b)에 포함된 제2얼굴영역(45) 사이의 상관도을 분석하여, 상기 제1얼굴영역(41)과 제2얼굴영역(45)의 제1상관도가 제1임계값보다 상대적으로 큰 것을 확인한다. 그리고, 신체영역 추적부(137)는 이전 시각에 입력된 입력 영상신호(도 4a)에 포함된 제1신체영역(43)과 현재 입력되는 입력 영상신호(도 4b)에 포함된 제2신체영역(47) 사이의 상관도을 분석하여 신체영역의 위치 변화를 추적한다. 상기 신체영역 추적부(137)는 상기 제1신체영역(43)과 제2신체영역(47)의 상관도(제2상관도)가 미리 정해진 임계값(예컨대, 제2임계값)보다 상대적으로 큰 것을 확인하고, 신체영역의 움직임은 거의 없는 것을 추적하고, 그 결과를 얼굴영역 보정부(136)에 제공한다. 이에 대응하여, 얼굴영역 보정부(136)는 현재 입력 영상에 포함된 얼굴영역(44)의 위치 및 크기를 이전 영상에 포함된 얼굴영역(41)의 위치 및 크기에 맞게 보정하고, 보정된 열굴영역(46)을 크기 추정부(134)에 제공한다.

나아가, 얼굴영역 보정부(136)는 현재 입력 영상에 포함된 얼굴영역을 하기의 수학식 1에 대응하는 연산을 통해 보정할 수 있다.

R_compensated는 얼굴영역 보정부(136)가 보정한 결과이며, R_face _{_} _dection은 얼굴영역 추출부(133)에 의해 추출된 얼굴영역의 움직임 벡터이며, R_face _{_} _tracking은 얼굴영역 추적부(135)에 의해 추적된 얼굴영역의 움직임 벡터이며, R_body _{_} _tracking은 신체영역 추적 부(137)에 의해 추적된 신체영역의 움직임 벡터이고, α_vision과β_vision은 각각 얼굴 위치 보상을 위한 비율을 나타낸다.

비록, 본 발명의 일 실시예에서 얼굴영역 보정부(136)가 얼굴영역의 보정을 수학식 1의 연산을 통해 수행함을 예시하였으나, 본 발명이 이를 한정하는 것은 아니다. 예컨대, 상기 얼굴영역의 보정은 얼굴영역의 보상 비율 또는 속도에 따라 차수를 변화하거나 적분 연산이나 미분 연산을 이용하여 다양하게 변경할 수 있음은 물론이다.

한편, 상기 음성신호 출력 레벨 제어부(21)는 이동통신 단말과 사용자와의 거리만을 확인하여 음성신호 출력 레벨을 제어할 수 있으나, 실제 영상통화를 수행하는 환경에서 주변의 잡음 상태와 상대방의 목소리 크기가, 영상통화 환경에 영향을 미칠 수 있다. 이러한 점을 고려하여, 상기 음성신호 출력 레벨 제어부(21)는 입력 음성신호의 음성신호대 잡음비와 수신 음성신호의 수신 음성신호의 크기 레벨을 이용하여 수신 음성신호의 크기 레벨을 제어하는 것이 바람직하다. 따라서, 음성신호 처리부(19)는 음성신호 전처리부(191), 음성 및 잡음 확인부(193), 및 음성 크기 확인부(195)를 구비하는 것이 바람직하다. 상기 음성신호 전처리부(191)는 입력 음성신호 및 수신 음성신호에 포함된 잡음 등을 검출하여 제거하는 등의 전처리를 수행한다. 음성 및 잡음 확인부(193)는 입력 음성신호에 포함된 잡음을 확인하고, 입력 음성신호대 잡음비를 확인하여, 음성신호 출력 레벨 확인부(21)로 제공하고, 음성 크기 확인부(195)는 전처리된 수신 음성신호에 포함된 수신 음성신호의 크기 레벨을 확인하여 음성신호 출력 레벨 확인부(21)로 제공한다.

이에 대응하여, 상기 음성신호 출력 레벨 제어부(21)는 입력 음성신호의 음성신호대 잡음비와 수신 음성신호의 수신 음성신호의 크기 레벨을 이용하여 수신 음성신호의 크기 레벨을 보정한다. 예컨대, 상기 음성신호 출력 레벨 제어부(21)는 하기의 수학식 2의 연산을 통해 수신 음성신호의 크기 레벨을 보정할 수 있다.

여기서, P_compensated는 보정된 수신 음성신호의 크기 레벨이고, P_SNR은 입력 음성신호의 음성신호대 잡음비이고, P_recv는 수신 음성신호의 크기 레벨이고, α_sound는 P_SNR과 P_recv의 비율을 조정하기 위한 상수값이다.

나아가, 상기 음성신호 출력 레벨 제어부(21)는 보정된 현재 영상신호에 포함된 얼굴영역(R_compensated)과 보정된 수신 음성신호의 크기 레벨(P_compensated)을 반영하여 수신 음성신호의 출력 레벨을 설정할 수 있다. 예컨대, 상기 음성신호 출력 레벨 제어부(21)는 하기의 수학식 3을 연산하여 수신 음성신호의 출력 레벨을 최적으로 제어할 수 있다.

V_opt는 수신 음성신호 출력 레벨 제어부(21)에 의해 제어된 수신 음성신호의 출력 레벨이고, V_base는 사용자에 의해 설정된 음성신호의 출력 레벨이고, R_compensated는 보정된 현재 영상신호에 포함된 얼굴영역의 크기이고, P_compensated는 보정된 수신 음성신호의 크기 레벨이고, R_base는 얼굴영역 크기와 관련된 기준값이고, P_base는 수신 음성신호의 크기와 관련된 기준값이다.

본 발명의 일 실시예에서, 상기 음성신호 출력 레벨 제어부(21)가 상기 수학식 3을 연산하여 수신 음성신호의 출력 레벨을 제어하기 위한 값을 출력하는 것을 예시하였으나, 본 발명이 이를 한정하는 것은 아니다.

도 5는 본 발명의 일 실시예에 따른 수신 음성신호의 출력 레벨을 제어하는 방법의 동작 순서를 도시하는 흐름도이다.

우선 본 발명의 일 실시예에 따른 수신 음성신호의 출력 레벨을 제어하는 방법은 사용자가 이동 통신단말(이하, '제1단말'이라 함.)의 영상통화 기능을 활성화함에 따라, 이에 대응하는 장치, 예컨대, 카메라모듈, 마이크, 스피커 등의 동작을 개시하고, 상기 장치들을 통해 입력 영상신호 및 입력 음성신호를 입력받아 영상통화를 준비한다(51단계).

영상통화의 준비과정이 완료되면, 통신모듈(예컨대, 무선신호 처리부, RF부, 안테나)을 통해 상대측 이동통신 단말(이하, '제2단말'이라 함.)과 영상통화를 위한 호를 연결하고, 입력 영상신호 및 입력 음성신호를 상기 제2단말로 전송함과 동시에 상기 제2단말로부터 전송되는 수신 영상신호 및 수신 음성신호를 수신하고, 제1단말의 디스플레이 및 스피커를 통해 출력한다(52단계).

다음으로, 상기 제1단말은 입력 영상신호에 포함된 얼굴영역을 추출한다(53단계). 바람직하게, 입력 영상신호에 포함된 얼굴영역은 daBoost, Neural Networks, Support Vector Machines, Principle Component Analysis 등과 같은 패턴 매칭 알고리즘을 사용하여 추출할 수 있다.

다음으로, 56단계에서는 상기 53단계를 통해 추출된 얼굴영역의 크기에 대한 정보를 포함하는 크기정보를 확인한다. 그리고, 입력 영상신호의 얼굴영역의 크기를 기준으로 이동통신 단말과 상기 이동통신 단말의 사용자 사이의 거리를 추정하고(57단계), 상기 추정된 거리를 반영하여, 상기 수신 음성신호의 출력 레벨을 결정하고, 그 출력 값을 제어한다(58단계).

한편, 검출한 사용자의 얼굴영역은 대략적인 얼굴의 크기를 반영할 수는 있지만, 사용자의 특성이나 사용자의 사용환경에 따라 그 크기가 다르게 나타날 수 있다. 따라서, 사용자의 특성이나 사용자의 사용환경에 따른 얼굴영역의 크기에 대한 오차를 줄이고, 얼굴영역의 일괄적인 크기를 검출할 수 있도록 하는 방안이 요구된다.

도 6은 본 발명의 일 실시예에 따른 방법의 얼굴영역 검출단계의 순서를 예시하는 흐름도이다. 도 6을 참조하면, 본 발명의 일 실시예에 따른 방법의 얼굴영역 검출단계는, 눈 영역 및 입 영역을 검출하는 과정(531단계)과, 상기 531단계에서 검출된 눈 영역 및 입 영역의 중심점을 검출하는 과정(533단계)과, 상기 중심점을 기준으로 한 눈 영역들 사이의 거리, 눈 영역과 입 영역 사이의 거리 등을 이용 하여 정규화된 얼굴영역을 추정하는 과정(535단계)를 포함한다. 나아가, 상기 눈 영역 및 입 영역의 검출은 얼굴영역을 추출하는데 사용하는 AdaBoost, Neural Networks, Support Vector Machines, Principle Component Analysis 등과 같은 패턴 매칭 알고리즘을 이용할 수 있다.

나아가, 이동통신 단말과 사용자와의 거리가 동일하지만, 사용자와 상기 이동통신 단말(의 사용자를 촬영하는 카메라) 사이의 촬영 각도나, 사용자의 얼굴 방향에 따라서, 얼굴영역의 크기를 추정하는데 오차가 발생할 수 있다. 이러한 오차를 줄이기 위하여, 본 발명의 일 실시예에 따른 방법은 54단계 및 55단계를 더 포함하는 것이 바람직하다.

상기 54단계에서는 순차적으로 입력되는 입력 영상신호로부터, 이전 시각에 입력된 입력 영상신호로부터 검출한 제1얼굴영역과 현재 입력되는 입력 영상신호로부터 검출한 제2얼굴영역 사이의 상관도(이하, '제1상관도'라 함.)를 분석한다. 그리고, 상기 55단계에서는 상기 제1얼굴영역과 제2얼굴영역의 검출 오차를 보정하고, 일시적으로 변화되는 검출 위치를 보정한다. 예컨대, 상기 제1상관도가 미리 정해진 임계값(이하, '제1임계값'이라 함.)과 같거나 상대적으로 크게 나타날 경우, 제2얼굴영역의 크기 및 위치를 제1얼굴영역의 크기 및 위치에 맞추어 보정한다. 반면, 상기 제1상관도가 상기 제1임계값보다 상대적으로 적게 나타날 경우, 제2얼굴영역을 보정하지 않고 제2얼굴영역의 위치 및 크기를 유지한다.

본 발명의 일 실시예에 따른 방법은 이러한 오차를 줄이기 위하여 제1상관도만을 이용하는 방법의 대안으로써, 신체영역을 검출하고 상기 신체영역의 상관도를 반영하여 얼굴영역을 보정하는 방안을 채택할 수도 있다.

도 7은 본 발명의 일 실시예에 따른 방법의 얼굴영역 보정의 다른 예의 순서를 도시하는 흐름도이다.

우선 551단계에서는, 입력 영상신호로부터 사용자의 신체(body)영역을 추출한다. 신체(body)영역의 추출은 얼굴영역을 추출하는 방법과 유사하게, AdaBoost, Neural Networks, Support Vector Machines, Principle Component Analysis 등과 같은 패턴 매칭 알고리즘을 이용할 수 있다.

552단계에서는, 이전 시각에 입력된 입력 영상신호에 포함된 제1신체영역과 현재 입력되는 입력 영상신호에 포함된 제2신체영역 사이의 상관도(이하, '제2상관도'라 함.)를 확인한다.

553단계에서, 상기 제2상관도가 미리 정해진 임계값(이하, '제2임계값'이라 함.)과 같거나 상대적으로 크게 나타날 경우 554단계를 진행하고, 상기 제2상관도가 상기 제2임계값보다 상대적으로 작게 나타날 경우 555단계를 진행한다.

554단계에서는, 제1상관도가 제1임계값과 같거나 상대적으로 크게 나타날 경우 556단계를 진행하고, 상기 제1상관도가 제1임계값보다 상대적으로 적게 나타날 경우 555단계를 진행한다.

555단계에서는 현재 영상신호에 포함된 신체영역 및 얼굴영역이 이전 영상신호에 포함된 것과 크게 다른 것으로 추정하고, 현재 입력 영상에 포함된 얼굴영역의 위치 및 크기를 보정하지 않고 유지한다.

556단계에서는, 신체영역의 움직임은 거의 없으며 얼굴영역의 방향만 변화된 것으로 추정하여 현재 입력 영상에 포함된 얼굴영역의 위치 및 크기를 이전 영상에 포함된 얼굴영역의 위치 및 크기에 맞게 보정한다.

나아가, 556단계에서의 보정은 상기 수학식 1에 대응하는 연산을 통해 수행할 수 있다.

한편, 이동통신 단말과 사용자와의 거리만을 확인하여 음성신호 출력 레벨을 제어할 수 있으나, 실제 영상통화를 수행하는 환경에서 주변의 잡음 상태와 상대방의 목소리 크기가, 영상통화 환경에 영향을 미칠 수 있다. 이러한 점을 고려하여, 입력 음성신호의 음성신호대 잡음비와 수신 음성신호의 수신 음성신호의 크기 레벨을 이용하여 수신 음성신호의 크기 레벨을 제어하는 것이 바람직하다. 따라서, 58단계에서는 수학식 2에 대응하는 연산을 통해, 입력 음성신호의 음성신호대 잡음비와 수신 음성신호의 수신 음성신호의 크기 레벨을 반영하여 수신 음성신호의 크기 레벨을 제어하는 것이 바람직하다. 나아가, 58단계에서는 수학식 3에 대응하는 연산을 통해 보정된 현재 영상신호에 포함된 얼굴영역(R_compensated)과 보정된 수신 음성신호의 크기 레벨(P_compensated)을 반영하여 수신 음성신호의 출력 레벨을 설정하는 것이 더욱 바람직하다.

이상에서 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 수정 및 변형이 가능함은 물론이다.

도 1은 본 발명이 적용되는 이동통신 단말기의 블록 구성도,

도 2는 본 발명이 적용되는 이동통신 단말의 일부 기능부의 구성을 상세하게 도시하는 블록도,

도 3a는 사용자의 얼굴 방향과 대향하도록 위치한 카메라로부터 입력되는 얼굴영역의 일 예시도,

도 3b는 사용자 얼굴의 측면 방향에 위치한 카메라로부터 입력되는 얼굴영역의 일 예시도,

도 3c는 사용자 얼굴의 상부 방향에 위치한 카메라로부터 입력되는 얼굴영역의 일 예시도,

도 4a는 이전 입력 영상신호에 의한 영상픽처의 예시도,

도 4b는 현재 입력 영상신호에 의한 영상픽처를 예시도,

도 5는 본 발명의 일 실시예에 따른 수신 음성신호의 출력 레벨을 제어하는 방법의 동작 순서를 도시하는 흐름도,

도 6은 본 발명의 일 실시예에 따른 방법의 얼굴영역 검출단계의 순서를 예시하는 흐름도,

도 7은 본 발명의 일 실시예에 따른 방법의 얼굴영역 보정의 다른 예의 순서를 도시하는 흐름도.

Claims

영상 통화를 위한 음성 신호의 출력을 제어하는 방법에 있어서,

영상 통화에 사용할 입력 영상신호 및 입력 음성신호를 입력받는 과정과,

영상 통화가 연결된 상대측 단말로부터 수신되는 수신 영상신호 및 수신 음성신호를 출력하는 과정과,

상기 영상신호에 포함된 사용자의 얼굴영역을 추출하는 과정과,

서로 다른 시각(時刻)의 입력 영상신호에 포함된 얼굴영역들 사이의 상관도를 확인하는 과정과,

상기 상관도를 반영하여, 얼굴영역을 보정하는 과정과,

상기 보정된 얼굴영역의 크기정보를 확인하는 과정과,

상기 크기정보를 이용하여, 사용자와의 거리에 대한 거리정보를 확인하는 과정과,

상기 거리정보를 고려하여, 상기 수신 음성신호의 출력 수준을 제어하는 과정을 포함하고,

잡음 및 수신 음성신호의 크기를 더 반영하여 상기 수신 음성신호의 출력 수준을 제어하는 것을 특징으로 하는 음성 신호의 출력 레벨 제어 방법.
삭제
제1항에 있어서, 사용자의 얼굴영역을 추출하는 과정은,

상기 입력 영상신호에 포함된 사용자의 눈 영역 및 입 영역을 검출하고, 상기 눈 영역 및 입 영역의 중심점을 각각 검출하는 과정과,

상기 눈 영역 및 입 영역의 중심점을 기준으로 하여 얼굴영역을 추정하는 과정을 포함함을 특징으로 하는 음성 신호의 출력 레벨 제어 방법.
삭제
제1항에 있어서,

상기 입력 영상신호에 포함된 신체 영역을 검출하는 과정과,

서로 다른 시각(時刻)의 영상신호에 포함된 신체영역들 사이의 상관도를 확인하는 과정과,

상기 상관도를 반영하여, 얼굴영역을 보정하는 과정을 더 포함함을 특징으로 하는 음성 신호의 출력 레벨 제어 방법.
제5항에 있어서,

신체영역들 사이의 상기 상관도가, 미리 정해진 기준값과 같거나 상대적으로 더 크면, 서로 다른 시각(時刻)에 입력된 영상신호들이 유사한 것으로 판단하고,

현재 픽처의 얼굴영역의 위치 및 크기에 이전 프레임의 얼굴영역의 위치 및 크기를 반영하여 보정하는 것을 특징으로 하는 음성 신호의 출력 레벨 제어 방법.
제6항에 있어서,

현재 영상신호에 포함된 얼굴영역의 위치와, 추적된 얼굴영역의 움직임 벡터와, 추적된 신체영역의 움직임 벡터에 미리 정해진 가중치를 반영하여, 얼굴영역을 보정하는 것을 특징으로 하는 음성 신호의 출력 레벨 제어 방법.
영상 통화를 위한 음성 신호의 출력을 제어하는 장치에 있어서,

영상 통화에 사용할 입력 영상신호 및 상대측 단말로부터 수신되는 수신 영상신호를 처리하는 영상신호 전처리부와,

영상 통화에 사용할 입력 음성신호 및 상대측 단말로부터 수신되는 수신 음성신호를 처리하는 음성신호 처리부와,

서로 다른 시각(時刻)의 영상신호에 포함된 얼굴영역들 사이의 상관도를 확인하여 상기 얼굴영역의 이동을 추적하는 얼굴영역 추적부와,

상기 얼굴영역들 사이의 상관도를 반영하여, 얼굴영역을 보정하는 얼굴영역 보정부와,

상기 보정된 사용자의 얼굴영역의 크기를 확인하는 얼굴영역 확인부와,

상기 얼굴영역의 크기에 기초한 사용자와의 거리를 고려하여, 상기 수신 음성신호의 출력 수준을 제어하는 음성신호 출력 레벨 제어부를 포함하고,

상기 음성신호 처리부는,

잡음 및 수신 음성신호의 크기를 확인하여 음성신호 출력 레벨 제어하며,

상기 음성신호 출력 레벨 제어부는,

상기 잡음 및 상기 수신 음성신호 크기를 더 반영하여 상기 수신 음성신호의 출력 수준을 제어하는 것을 특징으로 하는 음성신호 출력제어장치.
삭제
제8항에 있어서, 상기 얼굴영역 확인부는,

상기 입력 영상신호에 포함된 사용자의 눈 영역 및 입 영역을 검출하고, 상기 눈 영역 및 입 영역의 중심점을 기준으로 하여 얼굴영역을 추정하는 얼굴영역 추출부와,

상기 얼굴영역의 크기를 추정하는 크기 추정부를 포함함을 특징으로 하는 음성신호 출력제어장치.
삭제
제8항에 있어서,

상기 영상신호에 포함된 신체 영역을 검출하고, 서로 다른 시각(時刻)의 영상신호에 포함된 신체영역들 사이의 상관도를 확인하여 상기 신체영역의 이동을 추적하는 신체영역 추적부를 더 포함하며,

상기 얼굴영역 보정부는,

상기 얼굴영역들 사이의 상관도 및 상기 신체영역들 사이의 상관도를 반영하여, 얼굴영역을 보정하는 것을 특징으로 하는 음성신호 출력제어장치.
제12항에 있어서, 상기 얼굴영역 보정부는,

신체영역들 사이의 상기 상관도가, 미리 정해진 기준값과 같거나 상대적으로 더 크면, 서로 다른 시각(時刻)에 입력된 영상신호들이 유사한 것으로 판단하고, 현재 픽처의 얼굴영역의 위치 및 크기에 이전 프레임의 얼굴영역의 위치 및 크기를 반영하여 보정함을 특징으로 하는 음성신호 출력제어장치.
제12항에 있어서, 상기 얼굴영역 보정부는,

현재 영상신호에 포함된 얼굴영역의 위치와, 상기 추적된 얼굴영역의 움직임 벡터와, 상기 추적된 신체영역의 움직임 벡터에 미리 정해진 가중치를 반영하여, 얼굴영역을 보정하는 것을 특징으로 하는 음성신호 출력제어장치.
제12항에 있어서, 상기 음성신호 출력 레벨 제어부는,

상기 얼굴영역의 크기정보를 이용하여 사용자와의 거리를 확인하고,

상기 수신 음성신호의 크기, 입력 음성신호와 잡음 비, 및 상기 사용자와의 거리를 고려하여, 상기 수신 음성신호의 출력 수준을 제어하는 과정을 포함함을 특징으로 하는 음성신호 출력제어장치.