KR20120126531A

KR20120126531A - 화자 표시 방법 및 이를 구현하는 영상 통화 단말기

Info

Publication number: KR20120126531A
Application number: KR1020110044401A
Authority: KR
Inventors: 옥을석
Original assignee: 삼성전자주식회사
Priority date: 2011-05-12
Filing date: 2011-05-12
Publication date: 2012-11-21
Also published as: US9083848B2; KR101786944B1; US20120287218A1

Abstract

본 발명은 화자 표시 방법 및 이를 구현하는 영상 통화 단말기에 관한 것으로 특히, 여러 명과 영상 통화하는 경우, 그 중에서 화자가 누구인지를 사용자에게 표시하는 화자 표시 방법 및 이를 구현하는 영상 통화 단말기에 관한 것이다.
본 발명에 따른 화자 표시 방법은 영상 통화가 개시되면, 상대편 인물들의 음성특징정보를 검출하여, 수신되는 영상의 인물영상들에 일대일로 매칭하는 단계; 상기 매칭하는 단계 후 수신되는 음성에서 음성특징정보를 검출하는 단계; 및 상기 검출된 음성특징정보에 매칭된 인물영상을 다른 인물영상과 구별되게 표시하는 단계를 포함하여 이루어진다.

Description

화자 표시 방법 및 이를 구현하는 영상 통화 단말기{SPEAKER DISPLAYING METHOD AND VIDEOPHONE TERMINAL THEREFOR}

본 발명은 화자 표시 방법 및 이를 구현하는 영상 통화 단말기에 관한 것으로 특히, 여러 명과 영상 통화하는 경우, 그 중에서 화자가 누구인지를 사용자에게 표시하는 화자 표시 방법 및 이를 구현하는 영상 통화 단말기에 관한 것이다.

주지되어 있는 바와 같이, 현재 대부분의 이동 통신 단말기는 영상 통화 기능을 구비하고 있다. 최근에는, 요금 부담 없이 통신을 즐길 수 있도록 한 와이파이(Wi-Fi)의 보급으로 인해 영상 통화가 확산되는 추세이다.

그런데, 다자간 영상 통화의 경우, 화자가 누구인지 식별하기 어려운 문제점이 있었다. 이러한 문제점을 해결하기 위하여 종래에는 다수의 센서에서 감지된 음성 신호들 간의 시간 지연과 세기 차이를 이용하여 화자를 결정하거나 입술의 움직임을 검출하여 화자를 결정하고, 이렇게 결정된 화자를 표시하는 기술이 제안되어 있었다.

그러나, 이와 같은 종래 기술은 시간 지연과 세기 차이를 검출하고 입술의 움직임이 말하기 위한 것인지 아닌지 구별하기가 쉽지 않고 이에 따라, 화자 결정의 정확도가 떨어지는 문제점이 있었다.

본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로서, 다수의 인물들 중에서 화자를 정확히 구분하고 화자를 다른 인물과 구별하여 표시하는 방법 및 이를 구현하는 영상 통화 단말기를 제공함을 목적으로 한다.

본 발명에 따른 화자 표시 방법은 영상 통화가 개시되면, 상대편 인물들의 음성특징정보를 검출하여, 수신되는 영상의 인물영상들에 일대일로 매칭하는 단계; 상기 매칭하는 단계 후 수신되는 음성에서 음성특징정보를 검출하는 단계; 및 상기 검출된 음성특징정보에 매칭된 인물영상을 다른 인물영상과 구별되게 표시하는 단계를 포함하여 이루어진다. 여기서, 상기 매칭하는 단계는, 수신되는 음성 및 영상에서 각각 음성특징정보와 인물영상들을 검출하는 단계; 상기 검출된 인물영상들 중에서 하나를 선택하는 단계; 상기 선택된 인물영상의 인물특징정보를 검출하는 단계; 및 상기 검출된 음성특징정보를 상기 검출된 인물특징정보에 매칭하는 단계를 포함하여 이루어질 수 있다.

본 발명에 따른 영상 통화 단말기는 영상 및 음성을 수신하는 무선통신부; 상기 수신되는 음성에서 음성특징정보를 검출하고, 상기 수신되는 영상에서 인물영상들의 인물특징정보를 검출하며, 상기 검출된 음성특징정보를 상기 검출된 인물특징정보들 중에서 하나에 매칭하며, 상기 매칭된 인물특징정보의 해당 인물영상을 상기 수신되는 음성의 화자영상으로 결정하는 제어부; 상기 검출된 음성특징정보와 이에 매칭된 인물특징정보를 저장하는 저장부; 및 상기 결정된 화자영상을 다른 인물영상과 구별되게 표시하는 표시부를 포함하여 이루어진다. 여기서, 상기 제어부는, 상기 수신되는 음성에서 음성특징정보를 검출하고, 상기 수신되는 영상에서 특정제스처와 인물영상들의 인물특징정보를 검출하는 검출부; 상기 검출된 특정제스처를 토대로, 상기 검출된 인물특징정보들 중에서 하나를 상기 검출된 음성특징정보에 매칭하여 화자영상을 결정하는 화자 결정부; 및 상기 결정된 화자영상이 다른 인물영상과 구별되도록 상기 수신되는 영상을 처리하고, 상기 처리된 영상을 상기 표시부로 출력하는 영상 처리부를 포함하여 이루어질 수 있다.

본 발명은 다수의 인물들 중에서 화자를 정확히 구분하고 화자를 다른 인물과 구별하여 표시할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 영상 통화 단말기의 전기적인 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 제어부의 전기적인 블록 구성도이다.
도 3은 본 발명의 제 1 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다.
도 4는 본 발명의 제 2 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다.
도 5는 본 발명의 제 3 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다.
도 6은 본 발명의 제 4 실시예에 따른 화자 표시 방법을 설명하기 위한 흐름도이다.
도 7 내지 도 10은 본 발명의 제 5 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다.

이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 따라 화자 표시 방법 및 이를 구현하는 영상 통화 단말기에 대해서 상세하게 설명한다. 단, 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.

본 발명에서 '음성특징정보'는 음성들을 서로 구분하기 위한 정보를 의미한다. 예컨대, 음색, 주파수 및 세기가 될 수 있다. 본 발명에서 '인물특징정보'는 인물들을 서로 구분하기 위한 정보를 의미한다. 예컨대, 얼굴 및 입술 등 신체 일부의 위치 정보 또는 인물 전체 윤곽선의 위치 정보가 될 수 있다. 본 발명에서 '특정제스처'는 화자가 취한 제스처를 의미한다. 예컨대, 손을 얼굴 주위로 들어 올려 인사하는 모양새, 고개를 숙여 인사하는 모양새, 움직이는 입 모양 등이 될 수 있다. 본 발명에서 '템플릿(template)'은 영상에서 얼굴, 입술, 특정 제스처 등을 검출하기 위한 표준 이미지를 의미한다. 즉, 본 발명의 영상 통화 단말기는 수신되는 영상과 템플릿을 비교하여, 영상에서 얼굴, 입술, 특정 제스처 등을 검출한다. 이러한 템플릿은 그레이 또는 이진화 처리되어 있는 것일 수 있다.

본 발명의 상세한 설명에 앞서, 이하에서 사용되는 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다. 따라서, 본 명세서와 도면은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

본 발명에 따른 영상 통화 단말기는 스마트폰, 태블릿 PC 및 노트북 PC, 데스크탑 PC 등 카메라와 통신 기능을 구비한 모든 종류의 정보 통신 기기가 될 수 있다. 또한, 본 발명에 따른 영상 통화 단말기는 여러 태스크(Task)를 동시에 수행하는 멀티태스킹(Multi Tasking) 기능을 구비할 수 있다. 이하에서는 영상 통화 단말기가 스마트폰에 해당하는 것으로 가정하여 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 영상 통화 단말기의 전기적인 블록 구성도이다.

도 1을 참조하면, 본 발명의 영상 통화 단말기(100)는 터치스크린(110), 키입력부(120), 표시부(130), 저장부(140), 스피커(151), 마이크(152), 무선통신부(160), 카메라(170) 및 제어부(180)을 포함하여 이루어질 수 있다.

터치스크린(110)은 터치 신호를 제어부(170)로 전달한다. 이러한 터치 신호는 터치 앤 드롭(Touch&Drop), 드래그 앤 드롭(Drag&Drop) 및 플릭 앤 드롭(Flick&Drop) 등으로 구분될 수 있다. 여기서, 터치 앤 드롭은 어느 한 지점을 눌렀다가 그 지점에서 손가락을 떼는 동작이고, 드래그는 어느 한 지점을 누른 상태에서 손가락을 소정 방향으로 이동시킨 다음 떼는 동작이며, 플릭은 튀기듯이, 손가락을 빠른 속도로 이동시킨 다음 떼는 동작을 의미한다. 제어부(180)는 이동 속도로 플릭과 드래그를 구분할 수 있다. 한편, 터치스크린(110)은 저항막 방식(resistive type), 정전용량 방식(capacitive type) 및 압력 방식(pressure type) 등이 적용될 수 있다.

키입력부(120)는 영상 통화 단말기(100)의 조작을 위한 복수의 키로 구성되고, 키 신호를 제어부(170)로 전달한다. 여기서, 키 신호는 전원 온/오프 신호, 볼륨 조절 신호, 화면 온/오프 신호 등으로 구분될 수 있다.

표시부(130)는 제어부(170)로부터 입력받은 영상 데이터를 아날로그 신호로 변환하여 표시한다. 특히, 본 발명에 따른 표시부(130)는 제어부(180)의 제어에 따라, 특정 인물 영상 즉, 화자 영상을 다른 인물 영상과 구별되게 표시한다. 예컨대, 표시부(130)는 예컨대, 화살표 모양의 마크를 표시하거나, 화자의 이름을 표시하거나, 화자 영상의 윤곽선을 표시할 수 있다.

또한, 본 발명에 따른 표시부(130)는 제어부(180)의 제어에 따라, 화면(screen)을 둘로 분할하고, 분할된 영역 각각에 메인 화면(main image)과 서브 화면(sub image)을 표시할 수 있다. 메인 화면은 잠금 화면, 홈 화면 및 어플리케이션 실행 화면 중에서 어느 하나가 될 수 있다. 여기서, 잠금 화면은 일반적으로 표시부(130)의 화면이 켜지면 표시되는 영상이다. 특정 터치 동작이 발생되면, 제어부(180)는 화면에 표시되는 영상을 잠금 화면에서 홈 화면 또는 어플리케이션 실행 화면으로 전환한다. 홈 화면은 어플리케이션 실행을 위한 다수의 아이콘을 포함하는 영상이다. 사용자가 아이콘을 터치 앤 드롭하면, 제어부(180)는 해당 어플리케이션을 실행하고, 표시되는 영상을 홈 화면에서 어플리케이션 실행 화면으로 전환한다. 예컨대, 사용자가 영상 통화를 위한 아이콘을 터치 앤 드롭하면, 제어부(180)는 메인 화면 영역에 통화 실행 화면을 표시하도록 표시부(130)를 제어하게 된다. 한편, 서브 화면은 실행 중이거나 사용자가 즐겨 찾는 어플리케이션 아이콘을 포함하는 영상이다.

저장부(140)는 영상 통화 단말기(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 구성으로, 운영체제, 어플리케이션 및 이미지,오디오, 비디오 등의 데이터를 저장할 수 있다. 또한, 저장부(140)는 주기억부(main storage unit)와 보조기억부(secondary storage unit)를 포함한다. 여기서, 주기억부는 플래시 메모리로 그리고 보조기억부는 램(RAM)으로 이루어질 수 있다.

주기억부는 운영체제와 어플리케이션이 로딩되는 공간이다. 즉, 영상 통화 단말기(100)가 부팅되면, 운영체제는 보조기억부에서 주기억부로 로딩된 상태에서 실행된다. 어플리케이션 또한, 보조기억부에서 주기억부로 로딩된 상태에서 실행된다. 해당 어플리케이션은 실행이 종료되면, 주기억부에서 삭제된다. 한편, 보조기억부는 운영 체제(Operating System : OS), 각종 어플리케이션 및 각종 데이터를 저장하는 공간이다. 여기서, 보조기억부는 데이터 영역과 프로그램 영역으로 구분될 수 있다. 특히, 본 발명에 따른 데이터 영역은 도 2에 도시한 바와 같이, 연락처 DB(141), 음성특징정보 DB(142), 인물특징정보 DB(143) 및 탬플릿 DB(144)를 포함한다. 즉, 저장부(140)는 제어부(180)의 제어에 따라, 음성특징정보에 이에 매칭된 인물특징정보를 저장한다. 또한, 저장부(140)는 특정제스처, 얼굴, 입술 등을 검출하기 위한 탬플릿을 저장한다.

무선통신부(160)는 휴대전화 통신, 단문 메시지 서비스(Short Message Service, SMS) 또는 멀티미디어 메시지 서비스(Multimedia Message Service, MMS), 음성 통화, 영상 통화 및 데이터 통신 등과 관련한 신호의 송수신을 수행한다. 또한, 무선통신부(160)는 음성/음향 데이터 및 제어 데이터 등을 무선 신호로 변환하여 송신하고, 무선 신호를 수신하여 음성/음향 데이터 및 제어 데이터 등으로 변환하여 출력한다. 이를 위하여 무선통신부(160)는 송신되는 신호의 주파수를 상승변환 및 증폭하는 무선주파수 송신부와, 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 무선주파수 수신부 등을 포함한다.

카메라(170)는 영상을 촬영하고 촬영한 이미지를 제어부(180)로 출력하는 것으로, 단말기 전면에 배치되는 전면 카메라와 후면에 배치되는 후면 카메라를 포함한다.

제어부(180)는 영상 통화 단말기(100)의 전반적인 동작 및 영상 통화 단말기(100)의 내부 블록들 간의 신호 흐름을 제어한다. 특히, 영상 통화가 개시되면, 본 발명에 따른 제어부(180)는 수신 영상에서 인물 영상들을 추출하고, 추출된 인물 영상들 중에서 수신 음성의 화자 영상을 결정하는 기능을 수행한다. 이와 같은 제어부(180)의 기능에 대해 도 2를 참조로 하여 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 제어부의 전기적인 블록 구성도이다. 도 2를 참조하면, 본 발명의 제어부(180)는 검출부(181), 발화자 결정부(182), 처리부(183) 및 추적부(184)를 포함하여 이루어진다.

검출부(181)는 인물특징검출부(181a), 제스처 검출부(181b) 및 음성특징 검출부(181c)를 포함하여 이루어진다. 여기서, 인물특징검출부(181a)는 여러 가지의 검출기법을 이용하여, 처리부(183)로부터 입력되는 수신영상에서 인물영상들과 이들의 특징정보를 검출하여 화자 결정부(182)로 전달한다. 검출기법에 대해 예를 들자면, 인물특징검출부(181a)는 인물영상의 윤곽선(edge; 즉, 픽셀 밝기의 불연속점)을 검출하여, 수신 영상에서 인물 영상을 분리해낼 수 있다. 또한, 인물특징 검출부(181a)는 수신 영상의 포맷을 RGB에서 YCbCr으로 변환하고, 색상 성분인 Cb와 Cr을 이용하여 피부영역을 검출할 수도 있다. 또한, 인물특징검출부(181a)는 수신 영상을 그레이(gray) 또는 이진(binary) 처리하고, 이렇게 처리된 영상에 대해 템플릿 매칭(template matching)을 수행하여, 수신 영상에서 얼굴, 입술 등을 검출할 수도 있다. 제스처검출부(181b) 또한, 템플릿 매칭을 수행하여 수신 영상에서 특정제스처를 검출할 수 있고, 검출된 특정제스처를 화자 결정부(182)로 전달한다. 이외에도, 인물특징정보 및 특정제스처는 다양한 검출기법으로 검출될 수 있다. 한편, 음성특징검출부(181c)는 처리부(183)로부터 입력되는 수신음성에서 음성특징정보를 검출하여 화자 결정부(182)로 전달한다.

화자 결정부(182)는 검출부(181)로부터 인물특징정보, 특정제스처 및 음성특징정보를 수신한다. 화자 결정부(182)는 음성특징정보를 인물특징정보들 중에서 하나에 매칭하고, 이렇게 음성특징정보에 매칭된 인물특징정보의 해당 인물영상을 수신 음성의 화자 영상으로 결정한다. 또한, 화자 결정부(181)는 음성특징정보와 이에 매칭된 인물특징정보를 저장부(140)로 전달하여 저장하게 한다. 한편, 영상 통화가 종료되면, 화자 결정부(181)는 저장부(140) 즉, 인물특징정보DB(143)에 저장되어 있는 모든 인물특징정보들을 삭제할 수 있다. 아래에서 화자 결정부(182)에 대해 구체적으로 설명한다.

화자 결정부(182)는 음성특징검출부(181c)로부터 음성특징정보가 수신되면, 이에 매칭되는 음성특징정보를 저장부(140)에서 검색한다. 검색 결과 매칭되는 음성특징정보가 저장부(140)에 존재하는 경우, 수신된 음성특징정보에 매칭되는 인물특징정보를 저장부(140)에서 검색한다. 검색 결과 매칭되는 인물특징정보가 존재하는 경우, 화자 결정부(182)는 검색된 인물특징정보에 해당되는 인물영상을 화자영상으로 결정한다. 그런 다음, 화자 결정부(182)는 화자 영상의 인물특징정보를 영상처리부(183)로 전달한다.

한편, 입력된 음성특징정보에 매칭되는 음성특징정보 혹은 인물특징정보가 저장부(140)에 저장되어 있지 않는 경우, 화자 결정부(182)는 제스처검출부(181b)로부터 특정제스처를 수신한다. 제스처검출부(181b)로부터 특정제스처가 수신되는 경우, 화자 결정부(182)는 특정제스처를 토대로 인물특징검출부(181a)로부터 수신된 인물특징정보들 중에서 하나를 선택하고, 이렇게 선택된 인물특징정보를 음성특징정보에 매칭한다. 그런 다음, 화자 결정부(182)는 음성특징정보와 이에 매칭된 인물특징정보를 저장부(140)에 전달하여 저장하게 한다. 또한, 화자 결정부(182)는 화자 영상의 인물특징정보를 영상처리부(183)로 전달한다.

위와 달리, 화자는 수동으로도 결정될 수 있다. 즉, 입력된 음성특징정보에 매칭되는 음성특징정보 혹은 인물특징정보가 저장부(140)에 저장되어 있지 않는 경우, 화자 결정부(182)는 터치스크린(110)으로부터 사용자입력정보를 수신한다. 터치스크린(110)으로부터 사용자입력정보가 수신되는 경우, 화자 결정부(182)는 사용자입력정보를 토대로 인물특징검출부(181a)로부터 수신된 인물특징정보들 중에서 하나를 선택하고, 이렇게 선택한 인물특징정보를 음성특징정보에 매칭한다. 그런 다음, 화자 결정부(182)는 음성특징정보 및 이에 매칭된 인물특징정보를 저장부(140)에 전달하여 저장하게 한다. 또한, 화자 결정부(182)는 화자 영상의 인물특징정보를 영상처리부(183)로 전달한다.

화자 결정부(182)는 인물특징검출부(181a)로부터 인물특징정보들이 수신되면, 수신된 인물특징정보들을 인물특징정보DB(143)와 비교한다. 비교 결과 수신된 인물특징정보들 중에서 인물특징정보DB(143)에 저장되어 있지 않은 인물특징정보가 있으면, 해당 인물특징정보를 영상 처리부(183)에 전달하여 미등록 인물영상을 마킹하게 한다. 즉, 화자 결정부(182)는 인물 영상들 중에서 음성특징정보에 매칭되어 있지 않은 미등록 인물영상을 표시하게 한다.

화자 결정부(181)는 음성특징정보를 특정 연락처에 매칭할 수 있다. 예를 들면, 화자 결정부(181)는, 검출부(181)로부터 음성특징정보와 함께 하나의 인물특징정보만 수신되면, 연결된 통화를 일대일 영상통화로 인지하게 된다. 또한, 검출부(181)로부터 인물특징정보 없이 음성특징정보만 수신되면, 연결된 통화를 음성통화로 인지하게 된다. 이렇게 일대일 영상통화 또는 음성통화로 인지하게 될 경우, 화자 결정부(181)는 연락처DB(141)를 검색하여, 무선통신부(160)로부터 수신한 전화번호의 저장 여부를 확인한다. 확인 결과 수신 전화번호가 연락처DB(141)에 저장되어 있는 것인 경우, 화자 결정부(181)는 해당 연락처에 음성특징정보를 매칭한다. 물론, 이러한 연락처 매칭은 사용자의 메뉴 조작에 의해 이루어질 수도 있다.

처리부(183)는 영상처리부(183a)와 오디오처리부(183b)를 포함하여 이루어진다. 여기서, 영상처리부(183a)는 카메라(170) 또는 무선통신부(160)로부터 입력되는 아날로그 형태의 영상 신호를 디지털 변환하는 코더와, 그 반대로 디지털 형태의 영상 신호를 아날로그 변환하여 표시부(130) 또는 무선통신부(160)로 출력하는 디코더를 포함한다. 특히, 본 발명에 따른 영상처리부(183a)는 화자 결정부(181)로부터 화자 영상의 인물특징정보를 전달받게 되면, 화자 영상이 다른 인물영상과 구별되도록 인물특징정보를 이용하여 수신 영상을 처리하고, 처리된 영상을 표시부(130)로 전달한다. 여기서, 영상처리부(183)가 화자 결정부(181)로부터 전달받게 되는 정보에는 연락처 예컨대, 화자의 이름이 포함될 수 있다. 오디오처리부(183b)는 마이크(152) 또는 무선통신부(160)로부터 입력되는 아날로그 형태의 오디오 신호를 디지털 변환하는 코더와, 그 반대로 디지털 형태의 오디오 신호를 아날로그 변환하여 스피커(151) 또는 무선통신부(160)로 출력하는 디코더를 포함한다. 특히, 본 발명에 따른 오디오처리부(183b)는 무선통신부(160)로부터 입력되는 아날로그 형태의 오디오 신호를 디지털 변환하여 음성 특징 검출부(181c)로 출력한다.

추적부(184)는 인물특징검출부(181a)로부터 인물특징정보들을 수신하고, 수신된 각각의 인물특징정보의 위치 변화를 추적한다. 그런 다음, 추적부(184)는 인물특징정보DB(142)에 저장되어 있는 인물특징정보를 상기 위치 변화된 인물특징정보로 갱신한다.

도 3은 본 발명의 제 1 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다.

영상 통화가 개시되면, 제어부(180)는 수신 영상에서 인물 영상들 및 그들 각각의 신체 일부 즉, 얼굴의 위치 정보를 검출한다. 그런 다음, 제어부(180)는 도 3(a)에 도시한 바와 같이, 얼굴의 윤곽(320, 330)을 표시하도록 표시부(130)를 제어한다. 사용자는 얼굴의 윤곽(320, 330)이 표시된 것을 보고, 상대방들에게 손을 든 상태에서, 한 번씩 순서대로, 말하라고 요청한다. 이에 따라 첫 번째 화자가 특정제스처를 취하게 되고, 제어부(180)는 수신 음성 및 수신 영상에서 첫 번째 화자의 음성특징정보와 특정제스처(이하, "제1음성특징정보" 및 "제1특정제스처"라 함)를 검출하고 도 3(a)에 도시한 바와 같이, 제1특정제스처의 윤곽(310)을 표시하도록 표시부(130)를 제어하게 된다. 또한, 제어부(180)는 인물 영상들 중에서 제1특정제스처를 포함한 인물 영상을 첫 번째 화자 영상으로 결정하고, 첫 번째 화자 영상에서 전체 윤곽의 위치 정보를 검출하며, 검출된 전체 윤곽의 위치 정보를 제1음성특징정보에 매칭한다. 그런 다음, 제어부(180)는 이렇게 서로 매칭된 두 정보를 저장부(140)에 전달하여 저장하게 한다. 또한, 제어부(180)는 첫 번째 화자의 얼굴 윤곽(320)을 삭제하고 그 대신 도 3(b)에 도시한 바와 같이, 첫 번째 화자의 전체 윤곽(340)을 표시하도록 표시부(130)를 제어한다. 한편, 첫 번째 화자가 말을 중단하게 되면, 제어부(180)는 무선통신부(160)로부터 더 이상 음성이 수신되지 않기 때문에, 전체 윤곽(340)의 표시를 중단시킨다.

다음으로, 두 번째 화자가 특정제스처를 취하게 된다. 이에 따라, 제어부(180)는 두 번째 화자의 음성특징정보와 특정제스처(이하, "제2음성특징정보" 및 "제2특정제스처"라 함)를 검출하게 되고, 도 3(c)에 도시한 바와 같이, 제2특정제스처의 윤곽(350)을 표시하도록 표시부(130)를 제어하게 된다. 또한, 제어부(180)는 제2특정제스처를 토대로 두 번째 화자 영상을 결정하고, 두 번째 화자 영상에서 전체 윤곽의 위치 정보를 검출하여 제2음성특징정보에 매칭한 다음, 이렇게 매칭된 두 정보를 저장부(140)에 전달한다. 또한, 제어부(180)는 두 번째 화자의 얼굴 윤곽(350)을 삭제하고 그 대신 도 3(d)에 도시한 바와 같이, 두 번째 화자의 전체 윤곽(360)을 표시하도록 표시부(130)를 제어한다.

이후, 화자 표시는 특정제스처의 검출 없이 이루어진다. 즉, 제어부(180)는 수신 음성에서 음성특징정보를 검출하고, 검출된 음성특징정보에 매칭되는 인물특징정보를 저장부(140)에서 검색한다. 그런 다음, 검색된 인물특징정보에 해당되는 인물영상을 화자영상으로 결정한다. 그런 다음, 제어부(180)는 도 3(e)에 도시한 바와 같이, 화자의 전체 윤곽(340)을 표시하도록 표시부(130)를 제어한다.

도 4는 본 발명의 제 2 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다. 요약컨대, 앞서 설명한 제 1 실시예는 특정제스처를 토대로 화자를 결정한 방식이고, 제 2 실시예는 사용자입력정보를 토대로 화자를 결정하는 방식이라 하겠다.

영상 통화가 개시되면, 제어부(180)는 수신 영상에서 인물 영상들 및 그들 각각의 신체 일부 즉, 얼굴의 위치 정보를 검출한다. 그런 다음, 제어부(180)는 도 4(a)에 도시한 바와 같이, 얼굴의 윤곽(410, 420)을 표시하도록 표시부(130)를 제어한다. 한편, 사용자는 도 4(b)에 도시한 바와 같이, 얼굴들 중에서 어느 하나를 먼저 터치(430)하게 된다. 즉, 사용자는 표시되는 인물 영상들 중에서 첫 번째 화자 영상을 터치하게 된다. 이에 따라, 터치스크린(110)은 제1터치정보를 제어부(180)로 전송한다. 이때, 제어부(180)는 무선통신부(160)로부터 음성이 수신중이면, 터치된 인물 영상을 첫 번째 화자 영상으로 결정하고, 첫 번째 화자 영상에서 전체 윤곽을 검출함과 아울러, 수신 음성(즉, 첫 번째 화자 음성)에서 음성특징정보(이하, "제1음성특징정보"라 한다)를 검출한다. 그런 다음, 제어부(180)는 검출된 전체 윤곽의 위치 정보를 제1음성특징정보에 매칭하고, 이렇게 서로 매칭된 두 정보를 저장부(140)에 전달하여 저장하게 한다. 또한, 제어부(180)는 표시부(130)를 제어하여 첫 번째 화자의 얼굴 윤곽(410)을 삭제하게 하고 그 대신, 도 4(c)에 도시한 바와 같이, 검출된 첫 번째 화자 영상의 전체 윤곽(440)을 표시하게 한다.

다음으로, 사용자는 도 4(d)에 도시한 바와 같이, 두 번째 화자 영상을 터치(450)하게 된다. 이에 따라, 터치스크린(110)은 제2터치정보를 제어부(180)로 전송한다. 이때, 제어부(180)는 무선통신부(160)로부터 음성이 수신중이면, 터치된 인물 영상을 두 번째 화자 영상으로 결정하고, 두 번째 화자 영상에서 전체 윤곽을 검출함과 아울러, 두 번째 화자의 음성특징정보(이하, "제2음성특징정보"라 한다)를 검출한다. 그런 다음, 제어부(180)는 검출된 전체 윤곽의 위치 정보를 제2음성특징정보에 매칭하고, 이렇게 서로 매칭된 두 정보를 저장부(140)에 전달하여 저장하게 한다. 또한, 제어부(180)는 표시부(130)를 제어하여 두 번째 화자의 얼굴 윤곽(420)을 삭제하게 하고 그 대신, 도 4(e)에 도시한 바와 같이, 검출된 두 번째 화자 영상의 전체 윤곽(460)을 표시하게 한다.

이후, 화자 표시는 터치 조작 없이 이루어진다. 즉, 제어부(180)는 수신 음성에서 음성특징정보를 검출하고, 검출된 음성특징정보에 매칭되는 인물특징정보를 저장부(140)에서 검색한다. 그런 다음, 검색된 인물특징정보에 해당되는 인물영상을 화자영상으로 결정한다. 그런 다음, 제어부(180)는 도 4(f)에 도시한 바와 같이, 화자의 전체 윤곽(440)을 표시하도록 표시부(130)를 제어한다.

도 5는 본 발명의 제 3 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다. 도 5를 참조하면, 제어부(180)는 화자 영상 위에 마크(510)를 표시하도록 표시부(130)를 제어할 수 있다. 또한, 제어부(180)는 화자 영상 위에 연락처 정보(520)를 표시하도록 표시부(130)를 제어할 수도 있다.

도 6은 본 발명의 제 4 실시예에 따른 화자 표시 방법을 설명하기 위한 흐름도이다.

영상 통화가 개시되면, 단계 600에서 제어부(180)는 무선통신부(160)로부터 음성 및 영상을 수신한다. 단계 601에서 제어부(180)는 저장부(130)에 저장되어 있는 표시 모드 설정값을 참조하여, 영상 통화 단말기(100)가 화자 표시 모드로 설정되어 있는지 여부를 판단한다. 제어부(180)는 단계 601에서의 판단 결과 영상 통화 단말기(100)가 화자 표시 모드로 설정되어 있는 경우에는 단계 602로 진행한다.

단계 602에서 제어부(180)는 수신 음성에서 음성특징정보를 검출한다. 그리고 단계 603으로 진행하여, 검출된 음성특징정보에 매칭되는 음성특징정보가 저장부(140)에 존재하는지를 판단한다. 제어부(180)는 단계 603에서의 판단 결과 매칭되는 음성특징정보가 존재하지 않는 경우 단계 604로 진행한다. 단계 604에서 제어부(180)는 수신 영상에서 인물 영상들을 검출한다. 그리고 단계 605로 진행하여 미등록 인물 영상을 마킹하여 표시하도록 표시부(130)를 제어한다. 여기서, 미등록 인물 영상과 관련된 내용은 앞서 도 2를 참조하여 구체적으로 설명하였다.

단계 606에서 제어부(180)는 저장부(140)에 저장되어 있는 등록 모드 설정값을 참조하여, 영상 통화 단말기(100)가 자동 등록 모드로 설정되어 있는지 여부를 판단한다. 제어부(180)는 판단 결과 자동 등록 모드로 설정되어 있는 경우에는 단계 607로 진행한다. 단계 607에서 제어부(180)는 수신 영상에서 특정제스처를 검출한다. 그리고 단계 608에서는 검출된 특정제스처를 토대로 인물영상들 중에서 하나를 선택하고, 단계 609에서는 선택된 인물영상의 인물특징정보를 검출하며, 단계 610에서는 검출된 인물특징정보와 음성특징정보를 서로 매칭하여 저장부(140)에 저장한다. 그런 다음, 단계 611에서 제어부(180)는 선택된 인물영상을 다른 인물영상과 구별되게 표시되도록 표시부(130)를 제어한다.

제어부(180)는 단계 606에서의 판단 결과, 영상 통화 단말기(100)가 수동 등록 모드로 설정되어 있는 경우에는 단계 612로 진행한다. 단계 612에서 제어부(180)는 터치스크린(110) 또는 키입력부(120)로부터 사용자입력정보를 수신한다. 그리고 단계 612에서는 수신된 사용자입력정보를 토대로 인물영상들 중에서 하나를 선택한 다음 앞서 설명한 단계 609로 진행한다.

제어부(180)는 단계 603에서의 판단 결과, 검출된 음성특징정보에 매칭되는 음성특징정보가 저장부(140)에 존재하는 경우에는 단계 613으로 진행한다. 단계 613에서 제어부(180)는 검출된 음성특징정보에 매칭되는 인물특징정보가 저장부(140)에 존재하는지를 판단한다. 판단 결과 존재하지 않는 경우에는 앞서 설명한 단계 604로 진행한다. 반면, 존재하는 경우에는 단계 614로 진행한다. 단계 614에서 제어부(180)는 검출된 음성특징정보에 매칭되는 인물특징정보를 토대로 인물영상들 중에서 하나를 선택한 다음 앞서 설명한 단계 611로 진행한다.

한편, 본 발명에 따른 영상 통화 단말기(100)는 화자를 표시하는 동시에, 화자와 관련된 각종 정보 예컨대, 화자와 주고받은 메시지 목록, 화자와의 통화 목록, 화자와 관련한 SNS(Social Network Service) 정보 등을 표시할 수 있다. 구체적으로, 도 7 내지 도 10을 참조로 하여 설명한다.

도 7 내지 도 10은 본 발명의 제 5 실시예에 따른 화자 표시 방법을 설명하기 위한 화면이다.

먼저, 제어부(180)는 표시부(130)를 제어하여, 화자 영상 위에 화자의 이름과 화살표 모양의 마크를 표시하게 한다. 이때, 키입력부(120)로부터 화면 분할 명령이 입력되면, 제어부(180)는 표시부(130)를 제어하여, 화면을 메인 화면 영역(710)과 서브 화면 영역(720)으로 분할하고, 메인 화면 영역(710)에 영상 통화 화면(730)을 표시하고 서브 화면 영역(720)에 어플리케이션 실행을 위한 아이콘을 표시하게 한다. 예컨대, 제어부(180)는 메시지 목록 아이콘(740), 트위터 아이콘(750), 통화 목록 아이콘(760) 및 검색엔진 아이콘(770)을 서브 화면 영역(720)에 표시하도록 표시부(130)를 제어할 수 있다.

위와 같이 화면이 분할되어 있는 상태에서 사용자가 검색엔진 아이콘(770)을 터치 앤 드롭하게 되면, 터치스크린(110)은 이와 관련한 사용자입력정보를 제어부(180)로 전달한다. 이에 따라, 제어부(180)는 표시부(130)를 제어하여 도 7에 도시한 바와 같이, 검색엔진 실행 화면(780)을 표시하게 하고 그 위에 화자 영상(790)을 표시하게 한다. 따라서, 사용자는 화자와 영상 통화를 하는 동시에, 화자와 나눈 대화 중 궁금한 사항을 검색할 수 있게 된다. 또한, 사용자가 메시지 목록 아이콘(740)을 터치 앤 드롭하게 되면, 터치스크린(110)은 이와 관련한 사용자입력정보를 제어부(180)로 전달한다. 이에 따라, 제어부(180)는 표시부(130)를 제어하여 도 8에 도시한 바와 같이, 화자와 주고받은 메시지 목록(810)을 표시하게 하고 그 위에 화자 영상(790)을 표시하게 한다. 또한, 사용자가 트위터 아이콘(750)을 터치 앤 드롭하게 되면, 터치스크린(110)은 이와 관련한 사용자입력정보를 제어부(180)로 전달한다. 이에 따라, 제어부(180)는 표시부(130)를 제어하여 도 9에 도시한 바와 같이, 화자의 최근 트윗(Tweets; 910)을 표시하게 하고 그 위에 화자 영상(790)을 표시하게 한다. 한편, 제어부(180)는 도 10에 도시한 바와 같이, 영상 통화 화면(1000) 위에 화자와 관련된 정보(1100)를 표시하게 할 수도 있다.

본 발명의 화자 표시 방법 및 이를 구현하는 영상 통화 단말기는 전술한 실시 예에 국한되지 않고 본 발명의 기술 사상이 허용하는 범위에서 다양하게 변형하여 실시할 수가 있다.

100: 영상 통화 단말기
110: 터치스크린 120: 키입력부
130: 표시부 140: 저장부
151: 스피커 152: 마이크
160: 무선통신부 170: 카메라
180: 제어부 181: 검출부
182: 화자 결정부 183: 처리부
184: 추적부

Claims

영상 통화가 개시되면, 상대편 인물들의 음성특징정보를 검출하여, 수신되는 영상의 인물영상들에 일대일로 매칭하는 단계;
상기 매칭하는 단계 후 수신되는 음성에서 음성특징정보를 검출하는 단계; 및
상기 검출된 음성특징정보에 매칭된 인물영상을 다른 인물영상과 구별되게 표시하는 단계를 포함하는 영상 통화 단말기의 화자 표시 방법.
제 1 항에 있어서, 상기 매칭하는 단계는,
수신되는 음성 및 영상에서 각각 음성특징정보와 인물영상들을 검출하는 단계;
상기 검출된 인물영상들 중에서 하나를 선택하는 단계;
상기 선택된 인물영상의 인물특징정보를 검출하는 단계; 및
상기 검출된 음성특징정보를 상기 검출된 인물특징정보에 매칭하는 단계를 포함하는 것을 특징으로 하는 영상 통화 단말기의 화자 표시 방법.
제 2 항에 있어서, 상기 선택하는 단계는,
상기 수신되는 영상에서 특정제스처를 검출하는 단계; 및
상기 검출된 특정제스처를 토대로, 상기 검출된 인물영상들 중에서 하나를 선택하는 단계를 포함하는 것을 특징으로 하는 영상 통화 단말기의 화자 표시 방법.
제 2 항에 있어서, 상기 선택하는 단계는,
사용자입력정보를 수신하는 단계; 및
상기 수신된 사용자입력정보를 토대로, 상기 검출된 인물영상들 중에서 하나를 선택하는 단계를 더 포함하는 것을 특징으로 하는 영상 통화 단말기의 화자 표시 방법.
제 2 항에 있어서, 상기 매칭하는 단계는,
상기 검출된 인물영상들 중에서 미등록 인물영상을 마킹하여 표시하는 단계를 더 포함하고,
상기 미등록 인물영상은 음성특징정보에 매칭되어 있지 않은 영상인 것을 특징으로 하는 영상 통화 단말기의 화자 표시 방법.
제 2 항에 있어서,
상기 검출된 음성특징정보와 인물특징정보는 각각, 음색 정보와 위치 정보인 것을 특징으로 하는 영상 통화 단말기의 화자 표시 방법.
제 1 항에 있어서, 상기 표시하는 단계는,
상기 검출된 음성특징정보에 매칭된 인물영상의 윤곽선을 표시하는 것을 특징으로 하는 영상 통화 단말기의 화자 표시 방법.
영상 및 음성을 수신하는 무선통신부;
상기 수신되는 음성에서 음성특징정보를 검출하고, 상기 수신되는 영상에서 인물영상들의 인물특징정보를 검출하며, 상기 검출된 음성특징정보를 상기 검출된 인물특징정보들 중에서 하나에 매칭하며, 상기 매칭된 인물특징정보의 해당 인물영상을 상기 수신되는 음성의 화자영상으로 결정하는 제어부;
상기 검출된 음성특징정보와 이에 매칭된 인물특징정보를 저장하는 저장부; 및
상기 결정된 화자영상을 다른 인물영상과 구별되게 표시하는 표시부를 포함하여 이루어진 영상 통화 단말기.
제 8 항에 있어서, 상기 제어부는,
상기 수신되는 음성에서 음성특징정보를 검출하고, 상기 수신되는 영상에서 특정제스처와 인물영상들의 인물특징정보를 검출하는 검출부;
상기 검출된 특정제스처를 토대로, 상기 검출된 인물특징정보들 중에서 하나를 상기 검출된 음성특징정보에 매칭하여 화자영상을 결정하는 화자 결정부; 및
상기 결정된 화자영상이 다른 인물영상과 구별되도록 상기 수신되는 영상을 처리하고, 상기 처리된 영상을 상기 표시부로 출력하는 영상 처리부를 포함하는 것을 특징으로 하는 영상 통화 단말기.
제 9 항에 있어서, 상기 화자 결정부는,
상기 검출된 음성특징정보에 매칭되는 인물특징정보를 상기 저장부에서 검색하고, 상기 검색된 인물특징정보에 해당되는 인물영상을 화자영상으로 결정하고,
상기 검출된 음성특징정보에 매칭되는 인물특징정보가 상기 저장부에서 검색되지 않으면, 상기 검출된 특정제스처를 토대로 상기 검출된 인물특징정보들 중에서 하나를 선택하고, 상기 선택된 인물특징정보를 상기 검출된 음성특징정보에 매칭하는 것을 특징으로 하는 영상 통화 단말기.
제 10 항에 있어서,
상기 화자 결정부는 상기 검출된 음성특징정보에 매칭되는 인물특징정보가 상기 저장부에서 검색되지 않으면, 상기 영상 처리부를 제어하여 미등록 인물영상이 마킹되게 하고,
상기 미등록 인물영상은 상기 저장부에 인물특징정보가 저장되어 있지 않은 영상인 것을 특징으로 하는 영상 통화 단말기.
제 11 항에 있어서, 상기 화자 결정부는,
터치스크린으로부터 사용자입력정보를 수신하고, 상기 수신된 사용자입력정보를 토대로 상기 검출된 인물특징정보들 중에서 하나를 선택하는 것을 특징으로 하는 영상 통화 단말기.
제 8 항에 있어서, 상기 표시부는,
상기 결정된 화자영상의 윤곽선을 표시하는 것을 특징으로 하는 영상 통화 단말기.
제 8 항에 있어서, 상기 제어부는,
상기 수신되는 음성에서 음색 정보를 검출하고, 상기 수신되는 영상에서 인물영상의 위치 정보를 검출하는 것을 특징으로 하는 영상 통화 단말기.
제 9 항에 있어서, 상기 제어부는,
상기 수신되는 음성에서 음성특징정보를 검출하고, 상기 수신되는 영상에서 특정제스처와 인물영상들의 인물특징정보를 검출하는 검출부;
터치스크린으로부터 사용자입력정보를 수신하고, 상기 수신된 사용자입력정보를 토대로 상기 검출된 인물특징정보들 중에서 하나를 상기 검출된 음성특징정보에 매칭하여 화자영상을 결정하는 화자 결정부; 및
상기 결정된 화자영상이 다른 인물영상과 구별되도록 상기 수신되는 영상을 처리하고, 상기 처리된 영상을 상기 표시부로 출력하는 영상 처리부를 포함하는 것을 특징으로 하는 영상 통화 단말기.