KR101439212B1

KR101439212B1 - 단말 장치 및 이를 이용한 토킹 헤드 표시 방법

Info

Publication number: KR101439212B1
Application number: KR1020120139399A
Authority: KR
Inventors: 나경건
Original assignee: (주)에프엑스기어
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2014-09-12
Also published as: KR20140071627A

Abstract

단말 장치 및 이를 이용한 토킹 헤드 표시 방법이 개시된다. 사용자의 음성쿼리를 입력받는 음성입력부; 음성입력부에서 입력된 음성쿼리를 분석하여, 출력 내용을 결정하는 음성처리부; 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 토킹 헤드 관리부; 및 토킹 헤드를 표시하는 표시부; 사용자의 터치 입력을 수신하는 터치입력부; 및 사용자를 촬영하는 영상입력부를 포함하는, 단말 장치가 개시된다.

Description

단말 장치 및 이를 이용한 토킹 헤드 표시 방법{terminal apparatus and method for displaying talking head}

실시예들은 단말 장치 및 이를 이용한 토킹 헤드 표시 방법에 관한 것이다. 보다 구체적으로, 실시간으로 토킹 헤드를 표시하는 단말 장치 및 그 방법에 관한 것이다.

컴퓨터의 성능이 향상되고, 디스플레이 기술이 발전하면서, 전자 장치의 사용자 인터랙션 기술이 빠르게 발전하였다. 직관적이고 편리한 사용자 경험(User Experience)을 전달하기 위하여 토킹 헤드(talking head)라는 애플리케이션 영역이 생겨나고 현재도 많은 연구가 이루어지고 있다. 토킹 헤드는 전자 장치에 사람의 머리를 포함한 상반신을 표시하여, 사용자의 요청 또는 설계된 프로그램에 따라, 얼굴을 변형하거나, 실제 사람처럼 음성을 내는 인터페이스이다. 영화 “벤자민버튼의 시간은 거꾸로간다”에서 사용된 아바타가 일종의 토킹 헤드이며, 고화질을 보장하기 위하여 프레임당 1hour의 데이터 이상을 제공하기도 하였다. 동시에 매우 큰 규모의 데이터 메모리를 필요로 하였으며, 긴 렌더링 시간을 소요하였다. PC게임 영역에서도 토킹 헤드가 다수 사용되었는데 NVidia Dawn Demo는 실시간 애플리케이션이기는 하나, 조명 및 피부 톤의 사실성이 결여되어 높은 수준의 토킹 헤드를 구현하지는 못하였다. 토킹 헤드가 실제 사람과 비슷하게 구현되기 위해서는, 피부, 머리, 조명 등 극사실적인 외관을 표현하면서도, 토킹 헤드의 움직임이 자연스럽고 다양하도록 제어할 수 있어야 한다. 또한, 3차원 렌더링을 위해서 많은 연산을 요구하기도 한다. 보통의 프로그램에 비해서, 컴퓨터의 고성능을 요구하였기 때문에, 기존에는 PC나 슈퍼컴퓨터 등을 사용하여 고품질의 토킹 헤드를 구현하는 것이 일반적이었다. 그러나, 스마트 기기(스마트폰, 스마트패드 등)가 등장하고, 스마트 기기에 내장되는 하드웨어 성능이 급격히 향상됨으로 인하여 스마트 기기에서도 고품질의 토킹 헤드를 구현할 수 있게 되었다. 그러나, 하드웨어 발전에도 불구하고 스마트 기기에서 토킹 헤드를 효율적으로 사용할 수 있는 애플리케이션은 아직 부족한 실정이다. 또한, 스마트 기기의 한정된 성능을 최소로 사용하기 위한 최적화 알고리즘도 필요하다.

한국 특허출원 10-2009-0112882

본 발명의 일 측면에 따르면, 토킹 헤드를 사용함으로써 스마트 기기의 음성인식 서비스를 효율적으로 사용할 수 있다.

본 발명의 다른 측면에 따르면, 스마트 기기에서도 사실적인 외관과 모션을 보장하는 토킹 헤드를 구현할 수 있다.

본 발명의 다른 측면에 따르면, 컨텐츠의 내용에 따른 감정을 토킹 헤드가 표정으로써 전달하여, 효과적인 사용자 인터랙션을 구현할 수 있다.

본 발명의 일 측면에 따르면, 사용자의 음성쿼리를 입력받는 음성입력부; 상기 음성입력부에서 입력된 음성쿼리를 분석하여, 출력 내용을 결정하는 음성처리부; 상기 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 토킹 헤드 관리부; 및

상기 토킹 헤드를 표시하는 표시부; 상기 사용자의 터치 입력을 수신하는 터치입력부; 및 상기 사용자를 촬영하는 영상입력부를 포함하는, 단말 장치가 제공된다.

본 발명의 다른 측면에 따르면, 사용자의 음성쿼리를 입력받는 단계; 상기 음성쿼리를 분석하여, 출력 내용을 결정하는 단계; 상기 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 단계; 및 상기 토킹 헤드를 표시하는 단계를 포함하는, 단말 장치의 토킹 헤드 표시 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 사용자의 음성쿼리를 입력받는 단계; 상기 음성쿼리를 분석하여, 출력 내용을 결정하는 단계; 상기 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 단계; 및 상기 토킹 헤드를 표시하는 단계를 포함하는, 단말 장치의 토킹 헤드 표시 방법을 수행하기 위한 컴퓨터로 실행 가능한 명령이 기록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.

본 발명에 따르면, 스마트 기기의 음성인식 서비스를 실감나게 사용함으로써 편리하게 스마트 기기를 활용할 수 있는 효과가 있다.

본 발명의 다른 측면에 따르면, 스마트 기기에서도 높은 수준의 기능을 구현하는 토킹 헤드를 사용할 수 있는 효과가 있다.

본 발명의 다른 측면에 따르면, 토킹 헤드가 감정과 함께 메시지를 전하기 때문에, 사용자로 하여금 직관적이고 효과적인 사용자 인터랙션을 구현할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 단말 장치의 내부구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 토킹 헤드 관리부의 내부구성을 도시한 도면이다.
도 3a 내지 3i는 본 발명의 일 실시예에 따른 감정모드를 표현한 도면이다.
도 4a은 본 발명의 일 실시예에 따라 표시한 토킹 헤드의 구현예이다.
도 4b은 본 발명의 일 실시예에 따라 안면의 특징점을 표시한 토킹 헤드의 구현예이다.
도 4c는 본 발명의 일 실시예에 따라 안면의 세부영역으로 분할된 토킹 헤드의 구현예이다.
도 5a 내지 5e는 본 발명의 일 실시예에 따른 입모양이 표시된 토킹 헤드의 제1구현예이다.
도 6a 내지 6c는 본 발명의 일 실시예에 따른 손모양이 표시된 토킹 헤드의 제1구현예이다.
도 7a는 본 발명의 일 실시예에 따라 상하 좌우의 제1각도로 표시된 토킹 헤드의 제1구현예이다.
도 7b은 본 발명의 일 실시예에 따라 상하 좌우의 제2각도로 표시된 토킹 헤드의 제2구현예이다.
도 7c은 본 발명의 일 실시예에 따라 상하 좌우의 제3각도로 표시된 토킹 헤드의 제3구현예이다.
도 8a 내지 8e은 본 발명의 일 실시예에 따라 시간적으로 변경되도록 표시된 토킹 헤드의 구현예이다.
도 9는 본 발명의 일 실시예에 따른 단말 장치를 이용한 토킹 헤드 표시 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

도 1은 본 발명의 일 실시예에 따른 단말 장치(1)의 내부구성을 도시한 도면이다. 단말 장치(1)는 음성입력부(10), 음성처리부(20), 터치입력부(30), 영상입력부(40), 표시부(50), 토킹헤드관리부(100)를 포함할 수 있다. 도시하지는 않았지만 단말 자치(1)는 음성을 출력하는 음성출력부, 각종 데이터를 저장하는 저장부를 포함할 수도 있다.

단말 장치(1)는 다양한 형태로 실시될 수 있고, 다양한 특징을 포함할 수 있다. 단말 장치(1)는 특정 어플리케이션이 가동될 수 있는 모든 장치를 포함할 수 있으며 그 형태를 제한하지 아니한다.

일 실시예에서, 단말 장치(1)를 통해 어플리케이션 즉 임의의 프로그램이 작동할 수 있으며, 단말 장치(1)의 카메라기능, 저장기능, 연산기능 등을 활용할 수 있다. 예를 들어, 단말 장치(1)는 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000 기반의 단말기 등을 비롯한 핸드헬드(Handheld) 기반 무선 단말기를 전부 포함한다. 특히 단말 장치(1)는 디스플레이, 터치 센서 등의 각종 센서, 진동모터, 스피커, 통신모듈 등이 포함된 스마트 폰 또는 경우에 따라 소형의 스마트 패드일 수 있다. 또한, 단말 장치(1)는 프로세서, 운영 체제 및 애플리케이션 프로그램 인터페이스(API)를 갖춰 하나 이상의 소프트웨어 애플리케이션 및 운영 체제간에 통신을 제공하는 처리 시스템을 포함할 수 있다. 나아가 단말 장치(1)의 처리 시스템은 다양한 소프트웨어 애플리케이션을 실행하도록 구성될 수 있다.

단말 장치(1)는 다른 객체와 통신할 수 있으며, 이를 위해 통신을 할 수 있는 하드웨어나 소프트웨어가 탑재될 수 있다. 통신 방법은 객체와 객체가 네트워킹 할 수 있는 모든 통신 방법을 포함할 수 있을 것이며, 유선/무선 통신, 3G, 4G, 혹은 그 이외의 방법에도 제한되지 않는다. 단말 장치(1)가 갖는 각종 센서 정보, 음성 피드백 정보, 진동 피드백 정보를 포함한 송수신이 가능한 모든 정보는 외부 객체로 전송되거나, 또는 내부 구성요소에 수신될 수 있다. 무선 LAN(Local Area Network), MAN(Metropolitan Area Network), GSM(Global System for Mobile Network), EDGE(Enhanced Data GSM Environment), HSDPA(High Speed Downlink Packet Access), W-CDMA(Wideband Code Division Multiple Access), CDMA(Code Division Multiple Access), TDMA(Time Division Multiple Access), 블루투스(Bluetooth), 지그비(Zigbee), 와이-파이(Wi-Fi), VoIP(Voice over Internet Protocol), LTE Advanced, IEEE802.16m, WirelessMAN-Advanced, HSPA+, 3GPP Long Term Evolution (LTE), Mobile WiMAX (IEEE 802.16e), UMB (formerly EV-DO Rev. C), Flash-OFDM, iBurst and MBWA (IEEE 802.20) systems, HIPERMAN, Beam-Division Multiple Access (BDMA), Wi-MAX(World Interoperability for Microwave Access) 및 초음파 활용 통신으로 이루어진 군으로부터 선택되는 하나 이상의 통신 방법으로 통신할 수 있으나 이에 제한되지는 않는다.

단말 장치(1)의 운영체제로 Google사의 Android, RIM사의 Blackberry OS, Apple사의 iOS, Nokia사의 Symbian OS, Microsoft사의 Windows Mobile, 삼성전자의 bada 등 어떠한 운영체제도 구현될 수 있으며, 서술한 운영체제에 한정되는 것은 아니다.

음성입력부(10)는 사용자의 음성쿼리를 입력받는 역할을 한다. 일 실시예에서 음성입력부(10)는 단말기에 내장된 마이크(mike)일 수 있으며, 케이블을 통해 연결된 외부 마이크일 수도 있다. 음성을 입력으로 수신할 수 있는 기능을 구현하고 있다면 충분하고, 전술한 바에 제한되지 아니한다. 일 실시예에서, 음성입력부(10)는 수신한 음성을 녹음할 수도 있다.

음성처리부(20)는 음성입력부(10)에서 입력된 음성쿼리를 분석하여, 출력 내용을 결정하는 역할을 한다. 일 실시예에서, 음성처리부(20)는 인공지능을 보유한 비서 역할을 할 수 있다. 예를 들어, 음성처리부(20)는 음성쿼리를 자연어 분석하여 이메일, 문자 보내기, 스케쥴 설정, 전화걸기 등을 할 수 있도록 한다. 구체적으로“지금 몇 시야?” 라는 음성 쿼리가 입력되는 경우, “지금은 오후 5시 30분입니다.”라는 출력 내용을 결정할 수 있다. 또한, “오늘 날씨는 어때?”라는 음성 쿼리가 입력되는 경우, “오늘은 오후 3시부터 오후 7시까지 비가 내릴 예정입니다.”라는 출력 내용을 결정할 수 있다. 일 실시예에서, 음성처리부(20)는 애플사의 아이폰, 아이패드에서 구현되는 Siri, 삼성사의 갤럭시S의 S-Voice 애플리케이션일 수 있다.

터치입력부(30)는 사용자의 터치 입력을 수신하는 역할을 한다. 일 실시예에서 터치 입력의 형식은 터치한 점의 위치나 새로운 점, 이동한 점, 놓은(release) 점 등의 상태와 같은 것이거나, 탭(tab), 더블 탭(double tab), 패닝(panning), 플리킹(Flicking), 드래그 앤드 드랍(drag and drop), 핀칭(Pinching) 및 스트레칭(Stretching) 등의 터치를 통한 몇 가지 졔스쳐와 같은 것일 수 있다. 일 실시예에서, 터치입력부(30)는 터치스크린일 수 있다. 일 실시예에서, 표시부(50)에 표시된 토킹 헤드에 사용자의 터치 입력이 있는 경우 토킹 헤드로 표시될 영상을 변경할 수 있다. 예를 들어, 토킹 헤드의 입술을 드래그하는 경우, 토킹 헤드의 동작을 중단시킬 수 있다. 또한, 토킹 헤드의 오른쪽 뺨을 터치하는 경우, 토킹 헤드의 내용 출력 속도가 빨라지고, 반대로 토킹 헤드의 왼쪽 뺨을 터치하는 경우, 토킹 헤드의 내용 출력 속도가 느려지게 할 수도 있을 것이다.

영상입력부(40)는 사용자를 촬영하는 역할을 한다. 일 실시예에서, 영상입력부(50)는 사용자 적절히 촬영하기 위하여 셔터속도를 설정하거나 조리개를 설정할 수 있다. 또한, 사용자 주위의 빛에 반응하여 조명을 설정하거나 ISO감도를 조절할 수도 있다. 일 실시예에서, 영상입력부(40)는 단말기에 내장된 카메라(camera)일 수 있으며, 케이블을 통해 연결된 외부 카메라일 수도 있다. 일 실시예에서, 영상입력부(40)에 촬영된 사용자의 위치에 따라, 토킹 헤드로 표시될 영상을 변경할 수 있다. 사용자가 상하 또는 좌우로 이동하는 경우, 토킹 헤드를 회전시켜 사용자를 정면으로 바라보도록 조작할 수 있다.

표시부(50)는 토킹 헤드를 표시하는 역할을 한다. 일 실시예에서, 표시부(50)는 LCD(Liquid Crystal Display), PDP(Plasma Display Panel), 프로젝터 디스플레이일 수도 있고, 셔터 글래스(shutter glass) 방식, 렌티큘라(Lenticular) 방식, 패러랙스 배리어(parallax barrier) 방식 등의 오토스테레오그래피(autostereography) 또는 홀로그램(hologram)을 이용한 3차원 디스플레이일 수도 있다. 또한, 발광다이오드(LED; Light Emitting Diode), 유기발광소자(OLED; Organic Light Emitting Display), 발광중합체(LEP; Light Emitting Polymer), 전자발광소자(EL Element; Electro-Luminescence Element), 전계방출소자(FED; Field Emission Display), 또는 중합체발광소자(PLED; Polymer Light EmittingDisplay) 등이 적용될 수도 있다. 실시예에 따라 표시부(50)는 터치입력부(30)와 통합된 터치스크린일 수도 있다.

토킹 헤드 관리부(100)는 음성처리부(20)에서 결정된 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 역할을 한다. 구체적으로, 세부 구성요소에서 결정된 부분들을 합성하여 토킹 헤드(talking head)로 표시될 영상을 결정한다. 도 2를 참조하여 보다 구체적으로 살펴보자.

도 2는 본 발명의 일 실시예에 따른 토킹 헤드 관리부의 내부구성을 도시한 도면이다. 토킹 헤드 관리부(100)는 감정모드 결정부(110), 안면 내부 관리부(120), 안면 외부 관리부(130), 영상 보간부(140)를 포함할 수 있다.

감정모드 결정부(110)는 음성처리부(20)에서 결정된 출력 내용에 기반하여 토킹 헤드의 감정 모드를 결정하는 역할을 한다. 일 실시예에서 특별한 감정 없음(default), 분노(anger), 혐오(disgust), 두려움(fear), 슬픔(sadness), 즐거움(smile), 놀람(surprise)의 7가지의 감정으로 감정모드를 구분할 수 있다. 도3a 내지 3i를 참조하면 다른 실시예에서는 10가지의 감정으로 감정모드를 구분할 수도 있다. 그러나, 감정을 구분하는 기준은 다양할 수 있으며, 전술한 예 또는 도면에 제한되는 것은 아니다.

일 실시예에서, 감정모드 결정부(110)는 출력 내용에 포함된 키워드에 기반하여 토킹 헤드의 감정모드를 결정할 수 있다. 먼저 전술한 7가지의 감정에 복수의 키워드를 매핑하고, 출력 내용에 전술한 키워드가 포함되어 있는 지 여부를 확인하여, 감정 모드를 결정할 수 있다. 예를 들어, “로또, 대박, 100점, 만점, 1등, 행운, 여자친구, 키스” 등의 키워드를 즐거움(smile)모드의 키워드로 하고, “탈락, 실패, 최악, 싫어, 미워” 등의 키워드를 두려움(fear)모드의 키워드로 설정하는 경우라고 가정하자. 음성처리부(20)에서 결정된 출력 내용이 “오늘 저녁 9시에 여자친구님과 압구정동에서 일정이 계획되어 있습니다.”라고 하면, “여자친구”라는 키워드가 포함되어 있기 때문에, 즐거움 모드로 설정된다. 또한, “오늘 홍길동님의 바이오리듬은 최악입니다.”의 출력 내용의 경우 “최악”이라는 키워드가 포함되어 있기 때문에, 두려움 모드로 설정될 것이다. 감정모드 결정부(110)에서 결정된 감정 모드는 안면 내부 관리부(120)의 처리에 영향을 준다. 이에 대해서는 후술하기로 한다.

안면내부관리부(120)는 음성처리부(20)에서 결정된 출력 내용에 기반하여 토킹 헤드 안면 내부에 표시될 영상을 결정하는 역할을 한다. 안면내부관리부(120)는 안면세부영역관리부(121), 입모양관리부(122)를 포함할 수 있다.

안면세부영역관리부(121)는 소정의 기준에 따라 토킹 헤드 안면 내부를 세부영역으로 분할하여, 상기 세부영역별로 표시될 영상을 결정한다. 일 실시예에서, 안면의 특성을 반영하는 특징점을 추출하고, 특징점에 기반하여 세부영역으로 분할할 수 있다. 도 4a은 본 발명의 일 실시예에 따른 토킹 헤드의 구현예이고 도 4b는 안면의 특징점을 표시하고, 특징점을 연결한 토킹 헤드의 구현예이다. 눈썹, 눈, 코, 입술, 주름 등을 고려하여, 특징점을 추출하였다. 다만, 특징점 추출방법은 이에 제한되지 아니한다. 도4c는 본 발명의 일 실시예에 따라 추출한 특징점에 기반하여 안면의 세부영역으로 분할된 토킹 헤드의 구현예이다. 안면세부영역관리부(121)는 Eurographics/SIGGRAPH Symposium on Computer Animation (2003)에 게재된 Geometry-Driven Photorealistic Facial Expression Synthesis 논문을 참조하여 구현될 수도 있다. 안면세부영역관리부(121)는 세부영역에 표시될 영상을 감정 모드 결정부(110)에서 결정된 감정 모드에 따라 결정할 수 있다. 세부영역의 형태를 변경함으로써 특별한 감정 없음(default), 분노(anger), 혐오(disgust), 두려움(fear), 슬픔(sadness), 즐거움(smile), 놀람(surprise)의 감정을 표현할 수 있다.

입모양 관리부(122)는 음성처리부(20)에서 결정된 출력 내용에 기반하여 입술이 표시될 영상을 결정하는 역할을 한다. 입술표시는 표시할 얼굴이 2차원 이미지인지 3차원 메쉬 모델인지에 따라 다양한 접근 방법 들이 제시되고 있다. 일 실시예에서, 2차원 얼굴 이미지를 대상으로 한 립싱크 애니메이션에 관련하여 기존에 촬영된 비디오 영상을 분석하여 연속된 세 개의 음소 조합 각각에 대해 짧은 비디오 시퀀스(video sequence)로 잘라내고, 새로운 음성 트랙(track)에 맞도록 다시 연결하는 방법이 가능하다. 그러나, 상술한 방식은 예제에 기반(sample-based)을 둔 방식이므로 실제에 매우 가까운 결과물을 만들어 낼 수 있지만, 많은 양의 데이터를 보관해야 하므로 용량이 매우 큰 라이브러리가 필요한 단점이 발생할 수 있다.

다른 실시예에서, 2차원 얼굴 이미지들을 예제로 사용한 입술 동기화 애니메이션에 관한 방법에선 각 음소에 대한 예제 모델에 해당하는 얼굴 이미지를 사람이 주관적으로 선택하고, 애니메이션을 위해 중간 단계의 입 모양은 이미지 몰핑(image morphing) 기법을 이용해 생성하여 입술 동기화 애니메이션을 만드는 방법도 제안되었다. 그러나, 상술한 방식은 비즘(viseme) 개수만큼의 입 모양 이미지만을 가지고 애니메이션을 만들기 때문에 같은 발음에 대해서 그 앞뒤 발음에 따라 입 모양이 달라지는 현상(co-articulation effect)을 잘 표현할 수가 없는 단점이 있다. 또 다른 실시예에서, 3차원 메쉬 모델을 대상으로 하는 입술 동기화 애니메이션에서는 말하여질 내용을 스크립트 텍스트(script text)로 입력받아서 음소의 시간에 따른 시퀀스를 생성해내고, 그 정보를 해석하여 음성과 동기화된 립싱크 애니메이션을 만들어 내는 방법이 가능하다. 기존의 대부분의 립싱크 애니메이션 생성 방법들이 립싱크 애니메이션을 제작할 때에는 같은 발음에 대한 입 모양이라고 하더라도 그 앞뒤 발음에 따라 입 모양이 달라지는 현상(co-articulation effect)을 고려하지 않고 있으며, 특정 감정을 나타내는 표정을 추가할 때 현재 발음에 대한 입 주위의 모양새를 크게 깨트리지 않으면서 그 감정표정을 얼굴 모델에 나타낼 수 있는 효과적인 방법을 제안하고 있지 않다. 바람직하게는 ACM SIGGRAPH 97에 게재된 Video Rewrite: Driving Visual Speech with Audio에서와 같이 연속된 세 개의 음소 조합(triphones)을 사용하는 경우 상당 부분 문제점을 해결할 수 있다.

입모양 관리부(122)는 음성처리부(20)에서 결정된 출력 내용이 자연스럽고 사실적으로 표현되도록 입술이 표시될 영상을 결정한다. 일 실시예에서, 입술이 표시될 영상을 결정하기 위해서는 말하여질 내용의 음소 시퀀스 (phoneme sequence) 정보와 각 음소의 길이(phoneme duration)에 대한 정보가 필요하다. 음소는 발음을 할 때 구별되는 최소의 단위이다. 사람이 말을 하는 것은 연속적으로 나열된 음소들을 순서대로 발음하는 것이다. 이 과정을 단말 장치(1)가 수행하기 위하여, 발음될 음소 순으로 해당하는 입 모양을 나열하고 그 사이를 부드럽게 연결하여 연속된 움직임을 생성한다. 도5a 내지 5d는 본 발명의 일 실시예에 따른 입모양들이며, 이를 부드럽게 연결하여 연속적인 움직임을 생성할 수 있다.

입모양 관리부(122)는 MIT에서 연구된 Trainable Videorealistic Speech Animation논문에서 제안하는 MMM(Multidimensional Morphable Model) 및 Trajectory synthesis 모듈을 통해 구현될 수도 있다.

안면 외부 관리부(130)는 음성처리부(20)에서 결정된 출력 내용에 기반하여 토킹 헤드 안면 외부에 표시될 영상을 결정하는 역할을 한다. 구체적으로 감정 모드 결정부(110)에서 결정된 감정모드에 따라 표시될 머리 제스처와 손 제스처를 결정한다. 일 실시예에서, 감정 모드가 놀람인 경우, 도6a내지 도6c처럼, 손을 입으로 다가가는 제스처를 표시하도록 할 수 있다. 다른 실시예에서, 감정 모드가 즐거움인 경우, 머리를 좌우로 흔드는 제스처를 표시하도록 할 수 있다. 머리 제스처와 손 제스처는 전술한 예에 제한되지 않으며, 감정을 표현하는 각종 동작들을 포함할 수 있다.

영상 보간부(140)는 상하 좌우의 제1각도로 표시된 제1토킹 헤드 및 상하 좌우의 제1각도로 표시된 제2토킹 헤드를 보간하여 상하 좌우의 제3각도로 제3토킹 헤드로 표시될 영상을 결정하는 역할을 한다. 단말 장치(1)의 저장 공간, 컴퓨팅 능력이 발전하였지만, 아직 PC/서버에 비해 부족한 부분이 있으므로 최대한 효율적으로 데이터를 처리할 필요가 있다. 일 실시예에서, 토킹 헤드를 상하로 15도씩, 좌우로 15도씩 설정한 샘플 토킹 헤드를 미리 생성할 수 있다. 도7a내지 7c를 참조하여 설명하면, 도8a와 도8b는 소정의 좌우 각도 차이가 나는 샘플 토킹 헤드이다. 도8a와 도8b 를 합성하여 도8a와 도8b사이의 각도를 갖는 토킹 헤드를 생성할 수 있다. 도8c는 도8a와 도8b사이의 각도를 가지며, 도8b 방향으로 조금 더 기울인 토킹 헤드이다.

일 실시예에서, 토킹 헤드 관리부(100)는 사용자의 터치 입력 또는 상기 촬영되는 사용자의 위치에 기반하여 상기 토킹 헤드로 표시될 영상을 결정할 수 있다. 일 실시예에서, 표시부(50)에 표시된 토킹 헤드에 사용자의 터치 입력이 있는 경우 토킹 헤드로 표시될 영상을 변경할 수 있다. 예를 들어, 토킹 헤드의 입술을 드래그하는 경우, 토킹 헤드의 동작을 중단시킬 수 있다. 또한, 토킹 헤드의 오른쪽 뺨을 터치하는 경우, 토킹 헤드의 내용 출력 속도가 빨라지고, 반대로 토킹 헤드의 왼쪽 뺨을 터치하는 경우, 토킹 헤드의 내용 출력 속도가 느려지게 할 수도 있을 것이다.

다른 실시예에서, 영상입력부(40)에 촬영된 사용자의 위치에 따라, 토킹 헤드로 표시될 영상을 변경할 수 있다. 사용자가 상하 또는 좌우로 이동하는 경우, 토킹 헤드를 회전시켜 사용자를 정면으로 바라보도록 조작할 수 있다.

도8a 내지 8d는 본 발명의 실시예에 따라 표현되는 토킹 헤드를 시간적 순서로 표시한 것이다. 음성처리부(20)에서 결정된 출력 내용에 기반하여 음성 메시지를 전달할 수 있는 토킹 헤드를 표시한다. 도8a 내지 8d에서는 도시되지는 않았지만, 도6a 내지 6c와 같이 손제스처를 사용할 수도 있을 것이다.

도9는 본 발명의 일 실시예에 따른 단말 장치의 토킹 헤드 표시 방법의 일 실시예이다. 단말 장치(1)는 사용자로부터 음성 쿼리를 입력받는다(S1). 단말 장치(1)는 음성 쿼리를 분석하여 어떠한 내용을 출력할 지를 결정한다(S2). 일 실시예에서, 출력 내용은, 텍스트 형식일 수 있다. 단말 장치(1)가 출력 내용에 포함되어 있는 단어 중, 감정 모드와 연관된 키워드가 존재하는지 확인하며(S3), 확인된 키워드에 기반하여 감정모드를 결정한다(S4). 일 실시예에서 특별한 감정 없음(default), 분노(anger), 혐오(disgust), 두려움(fear), 슬픔(sadness), 즐거움(smile), 놀람(surprise)의 7가지의 감정으로 감정모드를 구분할 수 있다. 이후, 감정 모드에 따라 세부영역의 형태를 변경함으로써 특별한 감정 없음(default), 분노(anger), 혐오(disgust), 두려움(fear), 슬픔(sadness), 즐거움(smile), 놀람(surprise)의 감정을 표현할 수 있다(S5). 이와 함께, 출력 내용에 기반하여 입모양을 결정한다(S5). 경우에 따라 감정 모드에 따른 손 제스처, 머리 제스처를 표현할 수도 있다(S7). 토킹 헤드의 각도가 상하 좌우의 소정의 각도로 결정된 샘플 각도와 일치하는지를 판단하고(S8), 일치하는 경우에는 샘플 각도로 표시된 토킹 헤드를 표시하며(S10), 그렇지 않은 경우에는 인접한 샘플 각도로 표시된 토킹 헤드를 보간한다(S9). 토킹 헤드 표시중에 사용자가 단말 장치(1)를 터치하거나, 위치를 변경하는 경우(S11), 토킹 헤드를 변경하여 표시한다(S12). 예를 들어, 토킹 헤드의 입술을 드래그하는 경우, 토킹 헤드의 동작을 중단시킬 수 있다. 또한, 토킹 헤드의 오른쪽 뺨을 터치하는 경우, 토킹 헤드의 내용 출력 속도가 빨라지고, 반대로 토킹 헤드의 왼쪽 뺨을 터치하는 경우, 토킹 헤드의 내용 출력 속도가 느려지게 할 수도 있을 것이다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM< 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

1: 단말 장치
10: 음성입력부
20: 음성처리부
30: 터치입력부
40: 카메라부
50: 표시부
100: 토킹헤드 관리부
110: 감정 모드 결정부
120: 안면 내부 관리부
121: 안면 세부 영역 관리부
122: 입모양 관리부
130: 안면 외부 관리부
140: 영상보간부

Claims

사용자의 음성쿼리를 입력받는 음성입력부;
상기 음성입력부에서 입력된 음성쿼리를 분석하여, 출력 내용을 결정하는 음성처리부;
상기 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 토킹 헤드 관리부; 및
상기 토킹 헤드를 표시하는 표시부;
상기 사용자의 터치 입력을 수신하는 터치입력부; 및
상기 사용자를 촬영하는 영상입력부를 포함하고,
상기 토킹 헤드 관리부는, 상기 출력 내용에 기반하여 토킹 헤드의 감정 모드를 결정하는 감정 모드 결정부, 상기 출력 내용에 기반하여 토킹 헤드 안면 내부에 표시될 영상을 결정하는 안면 내부 관리부; 및 상기 출력 내용에 기반하여 토킹 헤드 안면 외부에 표시될 영상을 결정하는 안면 외부 관리부를 포함하는, 단말 장치.
삭제
제1항에 있어서,
상기 감정 모드 결정부는,
상기 출력 내용에 포함된 키워드에 기반하여 토킹 헤드의 감정 모드를 결정하는, 단말 장치.
삭제
제1항에 있어서,
상기 안면 내부 관리부는,
소정의 기준에 따라 상기 토킹 헤드 안면 내부를 세부영역으로 분할하여, 상기 세부영역별로 표시될 영상을 결정하는 안면 세부 영역 관리부를 더 포함하는, 단말 장치.
제5항에 있어서,
상기 안면 세부 영역 관리부는,
상기 결정된 감정모드에 따라 상기 세부영역별로 표시될 영상을 결정하는, 단말 장치.
제3항에 있어서,
상기 안면 내부 관리부는,
상기 출력 내용에 기반하여 입술이 표시될 영상을 결정하는 입모양 관리부를 더 포함하는, 단말 장치.
제3항에 있어서,
안면 외부 관리부는,
상기 결정된 감정모드에 따라 표시될 상기 토킹 헤드의 머리 제스처와 손 제스처를 결정하는, 단말 장치.
제1항에 있어서,
상기 토킹 헤드 관리부는,
상기 사용자의 터치 입력 또는 상기 촬영되는 사용자의 위치에 기반하여 상기 토킹 헤드로 표시될 영상을 결정하는, 단말 장치.
제1항에 있어서,
상기 토킹 헤드 관리부는,
상하 좌우의 제1각도로 표시된 제1토킹 헤드 및 상하 좌우의 제1각도로 표시된 제2토킹 헤드를 보간하여 상하 좌우의 제3각도로 제3토킹 헤드로 표시될 영상을 결정하는 영상보간부, 단말 장치.
사용자의 음성쿼리를 입력받는 단계;
상기 음성쿼리를 분석하여, 출력 내용을 결정하는 단계;
상기 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 단계; 및
상기 토킹 헤드를 표시하는 단계를 포함하고,
상기 토킹 헤드로 표시될 영상을 결정하는 단계는,
상기 출력 내용에 기반하여 토킹 헤드의 감정 모드를 결정하는 단계; 소정의 기준에 따라 상기 토킹 헤드 안면 내부를 세부영역으로 분할하여, 상기 세부영역별로 표시될 영상을 결정하는 단계를 포함하는, 단말 장치의 토킹 헤드 표시 방법.
삭제
제11항에 있어서,
상기 토킹 헤드의 감정 모드를 결정하는 단계는,
상기 출력 내용에 포함된 키워드에 기반하여 토킹 헤드의 감정 모드를 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
삭제
제11항에 있어서,
상기 세부영역별로 표시될 영상을 결정하는 단계는,
상기 결정된 감정모드에 따라 상기 세부영역별로 표시될 영상을 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
제11항에 있어서,
상기 토킹 헤드로 표시될 영상을 결정하는 단계는,
상기 출력 내용에 기반하여 입술이 표시될 영상을 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
제11항에 있어서,
상기 토킹 헤드로 표시될 영상을 결정하는 단계는,
상기 결정된 감정모드에 따라 표시될 상기 토킹 헤드의 머리 제스처와 손 제스처를 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
제11항에 있어서,
상기 토킹 헤드로 표시될 영상을 결정하는 단계는,
상기 결정된 감정모드에 따라 표시될 상기 토킹 헤드의 머리 제스처와 손 제스처를 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
제11항에 있어서,
상기 토킹 헤드로 표시될 영상을 결정하는 단계는,
상기 사용자의 터치 입력 또는 상기 촬영되는 사용자의 위치에 기반하여 상기 토킹 헤드로 표시될 영상을 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
제11항에 있어서,
상기 토킹 헤드로 표시될 영상을 결정하는 단계는,
상하 좌우의 제1각도로 표시된 제1토킹 헤드 및 상하 좌우의 제1각도로 표시된 제2토킹 헤드를 보간하여 상하 좌우의 제3각도로 제3토킹 헤드로 표시될 영상을 결정하는 단계를 더 포함하는, 단말 장치의 토킹 헤드 표시 방법.
사용자의 음성쿼리를 입력받는 단계; 상기 음성쿼리를 분석하여, 출력 내용을 결정하는 단계; 상기 출력 내용에 기반하여 토킹 헤드(talking head)로 표시될 영상을 결정하는 단계; 및 상기 토킹 헤드를 표시하는 단계를 포함하고, 상기 토킹 헤드로 표시될 영상을 결정하는 단계는, 상기 출력 내용에 기반하여 토킹 헤드의 감정 모드를 결정하는 단계; 소정의 기준에 따라 상기 토킹 헤드 안면 내부를 세부영역으로 분할하여, 상기 세부영역별로 표시될 영상을 결정하는 단계를 포함하는, 단말 장치의 토킹 헤드 표시 방법 중 어느 한 항에 따른 방법을 수행하기 위한 컴퓨터로 실행 가능한 명령이 기록된 컴퓨터로 판독 가능한 기록 매체.