KR20100033849A

KR20100033849A - 단말기 및 음성 합성 방법

Info

Publication number: KR20100033849A
Application number: KR1020080092910A
Authority: KR
Inventors: 김재민
Original assignee: 엘지전자 주식회사
Priority date: 2008-09-22
Filing date: 2008-09-22
Publication date: 2010-03-31

Abstract

본 발명은 음성을 합성하는 단말기로서, 특히, 목적에 따라 다양한 음색 및/또는 분위기를 조절하여 음성을 합성할 수 있는 이동 단말기에 관한 것이다.

본 발명의 단말기는, 음성 합성을 위한 다수개의 음성 기본 설정값 세트들이 기록된 저장부; 및 사용자의 조작에 따라 적어도 하나의 상기 음성 기본 설정값 세트의 값들을 결정하는 제어부를 포함하는 것을 특징으로 한다.

상기 단말기는, 사용자가 기호에 맞는 음성 아바타를 작성하며, 또는 음성 아바타에 분위기 효과를 부여함으로써, 단말기의 사용에 대한 만족도를 증대시키는 이점이 있다.

음성 합성, TTS, 이동 단말기, 분위기, 메시지

Description

단말기 및 음성 합성 방법{TERMINAL AND SPEECH SYNTHESIS METHOD OF THE SAME}

본 발명은 음성을 합성하는 단말기로서, 다양한 음색 및/또는 분위기를 조절하여 음성을 합성할 수 있는 이동 단말기에 관한 것이다.

또는, 본 발명은 음성 합성 소프트웨어 중에서 이동 통신용 단말기 상에서의 음성 합성 기능을 이용한 음성 아바타 생성 방법에 관한 것이다.

단말기는 이동 가능 여부에 따라 이동 단말기(mobile/portable terminal) 및 고정 단말기(stationary terminal)으로 나뉠 수 있다. 다시 이동 단말기는 사용자의 직접 휴대 가능 여부에 따라 휴대(형) 단말기(handheld terminal) 및 거치형 단말기(vehicle mount terminal)로 나뉠 수 있다.

이와 같은 단말기(terminal)는 기능이 다양화됨에 따라 예를 들어, 사진이나 동영상의 촬영, 음악이나 동영상 파일의 재생, 게임, 방송의 수신 등의 복합적인 기능들을 갖춘 멀티미디어 기기(Multimedia player) 형태로 구현되고 있다.

이러한 단말기의 기능 지지 및 증대를 위해, 단말기의 구조적인 부분 및/또는 소프트웨어적인 부분을 개량하는 것이 고려될 수 있다.

근래 들어서 음성을 합성하는 소프트웨어가 탑재된 이동 통신용 무선 단말기가 출시되고 있다. 기존 휴대폰용 코퍼스 방식의 음성합성은 음성 DB(데이터 베이스)를 구축할 때 사용된 화자의 음성으로만 합성될 뿐이다. 그래서 문자메시지, 일정, 등의 응용에서 한가지 정해진 목소리로만 음성합성이 되었다.

이동 단말기의 사용자는 서로 다른 음색을 가진 다수의 화자의 목소리로 음성 합성을 하여, 필요에 따라 서로 다른 음색의 음성을 합성하는 것을 원할 수 있다. 또한, 사용자는 동일한 화자의 음색도 상황에 따라 다양한 느낌(feeling)을 부여하면서 음성 합성하는 것을 원할 수 있다. 또한, 사용자는 음성 합성시 음성 뿐만 아니라 다양한 배경 음향을 추가할 것을 원할 수 있다.

본 발명은 상기 과제들을 달성하기 위하여 안출된 것으로서, 다양한 음색들로 음성을 합성할 수 있는 단말기 또는 음성 합성 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은, 다양한 느낌 및/또는 배경 음향에 대한 효과를 추가하여 음성을 합성할 수 있는 단말기 또는 음성 합성 방법을 제공하는데 다른 목적이 있다.

또한, 본 발명은, 이동 단말기 상에서 실행되는 음성 합성 모듈을 이용하여 음성 아바타 기능을 제공하는데 또 다른 목적이 있다. 예컨대, 전화번호부에 사용자를 등록할 때, 사진을 선택하고 있는데, 사진 뿐만 아니라 개별적인 목소리를 선택하거나 만들어서 사용할 수 있도록 함으로써, 문자메시지 음성안내 시 좀 더 보낸 사람의 느낌을 살릴 수 있도록 하고자 한다.

또한, 본 발명은, 서로 다른 음색을 가진 음성들을 전화번호부에 지정하여 관리할 수 있는 단말기 또는 음성 합성 방법을 제공하는데 또 다른 목적이 있다.

또한, 본 발명은, 텍스트에 대한 음성 안내를 제공하는 이동 단말기 내의 각 부가 기능에 서로 다른 음색을 가진 음색들을 적용할 수 있는 단말기 또는 음성 합성 방법을 제공하는데 또 다른 목적이 있다.

상기 목적을 달성하기 위한 본 발명의 단말기는, 음성 합성을 위한 다수개의 음성 기본 설정값 세트들이 기록된 저장부; 및 사용자의 조작에 따라 적어도 하나의 상기 음성 기본 설정값 세트의 값들을 결정하는 제어부를 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성 합성 방법은, 음성 합성에 적용할 음성 기본 설정값 세트를 선택하는 단계; 합성할 음성에 적용할 분위기를 선택하는 단계; 상기 결정된 분위기에 대한 튜닝 규칙을 획득하는 단계; 및 상기 결정된 음성 기본 설정값 세트를 이루는 각 음성 기본 설정값들을 상기 튜닝 규칙으로 수정한 값들을 이용하여 음성 합성을 수행하는 단계를 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성 합성 방법은, 메시지를 수신하는 단계; 상기 메시지의 발신자 전화번호를 획득하는 단계; 전화번호부에서 상기 발신자 전화번호를 검색하는 단계; 상기 전화번호부에 상기 발신자 전화번호에 대하여 지정된 음성 기본 설정값 세트를 리딩하는 단계; 및 상기 메시지 내용을 상기 음성 기본 설정값 세트를 이용하여 음성 합성하여 출력하는 단계를 포 함하는 것을 특징으로 한다.

상기 구성에 따른 단말기 또는 음성 합성 방법을 실시함에 의해, 사용자가 기호에 맞는 음성 아바타를 작성하며, 또는 음성 아바타에 분위기 효과를 부여함으로써, 단말기의 사용에 대한 만족도를 증대시키는 이점이 있다.

본 발명의 설명에서는 '기본 음성'과 '튜닝된 음성'을 구별한다. '기본 음성'이란 음성 합성 방법에 의해 합성되는 1인의 가상의 인물의 기본적인 음성을 뜻한다. '튜닝된 음성'이란 기쁨에 찬 음성 또는 분노에 찬 음성과 같은 부가 느낌(feeling)을 줄 수 있도록 상기 '기본 음성'에 약각의 변형을 가한 음성을 뜻한다. 하나의 가상의 인물에 대한 '기본 음성'과, 이를 변형한 '튜닝된 음성'은, 일반적인 사람이 들었을 때, 동일한 인물의 음성으로 판단되어야 한다.

본 발명에서는 음성을 합성하기 위한 파라미터들로서 하나의 기본 음성에 대하여 '음성 기본 설정값 세트'를 이용한다. 즉, 상기 음성 기본 설정값 세트는, 서로 다른 파라미터인 다수개의 음성 기본 설정값들로 이루어지며, 상기 다수개의 음성 기본 설정값들에 구체적인 값들을 부여하여, 하나의 음성을 정의할 수 있다.

구현에 따라, 본 발명의 상기 '음성 기본 설정값 세트'는 다양한 파라미터들로 이루어질 수 있다. 예컨대, 이동 단말기용 음성 합성 알고리즘으로서 이미 상용 화되어 있는 음성 DB(CORPUS)에 대하여 최적의 음성단편(Unit)을 선택하는 알고리즘(Viterbi search)을 적용할 수 있는데, 상기 알고리즘에서 음색(Voice Color)을 결정하는 음성 특징(Feature)으로서, 음의 피치(Pitch), 듀레이션(Duration) 및 포먼트(Formant) 이라는 3개의 파라미터들을 포함하는 '음성 기본 설정값 세트'를 적용할 수 있다. 또는, 구현에 따라 음의 피치(Pitch), 듀레이션(Duration) 및 에너지(Energy) 라는 3개의 파라미터들을 포함하는 '음성 기본 설정값 세트'를 적용할 수 있다.

본 발명에서는 상기 음성 기본 설정값 세트로 식별할 수 있는 가상인의 음성을 '음성 아바타'라 칭한다. 즉, 본 발명의 이동 단말기는 다수개의 '음성 아바타'들을 구비할 수 있으며, 각 음성 아바타들은 서로 다른 음성 기본 설정값 세트를 가진다. 한편, 이동 단말기가 구비하는 각 '음성 아바타'는 자연인의 음성에서 추출한 음성 기본 설정값들을 이용하여 구성할 수 있다. 한편, 상기 다수개의 '음성 아바타'들은 사람이 들었을 때 서로 다른 사람에 대한 음성으로 느껴지도록 구현하는 것이 바람직하다.

이동 단말기는 통신 서비스를 제공하는 업체의 무선 통신망을 구성하는 전산장치와 무선 접속되며, 상기 무선 통신망을 경유하여 메신저 등 다양한 인터넷 서비스를 제공하는 인터넷 서비스 제공 서버와 연결될 수 있다.

본 명세서에서 설명되는 이동 단말기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 등이 포함될 수 있다. 그러나, 본 명세서에 기재된 실시예에 따른 구성은 이동 단말기에만 적용 가능한 경우를 제외하면, 디지털 TV, 데스크탑 컴퓨터 등과 같은 고정 단말기에도 적용될 수도 있음을 본 기술분야의 당업자라면 쉽게 알 수 있을 것이다.

우선, 음성 합성 과정에 대하여 간략히 알아보고, 상기 음의 피치(Pitch), 듀레이션(Duration) 및 포먼트(Formant) 정보의 값들을 이용하여 음성 합성하는 방법들 중 일 례에 대하여 살펴보겠다.

음성인식과 더불어 음성 기술시장에서 큰 비중을 차지하고 있는 분야는 음성합성분야로, 음성합성(Test-to Speech or Speech Synthesis)란 문자 그대로 글(Text:ASCII text or Machine-readable text)을 말(speech)로 바꾸는 기술이다.

최근 인간의 자연음에 가까운 음성합성기가 개발되면서 음성 합성기는 스튜디오에서 녹음된 10~40시간 분량의 목소리를 여러 조각으로 나누어 데이터베이스로 분류하고 소프트웨어가 텍스트를 처리할 때는 음성을 추출한 뒤 재 합성해 새 문장을 만들어 낸다.

음성 합성을 위한 방법으로서, 분석-합성방식(analysis-synthesis method)이라고도 불리는 보코딩 방식을 쓸 경우에는 피치패턴(pitch pattern)과 음성단편의 지속시간(duration)을 임의로 변화시킬 수 있고, 스펙트럼 포락(spectral envelope)추정 파라미터(estimation parameter)의 내삽(interpolation)에 의해 음성단편간을 매끄럽게 접속시킬 수 있어 무제한 음성합성용 코딩 수단으로서 적합하다. 그래서, 대부분의 음성합성 시스템에 선형예측코딩(Linear Predictive Coding : LPC) 또는 포먼트 보코딩(formant vocoding)등의 보코딩 방식이 채택되고 있다.

상기 분석-합성방식 중 하나의 예로서, TD-PSOLA 합성 방식은 음성 파형을 그대로 이용하는 합성 방식이다. 즉 LPC와 같이 파라미터로 변환하지 않아 음성정보의 손실을 막을 수 있다. 운율 조절 방법은 음성 파형에서 피치단위로 음성을 분해하고, 생성된 기본 주파수에 따라 분해된 음성단편을 재배열함으로써 피치 조절이 이뤄지며, 지속시간 조절은 단순히 음성단편의 생략이나 복제함으로 수행된다.

음성단편 합성방식 무제한 음성합성 시스템의 일반적인 구조는 도 11에 도시된 바와같이 음성학적전처리 서브시스템(phonetic preprocessing subsystem)(1), 운율발생 서브시스템(prosodics generation subsystem)(2), 그리고 음성단편조합 서브시스템(speech segment concatenation subsutem)(3)이라는 3개의 서브시스템으로 구성된다.

키보드, 컴퓨터 또는 다른 어떤 시스템으로부터 무제한 음성합성 시스템으로 문자열(ext)이 입력되면 음성학적전처리 서브시스템(1)은 그것의 구문(systax)을 분석한 후 음운변동규칙(phonetic recoding rule)을 적용하여 문자열을 발음기호(phonetic transcriptive symbol)의 열(string)로 바꾼다. 운율발생 서브시스템(2)은 그것에 적당한 억양(intonation)과 강세(stress)를 붙일 수 있도록 구 문분석정보(syntactic analysis data)를 발생시켜 음성단편조합 서브시스템(3)에 제공한다. 운율발생 서스비스팀(2)은 또한 각 음소의 지속 시간(duration)에 관한 정보를 음성단편조합 서브시스템(3)에 제공한다.

이들 3가지의 운율정보(prosodic data)는 발음기호열과 별도로 음성단편조합 서브시스템(3)으로 전해질 수도 있으나, 대개 발음기호열내에 삽입되어서 음성단편조합 서브시스템(3)으로 보내어진다. 음성단편 조합 서브시스템(3)에서는 발음기호열에 의거하여 적합한 음성단편을 메모리(도시안됨)에서 차례로 꺼내어 재생시킴으로써 연속된 음성을 만들어 낸다. 이때 음성단편조합 서브시스템은 운율정보에 의하여 각 음성 단편의 피치(높이)와 듀레이션(지속시간), 그리고 포먼트 정보를 조절(contro)함으로써 운율발생단계가 의도한 억양, 강약 및 발성속도를 가진 합성음성을 만들어낼 수 있게 된다.

포먼트(formant)란 음성, 특히 모음의 음정 등의 주파수 세기의 분포를 말한다. 일반적으로 유성음(有聲音)의 경우 그 음성을 내었을 때의 음파를 주파수 측정분석기에 걸면 각각의 음성에 고유한 주파수 분포도형이 얻어진다. 모음이면 성대의 1초간의 진동수를 나타내는 기본주파수(대체로 75∼300Hz)와, 그 정수배의 대부분의 고주파(倍音이라고도 한다)로 이루어지고 있다. 이 고주파 중의 몇 개인가가 강조되는 것이 있는데(대체로 3개), 그 낮은 것부터 차례로 제1, 제2, 제3 포먼트라고 칭한다.

여기서, 상기 '포먼트 정보'는 '각 음성단편을 구성하는 포먼트 주파수들의 분포 상태를 나타내는 정보'를 뜻한다.

상기 포먼트 정보로는 LPC 계수, LSF(Line Spectral Frequency) 계수, 기타 분포 상태 조절을 수치화한 값(예 : 가장 낮은 포먼트 주파수와 다음 포먼트 주파수 간의 거리에 대한 10% 감소) 등이 될 수 있다.

상기 음성단편조합 서브시스템(3)은, 상기 각 음성 단편의 피치(높이)와 듀레이션(지속시간), 그리고 포먼트 정보를 이용하여 음성 합성을 수행하는데, 포만트 합성 방법 또는 LPC 합성 방법을 이용할 수 있다.

한편, 합성된 음성에 부가적인 느낌(feeling)을 부여하기 위해, 상기 피치, 듀레이션 및 포먼트 정보를 이용할 수 있는데, 하기 2가지 방법이 가능하다.

하나의 방법은 음성을 합성하기 전에, 상기 피치, 듀레이션 및 포먼트 정보에 대한 각 값들을 원하는 느낌에 해당하는 미세 조정(튜닝)하고 나서, 음성 합성을 수행하는 것이다.

나머지 방법은 지정된 피치, 듀레이션 및 포먼트 정보를 이용하여 음성 합성을 수행하고, 생성된 wave 파일에 대하여, 부여할 느낌에 해당하는 피치, 듀레이션 및 포먼트 정보로 변형을 수행하는 것이다.

예컨대, 차분한 느낌의 음성으로 변환하고자 할 때 사용할 수 있는 후자의 방법을 기술하겠다. 포만트 정보를 10% 증가시키고, 피치와 듀레이션을 각각 5% 감소시키면 원래의 합성음보다 차분한 느낌의 합성음을 생성할 수 있다. 포만트 정보를 변경하는 방식으로는 LSF 계수를 조정하는 방식을 사용하고, 피치와 듀레이션을 변경하는 방법으로는 TD-PSOLA(Time Damain Pitch Synchronous Overlap and Add)를 이용하는 것이 바람직하다.

한편, 특정 자연인의 육성으로부터, 상기 육성을 이루는 음성단편들의 피치, 듀레이션 및 포먼트 정보를 추출할 수 있다. 이는 상기 자연인의 육성과 근사한 합성음을 만들기 위해 사용될 수 있는데, 정해진 텍스트 문장을 읽을 때 발생된 음성 데이터를 소정의 알고리즘에 따른 신호처리를 수행하여 달성될 수 있다.

상기 과정에 적용될 수 있는 알고리즘들 중 하나를 하기에 기술한다.

문장을 읽은 음성 데이터로부터 피치 및 듀레이션을 먼저 추출하는데, 피치 정보는 AMDF(Average Magnitude Difference Function)를 이용하여 추출하고 듀레이션은 실제 음성 구간 검출 방법(End-Point Detection)을 통해 추출한다. 그리고 포만트 정보는 160 샘플단위로 LSF를 추출하는 방법을 이용한다. 이렇게 추출된 피치, 듀레이션 및 포먼트 정보를 이용하여 각각의 평균값도 구한다. 간소한 음색변환은 평균값을 수정하는 것만으로도 어느 정도의 효과를 얻을 수 있다. 실제로 특정 자연인의 목소리에 유사한 음색변환을 달성하기 위해서는 각각 음소별 음색변환뿐만 아니라 끊어 읽기 방식과 같은 운율 패턴 전반에 대한 변환이 이루어져야 한다. 그것을 위해서는 특정 자연인의 음성 데이터가 상당한 분량이 필요하기 때문에 상용화하기 힘든 면이 있기 때문에, 간소한 음색변환 방법을 이용하는 것이 바람직하다.

이하, 본 발명과 관련된 이동 단말기에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

도 1을 참조하여, 본 발명과 관련된 이동 단말기를 일반적인 기능에 따른 구성요소 관점에서 살펴보겠다.

도 1은 본 발명의 일 실시예와 관련된 이동 단말기의 블록 구성도(block diagram)이다.

도시된 이동 단말기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 조작부(130), 센싱부(140), 출력부(150), 저장부(160), 인터페이스부(170), 제어부(180) 및 전원 공급부(190) 등을 포함할 수 있다. 상기 구성요소들은 실제 응용에서 구현될 때 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있음을 유념해야 한다.

이하 상기 구성요소들에 대해 차례로 살펴본다.

무선 통신부(110)는 방송 수신 모듈(111), 이동통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 GPS 모듈(115) 등을 포함할 수 있다.

방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버(미 도시)로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 상기 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 상기 방송 관리 서버는, 방송 신호 및/또는 방송 관련 정보를 생성하여 송신하는 서버 또는 기 생성된 방송 신호 및/또는 방송 관련 정보를 제공받아 단말기에 송신하는 서버를 의미할 수 있다. 상기 방송 관련 정보는, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보를 의미할 수 있다. 상기 방송 신호는, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호를 포함할 뿐만 아니라, TV 방송 신호 또는 라디오 방송 신호에 데이터 방송 신호가 결합한 형태의 방송 신호도 포함할 수 있다.

한편, 상기 방송 관련 정보는, 이동통신망을 통하여도 제공될 수 있으며, 이러한 경우에는 상기 이동통신 모듈(112)에 의해 수신될 수 있다.

상기 방송 관련 정보는 다양한 형태로 존재할 수 있다. 예를 들어, DMB(Digital Multimedia Broadcasting)의 EPG(Electronic Program Guide) 또는 DVB-H(Digital Video Broadcast-Handheld)의 ESG(Electronic Service Guide) 등의 형태로 존재할 수 있다.

상기 방송 수신 모듈(111)은, 각종 방송 시스템을 이용하여 방송 신호를 수신하는데, 특히, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다. 물론, 상기 방송 수신 모듈(111)은, 상술한 디지털 방송 시스템뿐만 아니라 방송 신호를 제공하는 모든 방송 시스템에 적합하도록 구성된 다.

방송 수신 모듈(111)을 통해 수신된 방송 신호 및/또는 방송 관련 정보는 저장부(160)에 저장될 수 있다.

또한, 이동통신 모듈(112)은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 무선 인터넷 모듈(113)은 내장되거나 외장될 수 있다.

근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 말한다. 근거리 통신 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.

또한, GPS(Global Position System) 모듈(115)은 복수 개의 인공위성으로부터 항법 정보를 수신한다.

한편, A/V(Audio/Video) 입력부(120)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라 모듈(121)과 마이크 모듈(122) 등이 포함될 수 있다. 카메라 모듈(121)은 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 그리고, 처리된 화상 프레임은 디스플레이 모듈(151)에 표시될 수 있다.

카메라 모듈(121)에서 처리된 화상 프레임은 저장부(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 카메라 모듈(121)은 단말기의 구성 태양에 따라 2개 이상이 구비될 수도 있다.

마이크 모듈(122)은 통화모드 또는 녹음모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력받아 전기적인 음성 데이터로 처리한다. 그리고, 처리된 음성 데이터는 통화 모드인 경우 이동통신 모듈(112)를 통하여 이동통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 마이크 모듈(122)은 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.

조작부(130)는 사용자가 단말기의 동작 제어를 위하여 입력하는 키 입력 데이터를 발생시킨다. 조작부(130)는 키 패드(key pad) 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. 특히, 터치 패드가 후술하는 디스플레이 모듈(151)과 상호 레이어 구조를 이룰 경우, 이를 터치 스크린이라 부를 수 있다.

센싱부(140)는 이동 단말기(100)의 개폐 상태, 이동 단말기(100)의 위치, 사용자 접촉 유무 등과 같이 이동 단말기(100)의 현 상태를 감지하여 이동 단말기(100)의 동작을 제어하기 위한 센싱 신호를 발생시킨다. 예를 들어 이동 단말기(100)가 슬라이드 폰 형태인 경우 슬라이드 폰의 개폐 여부를 센싱할 수 있다. 또한, 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등과 관련된 센싱 기능을 담당한다.

인터페이스부(170)는 이동 단말기(100)에 연결되는 모든 외부기기와의 인터페이스 역할을 한다. 예를 들어, 유/무선 헤드셋, 외부 충전기, 유/무선 데이터 포트, 카드 소켓(예를 들어, 메모리 카드(Memory card), SIM/UIM card), 오디오 I/O(Input/Output) 단자, 비디오 I/O(Input/Output) 단자, 이어폰 등이 있다. 이와 같은 인터페이스부(170)는 외부 기기로부터 데이터를 전송받거나 전원을 공급받아 이동 단말기(100) 내부의 각 구성 요소에 전달하거나 이동 단말기(100) 내부의 데이터가 외부 기기로 전송되도록 한다.

출력부(150)는 오디오 신호 또는 비디오 신호 또는 알람(alarm) 신호의 출력을 위한 것으로, 이에는 디스플레이 모듈(151)과 음향 출력 모듈(152), 알람 출력 모듈(153) 등이 포함될 수 있다.

디스플레이 모듈(151)는 이동 단말기(100)에서 처리되는 정보를 표시 출력한다. 예를 들어 이동 단말기(100)가 통화 모드인 경우 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 그리고 이동 단말기(100)가 화상 통화 모드 또는 촬영 모드인 경우 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다.

한편, 전술한 바와 같이, 디스플레이 모듈(151)과 터치패드가 상호 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이 모듈(151)은 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이 모듈(151)은 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 그리고 이동 단말기(100)의 구현 형태에 따라 디스플레이 모듈(151)이 2개 이상 존재할 수도 있다. 예를 들어, 이동 단말기(100)에 외부 디스플레이 모듈(미도시)과 내부 디스플레이 모듈(미도시)이 동시에 구비될 수 있다.

음향 출력 모듈(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 무선 통신부(110)로부터 수신되거나 저장부(160)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력 모듈(152)은 이동 단말기(100)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력한다. 이러한 음향 출력 모듈(152)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.

알람 출력 모듈(153)은 이동 단말기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 이동 단말기(100)에서 발생되는 이벤트의 예로는 전화 통화를 요청하는 호 신호 수신, 메시지 수신, 키 신호 입력, 미리 정해진 시간을 알리는 알람 등이 있다. 알람 출력 모듈(153)은 오디오 신호나 비디오 신호 이외에 다른 형태로 이벤트 발생을 알리기 위한 신호를 출력한다. 예를 들면, 진동 형태로 신호를 출력할 수 있다. 호 신호가 수신되거나 메시지가 수신된 경우, 이를 알리기 위해 알람 출력 모듈(153)은 진동을 출력할 수 있다. 또는, 키 신호가 입력된 경우, 키 신호 입력에 대한 피드백으로 알람 출력 모듈(153)은 진동을 출력할 수 있다. 상기와 같은 진동 출력을 통해 사용자는 이벤트 발생을 인지할 수 있다. 물론 이벤트 발생 알림을 위한 신호는 디스플레이 모듈(151)이나 음향 출력 모듈(152)을 통해서도 출력될 수 있다.

저장부(160)는 제어부(180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예를 들어, 폰북, 메시지, 정지영상, 동영상 등)의 임시 저장을 위한 기능을 수행할 수도 있다.

저장부(160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, 롬 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 이동 단말기(100)는 인터넷(internet)상에서 저장부(150)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영할 수도 있다.

그리고 제어부(180)는 통상적으로 이동 단말기(100)의 전반적인 동작을 제어한다. 예를 들어 음성 통화, 데이터 통신, 화상 통화 등을 위한 관련된 제어 및 처리를 수행한다. 또한, 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 재생 모듈(181)을 구비할 수도 있다. 멀티미디어 재생 모듈(181)은 제어부(180) 내에 하드웨어로 구성될 수도 있고, 제어부(180)와 별도로 소프트웨어로 구성될 수도 있다.

또한, 상기 제어부(180)는 객체(예를 들어, 사용자의 손가락)가 상기 터치 스크린을 근접 터치 또는 직접 터치하는 동작을 식별하여, 상기 터치 스크린에 디스플레이되는 화면의 크기 또는 영역을 변화시킬 수 있다. 이를 위하여 상기 제어부(180)는 상기 터치 스크린 상에 디스플레이되는 화면의 크기 또는 영역을 조절하 기 위한 스크롤 바 또는 미니 맵을 형성할 수 있다. 상기 제어부(180)의 세부 기능에 대해서는 이하에서 더욱 상세히 설명될 것이다.

또한, 상기 제어부(180)는 상기 터치스크린 상에서 행해지는 필기 입력 또는 그림 그리기 입력을 각각 문자 및 이미지로 인식할 수 있는 패턴 인식 처리를 행할 수 있다.

전원 공급부(190)는 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.

도시하지 않았지만, 상기 이동 단말기(100)는 식별 모듈을 더 포함할 있다. 식별 모듈은 이동 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module, UIM), 가입자 인증 모듈(Subscriber Identify Module, SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module, USIM) 등을 포함할 수 있다. 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서 식별 장치는 포트를 통하여 단말기(100)와 연결될 수 있다.

여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(180) 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(180)에 의해 실행될 수 있다.

상기 저장부(160)에는 전화번호부 데이터가 저장될 수 있는데, 상기 전화번호부를, 각 항목에 대하여 상기 음성 기본 설정값 세트가 지정되도록 구현할 수 있다. 즉, 상기 전화번호부 상에 번호 소유자로 기록된 각 사람에 대하여 서로 다른 음성 기본 설정값 세트를 가지도록 구현할 수 있는데, 상기 소유자의 고유 음성과 유사한 음성 기본 설정값 세트(즉, 음성 아바타)를 가지도록 하는 것이 바람직하다.

한편, 본 발명의 사상에 따른 음성 기본 설정값 세트는, TTS(Text to Speech) 변환하려는 텍스트 데이터의 종류에 따라 서로 다른 것으로 지정되도록 구현할 수 있다. 이 경우 상기 저장부(160)에는, 텍스트 데이터의 타입(예 : ebook용 소설 데이터, 응용프로그램 메뉴얼 데이터, 논문 데이터 등)와 각 타입 항목에 지정된 TTS 변환용 음성의 음성 기본 설정값 세트(즉, 음성 아바타)를 기록한 DB가 저장될 수 있다.

한편, 본 발명의 사상에 따른 음성 기본 설정값 세트는, 음성을 사용하는 부가 기능에 따라 서로 다른 것으로 지정되도록 구현할 수 있다. 이 경우 상기 저장부(160)에는, 음성 출력하려는 부가 기능의 항목(예 : ebook 기능, 사전 기능 등)과 각 항목에 지정된 출력용 음성의 음성 기본 설정값 세트(즉, 음성 아바타)를 기록한 DB가 저장될 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 제어부(180)는, 메시지가 도착하면, 수신 메시지의 발신자 전화번호를 상기 전화번호부에서 검색하여, 검색된 항목에 지정된 음성 기본 설정값 세트(즉, 음성 아바타)를 적용하여 상기 수신 메시지를 TTS(Text to Speech) 변환할 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 제어부(180)는, 상기 음성 기본 설정값 세트(즉, 음성 아바타)를 이루는 각 음성 기본 설정값을 사용자의 조작에 따라 입력된 수치로 결정할 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 제어부(180)는, 마이크로폰으로 입력되는 음성 또는 무선 통신망을 통해 전송되는 음성을 분석하여 획득한 음성 기본 설정값들로 상기 음성 기본 설정값 세트(즉, 음성 아바타)를 결정할 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 제어부(180)는, 상기 음성 기본 설정값 세트(즉, 음성 아바타)를 무선 통신망을 통해 전송받은 값들로 결정할 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 제어부(180)는, 음성 기본 설정값 세트로 음성 합성을 수행할 때, 적용하려는 분위기(circumstance)에 지정된 튜닝 규칙에 따라 상기 음성 기본 설정값 세트(즉, 음성 아바타)를 이루는 각 음성 기본 설정값들을 수정한 값들로 음성 합성을 수행할 수 있다. 즉, 상기 제어부(180)는 기본 음성에 분위기(예 : 느낌(feeling) 또는 배경 음향)을 부가하여 튜닝된 음성을 생성할 수 있다.

한편, 구현에 따라, 상기 분위기 중 배경 음향은 음성 아바타의 기본 항목으로 포함될 수 있다. 이 경우 하나의 음성 아바타는 상기 기본 음성 설정값 세트와 배경 음향으로 구성된다.

예컨대, 상기 제어부(180)는, 상기 음성 기본 설정값 세트(즉, 음성 아바타)의 각 설정값들을 미세 조정하여 합성된 음성에 느낌(feeling)(예 : 분노한 음성, 기쁜 음성 등)을 부여할 수 있는데, 상기 느낌을 부여하는 작업은, 모든 기본 음성 설정값 세트에 부여하려는 느낌에 따라 동일한 튜닝 규칙으로 해당 음성 기본 설정값 세트의 각 설정값들을 수정하도록 구현하는 것이 바람직하다. 이를 위해 상기 저장부(160)는, 다수개의 느낌들에 대하여 각각 지정된 튜닝 규칙들을 저장할 수 있다.

또 다른 예로서, 상기 제어부(180)는, 합성된 음성에 배경 음향(예 : 바닷가 소리, 기차 소리 등)을 부가하여 출력할 수 있다. 이를 위해 상기 저장부(160)는, 상기 배경 음향에 대한 데이터를 저장할 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 제어부(180)는, 이동 단말기의 상대방 화자의 발음을 분석하여 유사한 느낌의 음성 기본 설정값 세트(즉, 음성 아바타)를 생성하는 기능을 수행할 수 있다.

한편, 구현에 따라 본 발명의 사상에 따른 이동 단말기의 저장부(160)는, 디폴트 값으로서 5 가지 정도의 음성 아바타들(남자 아나운서, 여자 아나운서, 아동, 코미디 캐릭터 등)에 대한 음성 기본 설정값 세트들을 저장할 수 있다.

본 발명의 이동 단말기는, 사용자가 본 발명의 사상에 따른 음성 아바타를 생성할 수 있도록, 음성 기본 설정값 세트를 이루는 각 설정값들에 대한 조절 바를 구비한, 음성 아바타 생성용 인터페이스를 제공할 수 있다.

예컨대, 사용자는 음의 높이, 음의 길이, 음의 느낌이라는 이름으로 정의될 수 있는 음성의 피치(Pitch), 듀레이션(Duration) 및 포먼트(Formant) 정보에 대한 설정값들을 각각 조절 바를 이용하여 조절할 수 있다. 이에 따라 사용자는 임의로 각각의 조절 바를 조작하여, 상기 설정값들을 결정함으로써 전화번호부에 저장된 사람의 느낌에 부합하는 음성 아바타를 생성할 수 있다.

이와 같은 음성 아바타는 휴대폰 뿐만 아니라 엠피쓰리 플레이어나 PC, 등의 다양한 매체에서도 활용될 수 있을 것이다. 특히 휴대폰에서는 기존의 음성합성 응용인 문자메시지, 일정, 발신자 음성안내 , 및 문자메시지 통화기능, 등에 활용될 수 있다. 텍스트 리더에 음성 아바타를 적용한다면 사용자가 원하는 느낌의 목소리로 책을 들을 수 있기 때문에 책의 느낌을 더욱 잘 살릴 수 있을 것이다.

이하, 도면을 참조하여 본 발명의 일 실시예에 관련된 이동 단말기의 제어부(180)에서 수행되는 음성 합성 방법에 대하여 설명하겠다.

도 2에 도시한 바와 같은 음성 합성 방법은, 음성 기본 설정값 세트를 이용하여 음성을 합성하되, 분위기에 대한 효과를 가미하기 위해 음성 기본 설정값 세트의 설정값들을 튜닝하는 음성 합성 방법에 관한 것이다.

도시한 음성 합성 방법은, 사용자 조작을 입력받아 음성 기본 설정값 세트를 생성하는 단계(S110); 이동 단말기의 저장부에 저장된 음성 기본 설정값 세트들 중 음성 합성에 적용할 음성 기본 설정값 세트를 선택하는 단계(S120); 합성할 음성에 적용할 분위기를 선택하는 단계(S140); 상기 결정된 분위기에 대한 튜닝 규칙을 획득하는 단계(S160); 및 상기 음성 기본 설정값 세트를 이루는 각 음성 기본 설정값들을 상기 튜닝 규칙으로 수정한 값들을 이용하여 음성 합성을 수행하는 단계(S180)를 포함할 수 있다.

상기 음성 기본 설정값 세트는, 음색(Voice Color)을 결정하는 음성 특징(Feature)으로서, 음의 피치(Pitch), 듀레이션(Duration) 및 포먼트(Formant) 정보로 이루어지거나, 음의 피치(Pitch), 듀레이션(Duration) 및 에너지(Energy)로 이루어질 수 있다.

여기서, 상기 포먼트 정보는 '각 음성단편을 구성하는 포먼트 주파수들의 분포 상태를 나타내는 정보'를 뜻하며, LPC 계수, LSF 계수, 섭스트럼(cepstrum) 계수, 기타 분포 상태 조절을 수치화한 값 등이 될 수 있다.

상기 S110 단계는 사용자로 하여금 자신이 원하는 음성 아바타를 생성하는 것을 위한 것으로, 주어진 음성 아바타만을 사용할 수 있는 구현의 경우 생략될 수 있다.

상기 S110 단계는 다양한 방법으로 수행될 수 있는데, 예컨대, 상기 음성 기본 설정값 세트를 이루는 각 음성 기본 설정값을 사용자의 조작에 따라 입력된 수치로 결정하거나, 마이크로폰으로 입력되는 음성 또는 무선 통신망을 통해 전송되는 음성을 분석하여 획득한 음성 기본 설정값들로 상기 음성 기본 설정값 세트를 결정하거나, 상기 음성 기본 설정값 세트 자체를 무선 통신망을 통해 전송받아 저장할 수 있다.

상기 S120 단계는 사용자의 직접적인 조작에 따라 이루어질 수도 있으나, 미리 설정된 규칙에 따라 수행되는 것이 바람직하다. 예컨대, 상기 음성 합성이 상기 이동 단말기의 수신 메시지에 대한 TTS 기능을 위한 것인 경우, 상기 S120 단계는, 상기 수신 메시지의 발신자 전화번호를 상기 이동 단말기 내의 전화번호부에서 검색하는 단계; 및 검색된 항목에 지정된 음성 기본 설정값 세트를 음성 합성에 적용 할 음성 기본 설정값 세트로 결정하는 단계로 이루어질 수 있다.

또는, 상기 음성 합성이 ebook 기능과 같이 텍스트 데이터에 대한 TTS 기능을 위한 것인 경우, 상기 S120 단계에서는, 상기 텍스트 데이터의 종류에 따라 상기 음성 기본 설정값 세트를 결정할 수 있다.

또는, 상기 음성 합성이 이동 통신용 단말기의 부가 기능에 의해 출력되는 음성을 생성하기 위한 것이라면, 상기 S120 단계에서는, 상기 부가 기능의 종류에 따라 상기 음성 기본 설정값 세트를 결정할 수 있다.

상기 S140 및 S160 단계에서 분위기는, 합성된 음성에 심미감을 부여하고 상황에 따른 개성을 부여하기 위한 것으로, 음성의 느낌(feeling) 또는 부가된 배경 음향일 수 있다. 음성의 느낌을 부여하는 것은 상기 음성 기본 설정값에 튜닝 수준의 약간의 수정을 가하는 것에 의해 달성될 수 있다. 배경 음향의 경우 합성된 음성보다 그 음량이 작은 것이 바람직하다.

상기 S140 단계에서 분위기를 결정하기 위한 방법은 다양하게 수행될 수 있다. 상기 S140 단계는 사용자의 직접적인 조작에 따라 이루어질 수도 있으나, 미리 설정된 규칙에 따라 수행되는 것이 바람직하다.

예컨대, 상기 음성 합성이 상기 이동 단말기의 수신 메시지에 대한 TTS 기능을 위한 것인 경우, 상기 메시지를 검색하여 검색된 단어에 대응하는 분위기를 적용할 수 있다(예 : happy 라는 단어가 포함된 경우 즐거운 음색으로, sea 라는 단어가 포함된 경우 파도 소리를 배경 음향으로 음성 합성을 수행한다).

예컨대, 상기 음성 합성이 상기 이동 단말기의 전자 사전의 음성 출력 기능 을 위한 것인 경우, 감탄사를 음성 출력한다면 흥분한 느낌(feeling)으로, 동사를 음성 출력한다면 정중한 느낌으로, 형용사를 음성 출력한다면 발랄한 느낌으로 분위기를 적용할 수 있다.

예컨대, 사용자가 조작부를 이용하여 '흥분된 음성'으로 튜닝할 것을 명령하거나, 음성 명령 형식 즉, 이동 단말기의 마이크에 '흥분된 음성'으로 명령하면, 음성 합성을 수행하는데 사용되는 음성 기본 설정값 세트(즉, 음성 아바타)에, '흥분된 음성'에 대한 분위기를 적용할 수 있다. 이 경우, 상기 S140 단계는, 분위기에 대한 사용자의 음성 명령을 마이크를 통해 입력받는 단계; 상기 마이크로 입력된 신호를 음성인식 하는 단계; 및 상기 음성인식에 의해 얻어진 데이터로부터 사용자가 의도하는 분위기를 해석하는 단계로 이루어질 수 있다.

상기 S160 단계는, 이동 단말기의 저장부에 저장된 분위기와 튜닝 규칙의 대응관계를 기록한 DB(일반적으로 데이터 테이블 형태를 가진다)에서, 상기 S140 단계에서 선택한 분위기를 검색하여 지정된 튜닝 규칙을 리딩하는 것으로 수행될 수 있다.

상기 S180 단계에서는, 우선 선택된 음성 기본 설정값 세트의 설정값들을, 상기 튜닝 규칙에 따라 수정하고, 다음 수정된 설정값들로 음성 합성을 수행한다.

이에 따라, 음성 합성을 수행하는 이동 단말기에서, 음성 합성에 이용되며 다양한 개성을 가지는 다수개의 음성 아바타들을 용이하게 생성하여 이용할 수 있는 이점이 있다.

분위기에 대한 튜닝 규칙의 구체적인 적용례를 살펴보면 다음과 같다.

일반적으로 사람이 흥분하면 평상시 보다 음의 높이가 높아지고, 길이는 짧아지는 현상이 있다고 가정하자. 이 경우 분위기로서 적용할 느낌이 흥분한 음색에 대한 튜팅 규칙으로서, 기본 설정값 세트의 음의 피치값을 10% 증가시키기 및 음의 듀레이션을 5% 증가시키기를 결정할 수 있다.

선택된 하나의 음성 아바타에 대하여 상기와 같이 흥분한 음색의 분위기를 적용하면, 상기 음성 아바타에 대한 음성 기본 설정값 세트의 음의 피치값을 10% 증가시키고 음의 듀레이션을 5% 증가시킨 값으로 음성 합성을 수행하게 된다.

한편, 선택된 음성 아바타의 음성 기본 설정값 세트로 먼저 wave 파일을 생성하고, 선택된 분위기에 따라 상기 wave 파일을 변형하는 방식으로 구현하는 경우, 도 2의 S120 단계 이후 S130 단계 이전에, 선택된 음성 기본 설정값 세트로 음향 파일(wave 파일)을 생성하는 단계를 더 포함하고, 상기 S180 단계에서는, 상기 음향 파일을 S160 단계에서 획득한 튜닝 규칙에 따라 변헝하는 작업을 수행할 수 있다.

도 3은 본 발명의 사상을 보다 구체적으로 이동 단말기의 전화번호부 및 문자 메시지(TXT, MMS 등) 수/발신 기능에 적용한 음성 합성 방법을 도시한다.

도시한 음성 합성 방법은, 메시지를 수신하는 단계(S210); 상기 메시지의 발신자 전화번호를 획득하는 단계(S230); 전화번호부에서 상기 발신자 전화번호를 검 색하는 단계(S250); 상기 전화번호부에 상기 발신자 전화번호에 대하여 지정된 음성 기본 설정값 세트를 리딩하는 단계(S270); 상기 메시지 내용을 상기 음성 기본 설정값 세트를 이용하여 음성 합성하여 출력하는 단계(S290)를 포함할 수 있다.

상기 음성 합성 방법이 수행되는 이동 단말기의 전화번호부에는 기록된 각 전화번호에 대하여 음성 아바타가 지정되어 있어야 한다. 상기 S210 단계 및 S230 단계는 일반적인 이동 단말기에서 수행되는 과정을 적용할 수 있다.

상기 S290 단계는, 이동 단말기의 제어부에 포함된 TTS 모듈이 상기 메시지의 텍스트 내용을, 상기 S270 단계에서 리딩한 음성 기본 설정값 세트에 따른 음색으로, TTS(Text to Speech) 변환하는 과정으로 이루어질 수 있다. TTS 변환에 대한 구체적인 기술은 수회 공지된 바 있으므로, 설명을 생략하겠다.

도시한 음성 합성 방법에도, 본 발명의 사상에 따른 분위기를 적용할 수 있다. 이를 위해, 상기 S290 단계는, 합성할 음성에 적용할 분위기를 선택하는 단계; 상기 결정된 분위기에 대한 튜닝 규칙을 획득하는 단계; 및 상기 메시지의 텍스트 내용에 대하여, 상기 음성 기본 설정값 세트를 이루는 각 음성 기본 설정값들을 상기 튜닝 규칙으로 수정한 값들을 이용하여 음성 합성을 수행하는 단계를 포함할 수 있다.

여기서, 상기 튜닝 규칙은 TTS 변환시 사용자에게 분위기 선택을 요청하여 사용자가 지정한 것으로 선택하도록 구현할 수도 있지만, 제어부가 상기 메시지의 텍스트 내용을 검색하여 분위기를 유추할 수 있는 단어의 존재 여부로 적합한 분위기를 선택하도록 구현하는 것이 사용자 편의성 면에서 바람직하다. 예컨대, 텍스트 내용에 "바다"가 포함된 경우 분위기로 '바닷가'를 적용하거나, 텍스트 내용에 "happy"가 포함된 경우 분위기로 "즐거운 음색"을 적용할 수 있다.

또는, MMS 메시지 같은 경우, 상기 튜닝 규칙을 발신자가 지정하여 메시지에 포함시켜 MMS 메시지를 전송하고, 수신 이동 단말기는 상기 MMS 메시지에 기재된 튜닝 규칙을 적용하도록 구현할 수도 있다. 또는, 음성 아바타를 결정하는 음성 기본 설정값 세트를 메시지에 포함시키도록 구현할 수도 있다.

이 경우, 메시지에 대한 텍스트 내용 및 음성 아바타(및/또는 분위기)에 대한 정보만을 전송하므로, 일반적인 음성 메시지에 비하여 통신량을 줄일 수 있다.

도 3에 도시한 구현에 따라, 전화번호부 등록 시 각 전화번호에 지정된 음성 아바타로, 해당 전화번호로부터 수신된 문자 메시지를, 해당 발신자가 직접 읽어주는 듯한 느낌을 부여할 수 있다.

도시한 음성 합성 방법을 수행 하기 위한 이동 단말기는 전화번호부의 새로운 항목의 등록 시 음성 아바타 선택이 가능하도록 메뉴를 추가로 포함하는 것이 바람직하다.

이하, 본 발명의 사상에 따른 음성 합성 방법의 각 실시예들을 수행하는 이동 단말기의 인터페이스 화면을 살펴보겠다.

도 4는 본 발명의 일실시예에 따른 음성 합성을 위한 음성 아바타 리스트를 출력하는 화면 및 새로운 음성 아바타를 추가하기 위한 메뉴를 출력한 화면을 도시한다.

도시한 바와 같이 사용자가 음성 아바타 리스트 출력 화면(F41)에서, 새로운 음성 아바타를 리스트에 추가하기를 원하여 추가 버튼을 누르면, 음성 아바타를 추가하기 위한 메뉴 화면(F42)이 출력된다. 상기 메뉴 화면(F42)에서는 새 음성 아바타를 생성하기 항목과 음성 아바타의 다운로드하기 항목을 선택할 수 있다.

도시한 바와 같은 이동 단말기의 메뉴 화면(F42)에서 다운로드를 선택하면, 무선 통신망을 통해 음성 아바타들을 보유하고 있는 서버에 접속하여 원하는 음성 아바타를 선택하여 다운로드 받을 수 있다. 또는, 이동 단말기의 무선 인터넷으로 접속한 사이트에서 다운로드 항목을 클릭함에 의해 수행되도록 구현할 수도 있다.

도 5는 도 4의 음성 아바타 추가 메뉴 화면(F42)에서 새 음성 아바타 생성 항목을 선택하면 출력되는 음성 아바타를 생성하는 디스플레이 화면들이다.

도시한 바와 같이 새로운 음성 아바타를 생성하기 위한 방법으로서, 조절 바를 이용하는 방법과 음성 분석을 이용하는 방법을 항목들로 가지고 있는 메뉴 화면(F51)이 출력된다. 상기 메뉴 화면(F51)에서 조절 바를 이용할 것을 선택한 경우 도시한 바와 같이 음의 피치, 음의 듀레이션 및 음의 포먼트 정보의 값들을 직접 입력할 수 있는 조절 바들을 구비한 디스플레이 화면이(F52) 출력된다. 여기서 상기 포먼트 정보의 값의 일 례로서 LPC 계수가 될 수 있다.

상기 조절 바를 구비한 디스플레이 화면(F52)에서 사용자가 각 값들을 설정한 후 저장 버튼을 누르면, 도시한 바와 같은 음성 아바타 리스트 상에서 추가되는 새로운 음성 아바타에 대한 이름을 입력하는 화면(F53)이 출력된다. 사용자는 상기 이름 입력 화면(F53)의 입력창(f54)에 키패드나 가상 키보드 등을 이용하여 새로 생성한 음성 아바타의 이름을 입력하고, 저장 버튼을 눌러, 새로운 음성 아바타의 생성 및 저장 과정을 완료할 수 있다.

도시한 구현에서는 이동 단말기의 사용자가 용이하게 음성 아바타를 생성할 수 있도록 세가지 파라미터(음의 피치, 듀레이션 및 모펀트)를 조절할 수 있는 조절바를 구비한 생성 수단을 제공한다.

도 6은 새로운 음성 아바타 생성을 위한 메뉴에 대한 화면(F61)에서 음성 분석 이용 항목을 선택하였을 때, 분석용 음성을 선택하라는 메뉴에 대한 화면(F62)을 도시한다. 상기 분석용 음성에 대한 선택 메뉴에 대한 화면(F62)에서는, 마이크 입력 항목 또는 파일 불러오기 항목을 선택할 수 있다. 여기서, 사용자는 마이크 입력 항목을 선택하여 이동 단말기의 내장/외장 마이크(microphone)로 음성 아바타 생성용 음성을 입력받는 과정을 수행시킬 수 있다. 또는 사용자는 파일 불러오기 항목을 선택하여, 이미 이동 단말기내 저장부에 저장되어 있는 음성 파일을 불러올 수 있다.

불러오기가 수행되는 상기 음성 파일은, 바람직하게는 전화 통화를 위한 무선 통신 채널을 통해 전송된 상대방의 통화를 저장한 음성 파일일 수 있다. 이 경우 사용자는 상기 상대방의 자연 음성과 유사한 음성 아바타를 생성할 수 있으며, 전화번호부 등 상기 상대방에 대한 정보에 상기 음성 아바타를 지정할 수 있다.

도 7은 도 6의 음성 아바타 생성을 위한 메뉴에 대한 화면(F61)에서 음성 분석 이용 항목을 선택하였을 때 수행되는 음성 분석 과정에 따른 이동 단말기의 디스플레이 화면들이다.

도시한 바와 같이, 우선 음성 분석을 위한 지시 화면(F71)을 출력하고, 사용자가 상기 지시 화면(F71)의 지시에 따르면, 음성 분석을 위해 사용자가 육성으로 읽어야 하는 문장이 적혀진 화면(F72)을 출력한다.

사용자가 상기 화면(F72)의 문장을 읽은 음성은 이동 단말기의 내장/외장 마이크를 통해 수집되고, 사용자가 상기 문장을 읽고 확인 버튼을 누르면, 이동 단말기는 상기 마이크로 수집된 음성에 대하여 음성 분석을 수행한다. 음성 분석은 다소 시간이 소요될 수도 있으며, 이 경우 사용자의 지루함을 덜어주기 위해 도시한 바와 같이 분석 작업의 진행도를 표시하는 화면(F73)을 출력할 수 있다.

음성 분석에 실패하면 음성 분석을 위한 지시 화면(F71)을 다시 출력하여, 상기 지시 화면으로부터 수행된 과정을 반복한다. 음성 분석에 성공하면 도시한 바와 같이 음성 분석 결과로서 분석된 음성에 대한 음의 피치, 듀레이션 및 포먼트 정보에 대한 값들을 표시하며 사용자로부터 저장 지시의 입력을 기다리는 화면(F74)을 출력할 수 있다. 상기 화면(F74)에서 사용자가 저장 버튼을 누르면 분석된 음성의 음의 피치, 듀레이션 및 포먼트 정보에 대한 값들을 포함하는 음성 아바타가 생성된다.

상기 과정을 통해 사용자의 목소리에 가장 유사한 음성 아바타를 자동 생성할 수 있는 이점을 달성할 수 있다.

도 8은 본 발명의 사상에 따라 생성된 음성 아바타에 적용할 수 있는 분위기들에 대한 리스트 화면(F81) 및 그 항목의 세부 정보에 대한 디스플레이 화면(F82)이다.

분위기는 사용자가 임의로 작성하기에는 그 내용이 복잡하므로, 상기 분위기 리스트에 대한 분위기 항목의 추가 작업은, 별도로 작성된 분위기에 대한 데이터를 무선 통신망을 통해 다운로드 받아 수행하도록 구현하는 것이 바람직하다.

사용자가 분위기 리스트 화면(F81) 상의 하나의 항목을 선택하여 보기를 지시하면, 도시한 바와 같이 선택된 분위기에 대한 상세 정보가 출력될 수 있다.

도 9는 네비게이션 기능 등의 음성 출력이 필요한 이동 단말기의 부가 기능에 본 발명의 사상에 따른 음성 아바타를 설정하는 과정을 도시한 디스플레이 화면들이다.

도시한 바와 같이 특정 부가 기능에 대한 음성 안내 설정을 위한 화면(F91)에서 커서가 음성을 선택하는 영역(f93)에 위치할때, 사용자가 상/하 버튼을 눌러서 음성을 변경하기를 지시하면, 음성 아바타 리스트를 표시하고 이중 하나를 선택할 수 있는 화면(F92)이 출력된다. 상기 화면(F92)에서 사용자는 상/하 버튼을 조작해서 음성 아바타를 가리키는 커서의 위치를 변경하고, 듣기 버튼을 눌러서 커서가 위치한 음성 아바타의 음색을 확인할 수 있으며, 선택 버튼을 눌러서 커서가 위치한 음성 아바타를 선택할 수 있다.

이동 단말기의 음성 출력을 하는 다른 기능들 또는 어플리케이션들에도 도 9에 도시한 것과 유사한 과정으로 음성 아바타를 설정할 수 있다. 예컨대, 일정 안내, 음성 모닝콜 출력, 전자사전, ebook 데이터에 대한 TTS 등에 고유한 음성 아바타를 각각 지정할 수 있다. 그 결과, 이동 단말기의 기능들 또는 어플리케이션들 마다 서로 다른 개성있는 음성을 출력하도록 사용자가 설정할 수 있다. 특히, 문자메시지와 같은 경우에는 보낸 사람에 따라서 개성을 느낄 수 있는 음성으로 TTS를 수행할 수 있다.

이를 위한 이동 단말기는 상용화된 음성 안내 메뉴에 음성 아바타 지정이 가능하도록 메뉴를 추가로 포함하는 것이 바람직하다.

또한, 임의의 문장에 포함된 효과음이나 목소리에 대한 정보를 텍스트 분석으로 추출하여 가장 적합한 음성 아바타 및 분위기(예, 바닷가의 어린아이, 강당에서 고운 목소리)를 예로 들려주고, 선택된 음성 아바타에 대한 조절 바 및/또는 선택된 분위기를 표시하여, 사용자로 하여금 세부 조절을 지시하도록 구현할 수도 있다.

도 10은 각 항목에 대하여 음성 아바타가 지정된 전화번호부 및 상기 전화번호부 상에서 지정된 음성 아바타를 수정하는 화면을 도시한다.

도시한 바와 같은 본 발명의 사상이 적용된 단말기의 전화번호부의 각 항목 보기 화면(F101)에는 해당 항목의 구성요소로서 음성 아바타가 표시되는 영역(f103)이 표시된다. 커서를 상기 음성 아바타 영역(f103)에 위치된 상태에서 편집 버튼을 누르면, 도시한 음성 아바타 편집 화면(F102)이 출력된다.

도면에서는, 분위기 중 배경 음향이 음성 아바타의 기본 항목으로 포함되는 구현의 경우를 나타내었다. 상기 화면에서는 기 존재하는 음성 아바타의 피치, 듀레이션 및 포먼트 정보에 대한 설정값들을 조절할 수 있는 조절 바들이 제공되고, 배경 음향으로써 부가되는 파일을 표시하는 영역이 제공된다. 사용자가 상기 배경 음향으로써 부가되는 파일을 표시하는 영역을 누르면, 배경 음향용 음향 파일을 불러오기 위한 절차 및 화면들이 수행될 수 있다.

상기의 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가진 당업자라면 본 발명의 기술적 사상 내에서 다양한 수정, 변경 및 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

도 1은 본 발명의 일 실시예와 관련된 이동 단말기의 블록 구성도(block diagram).

도 2는 본 발명의 일 실시예와 관련된 음성 합성 방법을 도시한 흐름도.

도 3은 본 발명의 다른 실시예와 관련된 음성 합성 방법을 도시한 흐름도.

도 4는 본 발명의 사상에 따른 음성 합성 방법을 위한 음성 아바타 리스트 및 추가 화면.

도 5는 본 발명의 사상에 따른 음성 합성 방법을 위한 음성 아바타 생성 방법의 일 례를 도시한 화면.

도 6 및 도 7은 본 발명의 사상에 따른 음성 합성 방법을 위한 음성 아바타 생성 방법의 일 례를 도시한 화면.

도 8은 본 발명의 사상에 따른 음성 합성 방법을 위한 음성 아바타에 적용할 분위기 리스트 및 그 상세 정보 화면.

도 9는 네비게이션 기능 등의 음성 출력이 필요한 이동 단말기의 부가 기능에 본 발명의 사상에 따른 음성 아바타를 설정하는 과정을 화면들.

도 10은 음성 아바타가 지정된 전화번호부 도시 화면 및 상기 전화번호부 상에서 지정된 음성 아바타를 수정하는 화면.

도 11은 음성 합성 장치의 일 례를 도시한 블록도.

Claims

음성 합성을 위한 다수개의 음성 기본 설정값 세트들이 기록된 저장부; 및

사용자의 조작에 따라 적어도 하나의 상기 음성 기본 설정값 세트의 값들을 결정하는 제어부

를 포함하는 것을 특징으로 하는 단말기.
제 1 항에 있어서,

상기 음성 기본 설정값 세트는,

음색(Voice Color)을 결정하는 음성 특징(Feature)으로서, 음의 피치(Pitch), 듀레이션(Duration) 및 포먼트(Formant) 정보를 포함하는 것을 특징으로 하는 단말기.
제 1 항에 있어서,

TTS(Text to Speech) 변환하려는 텍스트 데이터의 종류에 따라 상기 음성 기본 설정값 세트가 지정된 것을 특징으로 하는 단말기.
제 1 항에 있어서,

상기 제어부는,

상기 음성 기본 설정값 세트를 이루는 각 음성 기본 설정값을 사용자의 조작에 따라 입력된 수치로 결정하는 것을 특징으로 하는 단말기.
제 1 항에 있어서,

음성을 출력하는 부가 기능에 따라 상기 음성 기본 설정값 세트가 지정된 것을 특징으로 하는 단말기.
제 1 항에 있어서,

상기 제어부는,

마이크로폰으로 입력되는 음성 또는 무선 통신망을 통해 전송되는 음성을 분석하여 획득한 음성 기본 설정값들로 상기 음성 기본 설정값 세트를 결정하는 것을 특징으로 하는 단말기.
제 1 항에 있어서,

상기 제어부는,

음성 기본 설정값 세트로 음성 합성을 수행할 때, 적용하려는 분위기(circumstance)에 지정된 튜닝 규칙에 따라 상기 음성 기본 설정값 세트를 이루는 설정값들을 수정한 값들로 음성 합성을 수행하는 것을 특징으로 하는 단말기.
제 7 항에 있어서,

상기 저장부는,

다수개의 분위기들에 대하여 각각 지정된 튜닝 규칙들을 저장하는 것을 특징으로 하는 단말기.
제 7 항에 있어서,

상기 분위기는,

음성의 느낌(feeling) 또는 배경 음향을 포함하는 것을 특징으로 하는 단말기.
(a) 음성 합성에 적용할 음성 기본 설정값 세트를 선택하는 단계;

(b) 합성할 음성에 적용할 분위기를 선택하는 단계;

(c) 상기 결정된 분위기에 대한 튜닝 규칙을 획득하는 단계; 및

(d) 상기 결정된 음성 기본 설정값 세트를 이루는 각 음성 기본 설정값들을 상기 튜닝 규칙으로 수정한 값들을 이용하여 음성 합성을 수행하는 단계

를 포함하는 음성 합성 방법.
제 10 항에 있어서,

상기 음성 기본 설정값 세트는,

음색(Voice Color)을 결정하는 음성 특징(Feature)으로서, 음의 피치(Pitch), 듀레이션(Duration) 및 포먼트(Formant) 정보를 포함하는 것을 특징으로 하는 음성 합성 방법.
제 10 항에 있어서,

상기 음성 합성은, 수신 메시지에 대한 TTS 기능을 위한 것이며,

상기 (a) 단계는,

상기 수신 메시지의 발신자 전화번호를 상기 이동 단말기 내의 전화번호부에서 검색하는 단계; 및

검색된 항목에 지정된 음성 기본 설정값 세트를 음성 합성에 적용할 음성 기본 설정값 세트로 결정하는 단계

를 포함하는 것을 특징으로 하는 음성 합성 방법.
제 10 항에 있어서,

상기 음성 합성은, 상기 이동 단말기의 부가 기능에 의해 출력되는 음성을 합성하기 위한 것이며,

상기 (a) 단계에서는,

상기 부가 기능의 종류에 따라 상기 음성 기본 설정값 세트를 결정하는 것을 특징으로 하는 음성 합성 방법.
제 10 항에 있어서,

상기 (a) 단계에서는 다수개의 음성 기본 설정값 세트들 중 하나를 선택하며,

상기 (a) 단계 이전에,

(a0) 상기 각 음성 기본 설정값 세트를 이루는 음성 기본 설정값들을 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 합성 방법.
제 14 항에 있어서,

상기 (a0) 단계에서는,

상기 음성 기본 설정값들을 사용자의 조작에 따라 입력된 수치로 결정하는 것을 특징으로 하는 음성 합성 방법.
메시지를 수신하는 단계;

상기 메시지의 발신자 전화번호를 획득하는 단계;

전화번호부에서 상기 발신자 전화번호를 검색하는 단계;

상기 전화번호부에 상기 발신자 전화번호에 대하여 지정된 음성 기본 설정값 세트를 리딩하는 단계;

상기 메시지 내용을 상기 음성 기본 설정값 세트를 이용하여 음성 합성하여 출력하는 단계

를 포함하는 음성 합성 방법.