KR20150017662A

KR20150017662A - 텍스트-음성 변환 방법, 장치 및 저장 매체

Info

Publication number: KR20150017662A
Application number: KR1020140080753A
Authority: KR
Inventors: 하리 마간티
Original assignee: 삼성전자주식회사
Priority date: 2013-08-07
Filing date: 2014-06-30
Publication date: 2015-02-17
Also published as: GB2516942B; GB201314175D0; GB2516942A

Abstract

텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신하는 동작, 발신자 식별 정보에 의해 식별된 발신자에 대응하는 저장된 음성 데이터를 검색하는 동작, 및 검색된 음성 데이터에 기초하여 메시지에 포함된 텍스트로부터 음성을 합성하는 동작을 포함하는 텍스트-음성 변환 방법이 개시된다. 텍스트-음성 변환 장치가 또한 개시된다. 음성 데이터는 발신자를 포함하는 전화 통화 동안 획득된 음성 신호를 사용하여 업데이트될 수 있다. 특정한 실시예들에서, 음성은 통계적 파라메트릭 음성 합성 방법을 사용하여 합성될 수 있고, 음성 데이터는 통계적 음향 음성 모델을 포함할 수 있다. 또한 음성은 수신된 메시지에서의 텍스트로부터 검출된 감정에 따라 합성될 수 있다.

Description

텍스트-음성 변환 방법, 장치 및 저장 매체{METHOD, APPARATUS AND STORING MEDIUM FOR TEXT TO SPEECH CONVERSION}

본 발명은 특정 개인에 대한 음성 데이터를 사용하여 텍스트로부터 음성을 합성하는 텍스트 음성 변환 방법, 장치 및 저장 매체에 관한 것이다.

최근, 수신된 메시지로부터의 텍스트를 사전 정의된 음성으로 판독할 수 있는 스마트폰, 태블릿 PC 등과 같은 통신 디바이스들이 개발되었다. 그러나, 이러한 접근방식은 단조롭고 자연스러움이 부족하며, 상이한 악센트들에 길들여진 상이한 지리적 영역들에서의 사용자들이 사전 정의된 음성의 악센트를 이해하기 어려울 수 있는 음성 출력을 발생시킨다. 사용자가 자연적인 음성, 예를 들어, 사용자들이 더욱 친근한 음성으로 텍스트를 청취하는 것이 더욱 유익하다.

본 발명은 이러한 배경에서 이뤄진 것이다.

본 발명의 일 목적은 전화 통화 도중 상대방 목소리의 특징을 분석하여 저장함으로써, 상대방으로부터 단문 메시지 서비스(SMS) 메시지, 이메일, 인스턴트 메시징(IM) 메시지, 또는 소셜 네트워킹 서비스(SNS) 메시지 등의 수신 시, 상기 저장해 둔 상대방 목소리 특징을 이용해 TTS(Text To Speech) 변환하여 재생하기 위한 텍스트-음성 변환 방법, 장치 및 저장 매체를 제공함에 있다.

본 발명의 다른 목적은 상기 단문 메시지 서비스 메시지, 이메일, 인스턴트 메시징 메시지, 또는 소셜 네트워킹 서비스 메시지 등을 TTS로 변환하여 재생 시, 이모티콘과 특정 단어(예를 들어, 축하해 등)에 대응하는 미리 설정된 감정 정보를 추출하여 TTS 변환하여 재생하기 위한 텍스트-음성 변환 방법, 장치 및 저장 매체를 제공함에 있다.

본 발명의 일 실시예에 따르면, 텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신하는 동작, 상기 발신자 식별 정보에 의해 식별된 발신자에 대응하는 저장된 음성 데이터를 검색하는 동작, 및 상기 검색된 음성 데이터에 기초하여 상기 메시지에 포함된 텍스트로부터 음성을 합성하는 동작을 포함하는 텍스트-음성(TTS; Text to Speech) 변환 방법이 제공된다.

상기 텍스트-음성 변환 방법은 전화 통화 동안 발신자에 의해 송신된 제 1 음성 신호를 획득하는 동작, 자동 음성 인식 방법을 사용하여 제 1 음성 신호에 포함된 음성의 구문 표현(textual representation)을 획득하는 동작, 및 제 1 음성 신호 및 획득된 구문 표현을 사용하여 저장된 음성 데이터를 업데이트하는 동작을 더 포함할 수 있다.

복수의 제 1 음성 신호들이 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 대화들로부터 획득되고, 구문 표현을 획득하는 동작을 더 포함할 수 있으며, 저장된 음성 데이터를 업데이트하는 동작은 복수의 제 1 음성 신호들 각각에 대해 수행될 수 있다.

또한 상기 텍스트-음성 변환 방법은 발신자에게 소정의 텍스트를 제공하는 동작; 발신자가 소정의 텍스트를 스피킹하는 동안 제 2 음성 신호를 획득하는 동작; 및 제 2 음성 신호 및 소정의 텍스트를 사용하여 저장된 음성 데이터를 업데이트하는 동작을 더 포함할 수 있다.

상기 텍스트-음성 변환 방법은 저장된 음성 데이터를 업데이트한 이후에 제 1 또는 제 2 음성 신호 중 적어도 하나의 신호를 삭제하는 동작을 더 포함할 수 있다.

상기 음성 데이터는 통계적 음향 모델을 포함할 수 있고, 상기 음성은 통계적 파라메트릭 음성 합성 방법을 사용하여 합성될 수 있다.

상기 텍스트-음성 변환 방법은 메시지에 포함된 텍스트로부터 감정(emotion)을 결정하는 동작을 더 포함할 수 있고, 음성은 결정된 감정에 따라 합성될 수 있다.

상기 감정은 텍스트에 포함된 이모티콘을 검출하고 검출된 이모티콘에 대응하는 감정을 식별하는 동작, 또는 자연 언어 처리 방법을 사용하여 텍스트를 분석하는 동작 중 적어도 하나의 동작을 수행함으로써 결정될 수 있다.

상기 발신자 식별 정보는 전화 번호, 이메일 주소, 또는 발신자명 중 적어도 하나를 포함할 수 있고 상기 메시지는 단문 메시지 서비스(SMS) 메시지, 이메일, 인스턴트 메시징(IM) 메시지, 또는 소셜 네트워킹 서비스(SNS) 메시지일 수 있다.

상기 메시지는 통신 디바이스에 의해 수신될 수 있고, 상기 음성 합성은 통신 디바이스와 통신하도록 구성된 서버에 의해 수행될 수 있으며, 상기 텍스트-음성 변환 방법은 상기 통신 디바이스가 합성된 음성을 서버로부터 수신하는 동작, 및 상기 통신 디바이스가 합성된 음성을 재생하는 동작을 더 포함할 수 있다.

상기 메시지는 통신 디바이스에 의해 수신될 수 있고, 상기 음성 데이터를 검색하는 동작 및 상기 음성을 합성하는 동작은 통신 디바이스에 의해 수행될 수 있다.

본 발명의 일 실시에 따르면, 프로세서에 의해 실행될 때, 상기 텍스트-음성 변환 방법을 수행하는 컴퓨터 프로그램을 저장하도록 구성된 컴퓨터 판독 가능한 저장 매체가 또한 제공될 수 있다.

본 발명의 일 실시에 따르면, 텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신하도록 구성된 수신 모듈, 발신자 식별 정보에 의해 식별된 발신자에 대응하는 음성 데이터를 저장 유닛으로부터 검색하도록 구성된 음성 데이터 검색 모듈, 및 상기 검색된 음성 데이터에 기초하여 상기 메시지에 포함된 텍스트로부터 음성을 합성하도록 구성된 음성 합성 모듈을 포함하는 텍스트-음성 변환 장치가 제공될 수 있다.

상기 텍스트-음성 변환 장치는 전화 통화 동안 발신자에 의해 송신된 제 1 음성 신호를 획득하고, 자동 음성 인식 방법을 사용하여 제 1 음성 신호에 포함된 음성의 구문 표현을 획득하며, 제 1 음성 신호 및 획득된 구문 표현을 사용하여 저장된 음성 데이터를 업데이트하도록 구성된 음성 데이터 관리 모듈을 더 포함할 수 있다.

상기 음성 데이터 관리 모듈은 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 통화들로부터 복수의 제 1 음성 신호들을 획득하고, 복수의 제 1 음성 신호들 각각에 대해 구문 표현을 획득하고 저장된 음성 데이터를 업데이트하도록 구성될 수 있다.

발신자에게는 소정의 텍스트가 제공될 수 있으며; 상기 음성 데이터 관리 모듈은 발신자가 소정의 텍스트를 스피킹하는 동안 제 2 음성 신호를 획득하며; 제 2 음성 신호 및 소정의 텍스트를 사용하여 저장된 음성 데이터를 업데이트하도록 구성될 수 있다.

상기 음성 데이터 관리 모듈은 저장된 음성 데이터를 업데이트한 이후에 제 1 또는 제 2 음성 신호 중 적어도 하나를 삭제하도록 더 구성될 수 있다.

상기 음성 데이터는 통계적 음향 모델을 포함할 수 있고 음성 합성 모듈은 통계적 파라메트릭 음성 합성 방법을 사용하여 음성을 합성하도록 구성될 수 있다.

상기 텍스트-음성 변환 장치는 메시지에 포함된 텍스트로부터 감정을 결정하도록 구성된 감정 분석 모듈을 더 포함할 수 있고, 음성 합성 모듈은 결정된 감정에 따라 음성을 합성하도록 구성될 수 있다.

상기 감정 분석 모듈은 텍스트에 포함된 이모티콘을 검출하고 검출된 이모티콘에 대응하는 감정을 식별하는 동작, 또는 자연 언어 처리 방법을 사용하여 텍스트를 분석하는 동작 중 적어도 하나의 동작을 수행함으로써 감정을 결정하도록 구성될 수 있다.

상기 전송자 식별 정보는 전화 번호, 이메일 주소, 또는 발신자명 중 적어도 하나를 포함할 수 있고 메시지는 단문 메시지 서비스(SMS) 메시지, 이메일, 인스턴트 메시징(IM) 메시지, 또는 소셜 네트워킹 서비스(SNS) 메시지일 수 있다.

상기 수신 모듈은 통신 디바이스에 포함될 수 있고, 상기 음성 합성 모듈은 서버에 포함될 수 있고, 상기 통신 디바이스는 상기 서버와 통신하도록 구성되고, 여기서, 상기 통신 디바이스는 상기 서버로부터 합성된 음성을 수신하며, 합성된 음성을 재생하도록 구성된다.

한편, 다른 실시예에 따르면, 수신 모듈, 음성 데이터 검색 모듈 및 음성 합성 모듈 모두가 통신 디바이스에 포함될 수도 있다.

상기한 바와 같이, 본 발명의 일 실시예에 따른 텍스트-음성 변환 방법, 장치 및 저장 매체를 사용함으로서, 통화를 하면서 상대방 목소리의 특징을 분석하여 저장하고, 상대방으로부터 단문 메시지 서비스(SMS) 메시지, 이메일, 인스턴트 메시징(IM) 메시지, 또는 소셜 네트워킹 서비스(SNS) 메시지 등의 수신 시, 상기 저장해 둔 상대방 목소리 특징을 이용해 TTS(Text To Speech) 변환하여 재생할 수 있도록 한다. 또한, 상기 단문 메시지 서비스 메시지, 이메일, 인스턴트 메시징 메시지, 또는 소셜 네트워킹 서비스 메시지 등을 TTS로 변환하여 재생 시, 이모티콘과 특정 단어(예를 들어, 축하해 등)에 대응하는 미리 설정된 감정 정보를 추출하여 TTS 변환하여 재생할 수 있도록 한다.

이제, 본 발명의 실시예들이 첨부한 도면들을 참조하여 단지 예로서 설명될 것이다.
도 1은 본 발명의 일 실시예에 따른, 저장된 음성 데이터를 사용하는 텍스트-음성 변환 방법을 예시한다.
도 2는 본 발명의 일 실시예에 따른, 저장된 음성 데이터를 업데이트하는 방법을 예시한다.
도 3은 본 발명의 다른 실시예에 따른, 저장된 음성 데이터를 업데이트하는 방법을 예시한다.
도 4는 본 발명의 일 실시예에 따른, 통신 디바이스에 의해 수신된 메시지로부터의 텍스트를 사용하여 서버에서 원격 음성 합성을 수행하는 방법을 예시한다.
도 5는 본 발명의 일 실시예에 따른, 수신된 메시지로부터 감정을 검출하고 검출된 감정에 따라 음성을 합성하는 방법을 예시한다.
도 6은 본 발명의 일 실시예에 따른, 텍스트-음성 변환 장치를 예시한다.
도 7은 본 발명의 일 실시예에 따른, 수신된 메시지에서의 텍스트를 음성으로 변환하도록 구성된 통신 디바이스를 예시한다.
도 8은 본 발명의 일 실시예에 따른, 서버로부터 합성된 음성을 획득하도록 구성된 통신 디바이스와, 상기 서버를 포함하는 시스템을 예시한다.

도 1은 본 발명의 일 실시예에 따른 텍스트-음성(TTS) 변환 방법을 예시한다. 본 발명의 일 실시예에 따른 텍스트-음성 변환 방법은 수신된 메시지로부터의 텍스트를 음성으로 변환하기 위해 사용될 수 있다. 또한, 본 발명의 일 실시예에 따른 텍스트-음성 변환 방법은 단문 메시지 서비스(SMS) 메시지들, 인스턴트 메시징(IM) 서비스 메시지들, 소셜 네트워킹 서비스(SNS) 메시지들, 및 이메일들을 포함할 수 있으며, 이에 제한되지 않는 임의의 타입의 텍스트 기반 메시지에도 적용될 수 있다.

상기 수신된 메시지는 메시지의 발신자를 식별하는 발신자 식별 정보를 포함할 수 있다. 예를 들어, SMS 메시지에 있어서, 발신자 식별 정보는 메시지가 전송된 전화 번호일 수 있다. IM 서비스 메시지 또는 SNS 메시지에 있어서, 발신자 식별 정보는 발신자명 또는 계정 번호와 같은 고유 식별자에 의해 식별될 수 있는 메시지가 전송된 발신자 계정일 수 있다. 이메일에 있어서, 발신자 식별 정보는 이메일이 전송된 이메일 주소일 수 있다.

도 1을 참조하면, S101 동작에서 통신 디바이스(수신자라고도 함)는 텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신할 수 있다. S102 동작에서, 통신 디바이스는 상기 수신된 메시지의 발신자 식별 정보에 의해 식별된 발신자에 대응하는 저장된 음성 데이터를 검색할 수 있다. 실시예에 따르면, 상기 저장된 음성 데이터는 로컬 하드 디스크 드라이브 또는 다른 타입의 비휘발성 메모리와 같은 로컬 저장 유닛으로부터 검색될 수 있으며, 인터넷 서버와 같은 원격 위치로부터 검색될 수도 있다.

상기 발신자에 대응하는 저장된 음성 데이터를 검색한 이후에, S103 동작에서, 통신 디바이스는 검색된 음성 데이터에 기초하여 음성을 메시지에 포함된 텍스트로부터 합성되도록 할 수 있다. 상기 발신자에 대응하는 저장된 음성 데이터는 그 발신자의 음성을 피처링(featuring)하는 기록된 음성 신호들로부터, 특정한 발신자에 적응된 음성 데이터를 포함할 수 있다. 통신 디바이스는 수신된 메시지의 발신자를 식별하고 발신자에 대응하는 음성 데이터를 사용하여 음성을 합성함으로써, 발신자의 음성으로 텍스트를 재생할 수 있다.

상기 음성 데이터는 다양한 형태들일 수 있다. 본 발명의 일 실시예에서 음성은 통계적 파라메트릭 음성 합성 방법을 사용하여 합성될 수 있으며, 음성 데이터는 특정한 발신자에 대해 맞춰진 통계적 음향 모델일 수 있다. 또한, 통계적 음향 모델을 음성 모델이라 칭할 수도 있다. 음성 기록들은 통계적 음향 모델의 파라미터들을 개별 발신자들에게 트레이닝하기 위해 사용될 수 있으며, 저장 유닛은 복수의 발신자들 중 각 발신자에 대한 별개 모델을 저장할 수 있다.

상기 통계적 파라메트릭 음성 합성은 고속 적응이 가능하고 비교적 소량의 트레이닝 데이터를 요구하는 코퍼스 독립형 및 모델 기반 기법(corpus independent and model-based technique)이다. 기본 모델은 은닉 마르코프 모델(hidden markov model: HMM), 또는 은닉 세미-마르코프 모델(HSMM)이라 칭할 수도 있는 근접하게 관련된 변형일 수 있다.

상기 음성 모델은 음성 신호들에서 스피킹된 워드들의 텍스트 기록에 따라 개별 발신자의 음성의 기록된 음성 신호들을 사용하는 통신 디바이스(또는 음성 데이터 관리 시스템)를 사용하여 트레이닝될 수 있다. 또한, 음성 신호 및 대응하는 텍스트는 통신 디바이스(또는 상기 음성 데이터 관리 시스템)에 음운들의 스트링 및 추가의 문맥 정보를 제공할 수 있다. 상기 통신 디바이스(또는 음성 데이터 관리 시스템)는 매우 소량의 음성 데이터를 사용하여 타겟 화자(speaker; 예: 발신자)에 매칭시키기 위해 기존의 화자 독립형 음향 모델들을 변환하도록 화자 적응(speaker adaptation)을 이용할 수 있다.

상기 화자 적응은 화자 독립형 HMM들을 새로운 화자(예: 발신자)에 적응시키기 위해, 평균 음성 모델을 시작하고, 최대 우도 선형 회귀(MLLR)와 같은 음성 인식으로부터 도출된 모델 적응 기법들을 사용함으로써 수행될 수 있다. 예를 들어, 시간의 경과에 평활하게 변하는 궤적을 보장하면서, 각 시간 프레임에 대한 가장 가능한 스펙트럼 값들을 선택하기 위해 적절한 모델들이 사용될 수 있다. 이들 파라미터들로부터, 음성 파형이 신호 처리 기법들을 사용하여 구성될 수 있다. 이러한 프로세스는 합성된 음성과 등가의 실제 샘플 사이의 왜곡을 최소화하기 위해 최적화될 수 있다. 화자 적응형 HMM 기반 합성은 개인화된 합성 음성을 생성하기 위해 타겟 화자로부터 5 내지 10분 정도의 적은 시간으로 기록된 음성을 요구할 수 있다.

음성 합성을 위해 본 발명의 일 실시예에서 사용된 HMM 접근방식은 자동 음성 인식(ASR) 방법과 유사하다. 그러나, 본 발명의 일 실시예에서의 통계적 파라메트릭 음성 합성 방법에서 사용된 HMM들은 자동 음성 인식 방법과 같이 트리폰 유닛들을 모델링하기 보다는, 좌우로의 더 많은 음운들 뿐만 아니라 운율 정보와 같은 추가의 특징들을 포함하는 훨씬 더 풍부한 컨텍스트를 갖는 유닛들에 기초한다. 더 풍부한 컨텍스트의 사용은, 대부분 이론적으로 가능한 유닛들이 트레이닝 데이터에서 보이지 않아서, 상기 유닛들이 트레이닝 프로세스 동안 자동으로 클러스터되어 파라미터들을 공유한다는 것을 의미한다. 이는 데이터가 유닛들 사이에서 공유될 수 있도록 하여, 가용 데이터를 최대한 활용하고 음성 모델을 구축하는데 적은 음성 데이터가 요구된다는 것을 의미한다. 파라메트릭 음성 합성 방법은 예를 들어, 모바일 전화 대화로부터 획득될 수도 있는 비교적 저품질의 음성과 함께 사용하는데 적합할 수 있다.

본 발명의 일 실시예에서의 화자 적응 스테이지에서, 평균 음성 모델은 멀티-스트림 MSD-HSMM에 대한 화자 적응 기법들을 사용하여 타겟 화자에 적응되도록 할 수 있다. 화자 적응 기법들의 예들은 MAP(maximum a posteriori), SMAP(structural maximum a posteriori), 및 CSMAPLR(constrained structural maximum a posteriori linear regression)를 포함할 수 있다. 본 발명의 일 실시예에서는 CSMAPLR 및 MAP 적응 기법들의 조합이 사용되는 것으로 설명되지만, 다른 실시예들에서는, 다른 적합한 기법들이 사용될 수 있다.

하나의 파라메트릭 음성 합성 방법을 상술하였지만, 본 발명의 실시예들은 상이한 발신자들에 대한 음성 데이터를 생성하고 업데이트하는 상술한 특정한 방법에 한정되지 않는다. 예를 들어, 다른 실시예들에서는 상이한 파라메트릭 음성 합성 방법들이 사용될 수도 있으며, 또는 표본 기반(exemplar-based) 방법이 대신 사용될 수도 있다. 상기 표본 기반 방법에서, 음성 데이터는 언어 사양(linguistic specification)을 사용하여 인덱스된 실제 음성 발음의 복수의 짧은 기록 음성 샘플들을 포함할 수 있다. 또한, 원하는 음성을 생성하기 위해, 적합한 인덱스된 음성 샘플들이 선택되고 연접될 수 있다.

예를 들어, 통계적 음향 음성 모델 또는 복수의 기록된 음성 샘플들일 수도 있는 음성 데이터가 다양한 방법들을 사용하여 획득될 수 있고, 이제 그 예들을 도 2 및 도 3을 참조하여 설명한다.

도 2를 참조하면, 본 발명의 일 실시예에 따른, 저장된 음성 데이터를 업데이트하는 방법이 예시되어 있다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 저장된 음성 데이터를 업데이트하는 방법은 개별 발신자에 대한 음성 모델을 구축하기 위해 전화 통화 중에 획득한 자연 음성 데이터를 사용할 수 있다.

도 2를 참조하면, S201동작에서, 통신 디바이스는 전화 통화 동안 발신자에 의해 송신된 음성 신호를 획득할 수 있다. 구체적으로는, 발신자에 대응하는 전화 번호로부터 송신된 음성 신호가 발신자의 음성을 포함한다는 것이 가정된다. 대부분의 국가들에서, 특정한 기간에 음성 통신을 음성 데이터를 관리하는 특정 서버에 저장하는 요건이 있으며, 이것은 본 발명의 실시예들을 이용하기 위한 적합한 음성 신호들이 기존의 전화 네트워크를 변경하지 않고 이미 이용 가능하다는 것을 의미한다. 음성 신호가 아직 저장되지 않았다는 가정하에서, 통신 디바이스는 음성 데이터의 업데이트를 위해 사용될 수 있는 적합한 음성 신호들을 수신하고 기록하는 전화 네트워크에 접속하도록 구성될 수 있다.

예를 들어, 전화 호(phone call)가 발신자로부터 수신될 때마다, 대화의 종단에서, 발신자의 음성이 저장된 음성 데이터를 관리하는 서버에 업로딩될 수 있는지를 질문하기 위해, 메시지가 수신자의 통신 디바이스(예를 들어, 스마트폰 또는 태블릿 컴퓨터)에 디스플레이될 수 있다. 다른 실시예들에서, 음성 신호의 업로딩은 음성 신호가 전화 네트워크에 전송된 통신 디바이스 기록을 가짐으로써, 그 음성 신호가 기록되는 발신자에 의해 제어될 수 있다.

특정 발신자에 대응하는 음성 데이터는 선입후출(FILO)에 기초하거나, 랜덤 또는 주기적 방식으로 업데이트될 수 있다. 음성 신호가 통신 디바이스에 이미 알려지지 않은 연락 번호에 대해 업로딩될 때, 새로운 발신자들이 통신 디바이스에 추가될 수 있다.

S202 동작에서, 통신 디바이스는 음성 신호에 포함된 음성의 구문 표현을 획득한다. 본 발명의 일 실시예에서, 음성 신호가 전화 통화 동안 기록된 자연적 음성을 포함하기 때문에, 자동 음성 인식 방법이 음성을 표기(transcribe)하고 음성 신호의 구문 표현을 획득하기 위해 사용될 수 있다.

S203 동작에서, 통신 디바이스는 저장된 음성 데이터를 음성 신호 및 획득된 구문 표현을 사용하여 업데이트한다. 예를 들어, 음성 데이터가 통계적 음향 음성 모델일 때, 모델은 파라미터들의 새로운 값들을 추정하기 위해 음성 신호를 사용함으로써 업데이트될 수 있다. 그 후, 이전의 값들은 폐기될 수 있다.

S204 동작에서, 통신 디바이스는 음성 신호를 삭제한다.

음성 데이터가 업데이트되면, 본 발명의 일 실시예에서, S204 동작과 같이, 음성 신호는 삭제될 수 있다. 이것은 프라이버시 문제들을 초래하는 음성 대화들의 실제 기록들을 저장하는 것을 회피하기 위함이다. 그러나, 다른 실시예들에서, 음성 신호는 장래 사용을 위해 저장될 수 있다.

상기 도 2를 참조하면, 단일 발신자에 대해 획득된 음성 신호에 기초하여 그 단일 발신자에 대한 음성 데이터를 업데이트하는 것과 관련하여 설명하였다. 그러나, 복수의 음성 신호들이 상기 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 통화들로부터 동일한 발신자에 대해 획득될 수 있다. 예를 들어, 통신 디바이스와 통신하도록 구성된 서버에 의해 복수의 음성 신호들이 상기 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 통화들로부터 동일한 발신자에 대해 획득될 수 있다.또한, 구문 표현을 획득하는 동작 및 저장된 음성 데이터를 업데이트하는 동작은 복수의 음성 신호들 각각에 대해 수행될 수 있다.

도 3을 참조하면, 본 발명의 다른 실시예에 따른, 저장된 음성 데이터를 업데이트하는 방법이 예시되어 있다. 도 3을 참조하면, 본 발명의 다른 실시예에 따른 저장된 음성 데이터를 업데이트하는 방법을 개별 발신자에 대한 음성 모델을 구축하기 위해 알려진 어구들의 판독 음성 발음을 사용하는 "판독 음성" 방법으로 칭할 수 있다.

S301 동작에서는, 발신자에게 소정의 텍스트가 제공될 수 있다. 예를 들어, 상기 텍스트는 인쇄된 형태로 발신자에게 공급될 수 있으며, 또는 통신 디바이스가 스크린상에 디스플레이 할 수 있다. S302 동작에서는, 발신자가 소정의 텍스트를 스피킹하는 동안 통신 디바이스가 음성 신호를 기록할 수 있다. S303 동작에서, 통신 디바이스는 음성 데이터를 음성 신호 및 소정의 텍스트를 사용하여 업데이트할 수 있다. 이러한 실시예에서, 도 2의 실시예와는 다르게, 스피킹되는 텍스트가 이미 알려져 있기 때문에 통신 디바이스가 음성 신호에 대해 자동 음성 인식을 수행할 필요가 없다.

상술한 도 2의 일 실시예와 같이, 본 발명의 다른 실시예들에서는, 음성 신호가 유지될 수 있지만, 상술한 동작들에 따라 저장된 음성 데이터가 업데이트된 후에는 다음으로 S304 동작에서 통신 디바이스가 상기 음성 신호를 삭제할 수 있다.

상술한 도 1 내지 도 3의 실시예들에 따른 동작들은 단일 디바이스, 예를 들어, 스마트폰 또는 태블릿 컴퓨터와 같은 통신 디바이스(모바일 통신 디바이스라고도 함)에서 각각 수행되는 것을 예로 들어서 설명하였다. 그러나, 상술한 실시예들에 따른 동작들은 상이한 장치들(예: 통신 디바이스, 서버 등) 사이에서 분할되어 수행될 수도 있다. 예를 들어, 메시지는 합성된 음성을 재생하는 통신 디바이스에서 수신될 수 있지만, 실제 음성 합성 및 음성 데이터 관리 동작들은 예를 들어, 인터넷 또는 다른 네트워크를 통해 액세스된 서버에 의해 원격으로 수행될 수도 있다.

도 4를 참조하면, 본 발명의 일 실시예에 따른, 통신 디바이스에 의해 수신된 메시지로부터의 텍스트를 사용하여 서버에서 원격 음성 합성을 수행하는 방법이 예시되어 있다.

먼저, S401 동작에서, 통신 디바이스는 텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신할 수 있다. 통신 디바이스는 예를 들어 음성 합성을 수행하는 서버와 통신하도록 구성될 수 있다. 예를 들어, 통신 디바이스는 서버에 액세스하기 위해 모바일 전기통신 네트워크에 접속할 수 있으며, 또는 인터넷에 액세스하고 서버에 접속하기 위해 WiFi 또는 블루투스와 같은 다른 적합한 네트워킹 프로토콜을 사용할 수 있다.

S402 동작에서, 통신 디바이스는 텍스트 및 발신자 식별 정보를 서버에 전송할 수 있다. 여기서, 통신 디바이스는 수신된 정보를 변경없이 서버에 단순히 포워딩할 수 있으며, 또는 수신된 메시지로부터 텍스트 및 발신자 식별 정보를 추출할 수 있고 불필요한 데이터를 제거할 수 있다. 예를 들어, 수신된 메시지가(예: 수신된 이메일이) 음성 합성에 적합하지 않은 인라인 이미지들(inline images) 및/또는 첨부물들을 포함할 수도 있으며, 통신 디바이스는 서버에 전송할 이미지 텍스트 및 발신자 식별 정보만을 추출할 수 있다. 이것은 업로딩되어야 하는 데이터량을 감소시킬 수 있다.

상술한 402 동작에 따라, 서버는 발신자 식별 정보 및 텍스트를 수신하고, 발신자 식별 정보에 의해 식별된 발신자에 대응하는 저장된 음성 데이터를 검색하며, 저장된 음성 데이터 및 텍스트로부터 음성을 합성할 수 있다. S403 동작에서, 통신 디바이스는 서버로부터 합성된 음성을 수신할 수 있다. 임의의 적합한 파일 포맷이 상기 합성된 음성에 대해 사용될 수도 있다. S404 동작에서, 통신 디바이스는 수신된 합성 음성을 스피커를 통해 재생할 수 있다.

본 발명의 실시예에서는, S402 동작에서 통신 디바이스가 텍스트 및 발신자 식별 정보를 서버에 포워딩하지만, 일부 실시예들에서는, 이러한 동작은 생략될 수 있다. 예를 들어, 모바일 전기통신 네트워크가 SMS 메시지를 음성 합성하는 서버 뿐만 아니라 의도하는 수신자(예: 특정 통신 디바이스)에게 자동으로 포워딩하도록 구성될 수 있다. 그 후, 음성을 합성하는 서버는 SMS 메시지의 수신자에게 SMS 메시지의 오디오 재생이 이용가능하다는 것을 통지할 수 있고, 요청 시에는 합성된 음성을 메시지 수신자에게 송신할 수 있다. 유사한 방법들이 다른 타입의 통신 네트워크들 및 다른 텍스트 기반 메시지들에 또한 적용될 수도 있다.

상술한 도 4의 실시예들에 따른 방법에서는, 음성 합성이 서버에 의해 네트워크측상에서 수행되었지만, 다른 실시예들에서는, 음성 데이터를 검색하는 동작 및 음성을 합성하는 동작이 메시지를 수신하는 동일한 통신 디바이스에 의해 수행될 수 있다는 것이 이해될 것이다.

도 5를 참조하면, 본 발명의 실시예에 따른, 수신된 메시지로부터 감정을 검출하고 검출된 감정에 따라 음성을 합성하는 방법이 예시되어 있다.

S501 동작에서, 통신 디바이스는 텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신할 수 있다. S502 동작에서, 통신 디바이스는 발신자 식별 정보에 의해 식별된 발신자에 대응하는 저장된 음성 데이터를 예를 들어, 로컬 저장부로부터 또는 원격 음성 데이터 서버에 액세스함으로써 검색할 수 있다. 본 실시예에서는, 감정 검출을 수행하기 이전에 음성 데이터가 검색되지만, 다른 실시예들에서는, 이들 동작들은 상이한 순서로 수행될 수 있다. 일반적으로, 음성 데이터는 S501 동작에서의 메시지의 수신과 S506 동작에서의 음성의 합성 사이의 임의의 포인트에서 검색될 수도 있다.

S503 동작에서, 통신 디바이스는 수신된 텍스트가 이모티콘을 포함하는지를 체크할 수 있다. 이모티콘들은 널리 알려져 있고, 특정한 감정을 전달하기 위해 사용되는 문자들의 소정의 시퀀스들을 포함할 수 있다.

이모티콘이 검출되면, S504 동작에서, 통신 디바이스는 검출된 이모티콘에 대응하는 감정을 식별할 수 있다. 예를 들어, 통신 디바이스는 대응하는 감정과 함께 알려진 이모티콘들을 저장하는 데이터베이스에 이모티콘에 대응하는 감정을 확인하기 위한 쿼리(query)를 전송할 수 있다.

한편, 이모티콘이 검출되지 않으면, S505 동작에서, 통신 디바이스는 자연 언어 처리 방법을 사용하여 텍스트를 분석함으로써 감정을 결정할 수 있다. 이러한 동작에서, 텍스트는 특정한 감정을 나타낼 수도 있는 특정한 워드들 및 패턴들에 대해 분석될 수 있다. 예를 들어, 텍스트 "어디에 있니, 너를 기다리고 있다"로부터 검출된 감정은 '화남'일 수도 있다. 자연 언어 처리 방법은 예를 들어, 인공 신경 회로망 기반 방법 또는 지식 기반 방법일 수도 있다.

상술한 동작들에 따라 감정이 결정되면, S506 동작에서, 통신 디바이스는 음성을 결정된 감정에 따라 합성할 수 있다. 감정에 따라 음성 합성을 적응시킴으로써, 더욱 현실적이고 자연스러운 음성 출력이 제공될 수 있다. 따라서, 도 5의 실시예에 따라 통신 디바이스를 이용하는 메시지 수신자가 메시지 텍스트의 음성 재생을 발신자의 음성 및 감정, 예를 들어, 화남, 행복함, 슬픔 등으로 들을 수 있게 할 수 있다.

다른 실시예들에서, 감정 검출은 통신 디바이스가 도 5의 동작들 중 하나, 예를 들어, 이모티콘 인식 또는 자연 언어 처리만을 사용하여 수행할 수도 있다. 또한, 일부 실시예들에서는, 통신 디바이스가 이모티콘 인식 및 자연 언어 처리 동작들을 함께 사용하여 감정 검출을 수행할 수도 있다. 예를 들어, 이모티콘이 검출될 때에도, 이모티콘으로부터 결정된 감정이 자연 언어 처리에 의해 검출된 감정과 동일한지 체크하기 위해 자연 언어 처리가 여전히 사용될 수도 있다.

본 발명의 일부 실시예들에서, 감정 검출은 생략될 수도 있고, 음성은 특정한 감정에 따라 합성된 음성을 적응시키지 않고 검색된 음성 데이터에만 기초하여 합성될 수도 있다.

도 6을 참조하면, 본 발명의 일 실시예에 따른, 텍스트-음성 변환 장치(예: 통신 디바이스; 이하에서는 통신 디바이스라고 함)가 예시되어 있다. 통신 디바이스는 도 1 내지 도 5의 임의의 동작들을 수행할 수 있고, 도 6에 도시된 특정한 모듈들은 프로세서에 의해 실행될 때 적절한 동작들을 수행하는 소프트웨어 명령어들로서 구현될 수 있다. 또한, 상기 프로세서는 상기 소프트웨어 명령어들에 따라, 후술하는 일부 또는 전체 모듈들의 동작을 제어할 수 있다. 예를 들면, 응용 주문형 집적 회로(ASIC)와 같은 전용 하드웨어가 통신 디바이스내에서 특정한 기능들을 수행하도록 제공될 수도 있다.

도 6에 도시되어 있는 바와 같이, 통신 디바이스(600)는 텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신하도록 구성된 수신 모듈(601), 발신자 식별 정보에 의해 식별된 발신자에 대응하는 음성 데이터를 저장 유닛(604)으로부터 검색하도록 구성된 음성 데이터 검색 모듈(602), 및 검색된 음성 데이터에 기초하여 메시지에 포함된 텍스트로부터 음성을 합성하도록 구성된 음성 합성 모듈(603)을 포함할 수 있다.

상기 통신 디바이스(600)는 전화 통화 동안 발신자에 의해 송신된 음성 신호를 획득하고, 자동 음성 인식 방법을 사용하여 음성 신호에 포함된 음성의 구문 표현을 획득하며, 음성 신호 및 획득된 구문 표현을 사용하여 저장 유닛(604)에서의 저장된 음성 데이터를 업데이트하도록 구성된 음성 데이터 관리 모듈(605)을 더 포함할 수 있다. 음성 데이터 관리 모듈(605)은 도 2를 참조하여 상술한 바와 같은 방법을 사용하여, 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 대화들로부터 복수의 음성 신호들을 획득하고, 복수의 음성 신호들 각각에 대해 구문 표현을 획득하고 저장된 음성 데이터를 업데이트하도록 구성될 수 있다.

상기 전화 통화들로부터 음성 신호들을 획득하는 대신에 또는 그에 더하여, 발신자에게는 소정의 텍스트가 제공될 수 있으며 음성 데이터 관리 모듈(605)은 도 3을 참조하여 상술한 바와 같은 방법을 사용하여, 발신자가 소정의 텍스트를 스피킹하는 동안 음성 신호를 획득하며 음성 신호 및 소정의 텍스트를 사용하여 저장된 음성 데이터를 업데이트하도록 구성될 수 있다.

음성 데이터 관리 모듈(605)은 저장된 음성 데이터를 업데이트한 이후에 음성 신호를 삭제할 수 있다.

도 7을 참조하면, 본 발명의 일 실시예에 따른, 수신된 메시지에서의 텍스트를 음성으로 변환하도록 구성된 통신 디바이스를 예시되어 있다. 통신 디바이스(700)는 도 6에 도시된 시스템의 특정한 컴포넌트들, 구체적으로는, 수신 모듈(701; 수신 모듈(601)), 음성 데이터 검색 모듈(702; 음성 데이터 검색 모듈(602)), 및 음성 합성 모듈(703; 음성 합성 모듈(603))을 포함할 수 있다. 통신 디바이스(700)는 감정 분석 모듈(704) 및 출력 모듈(705)을 더 포함할 수 있다. 감정 분석 모듈(704)은 예를 들어, 도 4에 도시된 바와 같은 방법을 사용함으로써, 메시지에 포함된 텍스트로부터 감정을 결정할 수 있다. 출력 모듈(705)은 음성 합성 모듈(703)에 의해 생성된 음성을 재생하기 위한 스피커를 포함한다. 출력 모듈(705)은 수신된 메시지에 포함된 텍스트를 재생하기 위한 디스플레이를 또한 포함할 수도 있다.

본 발명의 실시예에서는, 음성 데이터 검색 모듈(702)은 음성 데이터를 저장하기 위한 저장 유닛(714) 및 음성 데이터를 생성 및 업데이트하기 위한 음성 데이터 관리 모듈(715)을 포함하는 서버(예: 원격 음성 데이터 서버)로부터 음성 데이터를 검색하도록 구성될 수 있다. 그러나, 다른 실시예들에서는, 저장 유닛 및/또는 음성 데이터 관리 모듈은 통신 디바이스 자체내에 포함될 수도 있어서, 음성 데이터가 통신 디바이스내에서 로컬하게 저장 및/또는 업데이트될 수도 있다.

도 8을 참조하면, 본 발명의 일 실시예에 따른, 서버로부터 합성된 음성을 획득하도록 구성된 통신 디바이스와, 상기 서버를 포함하는 시스템이 예시되어 있다.

통신 디바이스(810)는 수신 모듈(811), 네트워크 인터페이스(812), 스피커(813), 또는 디스플레이(814)를 포함할 수 있다. 수신 모듈(811)은 메시지를 수신하고, 메시지에 포함된 텍스트 및 발신자 식별 정보를 네트워크 인터페이스(812)를 통해 서버(820)에 전송할 수 있다. 수신된 메시지에서의 텍스트는 디스플레이(814)상에 디스플레이될 수 있고, 네트워크 인터페이스(812)를 통해 서버(820)로부터 수신된 합성 음성은 스피커(813)를 통해 재생될 수 있다.

서버(820)는 통신 디바이스(810)와 통신하기 위한 그 자체의 네트워크 인터페이스(821)를 포함할 수 있다. 서버(820)는 음성 데이터 검색 모듈(822), 저장 유닛(823), 음성 합성 모듈(824), 및 음성 데이터 관리 모듈(825)을 더 포함할 수 있다. 텍스트 및 발신자 식별 정보가 네트워크 인터페이스(821)를 통해 수신될 때, 음성 데이터 검색 모듈(822)은 저장 유닛(823)으로부터 음성 데이터를 검색하고 음성 데이터를 사용하여 수신된 텍스트에 대해 음성 합성을 수행하는 음성 합성 모듈(824)에 음성 데이터를 전송할 수 있다.

또한, 서버(820)는 도 7을 참조하여 상술한 바와 유사한, 도 8에는 도시되지 않은 감정 분석 모듈을 포함할 수도 있다.

음성 데이터 관리 모듈(825)은 예를 들어, 도 2 또는 도 3에 도시된 바와 같은 방법을 사용하여, 저장 유닛(823)에 저장된 음성 데이터를 생성하고 업데이트할 수 있다. 다른 실시예들에서, 서버(820)의 기능은 복수의 서버들 사이에서 분할될 수도 있다. 예를 들어, 개별 음성 데이터 관리 서버들 및 음성 합성 서버들이 제공될 수도 있다.

본 발명의 실시예들은 수신된 메시지가 메시지를 전송한 발신자의 음성으로 변환될 수 있게 한다. 이것은 수신자가 메시지 발신자를 용이하게 식별할 수 있게 하고, 예를 들어, 수신자가 시각 장애가 있을 때, 또는 수신자가 모바일 전화상에서 핸즈프리 모드를 구동하거나 사용하고 스크린을 볼 수 없을 때 이용될 수도 있다. 또한, 합성된 음성에 감정을 포함함으로써, 메시지 컨텍스트가 또한 용이하게 이해될 수도 있다.

본 발명의 특정한 실시예들을 도면을 참조하여 여기에 설명하였지만, 다수의 변동물 및 변경물들이 첨부한 청구항들에서 정의된 바와 같은 본 발명의 범위를 벗어나지 않고 가능하다는 것이 이해될 것이다.

Claims

텍스트-음성(TTS) 변환 방법에 있어서,
텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신하는 동작;
상기 발신자 식별 정보에 의해 식별된 발신자에 대응하는 저장된 음성 데이터를 검색하는 동작; 및
상기 검색된 음성 데이터에 기초하여 상기 메시지에 포함된 상기 텍스트로부터 음성을 합성하는 동작을 포함함을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
전화 통화 동안 상기 발신자에 의해 송신된 제 1 음성 신호를 획득하는 동작;
자동 음성 인식 방법을 사용하여, 상기 제 1 음성 신호에 포함된 음성의 구문 표현을 획득하는 동작; 및
상기 제 1 음성 신호 및 상기 획득된 구문 표현을 사용하여 상기 저장된 음성 데이터를 업데이트하는 동작을 더 포함함을 특징으로 하는 텍스트-음성 변환 방법.
제 2 항에 있어서,
복수의 제 1 음성 신호들이 상기 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 통화들로부터 획득되고, 상기 구문 표현을 획득하는 단계를 포함하고,
상기 저장된 음성 데이터를 업데이트하는 동작은, 상기 복수의 제 1 음성 신호들 각각에 대해 수행되는 것임을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
상기 발신자에게 소정의 텍스트를 제공하는 동작;
상기 발신자가 상기 소정의 텍스트를 스피킹하는 동안 제 2 음성 신호를 획득하는 동작; 및
상기 제 2 음성 신호 및 상기 소정의 텍스트를 사용하여 상기 저장된 음성 데이터를 업데이트하는 동작을 더 포함함을 특징으로 하는 텍스트-음성 변환 방법.
제 4항에 있어서,
상기 저장된 음성 데이터를 업데이트한 이후에 상기 제 1 또는 제 2 음성 신호 중 적어도 하나의 음성 신호를 삭제하는 동작을 더 포함함을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
상기 음성 데이터는, 통계적 음향 모델을 포함하고,
상기 음성은, 통계적 파라메트릭 음성 합성 방법을 사용하여 합성되는 것을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
상기 메시지에 포함된 상기 텍스트로부터 감정을 결정하는 동작을 더 포함하고,
상기 음성은 상기 결정된 감정에 따라 합성되는 것을 특징으로 하는 텍스트-음성 변환 방법.
제 7 항에 있어서,
상기 감정은, 상기 텍스트에 포함된 이모티콘을 검출하고 상기 검출된 이모티콘에 대응하는 감정을 식별하는 동작 또는 자연 언어 처리 방법을 사용하여 상기 텍스트를 분석하는 동작 중 적어도 하나의 동작을 수행함으로써 결정되는 것을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
상기 발신자 식별 정보는, 전화 번호, 이메일 주소, 또는 발신자명 중 적어도 하나를 포함하며, 상기 메시지는 단문 메시지 서비스(SMS) 메시지, 이메일, 인스턴트 메시징(IM) 메시지, 또는 소셜 네트워킹 서비스(SNS) 메시지를 포함함을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
상기 메시지는, 통신 디바이스에 의해 수신되고,
상기 음성 합성은, 상기 통신 디바이스와 통신하도록 구성된 서버에 의해 수행되고,
상기 방법은,
상기 통신 디바이스가 상기 합성된 음성을 상기 서버로부터 수신하는 동작; 및
상기 통신 디바이스가 상기 합성된 음성을 재생하는 동작을 더 포함함을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항에 있어서,
상기 메시지는, 통신 디바이스에 의해 수신되고,
상기 음성 데이터를 검색하는 동작 및 상기 음성을 합성하는 동작은, 상기 통신 디바이스에 의해 수행되는 것을 특징으로 하는 텍스트-음성 변환 방법.
제 1 항 내지 제 11 항 중 어느 한 항에 따른 텍스트-음성 변환 방법을 수행하는 컴퓨터 프로그램을 저장하도록 구성된 컴퓨터 판독가능한 저장 매체.
텍스트-음성 변환 장치에 있어서,
텍스트 및 발신자 식별 정보를 포함하는 메시지를 수신하도록 구성된 수신 모듈;
상기 발신자 식별 정보에 의해 식별된 발신자에 대응하는 음성 데이터를 저장 유닛으로부터 검색하도록 구성된 음성 데이터 검색 모듈; 및
상기 검색된 음성 데이터에 기초하여 상기 메시지에 포함된 상기 텍스트로부터 음성을 합성하도록 구성된 음성 합성 모듈을 포함함을 특징으로 하는 텍스트-음성 변환 장치.
제13항에 있어서, 전화 대화 동안 상기 발신자에 의해 송신된 제 1 음성 신호를 획득하고, 자동 음성 인식 방법을 사용하여 상기 제 1 음성 신호에 포함된 음성의 구문 표현을 획득하며, 상기 제 1 음성 신호 및 상기 획득된 구문 표현을 사용하여 저장된 음성 데이터를 업데이트하도록 구성된 음성 데이터 관리 모듈을 더 포함함을 특징으로 하는 텍스트-음성 변환 장치.
제 14 항에 있어서, 상기 음성 데이터 관리 모듈은,
상기 발신자와 하나 이상의 다른 발신자들 사이의 복수의 전화 대화들로부터 복수의 제 1 음성 신호들을 획득하고, 상기 복수의 제 1 음성 신호들 각각에 대해 구문 표현을 획득하고 상기 저장된 음성 데이터를 업데이트하도록 구성되는 텍스트-음성 변환 장치.
제 13 항에 있어서, 상기 발신자에게는 소정의 텍스트가 제공되며,
상기 음성 데이터 관리 모듈은,
상기 발신자가 상기 소정의 텍스트를 스피킹하는 동안 제 2 음성 신호를 획득하며; 상기 제 2 음성 신호 및 상기 소정의 텍스트를 사용하여 상기 저장된 음성 데이터를 업데이트하도록 구성되는 텍스트-음성 변환 장치.
제 16 항에 있어서, 상기 음성 데이터 관리 모듈은,
상기 저장된 음성 데이터를 업데이트한 이후에 상기 제 1 또는 제 2 음성 신호 중 적어도 하나를 삭제하도록 더 구성되는 텍스트-음성 변환 장치.
제 13 항에 있어서, 상기 음성 데이터는,
통계적 음향 모델을 포함하고,
상기 음성 합성 모듈은,
통계적 파라메트릭 음성 합성 방법을 사용하여 상기 음성을 합성하도록 구성되는 텍스트-음성 변환 장치.
제 13 항에 있어서, 상기 메시지에 포함된 상기 텍스트로부터 감정을 결정하도록 구성된 감정 분석 모듈을 더 포함하고,
상기 음성 합성 모듈은,
상기 결정된 감정에 따라 상기 음성을 합성하도록 구성되는 텍스트-음성 변환 장치.
제 19 항에 있어서, 상기 감정 분석 모듈은,
상기 텍스트에 포함된 이모티콘을 검출하고 상기 검출된 이모티콘에 대응하는 감정을 식별하는 동작, 또는 자연 언어 처리 방법을 사용하여 상기 텍스트를 분석하는 동작 중 적어도 하나의 동작을 수행함으로써 상기 감정을 결정하도록 구성되는 텍스트-음성 변환 장치.
제 13 항에 있어서, 상기 발신자 식별 정보는,
전화 번호, 이메일 주소, 또는 발신자명 중 적어도 하나를 포함하며, 상기 메시지는 단문 메시지 서비스(SMS) 메시지, 이메일, 인스턴트 메시징(IM) 메시지, 또는 소셜 네트워킹 서비스(SNS) 메시지를 포함함을 특징으로 하는 텍스트-음성 변환 장치.
제 13 항에 있어서, 상기 수신 모듈은, 통신 디바이스에 포함되고,
상기 음성 합성 모듈은, 서버에 포함되고,
상기 통신 디바이스는, 상기 서버와 통신하도록 구성되고, 상기 서버로부터 상기 합성된 음성을 수신하하며, 상기 합성된 음성을 재생하도록 구성되는 텍스트-음성 변환 장치.
제 13 항 내지 제 21 항 중 어느 한 항에 있어서, 상기 수신 모듈, 상기 음성 데이터 검색 모듈, 및 상기 음성 합성 모듈은,
통신 디바이스에 포함되는 텍스트-음성 변환 장치.