KR20110021944A

KR20110021944A - 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법

Info

Publication number: KR20110021944A
Application number: KR1020107029074A
Authority: KR
Inventors: 노리코 미즈구치
Original assignee: 가부시키가이샤 엔.티.티.도코모
Priority date: 2008-07-11
Filing date: 2009-07-07
Publication date: 2011-03-04
Also published as: EP2306450A4; CN102089804A; EP2306450A1; CN102089804B; WO2010004978A1; JP2010020166A; US20110144997A1

Abstract

본 발명은 사용자의 음성을 바람직하게 취득할 수 있는 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법을 제공한다. 음성 합성 모델 생성 시스템(1)은, 이동 통신 단말기(2)와, 음성 합성 모델 생성 장치(3)를 포함하여 구성되어 있다. 이동 통신 단말기(2)는, 입력된 음성으로부터 음성의 특징량을 추출하는 특징량 추출부(201), 및 음성으로부터 텍스트 데이터를 취득하는 텍스트 데이터 취득부(202)를 구비하고 있다. 음성 합성 모델(3)은, 학습 정보 취득부(200)에 의해 취득된 특징량 및 텍스트 데이터에 기초하여 음성 합성 모델을 생성하는 음성 합성 모델 생성부(301)와, 특징량 및 텍스트 데이터에 기초한 파라미터에 기초하여 화상 정보를 생성하는 화상 정보 생성부(307)와, 화상 정보를 이동 통신 단말기(2)에 송신하는 정보 출력부(309)를 구비하고 있다.

Description

음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법{VOICE SYNTHESIS MODEL GENERATION DEVICE, VOICE SYNTHESIS MODEL GENERATION SYSTEM, COMMUNICATION TERMINAL DEVICE AND METHOD FOR GENERATING VOICE SYNTHESIS MODEL}

본 발명은, 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법에 관한 것이다.

종래부터, 음성 합성 모델을 생성하는 기술이 알려져 있다. 음성 합성 모델은, 입력된 텍스트(문자열)에 대응하는 음성 데이터를 작성하기 위해 사용되는 정보이다. 음성 합성 모델을 사용한 음성 합성의 방법으로서는, 예를 들면, 특허 문헌 1에 기재되어 있는 바와 같이, 입력된 문자열을 해석하고, 음성 합성 모델을 참조하여, 텍스트에 대응하는 음성 데이터를 조합함으로써 음성 데이터를 작성하는 것이 있다.

일본 특허 출원 공개 번호 2003-295880호 공보

그런데, 음성 합성 모델의 생성에 있어서는, 미리 임의의 대상자(사용자)의 음성 데이터를 수집할 필요가 있다. 이 데이터의 수집에는, 예를 들면, 스튜디오를 준비하여 임의의 대상자가 장시간(수 시간∼수십 시간)에 걸쳐서 음성을 녹음할 필요가 있었다. 이 때, 장시간에 걸쳐서 사용자가 음성을, 예를 들면, 시나리오에 따라 단지 입력(녹음)하는 행위는, 음성을 입력하고자 하는 사용자의 모티베이션(motivation)을 저하시킬 우려가 있다.

본 발명은, 전술한 문제점을 해결하기 위해 이루어진 것이며, 사용자의 음성을 바람직하게 취득할 수 있는 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 모델 생성 방법을 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위하여, 본 발명에 따른 음성 합성 모델 생성 장치는, 사용자의 음성의 특징량 및 음성에 대응하는 텍스트 데이터를 취득하는 학습 정보 취득 수단과, 학습 정보 취득 수단에 의해 취득된 특징량 및 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 수단과, 음성 합성 모델 생성 수단에 의해 생성된 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 수단과, 파라미터 생성 수단에 의해 생성된 파라미터에 따라, 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하는 화상 정보 생성 수단과, 화상 정보 생성 수단에 의해 생성된 화상 정보를 출력하는 화상 정보 출력 수단을 구비한 것을 특징으로 한다.

이 구성에 의해, 음성의 특징량 및 텍스트 데이터에 기초하여 음성 합성 모델을 생성하고, 이 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성한다. 그리고, 파라미터에 따라 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하고, 이 화상 정보를 출력한다. 이로써, 음성을 입력하는 사용자는, 음성 합성 모델의 학습 정도를 가시화된 화상으로서 인식할 수 있으므로, 음성을 입력한 것에 대한 달성감을 얻을 수 있어, 음성을 입력하고자 하는 사용자의 모티베이션이 향상된다. 그 결과, 사용자의 음성을 바람직하게 취득할 수 있다.

또한, 특징량을 취득하기 위하여, 사용자에게 음성을 입력시키기 위한 요구 정보를, 파라미터 생성 수단에 의해 생성된 파라미터에 기초하여 생성하여 출력하는 요구 정보 생성 수단을 더 구비하는 것이 바람직하다. 이 구성에 의해, 사용자로부터 입력되는 음성이 음성 합성 모델을 생성하기 위한 학습에 대하여 적절한 것으로 된다.

또한, 학습 정보 취득 수단에 의해 취득된 텍스트 데이터로부터 단어를 추출하는 단어 추출 수단을 더 구비하고, 파라미터 생성 수단은, 단어 추출 수단에 의해 추출된 단어의 누적 단어수에 따라, 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 것이 바람직하다. 이 구성에 의해, 누적 단어수에 따라 파라미터가 생성되므로, 사용자는, 파라미터에 기초하여 생성되는 화상 정보를 봄으로써, 단어수가 증가하고 있다는 것을 인식할 수 있다. 이로써, 음성을 입력한 것에 대한 달성감을 더욱 얻을 수 있다. 그 결과, 사용자의 음성을 더욱 바람직하게 취득할 수 있다.

또한, 화상 정보는 캐릭터 화상을 표시하게 하기 위한 정보인 것이 바람직하다. 이 구성에 의해, 사용자에게 출력되는 캐릭터 화상이 파라미터에 따라, 예를 들면 커지는 것처럼 변화하므로, 예를 들면, 수치 등이 화상으로 표시되는 경우보다, 사용자에 대하여 시각적으로 호감을 줄 수 있다. 이로써, 사용자는 달성감을 더욱 얻을 수 있어, 음성을 입력하고자 하는 사용자의 모티베이션이 더 한층 향상된다. 그 결과, 사용자의 음성을 더욱 바람직하게 취득할 수 있다.

또한, 음성 합성 모델 생성 수단은, 사용자마다 음성 합성 모델을 생성하는 것이 바람직하다. 이 구성에 의해, 사용자마다 대응하는 음성 합성 모델을 생성할 수 있어, 음성 합성 모델을 각 개인이 이용할 수 있게 된다.

또한, 음성 특징량은, 음성을 음성 단위로 라벨링(labelling)한 문맥 데이터(context data) 및 음성의 특징을 나타내는 음성 파형에 대한 데이터인 것이 바람직하다. 이 구성에 의해, 음성 합성 모델을 확실하게 생성할 수 있다.

전술한 목적을 달성하기 위하여, 본 발명에 따른 음성 합성 모델 생성 시스템은, 통신 기능을 가지는 통신 단말기와, 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치를 포함하여 구성되는 음성 합성 모델 생성 시스템으로서, 통신 단말기는, 사용자의 음성을 입력하는 음성 입력 수단과, 음성 입력 수단에 의해 입력된 음성 또는 음성의 특징량으로 이루어지는 음성 정보 및 음성에 대응하는 텍스트 데이터를 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 수단과, 음성 정보 송신 수단으로부터 음성 정보 및 텍스트 데이터를 송신한 것에 따라 음성 합성 모델 생성 장치로부터 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 수단과, 화상 정보 수신 수단에 의해 수신된 화상 정보를 표시하는 표시 수단을 구비하고, 음성 합성 모델 생성 장치는, 통신 단말기로부터 송신되는 음성 정보를 수신함으로써 음성의 특징량을 취득하고, 또한 통신 단말기로부터 송신되는 텍스트 데이터를 수신함으로써 취득하는 학습 정보 취득 수단과, 학습 정보 취득 수단에 의해 취득된 특징량 및 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 수단과, 음성 합성 모델 생성 수단에 의해 생성된 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 수단과, 파라미터 생성 수단에 의해 생성된 파라미터에 따라, 화상 정보를 생성하는 화상 정보 생성 수단과, 화상 정보 생성 수단에 의해 생성된 화상 정보를 통신 단말기에 송신하는 화상 정보 출력 수단을 구비한 것을 특징으로 한다.

이 구성에 의해, 음성의 취득이 통신 단말기에서 이루어지고, 그 음성 또는 음성의 특징량으로 이루어지는 음성 정보 및 음성에 대응하는 텍스트 데이터가 음성 합성 모델 생성 장치에서 수신되면, 특징량 및 텍스트 데이터에 기초하여 음성 합성 모델이 생성된다. 그리고, 음성 합성 모델의 학습 정도를 나타내는 파라미터가 생성되고, 이 파라미터에 따라 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보가 생성되어 음성 합성 모델 생성 장치로부터 통신 단말기로 송신된다. 이로써, 음성 합성 모델의 학습 정도를 가시화된 화상으로서 인식할 수 있으므로, 음성을 입력한 것에 대한 달성감을 얻을 수 있어, 음성을 입력하고자 하는 사용자의 모티베이션이 향상된다. 그 결과, 사용자의 음성을 바람직하게 취득할 수 있다. 또한, 통신 단말기로 음성이 취득되므로, 스튜디오 등의 설비를 필요로 하지 않아, 간편하게 음성을 취득할 수 있다.

또한, 통신 단말기는, 음성 입력 수단에 의해 입력된 음성으로부터 음성의 특징량을 추출하는 특징량 추출 수단을 더 구비하는 것이 바람직하다. 통신 단말기로부터 송신되는 음성은, codec(코덱)이나 통신로에 의해 열화되는 경우가 있고, 그 음성으로부터 음성 합성 모델을 생성하면 음성 합성 모델의 품질이 저하될 우려가 있다. 그러나, 전술한 구성에 의해, 음성 합성 모델을 생성하는데 필요한 특징량이 통신 단말기에 의해 추출되고, 그 특징량이 보내지게 되므로, 정밀도가 높은 음성 합성 모델을 생성할 수 있다.

또한, 음성 입력 수단에 의해 입력된 음성으로부터 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 수단을 더 구비하는 것이 바람직하다. 이 구성에 의해, 음성에 대응하는 텍스트 데이터를 사용자가 입력할 필요가 없기 때문에, 사용자의 수고를 덜 수 있다.

그런데, 본 발명은, 전술한 바와 같이 음성 합성 모델 생성 시스템의 발명으로서 기술할 수 있는 것 외에, 다음과 같이 음성 합성 모델 생성 시스템에 포함되는 통신 단말기의 발명으로서도 기술할 수 있다. 음성 합성 모델 생성 시스템에 포함되는 이 통신 단말기도 신규의 구성을 가지고 있고, 이것도 본 발명에 해당하는 것이다. 그러므로, 음성 합성 모델 생성 시스템과 마찬가지의 작용 및 효과를 얻을 수 있다.

즉, 본 발명에 따른 통신 단말기는, 통신 기능을 가지는 통신 단말기로서, 사용자의 음성을 입력하는 음성 입력 수단과, 음성 입력 수단에 의해 입력된 음성으로부터 음성의 특징량을 추출하는 특징량 추출 수단과, 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 수단과, 특징량 추출 수단에 의해 추출된 음성의 특징량, 및 텍스트 데이터 취득 수단에 의해 취득된 텍스트 데이터를, 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 수단과, 학습 정보 송신 수단으로부터 특징량 및 텍스트 데이터를 송신한 것에 따라, 음성 합성 모델 생성 장치로부터 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 수단과, 화상 정보 수신 수단에 의해 수신된 화상 정보를 표시하는 표시 수단을 구비한 것을 특징으로 한다.

또한, 본 발명은, 전술한 바와 같이 음성 합성 장치, 및 음성 합성 모델 생성 시스템, 통신 단말기의 발명으로서 기술할 수 있는 것 외에, 다음과 같이 음성 합성 모델 생성 방법의 발명으로서도 기술할 수 있다. 이는 카테고리가 상이할 뿐이며, 실질적으로 동일한 발명이며, 마찬가지의 작용 및 효과를 얻을 수 있다.

즉, 본 발명에 따른 음성 합성 모델 생성 방법은, 사용자의 음성의 특징량 및 음성에 대응하는 텍스트 데이터를 취득하는 학습 정보 취득 단계와, 학습 정보 취득 단계에 있어서 취득된 특징량 및 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 단계와, 음성 합성 모델 생성 단계에 있어서 생성된 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 단계와, 파라미터 생성 단계에 있어서 생성된 파라미터에 따라, 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하는 화상 정보 생성 단계와, 화상 정보 생성 단계에 있어서 생성된 화상 정보를 출력하는 화상 정보 출력 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 음성 합성 모델 생성 방법은, 통신 기능을 가지는 통신 단말기와, 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치를 포함하여 구성되는 음성 합성 모델 생성 시스템에 의한 음성 합성 모델 생성 방법으로서, 통신 단말기가, 사용자의 음성을 입력하는 음성 입력 단계와, 음성 입력 단계에 있어서 입력된 음성 또는 음성의 특징량으로 이루어지는 음성 정보 및 음성에 대응하는 텍스트 데이터를 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 단계와, 음성 정보 송신 단계에 있어서 음성 정보 및 텍스트 데이터를 송신한 것에 따라, 음성 합성 모델 생성 장치로부터 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 단계와, 화상 정보 수신 단계에 있어서 수신된 화상 정보를 표시하는 표시 단계를 포함하고, 음성 합성 모델 생성 장치가, 통신 단말기로부터 송신되는 음성 정보를 수신함으로써 음성의 특징량을 취득하고, 또한 통신 단말기로부터 송신되는 텍스트 데이터를 수신함으로써 취득하는 학습 정보 취득 단계와, 학습 정보 취득 단계에 있어서 취득된 특징량 및 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 단계와, 음성 합성 모델 생성 단계에 있어서 생성된 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 단계와, 파라미터 생성 단계에 있어서 생성된 파라미터에 따라 화상 정보를 생성하는 화상 정보 생성 단계와, 화상 정보 생성 단계에 있어서 생성된 화상 정보를 통신 단말기에 송신하는 화상 정보 출력 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 음성 합성 모델 생성 방법은, 통신 기능을 가지는 통신 단말기에 의한 음성 합성 모델 생성 방법으로서, 사용자의 음성을 입력하는 음성 입력 단계와, 음성 입력 단계에 있어서 입력된 음성으로부터 음성의 특징량을 추출하는 특징량 추출 단계와, 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 단계와, 특징량 추출 단계에 있어서 추출된 음성의 특징량, 및 텍스트 데이터 취득 단계에 있어서 취득된 텍스트 데이터를, 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 단계와, 학습 정보 송신 단계에 있어서 특징량 및 텍스트 데이터를 송신한 것에 따라, 음성 합성 모델 생성 장치로부터 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 단계와, 화상 정보 수신 단계에 있어서 수신된 화상 정보를 표시하는 표시 단계를 포함하는 것을 특징으로 한다.

본 발명에 의하면, 사용자가 입력한 음성에 의해 생성된 음성 합성 모델의 학습 정도를 가시화해 인식할 수 있으므로, 장시간에 걸쳐서 사용자가 음성을 입력하기만 하는 행위에 의한 사용자의 음성 입력에 대한 모티베이션의 저하를 방지하여, 사용자의 음성을 바람직하게 취득할 수 있다.

도 1은 본 발명의 일실시예에 따른 음성 합성 모델 생성 시스템의 구성을 나타낸 도면이다.
도 2는 이동 통신 단말기의 하드웨어 구성을 나타낸 도면이다.
도 3은 음성 합성 모델 생성 장치의 하드웨어 구성을 나타낸 도면이다.
도 4는 디스플레이에 화상 정보 및 요구 정보가 표시된 일례를 나타낸 도면이다.
도 5는 단어 데이터가 유지되어 있는 테이블의 일례를 나타낸 도면이다.
도 6은 파라미터와 화상의 변화도를 나타내는 레벨이 대응하고 있는 테이블의 일례를 나타낸 도면이다.
도 7은 화상의 변화도를 나타내는 레벨에 따라 이동 통신 단말기의 디스플레이에 표시되는 캐릭터 화상이 변화하는 일례를 나타낸다.
도 8은 이동 통신 단말기와 음성 합성 모델 생성 장치의 처리를 나타낸 시퀀스도이다.

이하, 도면과 함께 본 발명에 따른 음성 합성 모델 생성 장치, 음성 합성 모델 생성 시스템, 통신 단말기, 및 음성 합성 생성 방법의 바람직한 실시예에 대하여 상세하게 설명한다. 그리고, 도면의 설명에 있어서는 동일 요소에는 동일 부호를 부여하고, 중복되는 설명을 생략한다.

도 1에 본 발명의 일실시예에 따른 음성 합성 모델 생성 시스템의 구성을 나타낸다. 도 1에 나타낸 바와 같이, 음성 합성 모델 생성 시스템(1)은, 이동 통신 단말기(통신 단말기)(2)와, 음성 합성 모델 생성 장치(3)를 포함하여 구성되어 있다. 이동 통신 단말기(2)와 음성 합성 모델 생성 장치(3)는, 이동체 통신에 의해 서로 정보를 송수신할 수 있다. 도 1에는, 이동 통신 단말기(2)가 1개밖에 나타나 있지 않지만, 음성 합성 모델 생성 시스템(1)에는, 통상적으로, 많은 이동 통신 단말기(2)가 포함되어 있다. 또한, 음성 합성 모델 생성 장치(3)는, 1대의 장치에 의해 구성되어도 되고, 복수의 장치에 의해 구성되어도 된다.

음성 합성 모델 생성 시스템(1)은, 음성 합성 모델을 이동 통신 단말기(2)의 사용자에 대하여 생성할 수 있는 시스템이다. 음성 합성 모델은, 입력된 텍스트에 대응하는 사용자의 음성 데이터를 작성하기 위해 사용되는 정보이다. 음성 합성 모델을 이용하여 합성된 음성 데이터는, 예를 들면, 이동 통신 단말기(2)에 있어서의 메일을 읽을 때, 부재중의 메시지 재생 시, 및 블로그나 WEB 상에서 이용할 수 있는 것이다.

이동 통신 단말기(2)는, 예를 들면, 휴대전화기이며, 자기(自機)가 재권(在圈)하는 무선 영역을 커버하는 기지국과 무선 통신을 행하고, 사용자의 조작에 따라, 통화 서비스 또는 패킷 통신 서비스를 받는 통신 단말기이다. 또한, 이동 통신 단말기(2)는, 패킷 통신 서비스를 이용한 응용프로그램을 이용할 수 있고, 응용프로그램은, 음성 합성 모델 생성 장치(3)로부터 송신되는 데이터에 의해 갱신된다. 응용프로그램의 관리는, 음성 합성 모델 생성 장치(3)가 아니라, 별도로 설치된 장치에 의해 행해질 수도 있다. 그리고, 본 실시예에 있어서의 응용프로그램은, 화면 표시를 행하고, 예를 들면, 사용자의 음성에 의해 커맨드 입력할 수 있는 육성계(育成系)의 게임이다. 보다 구체적으로는, 사용자의 음성의 입력에 의해 응용프로그램에 의해 표시되는 캐릭터가 육성되는(캐릭터의 외관 등이 변화하는) 것이다.

음성 합성 모델 생성 장치(3)는, 이동 통신 단말기(2)로부터 송신되는 사용자의 음성에 관한 정보에 기초하여 음성 합성 모델을 생성하는 장치이다. 음성 합성 모델 생성 장치(3)는, 이동체 통신망에 있으며, 음성 합성 모델 생성의 서비스를 제공하는 서비스 사업자에 의해 관리되고 있다.

도 2는, 이동 통신 단말기(2)의 하드웨어 구성을 나타낸 도면이다. 도 2에 나타낸 바와 같이, 이동 통신 단말기(2)는, CPU(Central Processing Unit)(21), RAM(Random Access Memory)(22), ROM(Read Only Memory)(23), 조작부(24), 마이크(25), 무선 통신부(26), 디스플레이(27), 스피커(28) 및 안테나(29) 등의 하드웨어에 의해 구성되어 있다. 이들 구성 요소가 동작함으로써, 이하에 설명하는 이동 통신 단말기(2)의 각 기능이 발휘된다.

도 3은, 음성 합성 모델 생성 장치(3)의 하드웨어 구성을 나타낸 도면이다. 도 3에 나타낸 바와 같이, 음성 합성 모델 생성 장치(3)는, CPU(31), 주기억장치인 RAM(32) 및 ROM(33), 네트워크 카드 등의 데이터 송수신 디바이스인 통신 모듈(34), 하드 디스크 등의 보조 기억 장치(35), 키보드 등의 음성 합성 모델 생성 장치(3)에 대하여 정보를 입력하기 위한 입력 장치(36), 및 모니터 등의 정보를 출력하기 위한 출력 장치(37) 등의 하드웨어를 구비하는 컴퓨터로서 구성된다. 이들 구성 요소가 동작함으로써, 음성 합성 모델 생성 장치(3)의 후술하는 기능이 발휘된다.

계속하여, 이동 통신 단말기(2) 및 음성 합성 모델 생성 장치(3)의 기능에 대하여 설명한다.

도 1을 참조하여, 이동 통신 단말기(2)에 대하여 설명한다. 도 1에 나타낸 바와 같이, 이동 통신 단말기(2)는, 음성 입력부(200)와, 특징량 추출부(201)와, 텍스트 데이터 취득부(202)와, 학습 정보 송신부(203)와, 수신부(204)와, 표시부(205)와, 음성 합성 모델 유지부(206)와, 음성 합성부(207)를 구비하고 있다.

음성 입력부(200)는, 마이크(25)이며, 사용자의 음성을 입력하는 음성 입력 수단이다. 음성 입력부(200)는, 예를 들면, 전술한 응용프로그램으로의 커맨드 입력으로서 사용자의 음성을 입력한다. 음성 입력부(200)는, 입력된 음성을 필터에 통해 노이즈(잡음)를 제거하고, 사용자로부터 입력된 음성을 음성 데이터로서 특징량 추출부(201) 및 텍스트 데이터 취득부(202)로 출력한다.

특징량 추출부(201)는, 음성 입력부(200)로부터 수취한 음성 데이터로부터, 음성의 특징량을 추출한다. 음성의 특징량은, 음성의 높낮이, 스피드, 엑센트 등의 음질을 수치화한 것이며, 구체적으로는, 예를 들면, 음성을 음성 단위로 라벨링한 문맥 데이터 및 음성의 특징을 나타내는 음성 파형에 관한 데이터이다. 문맥 데이터는, 음성 데이터가 음소(音素) 등의 음성 단위로 분할(라벨링)된 문맥 라벨(음소열)이다. 음성 단위란, 「음소」, 「단어」, 「문절」 등 음성이 소정의 규칙에 따라 구획된 것이다. 문맥 라벨의 요인으로서 구체적으로는, 선행(先行), 해당, 후속의 음소, 상기 음소의 엑센트구 내에서의 모라(mora) 위치, 선행, 해당, 후속의 품사·활용형(活用形)·활용형(活用型), 선행, 해당, 후속의 엑센트구의 위치·전후의 포즈(pause)의 유무, 선행, 해당, 후속의 호기(呼氣) 단락의 길이, 상기 호기 단락의 위치, 문장의 길이 등이다. 음성 파형에 관한 데이터는, 대수(對數) 기본 주파수 및 멜켑스트럼(mel-cepstrum)이다. 대수 기본 주파수는, 음성의 높이를 나타내는 것이며, 음성 데이터로부터 기본 주파수 파라미터를 추출함으로써 추출된다. 멜켑스트럼은, 음성의 음질을 나타내는 것이며, 음성 데이터를 멜켑스트럼 분석함으로써 추출된다. 특징량 추출부(201)는, 추출된 특징량을 학습 정보 송신부(203)에 출력한다.

텍스트 데이터 취득부(202)는, 음성 입력부(200)로부터 수취한 음성 데이터로부터, 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 수단이다. 텍스트 데이터 취득부(202)는, 입력된 음성 데이터를 해석(음성 인식)함으로써, 사용자로부터 입력된 음성과 내용이 일치하는 텍스트 데이터(문자열)를 취득한다. 텍스트 데이터 취득부(202)는, 취득된 텍스트 데이터를 학습 정보 송신부(203)에 출력한다. 그리고, 텍스트 데이터는, 특징량 추출부(201)에 의해 추출된 음성의 특징량으로부터 취득되어도 된다.

학습 정보 송신부(203)는, 특징량 추출부(201)로부터 수취한 특징량 및 텍스트 데이터 취득부(202)로부터 수취한 텍스트 데이터를, 음성 합성 모델 생성 장치(3)에 송신하는 학습 정보 송신 수단이다. 학습 정보 송신부(203)는, XML over HTTP, SIP 등에 의해 특징량 및 텍스트 데이터를 음성 합성 모델 생성 장치(3)에 송신한다. 이 때, 이동 통신 단말기(2)와 음성 합성 모델 생성 장치(3)와의 사이에서는, 예를 들면, SIP나 IMS를 사용한 사용자 인증이 행해진다.

수신부(204)는, 학습 정보 송신부(203)에 의해 음성 합성 모델 생성 장치(3)에 특징량 및 텍스트 데이터를 송신한 것에 따라, 음성 합성 모델 생성 장치(3)로부터 화상 정보, 요구 정보 및 음성 합성 모델을 수신하는 수신 수단(화상 정보 수신 수단)이다. 화상 정보는, 사용자에 대하여 화상을 디스플레이(27)에 표시하기 위한 정보이다. 요구 정보는, 예를 들면, 사용자에게 음성의 입력을 재촉하는 정보 또는 입력시키는 문장이나 말 등의 정보이며, 요구 정보에 대응하는 화상(텍스트)이 디스플레이(27)에 표시된다. 화상 정보 및 요구 정보는, 전술한 응용프로그램에 의해 이용되어 출력된다. 또한, 요구 정보에 대응하는 음성 데이터가 스피커(28)로부터 출력되어도 된다. 수신부(204)는, 수신한 화상 정보 및 요구 정보를 표시부(205)에 출력하고, 또한 음성 합성 모델을 음성 합성 모델 유지부(206)로 출력한다.

표시부(205)는, 수신부(204)로부터 수취한 화상 정보 및 요구 정보를 표시하는 표시 수단이다. 표시부(205)는, 응용프로그램이 기동될 경우, 화상 정보 및 요구 정보를 이동 통신 단말기(2)의 디스플레이(27)에 표시한다. 도 4는, 디스플레이(27)에 화상 정보 및 요구 정보가 표시된 일례를 나타낸 도면이다. 상기 도면에 나타낸 바와 같이, 화상 정보는, 캐릭터 C의 화상으로서 디스플레이(27)의 상측에 표시되고, 요구 정보는, 사용자에게 음성의 입력을 요구하는 메시지로서, 예를 들면, 3개의 선택 항목 S1∼S3가 표시된다. 사용자는, 디스플레이(27)에 표시된 선택 항목 S1∼S3 중 어느 하나를 발성(發聲)하고, 그 발성된 음성이 음성 입력부(200)에 의해 입력된다.

음성 합성 모델 유지부(206)는, 수신부(204)로부터 수취한 음성 합성 모델을 유지한다. 음성 합성 모델 유지부(206)는, 수신부(204)로부터 음성 합성 모델에 관한 정보를 받으면, 기존의 음성 합성 모델에 대한 갱신 처리를 행한다.

음성 합성부(207)는, 음성 합성 모델 유지부(206)에 유지되어 있는 음성 합성 모델을 참조하여, 음성 데이터를 합성한다. 음성 데이터를 합성하는 방법은, 종래부터 알려져 있는 방법이 사용된다. 구체적으로, 예를 들면, 음성 합성부(207)는, 이동 통신 단말기(2)의 조작부(24)(키보드)에 의해서도 텍스트(문자열)가 입력되고, 사용자로부터 합성 지시가 있으면, 음성 합성 모델 유지부(206)를 참조하여, 유지되어 있는 음성 합성 모델로부터 입력된 텍스트의 음소열(문맥 라벨)에 대응하는 음향적 특징량(대수 기본 주파수 및 멜켑스트럼)을 확률적으로 예측하여, 입력된 텍스트에 대응하는 음성 데이터를 합성하여 생성한다. 음성 합성부(207)는, 합성된 음성 데이터를, 예를 들면, 스피커(28)에 출력한다. 그리고, 음성 합성부(207)에서 생성된 음성 데이터는, 응용프로그램에도 사용된다.

이어서, 음성 합성 모델 생성 장치(3)에 대하여 설명한다. 도 1에 나타낸 바와 같이, 음성 합성 모델 생성 장치(3)는, 학습 정보 취득부(300)와, 음성 합성 모델 생성부(301)와, 모델 데이터베이스(302)와, 통계 모델 데이터베이스(303)와, 단어 추출부(304)와, 단어 데이터베이스(305)와, 파라미터 생성부(306)와, 화상 정보 생성부(307)와, 요구 정보 생성부(308)와, 정보 출력부(309)를 구비하고 있다.

학습 정보 취득부(300)는, 특징량 및 텍스트 데이터를 이동 통신 단말기(2)로부터 수신함으로써 취득하는 학습 정보 취득 수단이다. 학습 정보 취득부(300)는, 이동 통신 단말기(2)로부터 수신하여 취득한 특징량 및 텍스트 데이터를 음성 합성 모델 생성부(301)에 출력하고, 또한 텍스트 데이터를 단어 추출부(304)에 출력한다.

음성 합성 모델 생성부(301)는, 학습 정보 취득부(300)로부터 수취한 특징량 및 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 수단이다. 음성 합성 모델의 생성은, 종래부터 알려져 있는 방법에 따라 행해진다. 구체적으로, 예를 들면, 음성 합성 모델 생성부(301)는, 은닉 마르코프 모델(Hidden Markov Model: HMM)에 기초한 학습에 의해, 이동 통신 단말기(2)의 사용자마다 음성 합성 모델을 생성한다. 음성 합성 모델 생성부(301)는, 음소등의 음성의 단위(문맥 라벨)의 음향적 특징량(대수 기본 주파수, 멜켑스트럼)을 확률 모델의 일종인 은닉 마르코프 모델(HMM)을 사용하여 각각 모델화한다. 음성 합성 모델 생성부(301)는, 대수 기본 주파수 및 멜켑스트럼에 관하여 반복 학습을 행한다. 음성 합성 모델 생성부(301)는, 대수 기본 주파수 및 멜켑스트럼에 대하여 각각 생성된 모델에 기초하여, 음성의 리듬이나 템포를 나타내는 상태 계속 길이(음운 계속 길이)를 상태 분포(가우스 분포)로부터 결정하여, 모델화한다. 그리고, 음성 합성 모델 생성부(301)는, 대수 기본 주파수 및 멜켑스트럼의 은닉 마르코프 모델(HMM)과 상태 계속 길이의 모델을 합성하여 음성 합성 모델을 생성한다. 생성된 음성 합성 모델을 모델 데이터베이스(302) 및 통계 모델 데이터베이스(303)에 출력한다.

모델 데이터베이스(302)는, 음성 합성 모델 생성부(301)로부터 수취한 음성 합성 모델을 사용자마다 유지한다. 모델 데이터베이스(302)는, 음성 합성 모델 생성부(301)로부터 새로운 음성 합성 모델에 대한 정보를 수취하면, 기존의 음성 합성 모델에 대한 갱신 처리를 행한다.

통계 모델 데이터베이스(303)는, 음성 합성 모델 생성부(301)로부터 수취한 모든 이동 통신 단말기(2)의 사용자의 음성 합성 모델을 취합하여 유지한다. 통계 모델 데이터베이스(303)에 유지되는 음성 합성 모델에 관한 정보는, 예를 들면, 통계 모델 생성부에 의해 전체 사용자의 평균적인 모델이나 사용자의 연대별의 평균적인 모델을 생성하는 처리가 행해지고, 개개 사용자의 음성 합성 모델의 부족 모델을 보간하기 위해 사용된다.

단어 추출부(304)는, 학습 정보 취득부(300)로부터 수취한 텍스트 데이터로부터 단어를 추출하는 단어 추출 수단이다. 단어 추출부(304)는, 학습 정보 취득부(300)로부터 텍스트 데이터를 수취하면, 형태소 해석(morphological analysis) 등의 방법에 의해 단어를 특정하기 위한 단어 정보가 유지되어 있는 사전 데이터베이스(도시하지 않음)를 참조하여, 텍스트 데이터와 단어 정보와의 일치 정도에 기초하여, 텍스트 데이터로부터 단어를 추출한다. 단어는, 문장 구성의 최소 단위이며, 예를 들면, 「휴대」 등의 자립어와 「을」 등의 부속어를 포함하는 것이다. 단어 추출부(304)는, 추출한 단어를 나타내는 단어 데이터를 사용자마다 단어 데이터베이스(305)에 출력한다.

단어 데이터베이스(305)는, 단어 추출부(304)로부터 수취한 단어 데이터를 사용자마다 유지한다. 단어 데이터베이스(305)는, 도 5에 나타낸 바와 같은 테이블을 유지하고 있다. 도 5는, 단어 데이터가 유지되어 있는 테이블의 일례를 나타낸 도면이다. 도 5에 나타낸 바와 같이, 단어 데이터의 테이블에서는, 소정의 규칙에 따라 분할된 12개의 카테고리마다 수용된 「단어 데이터」와, 이 단어 데이터의 「단어수」를 대응시켜 유지하고 있다. 예를 들면, 카테고리 1에는, 「휴대」, 「음성」 등의 단어가 유지되어 있고, 카테고리별 누적 단어수는 50이다. 그리고, 단어가 수용되는 카테고리는, 스펙트럼부의 결정 트리, 기본 주파수의 결정 트리, 및 상태 계속 길이 모델의 결정 트리 등의 종래의 방법에 따라 결정된다.

파라미터 생성부(306)는, 단어 추출부(304)에 의해 추출된 단어가 유지되어 있는 단어 데이터베이스(305)의 누적 단어수에 따라, 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 수단이다. 상기의 학습 정도는, 음성 합성 모델이 얼마만큼 사용자의 음성을 재현할 수 있는 지를 나타내는 정도(음성 합성 모델의 정밀도)이다. 파라미터 생성부(306)는, 단어 데이터베이스(305)의 카테고리별의 단어수로부터 누적 단어수를 산출하고, 이 누적 단어수에 비례하는 음성 합성 모델의 학습 정도를 나타내는 파라미터를 사용자마다 생성한다. 파라미터는, 예를 들면 0, 1, …과 같이 수치로 표시되고, 수치가 커짐에 따라 학습 정도가 높은 것을 나타내고 있다. 누적 단어수에 따라 파라미터를 산출하는 것은, 카테고리별의 단어수의 증가가 음성 합성 모델의 정밀도의 향상에 직접 관계하고 있기 때문이다. 파라미터 생성부(306)는, 생성된 파라미터를 화상 정보 생성부(307) 및 요구 정보 생성부(308)에 출력한다. 그리고, 파라미터에는, 각 카테고리마다의 단어수를 특정 가능한 정보가 포함되어 있다. 또한, 음성 합성 모델의 정밀도는, 음성 데이터의 입력을 증가시킬수록 향상되고, 사용자 음성의 재현성도 높아지지만, 통계적으로 향상율이 정체(停滯)되는 정도의 음성 데이터를 최대수로 정의할 수도 있다.

화상 정보 생성부(307)는, 파라미터 생성부(306)으로부터 출력된 파라미터에 따라, 이동 통신 단말기(2)의 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하는 화상 정보 생성 수단이다. 화상 정보 생성부(307)는, 응용프로그램에 이용되는 캐릭터 화상을 표시하기 위한 화상 정보를 생성한다. 화상 정보 생성부(307)는, 도 6에 나타낸 바와 같은 테이블을 유지하고 있다. 도 6은, 파라미터와 화상의 변화도를 나타내는 레벨이 대응하고 있는 테이블의 일례를 나타낸 도면이다. 도 6에 나타낸 바와 같이, 파라미터가 「0」일 때는 레벨이 「1」이며, 파라미터 「3」일 때는 레벨이 「4」이다. 화상 정보 생성부(307)는, 화상의 변화도를 나타내는 레벨에 대응하는 화상 정보를 생성하고, 이 화상 정보를 정보 출력부(309)에 출력한다.

여기서, 도 7에, 화상의 변화도를 나타내는 레벨에 따라 이동 통신 단말기(2)의 디스플레이(27)에 표시되는 캐릭터 화상이 변화하는 일례를 나타낸다. 도 7의 (a)는, 레벨 1에 대응하는 캐릭터 화상 C1을 나타내며, (b)는, 레벨 3에 대응하는 캐릭터 화상 C2를 나타낸 도면이다. 도 7의 (a), (b)에 나타낸 바와 같이, 레벨 1에서는 캐릭터 화상 C1의 윤곽이 뚜렷하지 않은데 비해, 레벨 3에서는 캐릭터 화상 C2의 윤곽이 뚜렷하다. 이와 같이, 파라미터에 대응한 레벨에 따라, 캐릭터 화상이 성장(변화)하게 된다. 또한, 캐릭터 화상 C1, C2의 말풍선(speech bubble)에 표시된 말도, 레벨이 높아짐에 따라 유창하게 발성하도록 표시된다. 즉, 사용자의 음성에 의해 음성 합성 모델의 학습이 진행되면, 이에 따라 응용프로그램에 의해 표시되는 캐릭터도 성장해 간다.

요구 정보 생성부(308)는, 파라미터 생성부(306)에 의해 생성된 파라미터에 기초하여, 특징량을 취득하기 위하여, 사용자에게 음성을 입력시키기 위한 요구 정보를 생성하는 요구 정보 생성 수단이다. 요구 정보 생성부(308)는, 파라미터에 기초하여, 단어 데이터베이스에 유지되는 카테고리별의 단어수를 비교하여, 다른 카테고리보다 단어수가 적은 카테고리를 특정하여, 그 카테고리에 대응하는 단어를 산출한다. 구체적으로는, 도 5에 나타낸 바와 같이, 예를 들면, 카테고리 「6」이 다른 카테고리보다 유지되어 있는 단어수가 적은 경우에, 요구 정보 생성부(308)는, 카테고리 「6」에 대응하는 단어를 복수개 산출한다. 그리고, 요구 정보 생성부(308)는, 산출된 단어를 나타내는 요구 정보를 생성하여, 정보 출력부(309)에 출력한다.

정보 출력부(309)는, 음성 합성 모델 생성부(301)에서 생성된 음성 합성 모델, 화상 정보 생성부(307)로부터 출력된 화상 정보 및 요구 정보 생성부(308)로부터 출력된 요구 정보를 이동 통신 단말기(2)에 송신하는 정보 출력 수단(화상 정보 출력 수단)이다. 정보 출력부(309)는, 파라미터 생성부(306)에 의해 새롭게 파라미터가 생성된 경우에, 음성 합성 모델, 화상 정보 및 요구 정보를 송신한다.

계속하여, 도 8을 참조하여, 본 실시예에 따른 음성 합성 모델 생성 시스템(1)에서 실행되는 처리(음성 합성 모델 생성 방법)에 대하여 설명한다. 도 8은, 이동 통신 단말기(2)와 음성 합성 모델 생성 장치(3)의 처리를 나타낸 시퀀스도이다.

도 8에 나타낸 바와 같이, 이동 통신 단말기(2)에서는, 먼저 음성 입력부(200)에 의해 사용자로부터 응용프로그램에 의한 표시에 따른 음성이 입력된다(S01, 음성 입력 단계). 그리고, 특징량 추출부(201)에 의해, 음성 입력부(200)에 의해 입력된 음성 데이터에 기초하여, 음성의 특징량이 추출된다(S02). 또한, 텍스트 데이터 취득부(202)에 의해, 음성 입력부(200)에 의해 입력된 음성 데이터에 기초하여, 음성에 대응하는 텍스트 데이터가 취득된다(S03). 음성의 특징량 및 텍스트 데이터를 포함하는 학습 정보는, 학습 정보 송신부(203)에 의해 음성 합성 모델 생성 장치(3)로 송신된다(S04, 학습 정보 송신 단계).

음성 합성 모델 생성 장치(3)에서는, 학습 정보 취득부(300)에 의해, 이동 통신 단말기(2)로부터 학습 정보가 수신됨으로써 특징량 및 텍스트 데이터가 취득된다(S05, 학습 정보 취득 단계). 다음으로, 음성 합성 모델 생성부(301)에 의해, 취득된 특징량 및 텍스트 데이터에 기초하여, 음성 합성 모델이 생성된다(S06, 음성 합성 모델 생성 단계). 또한, 단어 추출부(304)에 의해, 취득된 텍스트 데이터에 기초하여, 단어가 추출된다(S07). 그리고, 파라미터 생성부(306)에 의해, 추출된 단어의 누적 단어수에 기초하여, 음성 합성 모델의 학습 정도를 나타내는 파라미터가 생성된다(S08, 파라미터 생성 단계).

이어서, 화상 정보 생성부(307)에 의해, 생성된 파라미터에 기초하여, 이동 통신 단말기(2)의 사용자에 대하여 화상을 표시하게 하기 위한 파라미터에 따른 화상 정보가 생성된다(S09). 또한, 요구 정보 생성부(308)에 의해, 생성된 파라미터에 기초하여, 이동 통신 단말기(2)의 사용자에 대하여, 특징량을 취득하기 위하여, 음성을 입력시키기 위한 요구 정보가 생성된다(S10). 이와 같이 생성된 음성 합성 모델, 화상 정보 및 요구 정보는, 정보 출력부(309)에 의해, 음성 합성 모델 생성부(301)로부터 이동 통신 단말기(2)로 송신된다(S11, 정보 출력 단계).

이동 통신 단말기(2)에서는, 수신부(204)에 의해 음성 합성 모델, 화상 정보 및 요구 정보가 수신되어, 음성 합성 모델이 음성 합성 모델 유지부(206)에 유지되고, 또한 화상 정보 및 요구 정보가 표시부(205)에 의해 디스플레이에 표시된다(S12, 표시 단계). 이동 통신 단말기(2)의 사용자는, 디스플레이(27)에 표시되는 요구 정보에 따라, 음성을 입력한다. 음성이 입력되면, 단계 S01의 처리로 되돌아와 이하의 처리가 반복된다. 이상이, 본 실시예에 따른 음성 합성 모델 생성 시스템(1)에 의해 실행되는 처리이다.

전술한 바와 같이 본 실시예에 의하면, 음성의 특징량 및 텍스트 데이터에 기초하여 음성 합성 모델을 생성하고, 이 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성한다. 그리고, 파라미터에 따라 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하고, 그 화상 정보를 출력한다. 이로써, 음성을 입력하는 사용자는, 음성 합성 모델의 학습 정도를 가시화된 화상으로서 인식할 수 있으므로, 음성을 입력한 것에 대한 달성감을 얻을 수 있어, 음성을 입력하고자 하는 모티베이션이 향상된다. 그 결과, 사용자의 음성을 바람직하게 취득할 수 있다.

또한, 음성 합성 모델 생성 장치(3)의 파라미터 생성부(306)에 의해 생성된 파라미터에 기초하여, 특징량을 취득하기 위하여, 사용자에게 음성을 입력시키기 위한 요구 정보를 생성하여 이동 통신 단말기(2)에 송신하므로, 사용자로부터 입력되는 음성이 음성 합성 모델을 생성하기 위한 학습에 대하여 적절한 것으로 된다.

또한, 파라미터 생성부(306)는, 단어 추출부(304)에 의해 추출된 단어의 누적 단어수에 따라, 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성한다. 이로써, 누적 단어수에 따라 파라미터가 생성되므로, 사용자는, 파라미터에 따라 생성되는 화상 정보를 봄으로써, 단어수가 증가하고 있는 것을 인식할 수 있다. 이로써, 음성을 입력한 것에 대한 달성감을 더욱 얻을 수 있다. 그 결과, 사용자의 음성을 더욱 바람직하게 취득할 수 있다.

또한, 음성 합성 모델 생성 장치(3)로부터 이동 통신 단말기(2)로 송신되는 화상 정보는, 캐릭터 화상을 표시하게 하기 위한 정보이며, 사용자에게 출력되는 캐릭터 화상이 파라미터에 따라, 예를 들면, 커지도록 변화하므로, 예를 들면, 수치 등이 화상으로 표시되는 경우보다, 사용자에 대하여 시각적으로 호감을 줄 수 있다. 이로써, 사용자는 달성감을 더욱 얻을 수 있어, 음성을 입력하고자 하는 모티베이션이 더 한층 향상된다. 그 결과, 사용자의 음성을 더욱 바람직하게 취득할 수 있다.

또한, 음성 합성 모델 생성부(301)는, 사용자별로 음성 합성 모델을 생성하므로, 사용자마다에 대응하는 음성 합성 모델을 생성할 수 있어, 음성 합성 모델을 개개인이 이용할 수 있게 된다.

또한, 음성 특징량은, 음성을 음성 단위로 라벨링한 문맥 데이터 및 음성의 특징을 나타내는 음성 파형에 관한 데이터(대수 기본 주파수 및 멜켑스트럼)이므로, 음성 합성 모델을 확실하게 생성할 수 있다.

또한, 이동 통신 단말기(2)로 음성이 취득되므로, 스튜디오 등의 설비를 필요로 하지 않고, 간편하게 음성을 취득할 수 있다. 또한, 이동 통신 단말기(2)로부터 송신되는 음성으로부터 음성 합성 모델을 생성하는 경우와는 달리, 음성 합성 모델을 생성하는데 필요한 특징량을 이동 통신 단말기(2)가 추출하여 송신하므로, 통신로에 의해 열화되는 음성을 사용하여 음성 합성 모델을 생성하는 경우보다, 정밀도가 높은 음성 합성 모델을 생성할 수 있다.

본 발명은 상기 실시예로 한정되는 것은 아니다. 상기 실시예에서는, 음성 합성 모델을 생성하는데 은닉 마르코프 모델(HMM)을 사용하여 학습을 행하였으나, 다른 알고리즘을 사용하여 음성 합성 모델이 생성되어도 된다.

또한, 상기 실시예에서는, 이동 통신 단말기(2)의 특징량 추출부(201)에 의해 음성의 특징량이 추출되어, 특징량이 음성 합성 모델 생성 장치(3)에 송신되고 있지만, 음성 입력부(200)에 입력된 음성이 음성 정보(예를 들면, AAC, AMR 등 부호화된 음성)로서 음성 합성 모델 생성 장치(3)에 송신되어도 된다. 이 경우, 음성 합성 모델 생성 장치(3)에 있어서 특징량이 추출된다.

또한, 상기 실시예에서는, 단어 데이터베이스(305)에 유지되어 있는 단어의 누적 단어수에 대응하는 파라미터에 대응한 레벨에 기초하여, 화상 정보 생성부(307)가 화상 정보를 생성하고 있지만, 화상 정보 생성은 이 방법으로 한정되지 않는다. 예를 들면, 캐릭터 화상 C의 크기나 성격 등을 구성하기 위한 데이터를 유지하는 데이터베이스를 설치하고, 사용자로부터 예를 들면, 「고마워요」라는 음성이 입력된 경우에는, 소정의 규칙에 따라 크기를 나타내는 데이터에 1을 가산하고, 성격의 상냥함을 나타내는 데이터에 1을 가산하는 등으로 화상 정보를 생성해도 된다.

또한, 상기 실시예에서는, 화상 정보는 캐릭터 화상을 표시하게 하기 위한 정보이지만, 예를 들면, 그래프, 수치, 자동차 등의 물건을 표시하게 하기 위한 정보라도 된다. 그래프의 경우에는, 누적 단어수를 표시하는 정보이며, 자동차 등의 물건인 경우에는, 소정의 단어수로 되었을 때 형태를 변화시키는 정보 등으로 할 수 있다.

또한, 상기 실시예에서는, 화상 정보를 캐릭터 화상을 표시하게 하기 위한 표시 데이터이지만, 반드시 표시 데이터로 할 필요는 없고 이동 통신 단말기(2)에 있어서 화상을 생성하기 위한 데이터이면 된다. 예를 들면, 음성 합성 모델 생성 장치(3)에 있어서, 파라미터 생성부(306)로부터 출력된 파라미터에 기초하여 화상을 생성하기 위한 화상 정보를 작성하여 송신하고, 그 화상 정보를 수신한 이동 통신 단말기(2)에 있어서 캐릭터 화상을 생성해도 된다. 구체적으로는, 음성 합성 모델 생성 장치(3)에 있어서 작성되는 화상 정보는, 미리 설정되어 있는 캐릭터 화상의 얼굴의 크기나 피부의 색 등을 나타내는 파라미터이다.

또한, 음성 합성 모델 생성 장치(3)의 파라미터 생성부(306)로부터 출력된 파라미터를 화상 정보로서 송신하고, 그 파라미터에 기초하여 이동 통신 단말기(2)가 캐릭터 화상을 생성해도 된다. 이럴 경우, 이동 통신 단말기(2)가 상기 파라미터에 따라, 어떤 캐릭터 화상을 생성할지를 나타내는 정보(예를 들면, 도 6에 나타내는 정보)를 유지하고 있다.

또한, 음성 합성 모델 생성 장치(3)의 단어 데이터베이스(305)에 유지되어 있는 단어 데이터의 누적 단어수를 화상 정보로서 송신하고, 그 화상 정보에 기초하여 이동 통신 단말기(2)가 캐릭터 화상을 생성해도 된다. 이럴 경우, 이동 통신 단말기(2)는, 누적 단어수로부터 파라미터를 생성하고, 그 파라미터에 따라, 어떤 캐릭터 화상을 생성하는지를 나타내는 정보(예를 들면, 도 6에 나타내는 정보)를 유지하고 있다.

또한, 상기 실시예에서는, 단어 데이터베이스(305)에 유지된 단어의 카테고리마다의 단어수에 기초하여, 요구 정보 생성부(308)가 요구 정보를 생성하고 있지만, 요구하는 단어가 미리 저장된 데이터베이스로부터 차례대로 단어가 요구되는 구성으로 해도 된다.

또한, 상기 실시예에서는, 텍스트 데이터 취득부(202)가 이동 통신 단말기(2)에 설치되는 구성으로 되어 있지만, 음성 합성 모델 생성 장치(3)에 설치되는 구성으로 해도 된다. 또한, 텍스트 데이터의 취득은, 이동 통신 단말기(2) 자체가 실시하지 않아도, 이동체 통신에 의해 정보의 송수신을 행할 수 있는 서버 장치에 의해 행해져도 된다. 이 경우, 이동 통신 단말기(2)는, 서버 장치에 특징량 추출부(201)에 의해 추출한 특징량을 송신하고, 그 특징량을 송신한 것에 따라, 특징량에 기초하여 취득된 텍스트 데이터가 서버 장치로부터 송신된다.

또한, 상기 실시예에서는, 텍스트 데이터 취득부(202)에 의해 텍스트 데이터가 취득되고 있지만, 사용자가 음성 입력 후에 사용자 자신이 입력하도록 해도 된다. 또한, 요구 정보에 포함되는 텍스트 데이터로부터 취득되어도 된다.

또한, 상기 실시예에서는, 텍스트 데이터 취득부(202)가 텍스트 데이터를 사용자에게 확인하지 않고 취득하고 있지만, 취득한 텍스트 데이터를 한 번 사용자에게 표시해 주고, 사용자로부터, 예를 들면, 확인 키가 눌러진 경우에, 취득되는 구성으로 해도 된다.

또한, 상기 실시예에서는, 이동 통신 단말기(2)와 음성 합성 모델 생성 장치(3)에 의해 음성 합성 모델 생성 시스템(1)을 구성하는 형태로 되어 있지만, 음성 합성 모델 생성 장치(3)만으로 구성되어도 된다. 이 경우에는, 음성 합성 모델 생성 장치(3)에 음성 입력부 등이 설치된다.

1: 음성 합성 모델 생성 시스템
2: 이동 통신 단말기(통신 단말기)
3: 음성 합성 모델 생성 장치
200: 음성 입력부(음성 입력 수단)
201: 특징량 추출부(특징량 추출 수단)
202: 텍스트 데이터 취득부(텍스트 데이터 취득 수단)
203: 학습 정보 송신부(학습 정보 송신 수단)
204: 수신부(화상 정보 수신 수단)
205: 표시부(표시 수단)
300: 학습 정보 취득부(학습 정보 취득 수단)
301: 음성 합성 모델 생성부(음성 합성 모델 생성 수단)
304: 단어 추출부(단어 추출 수단)
306: 파라미터 생성부(파라미터 생성 수단)
307: 화상 정보 생성부(화상 정보 생성 수단)
308: 요구 정보 생성부(요구 정보 생성 수단)
309: 정보 출력부(화상 정보 출력 수단)
C, C1, C2: 캐릭터 화상

Claims

사용자의 음성의 특징량 및 상기 음성에 대응하는 텍스트 데이터를 취득하는 학습 정보 취득 수단;
상기 학습 정보 취득 수단에 의해 취득된 상기 특징량 및 상기 텍스트 데이터에 기초하여, 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 수단;
상기 음성 합성 모델 생성 수단에 의해 생성된 상기 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 수단;
상기 파라미터 생성 수단에 의해 생성된 상기 파라미터에 따라, 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하는 화상 정보 생성 수단; 및
상기 화상 정보 생성 수단에 의해 생성된 상기 화상 정보를 출력하는 화상 정보 출력 수단
을 포함하는 음성 합성 모델 생성 장치.
제1항에 있어서,
상기 특징량을 취득하기 위하여, 상기 사용자에게 상기 음성을 입력시키기 위한 요구 정보를, 상기 파라미터 생성 수단에 의해 생성된 상기 파라미터에 기초하여 생성하여 출력하는 요구 정보 생성 수단을 더 포함하는 음성 합성 모델 생성 장치.
제1항 또는 제2항에 있어서,
상기 학습 정보 취득 수단에 의해 취득된 상기 텍스트 데이터로부터 단어를 추출하는 단어 추출 수단을 더 포함하고,
상기 파라미터 생성 수단은, 상기 단어 추출 수단에 의해 추출된 상기 단어의 누적 단어수에 따라, 상기 음성 합성 모델의 상기 학습 정도를 나타내는 상기 파라미터를 생성하는, 음성 합성 모델 생성 장치.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 화상 정보는 캐릭터 화상을 표시하게 하기 위한 정보인, 음성 합성 모델 생성 장치.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 음성 합성 모델 생성 수단은, 상기 사용자마다 상기 음성 합성 모델을 생성하는, 음성 합성 모델 생성 장치.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 특징량은, 상기 음성을 음성 단위로 라벨링(labelling)한 문맥 데이터(context data) 및 상기 음성의 특징을 나타내는 음성 파형에 관한 데이터인, 음성 합성 모델 생성 장치.
통신 기능을 가지는 통신 단말기와, 상기 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치를 포함하여 구성되는 음성 합성 모델 생성 시스템으로서,
상기 통신 단말기는,
사용자의 음성을 입력하는 음성 입력 수단;
상기 음성 입력 수단에 의해 입력된 상기 음성 또는 상기 음성의 특징량으로 이루어지는 음성 정보 및 상기 음성에 대응하는 텍스트 데이터를 상기 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 수단;
상기 음성 정보 송신 수단으로부터 상기 음성 정보 및 상기 텍스트 데이터를 송신한 것에 따라, 상기 음성 합성 모델 생성 장치로부터 상기 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 수단; 및
상기 화상 정보 수신 수단에 의해 수신된 상기 화상 정보를 표시하는 표시 수단
을 포함하고,
상기 음성 합성 모델 생성 장치는,
상기 통신 단말기로부터 송신되는 상기 음성 정보를 수신함으로써 상기 음성의 특징량을 취득하고, 또한 상기 통신 단말기로부터 송신되는 상기 텍스트 데이터를 수신함으로써 취득하는 학습 정보 취득 수단;
상기 학습 정보 취득 수단에 의해 취득된 상기 특징량 및 상기 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 수단;
상기 음성 합성 모델 생성 수단에 의해 생성된 상기 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 수단;
상기 파라미터 생성 수단에 의해 생성된 상기 파라미터에 따라, 상기 화상 정보를 생성하는 화상 정보 생성 수단; 및
상기 화상 정보 생성 수단에 의해 생성된 상기 화상 정보를 상기 통신 단말기에 송신하는 화상 정보 출력 수단
을 포함하는, 음성 합성 모델 생성 시스템.
제7항에 있어서,
상기 통신 단말기는,
상기 음성 입력 수단에 의해 입력된 상기 음성으로부터 상기 음성의 특징량을 추출하는 특징량 추출 수단을 더 포함하는, 음성 합성 모델 생성 시스템.
제7항 또는 제8항에 있어서,
상기 음성 입력 수단에 의해 입력된 상기 음성으로부터 상기 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 수단을 더 포함하는 음성 합성 모델 생성 시스템.
통신 기능을 가지는 통신 단말기로서,
사용자의 음성을 입력하는 음성 입력 수단;
상기 음성 입력 수단에 의해 입력된 상기 음성으로부터 상기 음성의 특징량을 추출하는 특징량 추출 수단;
상기 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 수단;
상기 특징량 추출 수단에 의해 추출된 상기 음성의 특징량, 및 텍스트 데이터 취득 수단에 의해 취득된 상기 텍스트 데이터를, 상기 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 수단;
상기 학습 정보 송신 수단으로부터 상기 특징량 및 상기 텍스트 데이터를 송신한 것에 따라, 상기 음성 합성 모델 생성 장치로부터 상기 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 수단; 및
상기 화상 정보 수신 수단에 의해 수신된 상기 화상 정보를 표시하는 표시 수단
을 포함하는 통신 단말기.
사용자의 음성의 특징량 및 음성에 대응하는 텍스트 데이터를 취득하는 학습 정보 취득 단계;
상기 학습 정보 취득 단계에 있어서 취득된 상기 특징량 및 상기 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 단계;
상기 음성 합성 모델 생성 단계에 있어서 생성된 상기 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 단계;
상기 파라미터 생성 단계에 있어서 생성된 상기 파라미터에 기초하여, 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 생성하는 화상 정보 생성 단계; 및
상기 화상 정보 생성 단계에 있어서 생성된 상기 화상 정보를 출력하는 화상 정보 출력 단계
를 포함하는 음성 합성 모델 생성 방법.
통신 기능을 가지는 통신 단말기와, 상기 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치를 포함하여 구성되는 음성 합성 모델 생성 시스템에 의한 음성 합성 모델 생성 방법으로서,
상기 통신 단말기는,
사용자의 음성을 입력하는 음성 입력 단계;
상기 음성 입력 단계에 있어서 입력된 상기 음성 또는 상기 음성의 특징량으로 이루어지는 음성 정보 및 상기 음성에 대응하는 텍스트 데이터를 상기 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 단계;
상기 음성 정보 송신 단계에 있어서 상기 음성 정보 및 상기 텍스트 데이터를 송신한 것에 따라, 상기 음성 합성 모델 생성 장치로부터 상기 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 단계; 및
상기 화상 정보 수신 단계에 있어서 수신된 상기 화상 정보를 표시하는 표시 단계
를 포함하고,
상기 음성 합성 모델 생성 장치는,
상기 통신 단말기로부터 송신되는 상기 음성 정보를 수신함으로써 상기 음성의 특징량을 취득하고, 또한 상기 통신 단말기로부터 송신되는 상기 텍스트 데이터를 수신함으로써 취득하는 학습 정보 취득 단계;
상기 학습 정보 취득 단계에 있어서 취득된 상기 특징량 및 상기 텍스트 데이터에 기초하여 학습을 행하여 음성 합성 모델을 생성하는 음성 합성 모델 생성 단계;
상기 음성 합성 모델 생성 단계에 있어서 생성된 상기 음성 합성 모델의 학습 정도를 나타내는 파라미터를 생성하는 파라미터 생성 단계;
상기 파라미터 생성 단계에 있어서 생성된 상기 파라미터에 기초하여 상기 화상 정보를 생성하는 화상 정보 생성 단계; 및
상기 화상 정보 생성 단계에 있어서 생성된 상기 화상 정보를 상기 통신 단말기에 송신하는 화상 정보 출력 단계
를 포함하는, 음성 합성 모델 생성 방법.
통신 기능을 가지는 통신 단말기에 의한 음성 합성 모델 생성 방법으로서,
사용자의 음성을 입력하는 음성 입력 단계;
상기 음성 입력 단계에 있어서 입력된 상기 음성으로부터 상기 음성의 특징량을 추출하는 특징량 추출 단계;
상기 음성에 대응하는 텍스트 데이터를 취득하는 텍스트 데이터 취득 단계;
상기 특징량 추출 단계에 있어서 추출된 상기 음성의 특징량, 및 상기 텍스트 데이터 취득 단계에 있어서 취득된 상기 텍스트 데이터를, 상기 통신 단말기와 통신을 행할 수 있는 음성 합성 모델 생성 장치에 송신하는 학습 정보 송신 단계;
상기 학습 정보 송신 단계에 있어서 상기 특징량 및 상기 텍스트 데이터를 송신한 것에 따라, 상기 음성 합성 모델 생성 장치로부터 상기 사용자에 대하여 화상을 표시하게 하기 위한 화상 정보를 수신하는 화상 정보 수신 단계; 및
상기 화상 정보 수신 단계에 있어서 수신된 상기 화상 정보를 표시하는 표시 단계
를 포함하는 음성 합성 모델 생성 방법.