KR20020094988A

KR20020094988A - 음성합성방법 및 그것을 실시하는 음성합성장치

Info

Publication number: KR20020094988A
Application number: KR1020010046135A
Authority: KR
Inventors: 누카가노부오; 나가마츠켄지; 키타하라요시노리
Original assignee: 가부시키가이샤 히타치세이사쿠쇼
Priority date: 2001-06-11
Filing date: 2001-07-31
Publication date: 2002-12-20
Also published as: US20020188449A1; US7113909B2; CN1391209A; CN1235187C; JP2002366186A

Abstract

정형적 문장을 임의의 화조의 음성으로 음성합성한다. 또, 제3자가 운율데이터를 작성하고, 음성합성부를 가지는 단말장치의 사용자가 그 운율데이터를 취입하여 사용할 수 있는 방법을 제공한다.

정형적 문장의 발성내용의 종별을 지정하는 발성내용 식별자를 정하고, 상기 내용식별자에 대응하는 화조 및 운율데이터로 이루어지는 화조사전(14)을 작성하고, 발생해야 할 합성음성의 내용식별자 및 화조를 지정(12)하여, 화조사전(14)으로부터 발생해야 할 합성음성의 운율데이터를 선택(15)하고, 선택된 운율데이터를 음성합성장치 구동데이터로서 음성합성장치(13)에 인가하여, 특정의 화조의 음성합성을 행한다.

정형적 문장의 음성을 임의의 화조로 합성할 수 있다. 또, 제3자가 작성한 운율데이터(화조사전)을 네트워크를 통해 휴대단말의 음성합성장치에 취입할 수 있다.

Description

음성합성방법 및 그것을 실시하는 음성합성장치{VOICE SYNTHESIZING METHOD AND VOICE SYNTHESIZER PERFORMING THE SAME}

본 발명은, 음성합성방법 및 그것을 실시하는 음성합성장치 및 시스템, 더욱 상세하게 말하면, 음성합성해야 할 내용이 대략 정해져 있는 정형적 문장을 음성으로 변환하는 음성합성방법, 그 방법을 실시하는 음성합성장치 및 그 방법 및 장치를 실시하는 데에 필요한 데이터의 작성방법에 관한 것이다. 특히, 음성합성장치를 가지는 휴대단말장치 및 그것과 접속 가능한 데이터 통신수단으로 이루어지는 통신망에서 이용된다.

일반적으로, 음성합성은, 발음하는 내용을 나타내는 발음기호(음소기호)와, 음성의 억양의 물리적 척도인 피치의 시계열 패턴(기본 주파수 패턴), 및 각 음소의 길이(음소계속장(音素繼續長)) 및 세기(음소강도)로부터 음성파형을 생성하는 기술이다. 이하, 기본 주파수 패턴, 음소계속장 및 음소강도의 3가지 파라미터를 「운율파라미터」라 총칭하고, 음소기호와 운율파라미터와의 조합을 「운율데이터」라 총칭한다.

음성파형을 생성하는 방식으로서는, 음소의 성도(聲道)특성을 모의(模擬)하는 파라미터를 필터로 구동하는 파라미터 합성방식과, 인간이 발성한 음성파형에서음소특징을 나타내는 단편을 추출하여 접속함으로써 파형을 생성하는 파형접속방식이 대표적이다. 이와 같이, 음성합성에 있어서는, 「운율데이터」를 생성하는 것이 중요하다. 또, 상기 음성함성방법은 일본어 뿐만 아니라, 언어 일반에 공통으로 이용할 수 있다.

음성합성에서는, 합성대상이 되는 문장내용에 대응하는 상기 운율파라미터를 어떠한 방법으로든 구할 필요가 있다. 예컨대, 전자메일이나 전자신문 읽기 등에 음성합성기술을 적용하는 경우에는, 임의의 문장을 언어해석하고, 단어나 문절(文節)의 구분위치를 정하며, 문절의 액센트형을 결정한 후, 액센트정보나 음절정보 등으로 운율 파라미터를 구할 필요가 있다. 이들의 자동변환에 관한 기본방식은 이미 확립되어 있어서, 「인접 단어간의 결합관계에 착안한 텍스트 음성변환용 형태소 해석처리」(일본 음향학회지 51권 1호, 1995, 페이지 3-13)에 개시되어 있는 방법으로 실현할 수 있다.

상기 운율 파라미터 중, 음절(음소) 계속시간 길이는 음절(음소)이 놓여있는 문맥을 비롯한 여러가지의 요인에 의해 변화한다. 계속시간 길이에 영향을 미치는 요인으로서는, 당해 음절의 종류와 같은 조음(調音)상의 제약, 타이밍, 단어의 중요도, 발화(發話)구분경계의 명시, 발화구분내의 템포, 전체의 템포, 구문의미 내용 등의 언어적 제약 등이 있다. 계속시간 길이제어에 있어서는, 실제로 관측되는 계속시간 길이 데이터에 대해, 상기 요인에 관련하는 영향도 등을 통계적으로 분석하고, 그 결과 얻어지는 규칙을 이용하는 방식이 일반적이다. 예컨대, 「규측에 의한 음성합성을 위한 음운시간 길이제어」(전자통신학회 논문지, 1984/7, Vol. J67-A, No.7)에는 상기 운율파라미터의 계산방법이 기재되어 있다. 물론, 운율파라미터의 계산방법은 이에 한정되는 것은 아니다.

상술한 음성합성방법은, 임의의 문장에서 운율파라미터로 변환하는 방법, 즉 텍스트 음성합성방법에 관한 것이지만, 한편, 합성해야 할 내용이 미리 정해져 있는 정형적인 문장에 대한 음성을 합성하는 경우의 운율파라미터 계산방법이 있다. 정형적인 문장, 예컨대, 음성을 이용한 정보고지나 전화를 이용한 음성안내 서비스에 이용되어 있는 문장에 대응하는 음성합성에서는, 임의의 문장만큼 복잡하지 않으므로, 미리 문장의 구조나 패턴에 대응한 운율데이터를 데이터베이스로서 축적해 두고 운율파라미터를 계산하는 경우에는, 축적된 패턴을 검색하여 유사한 패턴의 운율파라미터를 이용할 수 있다. 이 방법을 이용함으로써, 텍스트 음성합성방법에 의해 얻어지는 합성음과 비교하여, 자연성을 현저하게 개선할 수 있다. 예컨대, 일본 특개평11-249677호 공보에는 당해 방식을 이용한 운율파라미터 계산방법이 개시되어 있다.

합성음성의 억양이나 인토네이션(intonation)은 운율파라미터의 품질에 의존한다. 또, 적절하게 제어함으로써, 감정표현이나 방언 등의 합성음의 화조를 제어하는 것이 가능하다.

이들의 정형적인 문장에 관한 종래의 음성합성기술은, 주로 음성을 이용한 정보고지나 전화를 이용한 음성 안내서비스에 이용되고 있지만, 그 이용형태에 있어서는, 합성음성은 하나의 화조로 고정되고, 방언이나 외국어 음성 등 다양한 음성을 임의로 합성하는 것이 불가능하였다. 방언 등은 휴대전화나 완구 등, 오락성을 필요로 하는 장치에의 탑재가 요망되고, 또 외국어 음성에 관해서는, 국제화에는 필수의 기술이다.

그러나, 종래의 기술에서는 음성합성시에, 각 방언이나 말솜씨에 발성내용을 임의대로 변환하는 것은 고려되어 있지 않고, 기술상 곤란하며, 시스템 이용자 및 운용자 이외의 제3자가 자유롭게 상기 운율데이터를 작성하는 것은 곤란하였다. 또한, 휴대전화 단말장치와 같이 계산용 자원이 극도로 한정되어 있고 음성합성 프로그램의 변경이 곤란한 장치에 있어서, 상술한 다양한 화조의 음성을 합성할 수 없었다.

본 발명의 주 목적은, 음성합성수단이 탑재되어 있는 단말장치내에서 정형적 문장에 대한 여러 종류의 화조의 음성을 합성하기 위한 음성합성방법 및 장치를 실현하는 것이다.

본 발명의 다른 목적은, 음성합성장치의 제조자, 소유자, 이용자 이외의 제3자가 「운율데이터」를 작성하고, 음성합성장치의 사용자가 그 데이터를 이용할 수 있는 운율데이터 분배방법을 제공하는 것이다.

도 1은 본 발명에 의한 음성합성장치 및 음성합성방법이 실시되는 정보분배시스템의 일실시형태를 나타내는 플로우챠트 도면,

도 2는 본 발명에 의한 음성합성장치를 가지는 단말장치인 휴대전화기의 일실시형태의 구성을 나타내는 도면,

도 3은 발성내용 식별자를 설명하는 도면,

도 4는 표준어 식별자에 대한 발성내용문을 나타내는 도면,

도 5는 오사카 방언의 식별자에 대한 발성내용문을 나타내는 도면,

도 6은 화조사전의 일실시형태에서의 데이터 구조를 나타내는 도면,

도 7은 도 6에 나타낸 각 식별자에 대응하는 운율데이터의 데이터구조를 나타내는 도면,

도 8은 도 5의 화조사전에서의 오사카 방언에 대한 음소테이블을 나타내는 도면,

도 9는 본 발명에 의한 음성합성방법의 일실시형태의 음성합성순서를 나타내는 도면,

도 10은 본 발명에 의한 휴대전화기의 일실시형태에서의 표시부를 나타내는도면,

도 11은 본 발명에 의한 휴대전화기의 일실시형태에서의 표시부를 나타내는 도면이다.

상기 목적을 달성하기 위해, 본 발명의 음성합성방법에서는, 합성음성에 의해 출력해야 할 발성내용의 종별을 특정하는 복수의 내용식별자를 설정하여, 각각의 내용식별자에 대해 복수종의 화조의 운율데이터가 저장된 화조사전을 작성하고, 음성합성의 실행시에, 상기 내용식별자 및 상기 화조를 지정함으로써, 상기 화조사전에서 지정된 운율데이터를 독출하고, 독출된 운율데이터를 음성합성 구동데이터로 하여 음성으로 변환한다.

또, 본 발명에 의한 음성합성장치는, 합성음성에 의해 출력해야 할 발성내용의 종별을 특정하는 내용 종별을 식별하는 식별자 발생수단과, 상기 합성음성에 의해 출력해야 할 발성내용의 화조를 지정하는 화조지정수단과, 복수의 내용식별자의 각각에 대응하는 복수의 화조 및 상기 내용식별자 및 화조에 대응된 운율데이터로 이루어지는 화조사전과, 상기 내용식별자 및 화조가 지정되었을 때 상기 화조사전에서 상기 지정된 내용식별자 및 화조의 운율데이터를 독출하여 음성으로 변환하는 음성합성 처리부를 가진다.

상기 화조사전의 작성은 음성합성장치 또는 음성합성장치를 가지는 휴대단말장치 등의 제조시에, 사전에 음성합성장치 또는 단말장치에 탑재하는 외에, 통신망을 통해 필요한 내용식별자 및 임의의 화조의 운율데이터만을 취입하거나, 혹은 이동 가능한 소형 메모리로 하여 단말장치에 착탈할 수 있도록 해도 좋다. 화조사전의 작성은, 발성내용 관리방법을 단말장치의 제조자, 네트위크의 관리자 이외의 제3자에게 개시하고, 그 발성내용 관리방법에 따라, 내용식별자와 대응하는 운율파라미터로 이루어지는 화조사전을 작성하도록 하여도 좋다.

본 발명에 의해, 음성합성장치 혹은 음성합성장치를 구비하는 단말장치에 탑재되는 프로그램의 개발자는 합성해야 할 화조를 지정하는 화조지정자와 내용식별자만의 정보로부터, 원하는 화조의 음성합성을 실현할 수 있다. 또, 화조사전 작성자는 합성 프로그램의 동작을 고려하지 않고, 문장식별자에 대응하는 화조사전을작성하기만 하면 되므로, 간편하게 원하는 화조의 음성합성을 실현할 수 있다.

본 발명의 이러한 이점과 기타 이점들은 해당 기술분야에 숙련된 자가 첨부된 도면과 함께 상세한 설명을 읽고 이해함으로써 명백하게 될 것이다.

도 1은 본 발명에 의한 음성합성장치 및 음성합성방법이 실시되는 정보분배시스템의 일실시형태의 블록도이다.

본 실시형태의 정보분배시스템은, 본 발명에 의한 음성합성장치를 가지는 휴대전화기 등의 단말장치(이하, 간단히 단말이라고 칭한다)(7)가 접속가능한 통신망(네트워크)(3)과, 통신망(3)에 접속된 화조사전 저장서버(1,4)를 가지며, 단말(7)은 단말 사용자(8)가 지정한 화조에 대응하는 화조사전을 지정하는 수단과, 지정된 화조사전을 서버(1,4)로부터 단말로 전송하는 데이터 전송수단과, 전송된 화조사전을 단말(7)내의 화조사전 저장메모리에 저장하는 화조사전 저장수단을 구비함으로써, 단말 사용자(8)가 희망하는 화조로 정형적 문장의 합성음을 출력한다.

휴대단말 사용자(8)가 상기 화조사전을 이용하여 합성음의 화조를 설정하는 형태에 대해 설명한다.

제1의 방법은, 제조자 등의 단말 공급자(9)가 단말(7)에 화조사전을 탑재하는 프리인스톨(pre-install)방법이 있다. 이 경우는, 데이터 작성자(10)가 화조사전을 작성하고, 그것을 휴대단말 공급자(9)에게 제공하며, 휴재단말 공급자(9)는 화조사전을 휴대단말(7)의 메모리에 저장하고, 휴대단말(7)을 휴대단말 사용자(8)에게 공급한다. 이 제1의 방법에서는, 휴대단말 사용자(8)는 휴대단말(7)의 사용 개시시부터 출력 음성의 화조를 설정, 변경할 수 있다.

제2의 방법은, 데이터 작성자(5)는 휴대단말(7)이 접속가능한 통신망(3)을 소유하는 통신 사업자(2)에 대해 화조사전을 공급하고, 통신 사업자(2) 내지는 데이터 작성자(5)가 화조사전 저장서버(1,4)에 화조사전을 저장한다. 통신사업자(2)는 휴대단말 사용자(8)로부터 단말(7)을 통해 화조사전의 전송요구(다운로드)를 받으면, 화조사전 저장서버(1)에 저장되어 있는 화조사전을 휴대단말(7)이 취득가능한지 여부의 판정을 행한다. 이 때, 화조사전의 특질에 따라 통신료 혹은 취득량을 휴대단말 사용자(8)에게 청구해도 좋다.

제3의 방법은, 단말 사용자(8), 단말 제조자(9), 통신 사업자(3) 이외의 제3자(5)가 화조사전을 작성하고, 제3자인 데이터 작성자(5)는, 발성내용 관리 리스트(정형적 문장의 종별을 나타내는 식별자의 대응 데이터)를 참조하여, 화조사전을 작성하고, 화조사전 저장서버(4)에 화조사전을 저장한다. 화조사전 저장서버(4)는 통신망(3)을 통해 단말(7)로부터 액세스되고, 단말 사용자(8)의 요구에 따라 화조사전의 취득을 허가한다. 그 화조사전을 취입한 단말(7)의 소유자(8)가 원하는 화조를 선택하여 단말(7)에서 출력하는 합성음성 메시지(정형적인 문장)의 화조를 설정한다. 이 때, 데이터 작성자(5)는 화조사전의 특질에 따른 라이센스료를, 통신 사업자(2)를 대행자로 하여 휴대단말 사용자(8)에게 청구해도 좋다.

상기 3개 중 어느 한 방법을 이용하여, 단말 사용자(8)는, 휴대단말(7)에서 출력되는 합성음성의 화조를 설정, 변경하기 위한 화조사전을 취득한다.

도 2는, 본 발명에 의한 음성합성장치를 가지는 단말인 휴대전화기의 일실시형태의 구성을 나타내는 도면이다. 휴대전화기(7)는, 안테나(18), 무선처리부(19), 베이스밴드 신호처리부(21), 입출력부(입력키, 표시부 등) 및 음성합성장치(20)를 가진다. 음성합성장치(20) 이외의 부분은 종래 알려져 있는 것과 동일하므로 설명을 생략한다.

본 도면에서, 음성합성장치(20)의 화조사전 지정수단(11)은, 단말(7)의 외부에서 화조사전을 취입하는 때, 발성내용 식별자 입력수단(12)으로 지정된 내용식별자를 사용하여 화조사전을 취입하는 것이다. 발성내용 식별자 입력수단(12)은 발성내용 식별자를 입력받는 것으로, 예컨대, 휴대단말(7)이 메일을 수신했을 때에, 자동적으로 식별자가 메일수신 통지메시지인 것을 나타내는 식별자를 베이스밴드 처리부(21)로부터 입력받는다.

화조사전 저장메모리(14)는, 그 상세한 내용은 후술하는 바와 같이, 발성내용 식별자에 대응하는 화조 및 운율데이터를 기억하는 메모리로서, 데이터는 프리 인스톨(pre-install)되는 경우와 통신망(3)을 통하여 다운로드되는 경우가 있다. 운율파라미터 저장메모리(15)는, 화조사전 저장메모리(14)에서 선택된 특정 어조의 합성음 데이터를 저장하는 메모리이다. 합성파형 저장메모리(16)는 화조사전 저장메모리(14)의 데이터를 파형신호로 변환하여 기억하는 메모리이다. 음성출력부(17)는 합성파형 저장메모리(16)에서 독출된 파형신호를 음향신호로 출력하는 것으로서, 전화기의 스피커와 겸용된다.

CPU(13)는 상기 각 수단, 메모리를 구동, 제어하여 음성합성을 행하기 위한 프로그램이 저장되어 있는 신호처리장치로서, 베이스밴드 처리부(21)의 다른 통화처리를 위한 처리를 행하는 CPU와 공용해도 좋다. 설명의 편의상, 음성합성부의 구성소자로서 나타내어져 있다.

도 3은 상기 발성내용 식별자를 설명하는 도면으로서, 복수의 식별자와 각각의 식별자를 나타내는 발성내용과의 대응 리스트를 구성하고 있다. 본 도면에서는, 식별자 「ID_1」, 「ID_2」, 「ID_3」 및 「ID_4」에 대해서는, 각각의 식별자에 대응하는 발성내용의 종별 「메일 착신 통지 메시지」, 「통화자 착신 통지 메시지」, 「발신자 통지 메시지」및 「알람 정보 통지 메시지」가 정의되어 있다.

화조사전 작성자(5 또는 10)는, 예컨대 「ID_4」라는 식별자에 대하여, 「알람 정보 통지 메시지」를 위한 임의의 화조사전을 작성할 수 있다. 또, 도 3의 관계는 비밀로 해야 하는 것이 아니고, 서류(음성내용 관리데이터 데이블)로 널리 공개한다. 물론, 전자적 데이터로서 계산기상 및 네트워크상에서 공개해도 좋다.

도 4 및 도 5는 모두 상기 식별자에 대하여, 화조가 다른 예로서, 표준어와 오사카 방언의 발성내용문을 나타낸다. 도 4는 화조가 표준어의 발성문(이하, 「표준패턴」이라고 표기)을 나타낸다. 도 5는 화조가 오사카 방언의 발성문(이하, 「오사카 방언」이라고 표기)을 나타낸다. 예를 들면, 식별자 「ID_1」에 대해서는, 표준패턴으로는 「メ-ルが着信しました(메-루가 차꾸신 시마시따)」(이것은 "메일이 도착했습니다"라는 의미임)라는 음성문 내용으로서, 오사카 방언으로는 「メ-ルが來てまっせ(메-루가 키떼맛세)」(이것은 "메일이 도착했습니다"라는 의미임)라는 음성문 내용을 기술한다. 이들 문언은, 화조사전을 작성하는 작성자가 임의로 정의할 수 있는 것이며, 상기 예로 할 필요는 없다. 예를 들면, 오사카 방언의 식별자「ID_1」에 대해서는, 「きました, きました, メ-ルです!(키마시따, 키마시따, 메-루데쓰!)」(이것은 "도착했어, 도착했어, 메일이야!"라는 의미임)이어도 좋다. 또, 도 5의 식별자 「ID_4」와 같이, 문장의 일부(Ｏ로 나타내는 문자)를 바꾸어 넣는 것이 가능한 정형문이어도 좋다.

이와 같은 데이터는, 발신자 정보와 같이 고정적으로 준비할 수 없는 정보를 독출하는 데에 유효하다. 정형적인 문장을 독출하는 방법은, 문헌 「단어 및 문운율 데이터베이스를 이용한 운율제어방식의 검토」(일본음향학회 강연논문집, pp. 227 - 228, 1998)에 개시되어 있는 기술을 사용할 수 있다.

도 6은, 상기 화조사전의 일실시형태에서의 데이터구조를 나타내는 도면이다. 이 데이터구조는, 도 2의 화조사전 저장메모리(14)에 저장된다. 화조사전은, 어떤 화조인가를 나타내는 화조식별정보(402), 인덱스 테이블(403), 각 식별자에 대응하는 운율 데이터(404~407)로 구성된다. 화조식별정보(402)는 화조사전(14)의 화조의 종별을 나타내며, 예컨대, 「표준패턴」「오사카 방언」 등의 종별을 등록한다. 또, 화조사전(14)에 특징적인 시스템내 공통의 식별자를 부여해도 좋다. 화조식별정보(402)는, 단말기(7)에서, 화조를 선택할 때의 키정보가 된다. 인덱스 테이블(403)은, 각 식별자에 대응하는 화조사전이 시작되는 선두번지를 나타내는 데이터가 저장된다. 단말기에 있어서 식별자에 대응하는 화조사전을 탐색할 필요가 있고, 인덱스 테이블(403)에 의해 관리함으로써, 고속의 검색이 가능하다. 물론, 각 운율데이터(404~407)를 고정길이의 데이터로 하고 순차탐색하는 방법을 채용하면, 인덱스 테이블(403)을 설치할 필요는 없다.

도 7은, 도 6에 나타낸 각 식별자에 대응하는 운율데이터(404~407)의 데이터구조를 나타낸다. 도 2의 운율파라미터 저장메모리(15)에 저장된다. 운율 데이터(501)는, 식별자(502) 및 음소 테이블(503)로 구성된다. 식별정보자(502)에는 운율데이터의 발성내용 식별자를 기술한다. 예를 들면, 도 4의 「ID_4」와 「ＯＯの時間になりました(ＯＯ노지깐니나리마시따)」(이것은 "ＯＯ의 시간이 되었습니다"라는 의미임)의 예라면, 「ID_4」로 기술한다. 한편, 음소 테이블(503)은, 음성합성장치 구동데이터, 즉, 발성문 내용의 음소표기, 각 음소의 길이, 각 음소의 높이로 이루어지는 운율데이터이다. 여기서, 일례로서, 오사카 방언의 화조사전에서의 식별자 「ID_1」에 대응하는 발성내용인 「メ-ルが來てます(메-루가 키떼마쓰)[meerugakitemaQse]」에 대한 음소테이블을 도 8에 나타낸다. 음소테이블(601)은, 음소표기(602), 음소의 길이(603), 음소의 높이(604)의 데이터로 구성된다. 음소의 길이는 미리초 단위로 나타나 있지만, 음소의 길이를 표기할 수 있는 물리량이라면, 제한되지 않는다. 마찬가지로, 음소의 높이는 Hz 단위로 나타나 있지만, 높이를 표기할 수 있는 물리량이라면, 제한되지 않는다.

본 예에서는, 음소의 표기는, 도 8에 나타내는 바와 같이, 「m/e/e/r/u/g/a/k/i/t/e/m/a/Q/s/e」로 된다. 또한, 음소 「r」에 대응하는 음소의 길이는 39㎳이며, 높이는 352Hz인 것을 나타내고 있다(605). 표기중 「Q」(606)은 촉음을 의미하는 음소기호이다.

도 9는, 본 발명에 의한 음성합성 방법의 일실시형태에서의 화조의 선택에서부터 합성음성파형을 생성하기까지의 생성순서를 나타낸다. 여기서는, 일예로서,도 2의 휴대단말(7)의 사용자가 「오사카 방언」의 합성화조를 선택하고, 통화 착신시에 합성음에 의한 메시지를 출력하는 실시방법을 나타낸다. 관리 테이블(1007)은, 통화 착신시에 합성내용을 결정하기 위해 이용할 전화번호 및 인명정보를 저장한다.

상기 예에 대하여 파형을 합성하는 경우, 우선, 화조사전 지정수단(11)으로부터 입력된 화조사전 지정정보에 의해, 화조사전 저장메모리(14)의 화조사전을 교체한다(S1). 화조사전 저장메모리(14)에 화조사전1(141) 또는 화조사전2(142)를 저장한다. 휴대단말(7)의 통화 착신시에는, 발성내용 식별자 입력수단(12)에서, 식별자 「ID_2」를 이용하여 「통화 착신 통지 메세지」를 합성할 것을 결정하고, 식별자 「ID_2」를 합성대상의 운율 데이터로 한다(S2). 이어서, 발생해야 할 운율데이터를 결정한다(S3). 본 예의 경우, 임의로 어휘를 바꾸어 넣는 문장은 아니므로 특별하게 처리가 행해지지는 않는다. 그러나, 예컨대, 도 5의 「ID_3」의 발성내용을 이용하는 경우에는, 관리 테이블(1007)(도 2의 베이스밴드 처리부(21)에도 입력되어 있다.)에서, 발호자(發呼者)의 인명정보를 취득하여, 「すずきさんからやでえ(스즈키상까라 야데에)」(이것은 "스즈키씨로부터 전화왔습니다"라는 의미임)라는 운율데이터를 결정한다.

이상과 같이 하여 운율 데이터를 결정한 후, 도 8에서 나타나는 음소 테이블을 계산한다(S4). 상기 예의 「ID_2」를 이용하여 합성하는 경우, 화조사전 저장메모리(14)에 저장되어 있는 운율데이터를 운율파라미터 저장 메모리(15)로 전송하는 것만으로 좋다.

그러나, 예를 들면, 도 5의 「ID_3」의 발성내용을 이용하는 경우에는, 관리 테이블(1007)에서, 발호자의 인명정보를 취득하여, 「すずきさんからやでえ(스즈키상까라 야데에)」라는 운율데이터를 결정한다. 「すずき(스즈키)」부분의 운율파라미터를 계산하여, 운율파라미터 저장메모리(15)로 전송한다. 「すずき(스즈키)」부분의 운율파라미터의 계산은, 예컨대, 문헌 「단어 및 문운율 데이터베이스를 이용한 운율제어방식의 검토」(일본음향학회 강연논문집, pp. 227 - 228, 1998)에 개시되어 있는 방법을 이용할 수 있다.

마지막으로, CPU(13)가, 운율파라미터 저장메모리(15)에 저장된 운율파라미터를 판독하고, 그것에 대응한 합성파형데이터로 변환하여 합성파형 저장메모리(16)에 저장한다(S5). 합성파형 저장메모리(16)의 합성파형데이터는 순차음성 발생부 즉, 전기ㆍ음향 변환기(17)에 의해, 합성음성으로 출력된다.

도 10 및 도 11은, 모두 본 발명에 의한 음성합성장치를 구비한 휴대단말로, 합성음성의 화조를 지정하는 때의 단말의 표시화면을 나타내는 도면이다. 단말 사용자(8)가, 휴대단말(7)의 표시화면(71)에서 「합성화조설정」메뉴를 선택한다. 도 (a)에서는, 「합성화조설정」(71a)은, 「알람설정」이나 「착신음 설정」과 동일계층에서 실현되고 있지만, 동일계층일 필요는 없으며, 합성화조설정 기능이 실현되어 있으면 다른 방법이어도 좋다. 합성화조설정 메뉴(71a)가 선택된 후에는, 도 (b)와 같이, 휴대단말(7)에 등록되어 있는 합성화조를 표시화면(71)에 표시한다. 여기에서 표시되어 있는 문자열은, 도 6의 화조식별정보(402)에 저장되어 있는 문자열이다. 예를 들면, 화조사전이 쥐가 말하는 형태의 음성을 출력시키기 위해 작성된 데이터인 경우, 「쥐음성」이라는 문자열을 표시한다. 물론, 상기 화조사전의 특징이 나타나는 문자열이라면, 다른 표기 문자열이어도 된다. 예컨대, 휴대단말 사용자(8)가 「오사카 방언」으로 합성시키고 싶은 의사를 가지고 있는 경우, 「오사카 방언」의 표시(71b)를 반전시켜, 합성화조를 선택한다. 또한, 화조사전에는, 일본어뿐만 아니라, 「영어」「프랑스어」의 화조사전 혹은 발음표기로 저장해도 된다.

도 11은, 도 1의 휴대단말 사용자(8)가 통신망(3)을 경유하여 화조사전을 취득하는 방법을 설명하기 위한 휴대단말의 표시부를 나타내는 도면이다. 휴대단말(7)은 통신망(3)을 경유하여 정보관리 서비스에 접속한 제표시되는 화면이며, (a)는 본 발명의 화조사전 분배서비스에 접속한 후의 화면이다.

우선, 휴대단말 사용자(8)에 대하여, 합성화조데이터를 취득할 것인지 아닌지를 확인하는 화면(71)을 표시하고, 승인를 의미하는 「OK」(71c)를 선택한 경우에는, 화면(71)을 (b)로 바꾸어, 정보관리서버에 등록되어 있는 화조사전의 일람을 표시한다. 여기서는, 쥐의 모방음성인 「쥐음성」, 오사카 사투리 구조의 메시지인 「오사가 방언」등의 화조사전이 등록되어 있다.

다음으로, 휴대단말 사용자(8)는 취득하고자 하는 화조데이터에 반전표시를 이동시키고, 확인버튼을 누른다. 정보관리서버(1)에서는, 요구된 화조에 대응하는 화조사전을 통신망(3)에 송출한다. 송출이 완료한 후, 화조사전의 송수신을 완료한다. 이상의 순서로 휴대단말(7)에 존재하지 않는 화조사전을 휴대단말(7)내에 저장한다. 상술한 방법에서는, 통신사업자가 제공하는 서버에 접속하여 데이터를 취득하였지만, 물론, 통신사업자가 아닌 제3자(5)가 제공하는 화조사전 저장서버(4)에 접속하여 데이터를 취득하는 방법이어도 좋다.

본 발명에 의해, 정형적인 정보의 독출을 임의의 화조로 독출하는 것이 가능한 휴대단말을 간편하게 개발할 수 있다.

본 발명의 권리범위와 기술적 사상으로부터 이탈하지 않는 범위에서 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 용이하게 변경 및 변형 가능하다는 것은 명백하며, 본 발명의 권리범위는 상기 상세한 설명이나 첨부도면에 의해 제한되지 아니하고, 특허청구범위에 의해 정해진다.

Claims

정형적 문장을 음성합성에 의해 음성으로 변환하는 음성합성방법으로서,

상기 정형적 문장의 발성내용의 종별을 지정하는 발성내용 식별자를 정하는 단계와,

상기 발성내용 식별자에 대응하는 화조 및 운율데이터로 이루어지는 화조사전을 작성하는 단계와,

발생해야 할 합성음성의 내용식별자 및 화조를 지정하여, 상기 화조사전으로부터 상기 발생해야 할 합성음성의 운율데이터를 선택하는 단계와,

상기 선택된 운율데이터를 음성합성장치 구동데이터로서 음성합성수단에 인가하여 특정의 화조의 음성합성을 행하는 단계를 포함하여 이루어지는 음성합성방법.
제 1 항에 있어서,

상기 운율데이터는, 적어도, 상기 정형적 문장의 발성내용을 발음음소로 분해한 발음기호열과, 상기 발음기호열을 구성하는 각 음소의 길이, 높이, 세기의 정보로 구성되는 데이터인 것으로 이루어지는 음성합성방법.
정형적 문장을 운율데이터로 변환하고, 운율데이터를 음성합성장치 구동데이터로서 음성합성 처리부에 인가하여 음성합성을 행하는 음성합성장치로서,

상기 정형적 문장의 종별을 지정하는 발성내용 식별자와,

합성음성의 화조를 지정하는 화조지정정보와 운율데이터가 대응된 화조사전을 저장하는 메모리와,

음성합성시에 합성해야 할 음성의 발성내용 식별자와 화조를 지정하는 수단과,

상기 지정하는 수단에 의해 지정된 운율데이터를 상기 화조사전으로부터 선택하고, 음성신호로 변환하는 음성합성 처리부를 포함하여 이루어지는 음성합성장치.
제 3 항에 있어서,

상기 운율데이터는, 적어도, 상기 정형적 문장의 발성내용을 발음음소로 분해한 발음기호열과, 상기 발음기호열을 구성하는 각 음소의 길이, 높이, 세기의 정보로 구성되는 데이터인 것으로 이루어지는 음성합성장치.
상기 제 3 항에 의한 음성합성장치를 가지는 것을 특징으로 하는 휴대전화기.
정형적 문장을 운율데이터로 변환하고, 운율데이터를 음성합성장치 구동데이터로서 단말장치의 음성합성 처리부에 인가하여 음성합성을 행하는 운율데이터의 분배방법으로서,

상기 정형적 문장의 발성내용의 종별을 지정하는 발성내용 식별자를 정하는 단계와,

상기 내용식별자에 대응하는 화조 및 운율데이터로 이루어지는 화조사전을 작성하는 단계와,

상기 화조사전을 통신망에 설치된 서버 또는 상기 서버를 통해 접속된 단말장치에 공급하여 음성합성을 행하는 단계를 포함하여 이루어지는 운율데이터의 분배방법.
제 6 항에 있어서,

상기 운율데이터는, 적어도, 상기 정형적 문장의 발성내용을 발음음소로 분해한 발음기호열과, 상기 발음기호열을 구성하는 각 음소의 길이, 높이, 세기의 정보로 구성되는 데이터인 것으로 이루어지는 운율데이터의 분배방법.
제 6 항에 있어서,

상기 화조사전을 통신망에 설치된 상기 서버를 통해 접속된 단말장치에 공급하는 경우, 상기 단말장치는 단말사용자가 지정한 화조에 대응하는 화조사전을 지정하는 수단과, 지정된 화조사전을 상기 서버로부터 상기 단말장치로 전송하는 데이터 전송수단과, 전송된 화조사전을 단말장치내의 화조사전 저장메모리에 저장하는 화조사전 저장수단을 구비함으로써, 단말사용자가 지정하는 화조로 음성합성을 행하는 것으로 이루어지는 운율데이터의 분배방법.
제 7 항에 있어서,

상기 화조사전의 작성은 공개된 발성내용 관리리스트를 참조함으로써, 운율데이터를 작성하는 것으로 이루어지는 운율데이터의 분배방법.