KR100582154B1

KR100582154B1 - 시퀀스 데이터의 데이터 교환 포맷, 음성 재생 장치 및서버 장치

Info

Publication number: KR100582154B1
Application number: KR1020030081353A
Authority: KR
Inventors: 가와시마다까히로
Original assignee: 야마하 가부시키가이샤
Priority date: 2002-11-19
Filing date: 2003-11-18
Publication date: 2006-05-23
Also published as: CN1223983C; HK1063373A1; KR20040044349A; CN1503219A; CN2705856Y; TW200501056A; US7230177B2; JP2004170618A; TWI251807B; US20040099126A1; JP3938015B2

Abstract

악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터를 동기하여 재생할 수 있는 시퀀스 데이터 교환 포맷을 제공한다. 파일(1)은 청크 구조로 되어 있으며, 내부에 관리용의 정보를 포함하는 콘텐츠 인포 청크(2), 옵셔널 데이터 청크(3) 및 음성 재생용의 HV 트랙 청크(4)를 포함한다. HV 트랙 청크(4)에 포함되는 음성 재생 시퀀스 데이터는, (1) 합성되는 음성의 판독을 나타내는 텍스트 정보와 음성 표현을 지정하는 음율 기호로 이루어지는 텍스트 기술형, (2) 합성되는 음성을 나타내는 음소 정보와 음율 제어 정보로 이루어지는 음소 기술형, 또는 (3) 재생되는 음성을 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형 중 어느 하나를 선택할 수 있다. HV 트랙 청크(4)는, SMAF 파일 내에 스코어 트랙 청크 등과 마찬가지로 포함시킬 수 있다.

콘텐츠 인포 청크, 옵셔널 데이터 청크, HV 트랙 청크, 시퀀스 데이터 청크

Description

시퀀스 데이터의 데이터 교환 포맷, 음성 재생 장치 및 서버 장치{DATA INTERCHANGE FORMAT OF SEQUENCE DATA, SOUND REPRODUCING APPARATUS AND SERVER EQUIPMENT}

도 1은 본 발명에서의 음성 재생 시퀀스 데이터의 데이터 교환 포맷의 일 실시예를 도시하는 도면.

도 2는 HV 트랙 청크를 데이터 청크의 하나로서 포함하는 SMAF 파일의 예를 도시하는 도면.

도 3은 본 발명의 데이터 교환 포맷을 작성하는 시스템 및 해당 데이터 교환 포맷 파일을 이용하는 시스템의 개략 구성의 일례를 도시하는 도면.

도 4는 음원부의 개략 구성의 일례를 도시하는 도면.

도 5는 (a) TSeq형, (b) PSeq형, 및, (c) FSeq형의 3가지의 포맷 타입의 차이에 대하여 설명하기 위한 도면.

도 6의 (a)는 시퀀스 데이터의 구성, 도 6의 (b)는 듀레이션과 게이트 타임의 관계를 도시하는 도면.

도 7의 (a)는 TSeq 데이터 청크의 일례를 도시하는 도면이고, 도 7의 (b)는 그 재생 시간 처리에 대하여 설명하기 위한 도면.

도 8은 운율 제어 정보에 대하여 설명하기 위한 도면.

도 9는 게이트 타임과 딜레이 타임과의 관계를 도시하는 도면.

도 10은 포르만트의 레벨과 중심 주파수를 도시하는 도면.

도 11은 FSeq 데이터 청크의 바디부의 데이터를 도시하는 도면.

도 12는 음성 재생 장치의 하나인 휴대 통신 단말기에 대하여 본 발명의 데이터 교환 포맷의 파일을 배신하는 콘텐츠 데이터 배신 시스템의 개략 구성의 일례를 도시하는 도면.

도 13은 휴대 통신 단말기의 일 구성예를 도시하는 블록도.

도 14는 본 발명의 데이터 교환 포맷의 파일을 재생하는 처리의 흐름을 설명하는 흐름도.

도 15는 SMAF의 개념을 설명하기 위한 도면.

<도면의 주요 부분에 대한 부호의 설명>

1 : 본 발명의 데이터 교환 포맷을 갖는 파일

2 : 콘텐츠 인포 청크

3 : 옵셔널 데이터 청크

4 : HV 트랙 청크

5, 11, 12 : 시퀀스 데이터 청크

6∼8 : TSeq 데이터 청크

9 : 셋업 데이터 청크

10 : 딕셔너리 데이터 청크

13∼15 : FSeq 데이터 청크

21 : 악곡 데이터

22 : 텍스트 파일

23 : 오서링 툴

24 : 본 발명의 데이터 교환 포맷을 갖는 파일

25 : 이용 장치

26 : 시퀀서

27 : 음원부

28 : 포르만트 생성부

29 : 피치 생성부

30 : 믹싱부

51 : 휴대 통신 단말기

52 : 기지국

53 : 이동 교환국

54 : 관문국

55 : 인터넷

56 : 다운로드 서버

57 : 콘텐츠 데이터 제작 회사

본 발명은, 시퀀스 데이터의 데이터 교환 포맷, 음성 재생 장치 및 서버 장치에 관한 것이다.

음원을 이용하여 음악을 표현하기 위한 데이터를 반포하거나, 서로 이용하기 위한 데이터 교환 포맷으로서, SMF(Standard MIDI File Format)나 SMAF(Synthetic Music Mobile Application Format) 등이 알려져 있다. SMAF는, 휴대 단말기 등에 있어서 멀티미디어 콘텐츠를 표현하기 위한 데이터 포맷 사양이다(SMAF 사양서 Ver. 3.06 야마하 주식회사, [평성14년 10월18일 검색], 인터넷<URL:http://smaf.yamaha.co.jp> 참조)

도 15를 참조하면서 SMAF에 대하여 설명한다.

도 15에서, 참조 부호 100은 SMAF 파일로서, 청크로 불리는 데이터의 덩어리가 기본 구조로 되어 있다. 청크는 고정 길이(8바이트)의 헤더부와 임의 길이의 바디부로 이루어지고, 헤더부는, 또한, 4바이트의 청크 ID와 4바이트의 청크 사이즈로 나누어진다. 청크 ID는 청크의 식별자로 이용하고, 청크 사이즈는 바디부의 길이를 나타내고 있다. SMAF 파일은, 그 자체 및 그것에 포함되는 각종 데이터도 모두 청크 구조로 되어 있다.

도 15에 도시한 바와 같이, SMAF 파일(100)의 내용은, 관리용의 정보가 저장되어 있는 콘텐츠 인포 청크(Contents Info Chunk)(101)와, 출력 디바이스에 대한 시퀀스 데이터를 포함하는 1개 이상의 트랙 청크(102∼108)로 이루어진다. 시퀀스 데이터는 출력 디바이스에 대한 제어를 시간을 쫓아 정의한 데이터 표현이다. 1개의 SMAF 파일(100)에 포함되는 모든 시퀀스 데이터는 시각 0에서 동시에 재생을 개 시하는 것으로 정의되어 있어, 결과적으로 모든 시퀀스 데이터가 동기하여 재생된다.

시퀀스 데이터는 이벤트와 듀레이션의 조합으로 표현된다. 이벤트는, 시퀀스 데이터에 대응하는 출력 디바이스에 대한 제어 내용의 데이터 표현이고, 듀레이션은, 이벤트와 이벤트 사이의 경과 시간을 표현하는 데이터이다. 이벤트의 처리 시간은 실제로는 0이 아니지만, SMAF의 데이터 표현으로서는 0으로 간주하고, 시간의 흐름은 모두 듀레이션으로 나타내도록 하고 있다. 임의의 이벤트를 실행하는 시각은, 그 시퀀스 데이터의 선두로부터의 듀레이션을 적산함으로써 일의적으로 결정할 수 있다. 이벤트의 처리 시간은, 다음 이벤트의 처리 개시 시각에 영향을 주지 않는 것이 원칙이다. 따라서, 값이 0인 듀레이션을 사이에 두고 연속한 이벤트는 동시에 실행되는 것으로 해석된다.

SMAF에서는, 상기 출력 디바이스로서, MIDI(Musical Instrument Digital Interface) 상당의 제어 데이터로 발음을 행하는 음원 디바이스(111), PCM 데이터의 재생을 행하는 PCM 음원 디바이스(PCM 디코더)(112), 텍스트나 화상의 표시를 행하는 LCD 등의 표시 디바이스(113) 등이 정의되어 있다.

트랙 청크에는, 정의되어 있는 각 출력 디바이스에 대응하여, 스코어 트랙 청크(102∼105), PCM 오디오 트랙 청크(106), 그래픽스 트랙 청크(107) 및 마스터 트랙 청크(108)가 있다. 여기서, 마스터 트랙 청크를 제외한 스코어 트랙 청크, PCM 오디오 트랙 청크 및 그래픽스 트랙 청크는, 각각 최대 256트랙까지 기술하는 것이 가능하다.

도시한 예에서는, 스코어 트랙 청크(102∼105)는 음원 디바이스(111)를 재생하기 위한 시퀀스 데이터를 저장하고, PCM 트랙 청크(106)는 PCM 음원 디바이스(112)에서 발음되는 ADPCM이나 MP3, TwinVQ 등의 wave 데이터를 이벤트 형식으로 저장하며, 그래픽스 트랙 청크(107)는 배경 화상이나 삽입 정지 화상, 텍스트 데이터와, 이들을 표시 디바이스(113)에서 재생하기 위한 시퀀스 데이터를 저장하고 있다. 또한, 마스터 트랙 청크(108)에는 SMAF 시퀀서 자신을 제어하기 위한 시퀀스 데이터가 저장되어 있다.

한편, 음성 합성의 방법으로서, LPC 등의 필터 합성 방식이나 복합 정현파 음성 합성법 등의 파형 합성 방식이 잘 알려져 있다. 복합 정현파 음성 합성법(CSM법)은, 복수의 정현파의 합에 의해 음성 신호를 모델화하여 음성 합성을 행하는 방식으로, 간단한 합성법이면서 양질의 음성을 합성할 수 있다(嵯峨山茂樹, 板倉文忠, 「복합 정현파 음성 합성 방식의 검토와 합성기의 시작」, 일본 음향 학회, 음성 연구회 자료, 자료 번호S80-12(1980-5), p.93-100(1980. 5. 26 참조).

또한, 음원을 이용하여 음성 합성시킴으로써, 가성을 발생시키는 음성 합성 장치도 제안되어 있다(일본 특개평9-50287호 공보 참조).

상술한 바와 같이, SMAF는, MIDI 상당의 데이터(악곡 데이터), PCM 오디오 데이터, 텍스트나 화상의 표시 데이터 등의 각종 시퀀스 데이터를 포함하며, 모든 시퀀스를 시간적으로 동기하여 재생할 수 있다.

그러나, SMF나 SMAF에는 음성(사람의 소리)을 표현하는 것에 대해서는 정의 되어 있지 않다.

따라서, SMF 등의 MIDI 이벤트를 확장하여 음성을 합성하는 것도 생각되지만, 이 경우에는, 음성 부분만 일괄적으로 추출하여 음성 합성할 때에 처리가 복잡하게 된다고 하는 문제점이 있다.

따라서 본 발명은, 유연성이 있으며, 또한, 악곡 시퀀스 등과 음성 재생 시퀀스를 동기하여 재생시키는 것이 가능한 시퀀스 데이터의 데이터 교환 포맷의 파일을 재생할 수 있는 음성 재생 장치, 해당 데이터 교환 포맷의 데이터를 배신할 수 있는 서버 장치 및 해당 데이터 교환 포맷의 파일을 저장하는 기억 매체를 제공하는 것을 목적으로 하고 있다.

상기 목적을 달성하기 위해, 본 발명은, 제1 기억부, 제어부 및 음원을 포함하는 악음 및 음성 재생 장치로서, 상기 제1 기억부는, 악곡부와 음성부를 포함하는 악곡 데이터 파일을 기억하고, 상기 악곡부는, 악음의 생성을 지시하는 일련의 악음 생성 이벤트를 포함하며, 상기 음성부는, 일련의 음성의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트를 포함하는 음성 재생 시퀀스 데이터이고, 상기 제어부는, 상기 제1 기억부에 기억되어 있는 상기 악곡 데이터 파일을 판독하고, 상기 음원은, 상기 판독한 악곡 데이터 파일에 포함되는 상기 악곡부에 기초하여 악음을 생성하고, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부에 기초하여 음성을 생성하며, 그것에 의 해, 상기 생성된 악음 및 음성을 합성하여 출력하는 것을 특징으로 한다.

또한, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부 내의 음성 재생 이벤트 데이터가, 포르만트를 생성하기 위한 포르만트 제어 정보의 재생을 지시하는 경우에, 상기 음원은, 상기 음성 재생 시퀀스 데이터에 포함되며 또한 해당 데이터에 의해 지시된 상기 포르만트 제어 정보에 기초하여, 상기 음성을 생성하는 것을 특징으로 한다.

또한, 합성되는 음성의 판독을 나타내는 텍스트 정보 및 운율 기호와, 음소 정보 및 운율 제어 정보와의 대응 관계를 기록한 제1 사전 데이터를 기억하는 제2 기억부와, 합성되는 음성에 대응하는 음소 정보 및 운율 제어 정보와 포르만트를 생성하기 위한 포르만트 제어 정보와의 대응 관계를 기억한 제2 사전 데이터를 기억하는 제3 기억부를 포함하며, 상기 제어부는, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부 내의 음성 재생 이벤트 데이터가, 텍스트 정보와 운율 기호를 포함하는 텍스트 기술형의 정보의 재생을 지시할 때, 상기 제2 기억부에 기억된 상기 제1 사전 데이터를 참조하여, 해당 데이터에 의해 지시된 텍스트 정보 및 운율 기호에 대응하는 음소 정보 및 운율 제어 정보를 취득하고, 상기 제3 기억부에 기억된 상기 제2 사전 데이터를 참조하여, 상기 취득된 음소 정보 및 운율 제어 정보에 대응하는 포르만트 제어 정보를 판독하며, 상기 음원은, 판독된 상기 포르만트 제어 정보에 기초하여 상기 음성을 생성하는 것을 특징으로 한다.

또한, 음소 정보 및 운율 제어 정보와, 포르만트를 생성하기 위한 포르만트 제어 정보와의 대응 관계를 기억한 사전 데이터를 기억하는 제2 기억부를 갖고, 상 기 제어부는, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부 내의 음성 재생 이벤트 데이터가, 합성되는 음성에 대응하는 음소 정보와 운율 제어 정보를 포함하는 음소 기술형의 정보의 재생을 지시할 때, 상기 제2 기억부에 기억된 상기 사전 데이터를 참조하여, 해당 음성 재생 이벤트 데이터에 의해 지시된 음소 정보 및 운율 제어 정보에 대응하는 포르만트 제어 정보를 취득하고, 상기 음원은, 취득된 상기 포르만트 제어 정보에 기초하여 상기 음성을 생성하는 것을 특징으로 한다.

또한, 상기 제어부는, 상기 제1 기억부에 기억되어 있는 상기 악곡 데이터 파일에 포함되는 음성부의 포맷 타입을 판별하고, 해당 포맷 타입이 포맷 변환이 필요한 타입이다라고 판별된 경우, 상기 음성부의 포맷 타입을 다른 포맷 타입으로 변환하며, 상기 음원은, 상기 다른 포맷으로 변환된 음성부에 기초하여 음성을 생성하는 것을 특징으로 한다.

또한, 상기 제어부에서의 상기 음성부의 포맷 변환은, 제2 기억부에 기억되어 있는 사전 데이터를 참조하여 행해지는 것을 특징으로 한다.

또한, 상기 음성부는, 상기 음성부의 언어 종별을 나타내는 언어 타입을 지정하는 데이터를 포함하는 것을 특징으로 한다.

또한, 상기 음성은 사람의 소리인 것을 특징으로 한다.

또한, 본 발명은, 음원 디바이스로 사람의 소리를 재생시키기 위한 음성 재생 시퀀스 데이터를 기억하는 기억 매체로서, 상기 음성 재생 시퀀스 데이터는, 관리용의 정보를 포함하는 콘텐츠 데이터 및 음성 시퀀스 데이터를 포함하는 트랙 청 크로 이루어지는 데이터 구조를 갖고, 상기 음성 시퀀스 데이터는, 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있는 것을 특징으로 한다.

또한, 상기 음성 재생 이벤트 데이터는, 상기 음원 디바이스로 재생되는 사람의 소리의 음독을 나타내는 텍스트 정보와 사람의 소리의 표현을 지정하는 운율 기호와로 이루어지는 텍스트 기술형의 정보, 상기 음원 디바이스로 재생되는 사람 의 소리를 나타내는 음소 정보와 운율 제어 정보로 이루어지는 음소 기술형의 정보, 또는, 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형의 정보의 재생을 지시하는 데이터인 것을 특징으로 한다.

또한, 음원 디바이스로, 악음 및 사람의 소리를 재생시키기 위한 시퀀스 데이터를 기억하는 기억 매체로서, 상기 시퀀스 데이터는, 악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터로 이루어지는 데이터 구조를 갖고, 상기 악곡 시퀀스 데이터는, 악음의 생성을 지시하는 악음 생성 이벤트 데이터, 및 해당 악음 생성 이벤트를 실행하는 타이밍을 선행하는 악음 생성 이벤트로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있으며, 상기 음성 재생 시퀀스 데이터는, 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트를 실행하는 타이밍을 선행하는 음성 재생 이벤트로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있고, 상기 음원 디바이스가 상기 악곡 시퀀스 데이터 및 상기 음성 재생 시퀀스 데이터의 재생을 동시에 개시함으로써, 상기 악음과 상기 사람의 소리가, 동일 시간축 상에서 재생하는 것이 가능하게 되는 것을 특징으로 한다.

또한, 상기 악곡 시퀀스 데이터 및 음성 재생 시퀀스 데이터는, 각각 서로 다른 청크에 포함되어 있는 것을 특징으로 한다.

또한, 상기 음성 재생 이벤트 데이터는, 상기 음원 디바이스로 재생되는 사람의 소리의 음독을 나타내는 텍스트 정보와 사람의 소리의 표현을 지정하는 운율 기호로 이루어지는 텍스트 기술형의 정보, 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 음소 정보와 운율 제어 정보로 이루어지는 음소 기술형의 정보, 또는 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형의 정보의 재생을 지시하는 데이터인 것을 특징으로 한다.

또한, 본 발명은, 기억부와 송신부를 포함하는 서버 장치로서, 상기 기억부는, 악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터를 포함하는 악곡 파일을 기억하는 것이고, 상기 악곡 시퀀스 데이터는, 음원 디바이스에 대하여 악음의 생성을 지시하는 악음 생성 이벤트 데이터, 및 해당 악음 생성 이벤트를 실행하는 타이밍을 선행하는 악음 생성 이벤트로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있고, 상기 음성 재생 시퀀스 데이터는, 음원 디바이스에 대하여 음성의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트를 실행하는 타이밍을 선행하는 음성 재생 이벤트로부터의 경과 시간으 로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있으며, 상기 송신부는, 접속 가능한 클라이언트 단말 장치로부터의 요구에 따라, 상기 악곡 파일을 배신하는 것을 특징으로 한다.

또한, 상기 음성 재생 이벤트 데이터는, 상기 음원 디바이스로 재생되는 음성의 음독을 나타내는 텍스트 정보와 음성 표현을 지정하는 운율 기호로 이루어지는 텍스트 기술형의 정보, 상기 음원 디바이스로 재생되는 음성을 나타내는 음소 정보와 운율 제어 정보로 이루어지는 음소 기술형의 정보, 또는 상기 음원 디바이스로 재생되는 음성을 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형의 정보의 재생을 지시하는 데이터이다.

<실시예>

도 1은 본 발명에서의 음성 재생 시퀀스 데이터의 데이터 교환 포맷의 일 실시예를 도시하는 도면이다. 도 1에서, 참조 부호 1은 본 발명의 데이터 교환 포맷을 갖는 파일이다. 이 파일(1)은, 전술한 SMAF 파일과 마찬가지로, 청크 구조를 기본으로 하고 있으며, 헤더부와 바디부를 갖는다(파일 청크).

상기 헤더부에는, 파일을 식별하기 위한 파일 ID(청크 ID)와 그에 후속하는 바디부의 길이를 나타내는 청크 사이즈가 포함되어 있다.

바디부는 청크열이며, 도시하는 예에서는, 콘텐츠 인포 청크(Contents Info Chunk)(2), 옵셔널 데이터 청크(Optional Data Chunk)(3), 및, 음성 재생 시퀀스 데이터를 포함하는 HV(Human Voice) 트랙 청크(4)가 포함되어 있다. 또한, 도 1에는, HV 트랙 청크(4)로서, HV 트랙 청크 #00의 하나만이 기재되어 있지만, 파일(1) 내에 복수개의 HV 트랙 청크(4)를 포함시킬 수 있다.

또한, 본 발명에서는, 상기 HV 트랙 청크(4)에 포함되는 음성 재생 시퀀스 데이터로서, 3개의 포맷 타입(TSeq형, PSeq형, FSeq형)이 정의되어 있다. 이들에 대해서는 후술한다.

상기 콘텐츠 인포 청크(2)에는, 포함되어 있는 콘텐츠의 클래스, 종류, 저작권 정보, 장르명, 곡명, 아티스트명, 작사/작곡자명 등의 관리용의 정보가 저장되어 있다. 또한, 상기 저작권 정보나 장르명, 곡명, 아티스트명, 작사/작곡자명 등의 정보를 저장하는 옵셔널 데이터 청크(3)를 설정해도 된다.

도 1에 도시한 음성 재생 시퀀스 데이터의 데이터 교환 포맷은, 그것 단독으로 음성(예를 들면 사람의 소리)을 재생할 수 있지만, 상기 HV 트랙 청크(4)를 데이터 청크의 하나로서 전술한 SMAF 파일에 포함시킬 수 있다.

도 2는 전술한 HV 트랙 청크(4)를 데이터 청크의 하나로서 포함하는 본 발명의 시퀀스 데이터의 데이터 교환 포맷을 갖는 파일의 구조를 도시하는 도면이다. 이 파일은, SMAF 파일을 음성 재생 시퀀스 데이터를 포함하도록 확장한 것이라고 할 수 있다. 도 2에서, 데이터 교환 포맷을 갖는 파일(100)은, 청크로 불리는 데이터의 덩어리가 기본 구조로 되어 있다. 청크는 고정 길이(8바이트)의 헤더부와 임의 길이의 바디부로 이루어지고, 헤더부는, 또한, 4바이트의 청크 ID와 4바이트의 청크 사이즈로 나누어진다. 청크 ID는 청크의 식별자로 이용하고, 청크 사이즈는 바디부의 길이를 나타내고 있다. 본 파일(100)은, 그 자체 및 그것에 포함되는 각종 데이터도 모두 청크 구조로 되어 있다.

도 2에 도시한 바와 같이, 파일(100)의 내용은, 관리용의 정보가 저장되어 있는 콘텐츠 인포 청크(Contents Info Chunk)(101)와, 출력 디바이스에 대한 시퀀스 데이터를 포함하는 1개 이상의 트랙 청크(102∼108)로 이루어진다. 시퀀스 데이터는 출력 디바이스에 대한 제어를 시간을 쫓아 정의한 데이터 표현이다. 1개의 파일(100)에 포함되는 모든 시퀀스 데이터는 시각 0에서 동시에 재생을 개시하는 것으로 정의되어 있으며, 결과적으로 모든 시퀀스 데이터가 동기하여 재생된다.

시퀀스 데이터는 이벤트와 듀레이션의 조합으로 표현된다. 이벤트는, 시퀀스 데이터에 대응하는 출력 디바이스에 대한 제어 내용의 데이터 표현이며, 듀레이션은, 이벤트와 이벤트 사이의 경과 시간을 표현하는 데이터이다. 이벤트의 처리 시간은 실제로는 0이 아니지만, SMAF의 데이터 표현으로서는 0으로 간주하고, 시간의 흐름은 모두 듀레이션으로 나타내도록 하고 있다. 임의의 이벤트를 실행하는 시각은, 그 시퀀스 데이터의 선두로부터의 듀레이션을 적산함으로써 일의적으로 결정할 수 있다. 이벤트의 처리 시간은, 다음 이벤트의 처리 개시 시각에 영향을 주지 않는 것이 원칙이다. 따라서, 값이 0인 듀레이션을 사이에 두고 연속한 이벤트는 동시에 실행되는 것으로 해석된다.

SMAF에서는, 상기 출력 디바이스로서, MIDI(musical instrument digital interface) 상당의 제어 데이터로 발음을 행하는 음원 디바이스, PCM 데이터의 재생을 행하는 PCM 음원 디바이스(PCM 디코더), 텍스트나 화상의 표시를 행하는 LCD 등의 표시 디바이스 등이 정의되어 있다.

도시한 예에서는, 스코어 트랙 청크(102∼105)는 음원 디바이스를 재생하기 위한 시퀀스 데이터를 저장하고, PCM 트랙 청크(106)는 PCM 음원 디바이스로 발음되는 ADPCM이나 MP3, TwinVQ 등의 wave 데이터를 이벤트 형식으로 저장하며, 그래픽스 트랙 청크(107)는 배경 화상이나 삽입 정지 화상, 텍스트 데이터와, 이들을 표시 디바이스로 재생하기 위한 시퀀스 데이터를 저장하고 있다. 또한, 마스터 트랙 청크(108)에는 SMAF 시퀀서 자신을 제어하기 위한 시퀀스 데이터가 저장되어 있다.

도 2에 도시한 바와 같이, 전술한 음성 재생 시퀀스 데이터의 데이터 교환 포맷에서의 HV 트랙 청크(4)를, 전술한 스코어 트랙 청크(102∼105), PCM 오디오 트랙 청크(106), 그래픽스 트랙 청크(107) 등과 함께, SMAF 파일(100) so에 저장함으로써, 악곡의 연주나 화상, 텍스트의 표시와 동기하여 음성을 재생하는 것이 가능해지고, 예를 들면, 악음에 대하여, 음원이 노래하는 콘텐츠 등을 실현할 수 있게 된다.

도 3은 상기 도 2에 도시한 본 발명의 데이터 교환 포맷의 파일을 작성하는 시스템 및 해당 데이터 교환 포맷 파일을 이용하는 시스템의 개략 구성의 일례를 도시하는 도면이다.

도 3에서, 참조 부호 21은 SMF나 SMAF 등의 악곡 데이터 파일, 참조 부호 22는 재생되는 음성에 대응하는 텍스트 파일, 참조 부호 23은 본 발명에 따른 데이터 교환 포맷의 파일을 작성하기 위한 데이터 포맷 제작 툴(오서링 툴), 참조 부호 24는 본 발명의 데이터 교환 포맷을 갖는 파일이다.

오서링 툴(23)은, 재생하는 음성의 음독을 나타내는 음성 합성용 텍스트 파일(22)을 입력하여, 편집 작업 등을 행하고, 그것에 대응하는 음성 재생 시퀀스 데이터를 작성한다. 그리고, SMF나 SMAF 등의 악곡 데이터 파일(21)에 그 작성된 음성 재생 시퀀스 데이터를 더하여, 본 발명의 데이터 교환 포맷 사양에 기초하는 파일(상기 도 2에 도시한 HV 트랙 청크를 포함하는 SMAF 파일)(24)을 작성한다.

작성된 파일(24)은, 시퀀스 데이터에 포함되어 있는 듀레이션에 의해 규정되는 타이밍에서 음원부(27)에 제어 파라미터를 공급하는 시퀀서(26)와, 시퀀서(26)로부터 공급되는 제어 파라미터에 기초하여 음성을 재생 출력하는 음원부(27)를 갖는 이용 장치(25)(후술하는 휴대 통신 단말기(51) 등)로 전송되며, 거기에서, 악곡 등과 함께 음성이 동기하여 재생되게 된다.

도 4는 상기 음원부(27)의 개략 구성의 일례를 도시하는 도면이다.

도 4에 도시한 예에서는, 음원부(27)는, 복수의 포르만트 생성부(28)와 1개의 피치 생성부(29)를 갖고 있으며, 상기 시퀀서(26)로부터 출력되는 포르만트 제어 정보(각 포르만트를 생성하기 위한 포르만트 주파수, 레벨 등의 파라미터) 및 피치 정보에 기초하여 각 포르만트 생성부(28)에서 대응하는 포르만트 신호를 발생하고, 이들을 믹싱부(30)에서 가산함으로써 대응하는 음성 합성 출력이 생성된다. 또한, 각 포르만트 생성부(28)는 포르만트 신호를 발생시키기 위해 그 기초가 되는 기본 파형을 발생시키지만, 이 기본 파형의 발생에는, 예를 들면, 주지의 FM 음원의 파형 발생기를 이용할 수 있다.

상술한 바와 같이, 본 발명에서는, 상기 HV 트랙 청크(4)에 포함되는 음성 재생 시퀀스 데이터에 3개의 포맷 타입을 준비하고, 이들을 임의로 선택하여 이용할 수 있도록 하고 있다. 이하, 이들에 대하여 설명한다.

재생하는 음성을 기술하기 위해서는, 재생하는 음성에 대응하는 문자 정보, 언어에 의존하지 않는 발음 정보, 음성 파형 그 자체를 나타내는 정보 등 추상도가 다른 각종 단계의 기술 방법이 있지만, 본 발명에서는, (a) 텍스트 기술형(TSeq형), (b) 음소 기술형(PSeq형) 및 (c) 포르만트 프레임 기술형(FSeq형)의 3가지의 포맷 타입을 정의하고 있다.

우선, 도 5를 참조하여, 이들 3개의 포맷 타입의 상위에 대하여 설명한다.

(a) 텍스트 기술형(TSeq)

TSeq형은, 발음해야 할 음성을 텍스트 표기에 의해 기술하는 포맷으로, 각각의 언어에 의한 문자 코드(텍스트 정보)와 액센트 등의 음성 표현을 지시하는 기호(운율 기호)를 포함한다. 이 포맷의 데이터는 에디터 등을 이용하여 직접 작성할 수 있다. 재생할 때는, 도 5의 (a)에 도시한 바와 같이, 미들웨어 처리에 의해, 그 TSeq형의 시퀀스 데이터를, 우선, PSeq형으로 변환하고(제1 컨버트 처리), 다음에, PSeq형을 FSeq형으로 변환(제2 컨버트 처리)하여, 상기 음원부(27)로 출력하게 된다.

여기서, TSeq형으로부터 PSeq형으로 변환하는 제1 컨버트 처리는, 언어에 의존하는 정보인 문자 코드(예를 들면, 히라가나나 가타카나 등의 텍스트 정보)와 운율 기호와, 그것에 대응하는 언어에 의존하지 않는 발음을 나타내는 정보(음소)와 운율을 제어하기 위한 운율 제어 정보를 저장한 제1 사전 데이터(장치의 ROM이나 RAM 내에 기억)를 참조함으로써 행해지고, PSeq형으로부터 FSeq형으로의 변환인 제2 컨버트 처리는, 각 음소 및 운율 제어 정보와 그것에 대응하는 포르만트 제어 정보(각 포르만트를 생성하기 위한 포르만트의 주파수, 대역폭, 레벨 등의 파라미터)를 저장한 제2 사전 데이터(장치의 ROM이나 RAM 내에 기억)를 참조함으로써 행해진다.

(b) 음소 기술형(PSeq형)

PSeq형은, SMF로 정의하는 MIDI 이벤트와 유사한 형식으로 발음해야 할 음성에 관한 정보를 기술하는 것이며, 음성 기술로서는 언어 의존에 의하지 않는 음소 단위를 베이스로 한다. 도 5의 (b)에 도시한 바와 같이, 상기 오서링 툴 등을 이용하여 실행되는 데이터 제작 처리에서는, 우선 TSeq형의 데이터 파일을 작성하고, 이것을 제1 컨버트 처리에 의해 PSeq형으로 변환한다. 이 PSeq형을 재생할 때에는, 미들웨어 처리로서 실행되는 제2 컨버트 처리에 의해 PSeq형의 데이터 파일을 FSeq형으로 변환하여, 음원부(27)로 출력한다.

(c) 포르만트 프레임 기술형(FSeq형)

FSeq형은, 포르만트 제어 정보를 프레임 데이터열로서 표현한 포맷이다. 도 5의 (c)에 도시한 바와 같이, 데이터 제작 처리에서, TSeq형→제1 컨버트 처리→PSeq형→제2 컨버트 처리→FSeq형으로의 변환을 행한다. 또한, 샘플링된 파형 데이터로부터 통상의 음성 분석 처리와 마찬가지의 처리인 제3 컨버트 처리에 의해 FSeq형의 데이터를 작성할 수도 있다. 재생 시에는, 해당 FSeq형의 파일을 그 상태 그대로 상기 음원부로 출력하여 재생할 수 있다.

이와 같이, 본 발명에서는, 추상도가 서로 다른 3종류의 포맷 타입을 정의하고, 각각의 경우에 따라, 원하는 타입을 선택할 수 있도록 하고 있다. 또한, 음성을 재생하기 위해 실행하는 상기 제1 컨버트 처리 및 상기 제2 컨버트 처리를 미들웨어 처리로서 실행시킴으로써, 어플리케이션의 부담을 경감할 수 있다.

다음으로, 상기 HV 트랙 청크(4)(도 1)의 내용에 대하여 상세히 설명한다.

상기 도 1에 도시한 바와 같이, 각 HV 트랙 청크(4)에는, 이 HV 트랙 청크에 포함되어 있는 음성 재생 시퀀스 데이터가 전술한 3가지의 포맷 타입 중의 어떤 타입인지를 나타내는 포맷 타입(Format Type), 사용되고 있는 언어 종별을 나타내는 언어 타입(Language Type) 및 타임 베이스(Timebase)를 각각 지정하는 데이터가 기술되어 있다.

포맷 타입(Format Type)의 예를 표 1에 나타낸다.

포맷 타입	설명
0x00	TSeq형
0x01	PSeq형
0x02	FSeq형

언어 타입(Language Type)의 예를 표 2에 나타낸다.

언어 타입	설명
0x00	Shift-JIS
0x02	EUC-KR(KS)

또한, 여기서는, 일본어(0x00; 0x는 16진을 나타냄. 이하, 동일함)와 한국어(0x02)만을 나타내고 있지만, 중국어, 영어, 대만어 등 그 밖의 언어에 대해서도 마찬가지로 정의할 수 있다.

타임 베이스(Timebase)는, 이 트랙 청크에 포함되는 시퀀스 데이터 청크 내의 듀레이션 및 게이트 타임의 기준 시간을 정하는 것이다. 본 실시예에서는, 20msec로 되어 있지만 임의의 값으로 설정할 수 있다.

타임 베이스	설명
0x11	20mesc

상술한 3가지의 포맷 타입의 데이터의 상세에 대하여 더 설명한다.

(a) TSeq형(포맷 타입=0x00)

상술한 바와 같이, 이 포맷 타입은, 텍스트 표기에 의한 시퀀스 표현(TSeq : text sequence)을 이용한 포맷으로, 시퀀스 데이터 청크(5)와 n개(n은 1 이상의 정수)의 TSeq 데이터 청크(TSeq #00∼TSeq #n)(6, 7, 8)를 포함하고 있다(도 1). 시퀀스 데이터에 포함되는 음성 재생 이벤트(노트 온 이벤트)로 TSeq 데이터 청크에 포함되는 데이터의 재생을 지시한다.

(a-1) 시퀀스 데이터 청크

시퀀스 데이터 청크는, SMAF에서의 시퀀스 데이터 청크와 마찬가지로, 듀레이션과 이벤트의 조합을 시간순으로 배치한 시퀀스 데이터를 포함한다. 도 6의 (a)는 시퀀스 데이터의 구성을 도시하는 도면이다. 여기서, 듀레이션은, 이벤트와 이벤트 사이의 시간을 나타내고 있다. 선두의 듀레이션(Duration 1)은, 시각 0부터의 경과 시간을 나타내고 있다. 도 6의 (b)는, 이벤트가 노트 메시지인 경우에, 듀레이션과 노트 메시지에 포함되는 게이트 타임의 관계를 도시하는 도면이다. 이 도면에 도시한 바와 같이, 게이트 타임은 그 노트 메시지의 발음 시간을 나타내고 있다. 또한, 도 6에 도시한 시퀀스 데이터 청크의 구조는 PSeq형 및 FSeq형에서의 시퀀스 데이터 청크에서도 마찬가지이다.

이 시퀀스 데이터 청크로 서보트되는 이벤트로서는, 다음의 3가지의 이벤트가 있다. 또한, 이하에 기술하는 초기 값은 이벤트 지정이 없을 때의 디폴트값이다.

(a-1-1) 노트 메시지「0x9n kk gt」

여기서, n : 채널 번호(0x0[고정]), kk : TSeq 데이터 번호(0x00∼0x7F), gt : 게이트 타임(1∼3바이트)이다.

노트 메시지는, 채널 번호 n으로 지정되는 채널의 TSeq 데이터 번호 kk로 지정되는 TSeq 데이터 청크를 해석하여 발음을 개시하는 메시지이다. 또한, 게이트 타임 gt가 「0」의 노트 메시지에 대해서는 발음을 행하지 않는다.

(a-1-2) 볼륨「0xBn 0x07 vv」

여기서, n : 채널 번호(0x0[고정]), vv : 컨트롤값(0x00∼0x7F)이다. 또한, 채널 볼륨의 초기 값은 0x64이다.

볼륨은 지정 채널의 음량을 지정하는 메시지이다.

(a-1-3) 팬「0xBn 0x0A vv」

여기서, n : 채널 번호(0x0[고정]), vv : 컨트롤값(0x00∼0x7F)이다. 또한, 팬 포트 초기 값은 0x40(센터)이다.

팬 메시지는 지정 채널의 스테레오 음장 위치를 지정하는 메시지이다.

(a-2) TSeq 데이터 청크(TSeq #00∼TSeq #n)

TSeq 데이터 청크는, 음성 합성용의 정보로서, 언어나 문자 코드에 관한 정보, 발음하는 음의 설정, (합성하는) 음독 정보를 표기한 텍스트 등을 포함한, 대화용 포맷으로 태그 형식으로 기입되어 있다. 이 TSeq 데이터 청크는, 사용자에 의한 입력을 용이하게 하기 위해 텍스트 입력으로 되어 있다.

태그는 "<"(0x3C)로 시작하여 제어 태그와 값이 연속하는 형식이며, TSeq 데이터 청크는 탭의 열로 구성되어 있다. 단, 스페이스는 포함하지 않고, 제어 태그 및 값에 "<"는 사용할 수 없다. 또한, 제어 태그는 반드시 1문자로 한다. 제어 태그와 그 유효값에 예를 아래의 표 4에 나타낸다.

태그		값	의미
L	(0x4C)	Language	언어 정보
C	(0x43)	code	문자 코드명
T	(0x54)	전각 문자열	합성용 텍스트
P	(0x50)	0-	무음의 삽입
S	(0x53)	0-127	재생 속도
V	(0x56)	0-127	음량
N	(0x4E)	0-127	음의 높이
G	(0x47)	0-127	음색 선택
R	(0x52)	None	리세트
Q	(0x51)	None	종료

상기 제어 태그 중의 텍스트 태그 「T」에 대하여 더 설명한다.

텍스트 태그 「T」에 후속하는 값은, 전각 히라가나 문자열로 기술된 음독 정보(일본어의 경우)와 음성 표현을 지시하는 운율 기호(Shift-JIS 코드)로 이루어진다. 문말에 센텐스 단락 기호가 없을 때는, "。"로 끝나는 것과 동일한 의미로 한다.

이하에 나타낸 것은 운율 기호로서, 음독 정보의 문자 뒤에 붙는다.

" , "(0x8141) : 센텐스의 단락(통상의 인토네이션).

" 。"(0x8142) : 센텐스의 단락(통상의 인토네이션).

" ? "(0x8148) : 센텐스의 단락(의문의 인토네이션).

" ' "(0x8166) : 피치를 올리는 액센트(변화 후의 값은 센텐스 단락까지 유효).

" _ "(0x8151) : 피치를 내리는 액센트(변화 후의 값은 센텐스 단락까지 유효).

" ㅡ "(0x815B) : 장음(직전의 단어를 길게 발음한다. 복수이면 보다 길어진다)

도 7의 (a)는 TSeq 데이터 청크의 데이터의 일례를 도시하는 도면이고, (b)는 그 재생 시간 처리에 대하여 설명하기 위한 도면이다.

최초의 태그 「<LJAPANESE」로 언어가 일본어인 것을 나타내고, 「<CS-JIS」로 문자 코드가 시프트 JIS인 것, 「<G4」로 음색 선택(프로그램 체인지), 「<V1000」으로 음량의 설정, 「<N64」로 음의 높이를 지정하고 있다. 「<T」는 합성용 텍스트를 나타내고, 「<P」는 그 값에 의해 규정되는 msec 단위의 무음 기 간의 삽입을 나타내고 있다.

도 7의 (b)에 도시한 바와 같이, 이 TSeq 데이터 청크의 데이터는, 듀레이션에 의해 지정되는 스타트 시점으로부터 1000msec의 무음 기간을 둔 후에, 「い'やㅡㅡㅡ, き_ょㅡわ'さ_むい_ねㅡ」로 발음되며, 그 후 1500msec의 무음 기간을 둔 후에 「こ'のままい_ったら, は'ちが_つわ, た'いへ'ん_やねㅡ」로 발음된다. 여기서, 「'」, 「_」, 「ㅡ」에 따라 각각에 대응하는 액센트나 장음의 제어가 행해진다.

이와 같이, TSeq형은, 각 국어 각각에 특화한 발음을 하기 위한 문자 코드와 음성 표현(액센트 등)을 태그 형식으로 기술한 포맷이기 때문에, 에디터 등을 이용하여 직접 작성할 수 있다. 따라서, TSeq 데이터 청크의 파일은 텍스트 베이스로 용이하게 가공할 수 있으며, 예를 들면, 기술되어 있는 문장으로부터 인토네이션을 변경하거나, 어미를 가공함으로써 방언에 대응하는 것을 용이하게 행할 수 있다. 또한, 문장 중의 특정 단어만을 교체하는 것도 용이하게 할 수 있다. 또한, 데이터 사이즈가 작다고 하는 장점이 있다.

한편, 이 TSeq형 데이터 청크의 데이터를 해석하여 음성 합성을 하기 위한 처리 부하가 커지고, 보다 정밀한 피치 제어를 행하기 어렵고, 포맷을 확장하여 복잡한 정의를 늘리면, 사용자에게 친숙하지 않게 되고, 언어(문자) 코드에 의존하는(예를 들면, 일본어의 경우에는 Shift-JIS가 일반적이지만, 타국어인 경우에는, 그것에 따른 문자 코드로 포맷을 정의할 필요가 있는) 등의 단점이 있다.

(b) PSeq형(포맷 타입=0x01)

이 PSeq형은, MIDI 이벤트와 유사한 형식의 음소에 의한 시퀀스 표현(PSeq : phoneme sequence)을 이용한 포맷 타입이다. 이 형식은, 음소를 기술하도록 하고 있기 때문에 언어 의존이 없다. 음소는 발음을 나타내는 문자 정보에 의해 표현할 수 있으며, 예를 들면, 복수의 언어에 공통으로 아스키 코드를 이용할 수 있다.

상기 도 1에 도시한 바와 같이, 이 PSeq형은 셋업 데이터 청크(9), 딕셔너리 데이터 청크(10) 및 시퀀스 데이터 청크(11)를 포함하고 있다. 시퀀스 데이터 내의 음성 재생 이벤트(노트 메시지)로 지정된 채널의 음소와 운율 제어 정보의 재생을 지시한다.

(b-1) 셋업 데이터 청크(Setup Data Chunk)(옵션)

음원 부분의 음색 데이터 등을 저장하는 청크로서, 익스클루시브 메시지의 배열을 저장한다. 본 실시예에서는, 포함되어 있는 익스클루시브 메시지는 HV 음색 파라미터 등록 메시지이다.

HV 음색 파라미터 등록 메시지는 「0xF0 Size 0x43 0x79 0x07 0x7F 0x01 PC data...0xF7」의 포맷으로, PC : 프로그램 번호(0x02∼0x0F), data : HV 음색 파라미터이다.

이 메시지는, 해당하는 프로그램 번호 PC의 HV 음색 파라미터를 등록한다.

HV 음색 파라미터를 다음의 표 5에 나타낸다.

#0	기본 음성 번호
#1	피치 시프트량[Cent]
#2	포르만트 주파수 시프트량1
#3	포르만트 주파수 시프트량2
#4	:
#5	포르만트 주파수 시프트량n
#6	포르만트 레벨 시프트량1
#7	포르만트 레벨 시프트량2
#8	:
#9	포르만트 레벨 시프트량n
#10	오퍼레이터 파형 선택1
#11	오퍼레이터 파형 선택2
#12	:
#13	오퍼레이터 파형 선택n

표 5에 도시한 바와 같이, HV 음색 파라미터로서는, 피치 시프트량, 제1∼ 제n(n은 2 이상의 정수)의 각 포르만트에 대한 포르만트 주파수 시프트량, 포르만트 레벨 시프트량 및 오퍼레이터 파형 선택 정보가 포함되어 있다. 전술한 바와 같이, 처리 장치 내에는, 각 음소와 그것에 대응하는 포르만트 제어 정보(포르만트의 주파수, 대역폭, 레벨 등)를 기술한 프리세트 사전(제2 사전)이 기억되어 있고, HV 음색 파라미터는, 이 프리세트 사전에 기억되어 있는 파라미터에 대한 시프트량을 규정하고 있다. 이에 의해, 모든 음소에 대하여 동일한 시프트가 행해져, 합성되는 음성의 음질을 변화시킬 수 있다.

또한, 이 HV 음색 파라미터에 의해, 0x02∼0x0F에 대응하는 수(즉, 프로그램 번호의 수)의 음색을 등록할 수 있다.

(b-2) 딕셔너리 데이터 청크(Dictionary Data Chunk)(옵션)

이 청크에는, 언어 종별에 따른 사전 데이터, 예를 들면, 상기 프리세트 사전과 비교한 차분 데이터나 프리세트 사전에서 정의하지 않은 음소 데이터 등을 포함하는 사전 데이터를 저장한다. 이에 의해, 음색이 다른 개성이 있는 음성을 합 성하는 것이 가능해진다.

(b-3) 시퀀스 데이터 청크(Sequence Data Chunk)

상술한 시퀀스 데이터 청크와 마찬가지로, 듀레이션과 이벤트의 조합을 시간순으로 배치한 시퀀스 데이터를 포함한다.

이 PSeq형에서의 시퀀스 데이터 청크로 서포트하는 이벤트(메시지)를 다음에 열거한다. 판독측은 이들 메시지 이외는 무시한다. 또한, 이하에 기술하는 초기 설정값은 이벤트 지정이 없을 때의 디폴트값이다.

(b-3-1) 노트 메시지「0x9n Nt Vel Gatetime Size data...」

여기서, n : 채널 번호(0x0[고정]), Nt : 노트 번호(절대값 노트 지정 : 0x00∼0x7F, 상대값 노트 지정 : 0x80∼0xFF), Vel : 벨로시티(0x00∼0x7F), Gatetime : 게이트 타임 길이(Variable), Size : 데이터부의 사이즈(가변 길이)이다.

이 노트 메시지에 의해, 지정 채널의 음성의 발음이 개시된다.

또한, 노트 번호의 MSB는, 해석을 절대값과 상대값으로 전환하는 플래그이다. MSB 이외의 7비트는 노트 번호를 나타낸다. 음성의 발음은 모노럴만이기 때문에, 게이트 타임이 겹쳐지는 경우에는 후착 우선으로서 발음한다. 오서링 툴 등에서는, 겹침이 있는 데이터는 민들지 않도록 제한을 두는 것이 바람직하다.

데이터부는, 음소와 그것에 대한 운율 제어 정보(피치 벤드, 볼륨)를 포함하며, 다음의 표 6에 나타내는 데이터 구조로 이루어진다.

#0	딜레이
#1	음소수[=n]
#2	음소1
#3	:
#4	음소n
#5	음소 피치 벤드수[=N]
#6	음소 피치 벤드 위치1
#7	음소 피치 벤드1
#8	:
#9	음소 피치 벤드 위치N
#10	음소 피치 벤드N
#11	음소 볼륨수[=M]
#12	음소 볼륨 위치1
#13	음소 볼륨1
#14	:
#15	음소 볼륨 위치M
#16	음소 볼륨M

표 6에 도시한 바와 같이, 데이터부는, 음소의 수 n(#1), 예를 들면 아스키 코드로 기술한 각각의 음소(음소1∼음소n)(#2∼#4), 및, 운율 제어 정보로 이루어져 있다. 운율 제어 정보는 피치 벤드와 볼륨으로, 피치 벤드에 대해서, 그 발음 구간을 음소 피치 벤드수(#5)에 의해 규정되는 N개의 구간으로 구분하고, 각각에서의 피치 벤드를 지정하는 피치 벤드 정보(음소 피치 벤드 위치1, 음소 피치 벤드1(#6∼#7)∼음소 피치 벤드 위치N, 음소 피치 벤드N(#9∼#10))와, 볼륨에 대해서, 그 발음 구간을 음소 볼륨수(#11)에 의해 규정되는 M개의 구간으로 구분하며, 각각에서의 볼륨을 지정하는 볼륨 정보(음소 볼륨 위치1, 음소 볼륨1(#12, #13)∼음소 볼륨 위치 M, 음소 볼륨 M(#15, #16))로 이루어져 있다.

도 8은 상기 운율 제어 정보에 대하여 설명하기 위한 도면이다. 여기서는, 발음하는 문자 정보가 「ohayou」인 경우를 예로 들어 도시하고 있다. 또한, 이 예에서는, N=M=128로 하고 있다. 이 도면에 도시한 바와 같이, 발음하는 문자 정보(「ohayou」)에 대응하는 구간을 128(=N=M) 구간으로 구분하고, 각 점에서의 피 치와 볼륨을 상기 피치 벤드 정보 및 볼륨 정보로 표현하여 운율을 제어하도록 하고 있다.

도 9는 상기 게이트 타임 길이(Gate time)와 딜레이 타임(Delay Time(#0))과의 관계를 도시하는 도면이다. 이 도면에 도시한 바와 같이, 딜레이 타임에 의해, 실제의 발음을 듀레이션으로 규정되는 타이밍보다 늦출 수 있다. 또한, Gate time=0은 금지로 한다.

(b-3-2) 프로그램 체인지「0xCn pp」

여기서, n : 채널 번호(0x0[고정]), pp : 프로그램 번호(0x00∼0xFF)이다. 또한, 프로그램 번호의 초기 값은 0x00으로 되어 있다.

이 프로그램 체인지 메세지에 의해 지정된 채널의 음색이 설정된다. 여기서, 채널 번호는, 0x00 : 남자 음성 프리세트 음색, 0x01 : 여자 음성 음색, 0x02∼0x0F : 확장 음색이다.

(b-3-3) 컨트롤 체인지

컨트롤 체인지 메시지로서는 다음의 것이 있다.

(b-3-3-1) 채널 볼륨「0xBn 0x07 vv」

여기서, n : 채널 번호(0x0[고정]), vv : 컨트롤값(0x00∼0x7F)이다. 또한, 채널 볼륨의 초기 값은 0x64로 되어 있다.

이 채널 볼륨 메세지, 지정 채널의 음량을 지정하는 것으로, 채널간의 음량 밸런스를 설정하는 것을 목적으로 하고 있다.

(b-3-3-2) 팬「0xBn 0x0A vv」

여기서, n : 채널 번호(0x0[고정]), vv : 컨트롤값(0x00∼0x7F)이다. 팬 포트의 초기 값은 0x40(센터)으로 되어 있다.

이 메시지는 지정 채널의 스테레오 음장 위치를 지정한다.

(b-3-3-3) 익스프레션「0xBn 0x0B vv」

여기서, n : 채널 번호(0x0[고정]), vv : 컨트롤값(0x00∼0x7F)이다. 이 익스프레션 메시지의 초기 값은 0x7F(최대값)로 되어 있다.

이 메시지는, 지정 채널의 채널 볼륨으로 설정한 음량의 변화를 지정한다. 이것은 곡 중에서 음량을 변화시킬 목적으로 사용된다.

(b-3-3-4) 피치 벤드「0xEn ll mm」

여기서, n : 채널 번호(0x0[고정]), ll : 벤드값 LSB(0x00∼0x7F), mm : 벤드값 MSB(0x00∼0x7F)이다. 피치 벤드의 초기 값은 MSB 0x40, LSB 0x00으로 되어 있다.

이 메시지는 지정 채널의 피치를 상하로 변화시킨다. 변화폭(피치 벤드 범위)의 초기 값은 ±2반음이며, 0x00/0x00에서 아랫방향으로의 피치 벤드가 최대로 된다. 0x7F/0x7F에서 윗방향으로의 피치 벤드가 최대로 된다.

(b-3-3-5) 피치 벤드 센시티비티「0x8n bb」

여기서, n : 채널 번호(0x0[고정]), bb : 데이터값(0x00∼0x18)이다. 이 피치 벤드 센시티비티의 초기 값은 0x02이다.

이 메시지는 지정 채널의 피치 벤드의 감도 설정을 행한다. 단위는 반음이다. 예를 들면, bb=01일 때는 ±1반음(변화 범위는 합계 2반음)으로 된다.

이와 같이, PSeq형의 포맷 타입은, 발음을 나타내는 문자 정보로 표현한 음소 단위를 베이스로 하며, MIDI 이벤트와 유사한 형식으로 음성 정보를 기술한 것 으로, 데이터 사이즈는 TSeq형보다는 크지만 FSeq형보다는 작아진다.

이에 의해, MIDI와 마찬가지로 시간축 상의 정밀한 피치나 볼륨을 컨트롤할 수 있고, 음소 베이스로 기술하고 있으므로 언어 의존성이 없으며, 음색(음질)을 정밀하게 편집할 수 있고, MIDI와 유사한 제어를 할 수 있어, 종래의 MIDI 기기에 추가 실장하기 쉽다고 하는 장점을 갖고 있다.

한편, 문장이나 단어 레벨의 가공을 할 수 없으며, 처리측에서, TSeq형보다는 가볍지만, 포맷을 해석하여 음성 합성하기 위한 처리 부하가 걸리는 단점을 갖고 있다.

(c) 포르만트 프레임 기술(FSeq)형(포맷 타입=0x02)

포르만트 제어 정보(각 포르만트를 생성하기 위한, 포르만트 주파수나 게인 등의 파라미터)를 프레임 데이터열로서 표현한 포맷이다. 즉, 일정 시간(프레임) 동안은, 발음하는 음성의 포르만트 등은 일정한 것으로 하고, 각 프레임마다 발음하는 음성에 대응하는 포르만트 제어 정보(각각의 포르만트 주파수나 게인 등)를 갱신하는 시퀀스 표현(FSeq : formant sequence)를 이용한다. 시퀀스 데이터에 포함되는 노트 메시지에 의해 지정된 FSeq 데이터 청크의 데이터의 재생을 지시한다.

이 포맷 타입은, 시퀀스 데이터 청크와 n개(n은 이상의 정수)의 FSeq 데이터 청크(FSeq #00∼FSeq #n)를 포함하고 있다.

(c-1) 시퀀스 데이터 청크

상술한 시퀀스 데이터 청크와 마찬가지로, 듀레이션과 이벤트의 세트를 시간순으로 배치한 시퀀스 데이터를 포함한다.

이하에, 이 시퀀스 데이터 청크로 서포트하는 이벤트(메시지)를 열거한다. 판독측은 이들 메시지 이외는 무시한다. 또한, 이하에 기술하는 초기 설정값은 이벤트 지정이 없을 때의 디폴트값이다.

(c-1-1) 노트 메시지「0x9n kk gt」

여기서, n : 채널 번호(0x0[고정]), kk : FSeq 데이터 번호(0x00∼0x7F), gt : 게이트 타임(1∼3바이트)이다.

이 메시지는, 지정 채널의 FSeq 데이터 번호의 FSeq 데이터 청크를 해석하여 발음을 개시하는 메시지이다. 또한, 게이트 타임이 "0"인 노트 메시지는 발음을 행하지 않는다.

(c-1-2) 볼륨「0xBn 0x07 vv」

이 메시지는 지정 채널의 음량을 지정하는 메시지이다.

(c-1-3) 팬「0xBn 0x0A vv」

여기서, n : 채널 번호(0x0[고정]), vv : 컨트롤값(0x00∼0x7F)이다. 또한, 팬 포트의 초기 값은 0x40(센터)이다.

이 메시지는 지정 채널의 스테레오 음장 위치를 지정하는 메시지이다.

(c-2) FSeq 데이터 청크(FSeq #00∼FSeq #n)

FSeq 데이터 청크는 FSeq 프레임 데이터열로 구성한다. 즉, 음성 정보를 소정 시간 길이(예를 들면, 20msec)를 갖는 프레임마다 잘라 내고, 각각의 프레임 기간 내의 음성 데이터를 분석하여 얻어진 포르만트 제어 정보(포르만트 주파수나 게인 등)를, 각각의 프레임의 음성 데이터를 나타내는 프레임 데이터열로서 표현한 포맷이다. 표 7에 FSeq의 프레임 데이터열을 나타낸다.

#0	오퍼레이터 파형1
#1	오퍼레이터 파형2
#2	:
#3	오퍼레이터 파형n
#4	포르만트 레벨1
#5	포르만트 레벨2
#6	:
#7	포르만트 레벨n
#8	포르만트 주파수1
#9	포르만트 주파수2
#10	:
#11	포르만트 주파수n
#12	유성/무성 전환

표 7에서, #0∼#3은 음성 합성에 이용하는 복수개(본 실시예에서는 n개)의 포르만트의 파형의 종류(사인파, 구형파 등)를 지정하는 데이터이다. #4∼#11은 포르만트 레벨(진폭)(#4∼#7)과 중심 주파수(#8∼#11)에 의해 n개의 포르만트를 규정하는 파라미터이다. #4와 #8이 제1 포르만트(#0)를 규정하는 파라미터, 이하 마찬가지로, #5∼#7과 #9∼#11은 제2 포르만트(#1)∼제n 포르만트(#3)를 규정하는 파라미터이다. 또한, #12는 무성/유성을 나타내는 플래그 등이다.

도 10은 포르만트의 레벨과 중심 주파수를 나타내는 도면으로, 본 실시예에서는, 제1∼제n 포르만트까지의 n개의 포르만트의 데이터를 이용하도록 하고 있다. 상기 도 4에 도시한 바와 같이, 각 프레임마다의 제1∼제n 포르만트에 관한 파라미 터와 피치 주파수에 관한 파라미터는, 상기 음원부(27)의 포르만트 생성부와 피치 생성부에 공급되며, 그 프레임의 음성 합성 출력이 전술한 바와 같이 하여 생성 출력된다.

도 11은 상기 FSeq 데이터 청크의 바디부의 데이터를 도시하는 도면이다. 상기 표 7에 도시한 FSeq의 프레임 데이터열 중, #0∼#3은 각 포르만트의 파형의 종류를 지정하는 데이터로서, 각 프레임마다 지정할 필요는 없다. 따라서, 도 11에 도시한 바와 같이, 최초의 프레임에 대해서는, 상기 표 7에 도시한 모든 데이터로 하고, 후속하는 프레임에 대해서는, 상기 표 7에서의 #4 이후의 데이터만이어도 된다. FSeq 데이터 청크의 바디부를 도 11과 같이 함으로써, 총 데이터수를 적게 할 수 있다.

이와 같이, FSeq형은, 포르만트 제어 정보(각각의 포르만트 주파수나 게인 등)를 프레임 데이터열로서 표현한 포맷이기 때문에, FSeq형의 파일을 그 상태 그대로 음원부로 출력함으로써 음성을 재생할 수 있다. 따라서, 처리측은 음성 합성 처리가 필요 없으며, CPU는 소정 시간마다 프레임을 갱신하는 처리를 행하는 것만으로 된다. 또한, 사전에 저장되어 있는 발음 데이터에 대하여, 일정한 오프셋을 제공함으로써 음색(음질)을 변경할 수 있다.

단, FSeq형의 데이터는 문장이나 단어 레벨의 가공이 어려워, 음색(음질)을 정밀하게 편집하거나, 시간축 상의 발음 길이나 포르만트 변위를 변경할 수 없다. 또한, 시간축 상의 피치나 볼륨을 제어할 수는 있지만, 원데이터의 오프셋으로 제어하기 때문에, 제어하기 어렵고, 또한 처리 부하가 증가된다고 하는 단점이 있다.

다음으로, 전술한 시퀀스 데이터의 데이터 교환 포맷을 갖는 파일을 이용하는 시스템에 대하여 설명한다.

도 12는 전술한 음성 재생 시퀀스 데이터를 재생하는 음성 재생 장치의 하나인 휴대 통신 단말기에 대하여, 전술한 데이터 교환 포맷의 파일을 배신하는 콘텐츠 데이터 배신 시스템의 개략 구성을 도시하는 도면이다.

도 12에서, 참조 부호 51은 휴대 통신 단말기, 참조 부호 52는 기지국, 참조 부호 53은 상기 복수의 기지국을 통괄하는 이동 교환국, 참조 부호 54는 복수의 이동 교환국을 관리함과 함께 공중망 등의 고정망이나 인터넷(55)의 게이트웨이가 되는 관문국, 참조 부호 56은 인터넷(55)에 접속된 다운로드 센터의 서버 컴퓨터이다.

콘텐츠 데이터 제작 회사(57)는, 상기 도 3에서 설명한 바와 같이, 전용의 오서링 툴 등을 이용하여, SMF나 SMAF 등의 악곡 데이터 및 음성 합성용 텍스트 파일로부터 본 발명의 데이터 교환 포맷을 갖는 파일을 작성하여, 서버 컴퓨터(56)로 전송한다.

서버 컴퓨터(56)에는, 콘텐츠 데이터 제작 회사(57)에 의해 제작된 본 발명의 데이터 교환 포맷을 갖는 파일(상기 HV 트랙 청크를 포함하는 SMAF 파일 등)이 축적되어 있고, 휴대 통신 단말기(51)나 도시하지 않은 컴퓨터 등으로부터 액세스하는 사용자로부터의 요청에 따라, 대응하는 상기 음성 재생 시퀀스 데이터를 포함하는 악곡 데이터 등을 배신한다.

도 13은 음성 재생 장치의 일례인 상기 휴대 통신 단말기(51)의 일 구성예를 도시하는 블록도이다.

도 13에서, 참조 부호 61은 이 장치 전체의 제어를 행하는 중앙 처리 장치(CPU), 참조 부호 62는 각종 통신 제어 프로그램이나 악곡 재생을 위한 프로그램 등의 제어 프로그램 및 각종 상수 데이터 등이 저장되어 있는 ROM, 참조 부호 63은 워크 에리어로서 사용됨과 함께 악곡 파일이나 각종 어플리케이션 프로그램 등을 기억하는 RAM, 참조 부호 64는 액정 표시 장치(LCD) 등으로 이루어지는 표시부, 참조 부호 65는 바이브레이터, 참조 부호 66은 복수의 조작 버튼 등을 갖는 입력부, 참조 부호 67은 변복조부 등으로 이루어지며 안테나(68)에 접속되는 통신부이다.

또한, 참조 부호 69는, 송화 마이크 및 수화 스피커에 접속되며, 통화를 위한 음성 신호의 부호화 및 복호를 행하는 기능을 갖는 음성 처리부, 참조 부호 70은 상기 RAM(63) 등에 기억된 악곡 파일에 포함되는 악곡부에 기초하여 악곡을 재생함과 함께, 악곡 파일에 포함되는 음성부에 기초하여 음성(예를 들면 사람의 소리)을 재생하여, 스피커(71)로 출력하는 음원부, 참조 부호 72는 상기 각 구성 요소간의 데이터 전송을 행하기 위한 버스이다.

사용자는, 상기 휴대 통신 단말기(51)를 이용하여, 상기 도 12에 도시한 다운로드 센터의 서버(56)에 액세스하여, 상기 3개의 포맷 타입 중의 원하는 타입의 음성 재생 시퀀스 데이터를 포함하는 본 발명의 데이터 교환 포맷의 파일을 다운로드하여 상기 RAM(63) 등에 저장하고, 그 상태 그대로 재생하거나, 혹은, 착신 멜로디로서 사용할 수 있다.

도 14는 상기 서버 컴퓨터(56)로부터 다운로드하여 상기 RAM(63)에 기억한 본 발명의 데이터 교환 포맷의 파일을 재생하는 처리의 흐름을 도시하는 흐름도이다. 여기서는, 다운로드한 파일이, 상기 도 2에 도시한 포맷에서, 스코어 트랙 청크와 HV 트랙 청크를 갖는 파일인 것으로 설명한다.

악곡의 재생 개시 지시가 있었을 때, 혹은, 착신 멜로디로서 사용하는 경우에는 착신이 발생하여 처리가 개시되면, CPU(61)는, 다운로드한 파일을 상기 RAM(63)으로부터 판독하여, 다운로드한 파일에 포함되어 있는 음성부(HV 트랙 청크)와 악곡부(스코어 트랙 청크)를 분리한다(단계 S1). 그리고, 음성부에 대해서는, CPU(61)가, 그 포맷 타입이 (a) TSeq형일 때에는, TSeq형을 PSeq형으로 변환하는 제1 컨버트 처리와 PSeq형을 FSeq형으로 변환하는 제2 컨버트 처리를 실행하여 FSeq형으로 변환하고, (b) PSeq형일 때에는, 상기 제2 컨버트 처리를 행하여 FSeq형으로 변환하고, (c) FSeq형일 때에는 그 상태 그대로와 같이, 포맷 타입에 따른 처리를 행하여 FSeq형의 데이터로 변환하고(단계 S2), 각 프레임의 포르만트 제어 데이터를 프레임마다 갱신하여 음원(70)에 공급한다(단계 S3). 한편, 악곡부에 대해서는, 음원(70) 내의 시퀀서가, 스코어 트랙 청크에 포함되는 노트 온이나 프로그램 체인지 등의 악음 생성 이벤트를 해석하고, 해석하여 얻어진 악음 발생 파라미터를 음원(70) 내의 음원부에 소정의 타이밍에서 공급한다(단계 S4). 이에 의해, 음성과 악곡이 합성되어(단계 S5), 출력된다(단계 S6).

또한, 상기 제1 컨버트 처리에서 사용되는 상기 제1 사전 데이터 및, 상기 제2 컨버트 처리에서 사용되는 상기 제2 사전 데이터는, ROM(62), 혹은, RAM(63)에 기억되어 있다.

또한, 단계 S1∼S3의 각 처리는, CPU(61)가 아니라, 음원(70) 내의 시퀀서에서 행해도 된다. 그 경우에는, 상기 제1 사전 데이터 및 제2 사전 데이터를 음원(70) 내에 저장해 두어도 된다. 또한, 단계 S4의 음원(70) 내의 시퀀서 내에서 행해지는 각 기능은, 시퀀서가 아니라 CPU(61)에서 행해도 된다.

상기 도 3에서 설명한 바와 같이, 본 발명의 데이터 교환 포맷은, SMF나 SMAF 등의 기존의 악곡 데이터(21)에 음성 합성용 텍스트 데이터(22)에 기초하여 작성한 음성 재생 시퀀스 데이터를 부가함으로써 제작할 수 있기 때문에, 전술한 바와 같이 착신 멜로디 등에 이용한 경우에 다양한 오락성이 있는 서비스를 제공하는 것이 가능해진다.

또한, 상기한 설명에서는 다운로드 센터의 서버 컴퓨터(56)로부터 다운로드한 음성 재생 시퀀스 데이터를 재생하는 것이었지만, 음성 재생 장치에서 전술한 본 발명의 데이터 교환 포맷의 파일을 작성할 수도 있다.

상기 휴대 통신 단말기(51)에서, 발성하고자 하는 텍스트에 대응하는 상기 TSeq형의 TSeq 데이터 청크를 입력부(66)로부터 입력한다. 예를 들면, 「<Tお'っはよㅡ, げ_んき?」로 입력한다. 그리고, 이것을 그 상태 그대로, 혹은, 상기 제1, 제2 컨버트 처리를 행하여, 전술한 3개의 포맷 타입 중 어느 하나의 음성 재생 시퀀스 데이터로 하고, 본 발명의 데이터 교환 포맷의 파일로 변환하여 보존한다. 그리고, 그 파일을 메일에 첨부하여 상대 단말기로 송신한다.

이 메일을 수신한 상대방의 휴대 통신 단말기에서는, 수신한 파일의 타입을 해석하고, 대응한 처리를 행하여 그 음원부를 이용하여 해당 음성을 재생한다.

이와 같이, 휴대 통신 단말기에서, 데이터를 송신하기 전에 가공함으로써, 다양한 오락성이 있는 서비스를 제공하는 것이 가능해진다. 이 경우, 각각의 가공 방법으로, 서비스에 최적인 음성 합성용 포맷 종류를 선택한다.

또한, 최근에는, 휴대 통신 단말기에서 Java(TM)에 의한 어플리케이션 프로그램을 다운로드하여 실행할 수 있도록 되어 있다. 따라서, Java(TM) 어플리케이션 프로그램을 이용하여 보다 다채로운 처리를 행하게 할 수 있다.

즉, 휴대 통신 단말기 상에서, 발성하고자 하는 텍스트를 입력한다. 그리고, Java(TM) 어플리케이션 프로그램에 의해, 입력된 텍스트 데이터를 수취하고, 해당 텍스트에 합치된 화상 데이터(예를 들면, 말하고 있는 얼굴)를 첨부하여, 본 발명의 데이터 교환 포맷의 파일(HV 트랙 청크와 그래픽스 트랙 청크를 갖는 파일)로 변환하고, Java(TM) 어플리케이션 프로그램으로부터 API 경유로 본 파일을 미들웨어(시퀀서, 음원이나 화상을 제어하는 소프트웨어 모듈)로 송신한다. 미들웨어는 전송받은 파일 포맷을 해석하여, 음원에서 음성을 재생하면서 표시부에서 화상을 동기하여 표시한다.

이와 같이, Java(TM) 어플리케이션 프로그래밍에 의해, 다양한 오락성이 있는 서비스를 제공할 수 있다. 이 경우, 각각의 가공 방법으로, 서비스에 최적인 음성 합성용 포맷 종류를 선택한다.

또한, 전술한 실시예에서는, HV 트랙 청크에 포함되는 음성 재생 시퀀스 데이터의 포맷을 3개의 형태에 따라 서로 다른 포맷으로 하고 있지만, 이에 한정되는 것은 아니다. 예를 들면, 상기 도 1에 도시한 바와 같이, (a) TSeq형과 (c) FSeq형은 모두 시퀀스 데이터 청크와 TSeq 혹은 FSeq 데이터 청크를 갖는 것으로, 기본적인 구조는 동일하기 때문에, 이들을 통일하고, 데이터 청크의 레벨로, TSeq형의 데이터 청크인지 FSeq형의 데이터 청크인지를 식별하도록 해도 된다.

또한, 전술한 각 표에 기재한 데이터의 정의는, 모두 일례에 불과한 것으로, 임의로 변경할 수 있다.

이상 설명한 바와 같이, 본 발명의 음성 재생 시퀀스 데이터의 데이터 교환포맷에 따르면, 음성 재생을 위한 시퀀스를 표현할 수 있을 뿐만 아니라, 서로 다른 시스템이나 장치 사이에서 음성 재생 시퀀스 데이터를 반포하거나 교환하는 것이 가능해진다.

또한, 악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터를 각각 서로 다른 청크에 포함되도록 한 본 발명의 시퀀스 데이터의 데이터 교환 포맷에 따르면, 1개의 포맷 파일로 음성 재생 시퀀스와 악곡 시퀀스의 동기를 취하여 재생할 수 있다.

또한, 악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터를 독립적으로 기술할 수 있어, 한쪽만을 추출하여 재생시키는 것을 용이하게 할 수 있다.

또한, 3개의 포맷 타입을 선택할 수 있는 본 발명의 데이터 교환 포맷에 따르면, 음성 재생의 용도나 처리측의 부하를 고려하여, 가장 적절한 포맷 타입을 선택할 수 있다.

Claims

제1 기억부, 제어부 및 음원을 포함하는 악음 및 음성 재생 장치로서,

상기 제1 기억부는 악곡부와 음성부를 포함하는 악곡 데이터 파일을 기억하고, 상기 악곡부는 악음의 생성을 지시하는 일련의 악음 생성 이벤트 데이터를 포함하며, 상기 음성부는 일련의 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터 및 해당 음성 재생 이벤트 데이터를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트를 포함하는 음성 재생 시퀀스 데이터이고,

상기 제어부는 상기 제1 기억부에 기억되어 있는 상기 악곡 데이터 파일을 판독하고,

상기 음원은 상기 판독한 악곡 데이터 파일에 포함되는 상기 악곡부에 기초하여 악음을 생성하고, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부에 기초하여 사람의 소리를 생성하며, 그것에 의해, 상기 생성한 악음 및 사람의 소리를 합성하여 출력하는 것을 특징으로 하는 악음 및 음성 재생 장치.
제1항에 있어서,

상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부 내의 음성 재생 이벤트 데이터가, 포르만트를 생성하기 위한 포르만트 제어 정보의 재생을 지시하는 경우에,

상기 음원은, 상기 음성 재생 시퀀스 데이터에 포함되며 또한 해당 데이터에 의해 지시된 상기 포르만트 제어 정보에 기초하여, 상기 사람의 소리를 생성하는 것을 특징으로 하는 악음 및 음성 재생 장치.
제1항에 있어서,

합성되는 사람의 소리의 음독을 나타내는 텍스트 정보 및 운율 기호와, 음소 정보 및 운율 제어 정보와의 대응 관계를 기록한 제1 사전 데이터를 기억하는 제2 기억부와,

합성되는 사람의 소리에 대응하는 음소 정보 및 운율 제어 정보와 포르만트를 생성하기 위한 포르만트 제어 정보와의 대응 관계를 기억한 제2 사전 데이터를 기억하는 제3 기억부를 포함하며,

상기 제어부는, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부 내의 음성 재생 이벤트 데이터가, 텍스트 정보와 운율 기호를 포함하는 텍스트 기술형의 정보의 재생을 지시할 때, 상기 제2 기억부에 기억된 상기 제1 사전 데이터를 참조하여, 해당 데이터에 의해 지시된 텍스트 정보 및 운율 기호에 대응하는 음소 정보 및 운율 제어 정보를 취득하고, 상기 제3 기억부에 기억된 상기 제2 사전 데이터를 참조하여, 상기 취득된 음소 정보 및 운율 제어 정보에 대응하는 포르만트 제어 정보를 판독하고,

상기 음원은, 판독된 상기 포르만트 제어 정보에 기초하여 상기 사람의 소리를 생성하는 것을 특징으로 하는 악음 및 음성 재생 장치.
제1항에 있어서,

음소 정보 및 운율 제어 정보와, 포르만트를 생성하기 위한 포르만트 제어 정보와의 대응 관계를 기억한 사전 데이터를 기억하는 제2 기억부를 갖고,

상기 제어부는, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부 내의 음성 재생 이벤트 데이터가, 합성되는 사람의 소리에 대응하는 음소 정보와 운율 제어 정보를 포함하는 음소 기술형의 정보의 재생을 지시할 때, 상기 제2 기억부에 기억된 상기 사전 데이터를 참조하여, 해당 음성 재생 이벤트 데이터에 의해 지시된 음소 정보 및 운율 제어 정보에 대응하는 포르만트 제어 정보를 취득하고,

상기 음원은, 취득된 상기 포르만트 제어 정보에 기초하여 상기 사람의 소리를 생성하는 것을 특징으로 하는 악음 및 음성 재생 장치.
제1항에 있어서,

상기 제어부는, 상기 제1 기억부에 기억되어 있는 상기 악곡 데이터 파일에 포함되는 음성부의 포맷 타입을 판별하고, 해당 포맷 타입이 포맷 변환이 필요한 타입인 것으로 판별된 경우, 상기 음성부의 포맷 타입을 다른 포맷 타입으로 변환하고,

상기 음원은, 상기 다른 포맷으로 변환된 음성부에 기초하여 사람의 소리를 생성하는 것을 특징으로 하는 악음 및 음성 재생 장치.
제5항에 있어서,

상기 제어부에서의 상기 음성부의 포맷 변환은, 상기 제2 기억부에 기억되어 있는 사전 데이터를 참조하여 행해지는 것을 특징으로 하는 악음 및 음성 재생 장치.
제1항에 있어서,

상기 음성부는 상기 음성부의 언어 종별을 나타내는 언어 타입을 지정하는 데이터를 포함하는 것을 특징으로 하는 악음 및 음성 재생 장치.
삭제
음원 디바이스로 사람의 소리를 재생시키기 위한 음성 재생 시퀀스 데이터를 기억하는 기억 매체로서,

상기 음성 재생 시퀀스 데이터는, 관리용의 정보를 포함하는 콘텐츠 데이터 청크 및 음성 시퀀스 데이터를 포함하는 트랙 청크로 이루어지는 데이터 구조를 갖고,

상기 음성 시퀀스 데이터는, 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 상기 음성 재생 이벤트 데이터를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있는 것을 특징으로 하는 기억 매체.
제9항에 있어서,

상기 음성 재생 이벤트 데이터는, 상기 음원 디바이스로 재생되는 사람의 소리의 음독을 나타내는 텍스트 정보와 사람의 소리의 표현을 지정하는 운율 기호로 이루어지는 텍스트 기술형의 정보, 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 음소 정보와 운율 제어 정보로 이루어지는 음소 기술형의 정보, 또는, 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형의 정보의 재생을 지시하는 데이터인 것을 특징으로 하는 기억 매체.
음원 디바이스로, 악음 및 사람의 소리를 재생시키기 위한 시퀀스 데이터를 기억하는 기억 매체로서,

상기 시퀀스 데이터는, 악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터로 이루어지는 데이터 구조를 갖고,

상기 악곡 시퀀스 데이터는, 악음의 생성을 지시하는 악음 생성 이벤트 데이터, 및 해당 악음 생성 이벤트 데이터를 실행하는 타이밍을 선행하는 악음 생성 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있으며,

상기 음성 재생 시퀀스 데이터는, 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트 데이터를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있고,

상기 음원 디바이스가 상기 악곡 시퀀스 데이터 및 상기 음성 재생 시퀀스 데이터의 재생을 동시에 개시함으로써, 상기 악음과 상기 사람의 소리를, 동일 시간축 상에서 재생하는 것이 가능하게 되는 것을 특징으로 하는 시퀀스 데이터를 기억한 기억 매체.
제11항에 있어서,

상기 악곡 시퀀스 데이터 및 상기 음성 재생 시퀀스 데이터는 각각 서로 다른 청크에 포함되어 있는 것을 특징으로 하는 시퀀스 데이터를 기억한 기억 매체.
제11항 또는 제12항에 있어서,

상기 음성 재생 이벤트 데이터는, 상기 음원 디바이스로 재생되는 사람의 소리의 음독을 나타내는 텍스트 정보와 사람의 소리의 표현을 지정하는 운율 기호로 이루어지는 텍스트 기술형의 정보, 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 음소 정보와 운율 제어 정보로 이루어지는 음소 기술형의 정보, 또는 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형의 정보의 재생을 지시하는 데이터인 것을 특징으로 하는 시퀀스 데이터를 기억한 기억 매체.
기억부와 송신부를 포함하는 서버 장치로서,

상기 기억부는, 악곡 시퀀스 데이터와 음성 재생 시퀀스 데이터를 포함하는 악곡 파일을 기억하는 것이고, 상기 악곡 시퀀스 데이터는, 상기 음원 디바이스에 대하여 악음의 생성을 지시하는 악음 생성 이벤트 데이터, 및 해당 악음 생성 이벤트 데이터를 실행하는 타이밍을 선행하는 악음 생성 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있고, 상기 음성 재생 시퀀스 데이터는, 상기 음원 디바이스에 대하여 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트 데이터를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트가 시간순으로 배치되어 있으며,

상기 송신부는, 접속 가능한 클라이언트 단말 장치로부터의 요구에 따라, 상기 악곡 파일을 배신하는 것을 특징으로 하는 서버 장치.
제14항에 있어서,

상기 음성 재생 이벤트 데이터는, 상기 음원 디바이스로 재생되는 사람의 소리의 음독을 나타내는 텍스트 정보와 사람의 소리 표현을 지정하는 운율 기호로 이루어지는 텍스트 기술형의 정보, 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 음소 정보와 운율 제어 정보로 이루어지는 음소 기술형의 정보, 또는 상기 음원 디바이스로 재생되는 사람의 소리를 나타내는 프레임 시간마다의 포르만트 제어 정보로 이루어지는 포르만트 프레임 기술형의 정보의 재생을 지시하는 데이터인 것을 특징으로 하는 서버 장치.
기억부 및 음원을 포함하는 악음 및 음성 재생 장치의 제어 방법으로서,

상기 기억부에 악곡부와 음성부를 포함하는 악곡 데이터 파일을 저장하는 수순을 행하고, 여기서 상기 악곡부는, 악음의 생성을 지시하는 일련의 악음 생성 이벤트 데이터를 포함하며, 상기 음성부는, 일련의 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트 데이터를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트를 포함하는 음성 재생 시퀀스 데이터이고,

다음에 상기 기억부에 저장되어 있는 상기 악곡 데이터 파일을 판독하는 수순을 행하며,

또한 상기 음원을 제어하여, 상기 판독한 악곡 데이터 파일에 포함되는 악곡부에 기초하여 악음을 생성하고, 상기 판독한 악곡 데이터 파일에 포함되는 상기 음성부에 기초하여 사람의 소리를 생성하며, 그것에 의해, 상기 생성된 악음 및 사람의 소리를 합성하여 출력하는 수순을 행하는 것을 특징으로 하는 악음 및 음성 재생 장치의 제어 방법.
기억부 및 음원을 포함하는 악음 및 음성 재생 장치의 제어에 이용되는 프로그램을 기록한 컴퓨터 판독가능한 기록 매체로서, 상기 프로그램은,

상기 기억부에 악곡부와 음성부를 포함하는 악곡 데이터 파일을 저장하는 수순을 포함하며, 여기서 상기 악곡부는, 악음의 생성을 지시하는 일련의 악음 생성 이벤트 데이터를 포함하고, 상기 음성부는, 일련의 사람의 소리의 재생을 지시하는 음성 재생 이벤트 데이터, 및 해당 음성 재생 이벤트 데이터를 실행하는 타이밍을 선행하는 음성 재생 이벤트 데이터로부터의 경과 시간으로서 지정하는 듀레이션 데이터와의 세트를 포함하는 음성 재생 시퀀스 데이터이고,

또한 상기 기억부에 저장되어 있는 상기 악곡 데이터 파일을 판독하는 수순을 포함하며,

또한 상기 음원을 제어하여, 상기 판독된 악곡 데이터 파일에 포함되는 악곡부에 기초하여 악음을 생성하고, 상기 판독된 악곡 데이터 파일에 포함되는 상기 음성부에 기초하여 사람의 소리를 생성하며, 그것에 의해, 상기 생성된 악음 및 사람의 소리를 합성하여 출력하는 수순을 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록매체.