WO2020217801A1

WO2020217801A1 - オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム

Info

Publication number: WO2020217801A1
Application number: PCT/JP2020/012326
Authority: WO
Inventors: 誠橘
Original assignee: ヤマハ株式会社
Priority date: 2019-04-26
Filing date: 2020-03-19
Publication date: 2020-10-29
Also published as: CN113711302A; JP7226532B2; US20220044662A1; JPWO2020217801A1

Abstract

オーディオ情報を読み出し、オーディオ情報に対応付けられた区切り情報であって、発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する区切り情報を読み出し、ノートオン情報を取得したことに応じて、オーディオ情報における再生位置が示す再生対象の発声単位の再生開始位置から再生を開始し、ノートオン情報に対応するノートオフ情報を取得したことに応じて、再生対象の発声単位のループ終了位置から再生終了位置までの再生を開始する、オーディオ情報再生方法を提供する。

Description

オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラム

　本発明は、オーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラムに関する。

　従来、歌唱されるための複数の各音節が音符に対応付けられたデータ（歌唱合成用スコア）を再生する技術が知られている。下記特許文献１の装置は、歌唱合成用スコアを、ユーザの演奏操作に応じて歌唱合成することで、歌唱音声のピッチや発音期間をリアルタイムに変化させることができる。また、歌唱合成用スコアを歌唱合成してＷａｖｅデータに変換することで、複数の音節の各々の波形データが時系列化されたオーディオ情報を生成することも可能である。
特許４７３５５４４号公報

　しかしながら、一旦、歌唱合成用スコアを歌唱合成してオーディオ情報に変換すると、そのオーディオ情報の各音節の発音タイミングや発音長さは決まっている。そのため、歌唱合成して生成されたオーディオ情報の再生において、ユーザの意思で発音や消音を自然な形で変化させることは困難である。すなわち、オーディオ情報は通常、時系列に再生されるが、演奏操作等に応じてリアルタイムで所望に再生制御することに適した情報ではない。そこで、オーディオ情報のリアルタイムで且つ所望の再生制御を実現することに関し、改善の余地があった。

　本発明の目的は、オーディオ情報のリアルタイムで且つ所望の再生制御を実現することができるオーディオ情報再生方法および装置、オーディオ情報生成方法および装置、並びにプログラムを提供することである。

　本発明の一形態によれば、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を読み出し、ノートオン情報およびノートオフ情報を取得し、前記ノートオン情報または前記ノートオフ情報を取得したことに応じて、前記区切り情報に基づいて前記オーディオ情報における再生位置を移動させ、前記ノートオン情報を取得したことに応じて、前記再生位置が示す再生対象の発声単位の前記再生開始位置から再生を開始し、前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、前記再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、オーディオ情報再生方法が提供される。

　本発明の他の形態によれば、ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成方法であって、合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得し、前記歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける、オーディオ情報生成方法が提供される。

　本発明の一形態によれば、オーディオ情報の再生をリアルタイムで所望に制御することができる。

　本発明の他の形態によれば、リアルタイムで所望に再生制御可能なオーディオ情報を生成することができる。

図１はオーディオ情報再生装置のブロック図である。図２は歌唱合成用スコアと再生用データとの関係を示す概念図である。図３はオーディオ情報再生装置の機能ブロック図である。図４はオーディオ情報における波形サンプルデータの一部と区切り情報とを示す概念図である。図５は歌唱合成用スコアにおける１つのフレーズに対する区切り情報を例示する図である。図６は歌唱合成用スコアにおける１つのフレーズに対する区切り情報を例示する図である。図７はリアルタイム再生処理のフローチャートである。図８は歌唱合成用スコアにおける１つのフレーズに対する区切り情報の変形例を例示する図である。

　以下、図面を参照して本発明の実施の形態を説明する。

　図１は、本発明の一実施の形態に係るオーディオ情報再生方法が適用されるオーディオ情報再生装置のブロック図である。このオーディオ情報再生装置１００は、オーディオ情報を再生する機能を有する。オーディオ情報再生装置１００は、オーディオ情報を生成する機能を有する装置を兼ねてもよい。従って、本発明が適用される装置の呼称は問わない。例えば、本発明が、主としてオーディオ情報を再生する機能を有する装置に適用される場合、本装置を、オーディオ情報再生方法が適用されるオーディオ情報再生装置と呼称してもよい。また、本発明が、主としてオーディオ情報を生成する機能を有する装置に適用される場合、本装置を、オーディオ情報生成方法が適用されるオーディオ情報生成装置と呼称してもよい。

　このオーディオ情報再生装置１００は、バス２３と、ＣＰＵ（Central Processing Unit）１０と、タイマ１１と、ＲＯＭ（Read Only Memory）１２と、ＲＡＭ（Random AccessMemory）１３と、記憶部１４と、を備える。また、オーディオ情報再生装置１００は、演奏操作子１５と、設定操作子１７と、表示部１８と、音源１９と、効果回路２０と、サウンドシステム２１と、通信Ｉ／Ｆ（Interface）２２と、を備える。

　バス２３はオーディオ情報再生装置１００における各部の間のデータ転送を行う。ＣＰＵ１０は、オーディオ情報再生装置１００全体の制御を行う中央処理装置である。タイマ１１は、時間を計測するモジュールである。ＲＯＭ１２は制御プログラムや各種のデータなどを格納する不揮発性のメモリである。ＲＡＭ１３はＣＰＵ１０のワーク領域及び各種のバッファなどとして使用される揮発性のメモリである。表示部１８は、液晶ディスプレイパネル、有機ＥＬ（Electro-Luminescence）パネルなどの表示モジュールである。表示部１８は、オーディオ情報再生装置１００の動作状態、各種設定画面、ユーザに対するメッセージなどを表示する。

　演奏操作子１５は、主として音高およびタイミングを指定する演奏操作を受け付けるモジュールである。本実施の形態では、オーディオ情報（オーディオデータ）を、演奏操作子１５の操作に従って再生することができる。オーディオ情報再生装置１００は、例えば、鍵盤楽器型に構成され、演奏操作子１５は、鍵盤部における複数の鍵（図示せず）を含む。しかし、オーディオ情報再生装置１００の形態は問わず、演奏操作子１５は、音高およびタイミングを指定する操作子であれば、他の形態、例えば弦であってもよい。また、演奏操作子１５は、物理的な操作子に限らず、ソフトウェアにより画面上に表示される仮想の演奏操作子であってもよい。

　設定操作子１７は、各種設定を行うための操作モジュールである。外部記憶装置３は、例えば、オーディオ情報再生装置１００に接続可能である。記憶部１４は、例えば、ハードディスクや不揮発メモリである。通信Ｉ／Ｆ２２は、外部機器と通信する通信モジュールである。通信Ｉ／Ｆ２２は、ＭＩＤＩ（musical instrument digital interface）インターフェイスや、ＵＳＢ（Universal Serial Bus）等を含んでもよい。本発明を実現するためのプログラムは、予めＲＯＭ１２に格納されるか、あるいは、通信Ｉ／Ｆ２２を介して取得されて記憶部１４に記憶されてもよい。

　なお、図１に示したハードウェアの少なくとも一部は、オーディオ情報再生装置１００に内蔵されることは必須でなく、ＵＳＢ等のインターフェイスを介して接続された外部装置により実現されてもよい。また、設定操作子１７等は、画面上に表示されてタッチ操作される仮想の操作子であってもよい。

　記憶部１４はさらに、１つ以上の歌唱合成用スコア２５と、１つ以上の再生用データ２８とを格納することができる（図２参照）。歌唱合成用スコア２５には、歌声を合成するために必要な情報や歌詞テキストデータが含まれる。歌声を合成するために必要な情報には、ノートの開始時刻および終了時刻、ノートの音高、ノート内の発音記号、表情付けのための付加パラメータ（ビブラート、子音の長さの指定等）が含まれる。歌詞テキストデータは、歌詞を記述したデータであり、曲ごとの歌詞が音節単位で区切られて記述されている。すなわち、歌詞テキストデータは歌詞を音節に区切った文字情報を有し、この文字情報は音節に対応する表示用の情報でもある。ここで音節とは、一まとまりの音として意識され発音される単位である。本実施の形態において、１つのノートに対応付けられた１個または複数個の音声（群）を、「発声単位」と呼ぶことにする。「音節」は、「発声単位」の一例である。「発声単位」の別の例としては、「モーラ」が挙げられる。モーラとは、一定の時間的長さをもった音の単位を示す。例えば、モーラは、日本語の「かな」１字に相当する時間長さの単位を示す。「発声単位」として、「音節」または「モーラ」のいずれかが用いられてもよいし、曲やフレーズの中で「音節」および「モーラ」が混在して用いられてもよい。例えば、歌いまわしや歌詞に応じて、「音節」および「モーラ」が使い分けられてもよい。

　なお、音韻情報データベースが記憶部１４に記憶されており、歌唱合成の際に音源１９によって参照される。音韻情報データベースは、音声素片データを格納するデータベースである。音声素片データは音声の波形を示すデータであり、例えば、音声素片のサンプル列のスペクトルデータを波形データとして含む。また、音声素片データには、音声素片の波形のピッチを示す素片ピッチデータが含まれる。歌詞テキストデータ、音声素片データは、それぞれ、データベースにより管理されてもよい。

　音源１９は、演奏データ等を音信号に変換する。歌唱合成用シーケンスデータである歌唱合成用スコア２５に基づき歌唱音を発音する場合、音源１９は、記憶部１４から読み出した音韻情報データベースを参照し、合成歌唱音声の波形データである歌唱音データを生成する。効果回路２０は、音源１９が生成した歌唱音データに対して、指定された音響効果を適用する。サウンドシステム２１は、効果回路２０による処理後の歌唱音データを、デジタル／アナログ変換器によりアナログ信号に変換する。そして、サウンドシステム２１は、アナログ信号に変換された歌唱音を増幅してスピーカなどから出力する。

　オーディオ情報２６の再生に関し、本実施の形態では、曲の先頭から順に再生する通常再生のほかに、演奏操作子１５の操作に従って再生するリアルタイム再生が可能である。なお、オーディオ情報２６は予め記憶部１４に記憶されてもよいが、事後的に外部から取得されてもよい。さらに、ＣＰＵ１０が、歌唱合成用スコア２５を歌唱合成してＷａｖｅデータに変換することで、オーディオ情報２６を生成することも可能である。

　図２は、歌唱合成前の歌唱合成用スコア２５と再生用データ２８との関係を示す概念図である。再生用データ２８は、区切り情報付きオーディオ情報であり、オーディオ情報２６と、オーディオ情報２６に対応付けられた区切り情報２７とから成る。歌唱合成用スコア２５は、合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化したデータである。歌唱合成用スコア２５は、複数のフレーズ（フレーズａ～ｅ）から成る。曲の先頭と末尾を除き、休符と休符との間の連続して発音する一かたまりの音節群（１音節の場合もある）が１つのフレーズに相当する。あるいは、休符と休符との間の１かたまりのモーラ群（１モーラの場合もある）が、１つのフレーズに相当する。あるいは、休符と休符との間の音節およびモーラの集まりが１つのフレーズに相当する。つまり、１つのフレーズは、１つ、または、複数の「発声単位」から構成される。

　歌唱合成用スコア２５を歌唱合成して生成されるオーディオ情報２６は、歌唱合成用スコア２５のフレーズ（フレーズａ～ｅ）に対応する複数のフレーズ（フレーズＡ～Ｅ）を有する。従って、オーディオ情報２６は、発音音高および発音順序が決められた複数の音節の各々の波形データ（複数の波形サンプル）が時系列化された波形サンプルデータである。

　図２に示すように、オーディオ情報２６の再生には、グローバル再生ポインタＰＧとローカルな再生ポインタＰＬとが用いられる。グローバル再生ポインタＰＧは、ノートオンがあった時にどのノートを再生するかを決めるグローバルな位置情報である。再生ポインタＰＬは、グローバル再生ポインタＰＧによって再生対象となっている特定のノート内の再生位置を指す位置情報である。リアルタイム再生においては、演奏操作子１５の操作に従ってグローバル再生ポインタＰＧがノート単位で移動する。また、ＣＰＵ１０は、オーディオ情報２６に対応付けられた区切り情報２７に基づいて、再生対象のノート内において再生ポインタＰＬを移動させる。言い換えると、図２に示すように、グローバル再生ポインタＰＧは、音節の区切りで移動し、再生ポインタＰＬは、音節内を移動する。さらに、言い換えると、グローバル再生ポインタＰＧは、「発声単位」で移動し、再生ポインタＰＬは、「発声単位」内を移動する。オーディオ情報２６における波形サンプルおよび区切り情報２７の具体例については図４で後述する。

　区切り情報２７を作成するために、音源１９は歌唱合成用スコア２５をオーディオ情報２６に変換する際に、付加情報を出力する。この付加情報は、音源１９の合成フレーム単位（例えば２５６サンプル）毎に出力される。オーディオ情報において、各音節は複数の音声素片から構成される。そして、各音声素片は複数のフレームから構成される。つまり、オーディオ情報において、各「発声単位」は複数の音声素片から構成される。この付加情報は、例えば、当該フレームで使用した素片サンプル（図５で後述する［Sil-dZ］、［i］等）、当該フレームの素片サンプル内の位置（［Sil-dZ］におけるSil、dZのどちら側の位置なのかを示す情報）を含む。なお、上記付加情報は、当該フレームの合成ピッチおよび位相情報を含んでもよい。ＣＰＵ１０は、上記付加情報と歌唱合成用スコア２５との間でマッチングを取ることで、各ノートオンに応じて再生すべき区切り情報２７を特定する。なお、上記付加情報が得られない場合（自然歌唱音声等が入力された場合等）には、音素認識器を使って付加情報に相当する情報を得るようにしてもよい。

　図３は、オーディオ情報再生装置１００の機能ブロック図である。オーディオ情報再生装置１００は、オーディオ情報再生に関する主な機能ブロックとして、第１読み出し部３１、第２読み出し部３２、第１取得部３３、ポイント移動部３４および再生部３５を有する。オーディオ情報再生装置１００は、オーディオ情報生成に関する主な機能ブロックとして、第２取得部３６および生成部３７を有する。

　オーディオ情報再生機能に関し、第１読み出し部３１および第２読み出し部３２の機能は、主としてＣＰＵ１０、ＲＡＭ１３、ＲＯＭ１２および記憶部１４の協働により実現される。第１取得部３３の機能は、主として演奏操作子１５、ＣＰＵ１０、ＲＡＭ１３、ＲＯＭ１２およびタイマ１１の協働により実現される。ポイント移動部３４の機能は、主としてＣＰＵ１０、ＲＡＭ１３、ＲＯＭ１２、タイマ１１および記憶部１４の協働により実現される。再生部３５の機能は、主としてＣＰＵ１０、ＲＡＭ１３、ＲＯＭ１２、タイマ１１、記憶部１４、効果回路２０およびサウンドシステム２１の協働により実現される。

　第１読み出し部３１は、記憶部１４等からオーディオ情報２６を読み出す。第２読み出し部３２は、記憶部１４等から、オーディオ情報２６に対応付けられた区切り情報２７を読み出す。第１取得部３３は、演奏操作子１５の操作を検出し、検出結果からノートオン情報およびノートオフ情報を取得する。なお、演奏操作子１５の操作検出の機構は問わず、例えば、操作を光学的に検出する機構であってもよい。なお、ノートオン情報およびノートオフ情報は、外部から通信を介して取得されたものであってもよい。ポイント移動部３４は、取得されたノートオン情報またはノートオフ情報が取得されたことに応じて、区切り情報２７に基づいて、グローバル再生ポインタＰＧおよび／または再生ポインタＰＬを移動させる。

　再生部３５に関する詳細な動作は図４で説明する。概略を述べると、まず、再生部３５は、ノートオン情報が取得されたことに応じて、グローバル再生ポインタＰＧが示す再生対象の音節の再生開始位置（この時点では再生ポインタＰＬが示す位置）から再生を開始する。また、再生部３５は、再生ポインタＰＬがループ区間に達した場合は当該ループ区間のループ再生に移行する。さらに、再生部３５は、ノートオン情報に対応するノートオフ情報が取得されたことに応じて、再生対象の音節のループ区間の終端であるループ終了位置から再生終了位置までの再生を開始する。ノートオン情報に対応するノートオフ情報は、例えば、演奏操作子１５に含まれる鍵のうち押下操作された鍵と同じ鍵が離操作されることで取得される情報である。

　一方、オーディオ情報生成機能に関し、第２取得部３６の機能は、主としてＣＰＵ１０、ＲＡＭ１３、ＲＯＭ１２および記憶部１４の協働により実現される。生成部３７の機能は、主としてＣＰＵ１０、ＲＡＭ１３、ＲＯＭ１２、タイマ１１および記憶部１４の協働により実現される。第２取得部３６は、記憶部１４等から歌唱合成用スコア２５を取得する。生成部３７は、取得された歌唱合成用スコア２５を歌唱合成することでオーディオ情報２６を生成すると共に、歌唱合成用スコア２５における音節ごとに、区切り情報２７を、生成したオーディオ情報２６に対応付ける。この処理によって、生成部３７は、再生用データ２８を生成する。なお、リアルタイムで用いる再生用データ２８は、生成部３７によって生成されたものに限定されない。

　図４は、オーディオ情報２６における波形サンプルデータの一部と区切り情報２７とを示す概念図である。図４において、オーディオ情報２６の再生順序の例が矢印で示されている。オーディオ情報２６は、通常、１曲分を単位とするが、図４では、５つの音節から成るフレーズの波形を示している。このフレーズにおける５つの音節に対応する波形サンプルデータを順に、サンプルＳＰ１、ＳＰ２、ＳＰ３、ＳＰ４、ＳＰ５と呼称する。各サンプルＳＰは、歌唱合成前の歌唱合成用スコア２５の各音節に対応している。オーディオ情報２６に対応付けられている区切り情報２７により、サンプルＳＰごと（対応する音節ごと）に、再生開始位置Ｓ、ループ区間ＲＰ、ジョイント部Ｃおよび再生終了位置Ｅが規定されている。ループ区間ＲＰは、ループ開始位置から始まり、ループ終了位置で終わる区間である。再生開始位置Ｓは、ノートオン情報に応じて再生を開始する位置を示す。ループ区間ＲＰは、ループ再生の対象となる再生区間である。再生終了位置Ｅは、ノートオフ情報を取得したことに応じて再生を終了する位置を示す。フレーズ内で隣接するサンプルＳＰ同士の境界は、ジョイント部Ｃ（Ｃ１～Ｃ４）である。

　例えば、サンプルＳＰ１については、再生開始位置Ｓ１、ループ区間ＲＰ１、再生終了位置Ｅ１が規定されている。同様に、サンプルＳＰ２～ＳＰ５については、それぞれ、再生開始位置Ｓ２～Ｓ５、ループ区間ＲＰ２～ＲＰ５、再生終了位置Ｅ２～Ｅ５が規定されている。

　ジョイント部Ｃ１は、サンプルＳＰ１、ＳＰ２間の区切り位置であり、再生開始位置Ｓ２および再生終了位置Ｅ１と一致する。ジョイント部Ｃ２は、サンプルＳＰ２、ＳＰ３間の区切り位置であり、再生開始位置Ｓ３および再生終了位置Ｅ２と一致する。ジョイント部Ｃ３は、サンプルＳＰ３、ＳＰ４間の区切り位置であり、再生開始位置Ｓ４および再生終了位置Ｅ３と一致する。ジョイント部Ｃ４は、サンプルＳＰ４、ＳＰ５間の区切り位置であり、再生開始位置Ｓ５および再生終了位置Ｅ４と一致する。

　フレーズ中において、隣接するサンプルＳＰを前後双方に有するサンプルＳＰ（図４ではサンプルＳＰ２～ＳＰ４）については、再生開始位置Ｓ、再生終了位置Ｅはそれぞれ、前側のサンプルＳＰの再生終了位置Ｅ、後側のサンプルＳＰの再生開始位置Ｓと同じである。フレーズ中における先頭のサンプルＳＰ（音節）（図４ではＳＰ１）の再生開始位置Ｓは、当該サンプルＳＰの前端位置である。フレーズ中における最後尾のサンプルＳＰ（音節）（図４ではＳＰ５）の再生終了位置Ｅは、当該サンプルＳＰの終端位置である。ループ区間ＲＰは、歌唱合成用スコア２５における音節の、ステーショナリ部（母音部）に対応する区間である。

　このような区切り情報２７に基づいて、ユーザが、演奏操作子１５を操作することに応じて、次のように再生が進行する。第１取得部３３は、演奏操作子１５が押下操作されたことを検出するとノートオン情報を取得し、押下操作されている演奏操作子１５が離操作されたことを検出するとノートオフ情報を取得する。

　例えば、サンプルＳＰ１より前のフレーズが存在しないか、あるいはサンプルＳＰ１より前のフレーズの再生が終了している状態で、ノートオン情報が取得されたとする。すると、ポイント移動部３４はグローバル再生ポインタＰＧを再生開始位置Ｓ１に移動させると共に、再生ポインタＰＬを再生開始位置Ｓ１に設定する。すると、サンプルＳＰ１が再生対象となり、再生部３５は、再生開始位置Ｓ１からの再生を開始する。再生開始位置Ｓ１からの再生後、所定の再生速度で、ポイント移動部３４が再生ポインタＰＬを後方へ漸次移動させていく。この所定の再生速度は、例えば、歌唱合成用スコア２５を歌唱合成してオーディオ情報２６を生成する際の再生速度と同じである。再生ポインタＰＬがループ区間ＲＰ１の前端であるループ開始位置に至るとループ区間ＲＰ１の再生へ移行する。

　リアルタイム演奏におけるループ区間ＲＰ１の再生を実行する際には、再生部３５は、ループ区間ＲＰ１の音高をノートオン情報に基づく音高に変換して再生してもよい。そのようにする場合、演奏操作子１５のうちどの鍵を押下したかによって再生音高が変わる。

　例えば、再生部３５は、サンプルＳＰ１に対応する歌唱合成用スコア２５の音高と、入力されたノートオンの音高情報とに基づき、ノートオンに応じた音高になるようにピッチシフトして再生してもよい。なお、ピッチシフト、をループ区間ＲＰ１だけでなく、サンプルＳＰ１全体に対して適用してもよい。

　やがて、再生ポインタＰＬがループ区間ＲＰの終端であるループ終了位置に達すると、ポイント移動部３４は、再生ポインタＰＬの移動方向を逆転させ、ループ区間ＲＰ１の前端であるループ開始位置へ向かって再生ポインタＰＬを移動させていく。その後、再生ポインタＰＬがループ開始位置に達すると、ポイント移動部３４は、再生ポインタＰＬの移動方向を順方向（後方）に戻し、ループ終了位置へ向かって再生ポインタＰＬを移動させていく。ループ区間ＲＰ１における再生ポインタＰＬの移動方向の反転は、今回のノートオン情報に対応するノートオフ情報が取得されるまで繰り返される。従って、ループ区間ＲＰがループ再生される。やがて、ノートオフ情報が取得されると、ポイント移動部３４は、そのときの再生位置から、再生ポインタＰＬを、ループ区間ＲＰ１の終端であるループ終了位置にジャンプさせる。そして、再生部３５は、ループ終了位置から再生終了位置Ｅ１までの再生を開始する。この際、再生部３５は、クロスフェード再生を行うことで滑らかに再生するようにしても良い。なお、再生ポインタＰＬがループ区間ＲＰ１に至る前にノートオフ情報が取得された場合であっても、ポイント移動部３４は、再生ポインタＰＬをループ終了位置にジャンプさせる。

　再生部３５は、ループ区間ＲＰ１の終端であるループ終了位置からの再生を開始した後、次の再生終了位置Ｅである再生終了位置Ｅ１までの再生が終了すると、サンプルＳＰ１の再生を終了する。それと共に、再生部３５は、ローカルな再生ポインタＰＬを破棄する。そして、次のノートオン情報が取得されると、シーケンス位置の同定処理として、まず、ポイント移動部３４がグローバル再生ポインタＰＧの移動先を判断し、グローバル再生ポインタＰＧを移動先へ移動させる。例えば、グローバル再生ポインタＰＧを再生開始位置Ｓ２に移動させたとすると、次に再生部３５は、再生開始位置Ｓ２を再生開始位置として設定した新たな再生ポインタＰＬに従って、サンプルＳＰ２の再生を開始する。

　その後のサンプルＳＰ２の再生動作はサンプルＳＰ１の再生動作と同様である。また、サンプルＳＰ３、ＳＰ４の再生動作もサンプルＳＰ１の再生動作と同様である。サンプルＳＰ５については、ループ区間ＲＰ５のループ終了位置から再生終了位置Ｅ５までの再生が終了すると、図４に示すフレーズの再生は終了する。図４に示すフレーズに対し、後続のフレーズがある場合は、ポイント移動部３４は、グローバル再生ポインタＰＧを、後続のフレーズの先頭のサンプルＳＰの前端に移動させる。図４に示すフレーズが、オーディオ情報２６における最終フレーズである場合は、オーディオ情報２６の再生が終了する。

　なお、ループ区間ＲＰのループ再生の手法は問わない。従って、ループ区間ＲＰを往復する態様でなくてもよく、ループ開始位置からループ終了位置まで順方向の再生を繰り返す態様でもよい。また、タイムストレッチ技術を用いてループ再生を実現してもよい。

　図５、図６を用いて、生成部３７（図３）が歌唱合成用スコア２５から再生用データ２８を生成する際に、オーディオ情報２６に区切り情報２７がどのよう対応付けられるかについて説明する。なお、本発明のオーディオ情報再生方法を実現することに限れば、区切り情報２７は、通常のオーディオ情報を解析することで事後的に対応付けられてもよい。しかし、より高い精度で区切り情報２７を対応付けるために、生成部３７は、歌唱合成用スコア２５を歌唱合成してオーディオ情報２６を生成する段階で、区切り情報２７を生成して対応付ける。なお、再生開始位置Ｓ１、ループ区間ＲＰ１（ループ開始位置およびループ終了位置）、ジョイント部Ｃおよび再生終了位置Ｅ１は、オーディオ情報２６における図４に例示した位置に対応付けられていることは必須でない。再生用データ２８を生成する際に適用するルールによって、区切り情報２７の内容は異なる。図５、図６では、自然な発音を可能にするための区切り情報２７の設定の代表例を説明し、変形例については図８で後述する。

　図５、図６は、歌唱合成用スコア２５における１つのフレーズに対する区切り情報を例示する図である。図５では、日本語の「じ（［ＪＩ］と発音される日本語文字）」「こ（［ＫＯ］と発音される日本語文字）」「ちゅ（［ＣＹＵ］と発音される日本語文字）」という３つの音節から成るフレーズに対する区切り情報を例示する。図６では、英語の「I」「test」「it」という３つの音節から成るフレーズに対する区切り情報を例示する。図５、図６に示す歌唱合成用スコア２５における再生開始位置ｓ（ｓ１～ｓ３）、再生終了位置ｅ（ｅ１～ｅ３）は、それぞれ、図４に示すオーディオ情報２６における再生開始位置Ｓ、再生終了位置Ｅに対応している。また、図５、図６に示す歌唱合成用スコア２５におけるループ区間ｌｏｏｐ（ｌｏｏｐ１～ｌｏｏｐ３）、ジョイント部ｃ（ｃ１、ｃ２）は、それぞれ、図４に示すオーディオ情報２６におけるループ区間ＲＰ、ジョイント部Ｃに対応している。

　図５、図６において、音節を、一例としてＸ-ＳＡＭＰＡ（Extended Speech Assessment Methods Phonetic Alphabet）に準拠した形式の音素記号で表している。歌唱合成用スコア２５を構成する音声素片データベースには、［ａ］、［ｉ］といったような単一の音素の音声素片データや、［ａ－ｉ］、［ａ－ｐ］といったような音素連鎖の音声素片データが記憶されている。

　図５の例において、「じ（［ＪＩ］と発音される日本語文字）」「こ（［ＫＯ］と発音される日本語文字）」「ちゅ（［ＣＹＵ］と発音される日本語文字）」は表音文字である。「じ（日本語文字［ＪＩ］）」を音素記号で表すと［dZ-i］となる。「こ（日本語文字［ＫＯ］）」を音素記号で表すと［k-o］となる。「ちゅ（日本語文字［ＣＹＵ］）」を音素記号で表すと［ts-M］となる。歌唱合成用スコア２５においては、フレーズの先頭音節の音声素片の表記は「Sil-」で始まり、最後の音節の音声素片の表記は「-Sil」で終わる。また、繋げて発音する音素間には、音素連鎖の音声素片が配置される。従って、１つのフレーズとして繋げて発音するため場合の「じ（日本語文字［ＪＩ］）」「こ（日本語文字［ＫＯ］）」「ちゅ（日本語文字［ＣＹＵ］）」を音素記号で表すと、
［Sil-dZ］［dZ-i］［i］[i-k]［k-o］［o］［o-tS］［ts-M］［M］［M-Sil］となる。

　再生開始位置ｓに関し、フレーズ中の先頭の音節である「じ（日本語文字［ＪＩ］）」の再生開始位置ｓ１は、音声素片［Sil-dZ］におけるdZの前端位置である。また、フレーズ中の隣接する２つの音節のうち後側の音節の再生開始位置ｓは、前側の音節の最後の音素と後側の音節の最初の音素とで構成される音声素片の後端位置である。例えば、隣接する「じ（日本語文字［ＪＩ］）」「こ（日本語文字［ＫＯ］）」のうち「こ（日本語文字［ＫＯ］）」については、「じ（日本語文字［ＪＩ］）」の最後の音素（i）と「こ（日本語文字［ＫＯ］）」の最初の音素（k）とで構成される音声素片[i-k]の後端位置が、再生開始位置ｓ２となる。「こ（日本語文字［ＫＯ］）」「ちゅ（日本語文字［ＣＹＵ］）」のうち「ちゅ（日本語文字［ＣＹＵ］）」については、音声素片［o-tS］の後端位置が、再生開始位置ｓ３となる。

　再生終了位置ｅに関し、前側の音節の再生終了位置ｅは、後側の音節の再生開始位置ｓと同じ位置である。例えば、隣接する「じ（日本語文字［ＪＩ］）」「こ（日本語文字［ＫＯ］）」のうち「じ（日本語文字［ＪＩ］）」の再生終了位置ｅ１は、「こ（日本語文字［ＫＯ］）」の再生開始位置ｓ２と同じ位置である。「こ（日本語文字［ＫＯ］）」「ちゅ（日本語文字［ＣＹＵ］）」のうち「こ（日本語文字［ＫＯ］）」の再生終了位置ｅ２は、「ちゅ（日本語文字［ＣＹＵ］）」の再生開始位置ｓ３と同じ位置である。また、フレーズ中の最後の音節である「ちゅ（日本語文字［ＣＹＵ］）」の再生終了位置ｅ３は、音声素片［M-Sil］におけるMの後端位置である。

　音声素片［i］、［o］、［M］は、各音節のステーショナリ部である。これらステーショナリ部の区間がｌｏｏｐ１、２、３となる。また、ジョイント部ｃ１、ｃ２は、それぞれ、再生終了位置ｅ１、ｅ２と同じ位置である。このように、日本語のフレーズにおいては、子音と子音との間にジョイント部ｃが位置する。

　生成部３７は、歌唱合成用スコア２５を歌唱合成してオーディオ情報２６を生成する段階で、区切り情報２７を生成する。その際、生成部３７は、再生開始位置ｓ、ループ区間ｌｏｏｐ（ループ開始位置およびループ終了位置）、ジョイント部ｃおよび再生終了位置ｅを、それぞれ、再生開始位置Ｓ、ループ区間ＲＰ（ループ開始位置およびループ終了位置）、ジョイント部Ｃおよび再生終了位置Ｅに対応させた区切り情報２７を生成する。そして、生成部３７は、生成した区切り情報２７をオーディオ情報２６に対応付けることで、再生用データ２８を生成する。従って、オーディオ情報２６においては、各フレーズ中の隣接する複数の音節のうち先頭の音節の再生開始位置ｓは、当該先頭の音節の前端位置となる。また、オーディオ情報２６においては、各フレーズ中の隣接する複数の音節のうち最後尾の音節の再生終了位置ｅは、当該最後尾の音節の終端位置となる。

　なお、歌唱合成用スコア２５を歌唱合成する際、歌唱合成用スコア２５における音節ごとに、ステーショナリ部の区間（ループ区間ｌｏｏｐ）の長さが所定時間未満となる場合があり得る。このような場合、ループ区間ＲＰが短すぎてループ再生を適切に行えない可能性がある。そこで、生成部３７は、ステーショナリ部の区間の長さを上記所定時間以上の長さにした区間を、区切り情報２７におけるループ区間ＲＰとして設定してもよい。

　次に、図６の例において、「I」「test」「it」を音素記号で表すと、
[Sil-aI]［aI］［aI-t］［t-e］［e］［e-s］［s-t］［t-i］［i］［i-t］［t-Sil］となる。

　再生開始位置ｓに関し、フレーズ中の先頭の音節である「I」の再生開始位置ｓ１は、音声素片[Sil-aI]におけるaIの前端位置である。「test」の再生開始位置ｓ２は、音声素片［aI-t］の後端位置である。「it」の再生開始位置ｓ３は、音声素片［s-t］の後端位置である。

　再生終了位置ｅに関し、「I」の再生終了位置ｅ１は、「test」の再生開始位置ｓ２と同じ位置である。「test」の再生終了位置ｅ２は、「it」の再生開始位置ｓ３と同じ位置である。また、フレーズ中の最後の音節である「it」の再生終了位置ｅ３は、音声素片［t-Sil］におけるｔの後端位置である。

　図７は、リアルタイム再生処理のフローチャートである。この処理は、例えば、ＣＰＵ１０がＲＯＭ１２に記憶されたプログラムをＲＡＭ１３に展開して実行することにより実現される。

　電源がオンにされると、ＣＰＵ１０は、演奏する曲を選択する操作がユーザから受け付けられるまで待つ（ステップＳ１０１）。なお、一定時間経過しても曲選択の操作がない場合は、ＣＰＵ１０は、デフォルトで設定されている曲が選択されたと判断してもよい。ＣＰＵ１０は、曲の選択を受け付けると、初期設定を実行する（ステップＳ１０２）。この初期設定においては、ＣＰＵ１０は、選択された曲の再生用データ２８（オーディオ情報２６および区切り情報２７）を読み出すと共に、シーケンス位置を初期位置に設定する。すなわち、ＣＰＵ１０は、グローバル再生ポインタＰＧおよび再生ポインタＰＬを、オーディオ情報２６における先頭フレーズの先頭音節の前端に位置させる。

　次に、ＣＰＵ１０は、演奏操作子１５の操作に基づくノートオンを検出している（ノートオン情報が取得されている）か否かを判別する（ステップＳ１０３）。そして、ＣＰＵ１０は、ノートオンが検出されていない場合、ノートオフを検出した（ノートオフ情報を取得した）か否かを判別する（ステップＳ１０７）。一方、ノートオンを検出している場合は、ＣＰＵ１０は、シーケンス位置の同定処理を実行する（ステップＳ１０４）。

　この同定処理において、グローバル再生ポインタＰＧおよびローカルな再生ポインタＰＬの位置が決定される。例えば前のノートオンの時刻と現在のノートオンの時刻との差が所定以上に大きければグローバル再生ポインタＰＧが１つ進められる。なお、リアルタイム再生処理と並行して、選択曲の伴奏を再生してもよい。その場合、伴奏の再生位置に追従してグローバル再生ポインタＰＧを移動させてもよい。あるいは、グローバル再生ポインタＰＧの移動に合わせて伴奏が演奏されるようにしても良い。

　図４に示す例で説明すると、例えば、グローバル再生ポインタＰＧおよび再生ポインタＰＬが、サンプルＳＰ１の再生開始位置Ｓ１に位置している場合は、ＣＰＵ１０は、サンプルＳＰ１において再生ポインタＰＬを進める処理を開始する。再生ポインタＰＬがループ区間ＲＰ１に位置している場合（ループ再生中）は、ＣＰＵ１０は、ループ区間ＲＰ１内を往復するように再生ポインタＰＬを進める。

　なお、上記同定処理において、一定時間内に複数の押鍵により複数のノートオンが検出された場合は、ＣＰＵ１０は、グローバル再生ポインタＰＧの位置を進めず、サンプルＳＰ１を複数の音階で和音のように発音しても良い。あるいは、ＣＰＵ１０は、グローバル再生ポインタＰＧの位置を進めて、サンプルＳＰ１とサンプルＳＰ２とがそれぞれの音階で同時発音されるようにしても良い。なお、一定時間間隔を保って２つの押鍵がなされた場合は、ステップＳ１０３でＹＥＳと判別された後、ステップＳ１０７でＹＥＳと判別され、その後、再びステップＳ１０３でＹＥＳと判別される。

　なお、複数の鍵が同時に操作された場合であっても、単音のみを出力する構成としてもよい。この場合、同時に操作された鍵の音高のうち、最も高い音高に従って処理してもよいし、最も低い音高に従って処理してもよい。一定時間内に複数の押鍵があった場合、最後に押下された鍵の音高に従って処理してもよい。

　次に、ステップＳ１０５で、ＣＰＵ１０は、オーディオ情報２６におけるシーケンス位置のサンプルを読み出す。ステップＳ１０６では、ＣＰＵ１０は、ステップＳ１０５で読み出したサンプルを発音する発音処理を開始する。なお、ＣＰＵ１０は、オーディオ情報２６において規定されていた音高と、今回のノートオン情報に基づく音高との差に応じて、発音音高をシフトする。この処理により、再生対象のサンプルの音高がノートオン情報に基づく音高に変換されて再生される。また、和音発音の場合は、それぞれのノートオン情報に基づく複数の音高で発音される。ステップＳ１０６の後、ＣＰＵ１０は、処理をステップＳ１０７に進める。

　ステップＳ１０７で、ノートオフを検出しない場合は、押鍵状態が継続しているので、ＣＰＵ１０は、発音中のサンプルがあるか否かを判別する（ステップＳ１１０）。そして、発音中のサンプルがない場合は、ＣＰＵ１０は、処理をステップＳ１０３に戻す。一方、発音中のサンプルがある場合は、ＣＰＵ１０は、発音継続処理を実行して（ステップＳ１１１）、処理をステップＳ１０３に戻す。図４に示す例でいえば、例えば、サンプルＳＰ１の発音中であれば再生ポインタＰＬが示す位置以降の再生が継続される。特に、再生ポインタＰＬがループ区間ＲＰ１に位置する場合は、ループ区間ＲＰ１のループ再生が継続される。

　ステップＳ１０７で、ノートオフを検出した場合は、通常、押下された鍵が離操作されたと判断できるので、ＣＰＵ１０は、ステップＳ１０８で発音停止処理を実行する。ここでは、ＣＰＵ１０は、再生ポインタＰＬを、発音中のサンプルＳＰにおけるループ区間ＲＰの終端であるループ終了位置にジャンプさせると共に、ジャンプ後の位置から、後方に隣接する再生終了位置Ｅまでの再生を開始する。図４に示す例でいえば、例えば、サンプルＳＰ１の発音中にノートオフ情報が取得された場合、ＣＰＵ１０は、再生ポインタＰＬを、ループ区間ＲＰ１のループ終了位置にジャンプさせる。それと共にＣＰＵ１０は、ループ区間ＲＰ１のループ終了位置から、後方に隣接する再生終了位置Ｅ１までの再生を開始する。例えば、図６の例で、「test」を長く伸ばして再生される場合、母音である「ｅ」が伸びると共に、その後、ノートオフに応じて再生終了位置Ｅ１まで再生されることで、子音である「ｓｔ」がしっかりと発音される。従って、自然な伸ばし方で「test」を再生することができる。

　次に、ステップＳ１０９で、ＣＰＵ１０は、シーケンスエンドに達したか、すなわち、選択曲のオーディオ情報２６の最後まで再生したか否かを判別する。そしてＣＰＵ１０は、選択曲のオーディオ情報２６の最後まで再生していない場合は処理をステップＳ１０３に戻し、選択曲のオーディオ情報２６の最後まで再生した場合は、図７に示すリアルタイム再生処理を終了する。

　本実施の形態によれば、オーディオ情報のリアルタイムで且つ所望の再生制御を実現することができる。特に、ＣＰＵ１０は、ノートオン情報を取得したことに応じて、再生開始位置Ｓから再生を開始すると共に、ループ区間ＲＰに達した場合はループ再生に移行する。また、ＣＰＵ１０は、ノートオン情報に対応するノートオフ情報を取得したことに応じて、再生対象の音節のループ区間ＲＰの終端であるループ終了位置から再生終了位置ｅまでの再生を開始する。ユーザは、演奏操作子１５を操作することで、所望のタイミングで音節を順に発音させることができる。しかも、演奏操作子１５の押下を継続することで、ループ区間ＲＰのループ再生により、所望の音節の音を所望に伸ばすことができる。さらには、ピッチシフトにより、音節の発音音高をユーザの操作した演奏操作子１５に応じて変更しつつ演奏できる。従って、オーディオ情報の再生をリアルタイムで所望に制御することができる。

　また、ＣＰＵ１０は、歌唱合成用スコア２５を歌唱合成することでオーディオ情報２６を生成すると共に、歌唱合成用スコア２５における音節ごとに区切り情報２７をオーディオ情報２６に対応付ける。従って、リアルタイムで所望に再生制御可能なオーディオ情報を生成することができる。また、区切り情報２７の対応付けの精度を高めることができる。

　また、ループ区間ＲＰは、歌唱合成用スコア２５における各音節の、ステーショナリ部に対応する区間である。しかも、ＣＰＵ１０は、歌唱合成用スコア２５における音節ごとに、ステーショナリ部の区間の長さが所定時間未満である場合は、当該ステーショナリ部の区間の長さを所定時間以上の長さにした区間を、ループ区間ＲＰとしてオーディオ情報２６に対応付ける。従って、ループ再生時の音を自然なものにすることができる。

　次に、区切り情報２７の設定の変形例については図８で後述する。図８は、歌唱合成用スコア２５における１つのフレーズに対する区切り情報の変形例を例示する図である。図８の例では、英語の「start」「start」という２つの音節から成るフレーズに対する区切り情報を例示する。図８における３つのパターン１）、２）、３）は、次のような特徴を有する。

　まず、パターン１）では、子音部分がノートオン以降にすべて含まれる。従って、各ノートをゆっくり単独で発音させた時に各発音（サ行等（日本語の［Ｓａ］行）が明瞭となる。一方、伴奏に合わせて発音する場合は、子音の種類によってはかなり先行して弾く必要がある。

　パターン２）では、素片接続を行っていることが知覚しにくい子音と子音の接続部分としている。なお、この変形例として、子音の種類に依らず、一定の長さだけノートオンから先行した位置を区切り位置としてもよい。この場合は、歌詞に依らず一定のタイミングで先行して演奏すれば良いので、伴奏に合わせたタイミングでの演奏を比較的容易に行うことができる。

　パターン３）では、元の歌唱合成用スコアのノートオンの位置と同じ位置で弾くことができる。ただし、単独で発音する場合には「さ（日本語文字［Ｓａ］）」の歌詞のノートを弾いても［ａ］の部分しか発音されない。

　３つのパターン１）、２）、３）のうち、パターン２）は、図６で説明したルールを適用したものと同じである。「start」「start」を音素記号で表すと、
[Sil-s] [s-t] [t-Q@] [ Q@ ] [Q@-t] [t-s] [s-t] [t-Q@] [ Q@ ] [Q@-t] [t-Sil]となる。

　パターン１）、２）、３）のいずれにおいても、後側の「start」の再生終了位置ｅは、音声素片［t-Sil］におけるｔの後端位置である。また、パターン１）、２）、３）のいずれにおいても、音声素片[ Q@ ]は、各音節のステーショナリ部であり、これらの区間がループ区間ｌｏｏｐとなる。

　パターン１）では、再生開始位置ｓに関し、フレーズ中の先頭の「start」の再生開始位置ｓは、音声素片［Sil-s］におけるsの前端位置である。また、フレーズ中の隣接する２つの音節のうち後側の音節の再生開始位置ｓはジョイント部ｃと同じである。すなわち、ジョイント部ｃは、前側の音節の最後の音素と後側の音節の最初の音素とで構成される音声素片における、後側の音素の前端位置である。例えば、[t-s]におけるｓの前端位置がジョイント部ｃとなる。前側の音節の再生終了位置ｅは、後側の音節の再生開始位置ｓおよびジョイント部ｃと同じである。

　パターン３）では、再生開始位置ｓは、ループ区間ｌｏｏｐとして伸長される音素（ステーショナリ部に対応する音素）と、当該音素の１つ前の音素とで構成される音声素片における、後側の音素（ステーショナリ部に対応する音素）の前端位置である。例えば、１つ目の[t-Q@]におけるQ@の前端位置が再生開始位置ｓとなる。また、後側の音節の再生開始位置ｓはジョイント部ｃと同じである。ジョイント部ｃは、２つ目の[t-Q@]におけるQ@の前端位置である。前側の音節の再生終了位置ｅは、後側の音節の再生開始位置ｓおよびジョイント部ｃと同じである。

　このように、再生用データ２８を生成する際に適用するルールは１種類に限定されない。また、言語によって適用するルールを異ならせてもよい。

　なお、ステーショナリ部の区間（ループ区間ｌｏｏｐ）の長さが所定時間未満となる場合において、仮に、ステーショナリ部の区間の長さを長くする処理を採用せず、オーディオ情報２６において、ループ区間ＲＰの長さを充分に確保できなかったとする。この場合、ステップＳ１１１では、例えば、音声素片［dZ-i］の[i]の区間を使ってループ再生するようにしてもよい。

　なお、歌唱合成用スコア２５がビブラート等の表情付けパラメータを持っていたとしても、それらの情報を無視して、歌唱合成用スコア２５をオーディオ情報２６に変換するようにしてもよい。一方、再生用データ２８は、ビブラートなどの表情付けパラメータを情報として含んでもよい。その場合であっても、再生用データ２８におけるオーディオ情報２６のリアルタイム再生処理においては、ビブラート等の表情付けパラメータの再現を無効にしてもよい。あるいは、ビブラートを再現する場合、ループ再生における反復タイミングをビブラートの振幅波形と合致させることで、オーディオ情報２６に含まれるビブラートの周期を保ちながら発音時間を変更するようにしてもよい。

　なお、ステップＳ１０６において、フォルマンシフトを併用してもよい。また、ピッチシフトを採用することは必須でない。

　なお、所定のサンプルデータを保持しておき、ノートオフ情報を取得したときに、ステップＳ１０８で、ループ区間ＲＰの終端であるループ終了位置から再生終了位置ｅまでの再生に代えて、アフタタッチ処理として、上記所定のサンプルデータを再生するようにしてもよい。あるいは、アフタタッチ処理として、「ＷＯ２０１６／１５２７１５公報」等に示されるようなグループ化処理を適用してもよい。例えば、音節「こ（日本語文字［ＫＯ］）」と「い（日本語文字［Ｉ］）」がグループ化されている場合、「こ（日本語文字［ＫＯ］）」の発音中にノートオフ情報が取得されたことに応じて、「こ（日本語文字［ＫＯ］）」の発音終了に続けて「い（日本語文字［Ｉ］）」まで発音してもよい。

　なお、リアルタイム再生処理で用いるオーディオ情報２６は、歌唱の音節に相当するサンプルＳＰ（音節に対応する波形データ）を有するものに限定されない。すなわち、本発明のオーディオ情報再生方法を、歌唱に基づかないオーディオ情報に応用してもよい。従って、オーディオ情報２６は、必ずしも歌唱合成によって生成されたものに限らない。歌唱に基づかないオーディオ情報に区切り情報が対応付けられる場合、例えば、エンベロープ波形におけるＳ（Sustain）に、ループ再生する区間が対応付けられ、Ｒ（Release）に、ノートオフ時に再生する終端情報が対応付けられてもよい。

　なお、本実施の形態では、演奏操作子１５は音高を指定する機能を有していた。しかし、ノートオン情報とノートオフ情報とを入力するための入力操作子を１つ以上に限定してもよい。その場合、入力操作子は専用であってもよいが、演奏操作子１５のうちの一部（例えば、鍵盤の最低音高の２つの白鍵など）に割り当てられてもよい。例えば、入力操作子により情報が入力されるごとに、ＣＰＵ１０が次の区切り位置をシークし、グローバル再生ポインタＰＧおよびまたは再生ポインタＰＬを移動させる構成としてもよい。

　なお、オーディオ情報２６を再生するチャネルの数は１つに限定されない。区切り情報２７を共有する複数のチャネルのそれぞれに対して、本発明を適用してもよい。その際、伴奏を再生するチャネルについては、発音音高のシフト処理の対象外としてもよい。

　以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。

　なお、本発明の適用に関し、オーディオ情報再生機能にだけ着目する場合、本装置がオーディオ情報生成機能を有することは必須でない。逆にオーディオ情報生成機能にだけ着目する場合、本装置がオーディオ情報再生機能を有することは必須でない。

　なお、本発明を達成するためのソフトウェアによって表される制御プログラムを記憶した記録媒体を、本装置に読み出すことによって、本発明と同様の効果を奏するようにしてもよい。その場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体５（図１参照）は本発明を構成することになる。例えば、図１に示すように、ＣＰＵ１０は、通信Ｉ／Ｆ２２を介して記録媒体５からプログラムコードを読み出すことができる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。非一過性のコンピュータ読み取り可能な記録媒体５としては、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ，ＤＶＤ－Ｒ，磁気テープ、不揮発性のメモリカード等を用いることができる。また、非一過性のコンピュータ読み取り可能な記録媒体としては、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含む。

Claims

　発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、
　前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を読み出し、
　ノートオン情報およびノートオフ情報を取得し、
　前記ノートオン情報または前記ノートオフ情報を取得したことに応じて、前記区切り情報に基づいて前記オーディオ情報における再生位置を移動させ、
　前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、オーディオ情報再生方法。
　前記ノートオン情報を取得したことに応じて、前記再生位置が示す再生対象の発声単位の前記再生開始位置から再生を開始すると共に、前記再生位置が前記ループ開始位置に達した場合はループ再生に移行する、請求項１に記載のオーディオ情報再生方法。
　前記ループ再生を実行する際、前記ループ再生の音高を前記ノートオン情報に基づく音高に変換して再生する、請求項２に記載のオーディオ情報再生方法。
　前記オーディオ情報は、合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを歌唱合成することで得られる、請求項１～３のいずれか１項に記載のオーディオ情報再生方法。
　前記区切り情報は、前記歌唱合成用スコアを歌唱合成する際に前記オーディオ情報に対応付けられる、請求項４に記載のオーディオ情報再生方法。
　前記オーディオ情報の隣接する２つの発声単位のうち、後側の発声単位の前記再生開始位置は、歌唱合成前の前記歌唱合成用スコアにおいて対応する２つの発声単位のうち、前側の発声単位の最後の音素と前記後側の発声単位の最初の音素とで構成される音声素片の後端位置に相当する、請求項４に記載のオーディオ情報再生方法。
　前記オーディオ情報の各フレーズ中の複数の発声単位のうち最後尾の発声単位の前記再生終了位置は、前記最後尾の発声単位の終端位置である、請求項１～６のいずれか１項に記載のオーディオ情報再生方法。
　ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成方法であって、
　合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得し、
　前記歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける、オーディオ情報生成方法。
　前記歌唱合成用スコアを歌唱合成する際、前記歌唱合成用スコアにおける各発声単位の、ステーショナリ部の区間を、前記ループ開始位置および前記ループ終了位置を規定する前記区切り情報として前記オーディオ情報に対応付ける、請求項８に記載のオーディオ情報生成方法。
　前記歌唱合成用スコアを歌唱合成する際、前記歌唱合成用スコアにおける発声単位ごとに、前記ステーショナリ部の区間の長さが所定時間未満である場合は、前記ステーショナリ部の区間の長さを前記所定時間以上の長さにした区間を、前記ループ開始位置および前記ループ終了位置を規定する前記区切り情報として前記オーディオ情報に対応付ける、請求項９に記載のオーディオ情報生成方法。
　前記歌唱合成用スコアを歌唱合成する際、前記歌唱合成用スコアにおける隣接する２つの発声単位のうち、前側の発声単位の最後の音素と後側の発声単位の最初の音素とで構成される音声素片の後端位置を、前記オーディオ情報の隣接する２つの発声単位のうち、前記後側の発声単位の前記再生開始位置を規定する前記区切り情報として前記オーディオ情報に対応付ける、請求項８に記載のオーディオ情報生成方法。
　オーディオ情報再生方法をコンピュータに実行させるプログラムであって、
　前記オーディオ情報再生方法は、
　発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、
　前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を読み出し、
　ノートオン情報およびノートオフ情報を取得し、
　前記ノートオン情報または前記ノートオフ情報を取得したことに応じて、前記区切り情報に基づいて前記オーディオ情報における再生位置を移動させ、
　前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、プログラム。
　ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成方法を、コンピュータに実行させるプログラムであって、
　前記オーディオ情報生成方法は、
　合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得し、
　前記歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける、プログラム。
　発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報、および、前記オーディオ情報に対応付けられた区切り情報であって、前記発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する前記区切り情報を取得し、ノートオン情報およびノートオフ情報を取得したことに応じて、前記区切り情報に基づいて、前記オーディオ情報における再生位置を移動させる移動部と、
　前記ノートオン情報を取得したことに応じて、前記移動部により移動された再生位置が示す再生対象の発声単位の前記再生開始位置から再生を開始すると共に、前記ノートオン情報に対応する前記ノートオフ情報を取得したことに応じて、前記再生対象の発声単位の前記ループ終了位置から前記再生終了位置までの再生を開始する、再生部と、を有する、オーディオ情報再生装置。
　ノートオン情報またはノートオフ情報を取得したことに応じて再生される、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を生成する、オーディオ情報生成装置であって、
　合成すべき歌唱音声の音高を指定する情報を曲の進行に合わせて時系列化した歌唱合成用スコアを取得する取得部と、
　前記取得部により取得された歌唱合成用スコアを歌唱合成することで、前記オーディオ情報を生成すると共に、前記歌唱合成用スコアにおける発声単位ごとに、ノートオン情報に応じて再生を開始する再生開始位置、ループ開始位置、ループ終了位置、および、ノートオフ情報を取得したことに応じて再生を終了する再生終了位置をそれぞれ規定する区切り情報を、前記オーディオ情報に対応付ける生成部と、を有する、オーディオ情報生成装置。