WO2022190502A1

WO2022190502A1 - 音生成装置およびその制御方法、プログラム、電子楽器

Info

Publication number: WO2022190502A1
Application number: PCT/JP2021/046585
Authority: WO
Inventors: 達也入山
Original assignee: ヤマハ株式会社
Priority date: 2021-03-09
Filing date: 2021-12-16
Publication date: 2022-09-15
Also published as: US20230419946A1; JPWO2022190502A1; CN117043853A

Abstract

音生成装置を提供する。発声すべき複数の文字が時系列に並べられ、第１文字および当該第１文字の後の第２文字を少なくとも含む第１歌詞データが取得され、発声の開始指示が取得される。制御部３０１は、発声の開始指示が取得された場合において、発声の開始指示が第１条件を満たす場合には、第１歌詞データにおける第１文字に対応する第１発声に基づくオーディオ信号を生成する指示を出力し、発声の開始指示が前記第１条件を満たさない場合には、第１歌詞データにおける第２文字に対応する第２発声に基づくオーディオ信号を生成する指示を出力する。

Description

音生成装置およびその制御方法、プログラム、電子楽器

　本発明は、音生成装置およびその制御方法、プログラム、電子楽器に関する。

　電子鍵盤装置などの電子楽器において、楽器音などを想定した電子音を生成する以外にも、歌唱音を合成して生成することが行われている。このような歌唱音（実際の歌唱と区別して、以下、合成歌唱音という）は、例えば、歌詞などの文字に応じた音声素片を組み合わせつつ、指定された音高になるように波形を合成することによって、その文字を発音したような合成音が生成される。従来は、予め用意した楽譜（シーケンスデータ等）と文字とを組み合わせて、合成歌唱音を生成する技術が用いられていたが、特許文献１、２のように、電子鍵盤装置への演奏操作に応じてリアルタイムに合成歌唱音を生成していく技術も開発されている。

特開２０１６－２０６４９６号公報特開２０１４－９８８０１号公報

　従来の歌唱音合成装置では、電子鍵盤装置の押鍵に応じて自動的に１文字ずつあるいは１音節ずつ進める場合、ミスタッチや装飾音等があると、歌詞の位置が演奏よりも先に進んでしまうことがあった。歌詞の位置が演奏よりも先に進んでしまった場合、歌詞の位置と演奏とが合っておらず、不自然な合成歌唱音となってしまうという問題があった。

　そこで、本発明は、リアルタイム演奏で歌唱音を発声させる際に、自然な合成歌唱音を生成することを目的の一つとする。

　上記目的を達成するために本発明によれば、発声すべき複数の文字が時系列に並べられ、第１文字および当該第１文字の後の第２文字を少なくとも含む第１歌詞データを取得する第１の取得部と、発声の開始指示を取得する第２の取得部と、前記第２の取得部により前記発声の開始指示が取得された場合において、前記発声の開始指示が第１条件を満たす場合には、前記第１歌詞データにおける前記第１文字に対応する第１発声に基づくオーディオ信号を生成する指示を出力し、前記発声の開始指示が前記第１条件を満たさない場合には、前記第１歌詞データにおける前記第２文字に対応する第２発声に基づくオーディオ信号を生成する指示を出力する制御部と、を有する、音生成装置が提供される。

　本発明によれば、リアルタイム演奏で歌唱音を発声させる際に、自然な合成歌唱音を生成することができる。

本発明の一実施形態におけるカラオケシステムの構成を示すブロック図である。本発明の一実施形態における電子楽器の構成を示すブロック図である。本発明の一実施形態における第１歌詞データを説明する図である。本発明の一実施形態における音生成処理を説明するフローチャートである。指示処理を説明するフローチャートである。音生成処理における時刻と音高との関係を表す図である。音生成処理における時刻と音高との関係を表す図である。音生成処理における時刻と音高との関係を表す図である。本発明の一実施形態における音生成機能を示す機能ブロック図である。指示処理を説明するフローチャートである。音生成処理における時刻と音高との関係を表す図である。本発明の一実施形態における第１歌詞データを説明する図である。音生成処理における時刻と音高との関係を表す図である。本発明の一実施形態における第２歌詞データを説明する図である。音生成処理における時刻と音高との関係を表す図である。本発明の一実施形態における電子管楽器の構成を示すブロック図である。

　以下、本発明の一実施形態におけるカラオケシステムについて、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。
＜実施形態＞
［全体構成］
　本発明の一実施形態におけるカラオケシステムは、合成歌唱音を生成することができる電子楽器を用いてカラオケをする場合に、対象となる楽曲を指定することによって、リアルタイム演奏で歌唱音を発声させる際に、自然な合成歌唱音を生成する機能を有している。

　図１は、本発明の一実施形態におけるカラオケシステムの構成を示すブロック図である。カラオケシステム１００は、カラオケ装置１、制御端末２、電子楽器３（音生成装置）、カラオケ用サーバ１０００、および歌唱音合成用サーバ２０００を備える。この例では、カラオケ装置１、カラオケ用サーバ１０００および歌唱音合成用サーバ２０００は、インターネットなどのネットワークＮＷを介して接続されている。この例では、カラオケ装置１は、制御端末２および電子楽器３のそれぞれと、短距離無線通信によって接続されるが、ネットワークＮＷを介した通信によって接続されてもよい。短距離無線通信とは、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、赤外線通信、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを用いた通信である。

　カラオケ用サーバ１０００は、カラオケ装置１においてカラオケを提供するために必要な楽曲データを、曲ＩＤに対応付けて記憶している記憶装置を備える。楽曲データは、カラオケの歌唱曲に関連するデータ、例えば、リードボーカルデータ、コーラスデータ、伴奏データ、およびカラオケ用字幕データなどが含まれている。リードボーカルデータは、歌唱曲の主旋律のパートを示すデータである。コーラスデータは、主旋律に対するハモリなどの副旋律のパートを示すデータである。伴奏データは、歌唱曲の伴奏音を示すデータである。リードボーカルデータ、コーラスデータ、および伴奏データは、ＭＩＤＩ形式で表現されたデータであってもよい。カラオケ用字幕データは、カラオケ装置１のディスプレイに歌詞を表示するためのデータである。

　歌唱音合成用サーバ２０００は、歌唱曲に合わせた設定を電子楽器３に対して行うための設定データを、曲ＩＤに対応付けて記憶している記憶装置を備える。設定データには、曲ＩＤに対応する歌唱曲の各パートに対応する歌詞データが含まれている。リードボーカルパートに対応する歌詞データを第１歌詞データという。歌唱音合成用サーバ２０００に記憶されている第１歌詞データは、カラオケ用サーバ１０００に記憶されているカラオケ用字幕データとは、同じであってもよいし、異なっていてもよい。すなわち、歌唱音合成用サーバ２０００に記憶されている第１歌詞データは、発声すべき歌詞（文字）を規定するデータである点においては同じであるが、電子楽器３において利用しやすい形式に調整されている。例えば、カラオケ用サーバ１０００に記憶されるカラオケ用字幕データとして、「こ（ｋｏ）」「ん（ｎ）」「に（ｎｉ）」「ち（ｃｈｉ）」「は（ｈａ）」という文字列である。これに対し、歌唱音合成用サーバ２０００に記憶されている第１歌詞データは、電子楽器３において利用しやすいように「こ（ｋｏ）」「ん（ｎ）」「に（ｎｉ）」「ち（ｃｈｉ）」「わ（ｗａ）」という実際の発音に合わせた文字列であってもよい。また、この形式としては、例えば、１音で２文字分の歌唱をする場合を識別する情報、フレーズの区切りを識別する情報などを含む場合がある。

　カラオケ装置１は、オーディオ信号が供給される入力端子、およびオーディオ信号を音として出力するスピーカを含む。入力端子に入力されるオーディオ信号は、電子楽器３から供給されてもよいし、マイクロフォンから供給されてもよい。

　カラオケ装置１は、カラオケ用サーバ１０００から受信した楽曲データのうち伴奏データからオーディオ信号を再生し、歌唱曲の伴奏音としてスピーカから出力する。入力端子に供給されたオーディオ信号に応じた音が伴奏音に合成されて出力されてもよい。

　制御端末２は、カラオケ装置１に対するユーザの指示（例えば、歌唱曲の指定、音量、トランスポーズ等）を送信するリモコンである。制御端末２は、カラオケ装置１を介して電子楽器３に対するユーザの指示（例えば、歌詞の設定、音色等の設定等）を送信してもよい。

　カラオケシステムでは、制御端末２は、ユーザによって設定された楽曲を設定する指示を、カラオケ装置１に送信する。カラオケ装置１は、当該指示に基づき、カラオケ用サーバ１０００から当該楽曲の楽曲データおよび歌唱音合成用サーバ２０００から第１歌詞データを取得する。カラオケ装置１は、電子楽器３に第１歌詞データを送信する。電子楽器３には、第１歌詞データが格納される。楽曲演奏を開始するユーザの指示によって、カラオケ装置１は、楽曲データを読み出して伴奏音等を出力し、電子楽器３は、第１歌詞データを読み出して、ユーザによる演奏操作に応じた合成歌唱音を出力する。
［電子楽器のハードウェア構成］
　電子楽器３は、演奏操作部３２１（図２）の操作に応じて、指示内容に従って合成歌唱音を示すオーディオ信号を生成する装置である。本実施形態では、電子楽器３は、電子鍵盤装置である。演奏操作部３２１は、複数の鍵を含む鍵盤および各鍵に対する操作（以下、演奏操作という場合がある）を検出するセンサを含む。本実施形態では、合成歌唱音は、電子楽器３からオーディオ信号がカラオケ装置１の入力端子に供給されることによってカラオケ装置１のスピーカから出力されてもよいし、電子楽器３に接続されたスピーカから出力されてもよい。

　図２は、本発明の一実施形態における電子楽器３の構成を示すブロック図である。電子楽器３は、制御部３０１、記憶部３０３、操作部３０５、表示部３０７、通信部３０９、インターフェイス３１７、および演奏操作部３２１を含む。これらの各構成は、バスを介して接続されている。

　制御部３０１は、ＣＰＵなどの演算処理回路を含む。制御部３０１は、記憶部３０３に記憶されたプログラムをＣＰＵにより実行して、各種機能を電子楽器３において実現させる。電子楽器３において実現される機能は、例えば、音生成処理を実行するための音生成機能を含む。制御部３０１は、音生成機能によってオーディオ信号を生成するためのＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）を含む。記憶部３０３は、不揮発性メモリ等の記憶装置である。記憶部３０３は、上記音生成機能を実現するためのプログラムを記憶する。音生成機能については、後述する。また、記憶部３０３は、合成歌唱音を示すオーディオ信号を生成する際に用いる設定情報、合成歌唱音を生成するための音声素片等を記憶する。設定情報とは、例えば、音色、および歌唱音合成用サーバ２０００から受信した第１歌詞データなどである。

　操作部３０５は、スイッチ、ボリュームつまみなどの装置であり、入力された操作に応じた信号を制御部３０１に出力する。表示部３０７は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置であり、制御部３０１による制御に基づいた画面が表示される。なお、操作部３０５と表示部３０７とは一体としてタッチパネルを構成してもよい。通信部３０９は、制御部３０１の制御に基づいて、短距離無線通信によって制御端末２と接続する。

　演奏操作部３２１は、演奏操作に応じた演奏信号を制御部３０１に出力する。演奏信号は、操作された鍵の位置を示す情報（ノートナンバ）、押鍵したことを示す情報（ノートオン）、離鍵したことを示す情報（ノートオフ）、および押鍵速度（ベロシティ）等を含む。具体的には、押鍵されると、ベロシティおよびノートナンバ（音高指示ともいう）が対応付けられたノートオンが発声の開始指示を示す演奏信号として出力され、離鍵するとノートナンバが対応付けられてノートオフが発声の停止指示を示す演奏信号として出力される。制御部３０１は、この演奏信号を用いてオーディオ信号を生成する。インターフェイス３１７は、生成されたオーディオ信号を出力する端子を含む。

　ここで、記憶部３０３に記憶される第１歌詞データの一例について、図３を参照して説明する。図３は、本発明の一実施形態で使用される第１歌詞データである。第１歌詞データは、発声すべき歌詞（文字）を規定するデータである。第１歌詞データは、発声すべき複数の文字が時系列に並べられたテキストデータを有する。第１歌詞データは、所定の時間軸により文字ごとに発声の開始時刻および停止時刻が規定されるタイミングデータを含む。開始時刻および停止時刻は、例えば、楽曲の最初を基準とした時刻として定義される。このタイミングデータは、歌唱曲の進行位置と、その進行位置において発声すべき歌詞とを対応付けている。

　以降、発声すべき歌詞（文字）の各々、つまり音声上の一単位（一まとまりの音のくぎり）を、「音節」と表現することもある。本実施の形態では、歌詞データ（後述する第２歌詞データを含む）における「文字」は「音節」と同義に用いられる。

　図３に示すように、第１歌詞データは、「こ（ｋｏ）」「ん（ｎ）」「に（ｎｉ）」「ち（ｃｈｉ）」「わ（ｗａ）」「さ（ｓａ）」「よ（ｙｏ）」「お（ｏ）」「な（ｎａ）」「ら（ｒａ）」を示すテキストデータを含む。「こ」「ん」「に」「ち」「わ」「さ」「よ」「お」「な」「ら」示す文字には、Ｍ（ｉ）が対応付けられ、「ｉ」（ｉ＝１～ｎ）により歌詞における文字の順序が設定されている。例えば、Ｍ（５）は、歌詞のうち５番目の文字に対応する。第１歌詞データは、各文字Ｍ（ｉ）に発声の開始時刻ｔｓ（ｉ）および停止時刻ｔｅ（ｉ）が設定されたタイミングデータを含む。例えば、Ｍ（１）「こ」の場合、発声の開始時刻は時刻ｔｓ（１）であり、停止時刻は時刻ｔｅ（１）である。同様に、Ｍ（ｎ）「る」の場合、発声の開始時刻は時刻ｔｓ（ｎ）であり、停止時刻は時刻ｔｅ（ｎ）である。各文字Ｍ（ｉ）に対応する時刻ｔｓ（ｉ）～時刻ｔｅ（ｉ）の期間を、文字Ｍ（ｉ）の発声の設定期間という。この発声の設定期間は、例えば理想的に歌唱した場合における期間を示している。以下に説明するように、合成歌唱音に含まれる各文字の発声期間は、演奏信号による発声の開始指示および発声の停止指示に基づいて制御されるものであって、タイミングデータに規定される発声の設定期間とは関連しない。
［音生成処理］
　次に、本発明の一実施形態に係る音生成処理について、図４～図８を参照して説明する。音生成処理は、演奏操作部３２１への演奏操作に基づいて、各文字の発声に対応するオーディオ信号を生成する指示又は停止する指示を出力する。

　図４は、本発明の一実施形態における音生成処理を説明するフローチャートである。この処理は、制御部３０１のＣＰＵが、記憶部３０３に記憶されたプログラムを記憶部３０３のＲＡＭ等に展開して実行することにより実現される。この処理は、例えば、ユーザが楽曲の再生を指示すると開始される。

　ユーザによる楽曲の再生指示により処理が開始されると、制御部３０１は、記憶部３０３から第１歌詞データを取得する（ステップＳ４０１）。次に、制御部３０１は初期化処理を実行する（ステップＳ４０２）。本実施形態において、初期化とは、制御部３０１がカウント値ｔｃ＝０を設定することである。次に、制御部３０１は、カウント値ｔｃ＝ｔｃ＋１に設定し、カウント値ｔｃをインクリメントする（ステップＳ４０３）。次に、伴奏データのうち、カウント値ｔｃに対応する部分のデータを読み出す（ステップＳ４０４）。

　制御部３０１は、伴奏データの読み出しの終了、ユーザによる楽曲演奏の停止指示の入力、又は演奏信号の受信、を検出するまでの間（ステップＳ４０５；Ｎｏ，ステップＳ４０６；Ｎｏ，ステップＳ４０７；Ｎｏ）、ステップＳ４０３及びステップＳ４０４の処理を繰り返しながら、上記の検出をするまで待機する。この状態を待機状態という。上述したように、カウント値ｔｃの初期値は０であり、楽曲の再生開始タイミングに対応する。制御部３０１は、カウント値ｔｃをインクリメントすることで、楽曲の再生開始タイミングを基準とした時刻を計測する。

　待機状態において伴奏データを最後まで読み出したことにより伴奏データの読み出しを終了した場合（ステップＳ４０５；Ｙｅｓ）、制御部３０１は音生成処理を終了する。待機状態においてユーザによる楽曲演奏の停止指示が入力された場合（ステップＳ４０６；Ｙｅｓ）、制御部３０１は音生成処理を終了する。

　待機状態において演奏操作部３２１から演奏信号を受信した場合（ステップＳ４０７；Ｙｅｓ）、制御部３０１は、ＤＳＰによりオーディオ信号を生成するための指示処理を実行する（ステップＳ５００）。オーディオ信号を生成するための指示処理の詳細な説明については後述する。オーディオ信号を生成するための指示処理が終了すると、再びステップＳ４０３に進み、制御部３０１は、ステップＳ４０３およびステップＳ４０４の処理を繰り返す待機状態となる。

　図５は、図４のステップＳ５００で実行される指示処理を示すフローチャートである。

　演奏操作部３２１から演奏信号を受信すると、オーディオ信号を生成するための指示処理が開始される。まず、制御部３０１は、演奏操作部３２１から取得した演奏信号に基づいて音高を設定する（ステップＳ５０１）。制御部３０１は、演奏操作部３２１から取得した演奏信号が、発声の開始指示か否かを判定する（ステップＳ５０２）。

　制御部３０１は、演奏信号が発声の開始指示であると判定する場合（ステップＳ５０２；Ｙｅｓ）、当該発声の開始指示を取得したときのカウント値ｔｃが、第１歌詞データを参照して、いずれかの文字に対応する発声の設定期間内であるか否かを判定する。

　制御部３０１は、発声の開始指示を取得した時刻がいずれかの文字Ｍ（ｉ）に対応する発声の設定期間内であると判定する場合（ステップＳ５０３；Ｙｅｓ）、その発声の設定期間に該当する文字Ｍ（ｐ）を発声すべき文字として設定する（ステップＳ５０４）。次に、制御部３０１は、設定した音高および文字Ｍ（ｐ）の発声に基づくオーディオ信号を生成する指示をＤＳＰに出力し（ステップＳ５０９）、指示処理を終了して図４に示すステップＳ４０３に進む。

　制御部３０１は、発声の開始指示を取得した時刻がいずれの文字に対しても発声の設定期間内ではないと判定する場合（ステップＳ５０３；Ｎｏ）、制御部３０１は、発声の開始指示の時刻に対して直前の文字Ｍ（ｑ）に対応する発声の停止時刻ｔｅ（ｑ）と、次の文字Ｍ（ｑ＋１）に対応する発声の開始時刻ｔｓ（ｑ＋１）との間の中心時刻ｔｍ（ｑ）を計算する（ステップＳ５０５）。停止時刻ｔｅ（ｑ）を「第１時刻」とし、開始時刻ｔｓ（ｑ＋１）を「第２時刻」としたき、停止時刻ｔｅ（ｑ）と開始時刻ｔｓ（ｑ＋１）との中心時刻を「第３時刻」と称する。カウント値ｔｃが、例えば、「こ」（文字Ｍ（１））の発声の停止時刻ｔｅ（１）と「ん」（文字Ｍ（２））の発声の開始時刻ｔｓ（２）との間の期間に含まれる場合、制御部３０１は、中心時刻ｔｍ（１）＝（ｔｅ（１）＋ｔｓ（２））／２を計算する。なお、直前の発声の停止時刻ｔｅ（ｑ）と次の発声の開始時刻ｔｓ（ｑ＋１）との間の中心時刻ｔｍ（ｑ）が予め計算されている場合は、ステップＳ５０５を省略してもよい。次に、制御部３０１は、カウント値ｔｃが中心時刻ｔｍ（ｑ）よりも前か否かを判定する（ステップＳ５０６）。ここで、カウント値ｔｃが中心時刻ｔｍ（ｑ）よりも前か否かを判定することは、「第１条件」が成立するか否かを判定することの一例である。

　カウント値ｔｃが中心時刻ｔｍ（ｑ）よりも前である場合（ステップＳ５０６；Ｙｅｓ）、制御部３０１は、中心時刻ｔｍ（ｑ）よりも前の設定期間に対応する文字Ｍ（ｑ）を設定する（ステップＳ５０７）。次に、制御部３０１は、設定した音高および文字Ｍ（ｑ）の発声に基づくオーディオ信号を生成する指示をＤＳＰに出力し（ステップＳ５０９）、指示処理を終了して図４に示すステップＳ４０３に進む。

　取得した開始指示が中心時刻ｔｍ（ｑ）の前ではない場合（ステップＳ５０６；Ｎｏ）、制御部３０１は、中心時刻ｔｍ（ｑ）の後の設定期間に対応する文字Ｍ（ｑ＋１）を読み出す（ステップＳ５０８）。次に、制御部３０１は、取得した音高および文字の発声を開始する信号を出力し（ステップＳ５０９）、指示処理を終了して図４に示すステップＳ４０３に進む。

　演奏操作部３２１から取得した演奏信号が発声の開始指示ではない、つまり、発声の停止指示であると判定する場合（ステップＳ５０２；Ｎｏ）、制御部３０１は、設定した音高および文字Ｍ（ｑ）発声に基づいて生成したオーディオ信号の生成を停止する指示をＤＳＰに出力して（ステップＳ５１０）、指示処理を終了して図４に示すステップＳ４０３に進む。

　以上の指示処理をまとめると、以下のように言い換えられる。オーディオ信号を生成するための指示処理において、制御部３０１は、発声の開始指示が第１条件を満たすか否かを判定する。第１条件を満たす場合には、制御部３０１は、第１文字に対応する第１発声に基づくオーディオ信号を生成し、第１条件を満たさない場合には、第１文字の次の第２文字に対応する第２発声に基づくオーディオ信号を生成する。本実施形態において、第１条件とは、発声の開始指示を取得した時刻が、第１文字の停止時刻と第２文字の開始時刻との中心時刻より前であるという条件である。上記指示処理をさらに言い換えると、制御部３０１は、発声の開始指示の取得時刻が属する設定期間または取得時刻に最も近い設定期間を特定し、特定した設定期間に対応する文字に対応する発声に基づくオーディオ信号を生成する。

　このように、順次処理することによって、楽曲の歌詞のうち伴奏音データの再生による伴奏音の進行に伴って特定される文字が、演奏操作に応じた音高およびタイミングで順次発声される合成歌唱音が生成される。そして、合成歌唱音を示すオーディオ信号がカラオケ装置１に対して出力される。

　次に、図４および図５に示す音生成処理の具体例について、図６～図８を参照して説明する。図６～図８は、音生成処理における時刻と音高との関係を表す図である。

　まず、発声の開始指示を取得したカウント値ｔｃ（取得時刻）が、発声の設定期間ｔｓ（１）～ｔｅ（１）内である場合について、図６を参照して説明する。音生成処理における待機状態において、制御部３０１が演奏操作部３２１から音高「Ｇ４」が対応付けられた発声の開始指示を含む演奏信号を受信したことを想定する。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ｇ４」を設定する（ステップＳ５０１）。制御部３０１は、演奏信号が発声の開始指示であると判定し（ステップＳ５０２；Ｎｏ）、図３に示す第１歌詞データを参照して、開始指示を取得したカウント値ｔｃが発声の設定期間に含まれる（属する）か否かを判定する（ステップＳ５０３）。発声の開始指示を取得した時刻が設定期間ｔｓ（１）～ｔｅ（１）内であるため、制御部３０１は、開始指示を取得した時刻が文字Ｍ（１）に対応する発声の設定期間内に含まれると判定し（ステップＳ５０３；Ｙｅｓ）、文字Ｍ（１）に該当する文字「こ」を、発声する文字として設定する（ステップＳ５０４）。次に、制御部３０１は、設定した音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号を生成する指示をＤＳＰに出力する（ステップＳ５０９）。図６において、設定した音高「Ｇ４」および文字「こ」の発声に基づいてオーディオ信号を生成した指示をＤＳＰに出力した時刻を、時刻ｔｏｎ（１）と表記する。制御部３０１のＤＳＰは、当該指示に基づいて、オーディオ信号の生成を開始する。

　続いて、音生成処理における待機状態において、演奏操作部３２１から音高「Ｇ４」が対応付けられた発声の停止指示を含む演奏信号を受信したことを想定する。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ｇ４」を設定する（ステップＳ５０１）。制御部３０１は、演奏信号が発声の停止指示であると判定し（ステップＳ５０２；Ｎｏ）、制御部３０１のＤＳＰは、設定した音高「Ｇ４」による発声（文字「こ」）に基づくオーディオ信号の生成を停止する指示を出力する（ステップＳ５１０）。図６において、設定した音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号の生成を停止する指示を出力した時刻を、時刻ｔｏｆｆ（１）と表記する。制御部３０１のＤＳＰは、当該指示に基づいて、オーディオ信号の生成を停止する。図６において、発声期間ｔｏｎ（１）～ｔｏｆｆ（１）が、音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号が生成されている期間である。

　次に、発声の開始指示を取得したカウント値ｔｃが、発声の設定期間ｔｓ（１）～ｔｅ（１）と、設定期間ｔｓ（２）～ｔｅ（２）との間の期間であって、設定期間ｔｓ（１）～ｔｅ（１）に近い場合について、図７を参照して説明する。音生成処理における待機状態において、制御部３０１が演奏操作部３２１から音高「Ｇ４」が対応付けられた発声の開始指示を含む演奏信号を受信したことを想定する。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ｇ４」を設定する（ステップＳ５０１）。制御部３０１は、演奏信号が発声の開始指示であると判定し（ステップＳ５０２；Ｎｏ）、図３に示す第１歌詞データを参照して、開始指示を取得したときのカウント値ｔｃが発声の設定期間に含まれるか否かを判定する（ステップＳ５０３）。開始指示を取得した時刻が各文字Ｍ（ｉ）に対応する発声の設定期間のいずれにも含まれないため、制御部３０１は、開始指示が発声の設定期間内に含まれないと判定する（ステップＳ５０３；Ｎｏ）。次に、制御部３０１は、カウント値ｔｃの直前および直後に設定された設定期間から中心時刻ｔｍ（ｉ）を計算する。開始指示を取得した時のカウント値ｔｃが設定期間ｔｓ（１）～ｔｅ（１）と設定期間ｔｓ（２）～ｔｅ（２）との間である場合、制御部３０１は、停止時刻ｔｅ（１）と、開始時刻ｔｓ（２）との間の中心時刻ｔｍ（１）を計算する（ステップＳ５０５）。ここでは、ｔｍ（１）＝（ｔｅ（１）＋ｔｓ（２））／２が得られる。次に、制御部３０１は、開始指示を取得した時のカウント値ｔｃが中心時刻ｔｍ（１）よりも前であると判定し（ステップＳ５０６；Ｙｅｓ）、中心時刻ｔｍ（１）よりも前の設定期間の文字「こ」（文字Ｍ（１））を、発声する文字として設定する（ステップＳ５０７）。音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号の生成を開始する指示および停止する指示は、図６で説明した方法と同様である。図７において、発声期間ｔｏｎ（１）～ｔｏｆｆ（１）が、音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号が生成されている期間である。

　次に、図８に示す発声の開始指示を取得したカウント値ｔｃが、発声の設定期間ｔｓ（１）～ｔｅ（１）と、設定期間ｔｓ（２）～ｔｅ（２）との間の期間であって、設定期間ｔｓ（２）～ｔｅ（２）に近い場合について、図８を参照して説明する。音生成処理を開始してから、ステップＳ５０５までの処理は、図７において説明した処理と同様であるため、説明を省略する。制御部３０１は、開始指示を取得した時刻が中心時刻ｔｍ（１）よりも前ではないと判定し（ステップＳ５０６；Ｎｏ）、中心時刻ｔｍ（１）よりも後の設定期間の文字「ん」（文字Ｍ（２））を、発声する文字として設定する（ステップＳ５０８）。音高「Ｇ４」および文字「ん」の発声に基づくオーディオ信号の生成を開始する指示および停止する指示は、図６で説明した方法と同様である。図８において、期間ｔｏｎ（１）～ｔｏｆｆ（１）が、音高「Ｇ４」および文字「ん」に基づくオーディオ信号が生成されている期間である。
［音生成機能］
　図９は、本発明の一実施形態における音生成機能を示す機能ブロック図である。なお、以下に説明する各機能を実現する構成の一部または全部は、ハードウェアによって実現されてもよい。

　電子楽器３は、合成歌唱音を生成する音生成機能等を実現する機能ブロックとして、歌詞データ取得部３１（第１の取得部）、発声制御部３２（制御部）、信号生成部３３および発声開始指示取得部３４（第２の取得部）を含む。これらの各機能部の機能は、制御部３０１、記憶部３０３、不図示のタイマ等の協働により実現される。なお、本発明において機能ブロックが信号生成部３３を含むことは必須でない。

　歌詞データ取得部３１は、歌唱音合成用サーバ２０００からカラオケ装置１を介して曲ＩＤに対応した第１歌詞データを取得する。発声制御部３２は、主として図５に示す指示処理を実行し、発声に基づくオーディオ信号の生成を開始する指示または停止する指示を信号生成部３３に出力する。発声開始指示取得部３４は、発声の開始指示を取得する。発声の開始指示は、例えば、ユーザから演奏操作部３２１を介して入力される演奏信号として取得される。

　信号生成部３３は、上述したＤＳＰに対応し、発声制御部３２から受信した指示に基づいて、オーディオ信号の生成を開始し、またはオーディオ信号の生成を停止する。信号生成部３３によって生成されたオーディオ信号は、インターフェイス３１７を介して外部に出力される。
（第２実施形態）
　本実施形態では、第１実施形態において説明した音生成処理とは一部異なる音生成処理について、図４、図１０、および図１１を参照して説明する。本実施形態では、オーディオ信号を生成するための指示処理について、第１実施形態と異なっている。そのため、第１実施形態とは異なる部分を詳細に説明し、それ以外の部分は第１実施形態の説明を援用する。また、本実施形態では、ベロシティを、音量情報として扱うものとする。

　本実施形態では、図３に示す第１歌詞データにおいて、文字Ｍ（ｉ）＝Ｍ（１）～Ｍ（１０）を順番に発声するものとする。すなわち、第１歌詞データにおいて、複数の文字の発声順序が決められている。そのため、図３に示す第１歌詞データにおいて、発声の設定期間が規定されたタイミングデータは省略されてもよい。

　図４に示すフローチャートにおいて、ユーザによる楽曲の再生指示により処理が開始されると、制御部３０１は、記憶部３０３から第１歌詞データを取得する（ステップＳ４０１）。次に、制御部３０１は初期化処理を実行する（ステップＳ４０２）。本実施形態において、初期化処理とは、制御部３０１が、第１実施形態と同様にカウント値ｔｃ＝０を設定することである。第２実施形態ではさらに、初期化処理として、制御部３０１は、Ｍ（ｉ）における文字カウント値ｉ＝１（文字Ｍ（ｉ）＝Ｍ（１））を設定し、ｔｓ＝０を設定する。「ｉ」は、上述したように、歌詞における文字の順序を示している。本実施形態において、ｔｓとは、直前の発声の開始指示を取得した時刻をいう。したがって、制御部３０１は、「ｉ」をインクリメントすることで、歌詞を構成する文字のうち、Ｍ（ｉ）が示す文字を１つずつ進めていく。ステップＳ４０３～Ｓ４０７における待機状態の処理は、第１実施形態と同様である。待機状態において、演奏操作部３２１からの演奏信号を受信した場合（ステップＳ４０７；Ｙｅｓ）、オーディオ信号を生成するための指示処理を実行する（ステップＳ５００）。

　図１０は、オーディオ信号を生成するための指示処理を説明するフローチャートである。この処理は、図４のステップＳ５００で実行される。

　演奏操作部３２１から演奏信号を受信すると、オーディオ信号を生成するための指示処理が開始される。まず、制御部３０１は、演奏操作部３２１から取得した演奏信号に基づいて音高を設定する（ステップＳ５２１）。制御部３０１は、演奏操作部３２１から取得した演奏信号が、発声の開始指示か否かを判定する（ステップＳ５２２）。

　制御部３０１は、演奏信号が発声の開始指示であると判定する場合（ステップＳ５２２；Ｙｅｓ）、当該発声の開始指示を取得した時刻ｔｓが、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれかを満たすかを判定する（ステップＳ５２３）。ここで、ｔｃ－ｔｓは、最後に発声の開始指示を取得した時刻から現在までの経過時間である。ｔ_ｔｈは所定の期間である。制御部３０１は、時刻ｔｓが、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれかを満たす場合（ステップＳ５２３；Ｙｅｓ）、文字Ｍ（ｉ）のオーディオ信号を生成する指示をＤＳＰに出力する（ステップＳ５２６）。制御部３０１は、Ｍ（ｉ）＝Ｍ（１）を満たす場合、すなわち最初の発声である場合には、文字「こ」を発声すべき文字として設定し、ｔｃ－ｔｓ≦ｔ_ｔｈを満たす場合は、直前の発声で設定した文字と同じ文字を発声すべき文字として設定する。次に、制御部３０１は、カウント値ｔｃを、時刻ｔｓに設定し（ステップＳ５２７）、指示処理を終了して図４に示すステップＳ４０３に進む。

　制御部３０１は、時刻ｔｓが、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれも満たさない場合（ステップＳ５２３；Ｎｏ）、発声の開始指示で取得した音量が所定の音量よりも小さいか否かを判定する（ステップＳ５２４）。制御部３０１は、発声の開始指示で取得した音量が所定の音量よりも小さい場合（ステップＳ５２４；Ｙｅｓ）、ステップＳ５２６、Ｓ５２７を実行した後、指示処理を終了して図４に示すステップＳ４０３に進む。一方、制御部３０１は、発声の開始指示で取得した音量が所定の音量以上の場合（ステップＳ５２４；Ｎｏ）、文字カウント値ｉ＝ｉ＋１を設定する（ステップＳ５２５）。そして制御部３０１は、文字カウント値ｉ＝ｉ＋１で設定された文字の発声に基づくオーディオ信号を生成する指示をＤＳＰに出力する（ステップＳ５２６）。次に制御部３０１は、カウント値ｔｃを、時刻ｔｓに設定し（ステップＳ５２７）、指示処理を終了して図４に示すステップＳ４０３に進む。

　本実施形態では、第１条件とは、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれかを満たすか否かという条件である。また、第１条件とは、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）の双方を満たさなくても、音量が所定の音量よりも小さいという条件を満たすか否かという条件である。

　このように、図４および図１０に示す処理を順次処理することによって、楽曲の歌詞のうち伴奏音データの再生による伴奏音の進行に伴って特定される文字が、演奏操作に応じた音高及びタイミングで順次発声される合成歌唱音が生成される。そして、合成歌唱音を示すオーディオ信号がカラオケ装置１に対して出力される。

　次に、図４および図１０に示す音生成処理の具体例について、図１１を参照して説明する。図１１は、音生成処理における時刻と音高との関係を表す図である。図１１では、音高「Ｇ４」および文字「こ」、音高「Ａ５」および文字「ん」、音高「Ｂ５」および文字「ん」の発声が、音高情報を有する音節ノートとして例示されている。

　制御部３０１は、音生成処理を開始すると、第１歌詞データを取得して（ステップＳ４０１）、初期化処理を実行する（ステップＳ４０２）。制御部３０１は、初期化処理において、文字Ｍ（ｉ）＝Ｍ（１）と、ｔｃ＝０と、ｔｓ＝０と、を設定する。音声処理における待機状態において、制御部３０１が演奏操作部３２１から音高「Ｇ４」が対応づけられた演奏信号を受信したことを想定する（ステップＳ４０７；Ｙｅｓ）。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ｇ４」を設定する（ステップＳ５２１）。制御部３０１は、演奏信号が発声の開始指示であると判定し（ステップＳ５２２；Ｙｅｓ）、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれかを満たすかを判定する（ステップＳ５２３）。制御部３０１は、Ｍ（ｉ）＝１を満たすと判定する（ステップＳ５２３；Ｙｅｓ）。文字Ｍ（１）は、「こ」であるので、制御部３０１は、音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号を生成する指示をＤＳＰに出力する（ステップＳ５２６）。制御部３０１は、カウント値ｔｃを時刻ｔｓとして設定し（ステップＳ５２７）、指示処理を終了して図４に示すステップＳ４０３に進む。図１１において、設定した音高「Ｇ４」および文字「こ」の発声に基づいてオーディオ信号の生成する指示をＤＳＰに出力した時刻ｔｓを、時刻ｔｏｎ（１）と表記する。制御部３０１のＤＳＰは、当該指示に基づいて、オーディオ信号の生成を開始する。

　続いて、音声処理における待機処理において、制御部３０１が演奏操作部３２１から音高「Ｇ４」が対応づけられた演奏信号を受信したことを想定する。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ｇ４」を設定する（ステップＳ５２１）。制御部３０１は、演奏信号が発声の停止指示であると判定すると（ステップＳ５２２；Ｎｏ）、設定した音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号の生成を停止する指示を出力し（ステップＳ５１０）、指示処理を終了して図４に示すステップＳ４０３に進む。図１１において、設定した音高「Ｇ４」および文字「こ」の発声に基づいてオーディオ信号の生成を停止する指示をＤＳＰに出力した時刻を、時刻ｔｏｆｆ（１）と表記する。制御部３０１のＤＳＰは、当該指示に基づいて、オーディオ信号の生成を停止する。図１１において、期間ｔｏｎ（１）～ｔｏｆｆ（１）が、音高「Ｇ４」および文字「こ」の発声に基づくオーディオ信号が生成されている期間である。

　続いて、音声処理における待機処理において、制御部３０１が演奏操作部３２１から音高「Ａ５」が対応づけられた発声の開始指示を含む演奏信号を受信したことを想定する。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ａ５」を設定する（ステップＳ５２１）。次に、制御部３０１は、演奏信号が発声の開始指示であると判定し（ステップＳ５２２；Ｙｅｓ）、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１)のいずれかを満たすかを判定する（ステップＳ５２３）。所定の期間ｔ_ｔｈは、例えば１０ｍｓ～１００ｍｓの範囲であり、本実施の形態では１００ｍｓであるとする。ｔｃ－ｔｓが１００ｍｓを超えると、ｔｃ－ｔｓ≦ｔ_ｔｈを満たさないと判定される。ここでは、ｔｃ－ｔｓは、所定の期間ｔ_ｔｈよりも長いため、制御部３０１は、ｔｃ－ｔｓ≦ｔ_ｔｈおよびＭ（ｉ）＝Ｍ（１）の双方を満たさないと判定し（ステップＳ５２３；Ｎｏ）、音量が所定の音量よりも小さいか否かを判定する（ステップＳ５２４）。制御部３０１は、音量が所定の音量以上である判定すると（ステップＳ５２４；Ｎｏ）、文字カウント値ｉ＝ｉ＋１を設定する（ステップＳ５２５）。ここでは、文字Ｍ（１）の次の文字Ｍ（２）を設定する。文字Ｍ（２）は、「ん」であるので、制御部３０１は、音高「Ａ５」および文字「ん」の発声に基づくオーディオ信号を生成する指示をＤＳＰに出力する（ステップＳ５２６）。制御部３０１は、カウント値ｔｃを時刻ｔｓとして設定し（ステップＳ５２７）、指示処理を終了して図４に示すステップＳ４０３に進む。図１１において、期間ｔｏｎ（２）～ｔｏｆｆ（２）が、音高「Ａ５」および文字「ん」の発声に基づくオーディオ信号が生成されている期間である。

　続いて、音生成処理における待機状態において、演奏操作部３２１から音高「Ｂ５」が対応付けられた発声の開始指示を含む演奏信号を受信したことを想定する。この場合、制御部３０１は、指示処理を実行し（ステップＳ５００）、演奏信号に基づいて、音高「Ｂ５」を設定する（ステップＳ５２１）。制御部３０１は、演奏信号が発声の開始指示であると判定し（ステップＳ５２２；Ｙｅｓ）、ｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれかを満たすかを判定する（ステップＳ５２３）。ここでは、ｔｃ－ｔｓは、所定の期間ｔ_ｔｈよりも短いため、ｔｃ－ｔｓ≦ｔ_ｔｈを満たすと判定し（ステップＳ５２３；Ｙｅｓ）、音高「Ａ５」および文字「ん」の発声に基づくオーディオ信号を生成する指示を出力する（ステップ５２６）。ここでは、実際には、制御部３０１は、直前の文字「ん」の発声を継続するようにオーディオ信号を生成する指示を出力する。従って、文字「ん」を継続発声するために音高「Ｂ５」で長音である「－」の発声に基づくオーディオ信号が生成される。制御部３０１は、カウント値ｔｃを時刻ｔｓとして設定し（ステップＳ５２７）、指示処理を終了して図４に示すステップＳ４０３に進む。図１１において、期間ｔｏｎ（３）～ｔｏｆｆ（３）が、音高「Ａ５」および文字「ん」の発声に基づくオーディオ信号が生成されている期間である。

　このように、本実施形態に係る音生成処理においては、直前の発声の開始指示から、次の発声の開始指示までの期間が所定の期間よりも短い場合には、第１歌詞データの文字を進ませないようにすることができる。

　言い換えると、直前の発声の開始指示から、次の発声の開始指示までの期間が所定の期間よりも短い場合は、第２発声の開始指示が第１条件を満たす。この場合、制御部３０１は、第１発声の開始指示に対応する第１発声を継続するようにオーディオ信号を生成する指示を出力する。例えば、期間ｔｏｎ（３）～ｔｏｆｆ（３）の音節ノートには、音高「Ｂ５」で、長音である「－」が割り当てられる。
（変形例）
　以上、本発明の一実施形態について説明したが、本発明の一実施形態は、以下のように様々な形態に変形することもできる。また、上述した実施形態および以下に説明する変形例は、それぞれ互いに組み合わせて適用することもできる。

　（１）先の実施形態では、１つの文字につき、１つの発声に基づくオーディオ信号を生成する場合について説明したが、本発明の一実施形態はこれに限定されない。１つのフレーズにつき、１つの発声に基づくオーディオ信号を生成する場合について、図１２～図１４を参照して説明する。

　ここで、記憶部３０３に記憶される第１歌詞データについて、図１２を参照して説明する。図１２は、本発明の一実施形態で使用される第１歌詞データである。図１２に示す第１歌詞データは、「こ」「ん」「に」「ち」「わ」という第１フレーズ、および「さ」「よ」「お」「な」「ら」という第２フレーズを含む。「こ」「ん」「に」「ち」「わ」という第１フレーズを、１つの発声とする場合、第１発声の開始時刻はｔｆｓ（１）に対応し、停止時刻はｔｆｅ（１）に対応する。また、「さ」「よ」「お」「な」「ら」という第２フレーズを、１つの発声とする場合、第２発声の開始時刻はｔｆｓ（２）に対応し、停止時刻はｔｆｅ（２）に対応する。

　図１３及び図１４は、音生成処理における時刻と音高との関係を表す図である。図１３及び図１４は、フレーズで規定される発声期間を示している。図１３及び図１４では、フレーズ内における文字に対応する発声は、押鍵ごと又は第２実施形態に示す指示処理に従って進めてもよい。第１フレーズと第２フレーズとの間は、第１フレーズの停止時刻ｔｆｅ（１）と、第２フレーズの開始時刻ｔｆｓ（２）との間の中心時刻ｔｆｍ（１）が予め設定されていてもよい。中心時刻ｔｆｍ（１）は、中心時刻ｔｆｍ（１）＝（ｔｅ（１）＋ｔｓ（２））／２を計算することで求められる。制御部３０１は、第１実施形態と同様に発声の開始指示の取得時刻が、中心時刻ｔｆｍ（１）よりも前か否かを判定する。

　制御部３０１は、発声の開始指示が中心時刻ｔｆｍ（１）よりも前であると判定する場合、第１フレーズである最初の文字に対応する発声に基づいてオーディオ信号を生成する指示をＤＳＰに出力する。その後、制御部３０１は、発声の開始指示が中心時刻ｔｆｍ（１）よりも前であると判定する場合、続けて、第２フレーズである最初の文字から当該文字に対応する発声に基づいてオーディオ信号を生成する指示をＤＳＰに出力してもよい。

　制御部３０１は、発声の開始指示が中心時刻ｔｆｍ（１）よりも後であると判定する場合、さらに、発声の開始指示が第２フレーズの開始時刻ｔｆｓ（２）よりも後か否かを判定する。制御部３０１は、発声の開始指示が第２フレーズの開始時刻ｔｆｓ（２）よりも後であると判定すると、第２フレーズの発声に対応する文字のうち未発声の文字から当該文字に対応する発声に基づいてオーディオ信号を生成する指示をＤＳＰに出力する。具体的には、図１３に示すように、第１フレーズの開始時刻ｔｆｓ（１）から停止時刻ｔｆｅ（１）の間において、「こ」「ん」「に」「ち」「わ」「さ」の文字に対応する発声に基づいてオーディオ信号が生成されている場合を想定する。第２フレーズの開始時刻ｔｆｅ（２）よりも後（時刻ｔｆｏｎ）に、発声の開始指示を取得すると、第２フレーズの文字「よ」に対応する発声に基づいてオーディオ信号を生成する。時刻ｔｆｏｆｆに、文字「ら」に対応する発声の停止指示を取得すると、制御部３０１は、オーディオ信号の生成を停止する指示をＤＰＳに出力する。

　一方、制御部３０１は、発声の開始指示が第２フレーズの開始時刻ｔｆｓ（２）よりも前であると判定すると、発声に対応する文字の最初の文字に対応する発声に基づいてオーディオ信号を生成する。具体的には、図１４に示すように、第１フレーズの開始時刻ｔｆｓ（１）から停止時刻ｔｆｅ（１）の間において、「こ」「ん」「に」「ち」「わ」「さ」の文字に対応する発声に基づいてオーディオ信号が生成されている場合を想定する。第２フレーズの開始時刻ｔｆｅ（２）よりも前（時刻ｔｆｏｎ）に、発声の開始指示を取得すると、第２フレーズの文字「さ」に対応する発声に基づいてオーディオ信号を生成する。時刻ｔｆｏｆｆに、文字「ら」に対応する発声の停止指示を取得すると、制御部３０１は、オーディオ信号の生成を停止する指示をＤＳＰに出力する。

　変形例（１）において、第１条件とは、発声の開始指示を取得した時刻が、第１フレーズの停止時刻と第２フレーズの開始時刻との中心時刻よりも前であるという条件である。また、第２条件とは、発声の開始指示を取得した時刻が、第２発声の開始時刻ｔｆｓ（２）よりも後であるという条件である。言い換えると、発声の開始指示の取得時刻が、第１歌詞データにおいて規定されている第２発声の開始時刻よりも後である場合に、上記第２条件は満たされる。

　（２）先の実施形態では、リードボーカルパートと第１歌詞データとが対応する合成歌唱音を生成する方法について説明したが、本発明はこれに限定されない。コーラスパートと第２歌詞データとが対応する合成歌唱音を生成する場合について、図１５を参照して説明する。

　図１５は、コーラスパートに対応する第２歌詞データである。第２歌詞データについても、発声すべき複数の文字が時系列に並べられたテキストデータを有する。第２歌詞データは、所定の時間軸により複数の文字ごとに発声の開始時刻および停止時刻が規定されるタイミングデータを含む。

　図１５に示すように、第２歌詞データは、「あ（ａ）」「あ（ａ）」「あ（ａ）」「あ（ａ）」「あ（ａ）」「お（ｏ）」「お（ｏ）」「お（ｏ）」「お（ｏ）」「お（ｏ）」を示すテキストデータを含む。また、第２歌詞データは、文字ごとに発声の開始時刻ｔｓおよび停止時刻ｔｅが規定されたタイミングデータを含む。文字ごとに、Ｎ（ｉ）が対応づけられ、「ｉ」（ｉ＝１～ｎ）により歌詞における文字の順序が設定されている。例えば、Ｎ（３）は、歌詞のうちの３番目の文字に対応する。例えば、Ｎ（３）「あ」の場合、発声の開始時刻は時刻ｔｃｓ（３）であり、停止時刻は時刻ｔｃｅ（３）である。

　図３に示すように、第１歌詞データに規定される発声期間と、図１５に示すように、第２歌詞データに規定される発声期間とは、重複している。すなわち、図１５に示すＮ（１）～Ｎ（ｎ）における開始時刻および終了時刻と、図３に示すＭ（１）～Ｍ（ｎ）における開始時刻および終了時刻とは、互いに時間的に一致している。この場合には、制御部３０１は、リードボーカルパートに代えてコーラスパートの文字に対応する発声に基づくオーディオ信号を生成する指示をＤＳＰに出力してもよい。また、制御部３０１は、第１歌詞データに規定される発声期間と、第２歌詞データに規定される発声期間とが重複する場合には、第１実施形態における第１条件を、他の条件に変更してもよい。他の条件として、直前の文字Ｍ（ｑ）に対応する発声の停止時刻ｔｅ（ｑ）と、次の文字Ｍ（ｑ＋１）に対応する発声の開始時刻ｔｓ（ｑ＋１）との間の中心時刻ｔｍ（ｑ）を、中心ではなく前後にずらしてもよい。例えば、ｔｍ（ｑ）＝（ｔｅ（ｑ）＋ｔｓ（ｑ＋１））×（１／３）としてもよいし、ｔｍ（ｑ）＝（ｔｅ（ｑ）＋ｔｓ（ｑ＋１））×（２／３）としてもよい。

　なお、次のように制御してもよい。制御部３０１は、第１歌詞データにおいて、発声の開始指示の取得時刻が属する設定期間または取得時刻に最も近い設定期間を特定する。そして制御部３０１は、上記特定した設定期間と時間的に一致する設定期間が第２歌詞データに存在する場合は、第１歌詞データにおける第１発声または第２発声に基づくオーディオ信号に代えて、第２歌詞データにおける上記時間的に一致する設定期間に対応する文字に対応する発声に基づくオーディオ信号を生成する。すなわち、発声の開始指示の取得時刻に対応する設定期間が第１歌詞データと第２歌詞データとの双方に存在する場合は、第２歌詞データの発声を優先させる。このような処理は、第１歌詞データに対して一部の時間領域においてだけ第２歌詞データが対応している場合にも適用できる。なお、コーラスパートを併用する場合は、上記第３時刻を、停止時刻ｔｅ（ｑ）と開始時刻ｔｓ（ｑ＋１）との中心時刻に対して前または後ろにずらしてもよい。

　（３）本実施形態では、電子楽器３は電子鍵盤装置である場合について説明したが、これに限定されない。電子楽器３は電子管楽器であってもよい。以下、電子楽器３として電子管楽器を適用する場合について、図１６を参照して説明する。

　図１６は、電子楽器３Ａが電子管楽器である場合のハードウェア構成である。電子管楽器の場合、演奏操作部３２１は、操作キー３１１およびブレスセンサ３１２を含む。

　電子楽器３Ａは、楽器本体に設けられた複数の音孔と、音孔の開閉状態を変化させる複数の操作キー３１１と、ブレスセンサ３１２が設けられている。複数の操作キー３１１を演奏者が演奏することによって、音孔の開閉状態が変化して所定の音階の音を出力する。楽器本体には、マウスピースが取り付けられており、楽器本体の内部であって、マウスピースの近傍には、ブレスセンサ３１２が設けられている。ブレスセンサ３１２は、マウスピースを介してユーザ（演奏者）が吹き込む息の吹圧を検出する吹圧センサである。ブレスセンサ３１２は、息の吹込みの有無を検出するとともに、少なくとも電子楽器３Ａの演奏時においては、吹圧の強さや速さ（勢い）を検出する。ブレスセンサ３１２により検出された圧力の大きさに応じて、発声の音量が決定される。本変形例では、ブレスセンサ３１２により検出した圧力の大きさを、音量情報として扱うものとする。ブレスセンサ３１２において、所定の圧力の大きさが検出された場合には、発声の開始指示として検出される。所定の圧力未満の場合には、発声の開始指示として検出されない。

　電子管楽器において、図１０および図１１で説明したように、第１発声の開始指示から第２発声の開始指示までの第１期間が所定の期間未満となる、管楽器特有の経過音として検出されることがある。本発明の一実施形態に係る音生成処理では、演奏の途中でこのような経過音が生じたとしても、歌詞の位置が演奏よりも先に進むことを抑制することができるため、自然な合成歌唱音を生成することができる。

　（４）第１実施形態において、中心時刻ｔｍ（ｑ）＝（ｔｅ（ｑ）＋ｔｓ（ｑ＋１））／２とする場合について説明したが、これに限定されない。中心ではなく前後にずらしてもよい。例えば、ｔｍ（ｑ）＝（ｔｅ（ｑ）＋ｔｓ（ｑ＋１））×（１／３）としてもよいし、ｔｍ（ｑ）＝（ｔｅ（ｑ）＋ｔｓ（ｑ＋１））×（２／３）としてもよい。

　（５）第２実施形態において、第１条件は、音量が所定の音量よりも小さいという条件を満たすか否かという条件を含む場合について説明したが、本発明の一実施形態はこれに限定されない。第１条件は、図１０において、ステップＳ５２４を省略してもよく、ステップＳ５２３におけるｔｃ－ｔｓ≦ｔ_ｔｈ又はＭ（ｉ）＝Ｍ（１）のいずれかを満たすか否かという条件だけであってもよい。

　以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。

　なお、演奏信号は、外部から通信を介して取得されてもよい。従って、演奏操作部３２１を設けることは必須でなく、音生成装置は、楽器としての機能および形態を有することは必須でない。

　なお、本発明を達成するためのソフトウェアによって表される制御プログラムを記憶した記憶媒体を、本装置に読み出すことによって、本発明と同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本発明を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。なお、これらの場合の記憶媒体としては、ＲＯＭのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード等を用いることができる。非一過性のコンピュータ読み取り可能な記録媒体としては、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含む。

　本出願は、２０２１年３月９日に出願された日本出願第２０２１－０３７６５１号に基づく優先権を主張するものであり、当該日本出願に記載された全内容を本出願に援用する。

３　電子楽器
３１　歌詞データ取得部
３２　発声制御部
３４　発声開始指示取得部
３０１　制御部
３２１　演奏操作部

Claims

　発声すべき複数の文字が時系列に並べられ、第１文字および当該第１文字の後の第２文字を少なくとも含む第１歌詞データを取得する第１の取得部と、
　発声の開始指示を取得する第２の取得部と、
　前記第２の取得部により前記発声の開始指示が取得された場合において、前記発声の開始指示が第１条件を満たす場合には、前記第１歌詞データにおける前記第１文字に対応する第１発声に基づくオーディオ信号を生成する指示を出力し、前記発声の開始指示が前記第１条件を満たさない場合には、前記第１歌詞データにおける前記第２文字に対応する第２発声に基づくオーディオ信号を生成する指示を出力する制御部と、を有する、音生成装置。
　前記第１歌詞データにおいて、所定の時間軸により、各文字の発声の開始時刻および停止時刻が規定され、
　前記発声の開始指示の取得時刻が、前記所定の時間軸における、前記第１発声を停止する第１時刻と前記第２発声を開始する第２時刻との間に位置する第３時刻より前である場合に、前記発声の開始指示が前記第１条件を満たす、請求項１に記載の音生成装置。
　前記第３時刻は、前記第１時刻と前記第２時刻との中心時刻である、請求項２に記載の音生成装置。
　前記第１発声および前記第２発声は、一つの文字に対応する発声である、請求項２または３に記載の音生成装置。
　前記第１発声は、前記第１文字を含む複数の文字に対応する発声を含み、
　前記第２発声は、前記第２文字を含む複数の文字に対応する発声を含み、
　前記第１時刻は、前記第１発声に対応する前記複数の文字のうち最後の文字の発声を停止する時刻に対応し、
　前記第２時刻は、前記第２発声に対応する前記複数の文字のうち最初の文字の発声を開始する時刻に対応する、請求項２または３に記載の音生成装置。
　前記制御部は、前記第１発声に対応する前記最後の文字の発声の後において前記第２発声の最初の文字から当該文字に対応する発声に基づいてオーディオ信号を生成する指示を出力し、
　前記制御部は、前記第２発声に基づくオーディオ信号を生成する指示を出力する際、前記発声の開始指示がさらに第２条件を満たしている場合に、前記第２発声に対応する文字のうち未発声の文字から当該文字に対応する発声に基づいてオーディオ信号を生成する指示を出力する、請求項５に記載の音生成装置。
　前記発声の開始指示の取得時刻が、前記第１歌詞データにおいて規定されている前記第２発声の開始時刻よりも後である場合に、前記第２条件は満たされる、請求項６に記載の音生成装置。
　前記第１歌詞データにおける前記文字の各々には、所定の時間軸により、発音の開始時刻および停止時刻からなる設定期間が対応付けられており、
　前記制御部は、前記所定の時間軸における、前記発声の開始指示の取得時刻が属する設定期間または前記取得時刻に最も近い設定期間を特定し、特定した設定期間に対応する文字に対応する発声に基づくオーディオ信号を、前記第１発声に基づくオーディオ信号または前記第２発声に基づくオーディオ信号として生成する指示を出力する、請求項１に記載の音生成装置。
　前記第１の取得部は、発声すべき複数の文字が時系列に並べられ、前記所定の時間軸により、前記各文字の開始時刻および停止時刻が規定された第２歌詞データを取得し、
　前記第２歌詞データにおける前記文字の各々には、前記所定の時間軸により、発音の開始時刻および停止時刻からなる設定期間が対応付けられており、
　前記制御部は、前記特定した設定期間と時間的に一致する設定期間が前記第２歌詞データに存在する場合は、前記第１発声または前記第２発声に基づくオーディオ信号に代えて、前記第２歌詞データにおける前記時間的に一致する設定期間に対応する文字に対応する発声に基づくオーディオ信号を生成する指示を出力する、請求項８に記載の音生成装置。
　前記第１歌詞データにおいて、前記複数の文字の発声順序が決められており、
　前記第２の取得部により前記第１発声の開始指示の後の前記第２発声の開始指示が取得された場合において、前記第１発声の開始指示から前記第２発声の開始指示までの第１期間が所定の期間未満であるときは、前記制御部は、前記第２発声の開始指示が前記第１条件を満たすと判定し且つ、前記第１発声の開始指示に対応する前記第１発声を継続するようにオーディオ信号を生成する指示を出力する、請求項１に記載の音生成装置。
　前記制御部は、前記第２発声の開始指示の取得時刻に対応して演奏操作部から取得される音量情報が所定値未満である場合には、前記第１期間が前記所定の期間以上であっても、前記第２発声ではなく前記第１発声を継続するようにオーディオ信号を生成する指示を出力する、請求項１０に記載の音生成装置。
　前記演奏操作部は、圧力変化を検出するブレスセンサを含み、
　前記ブレスセンサに入力された圧力変化に基づいて、前記第１発声の開始指示および前記第２発声の開始指示が取得される、請求項１１に記載の音生成装置。
　前記制御部は、前記オーディオ信号を生成する際、前記オーディオ信号に含まれる発声を演奏操作部からの音高指示に応じた音高に制御する、請求項１乃至１０のいずれか１項に記載の音生成装置。
　請求項１乃至１３のいずれか１項に記載の音生成装置と、
　前記発声の開始指示をユーザが入力するための演奏操作部と、を有する、電子楽器。
　コンピュータにより実現される音生成装置の制御方法であって、
　発声すべき複数の文字が時系列に並べられ、第１文字および当該第１文字の後の第２文字を少なくとも含む第１歌詞データを取得し、
　発声の開始指示を取得し、
　前記発声の開始指示が取得された場合において、前記発声の開始指示が第１条件を満たす場合には、前記第１歌詞データにおける前記第１文字に対応する第１発声に基づくオーディオ信号を生成する指示を出力し、前記発声の開始指示が前記第１条件を満たさない場合には、前記第１歌詞データにおける前記第２文字に対応する第２発声に基づくオーディオ信号を生成する指示を出力する、音生成装置の制御方法。
　音生成装置の制御方法をコンピュータに実行させるプログラムであって、
　前記音生成装置の制御方法は、
　発声すべき複数の文字が時系列に並べられ、第１文字および当該第１文字の後の第２文字を少なくとも含む第１歌詞データを取得し、
　発声の開始指示を取得し、
　前記発声の開始指示が取得された場合において、前記発声の開始指示が第１条件を満たす場合には、前記第１歌詞データにおける前記第１文字に対応する第１発声に基づくオーディオ信号を生成する指示を出力し、前記発声の開始指示が前記第１条件を満たさない場合には、前記第１歌詞データにおける前記第２文字に対応する第２発声に基づくオーディオ信号を生成する指示を出力する、プログラム。