WO2020045398A1

WO2020045398A1 - 楽曲再生システム、楽曲再生システムの制御方法およびプログラム

Info

Publication number: WO2020045398A1
Application number: PCT/JP2019/033447
Authority: WO
Inventors: 秀樹高野
Original assignee: ヤマハ株式会社
Priority date: 2018-08-28
Filing date: 2019-08-27
Publication date: 2020-03-05
Also published as: JP2022120188A; JP7095742B2; JP7355165B2; JPWO2020045398A1

Abstract

楽曲再生システムは、入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部と、入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を再生制御部に対して指示する動作制御部とを具備する。

Description

楽曲再生システム、楽曲再生システムの制御方法およびプログラム

　本開示は、楽曲を再生する技術に関する。

　利用者からの入力に応じて楽曲を再生する技術が従来から提案されている。例えば、特許文献１には、利用者がマイクに対して入力する音声に応じて動作するカラオケ装置が開示されている。利用者は、動作の内容を表す音声（例えば「エンソウオンヲオオキク」または「オンカイヲアゲル」等）をマイクに対して発話する。

特開平１１－２９６１８２号公報

　特許文献１の技術では、利用者がカラオケ装置に動作を指示するための音声は、その動作を直接的に表す音声に限定される。以上の事情を考慮して、本開示は、音声入力の方法を多様化することを目的とする。

　以上の課題を解決するために、本開示の好適な態様に係る楽曲再生システムは、入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部と、前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する動作制御部とを具備する。
　本開示の好適な態様に係る楽曲再生システムの制御方法は、入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別し、前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する。
　本開示の他の態様に係る楽曲再生の制御方法は、楽曲の再生を指示する第１入力音声に対応する楽曲名の提示の指示を再生制御部に付与し、当該提示された楽曲名の楽曲が所望の楽曲であることを表す第２入力音声を受け付けた場合に、前記第１入力音声に対応する楽曲を再生する動作を前記再生制御部に対して指示する。
　本開示の他の態様に係る楽曲再生の制御方法は、入力音声が、楽曲の再生を制御する再生制御部による再生中の楽曲の歌唱音声であるか、当該再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記再生制御部に対して指示する。

第１実施形態に係る楽曲再生システムの構成を例示するブロック図である。動作テーブルの模式図である。端末装置が実行する処理を例示するフローチャートである。歌唱音声であるか否かを判別する処理を例示するフローチャートである。第２実施形態に係る楽曲再生システムの構成を例示するブロック図である。端末装置が実行する処理を例示するフローチャートである。第３実施形態に係る楽曲再生システムの構成を例示するブロック図である。端末装置の構成を例示するブロック図である。端末装置の構成を例示するブロック図である。処理装置の構成を例示するブロック図である。変形例に係る制御装置の処理のフローチャートである。

＜第１実施形態＞
　図１は、第１実施形態に係る楽曲再生システム１０の構成を例示するブロック図である。第１実施形態に係る楽曲再生システム１０は、利用者Ｕの操作に応じて楽曲を再生するコンピュータシステムである。伴奏音を含む楽曲（すなわちカラオケ曲）が楽曲再生システム１０により再生され、利用者Ｕが当該楽曲に合わせて歌唱する。例えば利用者Ｕが運転する自動車の車内に楽曲再生システム１０が設置される。したがって、複数の操作子を利用した手入力により利用者Ｕが楽曲再生システム１０に各種の動作を指示することが困難である。そこで、楽曲再生システム１０は、利用者Ｕによる音声入力により動作の指示を受け付ける。すなわち、車の運転を妨げずに楽曲再生システム１０の操作が可能になる。例えば携帯電話機およびスマートフォン等の情報端末が楽曲再生システム１０として利用される。

　図１に例示される通り、楽曲再生システム１０は、収音装置１１と制御装置１２と記憶装置１３と再生装置１４とを具備する。収音装置１１は、周囲の音を収音する音響機器（マイクロホン）である。第１実施形態の収音装置１１は、利用者Ｕが発音する音声（すなわち入力音声Ｖ）を受け付ける。収音装置１１が受け付けた入力音声Ｖにより楽曲再生システム１０が動作する。具体的には、歌唱音声と歌唱音声以外の指示音声とが入力音声Ｖとして例示される。歌唱音声は、利用者Ｕが任意の楽曲を歌唱する音声である。複数の音符で構成される旋律を伴う音声が歌唱音声である。他方、指示音声は、旋律を伴わない音声である。具体的には、指示音声は、楽曲再生システム１０に各種の動作を指示する音声である。例えば、楽曲の再生、停止、キーの変更、または、音量の変更等の動作を指示する指示音声が想定される。収音装置１１は、利用者Ｕからの入力音声Ｖを受け付けて、当該入力音声Ｖの波形を表す音響信号Ｘを生成する。すなわち、歌唱音声または指示音声を表す音響信号Ｘが生成される。なお、実際には、歌唱音声および指示音声とは異なる音声（以下「発話音声」という）も収音装置１１により収音される。発話音声は、例えば会話による音声などである。

　制御装置１２（コンピュータの例示）は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、楽曲再生システム１０の各要素を統括的に制御する。制御装置１２は、記憶装置１３に記憶されたプログラムを実行することで複数の機能（判別部１２１、動作制御部１２３および再生制御部１２５）を実現する。なお、制御装置１２の一部の機能を専用の電子回路で実現してもよい。また、制御装置１２の機能を複数の装置に搭載してもよい。

　記憶装置１３は、制御装置１２が実行するプログラムと、制御装置１２が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが、記憶装置１３として任意に採用される。図１に例示される通り、相異なる複数の楽曲をそれぞれ表す複数の楽曲データＭと、動作テーブルとが記憶装置１３に記憶される。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が楽曲データＭとして好適である。なお、楽曲の演奏音の波形を表わすオーディオファイルを楽曲データＭとして利用してもよい。第１実施形態の楽曲データＭは、楽曲名と演奏データと参照データとを含む。演奏データは、複数の演奏パートの各々について音符列（演奏内容）を指定する時系列データである。参照データは、歌唱パートの音符列（ガイドメロディ）を指定する時系列データである。演奏データと参照データとは、同一の楽曲データＭ内の相異なるチャンネルのデータである。なお、楽曲再生システム１０と通信可能なウェブサーバに複数の楽曲データＭを記憶してもよい。

　再生装置１４は、制御装置１２（再生制御部１２５）による制御のもとで、各種の楽曲を再生する再生機器である。具体的には、再生装置１４は、記憶装置１３に記憶される楽曲データＭが表す楽曲を放音する放音装置（スピーカ）を含む。なお、再生装置１４が表示装置を含んでもよい。

　図２は、動作テーブルの模式図である。動作テーブルは、楽曲再生システム１０の複数の相異なる動作が登録されたデータテーブルである。図２に例示される通り、各動作には、当該動作を表す文字列（以下「登録文字列」という）が対応付けられる。具体的には、利用者Ｕによる発音が想定される指示音声を表す文字列に対応（例えば類似または一致）する登録文字列が登録される。例えば楽曲の再生の停止を指示する指示音声（例えば文字列「停止して」を発音する指示音声）に対応する登録文字列「停止」が例示される。

　図１の判別部１２１は、収音装置１１が生成した音響信号Ｘから、利用者Ｕによる入力音声Ｖが歌唱音声であるか指示音声であるかを判別する。動作制御部１２３は、楽曲の再生に関する各種の動作（例えば楽曲の再生、停止またはキーの変更）を再生制御部１２５に対して指示する。第１実施形態の動作制御部１２３は、判別部１２１による判別結果に応じた動作を再生制御部１２５に指示する。

　再生制御部１２５は、楽曲の再生を制御する。具体的には、再生制御部１２５は、動作制御部１２３からの指示を実行することで、楽曲を再生する再生装置１４を制御する。第１実施形態の再生制御部１２５は、データ処理部と音源部とを具備する。データ処理部は、楽曲データＭに含まれる演奏データに基づいて楽曲の各音符の発音または消音を指示する。音源部は、データ処理部からの指示に応じて楽曲の演奏音を表す音響信号を生成して再生装置１４に供給する。再生装置１４は、再生制御部１２５から供給される音響信号を再生する。

　図３は、制御装置１２が実行する処理を例示するフローチャートである。以下の説明では、楽曲が再生されていない状態（以下「待機状態」という）を前提として、音声入力により楽曲再生システム１０に動作を指示する場合を想定する。第１実施形態では、利用者Ｕが所望する楽曲の再生を楽曲再生システム１０に指示する。利用者Ｕは、所望する楽曲の歌唱音声、または、当該楽曲の再生を指示する指示音声を発音することで、楽曲の再生を指示することが可能である。楽曲名または楽曲を識別する識別情報（例えば番号）を含む文字列を発話する音声が指示音声として好適である。例えば楽曲「ＡＢＣ」の再生を指示する場合には、当該楽曲「ＡＢＣ」を歌唱する歌唱音声、または、例えば文字列「［ＡＢＣ］を再生」を発音した指示音声が入力音声Ｖとして例示される。すなわち、第１実施形態では、歌唱音声および指示音声の各々は、利用者Ｕが所望する楽曲「ＡＢＣ」を指定する音声であるとも換言できる。

　例えば収音装置１１が入力音声Ｖを受け付けると、図３の処理が実行される。図３の処理を開始すると、判別部１２１は、入力音声Ｖが歌唱音声であるか歌唱音声以外の音声（すなわち指示音声または発話音声）であるかを判別する（Ｓa1）。

　図４は、ステップＳa1の処理を例示するフローチャートである。判別部１２１は、記憶装置１３に記憶された複数の参照データの各々について、当該参照データと音響信号Ｘとの類似の度合を表す指標（以下「類似指標」という）を算出する（Ｓa11）。例えば参照データが音符毎に指定するピッチと音響信号Ｘから検出される各ピッチとの類似の度合を表す指標が類似指標として利用される。例えば、参照データと音響信号Ｘとの音符毎のピッチの差分を音符列について合算した値が類似指標として利用される。音響信号Ｘのピッチの検出には、公知のピッチ検出技術が採用される。判別部１２１は、複数の参照データのそれぞれについて算出された複数の類似指標のうちの最大値が、所定の閾値を上回るか否かを判定する（Ｓa12）。判別部１２１は、当該最大値が所定の閾値を上回る場合（Ｓa12：YES）、入力音声Ｖが、当該最大値に対応する参照データが表す楽曲の歌唱音声であると判別する（Ｓa13）。すなわち、ステップＳa13により、利用者Ｕが歌唱する楽曲の参照データが特定される。類似指標の算出には、動的時間伸縮法（ＤＴＷ：Dynamic Time Warping）、鼻歌検索（Query by Singing/Humming）等の公知の技術が任意に採用される。なお、動的時間伸縮法により類似指標を算出する構成によれば、音響信号Ｘと参照データとのテンポおよびキーの相違も推定することが可能になる。

　他方、判別部１２１は、当該最大値が所定の閾値を下回る場合（Ｓa12：NO）、入力音声Ｖが歌唱音声以外の音声であると判別する（Ｓa14）。以上の説明から理解される通り、ステップＳa1では、入力音声Ｖが歌唱音声であるか否かが判別されるとともに、入力音声Ｖが歌唱音声であると判別された場合には当該入力音声Ｖに対応する楽曲（つまり利用者Ｕが歌唱している楽曲）が特定される。

　動作制御部１２３は、入力音声Ｖが歌唱音声であると判別された場合（Ｓa1：YES）、再生制御部１２５に対して第１動作を指示する（Ｓa2）。第１動作は、入力音声Ｖ（歌唱音声）に対応する楽曲の再生に関する動作である。第１実施形態では、入力音声Ｖに対応する楽曲を再生する動作が第１動作として再生制御部１２５に指示される。具体的には、判別部１２１は、ステップＳa13により特定された参照データが表す楽曲（すなわち入力音声Ｖが表す楽曲）を再生する第１動作を再生制御部１２５に指示する。第１実施形態の第１動作は、入力音声Ｖに対応する楽曲を当該入力音声Ｖに対応する位置から再生する動作である。例えば、楽曲のうち利用者Ｕが歌唱した部分の直後から当該楽曲を再生する第１動作が指示される。すなわち、利用者Ｕは、楽曲の再生を指示するための歌唱音声に連続して当該楽曲を歌唱することができる。

　再生制御部１２５は、第１動作を実行する（Ｓa3）。具体的には、再生制御部１２５は、入力音声Ｖに対応する楽曲を再生装置１４に再生させる。具体的には、再生制御部１２５は、入力音声Ｖに対応する楽曲を当該入力音声Ｖに対応する位置から再生装置１４に再生させる。具体的には、再生制御部１２５は、入力音声Ｖに対応する楽曲の演奏データに応じた音響信号を、当該入力音声Ｖに対応する部分から時系列に再生装置１４に供給する。以上の説明から理解される通り、利用者Ｕが歌唱音声を発音した場合には、入力音声Ｖに対応する楽曲が特定され、当該楽曲が再生される。なお、前述の通り、動的時間伸縮法により入力音声Ｖに対応する楽曲を特定する構成によれば、音響信号Ｘと参照データとのテンポおよびキーの相違の推定が可能であるので、入力音声Ｖに応じたテンポおよびキーで楽曲を再生することが可能になる。

　他方、判別部１２１は、入力音声Ｖが歌唱音声以外の音声であると判別された場合（Ｓa1：NO）、入力音声Ｖが指示音声であるか指示音声以外の音声（すなわち発話音声）であるかを判別する（Ｓa4）。具体的には、判別部１２１は、入力音声Ｖを表す文字列（以下「入力文字列」という）に類似する登録文字列が動作テーブルに登録されている場合には、入力音声Ｖが指示音声であると判別し、入力文字列に類似する登録文字列が動作テーブルに登録されていない場合には、入力音声Ｖが指示音声以外の音声であると判別する。入力文字列と登録文字列との対比には、例えば編集距離等の公知の技術が任意に採用される。入力文字列は、例えば音響信号Ｘに対する音声認識により特定される。例えば、入力文字列「［ＡＢＣ］を再生」が特定された場合には、図２の動作テーブルの登録文字列「［楽曲名］を再生」が特定される。また、入力文字列の［楽曲名］に対応する参照データが特定される。例えば形態素解析等の自然言語処理を入力文字列に対して実行することで固有名詞（例えば［ＡＢＣ］）を抽出し、当該固有名詞と楽曲データＭの楽曲名との対比により、再生対象の楽曲が特定される。具体的には、複数の楽曲データＭの楽曲名のうち、入力文字列から抽出された固有名詞に類似する楽曲名がある場合には、当該楽曲名に対応する演奏データが特定される。なお、入力文字列の［楽曲名］に対応する演奏データが存在しない場合には、例えば［楽曲名］に対応する演奏データが存在しないことを利用者Ｕに知らせてもよい。例えば文字列「［楽曲名］はありません。」を表す音声または画像が再生される。以上の説明から理解される通り、ステップＳa4では、入力音声Ｖが指示音声であると判別された場合には、当該入力音声Ｖが表す楽曲の演奏データも特定される。なお、動作テーブルは、楽曲再生システム１０と通信可能なサーバ装置に記憶してもよい。以上の構成では、楽曲再生システム１０が入力音声Ｖまたは入力文字列をサーバ装置に送信し、サーバ装置で入力音声Ｖが指示音声であるか否かの判別がされる。

　動作制御部１２３は、入力音声Ｖが指示音声であると判定された場合（Ｓa4：YES）、当該入力音声Ｖが表す第２動作を再生制御部１２５に対して指示する（Ｓa5）。動作テーブルの複数の動作のうち、入力文字列に類似する登録文字列に対応する動作が第２動作として指示される。すなわち、入力音声Ｖ（指示音声）で指定された楽曲「ＡＢＣ」を再生する第２動作が指示される。第１実施形態の第２動作は、指示音声で指定された楽曲を先頭から再生する動作である。すなわち、第１動作は、歌唱音声による指示に基づく動作であるのに対して、第２動作は指示音声に基づく動作である。第１実施形態では、第１動作と第２動作とは相異なる動作である。再生制御部１２５は、第２動作を実行する（Ｓa6）。第１実施形態の再生制御部１２５は、指示音声で指定された楽曲を再生装置１４に再生させる。具体的には、再生制御部１２５は、指示音声で指定された楽曲に対応する演奏データに応じた音響信号を先頭から再生装置１４に供給する。具体的には、ステップＳa4で特定された演奏データが表わす楽曲が再生される。なお、再生制御部１２５は、演奏データおよび参照データに応じた音響信号を再生装置１４に供給してもよい。以上の説明から理解される通り、利用者Ｕが指示音声を発音した場合には、当該指示音声が指定する楽曲が特定され、当該楽曲が再生される。

　他方、動作制御部１２３は、入力音声Ｖが指示音声以外の音声（すなわち会話音等の発話音声）であると判定された場合（Ｓa4：NO）、再生制御部１２５に対して何も指示しない（Ｓa7）。以上の説明から理解される通り、ステップＳa1とステップＳa4とで、入力音声Ｖが歌唱音声であるか指示音声であるかが判別される。また、ステップＳa1-Ｓa3の処理と、ステップＳa4-Ｓa6の処理との順番は逆でもよいし、双方の処理が並行して実行されてもよい。

　以上の説明から理解される通り、第１実施形態では、入力音声Ｖが歌唱音声であると判別された場合には、入力音声Ｖに対応する楽曲の再生に関する第１動作が再生制御部１２５に指示される。一方で、入力音声Ｖが指示音声であると判別された場合には、当該入力音声Ｖが表す第２動作が再生制御部１２５に指示される。すなわち、歌唱音声および指示音声による多様な音声入力が可能である。また、第１実施形態では、第１動作と第２動作とが相異なる動作であるから、入力音声Ｖの種類（歌唱音声／指示音声）を適宜に変更することで、所望する動作を再生制御部１２５に指示することが可能である。具体的には、歌唱音声が入力された場合には、当該歌唱音声（入力音声Ｖ）に対応する楽曲を当該歌唱音声に対応する位置から再生する第１動作が指示され、楽曲の再生を指示する指示音声が入力された場合には、当該指示音声（入力音声Ｖ）に対応する楽曲を先頭から再生する第２動作が指示される。

＜第２実施形態＞
　本開示の第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　第１実施形態では、楽曲が再生されていない待機状態を前提としたが、第２実施形態では、既に楽曲が再生されている状態（以下「再生状態」という）を前提として、音声入力により楽曲再生システム１０に動作を指示する場面を想定する。

　図５は、第２実施形態に係る楽曲再生システム１０の構成図である。図５に例示される通り、第２実施形態の楽曲再生システム１０は、第１実施形態の楽曲再生システム１０に、歌唱評価部１２７を追加した構成である。収音装置１１は、第１実施形態と同様に、利用者Ｕからの入力音声Ｖを受け付ける。判別部１２１は、第１実施形態と同様に、利用者Ｕによる入力音声Ｖが歌唱音声であるか指示音声であるかを判別する。

　また、第２実施形態の判別部１２１は、入力音声Ｖが、再生制御部１２５による再生中の楽曲の歌唱音声であるか、再生制御部１２５による再生中の楽曲以外の歌唱音声であるかを判別する。歌唱評価部１２７は、利用者Ｕの歌唱音声を評価する。具体的には、歌唱評価部１２７は、利用者Ｕの歌唱音声と、当該歌唱音声（入力音声Ｖ）に対応する楽曲の参照データとを比較することで、歌唱音声に対する評価を表す評価値（例えば得点）を生成する。評価値の生成には、公知の任意の技術が採用される。歌唱評価部１２７より生成された評価値は、例えば再生装置１４により再生（放音または表示）される。

　図６は、第２実施形態に係る制御装置１２が実行する処理を例示するフローチャートである。例えば収音装置１１が入力音声Ｖを受け付けると、図６の処理が実行される。図６のフローチャートは、図３で例示したステップＳa1-Ｓa7の処理に加えて、ステップＳa8-Ｓa10の処理を実行する。

　図６の処理が開始されると、判別部１２１は、入力音声Ｖが歌唱音声であるか歌唱音声以外の音声であるかを判別する（Ｓa1）。第１実施形態と同様に、複数の参照データについて算定された類似指標の最大値と閾値との対比により、入力音声Ｖが歌唱音声であるか否かが判別される。

　判別部１２１は、入力音声Ｖが歌唱音声であると判別された場合（Ｓa1：YES）、当該入力音声Ｖが、再生制御部１２５による再生中の楽曲の歌唱音声であるか、再生制御部１２５による再生中の楽曲以外の楽曲の歌唱音声であるかを判別する（Ｓa8）。具体的には、図４のステップＳa13で特定された参照データ（すなわち、類似指標が最大値であり、かつ、当該最大値が閾値を超える参照データ）の楽曲が再生されている場合には、入力音声Ｖが再生中の楽曲の歌唱音声であると判別される。他方、図４のステップＳa13で特定された参照データの楽曲が再生されていない場合には、入力音声Ｖが再生中の楽曲以外の楽曲の歌唱音声であると判別される。

　動作制御部１２３は、入力音声Ｖが再生中の楽曲の歌唱音声であると判別された場合（Ｓa8：YES）、当該入力音声Ｖを評価する第３動作を歌唱評価部１２７に対して指示する（Ｓa9）。歌唱評価部１２７は、第３動作を実行する（Ｓa10）。具体的には、歌唱音声の評価値が生成される。他方、動作制御部１２３は、入力音声Ｖが再生中の楽曲以外の歌唱音声であると判別された場合（Ｓa8：NO）、第１動作を再生制御部１２５に対して指示する（Ｓa2）。第１動作は、第１実施形態と同様に、入力音声Ｖに対応する楽曲を再生する動作である。ただし、第２実施形態では、入力音声Ｖに対応する楽曲を再生中の楽曲の後に再生（すなわち予約再生）する動作を第１動作として例示する。なお、再生中の楽曲を停止して当該入力音声Ｖに対応する楽曲を再生（すなわち即時再生）する第１動作を指示してもよい。再生制御部１２５は、第１動作を実行する（Ｓa3）。第２実施形態の再生制御部１２５は、入力音声Ｖに対応する楽曲を再生中の楽曲の後に再生装置１４に再生させる。

　他方、判別部１２１は、第１実施形態と同様に、入力音声Ｖが歌唱音声以外の音声であると判別された場合（Ｓa1：NO）、入力音声Ｖが指示音声であるか指示音声以外の音声であるかを判別する（Ｓa4）。動作制御部１２３は、第１実施形態と同様に、入力音声Ｖが指示音声であると判定された場合（Ｓa4：YES）、当該入力音声Ｖが表す第２動作を再生制御部１２５に対して指示する（Ｓa5）。図２に例示される通り、例えば、再生中の楽曲を停止する動作、キーを変更する動作、または、音量を大きくする動作等の各種の動作が第２動作として例示される。なお、所望の楽曲の再生を指示する指示音声を利用者Ｕが発音した場合には、当該指示音声が指定する楽曲を再生（予約再生または即時再生）する第２動作が指示される。

　再生制御部１２５は、第１実施形態と同様に、第２動作を実行する（Ｓa6）。例えば、楽曲の再生を停止する第２動作が指示された場合には、楽曲の再生を停止させる。他方、動作制御部１２３は、入力音声Ｖが指示音声以外の音声であると判定された場合（Ｓa4：NO）、再生制御部１２５に対して指示しない（Ｓa7）。

　第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、入力音声Ｖが再生中の楽曲の歌唱音声である場合には、当該入力音声を評価する第３動作が歌唱評価部１２７に指示され、入力音声Ｖが再生中の楽曲以外の歌唱音声である場合には、当該入力音声Ｖに対応する楽曲を再生する第１動作が再生制御部１２５に指示される。したがって、入力音声Ｖが再生中の楽曲の歌唱音声であるか否かに応じて、第１動作と第３動作との指示を変更することができる。なお、第２実施形態においても、待機状態では、第１実施形態で例示した処理が実行される。

　第１実施形態および第２実施形態で説明した通り、入力音声Ｖ（歌唱音声）に対応する楽曲の再生に関する第１動作は、例えば入力音声Ｖに対応する楽曲を再生（即時再生／予約再生）する動作である。また、入力音声Ｖ（指示音声）が表す第２動作は、例えば、当該入力音声Ｖで指定される楽曲を再生（即時再生／予約再生）する動作、または、再生中の楽曲を制御（例えばキー、音量または再生速度の変更）する動作である。ただし、第１動作と第２動作との内容は、以上の例示に限定されない。また、待機状態と再生状態とで共通の楽曲を歌唱する歌唱音声を受け付けた場合に、待機状態と再生状態とで相異なる第１動作を指示する構成が好適である。待機状態では、入力音声Ｖに対応する楽曲を再生する第１動作が指示され、再生状態では、入力音声Ｖを評価する第３動作が指示される。ただし、待機状態と再生状態とで、共通の動作（例えば楽曲を再生する第１動作）が共通に指示されてもよい。

＜第３実施形態＞
　第１実施形態では、楽曲再生システム１０の機能を単体の端末装置で実現したが、第３実施形態では、楽曲再生システム１０の機能を複数の装置で実現する。図７は、第３実施形態に係る楽曲再生システム１０の構成を例示するブロック図である。図７に例示される通り、第３実施形態の楽曲再生システム１０は、端末装置２０と端末装置３０と処理装置４０とを具備する。

　処理装置４０は、利用者Ｕが所望する楽曲を再生する再生機器である。例えば車内に搭載されるカーナビゲーション機器またはカーオーディオ機器等が処理装置４０として好適である。利用者Ｕは、端末装置２０および端末装置３０に対する音声入力により処理装置４０に対して動作の指示が可能である。端末装置２０および端末装置３０は、利用者Ｕからの入力音声Ｖを共通に受け付けて、当該入力音声Ｖに応じた指示を処理装置４０に送信する情報端末である。処理装置４０が搭載された車内に、端末装置２０および端末装置３０が設置される。端末装置２０は、歌唱音声を受け付けて第１動作の指示Ｐ1を処理装置４０に送信する。例えば携帯電話機およびスマートフォン等の情報端末が端末装置２０として好適である。他方、端末装置３０は、指示音声を受け付けて第２動作の指示Ｐ2を処理装置４０に送信する。例えば、スマートスピーカ等の音声対話装置が端末装置３０として好適である。端末装置２０および端末装置３０の各々は、処理装置４０と有線または無線により通信可能である。

　図８は、端末装置２０の構成を例示するブロック図である。図８に例示される通り、端末装置２０は、収音装置２１と通信装置２２と制御装置２３と記憶装置２４とを具備する。収音装置２１は、周囲の音を収音する音響機器（マイクロホン）である。具体的には、収音装置２１は、利用者Ｕからの入力音声Ｖを受け付けて、当該入力音声Ｖを表す音響信号Ｘを生成する。

　制御装置２３（コンピュータの例示）は、例えばＣＰＵ等の処理回路で構成され、楽曲再生システム１０の各要素を統括的に制御する。制御装置２３は、記憶装置２４に記憶されたプログラムを実行することで複数の機能（第１処理部２３１および第１動作制御部２３３）を実現する。なお、制御装置２３の一部の機能を専用の電子回路で実現してもよい。また、制御装置２３の機能を複数の装置に搭載してもよい。

　記憶装置２４は、制御装置２３が実行するプログラムと、制御装置２３が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが、記憶装置２４として任意に採用され得る。図８に例示される通り、第３実施形態の記憶装置２４は、相異なる複数の楽曲にそれぞれ対応する複数の参照データを記憶する。

　第１処理部２３１は、収音装置２１が生成した音響信号Ｘから、利用者Ｕによる入力音声Ｖが歌唱音声であるか歌唱音声以外の音声（すなわち指示音声または発話音声）であるかを判別する。図３で例示したステップＳa1（図４のＳa11-Ｓa14）と同様の処理で、入力音声Ｖが歌唱音声であるか否かが判別される。具体的には、記憶装置２４に記憶された複数の参照データの各々と音響信号Ｘとの間で算出された類似指標が、入力音声Ｖが歌唱音声であるか否かの判別に利用される。

　第１動作制御部２３３は、入力音声Ｖが歌唱音声であると判別された場合に、第１動作の指示Ｐ1を通信装置２２から処理装置４０に対して送信させる。第１動作の指示Ｐ1は、例えば、第１実施形態と同様に、入力音声Ｖに対応する楽曲を再生する動作である。通信装置２２は、第１動作制御部２３３の制御のもとで、第１動作の指示Ｐ1を処理装置４０に送信する。なお、入力音声Ｖが歌唱音声でないと判別（つまり歌唱音声以外の音声であると判別）された場合には、第１動作の指示Ｐ1は送信されない。処理装置４０は、端末装置２０から送信された指示Ｐ1を受信する。

　図９は、端末装置３０の構成を例示するブロック図である。図９に例示される通り、端末装置３０は、収音装置３１と通信装置３２と制御装置３３と記憶装置３４とを具備する。収音装置３１は、周囲の音を収音する音響機器（マイクロホン）である。具体的には、収音装置３１は、端末装置２０の収音装置２１と同様に、利用者Ｕからの入力音声Ｖを受け付けて、当該入力音声Ｖを表す音響信号Ｘを生成する。

　制御装置３３（コンピュータの例示）は、例えばＣＰＵ等の処理回路で構成され、楽曲再生システム１０の各要素を統括的に制御する。制御装置３３は、記憶装置３４に記憶されたプログラムを実行することで複数の機能（第２処理部３３１および第２動作制御部３３３）を実現する。なお、制御装置３３の一部の機能を専用の電子回路で実現してもよい。また、制御装置３３の機能を複数の装置に搭載してもよい。

　記憶装置３４は、制御装置３３が実行するプログラムと、制御装置３３が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが、記憶装置３４として任意に採用され得る。図９に例示される通り、第３実施形態の記憶装置３４は、第１実施形態と同様の動作テーブルと、複数の楽曲データＭにそれぞれ対応する複数の楽曲名とを記憶する。

　第２処理部３３１は、収音装置３１が生成した音響信号Ｘから、利用者Ｕによる入力音声Ｖが指示音声であるか指示音声以外の音声（すなわち歌唱音声または発話音声）であるかを判別する。入力音声Ｖが指示音声であるか否かの判別には、第１実施形態と同様に、動作テーブルが利用される。また、指示音声が楽曲の再生を指示する場合には、記憶装置３４に記憶された複数の楽曲名のうち、指示音声が指定する楽曲名が特定される。楽曲名の特定には、第１実施形態と同様に、入力文字列に対する形態素解析等の自然言語処理が利用される。なお、第２処理部３３１での処理と第１処理部２３１での処理は、並行して実行される。

　第２動作制御部３３３は、入力音声Ｖが指示音声であると判別された場合に、第２動作の指示Ｐ2を通信装置３２から処理装置４０に対して送信させる。第２動作は、例えば、第１実施形態と同様に、指示音声が指定する楽曲を再生する動作である。具体的には、第２処理部３３１が特定した楽曲名に対応する演奏データを再生する第２動作の指示Ｐ2が送信される。通信装置３２は、第２動作制御部３３３の制御のもとで、第２動作の指示Ｐ2を処理装置４０に送信する。なお、入力音声Ｖが指示音声でないと判別（つまり指示音声以外の音声であると判別）された場合には、第２動作の指示Ｐ2は送信されない。処理装置４０は、端末装置３０から送信された第２動作の指示Ｐ2を受信する。

　図１０は、処理装置４０の構成を例示するブロック図である。図１０に例示される通り、処理装置４０は、再生装置４１と通信装置４２と制御装置４３と記憶装置４４とを具備する。制御装置４３（コンピュータの例示）は、例えばＣＰＵ等の処理回路で構成され、楽曲再生システム１０の各要素を統括的に制御する。制御装置４３は、記憶装置４４に記憶されたプログラムを実行することで再生制御部４３１を実現する。なお、制御装置４３の一部の機能を専用の電子回路で実現してもよい。また、制御装置４３の機能を複数の装置に搭載してもよい。

　記憶装置４４は、制御装置４３が実行するプログラムと、制御装置４３が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが、記憶装置４４として任意に採用され得る。図１０に例示される通り、第３実施形態の記憶装置４４は、第１実施形態と同様に、複数の楽曲データＭを記憶する。

　再生装置４１は、制御装置４３の指示のもとで楽曲を再生する再生機器である。通信装置４２は、端末装置２０から第１動作の指示Ｐ1を受信する。また、端末装置３０から第２動作の指示Ｐ2を受信する。

　再生制御部４３１は、通信装置４２が受信した指示Ｐ1または指示Ｐ2を実行することで、再生装置４１を制御する。すなわち、再生制御部４３１は、端末装置２０の第１動作制御部２３３から指示された第１動作、または、端末装置３０の第２動作制御部３３３から指示された第２動作を実行する。第３実施形態の再生制御部４３１は、第１実施形態と同様のデータ処理部と音源部とを含み、第１動作制御部２３３または第２動作制御部３３３の指示に応じて演奏データから生成した音響信号を、再生装置４１に供給する。再生装置４１は、再生制御部４３１から供給された音響信号に応じた楽曲を再生する。

　以上の説明から理解される通り、端末装置２０の第１処理部２３１と端末装置３０の第２処理部３３１とで、入力音声Ｖが歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部として機能する。すなわち、判別部の機能を複数の装置で実現してもよい。また、端末装置２０の第１動作制御部２３３と端末装置３０の第２動作制御部３３３とは、入力音声Ｖが歌唱音声であると判別された場合に、当該入力音声Ｖに対応する楽曲の再生に関する第１動作を再生制御部４３１に対して指示し、入力音声Ｖが指示音声であると判別された場合に、当該入力音声Ｖが表す第２動作を再生制御部４３１に対して指示する動作制御部として機能する。すなわち、動作制御部の機能を複数の装置で実現してもよい。

　以上の説明から理解される通り、楽曲再生システム１０の機能を単一の装置で実現するか、複数の装置で実現するかは任意である。なお、複数の装置で実現する構成は、第３実施形態で例示した構成に限定されない。例えば、端末装置２０の第１処理部２３１および第１動作制御部２３３を、端末装置２０と通信可能なサーバ装置に搭載してもよい。具体的には、端末装置２０は、収音装置２１が生成した音響信号Ｘをサーバ装置に送信する。サーバ装置は、端末装置２０から受信した音響信号Ｘから第１動作を特定して、当該第１動作の指示Ｐ1を端末装置２０に送信する。そして、端末装置２０は、サーバ装置から送信された第１動作の指示Ｐ1を処理装置４０に送信する。また、端末装置３０の第２処理部３３１および第２動作制御部３３３の何れか一方をサーバ装置に搭載してもよい。なお、第３実施形態の構成を第２実施形態に適用してもよい。

＜変形例＞
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、楽曲再生システム１０の収音装置が入力音声Ｖを受け付けたが、楽曲再生システム１０とは別個の収音装置を入力音声Ｖの受け付けに利用してもよい。例えば、車内に設置された収音装置、または、着脱可能な収音装置が入力音声Ｖの受け付けに利用される。以上の説明から理解される通り、楽曲再生システム１０と収音装置との一体／別体は任意である。

（２）前述の各形態では、演奏データおよび参照データを含む楽曲データＭを例示したが、楽曲名、演奏データおよび参照データとは異なるデータを楽曲データＭが含んでもよい。例えば、歌詞を表す歌詞データを楽曲データＭが含んでもよい。例えば歌詞の提示に歌詞データが利用される。例えば表示により歌詞を提示してもよいし、歌詞を表す音響を放音することで歌詞を提示してもよい。

（３）前述の各形態において、入力音声Ｖが歌唱音声であるか指示音声であるかを判別する具体的な処理の方法は任意である。例えば、歌詞データが楽曲データＭに含まれる場合には、入力音声Ｖが表す文字列を音声認識により特定して、当該文字列と各楽曲データＭの歌詞データとを比較することで入力音声Ｖが歌唱音声であるか否かを判別してもよい。また、入力音声Ｖに対する音声認識、または、機械学習により得られたニューラルネットワーク等の学習済モデル（人工知能）等の公知の技術を利用して入力音声Ｖが指示音声であるか否かを判別してもよい。以上の構成では、指示音声が表す指示の内容も特定される。以上の説明から理解される通り、入力音声Ｖが指示音声であるか否かの判別に動作テーブルは必須ではない。

（４）前述の各形態において、楽曲を再生する第１動作または第２動作の指示により楽曲を再生する前に、当該楽曲を利用者Ｕに提示する処理（以下「楽曲提示処理」という）を楽曲再生システム１００が実行してもよい。楽曲提示処理では、例えば楽曲名を利用者Ｕに提示する。図１１は、楽曲提示処理のフローチャートである。楽曲の再生を指示する入力音声Ｖ（以下「第１入力音声」という）を収音装置１１が受け付けると、図１１の処理が開始される。第１入力音声は、歌唱音声でも指示音声でもよい。例えば楽曲「ＡＢＣ」の再生を指示する場合には、当該楽曲「ＡＢＣ」を歌唱する歌唱音声、または、例えば文字列「［ＡＢＣ］を再生」を発音した指示音声が第１入力音声として例示される。

　制御装置１２は、第１入力音声に対応する楽曲名を特定する（Ｓb1）。すなわち第１入力音声により再生の指示がされた楽曲の楽曲名が特定される。動作制御部１２３は、第１入力音声に対応する楽曲名の提示の指示を再生制御部１２５に付与する（Ｓb2）。再生装置１４は、再生制御部１２５の指示により楽曲名を提示する。例えば、楽曲名を表す音（例えば「［楽曲名］ですか？」を表す音）が再生装置１４により放音される。なお、楽曲名を表す文字列を再生装置１４により表示してもよい。

　利用者Ｕは、再生装置１４により再生された楽曲名の楽曲が所望の楽曲である場合には、当該楽曲名の楽曲が所望の楽曲であることを表す入力音声Ｖ（以下「第２入力音声」という）を発音する。第２入力音声は、例えば「はい」を発話した音声である。なお、利用者Ｕは、再生装置１４により再生された楽曲名の楽曲が所望の楽曲でない場合には、当該楽曲名の楽曲が所望の楽曲でないことを表す音声（例えば「いいえ」を発話した音声）を発音する。

　制御装置１２は、収音装置１１が第２入力音声を受け付けたか否かを判定する（Ｓb3）。第２入力音声を受け付けたと判定された場合（Ｓb3：YES）、動作制御部１２３は、第１入力音声に対応する楽曲を再生する動作を再生制御部１２５に対して指示する（Ｓb4）。すなわち、再生装置１４により再生された楽曲名の楽曲が再生される。

　他方、第２入力音声以外の入力音声Ｖを受け付けたと判定された場合（Ｓb3：ＮＯ）、第１入力音声に対応する楽曲は再生されない。なお、楽曲再生システム１０は、所望しない楽曲であることを表す入力Ｖ音声を受け付けた場合、再生する楽曲を特定しなおしてもよい。以上の説明から理解される通り、楽曲提示処理では、第１入力音声により特定された楽曲が所望する楽曲であるか否かを、楽曲の再生の前に利用者Ｕが確認できるという利点がある。

（５）前述の各形態では、楽曲再生システム１０を車内で利用したが、楽曲再生システム１０を利用する場所は任意である。

（６）前述の各形態では、楽曲再生システム１０はカラオケ曲を再生したが、楽曲再生システム１０が再生する楽曲は以上の例示に限定されない。例えば、歌唱者による歌声を含む楽曲を再生してもよい。

（７）前述の各形態の楽曲再生システム１０は、複数の利用者Ｕでも利用される。複数の利用者Ｕにより利用される場合、収音装置は、複数の利用者Ｕのそれぞれが発音する複数の音声を含む入力音声Ｖを受け付ける。楽曲再生システム１０は、当該入力音声Ｖから各利用者Ｕの音声を分離し、当該分離後の各音声について歌唱音声であるか指示音声であるか判別する。すなわち、複数の利用者Ｕが同時に発音する場合でも、各利用者Ｕが発話した音声に対応する動作を楽曲再生システム１０に指示することが可能である。

（８）第１実施形態では、第１動作と第１動作とは異なる第２動作と例示したが、第１動作と第２動作とが同じ動作であってもよい。ただし、第１動作と第２動作とが相異なる動作である構成によれば、利用者Ｕは入力音声Ｖの種類（歌唱音声／指示音声）を適宜に変更することで、所望する動作を再生制御部１２５に指示することが可能である。

（９）前述の各形態では、入力音声Ｖに対応する楽曲を再生する動作を第１動作として例示したが、第１動作の内容は以上の例示に限定されない。例えば、入力音声Ｖ（歌唱音声）に応じて再生態様を変更する動作を第１動作としてもよい。例えば入力音声Ｖのテンポに応じて、再生中の楽曲または再生を開始させる楽曲のテンポを変更する第１動作、または、入力音声Ｖのキーに応じて、再生中の楽曲または再生を開始させる楽曲のキーを変更する第１動作が好適である。

（１０）第１実施形態では、楽曲のうち利用者Ｕが歌唱した部分の直後から当該楽曲を再生する動作を、入力音声Ｖに対応する位置から再生する第１動作として例示したが、入力音声Ｖに対応する位置から再生する第１動作は以上の例示に限定されない。例えば、入力音声Ｖに対応する楽曲を区分した複数の区間（以下「単位区間」という）のうち、当該入力音声Ｖが表す部分を含む単位区間の先頭から、当該楽曲を再生する動作を第１動作とする構成も採用される。以上の構成において、楽曲データＭは、単位区間を画定するための区間データを含む。区間データは、各単位区間の始点および終点を規定する。単位区間は、例えば、音楽的な表情のまとまりであるフレーズ、または、Ａメロ、Ｂメロおよびサビ等の構造区間である。なお、単位区間は以上の例示に限定されない。複数の単位区間のうち入力音声Ｖが表す部分を含む単位区間は、公知の楽曲解析技術により特定される。以上の構成では、複数の単位区間のうち入力音声Ｖが表す部分を含む単位区間の先頭から、当該楽曲が再生されるから、利用者は、楽曲のうち入力音声Ｖに対応する部分から当該楽曲を歌唱することができる。

　また、入力音声Ｖに対応する楽曲を区分した複数の単位区間のうち、当該入力音声Ｖが表す部分を含む単位区間の直前または直後の単位区間の先頭から、当該楽曲を再生する動作を第１動作としてもよい。なお、楽曲の先頭から再生させる第１動作も好適である。以上の説明から理解される通り、第１動作では、入力音声Ｖ（歌唱音声）に対応する楽曲を再生させる位置は可変に設定される。

（１１）第２実施形態では、入力音声Ｖが歌唱音声であるか指示音声であるかを判別する構成を前提として、入力音声Ｖが歌唱音声である場合に、当該入力音声Ｖが再生中の楽曲の歌唱音声であるか否かを判別した。ただし、第２実施形態において、入力音声Ｖが歌唱音声であるか指示音声であるかを判別する構成を前提せずに、入力音声Ｖが再生中の楽曲の歌唱音声であるか否かを判別してもよい。すなわち、入力音声Ｖが、再生制御部１２５による再生中の楽曲の歌唱音声であるか、再生制御部１２５による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、当該入力音声Ｖが再生制御部１２５による再生中の楽曲の歌唱音声であると判別された場合には、第３動作を歌唱評価部１２７に対して指示し、当該入力音声Ｖが再生制御部１２５による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、第１動作を再生制御部１２５に対して指示する構成は、入力音声Ｖが歌唱音声であるか指示音声であるかを判別する構成とは独立して成立する。

（１２）第３実施形態では、端末装置２０と端末装置３０とが独立して処理を実行したが、端末装置２０と端末装置３０とが連動して処理を実行してもよい。例えば端末装置３０は、利用者Ｕによる入力音声Ｖが指示音声以外の音声であると判別した場合に、端末装置２０に対して入力音声Ｖが歌唱音声であるか否かを判別する指示を送信してもよい。端末装置２０は、端末装置３０からの指示を受信すると、入力音声Ｖが歌唱音声であるか否かの判別をする。

（１３）前述の各形態において、例えば歌唱音声または指示音声を受け付けた場合に、楽曲再生システム１０を起動する構成も好適である。

（１４）前述の各形態に係る楽曲再生システム１０の機能は、各形態での例示の通り、ＣＰＵ等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
　以上に例示した形態から、例えば以下の構成が把握される。

　本開示の好適な態様（第１態様）に係る楽曲再生システムの制御方法は、入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別し、前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する。以上の態様では、入力音声が歌唱音声であると判別された場合には、当該入力音声に対応する楽曲の再生に関する第１動作が再生制御部に指示され、入力音声が指示音声であると判別された場合には、当該入力音声が表す第２動作が再生制御部に指示される。すなわち、歌唱音声および指示音声による多様な音声入力が可能である。例えば、前記第１動作と前記第２動作とは、相異なる動作である。以上の態様では、入力音声の種類（歌唱音声／指示音声）を適宜に変更することで、所望する動作を再生制御部に指示することが可能である。

　第１態様の好適例（第２態様）では、前記第１動作は、前記入力音声に対応する楽曲を当該歌唱音声に対応する位置から再生する動作であり、前記第２動作は、前記入力音声に対応する楽曲を先頭から再生する動作である。以上の態様では、入力音声に対応する楽曲を当該入力音声に対応する位置から再生する動作が第１動作であり、入力音声に対応する楽曲を先頭から再生する動作が第２動作である。したがって、利用者は、入力音声の種類（歌唱音声／指示音声）を適宜に変更することで、所望する再生方法により楽曲を再生させることが可能である。

　第２態様の好適例（第３態様）では、前記第１動作は、前記入力音声に対応する楽曲を区分した複数の区間のうち、当該入力音声が表す部分を含む区間の先頭から、当該楽曲を再生する動作である。以上の態様では、入力音声が歌唱音声である場合には、当該入力音声に対応する楽曲を区分した複数の区間のうち、当該入力音声が表す部分を含む区間の先頭から、当該楽曲が再生される。したがって、利用者は、楽曲のうち歌唱音声に対応する部分から当該楽曲を歌唱することができる。　　　

　第１態様から第３態様の何れかの好適例（第４態様）では、前記入力音声が、前記再生制御部による再生中の楽曲の歌唱音声であるか、前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する第３動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記第１動作として前記再生制御部に対して指示する。以上の態様では、入力音声が再生中の楽曲の歌唱音声である場合には、当該入力音声を評価する第３動作が歌唱評価部に指示され、入力音声が再生中の楽曲以外の楽曲の歌唱音声である場合には、当該入力音声に対応する楽曲を再生する第１動作が再生制御部に指示される。したがって、入力音声が再生中の楽曲の歌唱音声であるか否かに応じて、第１動作と第３動作との指示を変更することができる。

　本開示の他の態様（第５態様）に係る楽曲再生システムの制御方法は、楽曲の再生を指示する第１入力音声に対応する楽曲名の提示の指示を再生制御部に付与し、前記提示された楽曲名の楽曲が所望の楽曲であることを表す第２入力音声を受け付けた場合に、前記第１入力音声に対応する楽曲を再生する動作を前記再生制御部に対して指示する。以上の態様では、楽曲の再生を指示する第１入力音声に対応する楽曲名の提示の指示を再生制御部に付与し、当該提示された楽曲名の楽曲が所望の楽曲であることを表す第２入力音声を受け付けた場合に、第１入力音声に対応する楽曲を再生する動作が再生制御部に対して指示される。すなわち、楽曲が再生される前に、当該楽曲が所望の楽曲であるか否かを楽曲名の提示により確認することができる。

　本開示の他の態様（第６態様）に係る楽曲再生システムの制御方法は、入力音声が、楽曲の再生を制御する再生制御部による再生中の楽曲の歌唱音声であるか、当該再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記再生制御部に対して指示する。以上の態様では、入力音声が再生中の楽曲の歌唱音声である場合には、当該入力音声を評価する動作が歌唱評価部に指示され、入力音声が再生中の楽曲以外の楽曲の歌唱音声である場合には、当該入力音声に対応する楽曲を再生する動作が再生制御部に指示される。したがって、入力音声が再生中の楽曲の歌唱音声であるか否かに応じて、楽曲再生システムに異なる動作を指示することが可能になる。

　本開示の好適な態様（第７態様）に係る楽曲再生システムは、入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部と、前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する動作制御部とを具備する。以上の態様では、入力音声が歌唱音声であると判別された場合には、当該入力音声に対応する楽曲の再生に関する第１動作が再生制御部に指示され、入力音声が指示音声であると判別された場合には、当該入力音声が表す第２動作が再生制御部に指示される。すなわち、歌唱音声および指示音声による多様な音声入力が可能である。

　第７態様の好適例（第８態様）において、前記第１動作は、前記入力音声に対応する楽曲を当該入力音声に対応する位置から再生する動作であり、前記第２動作は、前記入力音声に対応する楽曲を先頭から再生する動作である。以上の態様では、入力音声に対応する楽曲を当該入力音声に対応する位置から再生する動作が第１動作であり、入力音声に対応する楽曲を先頭から再生する動作が第２動作である。したがって、利用者は、入力音声の種類（歌唱音声／指示音声）を適宜に変更することで、所望する再生方法により楽曲を再生させることが可能である。

　第８態様の好適例（第９態様）において、前記第１動作は、前記入力音声に対応する楽曲を区分した複数の区間のうち、当該入力音声が表す部分を含む区間の先頭から、当該楽曲を再生する動作である。以上の態様では、入力音声が歌唱音声である場合には、当該入力音声に対応する楽曲を区分した複数の区間のうち、当該入力音声が表す部分を含む区間の先頭から、当該楽曲が再生される。したがって、利用者は、歌唱音声に連続して当該楽曲を歌唱することができる。

　第７態様から第９態様の何れかの好適例（第１０態様）において、前記判別部は、前記入力音声が、前記再生制御部による再生中の楽曲の歌唱音声であるか、前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、前記動作制御部は、前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する第３動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記第１動作として前記再生制御部に対して指示する。以上の態様では、入力音声が再生中の楽曲の歌唱音声である場合には、当該入力音声を評価する第３動作が歌唱評価部に指示され、入力音声が再生中の楽曲以外の楽曲の歌唱音声である場合には、当該入力音声に対応する楽曲を再生する第１動作が再生制御部に指示される。したがって、入力音声が再生中の楽曲の歌唱音声であるか否かに応じて、第１動作と第３動作との指示を変更することができる。

　本開示の好適な態様（第１１態様）に係るプログラムは、１または複数のプロセッサを、入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部、および、前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する動作制御部として機能させる。以上の態様では、入力音声が歌唱音声であると判別された場合には、当該入力音声に対応する楽曲の再生に関する第１動作が再生制御部に指示され、入力音声が指示音声であると判別された場合には、当該入力音声が表す第２動作が再生制御部に指示される。すなわち、歌唱音声および指示音声による多様な音声入力が可能である。

１０…楽曲再生システム、１１…収音装置、１２…制御装置、１２１…判別部、１２３…動作制御部、１２５…再生制御部、１２７…歌唱評価部、１３…記憶装置、１４…再生装置、２０…端末装置、２１…収音装置、２２…通信装置、２３…制御装置、２４…記憶装置、２７…動作制御部、２３１…第１処理部、２３３…第１制御部、３０…端末装置、３１…収音装置、３２…通信装置、３３…制御装置、３３１…第２処理部、３３３…第２動作制御部、３４…記憶装置、４０…処理装置、４１…再生装置、４２…通信装置、４３…制御装置、４３１…再生制御部、４４…記憶装置。

Claims

　入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別し、
　前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する
　コンピュータにより実現される楽曲再生システムの制御方法。
　前記第１動作は、前記入力音声に対応する楽曲を当該入力音声に対応する位置から再生する動作であり、
　前記第２動作は、前記入力音声に対応する楽曲を先頭から再生する動作である
　請求項１の楽曲再生システムの制御方法。
　前記第１動作は、前記入力音声に対応する楽曲を区分した複数の区間のうち、当該入力音声が表す部分を含む区間の先頭から、当該楽曲を再生する動作である
　請求項２の楽曲再生システムの制御方法。
　前記入力音声が、前記再生制御部による再生中の楽曲の歌唱音声であるか、前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、
　前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する第３動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記第１動作として前記再生制御部に対して指示する
　請求項１から請求項３の何れかの楽曲再生システムの制御方法。
　入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部と、
　前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する動作制御部と
　を具備する楽曲再生システム。
　楽曲の再生を指示する第１入力音声に対応する楽曲名の提示の指示を再生制御部に付与し、
　前記指示に応じて提示された楽曲名の楽曲が所望の楽曲であることを表す第２入力音声を受け付けた場合に、前記第１入力音声に対応する楽曲を再生する動作を前記再生制御部に対して指示する
　楽曲再生システムの制御方法。
　入力音声が、楽曲の再生を制御する再生制御部による再生中の楽曲の歌唱音声であるか、当該再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、
　前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記再生制御部に対して指示する
　楽曲再生システムの制御方法。
　前記第１動作は、前記入力音声に対応する楽曲を当該入力音声に対応する位置から再生する動作であり、
　前記第２動作は、前記入力音声に対応する楽曲を先頭から再生する動作である
　請求項７の楽曲再生システム。
　前記第１動作は、前記入力音声に対応する楽曲を区分した複数の区間のうち、当該入力音声が表す部分を含む区間の先頭から、当該楽曲を再生する動作である
　請求項８の楽曲再生システム。
　前記判別部は、前記入力音声が、前記再生制御部による再生中の楽曲の歌唱音声であるか、前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であるかを判別し、
　前記動作制御部は、前記入力音声が前記再生制御部による再生中の楽曲の歌唱音声であると判別された場合には、当該入力音声を評価する第３動作を歌唱評価部に対して指示し、前記入力音声が前記再生制御部による再生中の楽曲以外の楽曲の歌唱音声であると判別された場合には、当該入力音声に対応する楽曲を再生する動作を前記第１動作として前記再生制御部に対して指示する
　請求項７から請求項９の何れかの楽曲再生システム。
　１または複数のプロセッサを、
　入力音声が歌唱音声であるか歌唱音声以外の指示音声であるかを判別する判別部、および、
　前記入力音声が歌唱音声であると判別された場合に、当該入力音声に対応する楽曲の再生に関する第１動作を、楽曲の再生を制御する再生制御部に対して指示し、前記入力音声が指示音声であると判別された場合に、当該入力音声が表す第２動作を前記再生制御部に対して指示する動作制御部
　として機能させるプログラム。