WO2021186928A1

WO2021186928A1 - 演奏情報に対する評価を推論する方法、システム、及びプログラム

Info

Publication number: WO2021186928A1
Application number: PCT/JP2021/003784
Authority: WO
Inventors: 陽前澤
Original assignee: ヤマハ株式会社
Priority date: 2020-03-17
Filing date: 2021-02-02
Publication date: 2021-09-23
Also published as: JPWO2021186928A1; US20230009481A1; CN115244613A

Abstract

複数の演奏単位を含む第１演奏情報と、複数の演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、第２演奏情報を取得し、学習モデルを用いて、第２演奏情報を処理して、当該演奏情報に含まれる複数の演奏単位ごとの評価を推論する。

Description

演奏情報に対する評価を推論する方法、システム、及びプログラム

　本発明は、演奏情報に対する評価を推論する方法、システム、及びプログラムに関する。

　従来より、電子ピアノ、電子オルガン、シンセサイザー等の様々な電子楽器が使用されている。ユーザが電子楽器を演奏すると、ユーザによる演奏操作がＭＩＤＩメッセージ等の演奏情報に変換される。

　特許文献１には、演奏者による実際の演奏を示す演奏情報と、演奏の基準（正しい演奏）を示す基準情報とを比較することによって、演奏者の演奏傾向を特定する技術が提案されている。

国際公開２０１４／１８９１３７号

　特許文献１が開示するのは、正しい演奏と演奏者の実際の演奏との乖離の程度を特定する技術であって、演奏情報に対する主観的な評価を特定する技術ではない。ユーザの嗜好に適した制御を実現するには、演奏情報に対するユーザの評価を推論することが求められる。

　本発明は、演奏情報に対する評価を適切に推論する方法、システム、及びプログラムを提供することを目的とする。

　上記目的を達成するために、本発明の一態様に係る方法は、コンピュータによって実現される方法であって、複数の演奏単位を含む第１演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、第２演奏情報を取得し、前記学習モデルを用いて、前記第２演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する。

　本発明によれば、演奏情報に対する評価が適切に推論される。

本発明の実施形態に係る情報処理システムを示す全体構成図である。本発明の実施形態に係る電子楽器のハードウェア構成を示すブロック図である。本発明の実施形態に係る制御装置のハードウェア構成を示すブロック図である。本発明の実施形態に係るサーバのハードウェア構成を示すブロック図である。本発明の実施形態における情報処理システムの機能的構成を示すブロック図である。本発明の実施形態における機械学習処理を示すシーケンス図である。本発明の実施形態における推論提示処理を示すシーケンス図である。

　以下、本発明の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。

　図１は、本発明の実施形態に係る情報処理システムＳを示す全体構成図である。図１に示すように、本実施形態の情報処理システムＳは、電子楽器１００、制御装置２００、及びサーバ３００を有する。

　電子楽器１００は、ユーザが楽曲を演奏する際に用いる装置である。電子楽器１００は、例えば、電子ピアノ等の電子鍵盤楽器であってもよく、エレキギター等の電子弦楽器であってもよく、ウィンドシンセサイザ等の電子管楽器であってもよい。

　制御装置２００は、ユーザが電子楽器１００の設定に関する操作を行う際に用いる装置であって、例えば、タブレット端末やスマートフォン、パーソナルコンピュータ（ＰＣ）等の情報端末である。電子楽器１００及び制御装置２００は、無線又は有線によって互いに通信できる。なお、制御装置２００と電子楽器１００とが一体的に構成されていてもよい。

　サーバ３００は、制御装置２００とデータを送受信するクラウドサーバであって、ネットワークＮＷを介して制御装置２００と通信できる。サーバ３００は、クラウドサーバには限らず、ローカルネットワークのサーバであってもよい。また、本実施形態のサーバ３００の機能は、クラウドサーバとローカルネットワークのサーバとの協働動作により実現されてもよい。

　本実施形態の情報処理システムＳにおいて、複数のフレーズＦ（演奏単位）を含む演奏情報Ａと、複数のフレーズＦと関連付けられる評価情報Ｂとの関係を機械学習した学習モデルＭに対して、推論対象の演奏情報Ａを入力することによって、入力された演奏情報Ａに含まれる複数のフレーズＦごとの評価が推論される。サーバ３００が機械学習処理によって学習モデルＭを訓練し、訓練された学習モデルＭを用いて制御装置２００が推論処理を実行する。

　図２は、電子楽器１００のハードウェア構成を示すブロック図である。図２に示すように、電子楽器１００は、ＣＰＵ（Central Processing Unit）１０１、ＲＡＭ（Random Access Memory）１０２、ストレージ１０３、演奏操作部１０４、設定操作部１０５、表示部１０６、音源部１０７、サウンドシステム１０８、送受信部１０９、及びバス１１０を有する。

　ＣＰＵ１０１は、電子楽器１００における種々の演算を実行する処理回路である。ＲＡＭ１０２は、揮発性の記憶媒体であって、ＣＰＵ１０１が使用する設定値を記憶する共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ１０３は、不揮発性の記憶媒体であって、ＣＰＵ１０１によって用いられる種々のプログラム及びデータを記憶する。

　演奏操作部１０４は、ユーザによる楽曲の演奏に相当する演奏操作を受け付けて楽曲を示す演奏操作情報（例えば、ＭＩＤＩデータ）を生成し、ＣＰＵ１０１に供給する要素であって、例えば、電子鍵盤である。

　設定操作部１０５は、ユーザからの設定操作を受け付けて操作データを生成しＣＰＵ１０１に供給する要素であって、例えば、操作スイッチである。

　表示部１０６は、楽器設定情報等の種々の情報を表示する要素であって、例えば、電子楽器１００が有するディスプレイに対して映像信号を送信する。

　音源部１０７は、ＣＰＵ１０１から供給された演奏操作情報及び設定されているパラメータに基づいてサウンド信号を生成し、サウンドシステム１０８に入力する。

　サウンドシステム１０８は、アンプ及びスピーカによって構成され、音源部１０７から入力されたサウンド信号に対応する音を発生させる。

　送受信部１０９は、制御装置２００とデータを送受信する要素であって、例えば、近距離無線通信に用いられるBluetooth（登録商標）モジュールである。

　バス１１０は、上記した電子楽器１００のハードウェア要素を相互に接続する信号伝送路（システムバス）である。

　図３は、制御装置２００のハードウェア構成を示すブロック図である。図３に示すように、制御装置２００は、ＣＰＵ２０１、ＲＡＭ２０２、ストレージ２０３、入出力部２０４、送受信部２０５、及びバス２０６を有する。

　ＣＰＵ２０１は、制御装置２００における種々の演算を実行する処理回路である。ＲＡＭ２０２は、揮発性の記憶媒体であって、ＣＰＵ２０１が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ２０３は、不揮発性の記憶媒体であって、ＣＰＵ２０１によって用いられる種々のプログラム及びデータを記憶する。

　入出力部２０４は、制御装置２００に対するユーザの操作を受け付けると共に種々の情報を表示する要素（ユーザインタフェース）であって、例えば、タッチパネルによって構成される。

　送受信部２０５は、他の装置（電子楽器１００、サーバ３００等）とデータを送受信する要素である。送受信部２０５は、複数のモジュール（例えば、電子楽器１００との間で行われる近距離無線通信用のBluetooth（登録商標）モジュール及びサーバ３００との通信用のWi-Fi（登録商標）モジュール）を含み得る。

　バス２０６は、上記した制御装置２００のハードウェア要素を相互に接続する信号伝送路である。

　図４は、サーバ３００のハードウェア構成を示すブロック図である。図４に示すように、サーバ３００は、ＣＰＵ３０１、ＲＡＭ３０２、ストレージ３０３、入力部３０４、出力部３０５、送受信部３０６、及びバス３０７を有する。

　ＣＰＵ３０１は、サーバ３００における種々の演算を実行する処理回路である。ＲＡＭ３０２は、揮発性の記憶媒体であって、ＣＰＵ３０１が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ３０３は、不揮発性の記憶媒体であって、ＣＰＵ３０１によって用いられる種々のプログラム及びデータを記憶する。

　入力部３０４は、サーバ３００に対する操作を受け付ける要素であって、例えば、サーバ３００に接続されたキーボード及びマウスからの入力信号を受け付ける。

　出力部３０５は、種々の情報を表示する要素であって、例えば、サーバ３００に接続された液晶ディスプレイに対して映像信号を出力する。

　送受信部３０６は、制御装置２００とデータを送受信する要素であって、例えば、ネットワークカード（ＮＩＣ）である。

　バス３０７は、上記したサーバ３００のハードウェア要素を相互に接続する信号伝送路である。

　上記した各装置１００，２００，３００のＣＰＵ１０１，２０１，３０１が、ストレージ１０３，２０３，３０３に格納されているプログラムをＲＡＭ１０２，２０２，３０３に読み出して実行することによって、以下の機能ブロック（制御部１５０，２５０，３５０等）及び本実施形態に係る種々の処理が実現される。上記した各ＣＰＵは、シングルコアでもよく、同じ又は異なるアーキテクチャーの複数コアでも良い。各ＣＰＵは、通常のＣＰＵに限らず、ＤＳＰや推論プロセッサであってもよく、或いは、それらの２以上の任意の組み合わせであっても良い。また、本実施形態に係る種々の処理は、ＣＰＵやＤＳＰ、推論プロセッサ、ＧＰＵ等の１以上のプロセッサがプログラムを実行することにより実現されてもよい。

　図５は、本発明の実施形態に係る情報処理システムＳの機能的構成を示すブロック図である。

　電子楽器１００は、制御部１５０及び記憶部１６０を有する。制御部１５０は、電子楽器１００の動作を統合的に制御する機能ブロックである。記憶部１６０は、ＲＡＭ１０２及びストレージ１０３によって構成され、制御部１５０によって用いられる種々のデータを記憶する。制御部１５０は、サブ機能ブロックとして、演奏取得部１５１を有する。

　演奏取得部１５１は、ユーザの演奏操作に従って演奏操作部１０４が生成した演奏操作情報を取得する機能ブロックである。演奏操作情報は、ユーザの演奏する複数の音のそれぞれの発音タイミング及び音高を示す情報である。加えて、演奏操作情報は、各音の長さや強度を示す情報を含んでもよい。すなわち、演奏取得部１５１は、取得した演奏操作情報を、音源部１０７に供給するのに加え、送受信部１０９を介して制御装置２００（演奏受信部２５２）に供給する。

　制御装置２００は、制御部２５０及び記憶部２６０を有する。制御部２５０は制御装置２００の動作を統合的に制御する機能ブロックである。記憶部２６０は、ＲＡＭ２０２及びストレージ２０３によって構成され、制御部２５０によって用いられる種々のデータを記憶する。制御部２５０は、サブ機能ブロックとして、認証部２５１、演奏受信部２５２、評価取得部２５３、データ前処理部２５４、推論処理部２５５、及び提示部２５６を有する。

　認証部２５１は、サーバ３００（サーバ認証部３５１）と協働してユーザを認証する機能ブロックである。認証部２５１は、ユーザが入出力部２０４を用いて入力したユーザ識別子及びパスワード等の認証情報をサーバ３００に送信し、サーバ３００から受信した認証結果に基づいてユーザのアクセスを許可又は拒否する。認証部２５１は、認証された（アクセスが許可された）ユーザのユーザ識別子を他の機能ブロックに供給することができる。

　演奏受信部２５２は、電子楽器１００（演奏取得部１５１）から供給された演奏操作情報を受信して演奏単位であるフレーズＦに分解し、複数のフレーズＦを含む演奏情報Ａを取得する機能ブロックである。演奏受信部２５２は、任意のフレーズ検出手法を用いて、演奏操作情報に示される楽曲を複数のフレーズＦに分解できる。フレーズ検出手法としては、例えば、連続する演奏の切れ目に基づく検出、メロディパターンに基づく検出、コード進行パターンに基づく検出等を用いることができる。或いは、フレーズ検出手法として、２以上のフレーズ検出手法の組み合わせ手法が用いられてもよい。また、フレーズ検出手法として、ルールベースのフレーズ検出や、ニューラルネットワークを用いたフレーズ検出が用いられてもよい。演奏情報Ａは、フレーズＦに含まれる複数の音の各々の発音タイミングおよび音高を示す情報であって、ユーザによる楽曲の演奏を表現する高次元の時系列データである。

　演奏受信部２５２は、取得した演奏情報Ａを記憶部２６０に格納する、又はデータ前処理部２５４に供給する。なお、演奏受信部２５２は、認証部２５１から供給されたユーザ識別子を演奏情報Ａに付与して記憶部２６０に格納することができる。加えて、演奏受信部２５２は、ユーザ識別子を付与した演奏情報Ａを、送受信部２０５を介してサーバ３００に送信する。

　評価取得部２５３は、ユーザによって入力されるフレーズＦの評価を示す評価情報Ｂを生成する機能ブロックである。ユーザは、入出力部２０４を操作することによって演奏情報Ａに含まれる各フレーズＦに評価を付与できる。評価の付与は、楽曲の演奏（換言すると、演奏情報Ａの取得）と並行して実行されてもよいし、楽曲の演奏が終了した後に別途実行されてもよい。すなわち、ユーザによる評価は、リアルタイムな評価でも事後評価でもよい。評価情報Ｂは、複数のフレーズＦと関連付けられたデータであって、それぞれ、１つのフレーズを識別する識別データと、そのフレーズＦの評価を示す評価ラベルとを含んでいる。評価ラベルは、５段階の評価（例えば、星の数）を示す値であってよい。識別データは、フレーズＦを直接指定するデータには限らず、フレーズＦに係る絶対時間や相対時間であってもよい。

　評価取得部２５３は、生成した評価情報Ｂを記憶部２６０に格納する。なお、評価取得部２５３は、認証部２５１から供給されたユーザ識別子を評価情報Ｂに付与して記憶部２６０に格納することができる。評価取得部２５３は、ユーザ識別子を付与した評価情報Ｂを、送受信部２０５を介してサーバ３００に送信する。

　データ前処理部２５４は、記憶部２６０に記憶されている演奏情報Ａ又は演奏受信部２５２から供給された演奏情報Ａに対して、学習モデルＭによる推論に適した形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。

　推論処理部２５５は、後述される学習処理部３５３によって訓練された学習モデルＭに対して、前処理された演奏情報Ａ（複数のフレーズＦ）を入力データとして入力することによって、演奏情報Ａに含まれるフレーズＦごとの評価を推論する機能ブロックである。本実施形態の学習モデルＭには、任意の機械学習モデルが採用され得る。好適には、時系列データに適合した回帰型ニューラルネットワーク（ＲＮＮ）及びその派生物（長・短期記憶（ＬＳＴＭ）、ゲート付き回帰型ユニット（ＧＲＵ）等）が学習モデルＭに採用される。

　提示部２５６は、推論処理部２５５によって推論されたフレーズＦごとの評価に基づいて、音楽レッスンに関する情報をユーザに提示する機能ブロックである。提示部２５６は、フレーズＦごとの評価に基づき選択された練習すべき箇所の情報を、例えば入出力部２０４に表示させる。また、提示部２５６は、他の装置、例えば電子楽器１００の表示部１０６に上記情報を表示させてもよい。

　サーバ３００は、制御部３５０及び記憶部３６０を有する。制御部３５０は、サーバ３００の動作を統合的に制御する機能ブロックである。記憶部３６０は、ＲＡＭ３０２及びストレージ３０３によって構成され、制御部３５０によって用いられる種々のデータ（特に、制御装置２００から供給された演奏情報Ａ及び評価情報Ｂ）を記憶する。なお、記憶部３６０が、複数のユーザがそれぞれ電子楽器１００及び制御装置２００を用いることで生成された演奏情報Ａ及び評価情報Ｂを格納すると好適である。制御部３５０は、サブ機能ブロックとして、サーバ認証部３５１、データ前処理部３５２、学習処理部３５３、及びモデル配布部３５４を有する。

　サーバ認証部３５１は、制御装置２００（認証部２５１）と協働してユーザを認証する機能ブロックである。サーバ認証部３５１は、制御装置２００から供給された認証情報が記憶部３６０に格納されている認証情報と一致するか否かを判定し、認証結果（許可又は拒否）を制御装置２００に送信する。

　データ前処理部３５２は、記憶部３６０に記憶されている演奏情報Ａ及び評価情報Ｂに対して、学習モデルＭの訓練（機械学習）にした形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。

　学習処理部３５３は、演奏情報Ａ及び評価情報Ｂに付与されたユーザ識別子を参照し、データ前処理後の演奏情報Ａ（複数のフレーズＦ）を入力データとし、データ前処理後の評価情報Ｂを教師データとして用いて、ユーザ識別子が示す特定のユーザ向けに学習モデルＭを訓練する機能ブロックである。なお、特定のユーザ向けの学習モデルＭの初期データとして、特定のユーザ以外の多量の演奏情報Ａ及び評価情報Ｂを用いて訓練がなされたベース学習モデルを用いると好適である。単一のユーザが生成し得る情報量は一般的に限定されており比較的少ないからである。

　モデル配布部３５４は、学習処理部３５３が訓練した学習モデルＭを、ユーザ識別子が示す特定のユーザの制御装置２００に供給する機能ブロックである。

　図６は、本発明の実施形態に係る情報処理システムＳにおける、あるユーザ識別子が示す特定のユーザ向けの機械学習処理を示すシーケンス図である。本実施形態の機械学習処理はサーバ３００のＣＰＵ３０１により実行される。なお、本実施形態の機械学習処理は、定期的に実行されてもよいし、ユーザ（制御装置２００）からの指示に応じて実行されてもよい。

　ステップＳ６１０において、データ前処理部３５２は、記憶部３６０に蓄積された、前記ユーザ識別子が示すユーザの演奏情報Ａ及び評価情報Ｂを含むデータセットを読み出して、データ前処理を実行する。

　ステップＳ６２０において、学習処理部３５３は、ステップＳ６１０にて前処理されたデータセットに基づいて、複数のフレーズＦを含む演奏情報Ａを入力データとし、複数のフレーズＦに関連付けられる評価情報Ｂを教師データとして用いて、学習モデルＭを訓練し、訓練された学習モデルＭを記憶部３６０に格納する。ここでは、学習モデルＭが、未知のフレーズの演奏情報Ａに対する、前記ユーザ識別子が示すユーザの評価情報Ｂを推定できるよう訓練される。例えば、学習モデルＭがニューラルネットワークシステムである場合、学習処理部３５３は、誤差逆伝搬法等を用いて、学習モデルＭの機械学習を行ってもよい。

　ステップＳ６３０において、モデル配布部３５４は、ステップＳ６２０にて訓練された学習モデルＭを、ネットワークＮＷを介して制御装置２００に供給する。制御装置２００の制御部２５０は、受信した学習モデルＭを記憶部２６０に格納する。

　図７は、本発明の実施形態に係る情報処理システムＳにおける、あるユーザ識別子が示す特定のユーザ向けの推論提示処理を示すシーケンス図である。本実施形態では、制御装置２００がフレーズＦごとの評価を推論し、推論した評価に基づいて音楽レッスンに関する情報を、そのユーザに提示する。

　ステップＳ７１０において、演奏受信部２５２は、演奏取得部１５１が取得した演奏操作情報を、そのユーザの電子楽器１００から受信しユーザ識別子を付与する。なお、演奏受信部２５２は、過去にそのユーザの電子楽器１００から受信しユーザ識別子を付与して記憶部２６０に格納された演奏操作情報を読み出してもよい。

　ステップＳ７２０において、演奏受信部２５２は、受信した演奏操作情報を演奏単位であるフレーズＦに分解し、複数のフレーズＦを含む演奏情報Ａを取得して、データ前処理部２５４に供給する。

　ステップＳ７３０において、データ前処理部２５４は、ステップＳ７２０にて演奏受信部２５２から供給された演奏情報Ａに対してデータ前処理を実行して、前処理後の演奏情報Ａを推論処理部２５５に供給する。

　ステップＳ７４０において、推論処理部２５５は、記憶部２６０に格納されている訓練済みの学習モデルＭに対して、データ前処理部２５４から供給された複数のフレーズＦを含む演奏情報Ａを入力データとして入力する。学習モデルＭは、入力された演奏情報Ａに含まれる複数のフレーズＦの各々に対するそのユーザの評価を推論（推定）する。評価を示す推論値は、離散値であっても連続値であってもよい。推論されたフレーズＦごとの評価は、提示部２５６に供給される。

　ステップＳ７５０において、提示部２５６は、ステップＳ７４０にて推論処理部２５５が推論したフレーズＦごとのそのユーザの評価に基づいて、音楽レッスンに関する情報を入出力部２０４に表示させる。ここで、提示部２５６は、推論された評価が高いフレーズＦほど、より高い頻度での練習箇所としてそのユーザに提示すると好適である。

　また、提示部２５６は、推論された評価の高い順に選択された所定数のフレーズＦにそれぞれ対応する練習フレーズをそのユーザに提示してもよい。提示候補である複数の練習フレーズは、記憶部２６０に記憶されていてもよいし、配信サーバ等の外部装置が有するデータベースに登録されていてもよい。練習フレーズは、例えば、フレーズＦにおける音楽的特徴（スケール、アルペジオ等）を実現するのに必要な基礎練習を示すフレーズであってよい。また、練習フレーズは、基礎練習を示すフレーズに限定されるものではなく、演奏グレードに適合する複数の練習フレーズが記憶部２６０又は外部装置のデータベースに登録されていてよい。

　以上のように、本実施形態の情報処理システムＳでは、訓練済みの学習モデルＭによって、演奏情報Ａに含まれる複数のフレーズＦにそれぞれ対応するそのユーザの評価が適切に推論される。制御装置２００は、推論されたフレーズＦごとの評価に基づいて、音楽レッスンに関する情報をそのユーザに提示する。結果として、そのユーザが高く評価すると推論されるフレーズＦに関するレッスンをそのユーザに提供することが可能となる。以上のように提供されたレッスンをそのユーザが受講することによって、そのユーザは、評価の高いフレーズをより上手に演奏するためのテクニックを磨くことが可能である。

　また、本実施形態の構成によれば、ユーザ識別子によって識別されるユーザごとに学習モデルＭが訓練されサーバ３００から供給される。したがって、そのユーザは、電子楽器１００や制御装置２００を交換しても、引き続きそのユーザに適合した学習モデルＭを使用し続けることができる。

　＜変形例＞
　以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施形態及び以下の例示から任意に選択された２以上の態様は、相互に矛盾しない限り適宜に併合され得る。

　上記した実施形態では、推論された評価が音楽レッスンに関する情報の提示に用いられている。しかしながら、推論された評価を、任意の用途に使用することが可能である。

　例えば、制御装置２００は、推論した評価に基づいて、ユーザが好む可能性が高い楽曲をユーザに提示してよい。より具体的には、制御装置２００の提示部２５６は、推論された評価の高い順に選択された所定数のフレーズに類似するフレーズを含む楽曲をユーザに提示してよい。

　また、例えば、制御装置２００は、演奏情報Ａに含まれる評価の高いフレーズＦをテーマとして自動的に選択し、選択されたフレーズＦをコード進行等に応じて展開し自動作曲を実行してよい。他に、制御装置２００がユーザの演奏に応じて即興演奏を行う演奏エージェントとして機能する構成において、制御装置２００は、自動生成した複数の候補フレーズのうち高い評価が推論されたフレーズを選択的に出力してよい。

　上記した実施形態では、楽曲に含まれる複数のフレーズＦが演奏単位として用いられているが、任意の経時的要素が演奏単位として用いられ得る。例えば、楽曲を所定時間おきに区分した複数の演奏区間が演奏単位として用いられてよい。

　サーバ３００の学習処理部３５３が行う学習モデルＭの訓練（機械学習）に用いる演奏情報Ａ及び評価情報Ｂは、その学習モデルＭを使用する単一のユーザからの情報のみであってもよいし、複数のユーザからの情報であってもよい。また、共通の属性を有する複数のユーザからの演奏情報Ａ及び評価情報Ｂを用いて学習モデルＭが訓練されてもよい。例えば、同じ演奏経験年数を有するユーザや、同じグレードの教室に所属しているユーザからの情報を用いて学習モデルＭが訓練されてもよい。

　サーバ３００の学習処理部３５３は、学習モデルＭに対して追加学習を適用してもよい。すなわち、学習処理部３５３は、複数のユーザからの演奏情報Ａ及び評価情報Ｂを用いて学習モデルＭを訓練した後、特定の単一ユーザからの演奏情報Ａ及び評価情報Ｂを用いたファインチューニングを学習モデルＭに対して実行してもよい。

　上記した実施形態では、サーバ３００から供給された学習モデルＭを用いて制御装置２００がフレーズＦごとの評価を推論する。しかしながら、評価の推論は任意の箇所にて実行されてよい。例えば、サーバ３００が、制御装置２００から供給された演奏情報Ａを前処理し、記憶部３６０に格納された学習モデルＭに前処理された演奏情報Ａを入力データとして入力することによって、演奏情報Ａに含まれるフレーズＦごとの評価を推論してもよい。本変形例の構成によれば、サーバ３００が、演奏情報Ａを入力データとした学習モデルＭによる推論処理を実行することができる。結果として、制御装置２００における処理負荷が軽減される。

　上記した実施形態では、演奏情報Ａが、楽曲の操作を示す演奏操作情報を電子楽器１００から受信した演奏受信部２５２によって生成される。しかしながら、演奏情報Ａは任意の手法によって及び任意の箇所において生成され得る。例えば、演奏受信部２５２が、演奏操作情報に代えて、音響情報（楽曲の演奏によって生じた波形データ）に対する解析（ピッチ解析、オーディオ解析、フレーズ解析）を実行して演奏情報Ａを生成してもよい。

　上記した実施形態では、評価情報Ｂが、入出力部２０４に対するユーザの指示操作に応じて制御装置２００の評価取得部２５３によって生成される。しかしながら、評価情報Ｂは、任意の手法によって及び任意の箇所において生成され得る。例えば、電子楽器１００の制御部１５０に評価取得部２５３に相当する機能ブロックを設け、設定操作部１０５（例えば、評価ボタン）に対するユーザからの操作に応じて以上の機能ブロックが評価情報Ｂを生成してもよい。

　上記した実施形態の機械学習処理及び推論処理において、演奏情報Ａ以外の情報が更に入力データとして入力されてもよい。例えば、電子楽器１００を用いた楽曲の演奏に対する付随操作（電子ピアノのペダル操作、エレキギターのエフェクタ操作等）を示す付随情報が演奏情報Ａと共に学習モデルＭに入力されてもよい。以上の付随情報は、演奏取得部１５１によって更に取得され演奏情報Ａに付加されると好適である。

　また、上述した実施形態の電子楽器１００が制御装置２００の機能を有していてもよいし、制御装置２００が電子楽器１００の機能を有していてもよい。

　なお、本発明を達成するためのソフトウェアによって表される各制御プログラムを記憶した記憶媒体を、各装置に読み出すことによって同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本発明を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。なお、これらの場合の記憶媒体としては、ＲＯＭのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード等を用いることができる。「非一過性のコンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含む。

　１００　電子楽器、　１５０　制御部、　１６０　記憶部、　２００　制御装置、　２５０　制御部、　２６０　記憶部、　３００　サーバ、　３５０　制御部、　３６０　記憶部、　Ａ　演奏情報、　Ｂ　評価情報、　Ｆ　フレーズ（演奏単位）、　Ｍ　学習モデル、　Ｓ　情報処理システム

Claims

　複数の演奏単位を含む第１演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、
　第２演奏情報を取得し、
　前記学習モデルを用いて、前記第２演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する、コンピュータによって実現される方法。
　前記演奏単位の各々は、楽曲に含まれる各フレーズに対応し、
　前記演奏情報は、前記演奏単位に含まれる複数の音の発音タイミングおよび音高を示し、
　前記評価情報は、１つのフレーズを識別する識別データと、当該フレーズの評価を示す評価ラベルとを含む、請求項１に記載の方法。
　推論された前記評価が高い前記フレーズほどより高い頻度での練習箇所としてユーザに提示する、請求項２に記載の方法。
　推論された前記評価の高い順に選択された所定数の前記フレーズにそれぞれ対応する練習フレーズをユーザに提示する、請求項２に記載の方法。
　推論された前記評価の高い順に選択された所定数の前記フレーズに類似するフレーズを含む楽曲をユーザに提示する、請求項２に記載の方法。
　プログラムを記憶するメモリと、
　前記プログラムを実行する１以上のプロセッサと、を備え、
　前記１以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、
　複数の演奏単位を含む第１演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、
　第２演奏情報を取得し、
　前記学習モデルを用いて、前記第２演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する、システム。
　前記演奏単位の各々は、楽曲に含まれる各フレーズに対応し、
　前記演奏情報は、前記演奏単位に含まれる複数の音の発音タイミングおよび音高を示し、
　前記評価情報は、１つのフレーズを識別する識別データと、当該フレーズの評価を示す評価ラベルとを含む、請求項６に記載のシステム。
　前記１以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、推論された前記評価が高い前記フレーズほどより高い頻度での練習箇所としてユーザに提示する、請求項７に記載のシステム。
　前記１以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、推論された前記評価の高い順に選択された所定数の前記フレーズにそれぞれ対応する練習フレーズをユーザに提示する、請求項７に記載のシステム。
　前記１以上のプロセッサが前記メモリに記憶された前記プログラムを実行することにより、推論された前記評価の高い順に選択された所定数の前記フレーズに類似するフレーズを含む楽曲をユーザに提示する、請求項７に記載のシステム。
　コンピュータに、
　複数の演奏単位を含む第１演奏情報と、複数の前記演奏単位と関連付けられる評価情報との関係を学習した学習モデルを取得し、
　第２演奏情報を取得し、
　前記学習モデルを用いて、前記第２演奏情報を処理して、当該演奏情報に含まれる複数の前記演奏単位ごとの評価を推論する、処理を実行させるためのプログラム。