WO2022190453A1

WO2022190453A1 - 運指提示装置、訓練装置、運指提示方法および訓練方法

Info

Publication number: WO2022190453A1
Application number: PCT/JP2021/040273
Authority: WO
Inventors: 正博鈴木
Original assignee: ヤマハ株式会社
Priority date: 2021-03-09
Filing date: 2021-11-01
Publication date: 2022-09-15
Also published as: JPWO2022190453A1; CN116940978A

Abstract

提示運指提示装置は、受付部および推定部を備える。受付部は、複数の音符からなる音符列を含む時系列データを受け付ける。推定部は、訓練済モデルを用いて、指情報を推定する。指情報は、受付部により受け付けられた音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す。あるいは、推定部は、訓練済モデルを用いて、音符情報を推定する。音符情報は、受付部により受け付けられた音符列のうち、運指を付与する対象となる音符を示す。

Description

運指提示装置、訓練装置、運指提示方法および訓練方法

　本発明は、楽器を演奏する際の運指を提示する運指提示装置、訓練装置、運指提示方法および訓練方法に関する。

　楽器の演奏の練習を補助するための装置が知られている。例えば、特許文献１に記載された情報処理装置においては、演奏者の演奏技術レベルが算出され、算出された演奏技術レベルに基づいて、演奏者に演奏可能な楽曲が提示される。しかしながら、演奏者が未熟である場合には、各音符を楽器により演奏する際の指使い（以下、運指と呼ぶ。）を適切に決めることは容易ではない。これに対し、特許文献２には、音符系列の各音符での運指を確率モデルに基づいて決定する運指決定方法が記載されている。
特開２０１３－０８３８４５号公報特開２００７－２４１０３４号公報

　特許文献２によれば、演奏者は、確率モデルに基づいた楽器演奏における運指を認識することができる。しかしながら、現実的には運指の組み合わせは無数に存在し、楽曲を演奏するための最適な運指は１つではない。そのため、より適切な運指が提示されることが望まれる。

　本発明の目的は、楽器を演奏する際の適切な運指を提示することが可能な運指提示装置、訓練装置、運指提示方法および訓練方法を提供することである。

　本発明の一局面に従う運指提示装置は、複数の音符からなる音符列を含む時系列データを受け付ける受付部と、訓練済モデルを用いて、音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す指情報、または音符列から運指を付与する対象となる音符を示す音符情報を推定する推定部とを備える。

　本発明の他の局面に従う訓練装置は、複数の音符からなる参照音符列を含む入力時系列データを取得する第１の取得部と、参照音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す出力指情報、または参照音符列から運指を付与する対象となる音符を示す出力音符情報を取得する第２の取得部と、入力時系列データと出力指情報または出力音符情報との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える。

　本発明のさらに他の局面に従う運指提示方法は、複数の音符からなる音符列を含む時系列データを受け付け、訓練済モデルを用いて、音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す指情報、または音符列から運指を付与する対象となる音符を示す音符情報を推定し、コンピュータにより実行される。

　本発明のさらに他の局面に従う訓練方法は、複数の音符からなる参照音符列を含む入力時系列データを取得し、参照音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す出力指情報、または参照音符列から運指を付与する対象となる音符を示す出力音符情報を取得し、入力時系列データと出力指情報または出力音符情報との間の入出力関係を習得した訓練済モデルを構築し、コンピュータにより実行される。

　本発明によれば、楽器を演奏する際の適切な運指を提示することができる。

図１は本発明の第１の実施の形態に係る運指提示装置および訓練装置を含む処理システムの構成を示すブロック図である。図２は各訓練データの一例を示す図である。図３は訓練装置および運指提示装置の構成を示すブロック図である。図４は表示部に表示される補助用楽譜の一例を示す。図５は図３の訓練装置による訓練処理の一例を示すフローチャートである。図６は図３の運指提示装置による運指提示処理の一例を示すフローチャートである。図７は入力時系列データの他の例を示す図である。図８は変形例における入力時系列データの一例を示す図である。図９は変形例における出力指情報の一例を示す図である。図１０は第２の実施の形態における入力時系列データの一例を示す図である。図１１は第３の実施の形態における出力指情報の一例を示す図である。図１２は変形例における運指提示処理の一例を示すフローチャートである。図１３は運指提示処理のステップＳ２４で推定される指情報の一例を示す図である。

　［１］第１の実施の形態
　（１）処理システムの構成
　以下、本発明の実施の形態に係る運指提示装置、訓練装置、運指提示方法および訓練方法について図面を用いて詳細に説明する。図１は、本発明の第１の実施の形態に係る運指提示装置および訓練装置を含む処理システムの構成を示すブロック図である。図１に示すように、処理システム１００は、ＲＡＭ（ランダムアクセスメモリ）１１０、ＲＯＭ（リードオンリメモリ）１２０、ＣＰＵ（中央演算処理装置）１３０、記憶部１４０、操作部１５０および表示部１６０を備える。

　処理システム１００は、パーソナルコンピュータ、タブレット端末またはスマートフォン等のコンピュータにより実現される。あるいは、処理システム１００は、イーサネット等の通信路により接続された複数のコンピュータの共同動作により実現されてもよいし、電子ピアノ等の演奏機能を備えた電子楽器により実現されてもよい。

　ＲＡＭ１１０、ＲＯＭ１２０、ＣＰＵ１３０、記憶部１４０、操作部１５０および表示部１６０は、バス１７０に接続される。ＲＡＭ１１０、ＲＯＭ１２０およびＣＰＵ１３０により訓練装置１０および運指提示装置２０が構成される。本実施の形態では、訓練装置１０と運指提示装置２０とは共通の処理システム１００により構成されるが、別個の処理システムにより構成されてもよい。

　ＲＡＭ１１０は、例えば揮発性メモリからなり、ＣＰＵ１３０の作業領域として用いられる。ＲＯＭ１２０は、例えば不揮発性メモリからなり、訓練プログラムおよび運指提示プログラムを記憶する。ＣＰＵ１３０は、ＲＯＭ１２０に記憶された訓練プログラムをＲＡＭ１１０上で実行することにより訓練処理を行う。また、ＣＰＵ１３０は、ＲＯＭ１２０に記憶された運指提示プログラムをＲＡＭ１１０上で実行することにより運指提示処理を行う。訓練処理および運指提示処理の詳細については後述する。

　訓練プログラムまたは運指提示プログラムは、ＲＯＭ１２０ではなく記憶部１４０に記憶されてもよい。あるいは、訓練プログラムまたは運指提示プログラムは、コンピュータが読み取り可能な記憶媒体に記憶された形態で提供され、ＲＯＭ１２０または記憶部１４０にインストールされてもよい。あるいは、処理システム１００がインターネット等のネットワークに接続されている場合には、当該ネットワーク上のサーバ（クラウドサーバを含む。）から配信された訓練プログラムまたは運指提示プログラムがＲＯＭ１２０または記憶部１４０にインストールされてもよい。

　記憶部１４０は、ハードディスク、光学ディスク、磁気ディスクまたはメモリカード等の記憶媒体を含み、訓練済モデルＭおよび複数の訓練データＤを記憶する。訓練済モデルＭまたは各訓練データＤは、記憶部１４０に記憶されず、コンピュータが読み取り可能な記憶媒体に記憶されていてもよい。あるいは、処理システム１００がネットワークに接続されている場合には、訓練済モデルＭまたは各訓練データＤは、当該ネットワーク上のサーバに記憶されていてもよい。

　（２）訓練データ
　訓練済モデルＭは、運指提示装置２０の使用者（以下、演奏者と呼ぶ。）が楽器により楽曲を演奏する際の運指を提示するために訓練された機械学習モデルであり、複数の訓練データＤを用いて構築される。訓練装置１０の使用者は、操作部１５０を操作することにより、訓練データＤを生成することができる。訓練データＤは、参照演奏者の演奏知識または演奏スタイル等に基づいて作成されたデータである。参照演奏者は、楽曲の演奏に関して比較的高い技量を有する。参照演奏者は、楽曲の演奏における演奏者の指導者または師であってもよい。

　訓練データＤは、入力時系列データと出力指情報との組を示す。入力時系列データは、複数の音符からなる参照音符列を示す。入力時系列データは楽譜の画像を示す画像データであってもよい。出力指情報は、参照音符列の各音符を楽器により演奏する際に使用する参照演奏者の指を示し、参照音符列を演奏する際の運指を提示するために用いることができる。出力指情報は、各指に付与された固有の番号であってもよい。本例では、親指、人指し指、中指、薬指および小指に番号「１」～「５」がそれぞれ付与される。

　ここで、楽曲を演奏するための最適な運指は、演奏者の身体的特徴または演奏者による演奏の流儀により異なる。そこで、本実施の形態においては、入力時系列データは、参照音符列を演奏する参照演奏者の分類（カテゴリ）を示す参照演奏者識別子をさらに含む。参照演奏者識別子は、参照演奏者の身体的特徴と参照演奏者による演奏の流儀との少なくとも一方ごとに異なるように決定される。参照演奏者の身体的特徴は、例えば参照演奏者の手の大きさ（指の長さ）、年齢、性別または大人か子供かの区別を含む。

　図２は、各訓練データＤの一例を示す図である。図２の例は、参照演奏者がピアノを演奏する際の入力時系列データおよび出力指情報の一部を示す。図２に示すように、入力時系列データＡは、要素Ａ０～Ａ１６を含む。要素Ａ０は、参照演奏者識別子に対応し、参照演奏者の身体的特徴と参照演奏者による演奏の流儀との少なくとも一方ごとに異なる文字列により表される。要素Ａ１～Ａ１６は、参照音符列に対応する。本例では、要素Ａ０は入力時系列データＡにおける先頭、すなわち参照音符列（要素Ａ１～Ａ１６）の前に配置されるが、入力時系列データＡにおける任意の位置に配置されてもよい。

　要素Ａ１，Ａ３，Ａ５，…，Ａ１５における“Ｌ”は左手を意味し、数字は鍵に付与された番号を意味し、“ｏｎ”および“ｏｆｆ”はそれぞれ押鍵および離鍵を意味する。要素Ａ２，Ａ４，Ａ６，…，Ａ１６における“ｗａｉｔ”は待機を意味し、数字は時間の長さを意味する。したがって、要素Ａ１～Ａ４は、番号「６６」の鍵を押して１３単位時間だけ維持した後、番号「６６」の鍵を離して２単位時間だけ維持することを意味する。

　出力指情報Ｂは、入力時系列データＡの要素Ａ０～Ａ１６にそれぞれ対応する要素Ｂ０～Ｂ１６を含む。要素Ｂ０は、参照演奏者識別子を示し、要素Ａ０と同一の文字列により表される。要素Ｂ１，Ｂ３，Ｂ５，…，Ｂ１５における“Ｌ”は左手を意味し、数字は指に付与された番号を意味し、“ｄｏｗｎ”および“ｕｐ”はそれぞれ押し上げおよび押し下げを意味する。要素Ｂ２，Ｂ４，Ｂ６，…，Ｂ１６における“ｗａｉｔ”は待機を意味し、数字は時間の長さを意味する。したがって、要素Ｂ１～Ｂ４は、左手の中指を押し下げて１３単位時間だけ待機した後、左手の中指を押し上げて２単位時間だけ維持することを意味する。

　図２の訓練データＤは、左手の運指を示すために生成されるが、実施の形態はこれに限定されない。訓練データＤは、右手の運指を示すために生成されてもよいし、左手および右手の各々の運指を示すために生成されてもよい。右手の運指を示すための入力時系列データＡおよび出力指情報Ｂの要素においては、文字「Ｌ」ではなく例えば「Ｒ」が使用されてもよい。

　（３）訓練装置および運指提示装置
　図３は、訓練装置１０および運指提示装置２０の構成を示すブロック図である。図３に示すように、訓練装置１０は、機能部として、第１の取得部１１、第２の取得部１２および構築部１３を含む。図１のＣＰＵ１３０が訓練プログラムを実行することにより、訓練装置１０の機能部が実現される。訓練装置１０の機能部の少なくとも一部は、電子回路等のハードウエアにより実現されてもよい。

　第１の取得部１１は、記憶部１４０等に記憶された各訓練データＤから入力時系列データＡを取得する。第２の取得部１２は、各訓練データＤから出力指情報Ｂを取得する。構築部１３は、各訓練データＤについて、第１の取得部１１により取得された入力時系列データＡを入力要素とし、第２の取得部１２により取得された出力指情報Ｂを出力要素とする機械学習を行う。複数の訓練データＤについて機械学習を繰り返すことにより、構築部１３は、入力時系列データＡと出力指情報Ｂとの間の入出力関係を示す訓練済モデルＭを構築する。

　本例では、構築部１３はＴｒａｎｓｆｏｒｍｅｒを訓練することにより訓練済モデルＭを構築するが、実施の形態はこれに限定されない。構築部１３は、時系列を扱う他の方式の機械学習モデルを訓練することにより訓練済モデルＭを構築してもよい。構築部１３により構築された訓練済モデルＭは、例えば記憶部１４０に記憶される。構築部１３により構築された訓練済モデルＭは、ネットワーク上のサーバ等に記憶されてもよい。

　運指提示装置２０は、機能部として、受付部２１、推定部２２および生成部２３を含む。図１のＣＰＵ１３０が運指提示プログラムを実行することにより、運指提示装置２０の機能部が実現される。運指提示装置２０の機能部の少なくとも一部は、電子回路等のハードウエアにより実現されてもよい。

　本実施の形態では、受付部２１は、複数の音符からなる音符列を含む時系列データを受け付ける。演奏者は、楽譜の画像を示す画像データを時系列データとして受付部２１に与えることができる。あるいは、演奏者は、操作部１５０を操作することにより時系列データを生成し、受付部２１に与えることができる。

　本例では、時系列データは、図２の入力時系列データＡと同様の構成を有し、音符列を演奏する演奏者の分類（カテゴリ）を示す演奏者識別子をさらに含む。演奏者識別子は、演奏者の身体的特徴と演奏者による演奏の流儀との少なくとも一方ごとに異なるように決定される。演奏者の身体的特徴は、例えば演奏者の手の大きさ、年齢、性別または大人か子供かの区別を含む。

　推定部２２は、記憶部１４０等に記憶された訓練済モデルＭを用いて指情報を推定する。指情報は、受付部２１により受け付けられた音符列の各音符を演奏する際に使用する演奏者の指を示し、音符列および演奏者識別子に基づいて推定される。指情報は、各指に付与された固有の番号であってもよい。生成部２３は、受付部２１により受け付けられた時系列データの音符列および推定部２２により推定された指情報に基づいて楽譜情報を生成する。

　表示部１６０には、生成部２３により生成された楽譜情報に基づいて補助用楽譜が表示される。図４は、表示部１６０に表示される補助用楽譜の一例を示す。図４に示すように、補助用楽譜には、推定部２２により推定された指情報が受付部２１により受け付けられた音符列の各音符に対応するように示される。図４の例では、指情報として一方の手の指の番号が示されている。

　左手または右手の指の番号の区別をする場合には、左手の指の番号の付近に「Ｌ」等の所定の文字が付され、右手の指の番号の付近に「Ｒ」等の他の所定の文字が付されてもよい。あるいは、左手の指の番号またはそれに対応する音符に赤色等の所定の色が付され、右手の指の番号またはそれに対応する音符に青色等の他の所定の色が付されてもよい。

　（４）訓練処理および運指提示処理
　図５は、図３の訓練装置１０による訓練処理の一例を示すフローチャートである。図５の訓練処理は、図１のＣＰＵ１３０が訓練プログラムを実行することにより行われる。まず、第１の取得部１１は、各訓練データＤから入力時系列データＡを取得する（ステップＳ１）。また、第２の取得部１２は、各訓練データＤから出力指情報Ｂを取得する（ステップＳ２）。ステップＳ１，Ｓ２は、いずれが先に実行されてもよいし、同時に実行されてもよい。

　次に、構築部１３は、各訓練データＤについて、ステップＳ１で取得された入力時系列データＡを入力要素とし、ステップＳ２で取得された出力指情報Ｂを出力要素として機械学習を行う（ステップＳ３）。続いて、構築部１３は、十分な機械学習が実行されたか否かを判定する（ステップＳ４）。機械学習が不十分な場合、構築部１３はステップＳ３に戻る。十分な機械学習が実行されるまで、パラメータが変化されつつステップＳ３，Ｓ４が繰り返される。機械学習の繰り返し回数は、構築される訓練済モデルＭが満たすべき品質条件に応じて変化する。

　十分な機械学習が実行された場合、構築部１３は、ステップＳ３の機械学習により習得した入力時系列データＡと出力指情報Ｂとの間の入出力関係を訓練済モデルＭとして保存する（ステップＳ５）。これにより、訓練処理が終了する。

　図６は、図３の運指提示装置２０による運指提示処理の一例を示すフローチャートである。図６の運指提示処理は、図１のＣＰＵ１３０が運指提示プログラムを実行することにより行われる。まず、受付部２１は、時系列データを受け付ける（ステップＳ１１）。次に、推定部２２は、訓練処理のステップＳ５で保存された訓練済モデルＭを用いて、ステップＳ１１で受け付けられた時系列データから指情報を推定する（ステップＳ１２）。

　その後、生成部２３は、ステップＳ１１で受け付けられた時系列データの音符列およびステップＳ１２で推定された指情報に基づいて楽譜情報を生成する（ステップＳ１３）。生成された楽譜情報に基づいて、補助用楽譜が表示部１６０に表示されてもよい。これにより、運指提示処理が終了する。

　（５）実施の形態の効果
　以上説明したように、本実施の形態に係る運指提示装置２０は、複数の音符からなる音符列を含む時系列データを受け付ける受付部２１と、訓練済モデルＭを用いて、音符列の各音符を楽器により演奏する際に使用する指を示す指情報を推定する推定部２２とを備える。この構成によれば、訓練済モデルＭを用いて、時系列データにおける複数の音符の時間的流れから適切な指情報が推定される。これにより、楽器を演奏する際の適切な運指を提示することができる。

　訓練済モデルＭは、複数の音符からなる参照音符列を含む入力時系列データＡと、参照音符列の各音符を楽器により演奏する際に使用する指を示す出力指情報Ｂとの間の入出力関係を習得した機械学習モデルであってもよい。この場合、時系列データから指情報を容易に推定することができる。

　時系列データは、音符列を演奏する演奏者を示す演奏者識別子をさらに含み、推定部２２は、演奏者識別子に基づいて指情報を推定してもよい。この場合、演奏者に応じて適切な指情報を推定することができる。

　演奏者識別子は、演奏者の身体的特徴に対応するように決定されてもよい。この場合、演奏者の身体的特徴に応じて適切な指情報を推定することができる。

　演奏者識別子は、演奏者による演奏の流儀に対応するように決定されてもよい。この場合、演奏者による演奏の流儀に応じて適切な指情報を推定することができる。

　運指提示装置２０は、音符列の各音符に対応するように指情報が付された補助用楽譜を示す楽譜情報を生成する生成部をさらに備えてもよい。この場合、演奏者は、補助用楽譜を視認することにより、音符列の各音符に対応する指を容易に認識することができる。

　本実施の形態に係る訓練装置１０は、複数の音符からなる参照音符列を含む入力時系列データＡを取得する第１の取得部１１と、参照音符列の各音符を楽器により演奏する際に使用する指を示す出力指情報Ｂを取得する第２の取得部１２と、入力時系列データＡと出力指情報Ｂとの間の入出力関係を習得した訓練済モデルＭを構築する構築部１３とを備える。この構成によれば、入力時系列データＡと出力指情報Ｂとの間の入出力関係を習得した訓練済モデルＭを容易に構築することができる。

　（６）訓練データの他の例
　本実施の形態において、入力時系列データＡは参照演奏者識別子を含み、時系列データは演奏者識別子を含むが、実施の形態はこれに限定されない。入力時系列データＡは、参照音符列を含めばよく、参照演奏者識別子を含まなくてもよい。同様に、時系列データは、音符列を含めばよく、演奏者識別子を含まなくてもよい。

　また、本実施の形態において、入力時系列データＡおよび出力指情報Ｂは、ＭＩＤＩ（Musical Instrument Digital Interface）規格における押鍵または離鍵等を示す、いわゆる動作ベースで記述されるが、実施の形態はこれに限定されない。入力時系列データＡおよび出力指情報Ｂは、他の方式で記述されてもよい。例えば、入力時系列データＡおよび出力指情報Ｂは、ＭＩＤＩ規格における音符の開始位置または音符の長さ等を示す、いわゆる音符ベースで記述されてもよい。時系列データおよび指情報についても同様である。

　図７は、入力時系列データＡの他の例を示す図である。図７の上段には、動作ベースで記述された入力時系列データＡ（Ａｘ）が示される。図７の中段には、音符ベースで記述された入力時系列データＡ（Ａｙ）が示される。入力時系列データＡｘと入力時系列データＡｙとは、同一の参照音符列（図７の下段に示される楽譜中の参照音符列）を含む。入力時系列データＡｘ，Ａｙにおける“ｂａｒ”および“ｂｅａｔ”は、参照音符列の拍節構造を示す要素である。

　図７に示すように、入力時系列データＡを音符ベースで記述することにより、入力時系列データＡの長さが短縮される。これにより、より長い入力時系列データＡを容易に処理することが可能になる。なお、入力時系列データＡに対応する出力指情報Ｂは、入力時系列データＡにおける音高の番号を示す要素（“ｎｏｔｅ＿○○”）の直後に指の番号を示す要素を挿入することにより記述することができる。

　あるいは、入力時系列データＡおよび出力指情報Ｂは、楽譜を表す方式により記述されてもよい。楽譜を表す方式により記述された入力時系列データＡおよび出力指情報Ｂの詳細については、以下の変形例において説明する。

　（７）変形例
　図８は、変形例における入力時系列データＡの一例を示す図である。図８の上段には、楽譜を表す方式により記述された入力時系列データＡ（Ａｚ）が示される。図８の下段には、入力時系列データＡにより表された楽譜が示される。図８の上段に示すように、入力時系列データＡｚは、複数の要素Ａ０～Ａ２４を含む。一部の要素は属性を有する。要素の属性は、当該要素の後部（アンダーバーの後）に記述される。

　要素Ａ０は、参照音符列に含まれる音符のうち運指を付与する音符の割合を示す。要素Ａ０は入力時系列データＡｚにおける先頭の前に配置されるが、入力時系列データＡｚにおける任意の位置に配置されてもよい。要素Ａ０における“ｆｉｎｇｅｒｒａｔｅ”の属性により、割合が指定される。本例における属性「５」は、１００％の割合を意味する。割合は、例えば２０～４０％または４０～６０％のように、範囲を有してもよいし、複数の範囲に分割されてもよい。

　要素Ａ１はパートを示す。要素Ａ１は要素Ａ０の直後に配置されるが、入力時系列データＡｚにおける任意の位置に配置されてもよい。要素Ａ１として、「Ｒ」および「Ｌ」は、それぞれ右手および左手のパートを示す。本例では、「Ｒ」の後に右手に対応する要素が配置される。その後に「Ｌ」が配置され、「Ｌ」の後に左手に対応する要素が配置される。「Ｒ」および右手に対応する要素は、左手に対応する要素の後に配置されてもよい。パートの区別がない場合、入力時系列データＡｚは要素Ａ１を含まない。

　要素Ａ２，Ａ１５，Ａ２４は、楽譜の小節線を示す。したがって、図８の例では、要素Ａ２における“ｂａｒ”と要素Ａ１５における“ｂａｒ”とにより区切られた範囲が第１小節に対応する。要素Ａ１５における“ｂａｒ”と要素Ａ２４における“ｂａｒ”とにより区切られた範囲が第２小節に対応する。

　要素Ａ３は、楽譜の音部記号を示す。要素Ａ３における“ｃｌｅｆ”の属性により、音部記号の種類が指定される。図８の例では、属性が“ｔｒｅｂｌｅ”であるため、要素Ａ３により音部記号としてト音記号が指定される。なお、属性が“ｂａｓｓ”である場合には、要素Ａ３により音部記号としてヘ音記号が指定される。

　要素Ａ４は、楽譜の拍子記号を示す。要素Ａ４における“ｔｉｍｅ”の属性により、拍子記号の種類が指定される。図８の例では、属性が“４／４”であるため、要素Ａ４により拍子記号として“４／４”が指定される。

　参照音符列における音符は、音高と音価との組により示される。音高は、要素Ａ５，Ａ９，Ａ１１，Ａ１３，Ａ１６，Ａ１８，Ａ２０における“ｎｏｔｅ”の属性により指定される。音価は、要素Ａ６，Ａ１０，Ａ１２，Ａ１４，Ａ１７，Ａ１９，Ａ２１における“ｌｅｎ”の属性により指定される。本例では、“ｌｅｎ＿１”が１拍に相当する。

　楽譜における音符の符幹の方向は、要素Ａ６，Ａ１０，Ａ１２，Ａ１４，Ａ１７，Ａ１９，Ａ２１における“ｌｅｎ”の他の属性により指定される。他の属性が“ｄｏｗｎ”の場合、符幹は符頭から下に延びる。他の属性が“ｕｐ”の場合、符幹は符頭から上に延びる。８分音符または１６分音符等の複数の音符が連桁によりつなげられる場合には、連桁の開始位置、中継位置および終了位置が、要素Ａ１０，Ａ１２，Ａ１４における“ｌｅｎ”のさらに他の属性“ｓｔａｒｔ”、“ｃｏｎｔｉｎｕｅ”および“ｓｔｏｐ”によりそれぞれ指定される。

　参照音符列における休符は、要素Ａ７，Ａ２２における“ｒｅｓｔ”により指定される。休符の音価は、要素Ａ８，Ａ２３における“ｌｅｎ”の属性により記述される。

　図８の例では、要素Ａ５，Ａ６は音符Ｎ１を示し、要素Ａ７，Ａ８は休符Ｒ１を示す。要素Ａ９，Ａ１０は音符Ｎ２を示し、要素Ａ１１，Ａ１２は音符Ｎ３を示し、要素Ａ１３，Ａ１４は音符Ｎ４を示す。要素Ａ１６，Ａ１７は音符Ｎ５を示し、要素Ａ１８，Ａ１９は音符Ｎ６を示す。要素Ａ２０，Ａ２１は音符Ｎ７を示し、要素Ａ２２，Ａ２３は休符Ｒ２を示す。

　図９は、変形例における出力指情報Ｂの一例を示す図である。図９の上段には、楽譜を表す方式により記述された出力指情報Ｂ（Ｂｚ）が示される。出力指情報Ｂｚは、図８の入力時系列データＡｚに対応する。図９の下段には、出力指情報Ｂｚにより表された楽譜が示される。

　図９の上段に示すように、出力指情報Ｂｚは、複数の要素Ｂ０～Ｂ２４を含む。また、出力指情報Ｂｚは、要素Ｂ５，Ｂ９，Ｂ１１，Ｂ１３，Ｂ１６，Ｂ１８，Ｂ２０の直後にそれぞれ配置された要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆをさらに含む。要素Ｂ０～Ｂ２４は、図８の入力時系列データＡｚの要素Ａ０～Ａ２４とそれぞれ同様である。そのため、図３の第１の取得部１１は、出力指情報Ｂｚから要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆを削除することにより、入力時系列データＡｚを取得することができる。

　要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆは、直前の要素Ｂ５，Ｂ９，Ｂ１１，Ｂ１３，Ｂ１６，Ｂ１８，Ｂ２０に対応する音符を楽器により演奏する際に使用する指の番号をそれぞれ示す。要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆにおける“ｆｉｎｇｅｒ”の属性により、指の番号が指定される。したがって、要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆにより、図９の下段に示すように、音符Ｎ１～Ｎ７を演奏する際に使用する指の番号「１」、「１」、「２」、「１」、「３」、「３」および「２」がそれぞれ楽譜に記載される。

　（８）変形例の効果
　第１の実施の形態の変形例においては、要素Ａ０の属性により、参照音符列に含まれる音符のうち運指を付与する音符の割合を任意に指定することができる。割合が１００％であるときには、推定部２２は、音符列に含まれる全部の音符についての指情報を推定する。この場合、入門レベルの演奏者が楽器を演奏する際の適切な運指を提示することができる。

　また、割合が１００％であるときには、生成部２３は、推定部２２により推定された指情報に基づいて、指の動きをアニメーション等により示す動画ファイルを生成してもよい。これにより、指の動きを可視化することができる。このような動画ファイルの生成は、図６の運指提示処理におけるステップＳ１３の前または後に実行されてもよいし、ステップＳ１３と並列的に実行されてもよいし、ステップＳ１３に代えて実行されてもよい。

　一方、割合が１００％未満であるときには、推定部２２は、音符列に含まれる音符のうち、運指を付与する対象となる一部の音符と、当該一部の音符についての指情報とを推定する。この場合、入門レベルよりも高い初級レベルまたは中級レベルの演奏者が楽器を演奏する際の適切な運指を提示することができる。この構成においては、出力指情報Ｂｚは、要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆの一部を含まない。

　また、割合が１００％未満であるときには、推定部２２は、指情報を推定せずに、音符列から運指を付与する対象となる音符を示す音符情報を推定してもよい。詳細は、後述する第３の実施の形態で説明する。

　［２］第２の実施の形態
　（１）処理システム
　第２の実施の形態における処理システム１００について、第１の実施の形態における処理システム１００と異なる点を説明する。図３の訓練装置１０において、第１の取得部１１および第２の取得部１２は、訓練データＤの入力時系列データＡおよび出力指情報Ｂをそれぞれ取得する。

　図１０は、第２の実施の形態における入力時系列データＡの一例を示す図である。図１０の上段には、楽譜を表す方式により記述された入力時系列データＡｚが示される。図１０の下段には、入力時系列データＡｚにより表された楽譜が示される。

　図１０の上段に示すように、入力時系列データＡｚは、複数の要素Ａ０～Ａ２４を含む。図１０の要素Ａ０～Ａ２４は、第１の実施の形態における変形例（図８）の要素Ａ０～Ａ２４とそれぞれ同様である。また、入力時系列データＡｚは、音符に対応する要素Ａ５，Ａ９，Ａ１１，Ａ１３，Ａ１６，Ａ１８，Ａ２０の一部の直後に配置された追加の要素を含む。図１０の例では、入力時系列データＡｚは、要素Ａ５，Ａ１１，Ａ１６，Ａ２０の直後にそれぞれ配置された要素Ａ５ｆ，Ａ１１ｆ，Ａ１６ｆ，Ａ２０ｆをさらに含む。

　要素Ａ５ｆ，Ａ１１ｆ，Ａ１６ｆ，Ａ２０ｆは、直前の要素Ａ５，Ａ１１，Ａ１６，Ａ２０に対応する音符を楽器により演奏する際に使用する指の番号をそれぞれ示す指情報（以下、基本指情報と呼ぶ。）である。要素Ａ５ｆ，Ａ１１ｆ，Ａ１６ｆ，Ａ２０ｆにおける“ｆｉｎｇｅｒ”の属性により、指の番号が指定される。したがって、要素Ａ５ｆ，Ａ１１ｆ，Ａ１６ｆ，Ａ２０ｆにより、図１０の下段に示すように、音符Ｎ１，Ｎ３，Ｎ５，Ｎ７を演奏する際に使用する指の番号「１」、「２」「３」および「２」がそれぞれ楽譜に記載される。

　本実施の形態における出力指情報Ｂｚは、第１の実施の形態における変形例（図９）の出力指情報Ｂｚと同様である。そのため、第１の取得部１１は、出力指情報Ｂｚから要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆの一部をランダムに削除することにより、入力時系列データＡｚを取得することができる。削除する要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆの割合は、訓練装置１０の使用者が図１の操作部１５０を操作することにより指定することができる。

　本例では、出力指情報Ｂｚから要素Ｂ９ｆ，Ｂ１３ｆ，Ｂ１８ｆが削除されることにより入力時系列データＡｚが取得される。削除されない要素Ｂ５ｆ，Ｂ１１ｆ，Ｂ１６ｆ，Ｂ２０ｆが、基本指情報である要素Ａ５ｆ，Ａ１１ｆ，Ａ１６ｆ，Ａ２０ｆとして残存する。

　図３の構築部１３は、上記の入力時系列データＡｚを入力要素とし、出力指情報Ｂｚを出力要素とする機械学習を行う。複数の訓練データＤについて機械学習が繰り返されることにより、入力時系列データＡｚと出力指情報Ｂｚとの間の入出力関係を示す訓練済モデルＭが構築される。

　運指提示装置２０においては、受付部２１が時系列データを受け付ける。時系列データは、音符列に含まれる音符のうち一部の音符を楽器により演奏する際に使用する指を示す基本指情報をさらに含む。推定部２２は、構築された訓練済モデルＭと、基本指情報とに基づいて、音符列に含まれる音符を楽器により演奏する際に使用する指を示す指情報を推定する。生成部２３は、時系列データの音符列および指情報に基づいて楽譜情報を生成する。

　（２）実施の形態の効果
　本実施の形態によれば、時系列データの音符列に含まれる音符のうち、一部の音符についての指情報（基本指情報）のみが既知であり、残りの音符についての指情報が与えられていない場合でも、残りの音符についての指情報が補完される。これにより、入門レベルの演奏者が楽器を演奏する際の適切な運指を提示することができる。生成部２３は、推定部２２により推定された指情報に基づいて、指の動きをアニメーション等により示す動画ファイルを生成してもよい。この場合、指の動きを可視化することができる。

　（３）変形例
　本実施の形態において、推定部２２は時系列データの音符列に含まれる全部の音符についての指情報を推定するが、実施の形態はこれに限定されない。音符列に含まれる音符のうち第１の割合の音符について指情報が与えられている場合において、推定部２２は、音符列に含まれる音符のうち第１の割合よりも大きい第２の割合の音符についての指情報を推定してもよい。この場合、初級レベルまたは中級レベルの演奏者が楽器を演奏する際の適切な運指を提示することができる。

　変形例においては、訓練データＤの出力指情報Ｂは、要素Ｂ５ｆ，Ｂ９ｆ，Ｂ１１ｆ，Ｂ１３ｆ，Ｂ１６ｆ，Ｂ１８ｆ，Ｂ２０ｆの一部を含まなくてもよい。例えば、入力時系列データＡｚが要素Ａ５ｆ，Ａ１１ｆ，Ａ１６ｆ，Ａ２０ｆを含む場合には、出力指情報Ｂは要素Ｂ５ｆ，Ｂ１１ｆ，Ｂ１６ｆ，Ｂ２０ｆを含む。一方、出力指情報Ｂは、要素Ｂ９ｆ，Ｂ１３ｆ，Ｂ１８ｆの一部を含まなくてもよい。

　［３］第３の実施の形態
　（１）処理システム
　第３の実施の形態における処理システム１００について、第１の実施の形態における処理システム１００と異なる点を説明する。本実施の形態においては、訓練データＤは、入力時系列データＡと出力音符情報との組を示す。図３の訓練装置１０において、第１の取得部１１および第２の取得部１２は、訓練データＤの入力時系列データＡおよび出力音符情報をそれぞれ取得する。出力音符情報の取得は、図５の音学習処理におけるステップＳ２に代えて実行される。

　本実施の形態における入力時系列データＡｚは、第１の実施の形態における変形例（図８）の入力時系列データＡｚと同様である。第１の取得部１１は、後述する図１１の出力音符情報Ｃｚから要素Ｃ９ｆ，Ｃ１１ｆ，Ｃ１６ｆを削除することにより、入力時系列データＡｚを取得することができる。

　図１１は、第３の実施の形態における出力音符情報Ｃの一例を示す図である。図１１の上段には、楽譜を表す方式により記述された出力音符情報Ｃ（Ｃｚ）が示される。図１１の下段には、出力音符情報Ｃｚにより表された楽譜が示される。

　図１１の上段に示すように、出力音符情報Ｃｚは、複数の要素Ｃ０～Ｃ２４を含む。図１１の要素Ｃ０～Ｃ２４は、第１の実施の形態における変形例（図９）の出力指情報Ｂｚの要素Ｂ０～Ｂ２４とそれぞれ同様である。また、出力音符情報Ｃｚは、音符に対応する要素Ｃ５，Ｃ９，Ｃ１１，Ｃ１３，Ｃ１６，Ｃ１８，Ｃ２０の一部の直後に配置された追加の要素を含む。

　本例では、要素Ｃ０における“ｆｉｎｇｅｒｒａｔｅ”の属性は「２」であり、属性「２」は４０％の割合を意味する。そのため、出力音符情報Ｃｚは、要素Ｃ５，Ｃ９，Ｃ１１，Ｃ１３，Ｃ１６，Ｃ１８，Ｃ２０のうち、約４０％の要素である要素Ｃ９，Ｃ１１，Ｃ１６の直後にそれぞれ配置された要素Ｃ９ｆ，Ｃ１１ｆ，Ｃ１６ｆをさらに含む。

　要素Ｃ９ｆ，Ｃ１１ｆ，Ｃ１６ｆは、直前の要素Ｃ９，Ｃ１１，Ｃ１６に対応する音符を、参照音符列から運指を付与する対象となる音符としてそれぞれ示す。図１１の下段に示すように、要素Ｃ９ｆ，Ｃ１１ｆ，Ｃ１６ｆにより、要素Ｃ９，Ｃ１１，Ｃ１６に対応する音符Ｎ２，Ｎ３，Ｎ５がそれぞれ識別可能に楽譜に記載される。

　図３の構築部１３は、上記の入力時系列データＡｚを入力要素とし、出力音符情報Ｃｚを出力要素とする機械学習を行う。複数の訓練データＤについて機械学習が繰り返されることにより、入力時系列データＡｚと出力音符情報Ｃｚとの間の入出力関係を示す訓練済モデルＭが構築される。

　運指提示装置２０においては、受付部２１が時系列データを受け付ける。推定部２２は、訓練装置１０により構築された訓練済モデルＭと、受付部２１により受け付けられた時系列データに基づいて、音符列から運指を付与する対象となる音符を示す音符情報を推定する。音符情報の推定は、図６の運指提示処理におけるステップＳ１２に代えて実行される。生成部２３は、音符情報が示す音符が識別可能に表示された補助用楽譜を示す楽譜情報を生成する。

　（２）実施の形態の効果
　本実施の形態によれば、音符列から運指を付与する対象となる音符を提示することができる。これにより、初級レベルまたは中級レベルの演奏者は、楽器を演奏する際に要所となる音符を認識することができる。

　（３）変形例
　推定部２２は、第１の実施の形態で構築された第１の訓練済モデルＭと、本実施の形態で構築された第２の訓練済モデルＭとを用いて、音符列に含まれる一部の音符を楽器により演奏する際に使用する指を示す指情報を推定してもよい。図１２は、変形例における運指提示処理の一例を示すフローチャートである。

　まず、受付部２１は、時系列データを受け付ける（ステップＳ２１）。次に、推定部２２は、第１の実施の形態で構築された第１の訓練済モデルＭを用いて、ステップＳ１１で受け付けられた時系列データから中間指情報を推定する（ステップＳ２２）。中間指情報は、音符列に含まれる各音符を楽器により演奏する際に使用する指を示す。

　また、推定部２２は、本実施の形態で構築された第２の訓練済モデルＭを用いて、ステップＳ１１で受け付けられた時系列データから音符情報を推定する（ステップＳ２３）。ステップＳ２２，Ｓ２３は、いずれが先に実行されてもよいし、同時に実行されてもよい。

　続いて、推定部２２は、ステップＳ２２で推定された中間指情報に基づいて、音符列に含まれる音符のうち、ステップＳ２３で推定された音符情報が示す音符以外の音符についての指情報を推定する（ステップＳ２４）。その後、生成部２３は、ステップＳ２１で受け付けられた時系列データの音符列およびステップＳ２４で推定された指情報に基づいて楽譜情報を生成する（ステップＳ２５）。これにより、運指提示処理が終了する。

　この運指提示処理においては、ステップＳ２２で推定される中間指情報は、例えば第１の実施の形態における変形例（図９）の出力指情報Ｂｚと同様の構成を有する。また、ステップＳ２３で推定される音符情報は、図１１の出力音符情報Ｃｚと同様の構成を有する。図１３は、運指提示処理のステップＳ２４で推定される指情報の一例を示す図である。

　図１３の上段には、楽譜を表す方式により記述された指情報Ｆ（Ｆｚ）が示される。図１３の下段には、指情報Ｆｚにより表された補助用楽譜が示される。指情報Ｆｚは、中間指情報（図９参照）から、音符情報（図１１参照）における運指を付与する対象となる音符を示す要素Ｃ９ｆ，Ｃ１１ｆ，Ｃ１６ｆにそれぞれ対応する要素Ｂ９ｆ，Ｂ１１ｆ，Ｂ１６ｆを削除することにより推定される。

　具体的には、図１３の上段に示すように、指情報Ｆｚは、複数の要素Ｆ１～Ｆ２４を含む。図１３の要素Ｆ１～Ｆ２４は、第１の実施の形態における変形例（図９）の出力指情報Ｂｚの要素Ｂ１～Ｂ２４とそれぞれ同様である。また、指情報Ｆｚは、音符に対応する要素Ｆ５，Ｆ９，Ｆ１１，Ｆ１３，Ｆ１６，Ｆ１８，Ｆ２０の一部の直後に配置された追加の要素を含む。本例では、指情報Ｆｚは、要素Ｆ５，Ｆ１３，Ｆ１８，Ｆ２０の直後にそれぞれ配置された要素Ｆ５ｆ，Ｆ１３ｆ，Ｆ１８ｆ，Ｆ２０ｆをさらに含む。

　要素Ｆ５ｆ，Ｆ１３ｆ，Ｆ１８ｆ，Ｆ２０ｆは、直前の要素Ｆ５，Ｆ１３，Ｆ１８，Ｆ２０に対応する音符を楽器により演奏する際に使用する指の番号をそれぞれ示す。要素Ｆ５ｆ，Ｆ１３ｆ，Ｆ１８ｆ，Ｆ２０ｆにおける“ｆｉｎｇｅｒ”の属性により、指の番号が指定される。したがって、要素Ｆ５ｆ，Ｆ１３ｆ，Ｆ１８ｆ，Ｆ２０ｆにより、図１３の下段に示すように、音符Ｎ１，Ｎ４，Ｎ６，Ｎ７を演奏する際に使用する指の番号「１」、「１」、「３」および「２」がそれぞれ補助用楽譜に記載される。

　変形例によれば、時系列データの音符列に含まれる全部の音符についての指情報から、一部の音符についての指情報が間引きされる。この場合、初級レベルまたは中級レベルの演奏者が楽器を演奏する際の適切な運指を提示することができる。例えば、楽器を演奏する際に要所となる音符についての指情報が間引かれるので、初級レベルまたは中級レベルの演奏者は、楽器を練習する際に、適切な運指の判断力を養うことができる。

　［４］他の実施の形態
　上記実施の形態において、運指提示装置２０は生成部２３を含むが、実施の形態はこれに限定されない。演奏者は、推定部２２により推定された指情報を所望の楽譜に転記することにより補助用楽譜を作成することができる。そのため、運指提示装置２０は、生成部２３を含まなくてもよい。

　上記実施の形態において、訓練データＤはピアノにより演奏を行う際の指情報を推定するように訓練されるが、実施の形態はこれに限定されない。訓練データＤは、ドラム等の他の楽器により演奏を行う際の指情報を推定するように訓練されてもよい。

　上記実施の形態において、運指提示装置２０の使用者が演奏者である場合を例に説明したが、運指提示装置２０の使用者は、例えば、楽譜の作成会社のスタッフであってもよい。また、訓練装置１０による機械学習は、楽譜の作成会社のスタッフにより事前に行われてもよい。

Claims

複数の音符からなる音符列を含む時系列データを受け付ける受付部と、
　訓練済モデルを用いて、前記音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す指情報、または前記音符列から運指を付与する対象となる音符を示す音符情報を推定する推定部とを備える、運指提示装置。
前記訓練済モデルは、複数の音符からなる参照音符列を含む入力時系列データと、前記参照音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す出力指情報、または前記参照音符列から運指を付与する対象となる音符を示す出力音符情報との間の入出力関係を習得した機械学習モデルである、請求項１記載の運指提示装置。
前記時系列データは、前記音符列を演奏する演奏者を示す演奏者識別子をさらに含み、
　前記推定部は、前記演奏者識別子に基づいて前記指情報を推定する、請求項１または２記載の運指提示装置。
前記演奏者識別子は、前記演奏者の身体的特徴に対応するように決定される、請求項３記載の運指提示装置。
前記演奏者識別子は、前記演奏者による演奏の流儀に対応するように決定される、請求項３または４記載の運指提示装置。
前記時系列データは、前記音符列に含まれる音符のうち第１の割合の音符を楽器により演奏する際に使用する指を示す基本指情報をさらに含み、
　前記推定部は、前記基本指情報に基づいて、前記音符列に含まれる音符のうち前記第１の割合よりも大きい第２の割合の音符を楽器により演奏する際に使用する指を示す前記指情報を推定する、請求項１または２記載の運指提示装置。
前記推定部は、前記音符列に含まれる各音符を楽器により演奏する際に使用する指を示す中間指情報と、前記音符情報とを推定し、前記中間指情報に基づいて、前記音符列に含まれる音符のうち前記音符情報が示す音符以外の音符を楽器により演奏する際に使用する指を示す前記指情報を推定する、請求項１または２記載の運指提示装置。
前記音符列に含まれる少なくとも一部の音符に対応するように前記指情報が付された第１の補助用楽譜、または前記音符情報が示す音符が識別可能に表示された第２の補助用楽譜を示す楽譜情報を生成する生成部をさらに備える、請求項１～７のいずれか一項に記載の運指提示装置。
複数の音符からなる参照音符列を含む入力時系列データを取得する第１の取得部と、
　前記参照音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す出力指情報、または前記参照音符列から運指を付与する対象となる音符を示す出力音符情報を取得する第２の取得部と、
　前記入力時系列データと前記出力指情報または前記出力音符情報との間の入出力関係を習得した訓練済モデルを構築する構築部とを備える、訓練装置。
複数の音符からなる音符列を含む時系列データを受け付け、
　訓練済モデルを用いて、前記音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す指情報、または前記音符列から運指を付与する対象となる音符を示す音符情報を推定する、
　コンピュータにより実行される、運指提示方法。
複数の音符からなる参照音符列を含む入力時系列データを取得し、
　前記参照音符列に含まれる少なくとも一部の音符を楽器により演奏する際に使用する指を示す出力指情報、または前記参照音符列から運指を付与する対象となる音符を示す出力音符情報を取得し、
　前記入力時系列データと前記出力指情報または前記出力音符情報との間の入出力関係を習得した訓練済モデルを構築する、
　コンピュータにより実行される、訓練方法。