WO2022185946A1

WO2022185946A1 - 情報処理装置及びその制御方法

Info

Publication number: WO2022185946A1
Application number: PCT/JP2022/006589
Authority: WO
Inventors: 康平須見; 貴裕浅野; 郁弥大嵜
Original assignee: ヤマハ株式会社
Priority date: 2021-03-04
Filing date: 2022-02-18
Publication date: 2022-09-09
Also published as: CN117043849A; US20230419932A1; JP2022135126A

Abstract

情報処理装置（１００）は、形容詞を含む自然言語がユーザ入力される、タッチパネルディスプレイとして一体的に構成される操作部（１０５）及び表示部（１０８）と、ＧＰＵ（１０２）により実行される機能であって、形容詞から音色データを出力する学習済モデルを用いて、ユーザ入力された自然言語に基づいて音色データを出力する推定部（２０３）とを備える。

Description

情報処理装置及びその制御方法

　本発明は、音色データに基づいて出力する音色の調整を行う情報処理装置及びその制御方法に関する。

　従来より、波形データ及びエフェクトパラメータからなる音色データを用いて調整された音色を出力することが可能なシンセサイザが知られている。

　例えば、特許文献１には、音高と音色の２軸表示を行う表示部に入力手段が接触した場合に、表示部に接触する入力手段の座標位置に対応する音高及び音色にて音が出力される音楽演奏装置が開示されている。

　また、例えば特許文献２には、ユーザの実際の演奏に基づいてユーザの気分や感情などの心理的な状態に合った音色設定を自動的に行うことができる音色設定システムが開示されている。

日本国特開２００７－１５６１０９号公報日本国特開２００６－３０４１４号公報

　しかしながら、特許文献１，２の技術を用いても、従来のシンセサイザに多数設けられているボタンやノブを操作して、初心者が演奏に使用したい楽器種別の波形データを見つけ出したり、エフェクトパラメータで音色を調整したりすることは困難であった。

　以上の事情に鑑み、本開示は、初心者であっても容易に出力する音色を調整することができる情報処理装置及びその制御方法を提供することを目的とする。

　上記目的を達成するために、本開示の一態様に係る情報処理装置は、形容詞を含む自然言語がユーザ入力される入力モジュールと、形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する音色推定モジュールとを備える。
　また、本開示の一態様に係る、コンピュータによって実現される制御方法は、ユーザ入力された、形容詞を含む自然言語を取得し、形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する。

　本開示によれば、初心者であっても容易に出力する音色を調整することができる。

本開示の実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。情報処理装置のソフトウェア構成を示すブロック図である。収集した訓練データに含まれる各エフェクトパラメータを潜在空間上にマッピングした状態を示す図である。本開示の実施形態における学習モデルの訓練処理を示すフローチャートである。本開示の実施形態における音色データの推定処理を示すフローチャートである。図１における表示部に表示される、図２における入力部及び出力部のＵＩの例を示す図である。

　以下、本開示の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本開示を実現可能な構成の一例に過ぎない。以下の各実施形態は、本開示が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本開示を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本開示の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。

　本実施形態に係る情報処理装置１００は、シンセサイザによって実現されるが、これに限定されない。例えば、情報処理装置１００は、外部のシンセサイザに対して設定すべき音色データを送信する、パーソナルコンピュータやサーバ等の情報処理装置（コンピュータ）であってもよい。

　ここで、本実施形態における音色データは、ピアノ、オルガン、ギター等の各種楽器の波形データ、及びコーラス、リバーブ、ディストーション等のエフェクトパラメータの少なくとも一方を含むデータである。

　概略的には、本実施形態における情報処理装置１００は、ユーザが情報処理装置１００で演奏するためにその音色を調整する際にユーザ入力された自然言語に基づいて、音色調整に用いる音色データの候補を設定し、各候補をサンプル音色の再生が可能な状態でリスト表示する。その後、ユーザが、リスト表示された候補のうち、再生したサンプル音色が演奏に使用したい音色である候補を選択すると、情報処理装置１００は、そのサンプル音色が情報処理装置１００で演奏する際の音色となるよう音色調整を行う。

　図１は、本開示の実施形態に係る情報処理装置１００のハードウェア構成を示すブロック図である。

　図１に示すように、本実施形態の情報処理装置１００は、ＣＰＵ１０１、ＧＰＵ１０２、ＲＯＭ１０３、ＲＡＭ１０４、操作部１０５、マイク１０６、スピーカ１０７、表示部１０８、ＨＤＤ１０９を備え、これらは互いにバス１１０を介して接続する。また、図１においては不図示であるが、情報処理装置１００は、ユーザによる演奏が可能なキーボードを備える。

　ＣＰＵ１０１は、例えばＲＯＭ１０３に格納されるプログラムに従い、ＲＡＭ１０４をワークメモリとして用いて、情報処理装置１００の各部を制御する、１ないし複数のプロセッサである。

　ＧＰＵ１０２は、データの並列処理により効率的な演算を行うことができるので、以下後述するように学習モデルを用いて学習を行う処理はＧＰＵ１０２で行われる。

　ＲＡＭ１０４は、揮発性のメモリであり、ＣＰＵ１０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。

　マイク１０６は、収集した音声を電気信号（音声データ）に変換してＣＰＵ１０１に供給する。例えば、マイク１０６が、ユーザがマイク１０６に向けて発話した自然言語からなる音声を収集し、これを変換した音声データをＣＰＵ１０１に供給する。

　スピーカ１０７は、情報処理装置１００を用いた演奏時、後述する図４のステップＳ４０２の実行時、及び後述する図５のステップＳ５０９の実行時等において、音色調整がされた音色を発音する。

　ＨＤＤ１０９は、不揮発性のメモリであり、音色データやその他のデータ、ＣＰＵ１０１が動作するための各種プログラム等が、それぞれ所定の領域に格納されている。尚、ＨＤＤ１０９は、上記データやプログラムが格納できる不揮発性のメモリであればよく、例えば、フラッシュメモリ等の他のメモリであってもよい。

　操作部１０５及び表示部１０８は、情報処理装置１００に対するユーザの操作を受け付けると共に種々の情報を表示するタッチパネルディスプレイとして一体的に構成される。但し、操作部１０５及び表示部１０８が夫々独立したユーザインターフェイス、例えば、操作部１０５はキーボードやマウスで構成され、表示部１０８はディスプレイで構成されていてもよい。

　バス１１０は、上記した情報処理装置１００のハードウェア要素を相互に接続する信号伝送路である。

　図２は、情報処理装置１００の機能構成を示すブロック図である。

　図２において、情報処理装置１００は、学習部２０１、入力部２０２、推定部２０３、及び出力部２０４を備える。

　入力部（入力モジュール）２０２は、ユーザ入力された形容詞を推定部２０３に出力する、ＣＰＵ１０１により実行される機能である。

　具体的には、入力部２０２は、表示部１０８にＩ／Ｆ６０１（図６）を表示し、操作部１０５を用いてユーザによりＩ／Ｆ６０１に文字入力された自然言語を取得する。その後、入力部２０２は、取得した自然言語の形態素解析を行い、ユーザ入力された形容詞を抽出し、その抽出された形容詞を推定部２０３に出力する。

　尚、入力部２０２は、ユーザ入力された形容詞を取得できれば本実施形態に限定されない。例えば、マイク１０６で収集したユーザが発話した自然言語に基づきユーザ入力された形容詞を取得してもよいし、表示部１０８上に複数の形容詞のタグを含むＩ／Ｆ６０２（図６）を表示し、操作部１０５を用いてユーザが選択されたタグの形容詞を、ユーザ入力された形容詞として取得してもよい。

　入力部２０２による処理の詳細は、図４を用いて後述する。

　学習部２０１は、ニューラルネットワークの一種である、ＣＶＡＥ（ｃｏｎｄｉｔｉｏｎａｌ　ｖａｒｉａｔｉｏｎａｌ　ａｕｔｏ　ｅｎｃｏｄｅｒ）から構成される学習モデルにより構成される、ＧＰＵ１０２により実行される機能である。ＧＰＵ１０２は、エフェクトパラメータ及びこれにタグ付けされた形容詞からなる訓練データを用いて、教師あり学習によって学習部２０１を構成する学習モデルを訓練し、生成された学習済モデルの後述するデコーダのパラメータを推定部２０３に出力する。

　学習部２０１を構成する学習モデルは、エンコーダ（ｅｎｃｏｄｅｒ）及びデコーダ（ｄｅｃｏｄｅｒ）を有する。ここでエンコーダとは、形容詞（ラベルｙ）がタグ付けされたエフェクトパラメータ（入力データｘ）が訓練データとして入力されると、訓練データから潜在空間における、形容詞（ラベルｙ）がタグ付けされた潜在変数ｚを抽出するニューラルネットワークである。また、デコーダとは、形容詞（ラベルｙ）がタグ付けされた潜在変数ｚが入力されると、形容詞（ラベルｙ）がタグ付けされたエフェクトパラメータ（出力データｘ’）を再構成するニューラルネットワークである。ＧＰＵ１０２は、入力データｘと出力データｘ’を比較して学習部２０１を構成するエンコーダ及びデコーダのパラメータを調整する。また、ラベルｙ毎に、図３に示す潜在空間における潜在変数ｚによるクラスタが形成されるように、エンコーダのパラメータを調整する。ＧＰＵ１０２は、かかる処理を繰り返し、学習部２０１を構成する学習モデルのパラメータを最適化することで、学習モデルを訓練し、学習済みモデルを生成する。ＧＰＵ１０２による学習モデルの訓練処理の詳細は、図４を用いて後述する。

　推定部（音色推定モジュール）２０３は、学習部２０１において生成された学習済モデルのデコーダと同一のニューラルネットワーク（以下単にデコーダという）であって、ＧＰＵ１０２により実行される機能である。

　ＧＰＵ１０２は、学習部２０１から推定部２０３へパラメータが出力されるとそのパラメータで推定部２０３を構成するデコーダのパラメータを更新する。

　また、入力部２０２から推定部２０３へユーザ入力された形容詞が出力されると、ＧＰＵ１０２は、図３に示す潜在空間における潜在変数ｚのうち、その形容詞がタグ付けされた潜在変数ｚを取得し、これを、推定部２０３を構成するデコーダに入力することで、その形容詞がタグ付けされたエフェクトパラメータ（音色データ）を再構成（推定）する。その後、ＧＰＵ１０２は、再構成されたエフェクトパラメータを出力部２０４に出力する。ＧＰＵ１０２による音色データの推定処理の詳細は、図５を用いて後述する。

　尚、学習部２０１及び推定部２０３で使用されるニューラルネットワークは、特に限定されないが、ＤＮＮ、ＲＮＮ／ＬＳＴＭ、Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が例示できる。また、ニューラルネットワークの代わりに、他のモデル、例えば、ＨＭＭ（ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　ｍｏｄｅｌ），ＳＶＭ（ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ）を用いてもよい。

　また、学習部２０１は教師あり学習を行うためＣＶＡＥのみで構成したが、ＶＡＥ（ｖａｒｉａｔｉｏｎａｌ　ａｕｔｏ　ｅｎｃｏｄｅｒ）やＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋｓ）を含む構成としてもよい。この場合、学習部２０１において、ＶＡＥやＧＡＮによる教師なし学習、すなわち、形容詞がタグ付けされていないエフェクトパラメータを訓練データとするクラスタリングを用いた学習を、ＣＶＡＥによる教師あり学習と組み合わせる、半教師あり学習が実行される。

　また、学習部２０１及び推定部２０３は、一つの装置（システム）であっても良い。

　さらに、学習部２０１及び推定部２０３は、本実施形態では単一のプロセッサであるＧＰＵ１０２により実行されたが、ＧＰＵ１０２を複数のプロセッサで構成して分散処理を行うようにしてもよい。また、ＧＰＵ１０２だけでなく、ＣＰＵ１０１と協働して実行される機能としてもよい。

　出力部（提示モジュール）２０４は、推定部２０３から出力された複数のエフェクトパラメータを、ユーザが情報処理装置１００を用いて演奏する際の音色調整に用いるエフェクトパラメータの候補としてリスト表示（提示）する、ＣＰＵ１０１により実行される機能である。

　具体的には、出力部２０４は、表示部１０８に、候補となる各エフェクトパラメータと紐づく複数のタブを含むＩ／Ｆ６０３（図６）を表示する。図６に示すように、Ｉ／Ｆ６０３の各タブには、各エフェクトパラメータにより音色調整した場合のサンプル音声と紐づく再生ボタンが設けられている。その後、ユーザによりＩ／Ｆ６０３にある再生ボタンの一つが押下されると、出力部２０４は、その再生ボタンが設けられているタブをユーザ選択された状態とした上で、その再生ボタンと紐づくサンプル音色を再生する。ユーザは、Ｉ／Ｆ６０３に表示される各再生ボタンを押下していき、自身が所望するサンプル音色が再生されたときに、決定ボタン６０４を押下する。出力部２０４は、決定ボタン６０４が押下されると、現在ユーザ選択中のタブに紐づくエフェクトパラメータを情報処理装置１００の音色調整に用いることを決定する。

　出力部２０４による処理の詳細は、図５を用いて後述する。

　図３は、収集した訓練データに含まれる各エフェクトパラメータを潜在空間上にマッピングした状態を示す図である。

　ＧＰＵ１０２により学習部２０１において学習済モデルが生成されると、エフェクトパラメータ（入力データｘ）は、潜在空間において潜在変数ｚとしてマッピングされる。この潜在変数ｚの多くは、ラベルｙ毎に形成されるクラスタの一つに含まれる。本実施形態では、図３に示すように、潜在空間には、入力データｘにタグ付けされたラベルｙの一つである、形容詞「美しい」のクラスタ３０１や、同じくラベルｙの一つである、形容詞「きらびやか」のクラスタ３０２等が形成されている。

　尚、本実施形態では、学習部２０１への入力データｘがエフェクトパラメータのみである場合について説明したが、音色データであればこれに限定されない。例えば、学習部２０１への入力データｘを、波形データのみ、波形データとエフェクトパラメータの組み合わせ、及び複数の音色データを含む音色データセットのいずれかからなる音色データとしてもよい。

　図４は、本実施形態における学習モデルの訓練処理を示すフローチャートである。

　本処理は、ＣＰＵ１０１が、ＲＯＭ１０３に記憶されたプログラムを読み出し、ＲＡＭ１０４をワーキングメモリとして用いて実行する。

　まずステップＳ４０１において、ＣＰＵ１０１は、エフェクトパラメータをＨＤＤ１０９から取得する。尚、図１において不図示の通信部を介して外部からエフェクトパラメータを取得するようにしてもよい。

　ステップＳ４０２において、ＣＰＵ１０１は、ステップＳ４０１で収集したエフェクトパラメータの夫々に対して、タグ付けする形容詞を取得する。

　ここで、タグ付けする形容詞は具体的には以下のように取得する。

　まず、ＣＰＵ１０１は、収集した各エフェクトパラメータを用いて、デフォルトの波形データであるピアノの波形データを音色調整し、その音色をスピーカ１０７に発音させると共に、表示部１０８にＩ／Ｆ６０１（図６）を表示させる。

　その後、ＣＰＵ１０１は、ユーザがスピーカ１０７から発音された音色から想起される形容詞を、操作部１０５を用いてＩ／Ｆ６０１に文字入力したことを検知すると、その文字入力された形容詞をタグ付けする形容詞として取得する。ここで取得される形容詞は、単数であっても、複数であってもよい。

　尚、以上の方法でタグ付けする形容詞は取得されるため、出願時の技術常識に鑑みて、訓練データに含まれる音色データとこれにタグ付けされた形容詞の間の相関関係は推認される。

　ステップＳ４０３において、ＣＰＵ１０１は、ステップＳ４０２で取得された形容詞をステップＳ４０１で取得したエフェクトパラメータにタグ付けし、訓練データとして生成する。尚、かかるエフェクトパラメータとこれにタグ付けされる形容詞からなるデータセットは、クラウドソーシングを利用して入手してもよい。

　ステップＳ４０４において、ＣＰＵ１０１は、ステップＳ４０３で生成した訓練データを学習部２０１に入力することで、ＧＰＵ１０２に学習部２０１を構成する学習モデルの学習を行わせ、学習済モデルを生成する。その後、ＧＰＵ１０２は、学習済モデルのデコーダのパラメータを学習部２０１から推定部２０３に出力し、推定部２０３を構成するデコーダのパラメータを更新した後、本処理を終了する。

　尚、本実施形態では、ステップＳ４０２においてスピーカ１０７に発音させる音色は、ピアノの波形データを音色調整したものであったが、複数の楽器種別の波形データの音色調整を行うようにしてもよい。この場合、同一のエフェクトパラメータに対して、楽器種別毎にタグ付けする形容詞がステップＳ４０２において取得される。また、ステップＳ４０４において学習済モデルは、楽器種別毎に生成される。

　次に、図４の処理後に実行される、本実施形態における音色データの推定処理を、図５を用いて説明する。

　図５は、本実施形態における音色データの推定処理を示すフローチャートである。

　まずステップＳ５０１において、ＣＰＵ１０１は、表示部１０８にＩ／Ｆ６０１を表示させ、ユーザが操作部１０５を用いてＩ／Ｆ６０１に文字入力した自然言語を取得する。その後、取得した自然言語に対して任意の形態素解析を行い、ユーザ入力された形容詞を抽出する。

　例えば、Ｉ／Ｆ６０１に、「美しいピアノの音」という自然言語が文字入力された場合、文字入力された自然言語の形態素解析により「美しい」、「ピアノ」、「音」の３つの単語が取得され、その中から「美しい」という単語がユーザ入力された形容詞として抽出される。

　また、Ｉ／Ｆ６０１に、「きらびやかで美しいピアノの音」という自然言語が文字入力された場合、「きらびやか」及び「美しい」という２つの単語がユーザ入力された形容詞として抽出される。

　尚、ステップＳ５０１では、ユーザ入力された形容詞が取得できれば、本実施形態の方法に限定されない。例えば、Ｉ／Ｆ６０１を表示する代わりに、ステップＳ４０２の処理で取得された複数の形容詞をユーザ選択可能なタグとして表示するＩ／Ｆ６０２を表示し、ユーザ選択されたタグに表示される形容詞を、ユーザ入力された形容詞として取得するようにしてもよい。また、Ｉ／Ｆ６０１を表示する代わりに、マイク１０６でユーザが発話した自然言語を含む音声データを、任意の音声認識技術を用いてテキストデータに変換し、そのテキストデータに対して任意の形態素解析を行い、ユーザ入力された形容詞を抽出するようにしてもよい。

　次にステップＳ５０２において、ＣＰＵ１０１は、ステップＳ５０１で抽出された形容詞がタグ付けされた潜在変数を潜在空間から取得し、その形容詞がタグ付けされた潜在変数を、推定部２０３を構成するデコーダに入力する。これにより、ＧＰＵ１０２に推定部２０３を構成するデコーダからその形容詞がタグ付けされたエフェクトパラメータを出力させる。尚、ステップＳ５０１で抽出された形容詞が複数ある場合は、その全ての形容詞が推定部２０３を構成するデコーダに入力される。

　例えば、形容詞「美しい」がステップＳ５０１において抽出された場合、図３に示すクラスタ３０１を形成する潜在変数ｚ等、潜在空間において形容詞「美しい」がタグ付けされた潜在変数ｚにより再構成された、形容詞「美しい」がタグ付けされたエフェクトパラメータが、推定部２０３から出力される。

　また例えば、形容詞「美しい」及び形容詞「きらびやか」がステップＳ５０１において抽出された場合、図３に示すクラスタ３０１を形成する潜在変数ｚ等、潜在空間においてこの２つの形容詞がタグ付けされている潜在変数ｚにより再構成された、この２つの形容詞がタグ付けされたエフェクトパラメータが、推定部２０３から出力される。

　尚、ステップＳ４０４において学習済モデルが楽器種別毎に生成されており、且つステップＳ５０１において形容詞だけでなく楽器種別も抽出された場合、推定部２０３における、その抽出された楽器種別のデコーダに、ステップＳ５０１で抽出された形容詞は入力される。

　ステップＳ５０３において、ＣＰＵ１０１は、ステップＳ５０２で出力された複数のエフェクトパラメータの中から、ユーザが音色調整に用いるエフェクトパラメータの候補を設定する。本実施形態では、ステップＳ５０２で出力された複数のエフェクトパラメータの中からランダムに指定されたものが、ユーザが音色調整に用いるエフェクトパラメータの候補として設定される。尚、ステップＳ５０２で出力された複数のエフェクトパラメータのうち、その尤度が閾値以上のものを、ユーザが音色調整に用いるエフェクトパラメータの候補として設定するようにしてもよい。

　ステップＳ５０４において、ＣＰＵ１０１は、楽器種別のユーザ入力があったか否かを判別する。具体的は、ステップＳ５０１における任意の形態素解析により取得された単語のうち、楽器種別があれば、楽器種別のユーザ入力があったと判別する。

　例えば、ステップＳ５０１でＩ／Ｆ６０１に、「美しいピアノの音」という自然言語が文字入力された場合、ステップＳ５０４においてＣＰＵ１０１は楽器種別「ピアノ」のユーザ入力があったと判別する。

　楽器種別のユーザ入力があった場合（ステップＳ５０４でＹＥＳ）、ステップＳ５０５に進み、ＣＰＵ１０１は、ユーザ入力された楽器種別の波形データをＨＤＤ１０９から取得し、ステップＳ５０７に進む。

　尚、この場合ＣＰＵ１０１は、ユーザ入力された楽器種別に応じて、ステップＳ５０３で設定された候補を更に制限する（取捨選択する）。例えば、ユーザ入力された楽器種別が「ピアノ」である場合、通常、音色調整に「ディストーション」は用いられないため、設定された候補に「ディストーション」が含まれている場合はこれを候補から外す。

　一方、楽器種別のユーザ入力がなかった場合（ステップＳ５０４でＮＯ）、ステップＳ５０６に進み、ＣＰＵ１０１は、デフォルトで設定されている楽器種別「ピアノ」の波形データをＨＤＤ１０９から取得し、ステップＳ５０７に進む。尚、デフォルトで設定される楽器種別の波形データは、本実施形態に限定されず、オルガン、ギター等の他の楽器種別の波形データであってもよい。また、ステップＳ５０６において、ＣＰＵ１０１は、表示部１０８に複数の楽器種別が夫々記載された複数のタグを表示させ、ユーザ選択されたタグに表示される楽器種別の波形データをＨＤＤ１０９から取得するようにしてもよい。

　ステップＳ５０７において、ＣＰＵ１０１は、ステップＳ５０３で設定されたエフェクトパラメータの候補を表示部１０８にリスト表示させる。具体的には、図６のＩ／Ｆ６０３に示すように、ステップＳ５０３で設定されたエフェクトパラメータの候補を夫々「音色１」タブ、「音色２」タブ、・・・というユーザ選択可能なタブとして表示する。また、夫々のタブには再生ボタンが設けられている。

　ステップＳ５０８において、ＣＰＵ１０１は、ステップＳ５０３で設定されたエフェクトパラメータの候補の一つの再生指示があったか判別する。具体的には、Ｉ／Ｆ６０３の各タブに設けられている再生ボタンのいずれかが押下されたか否かを判別する。候補の一つの再生指示があった場合（ステップＳ５０８でＹＥＳ）、ステップＳ５０９へ進む。

　ステップＳ５０９において、ＣＰＵ１０１は、表示部１０８に再生ボタンが押下されたタブの色（またはその再生ボタンの部分）を反転させ、そのタブがユーザ選択された状態となったことをユーザに通知すると共に、再生指示のあった候補のエフェクトパラメータと、ステップＳ５０５，Ｓ５０６のいずれかで取得された波形データとを用いて音色を調整し、サンプル音色としてスピーカ１０７に発音（再生）させる。

　ステップＳ５１０において、ＣＰＵ１０１は、再生指示のあった候補が音色調整に用いるエフェクトパラメータとしてユーザ選択されたか否かを判別する。具体的には、ステップＳ５０８でスピーカ１０７によりサンプル音色を発音させた後、Ｉ／Ｆ６０３において、他の再生ボタンの押下がされることなく決定ボタン６０４が押下された場合に、再生指示のあった候補が音色調整に用いるエフェクトパラメータとしてユーザ選択されたと判別する。

　すなわち、決定ボタン６０４が押下されることなく、他の候補の一つの再生指示があった場合（ステップＳ５１０でＮＯ、ステップＳ５０８でＹＥＳ）、ステップＳ５０９以降の処理を繰り返す。一方、他の候補の一つの再生指示がされることなく、決定ボタン６０４が押下された場合（ステップＳ５１０でＹＥＳ）、ＣＰＵ１０１は、再生されたサンプル音色が情報処理装置１００で演奏する際の音色となるように音色調整を行った後、ステップＳ５１１に進む。

　ステップＳ５１１において、ＣＰＵ１０１は、ステップＳ５０１で抽出された形容詞及びステップＳ５１０でユーザ選択された音色調整に用いるエフェクトパラメータに基づき、ＧＰＵ１０２に学習部２０１で生成された学習済モデルの追加学習を行わせる。その後、追加学習後の学習済モデルのデコーダ部分のパラメータで推定部２０３を構成するデコーダのパラメータを更新した後、本処理を終了する。これにより、ユーザが情報処理装置１００で演奏を行う際に図５の処理により音色調整を行えば行うほど、よりカスタマイズされたエフェクトパラメータの候補がＩ／Ｆ６０３においてリスト表示されるようになる。

　本実施形態によれば、ユーザが情報処理装置１００の演奏に使用したい音色を表す自然言語を表示部１０８上のＩ／Ｆ６０１に文字入力すると、ＣＰＵ１０１は、その文字入力された自然言語に基づいてユーザが音色調整に用いるエフェクトパラメータの候補を設定し、Ｉ／Ｆ６０３に夫々の候補のサンプル音色を再生するための再生ボタンを表示する。ユーザは、Ｉ／Ｆ６０３に表示される再生ボタンを押下してサンプル音色を再生し、それが情報処理装置１００の演奏に使用したい音色であると確認した場合に決定ボタン６０４を押下するだけで、情報処理装置１００を用いて演奏を行う際の音色を調整することができる。すなわち、ユーザが、初心者であって、従来のシンセサイザにおいて多数設けられているボタンやノブを操作して、情報処理装置１００の演奏に使用したいエフェクトパラメータを調整することが困難な場合であっても、情報処理装置１００を用いて演奏を行う際の音色を容易に調整することができる。

　また、従来のシンセサイザにおいて多数設けられているボタンやノブを操作することなく、簡便に情報処理装置１００で演奏する際の楽器種別の波形データを設定することができる。

　尚、ステップＳ５１１で行われる追加学習の方法は特に限定されない。例えば、ステップＳ４０３で生成された訓練データを、図５の処理でＩ／Ｆ６０３を用いてユーザが取捨選択した内容に基づいて更新するようにしてもよいし、ステップＳ５１０においてユーザ選択されたことを報酬として与える強化学習を行うようにしてもよい。

　本実施形態では、情報処理装置１００が、図４、図５の処理を全て行っていたが、かかる構成に限定されない。例えば、情報処理装置１００は、タブレット、スマホ等の携帯端末（不図示）や、サーバ（クラウド）（不図示）と接続し、これらと協調動作、すなわち、装置ごとの処理を分担し、どこで処理をしても良いようにしてもよい。例えば、クラウドで学習済モデルを生成し、携帯端末で図６のＩ／Ｆ６０１を表示するようにしてもよい。

　任意の機械学習手法によって学習部２０１における学習モデルの訓練及び学習済モデルの追加学習がされ得る。例えば、ガウス過程回帰（ベイズ最適化）、方策反復法の一種である方策勾配法、生物進化のプロセスを模倣した手法である遺伝的アルゴリズム、等の手法が採用され得る。

　なお、本開示を達成するためのソフトウェアによって表される各制御プログラムを記憶した記憶媒体を、各装置に読み出すことによって同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本開示の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本開示を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本開示を構成することになる。なお、これらの場合の記憶媒体としては、ＲＯＭのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード等を用いることができる。「非一過性のコンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含む。

　本出願は、2021年3月4日出願の日本出願（特願2021-034735）に基づくものであり、その内容はここに参照として取り込まれる。

　本開示の情報処理装置及びその制御方法によれば、初心者であっても容易に出力する音色を調整することができる。

　１００　情報処理装置
　１０１　ＣＰＵ
　１０２　ＧＰＵ
　１０５　操作部
　１０７　スピーカ
　１０８　表示部
　１０９　ＨＤＤ
　２０１　学習部
　２０２　入力部
　２０３　推定部
　２０４　出力部

Claims

　形容詞を含む自然言語がユーザ入力される入力モジュールと、
　形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する音色推定モジュールと、を備えた、情報処理装置。
　前記音色推定モジュールにより出力される音色データは、複数の音色データであって、
　前記複数の音色データを、ユーザ選択されるべき音色データの候補としてユーザに提示する提示モジュールを更に備えた、請求項１に記載の情報処理装置。
　前記提示モジュールは、前記音色データの候補を発音する、請求項２に記載の情報処理装置。
　前記音色データの候補は、波形データ及びエフェクトパラメータの少なくとも一方により構成される、請求項３に記載の情報処理装置。
　前記音色データの候補は、複数の音色データを含む音色データセットである、請求項４に記載の情報処理装置。
　前記音色データの候補がエフェクトパラメータのみから構成される場合、前記提示モジュールは、前記音色データの候補であるエフェクトパラメータを、デフォルトの波形データと組み合わせて発音する、請求項４又は５に記載の情報処理装置。
　前記音色データの候補がエフェクトパラメータのみから構成され、かつ前記ユーザ入力された自然言語に楽器種別が含まれる場合、前記提示モジュールは、前記音色データの候補であるエフェクトパラメータを、前記楽器種別の波形データと組み合わせて発音する、請求項４又は５に記載の情報処理装置。
　前記提示モジュールは、前記音色データの候補を、前記楽器種別に応じて制限する、請求項７に記載の情報処理装置。
　前記音色データの候補の中からユーザ選択された音色データ及び前記ユーザ入力された自然言語に含まれる形容詞に基づいて、前記学習済モデルの追加学習を行う、請求項２乃至８のいずれか１項に記載の情報処理装置。
　前記音色推定モジュールは、前記ユーザ入力された自然言語に含まれる形容詞がタグ付けされた潜在変数を潜在空間から取得し、前記取得した潜在変数を前記学習済モデルに入力することで前記複数の音色データを出力する、請求項２乃至９のいずれか１項に記載の情報処理装置。
　ユーザ入力された、形容詞を含む自然言語を取得し、
　形容詞から音色データを出力する学習済モデルを用いて、前記ユーザ入力された自然言語に基づいて音色データを出力する、コンピュータによって実現される制御方法。
　前記音色データ出力処理により出力される音色データは、複数の音色データであって、
　前記複数の音色データを、ユーザ選択されるべき音色データの候補としてユーザに提示する、請求項１１に記載の制御方法。
　前記提示処理において、前記音色データの候補を発音する、請求項１２に記載の制御方法。
　前記音色データの候補は、波形データ及びエフェクトパラメータの少なくとも一方により構成される、請求項１３に記載の制御方法。
　前記音色データの候補は、複数の音色データを含む音色データセットである、請求項１４に記載の制御方法。
　前記音色データの候補がエフェクトパラメータのみから構成される場合、前記提示処理において、前記音色データの候補であるエフェクトパラメータを、デフォルトの波形データと組み合わせて発音する、請求項１４又は１５に記載の制御方法。
　前記音色データの候補がエフェクトパラメータのみから構成され、かつ前記ユーザ入力された自然言語に楽器種別が含まれる場合、前記提示処理において、前記音色データの候補であるエフェクトパラメータを、前記楽器種別の波形データと組み合わせて発音する、請求項１４又は１５に記載の制御方法。
　前記処理において、前記音色データの候補を、前記楽器種別に応じて制限する、請求項１７に記載の制御方法。
　前記音色データの候補の中からユーザ選択された音色データ及び前記ユーザ入力された自然言語に含まれる形容詞に基づいて、前記学習済モデルの追加学習を行う、請求項１２乃至１８のいずれか１項に記載の制御方法。
　前記音色データ出力処理において、前記ユーザ入力された自然言語に含まれる形容詞がタグ付けされた潜在変数を潜在空間から取得し、前記取得した潜在変数を前記学習済モデルに入力することで前記複数の音色データを出力する、請求項１２乃至１９のいずれか１項に記載の制御方法。