WO2024075634A1

WO2024075634A1 - 音波形の特性分布に係る表示方法

Info

Publication number: WO2024075634A1
Application number: PCT/JP2023/035437
Authority: WO
Inventors: 竜之介大道; 慶二郎才野; 方成西村; 正宏清水
Original assignee: ヤマハ株式会社
Priority date: 2022-10-04
Filing date: 2023-09-28
Publication date: 2024-04-11

Abstract

音響モデルの訓練に用いる音波形を特定しやすくすることが可能な音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法は、音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、前記特性の分布に関連する情報を表示する。前記特性の分布は、前記使用された複数の音波形を分析して得られる特性の分布であってもよい。

Description

音波形の特性分布に係る表示方法

　本発明の一実施形態は、音波形の特性分布に係る表示方法に関する。

　特定の歌手の声音及び特定の楽器の演奏音を合成する音声合成（Sound Synthesis）技術が知られている。特に、機械学習を利用した音声合成技術（例えば、特許文献１、２）では、ユーザによって入力された楽譜データ及び音響データに基づいて当該特定の音声及び演奏音で自然な発音の合成音声を出力するために、十分に訓練された音響モデルが要求される。

特開２０２０－０７６８４３号公報国際公開第２０２２／０８０３９５号

　十分に訓練された音響モデルを得るためには、現在の音響モデルにおいて不足した音域を正確に把握し、当該音域を補うために適した訓練用の音波形を選定する必要がある。しかし、上記のように音響モデルにおいて不足した音域を正確に把握することは非常に困難であり、訓練に用いる音波形を効率よく正確に特定することは難しかった。

　本発明の一実施形態の目的の一つは、音響モデルの訓練に用いる音波形を特定しやすくすることである。

　本発明の一実施形態による、音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法は、音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、前記特性の分布に関連する情報を表示する。

　本発明の一実施形態によれば、音響モデルの訓練に用いる音波形を特定しやすくすることができる。

図１は、音響モデルの訓練システムの全体構成図である。図２は、サーバの構成図である。図３は、音響モデルの説明図である。図４は、音響モデルの訓練方法を例示するシーケンス図である。図５は、音響モデルの訓練処理及び音波形の特性分布の表示処理を例示するフローチャートである。図６は、音波形の特性分布の一例である。図７は、音波形の特性分布の表示方法を例示するフローチャートの変形例である。図８は、音響モデルの訓練処理を例示するフローチャートである。図９は、不足範囲のグラフ表示の一例である。図１０は、ユーザに対して推薦する楽曲の特性分布の一例である。図１１は、楽曲の選択・編集・再生処理を例示するフローチャートである。図１２は、得意度に基づく推薦曲表示の一例である。図１３は、ピアノロール表示の一例である。図１４は、音波形の特性分布の一例である。図１５は、楽曲再生処理を例示するフローチャートである。図１６は、本発明の一実施形態に係るサービスのプロジェクト概要を説明する図である。図１７は、本発明の一実施形態に係るサービスの背景を説明する図である。図１８は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図１９は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図２０は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図２１は、本発明の一実施形態に係るサービスにおける実装を説明する図である。図２２は、本発明の一実施形態に係るサービスのシステム構成を説明する図である。図２３は、本発明の一実施形態に係るサービスについて、商用サービスとしての将来構想を説明する図である。図２４は、本発明の一実施形態に係るサービスの構造イメージを説明する図である。

　以下、本発明の一実施形態における音波形の特性分布に係る表示方法について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明を実施する形態の一例であって、本発明はこれらの実施形態に限定して解釈されない。本実施形態で参照する図面において、同一部分又は同様の機能を有する部分には同一の符号又は類似の符号（数字の後にＡ、Ｂ等を付しただけの符号）が付されており、それらの繰り返しの説明は省略される場合がある。

　以下の実施形態において、「楽譜データ」は、音符の音高及び強度に関する情報、音符における音韻に関する情報、音符の発音期間に関する情報、及び演奏記号に関する情報を含むデータである。例えば、楽譜データは、楽曲の楽譜及び歌詞の少なくとも一方を示すデータである。楽譜データは、当該楽曲を構成する音符の時系列を示すデータであってもよく、当該楽曲を構成する言語の時系列を示すデータであってもよい。

　「音波形」は、音声の波形データである。その音声を発する音源は、音源ＩＤで特定される。例えば、音波形は、歌唱の波形データ及び楽器音の波形データの少なくとも一方である。例えば、音波形は、マイク等の入力装置を介して取り込まれた歌手の歌声及び楽器の演奏音の波形データを含む。音源ＩＤは、その歌手の歌唱の音色、又はその楽器の演奏音の音色を特定する。音波形のうち、音響モデルを用いて合成音波形を生成するために入力される音波形を「合成用音波形」といい、音響モデルを訓練するために用いられる音波形を「訓練用音波形」という。合成用音波形と訓練用音波形とを区別する必要がない場合、これらを併せて、単に「音波形」という。

　「音響モデル」は、楽譜データの楽譜特徴量の入力と、音波形の音響特徴量の入力とを有する。音響モデルとして、例えば、国際公開第２０２２／０８０３９５号に記載された、楽譜エンコーダ、音響エンコーダ、切換部、及び音響デコーダを有する音響モデルが用いられる。この音響モデルは、入力された楽譜データの楽譜特徴量を処理する、又は音波形の音響特徴量と音源ＩＤとを処理することで得られる音声合成モデルである。当該音響モデルは、音声合成プログラムによって使用される音声合成モデルである。当該音声合成プログラムは、その音源ＩＤが示す音色を有し、目的とする音波形の音響特徴量を生成する機能を有し、新たな合成音波形を生成するためのプログラムである。当該音声合成プログラムは、ある楽曲の楽譜データから生成された楽譜特徴量と音源ＩＤとを音響モデルに供給することで、その音源ＩＤが示す音色で、かつその楽曲の音響特徴量を得て、その音響特徴量を音波形に変換する。或いは、音声合成プログラムは、ある楽曲の音波形から生成された音響特徴量と音源ＩＤとを音響モデルに供給することで、その音源ＩＤが示す音色で、かつその楽曲の新たな音響特徴量を得て、その新たな音響特徴量を音波形に変換する。音響モデル毎に、所定数の音源ＩＤが用意される。つまり、各音響モデルは、所定数の音色のうち、音源ＩＤが示す音色の音響特徴量を選択的に生成する。

　音響モデルは、機械学習を利用した、例えば、畳み込みニューラルネットワーク（ＣＮＮ）又はリカレントニューラルネットワーク（ＲＮＮ）などを利用した、所定のアーキテクチャの生成モデルである。音響特徴量は、自然音又は合成音の波形の周波数スペクトルにおける発音の特徴を表すものである。音響特徴量が近いことは、歌声又は演奏音における音色又はその時間変化が似ていることを意味する。

　音響モデルの訓練において、参照した音波形の音響特徴量と類似する音響特徴量が音響モデルによって生成されるように、音響モデルの変数が変更される。訓練には、例えば、国際公開第２０２２／０８０３９５号に記載された訓練プログラムＰ２、楽譜データＤ１（訓練用楽譜データ）、及び学習用音響データＤ２（訓練用音波形）が用いられる。複数の音源ＩＤに対応する複数の音声の波形が用いられた基本訓練によって、複数の音源ＩＤに対応する複数の音色の合成音の音響特徴量を生成できるように、音響モデル（楽譜エンコーダ、音響エンコーダ、及び音響デコーダ）の変数が変更される。さらに、（未使用の）新たな音源ＩＤに対応する別の音色の音波形を用いてその訓練済の音響モデルを補助訓練することで、その音響モデルは、新たな音源ＩＤが示す音色の音響特徴量を生成できるようになる。具体的には、ＸＸＸさん（複数人）の声の音波形を用いて訓練された訓練済の音響モデルに対して、さらに、新たな音源ＩＤを用いて、ＹＹＹさん（一人）の声音の音波形を用いて補助訓練を行うことによって、ＹＹＹさんの声音の音響特徴量を生成できる音響モデルになるように、音響モデル（少なくとも、音響デコーダ）の変数が変更される。音響モデルに対する、新たな音源ＩＤに対応する上記のような訓練の単位を「訓練ジョブ」という。つまり、訓練ジョブとは、訓練のプログラムによって実行される一連の訓練プロセスを意味する。

　「プログラム」とは、プロセッサ及びメモリを備えたコンピュータにおいてプロセッサよって実行される命令又は命令群を指す。「コンピュータ」は、プログラムの実行主体を指す総称である。例えば、サーバ（又はクライアント）によってプログラムが実行される場合、「コンピュータ」は、サーバ（又はクライアント）を指す。サーバとクライアントとの間の分散処理によって「プログラム」が実行される場合、「コンピュータ」は、サーバ及びクライアントの両方を含む。この場合、「プログラム」は、「サーバで実行されるプログラム」及び「クライアントで実行されるプログラム」を含む。「プログラム」が、ネットワークに接続された複数のコンピュータで分散処理される場合、「コンピュータ」は、複数のコンピュータであり、「プログラム」は、複数のコンピュータで実行される複数のプログラムを含む。

［１．第１実施形態］
［１－１．システムの全体構成］
　図１は、音響モデル訓練システムの全体構成図である。図１に示すように、音響モデル訓練システム１０は、クラウドのサーバ１００（Ｓｅｒｖｅｒ）、通信端末２００（ＴＭ１）、及び通信端末３００（ＴＭ２）を含む。サーバ１００及び通信端末２００、３００は、それぞれネットワーク４００に接続されている。通信端末２００及び通信端末３００は、それぞれネットワーク４００を介してサーバ１００と通信できる。

　本実施形態において、サーバ１００は、音声合成器として機能し、音響モデルの訓練を実施するコンピュータである。サーバ１００は、ストレージ１１０を備えている。図１では、ストレージ１１０がサーバ１００に直接接続された構成が例示されているが、この構成に限定されない。例えば、ストレージ１１０が直接又は他のコンピュータを介してネットワーク４００に接続され、サーバ１００とストレージ１１０との間のデータの送受信がネットワーク４００を介して行われていてもよい。

　通信端末２００は、音響モデルを訓練するための訓練用音波形を選択し、サーバ１００に訓練を実行する指示を送信するユーザ（後述する作成者）の端末である。例えば、通信端末３００は、楽譜データを提供してサーバ１００に対して合成音波形の生成を要求するユーザの端末である。通信端末２００、３００は、例えばスマートフォンなどのモバイル用の通信端末、又は、デスクトップ型パソコンなどの据え置き用の通信端末を含む。本発明の訓練方法は、本実施形態で説明するクライアントサーバの構成以外で実施されてもよい。例えば、当該訓練方法は、通信端末及びサーバを含むシステムの代わりに、プログラムを実行できるプロセッサを搭載した、スマートフォン、パソコン、電子楽器、音響機器などの１台の電子機器で実施されてもよい。又は、当該訓練方法は、ネットワークで接続された複数台の電子機器による分散処理として実施されてもよい。

　ネットワーク４００は一般的なインターネット、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、又は社内ＬＡＮなどのＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）である。

［１－２．音声合成に用いられるサーバの構成］
　図２は、クラウドのサーバの構成を示すブロック図である。図２に示すように、サーバ１００は、制御部１０１、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０２、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０３、ユーザインタフェース（ＵＩ）１０４、通信インタフェース１０５、及びストレージ１１０を備える。サーバ１００の各機能部が協働することによって、本実施形態の音声合成技術が実現される。

　制御部１０１は、中央処理装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、画像処理装置（ＧＰＵ：Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサ、当該ＣＰＵ及びＧＰＵに接続されたレジスタやメモリなどの記憶装置などを含む。制御部１０１は、メモリに一時的に記憶されたプログラムをＣＰＵ及びＧＰＵによって実行し、サーバ１００に備えられた各機能を実現させる。具体的には、制御部１０１は、通信端末２００からの各種要求信号に応じて演算処理を行い、通信端末２００、３００にその処理結果を提供する。

　ＲＡＭ１０２は、演算処理に必要な制御プログラム、音響モデル（アーキテクチャと変数で構成される）及びコンテンツデータなどを一時的に記憶する。ＲＡＭ１０２は、例えばデータバッファとして使用され、通信端末２００など、外部機器から受信した各種データを、ストレージ１１０に記憶させるまでの間、一時的に保持する。ＲＡＭ１０２として、例えば、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）又はＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などの汎用メモリを用いてもよい。

　ＲＯＭ１０３は、サーバ１００の機能を実現させるための各種プログラム、各種音響モデル、及びパラメータ等を記憶する。ＲＯＭ１０３に記憶されているプログラム、音響モデル、及びパラメータ等は、必要に応じて制御部１０１によって読み出され、実行ないし利用される。

　ユーザインタフェース１０４は、グラフィカルな表示を行う表示器、ユーザ操作を受け付ける操作子又はセンサ、及びサウンドを入出力するサウンドデバイスなどを備えている。ユーザインタフェース１０４は、制御部１０１の制御によって、その表示器に各種の表示画像を表示し、ユーザからの入力を受け付ける。

　通信インタフェース１０５は、制御部１０１の制御によって、ネットワーク４００に接続して、ネットワーク４００に接続された通信端末２００、３００などの他の通信装置との間で、情報の送信及び受信を行うインタフェースである。

　ストレージ１１０は、不揮発性メモリ、ハードディスクドライブなどの恒久的な情報の保持及び書き換えが可能な記録装置（記録媒体）である。ストレージ１１０は、プログラム、音響モデル、及び当該プログラムの実行に必要なパラメータ等の情報を記憶する。図２に示すように、ストレージ１１０には、例えば音声合成プログラム１１１、訓練ジョブ１１２、楽譜データ１１３、及び音波形１１４が記憶されている。これらのプログラム及びデータとして、例えば、国際公開第２０２２／０８０３９５号に記載された音声合成プログラムＰ１、訓練プログラムＰ２、楽譜データＤ１、及び音響データＤ２がそれぞれ用いられてもよい。ストレージ１１０に記憶される音波形１１４は、過去に音響モデル１２０の訓練に使用された訓練用音波形を含む。このように、過去に訓練に使用された訓練用音波形に係るデータを「履歴データ」という場合がある。

　上記のように、音声合成プログラム１１１は、楽譜データ又は音波形から合成音波形を生成するためのプログラムである。制御部１０１が音声合成プログラム１１１を実行するとき、制御部１０１は音響モデル１２０を使用して合成音波形を生成する。なお、当該合成音波形は、国際公開第２０２２／０８０３９５号に記載された音響データＤ３に対応する。訓練ジョブ１１２において制御部１０１によって実行される音響モデル１２０の訓練プログラムによって実行される訓練プロセスであり、例えば国際公開第２０２２／０８０３９５号に記載されたエンコーダ及び音響デコーダを訓練するプログラムである。楽譜データは、楽曲を規定するデータである。音波形は、歌手の歌声又は楽器の演奏音を示す波形データである。通信端末２００、３００の構成は、それらの規模などに多少の差はあるが、基本的にはサーバ１００と同じである。

［１－３．音声合成に用いられる音響モデル］
　図３は、音響モデルの説明図である。上記のように、音響モデル１２０は、図２の制御部１０１が音声合成プログラム１１１を読み出して実行するとき、その制御部１０１が実行する音声合成処理において使用される機械学習モデルである。音響モデル１２０は、音響特徴量を生成するよう訓練されている。音響モデル１２０には、制御部１０１によって、入力信号として所望の楽曲の楽譜データ１１３の楽譜特徴量１２３又は音波形１１４の音響特徴量１２４が入力される。制御部１０１が、音響モデル１２０を用いて、音源ＩＤと当該楽譜特徴量１２３とを処理することによって、当該楽曲の合成音の音響特徴量１２９が生成される。制御部１０１は、その音響特徴量１２９に基づいて、音源ＩＤで特定される歌手が歌唱した又は楽器で演奏した合成音波形１３０と当該楽曲とを合成して出力する。又は、制御部１０１が、音響モデル１２０を用いて、音源ＩＤと当該音響特徴量１２４とを処理することによって、当該楽曲の合成音の音響特徴量１２９を生成する。制御部１０１は、その音響特徴量１２９に基づいて、当該楽曲の音波形が音源ＩＤで特定される歌手の歌声又は楽器の演奏音の音色に変換された合成音波形１３０を合成して出力する。

　音響モデル１２０は、機械学習により確立された生成モデルである。音響モデル１２０は、訓練プログラムを実行している（つまり、訓練ジョブ１１２を実行中の）制御部１０１によって訓練される。制御部１０１は、（未使用の）新たな音源ＩＤと訓練用音波形とを用いて音響モデル１２０を訓練し、音響モデル１２０（少なくとも音響デコーダ）の変数を決定する。具体的には、制御部１０１は、訓練用音波形から訓練用の音響特徴量を生成し、音響モデル１２０に新たな音源ＩＤと訓練用の音響特徴量が入力された場合に、合成音波形１３０を生成する音響特徴量が訓練用の音響特徴量に近づくように、その変数を徐々に繰り返し変更する。訓練用音波形は、例えば、通信端末２００又は通信端末３００から、クラウドのサーバ１００にアップロード（送信）され、ストレージ１１０にユーザデータとして保存されてもよく、参考データとしてサーバ１００の管理者が予めストレージ１１０に保存したものでもよい。以下の説明において、ストレージ１１０に保存することをサーバ１００に保存する、という場合がある。

［１－４．音声合成方法］
　図４は、音響モデルの訓練方法を示すシーケンス図である。図４に示す音響モデルの訓練方法では、例えば、通信端末２００がサーバ１００に訓練用音波形をアップロードする。ただし、上記のように、訓練用音波形はその他の方法でサーバ１００に予め保存されていてもよい。実際には、通信端末２００側の処理ＴＭ１の各ステップは通信端末の制御部によって実行され、サーバ１００側の処理Ｓｅｒｖｅｒの各ステップはサーバ１００の制御部１０１によって実行されるが、ここでは説明を単純にするため、通信端末２００及びサーバ１００を各ステップの実行主体として表現する。以降のフローチャートの説明も同様であるが、実行主体が通信端末かサーバかの区別は本発明にとって全く重要ではないので、フローチャートに関しては、基本的には、通信端末２００、３００とサーバ１００とを含むシステムを実行主体として説明する。

　図４に示すように、まず、通信端末２００は、サーバ１００のユーザのアカウントにログインした作成者の指示に基づいて、サーバ１００に、１又は複数の訓練用音波形をアップロード（送信）する（Ｓ４０１）。サーバ１００は、Ｓ４０１で送信された訓練用音波形を、ユーザの記憶領域に記憶する（Ｓ４１１）。サーバ１００にアップロードされる音波形は１つでも、複数でもよい。複数の音波形はユーザの記憶領域の複数のフォルダに分けて記憶されてもよい。上記のＳ４０１、４１１は、以下の訓練ジョブを実行するための準備に係るステップである。Ｓ４１１で記憶された音波形を、「音響モデルの訓練に関連する音波形」又は「訓練に使用される音波形」という場合がある。これらの音波形に関するデータを「入力音波形に関する履歴データ」という場合がある。上記の音波形のうち、訓練ジョブに使用された音波形を「訓練に使用された音波形」という場合がある。

　続いて、以下に訓練ジョブを実行するためのステップを説明する。通信端末２００は、サーバ１００に訓練ジョブの実行を要求する（Ｓ４０２）。Ｓ４０２の要求に応じて、サーバ１００は、通信端末２００に対して、予め保存された音波形又は保存される予定の音波形のうち訓練ジョブに使用する音波形を選択するためのグラフィカルユーザインタフェース（ＧＵＩ）を提供する（Ｓ４１２）。

　Ｓ４１２で提供されたＧＵＩに対する作成者（ユーザ）の入力によって、通信端末２００は、そのＵＩの表示器にＳ４１２で提供されたＧＵＩを表示する。作成者は、そのＧＵＩを用いて、記憶領域（又は、所望のフォルダ）にアップロードされた複数の音波形から一以上の音波形を訓練用の波形セットとして選択する（Ｓ４０３）。

　Ｓ４０３で波形セット（訓練用音波形）が選択された後に、作成者からの指示に応じて、通信端末２００は、訓練ジョブの実行開始を指示する（Ｓ４０４）。その指示に応じて、サーバ１００は、選択された波形セットを用いて訓練ジョブの実行を開始する（Ｓ４１３）。

　訓練には、選択された波形セット中の各波形が全部使用されるのではなく、無音区間又はノイズ区間などを除いた有用区間のみを含む前処理済み波形セットが使用される。訓練される音響モデル１２０（ベースとして指定されたモデル）として、音響デコーダが未訓練である音響モデルを用いてもよい。ただし、訓練される音響モデル１２０として、複数の基本訓練済みの音響モデル１２０のうち、波形セットの波形の音響特徴量に近い音響特徴量の生成を学習した音響デコーダを含む音響モデルを選択して用いることで、訓練ジョブにかかる時間やコストを低減できる。何れの音響モデル１２０を選ぶ場合であっても、基本訓練済みの楽譜エンコーダ及び音響エンコーダが用いられる。

　ベースモデルは、作成者が選択した波形セットに基づいて、複数の訓練済み音響モデル及び初期モデルから、サーバ１００によって自動的に決定されてもよく、ユーザからの指示に基づいて決定されてもよい。例えば、通信端末２００は、訓練ジョブの実行開始をサーバ１００に対して指示する際に、複数の訓練済み音響モデル１２０及び初期モデルのうち作成者（ユーザ）によって選択されたいずれかのモデルをベースモデルとし、その選択されたベースモデルを示す指定データをサーバ１００に送信してもよい。サーバ１００は、当該指定データに基づいて、訓練される音響モデル１２０を指定する。音響デコーダに供給する音源ＩＤ（例えば、歌手ＩＤ、楽器ＩＤなど）として、未使用の新たな音源ＩＤが用いられる。ここで、作成者を含むユーザは、必ずしも新たな音源ＩＤとしてどの音源ＩＤが使用されたかを知らなくてよい。ただし、訓練済みモデルを使用して音声合成する際には、自動的に、その新たな音源ＩＤが用いられる。新たな音源ＩＤは、ユーザが訓練した音響モデルに、その訓練で学習した音色の音響特徴量を合成させるためのキーデータである。

　訓練ジョブでは、前処理済み波形セットから一部の短波形が少しずつ取り出され、取り出された短波形を用いて音響モデル（少なくとも音響デコーダ）が訓練される、という単位訓練が繰り返される。単位訓練では、前記新たな音源ＩＤと短波形の音響特徴量とが音響モデル１２０に入力され、それに応じて音響モデル１２０が出力する音響特徴量と入力した音響特徴量との間の差分が小さくなるよう、音響モデルの変数が調整される。変数の調整には、例えば、誤差逆伝搬法が用いられる。単位訓練を繰り返すことで前処理済み波形セットによる訓練が一通り終わったら、音響モデル１２０が生成する音響特徴量の品質が評価され、当該品質が所定の基準に達していなければ、その前処理済み波形セットを用いて、再び音響モデルの訓練が行われる。音響モデル１２０が生成する音響特徴量の品質が所定の基準に達していれば、訓練ジョブは完了し、その時点の音響モデル１２０が訓練済み音響モデル１２０となる。

　Ｓ４１３で実行された訓練ジョブが完了することで、訓練済み音響モデル１２０が確立される（Ｓ４１４）。サーバ１００は、通信端末２００に、訓練済み音響モデル１２０が確立されたことを通知する（Ｓ４１５）。上記のＳ４０３～Ｓ４１５のステップが、音響モデル１２０の訓練ジョブである。

　Ｓ４１５の通知の後に、ユーザからの指示に応じて、通信端末２００は、所望の楽曲の楽譜データを含む音声合成の指示をサーバ１００に送信する（Ｓ４０５）。Ｓ４０５でのユーザは、作成者ではなく、音響モデル１２０の利用者の位置づけである。それに応じて、サーバ１００は、音声合成プログラムを実行して、その楽譜データに基づいて、Ｓ４１４で確立された訓練済み音響モデル１２０を用いた音声合成を実行する（Ｓ４１６）。Ｓ４１６で生成された合成音波形１３０は、通信端末２００に送信される（Ｓ４１７）。この音声合成では、前記新たな音源ＩＤが用いられる。

　Ｓ４１６及びＳ４１７を併せて、訓練ジョブによって訓練された訓練済み音響モデル１２０（音声合成機能）を、通信端末２００（又はユーザ）に提供する、ということができる。Ｓ４１６の音声合成プログラムの実行は、サーバ１００の代わりに、通信端末２００で行われてもよい。その場合、サーバ１００は、当該訓練済み音響モデル１２０を通信端末２００に送信する。通信端末２００は、受け取った訓練済み音響モデル１２０を用いて、前記新たな音源ＩＤで、所望の楽曲の楽譜データに基づく音声合成処理を実行し、合成音波形１３０を取得する。

　本実施形態では、Ｓ４０２で訓練ジョブの実行を要求する前に、Ｓ４０１で訓練用音波形をアップロードしたが、この構成に限定されない。例えば、訓練用音波形のアップロードが、Ｓ４０４で訓練ジョブの実行を指示した後に行われてもよい。この場合、Ｓ４０３において、通信端末２００に記憶された複数の音波形（未アップロードの音波形を含む）から、波形セットとして一以上の音波形が選択され、訓練ジョブの実行指示に応じて、選択された音波形のうち未アップロードの音波形が、アップロードされてもよい。

［１－５．特性分布の表示方法］
　図５は、音響モデル１２０の訓練処理を例示するフローチャート、及び、音響モデル１２０の訓練に用いられた音波形の特性分布の表示処理を例示するフローチャートである。図５の処理は、システムによって実行される。本実施形態において、訓練に用いられた音波形は公開されていないが、その音波形の特性分布は公開されており、第３者によって閲覧可能である。

　図５の「訓練処理」では、サーバ１００にアップロードされた音波形の中から、ユーザによって音波形が選択される。システムは、選択された音波形を用いて訓練ジョブを実行する。システム（サーバ１００）は、ユーザの選択操作に応じて、音響モデル１２０の訓練に用いられる複数の音波形を特定する（Ｓ５０１）。システム（サーバ１００）は、特定された複数の音波形を用いて、ベースとなる音響モデル１２０の訓練ジョブを実行することで、訓練済みの音響モデル１２０を確立する（Ｓ５０２）。そして、システム（サーバ１００）は、確立された音響モデル１２０の訓練に用いられた音波形の識別子を含む履歴データを、当該音響モデル１２０にリンク（関連付け）する（Ｓ５０３）。ここで、履歴データなどの音響モデルにリンクされた各種データは、クラウドのストレージから、その音響モデルを入手する第３者に対し、その音響モデルに関連して提供される。そのストレージは、サーバ１００と一体でもよく、一体でなくてもよい。第３者は、その履歴データ（識別子）に基づいて、その音響モデルの訓練に用いられた音波形の特性分布などの概要を取得し、確認できる。しかし、著作権又は個人情報の保護のため、音響モデル１２０の訓練に用いられた音波形そのものは、その音波形をアップロードした作成者を除くユーザの通信端末３００からアクセスできないよう保護される。一方、サーバ１００は、後述する音波形の分析のため、そのユーザがアップロードしたか否かに関係なく、その識別子を用いて、訓練済み音響モデル１２０の訓練に用いられた音波形を、特定し、取得できる。

　システム（サーバ１００）は、履歴データに含まれる識別子が示す複数の音波形を分析し、当該音波形が有する複数の特性について、特性分布を取得する。特性分布は、例えば、分布を示す対象の特性値をｘ軸及びｙ軸とし、ｘ軸及びｙ軸における各特性値における音波形のデータ量をｚ軸としたヒストグラム形式の分布である。

　図５の「表示処理」では、ユーザによって音響モデル１２０及び特性種別が選択される。システムは、選択された音響モデル１２０の履歴データによって特定される音波形の特性分布を、ユーザの通信端末２００のＵＩの表示器（システムの表示器とも呼ぶ）に表示する。ユーザによる音響モデルの選択操作に応じて、システムは、複数の音響モデルの中から１つの音響モデル１２０を選択する（Ｓ５１１）。システムは、ユーザによる特性種別の選択操作に応じて、複数の特性種別の中から、表示する特性種別を選択する（Ｓ５１２）。ここで選択される種別は、１つでも複数でもよい。

　ここで、特性種別とは、当該音響モデル１２０の訓練に用いられた音波形が有する複数の特性の種別を意味する。例えば、音波形が有する複数の特性は、音高、強度、音韻、音長、スタイルである。ユーザは、上記選択操作によって、これらの特性から一以上の特性を選択する。

　上記のスタイルは、歌唱スタイル及び演奏スタイルを含む。歌唱スタイルは歌い方である。演奏スタイルは演奏の仕方である。具体的には、歌唱スタイルとして、ニュートラル、ビブラート、ハスキー、フライ、及びグロウル等が挙げられる。演奏スタイルとして、擦弦楽器であれば、ニュートラル、ビブラート、ピチカート、スピカート、フラジョレット、及びトレモロ等が挙げられ、撥弦楽器であれば、ニュートラル、ポジション、レガート、スライド、及びスラップ／ミュート等が挙げられる。クラリネットであれば、演奏スタイルとして、ニュートラル、スタカート、ビブラート、及びトリル等が挙げられる。例えば、上記のビブラートは、ビブラートを多用する歌唱スタイル又は演奏スタイルを意味する。歌唱又は演奏におけるピッチ、音量、音色、及びこれらの動的挙動は、全体的にスタイルによって変わる。

　システム（サーバ１００）は、履歴データに含まれる識別子が示す複数の音波形の各々を分析することによって、Ｓ５１２で選択された、その波形の種別の特性分布を取得し、それら複数の音波形の特性分布を合成して１つの合成された特性分布を得る（Ｓ５１３）。例えば、システム（サーバ１００）は、履歴データに含まれる識別子が示す音波形Ａ、Ｂについて、音高に関する特性分布Ａ、Ｂを取得し、各音高における音波形Ａ、Ｂのデータ量を合成（積算）する。システムは、選択された種別について、合成された特性分布を表示する（Ｓ５１４）。当該特性分布の表示は、特性分布に関連する情報の１つの表示例である。Ｓ５１２で２以上の種別が選択された場合、システムは、Ｓ５１３で、各音波形の分析によって当該２以上の種別の特性分布を取得し、複数の音波形分の特性分布を種別ごとに合成して、Ｓ５１４で、当該２以上の種別について、合成された特性分布を表示する。

　上記のように、サーバ１００は、ユーザによって選択された音響モデル１２０の訓練に用いられた全音波形の特性分布に関連する情報を表示する。上記合成された特性分布は、音響モデル１２０がその訓練で獲得した能力に相当する。

　本実施形態では、表示される特性分布に対応する特性種別がＳ５１２でユーザによって選択される構成を例示したが、当該特性種別が固定されており、ユーザによって選択できなくてもよい。

　Ｓ５０２の訓練が、未訓練の初期モデルをベースとして行われた場合、Ｓ５０３の履歴データには、その訓練で用いられた全ての音波形の識別子が含まれる。一方、Ｓ５０２の訓練が、既存の訓練済みの音響モデル１２０をベースとして行われた場合、Ｓ５０３の履歴データには、その訓練で用いられた全ての音波形の識別子と、ベースとなった音響モデル１２０の訓練に用いられた全ての音波形の識別子とが含まれる。ベースが初期モデルか否かに関わらず、訓練済みの音響モデル１２０にリンクされた属性データには、初期モデルからその音響モデル１２０が確立されるまでの全訓練に用いられた全ての音波形（音響モデルの訓練に用いられた全音波形）の識別子が含まれる。

　図５のＳ５１４において表示される特性分布の一例を図６に示す。この実施形態では、Ｓ５１２で特性種別として「音高」及び「強度」の２つが選択されている。図６の画面１４０には、履歴データに含まれる複数の音波形について合成された、「音高」及び「強度」の特性分布を示すグラフが表示されている。

　図６に示す画面１４０は、システム（サーバ１００）によって提供され、システム（通信端末２００）の表示器に表示される。画面１４０には、２次元表示部１４１、第１軸表示部１４２、第２軸表示部１４３、及びデータ量バー１４４が含まれる。

　第１軸表示部１４２は、第１軸における第１特性の各値に対する音波形のデータ量を示すカーブを表示する。本実施形態の第１特性は音高なので、第１軸の単位は［Ｈｚ］である。第２軸表示部１４３は、第２軸における第２特性の各値に対する音波形のデータ量を示すカーブを表示する。本実施形態の第２特性は強度（音量）なので、第２軸の単位は［Ｄｙｎ．］である。

　２次元表示部１４１は、第１軸及び第２軸を用いた直交座標におけるデータ量の２次元分布である。２次元表示部１４１では、第１軸及び第２軸の各々の値における音波形のデータ量が、当該データ量の区分に応じた態様で表示されている。データ量バー１４４は、当該データ量の区分に応じた態様のスケールを示す。

　図６に示す例では、音波形のデータ量が、０［ｓｅｃ］である第１区分、０［ｓｅｃ］より大きく２０［ｓｅｃ］以下である第２区分、２０［ｓｅｃ］より大きく１００［ｓｅｃ］以下である第３区分、及び１００［ｓｅｃ］より大きく１４０［ｓｅｃ］以下である第４区分に分けられている。第１～第４区分は、それぞれ異なる態様で表示される。例えば、これらは色の違いで表示されてもよい。例えば、第１区分は「黒」で表示され、第２区分は「青」で表示され、第３区分は「緑」で表示され、第４区分は「黄色」で表示されてもよい。又は、第１区分は「黒」で表示され、第２区分は上記黒より明るく表示され、第３区分は第２区分より明るく表示され、第４区分は第３区分より明るく表示されてもよい。より多い態様又は少ない態様を用いて、より多くの区分又は少ない区分の表示が行われてもよい。異なる区分は、色や明るさの差異に限らず、ハッチング、形状、ぼやけ具合などの差異で表現されてもよい。

　以上のように、本実施形態に係る音響モデル訓練システム１０によると、現在の音響モデル１２０の訓練に使用された音波形、又は音響モデル１２０の訓練に使用される候補である音波形に対応する特性分布を示すグラフを表示することで、ユーザが訓練に用いる訓練用音波形を特定しやすくなる。

［１－６．変形例］
　図７は、図５の表示方法に類似する、音波形の特性分布の表示方法を例示するフローチャートである。以下の説明において、両者の類似する部分について説明を省略し、主に両者の相違する部分について説明する。

　図７の「訓練処理」では、図５と同様に、ユーザによって音波形が選択される。システムは、選択された音波形を用いて訓練ジョブを実行する。図７のＳ７０１、Ｓ７０２は、図５のＳ５０１、Ｓ５０２と同じである。システム（サーバ１００）は、Ｓ７０２で訓練済みの音響モデル１２０を確立した後、その訓練に用いられた複数の各音波形を分析して複数種別の特性分布を取得し、それらを種別ごとに合成して、複数種別の合成された特性分布を取得する（Ｓ７０３）。続いて、システム（サーバ１００）は、Ｓ７０２の訓練のベースである音響モデルが未訓練の初期モデルか否かを判断する（Ｓ７０４）。

　Ｓ７０４でベースモデルが初期モデルではないと判断された場合（Ｓ７０４の「ＮＯ」）、システム（サーバ１００）は、Ｓ７０３で取得した複数種別の特性分布と、その訓練のベースである訓練済みの音響モデルの履歴データが示す複数種別の特性分布とを、種別ごとに合成する（Ｓ７０５）。その合成後、システム（サーバ１００）は、Ｓ７０２で確立された音響モデル１２０に、Ｓ７０５で合成された複数種別の特性分布を、履歴データとしてリンクする（Ｓ７０６）。一方、Ｓ７０４でベースモデルが初期モデルであると判断された場合（Ｓ７０４の「ＹＥＳ」）、システム（サーバ１００）は、Ｓ７０５の処理をスキップして、Ｓ７０２で確立された音響モデル１２０に、Ｓ７０３で取得された複数種別の特性分布を、履歴データとしてリンクする（Ｓ７０６）。

　図５及び図７のいずれの表示処理においても、履歴データは、訓練済み音響モデル１２０に関して、その訓練に用いられた全音波形の特性分布を得るために用いられる。図５のＳ５０３で音響モデル１２０にリンクされる履歴データは、その訓練に用いられた全音波形を示す識別子である。図５の表示処理では、システムは、その識別子が示す各音波形を分析して、それら音波形の特性分布を取得し合成した（Ｓ５１３）。それに対し、図７の訓練処理では、システムは、訓練済みの音響モデル１２０に、履歴データとして、その訓練に用いられた全音波形の合成された特性分布を複数種別分リンクする（Ｓ７０６）。従って、図７の表示処理では、システムは、何れの音波形も分析することなく、その音響モデル１２０について、選択された種別の特性分布を取得し（Ｓ７１３）、画面（図６）に表示する（Ｓ７１４）。

　何れの本実施形態においても、第３者は、音響モデル１２０ごとの特性分布を入手し閲覧できる。

　図７の「表示処理」は、上述した点を除き、図５と同様なので、説明を省略する。つまり、Ｓ７１１～Ｓ７１４は、Ｓ５１１～Ｓ５１４と基本的に同じ処理である。

［２．第２実施形態］
　図８～図１３を用いて、第２実施形態に係る音響モデル訓練システム１０Ａについて説明する。音響モデル訓練システム１０Ａの全体構成及びサーバに関するブロック図は、第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図４を参照し、これらの図に示された符号の後にアルファベット“Ａ”を付して説明する。

［２－１．音響モデルの訓練処理］
　図８は、システム１０Ａによって実行される、音響モデルの訓練処理を例示するフローチャートである。図８に示す音響モデルの訓練処理では、特定の特性分布に関して訓練データが不足した範囲を検出し、その領域を補うために適したデータを用いて訓練を実行する構成について説明する。

　システム（サーバ１００Ａ）は、通信端末２００Ａ（又はユーザ）からの指示に応じて、音響モデル１２０Ａと１又は複数の特性種別とを選択する（Ｓ８０１）。システム（サーバ１００Ａ）は、選択された音響モデル１２０Ａの選択された種別の特性分布を取得し、音響モデル１２０Ａに対する訓練における不足範囲を検出する（Ｓ８０２）。具体的には、システムは、選択された音響モデル１２０Ａにリンクした履歴データを取得し、当該履歴データに基づいて、当該音響モデルの訓練に使用された音波形の選択された種別の特性分布を取得する。

　システム（サーバ１００Ａ）は、取得された各種別の特性分布に関して、その種別で訓練が必要とされる特性値の範囲（必要範囲）において、データ量が閾値より小さい範囲を、その種別の不足範囲として検出する。又は、システムは、取得した各種別の特性分布とその種別の参照用の特性値の分布（参照分布）とを比較し、その種別の特性分布が参照分布より小さい範囲を不足範囲として検出してもよい。各種別の必要範囲及び閾値、又は参照分布は、例えば、ユーザによって選択された任意の楽曲等のその種別の特性分布に基づいて決定してもよく、既存の訓練済み音響モデルのその種別の特性分布に基づいて決定してもよい。

　Ｓ８０２で不足範囲が検出されると、システムは、ユーザに対して、画面１４０（図６）への当該不足範囲の表示の要否を問い合わせる（Ｓ８０３）。この問い合わせは、当該不足範囲を文字で表示することによって行われるか（文字表示ボタン）、グラフで表示することによって行われるか（グラフ表示ボタン）、に関する問い合わせを含む。ユーザが（文字表示ボタンを操作して）文字表示を選択した場合、システムは当該不足範囲をその画面上に文字で表示する（Ｓ８０４）。

　他方、ユーザが（グラフ表示ボタンを操作して）グラフ表示を選択した場合、システムは当該不足範囲をその画面上にグラフ表示する（Ｓ８０５）。ユーザが当該不足範囲の表示を不要と判断した場合（文字表示ボタンもグラフ表示ボタンも操作されない場合）、システムはＳ８０４、Ｓ８０５の表示を行わずに次のステップ（Ｓ８０６）に進む。

　Ｓ８０５のグラフ表示の一例を図９に示す。図９に示すように、検出された音響モデル１２０Ａの不足範囲が、枠で囲まれて表示される。この例では、偶然不足範囲が三角形の形状だったので、当該不足範囲が三角形の枠で囲まれている。この枠によって、ユーザは、第１特性（音高）及び第２特性（強度）における不足範囲の上限及び下限を確認できる。本実施形態では、不足範囲の上限及び下限の両方が表示されているが、上限及び下限の一方だけが表示されてもよい。

　図９に示す画面１４０Ａは、システム（サーバ１００Ａ）によって提供され、システム（通信端末２００Ａ）の表示器に表示される。図９に示す特性分布は、音高が高い範囲、かつ、強度が低い範囲のデータが不足するため、画面１４０Ａにおいて、不足範囲をユーザに通知するメッセージ（「データ補充が必要です」）が表示される。

　図９に示す画面１４０Ａ及びメッセージは、一例に過ぎず、その他の態様で表示されてもよい。システムは、Ｓ８０４において、不足範囲に係る情報（例えば、不足範囲に含まれる音高又は強度）を、テキストで表示器に表示してもよい。又は、システムは、不足する音信号の表現（スタカート又はビブラートなど）を表示してもよい。

　図８のＳ８０４、Ｓ８０５に続き、システムは、ユーザに対して、音響モデル１２０Ａの訓練の要否を問い合わせる（Ｓ８０６）。この問い合わせは、既存の音波形を使用して訓練を行うか（訓練ボタン）、訓練に使用する音波形を新たに録音する必要があるか（録音＆訓練ボタン）、に関する問い合わせを含む。

　ユーザが（訓練ボタンを操作して）既存の音波形を使用して訓練を行うことを選択した場合、システム（サーバ１００Ａ）は、ユーザの波形選択操作に応じて、既にアップロードされサーバ１００Ａに保存されている音波形の中から音波形を選択し、訓練に用いる音波形として特定する（Ｓ８０７）。そして、システム（サーバ１００Ａ）は、訓練に用いられる音波形を分析して、当該音波形が有する１又は複数の特性について、特性分布を取得し、ベースが初期モデルならそのまま、ベースが初期モデルでなければベースの音響モデルの特性分布と合成して、例えば図６と同様の態様で通信端末２００の表示器に表示する（Ｓ８０８）。

　他方、上記の問い合わせに対して、ユーザが（録音＆訓練ボタンを操作して）音波形を新たに録音することを選択した場合、システム（サーバ１００Ａ）は、複数の楽曲から不足範囲の特性値の音を十分に含む楽曲を特定し、ユーザに推薦する（Ｓ８０９）。つまり、システムは、複数の楽曲のうち、不足範囲の特性値の音符を含む１又は複数の候補曲を検出し、ユーザに対して、検出された候補曲を提示する。本実施形態の場合、システムは、予め（図８に示す訓練処理が開始される前に）公開された楽曲の楽譜データに含まれる複数の音符を分析し、当該楽曲で演奏されるべき音信号の特性分布（当該楽曲の特性分布と呼ぶ）を取得している。

　システムは、ユーザに対して楽曲を推薦する際に、例えば図６と同様の態様で、推薦した各楽曲の特性分布を参考として表示する（Ｓ８１０）。推薦する楽曲が複数である場合、システムは、複数の楽曲の複数の特性分布を一括で表示してもよいし、１曲分ずつ個別に表示してもよい。Ｓ８１０で表示される特性分布は、当該特性分布に対応する楽曲の楽譜データに基づく、当該楽曲の特性分布である。

　Ｓ８０９で推薦される楽曲の音波形は、音響モデル１２０Ａの訓練の前に録音される音波形であり、その訓練に使用される予定の（又は、使用される可能性がある）音波形である。

　Ｓ８１０で表示される楽曲の特性分布の画面の一例を図１０に示す。図１０の画面には、参考として、図９と同様の不足範囲が点線で表示されている。システム（サーバ１００Ａ）は、例えば、分析済みの楽曲の中から、この不足範囲に十分なデータ量を有する楽曲を、推薦する楽曲として特定する。図１０の特性分布は１つの楽曲分の音信号だけの特性分布である。したがって、図１０の特性分布のデータ量は、図６に示すような音響モデル１２０の訓練に用いられた全音波形の特性分布のデータ量と比べてかなり少ない。

　ユーザは、Ｓ８０９、Ｓ８１０で推薦された楽曲から、例えば１つの楽曲を選択して演奏する。システム（通信端末２００）は、演奏された楽曲を録音し（Ｓ８１１）、その録音データ（新たな音波形）をサーバ１００Ａに送信する。システム（サーバ１００Ａ）は、その新たな音波形を既存の音波形と同様に、そのユーザの記憶領域に保存する。続いてＳ８０７で音波形の選択処理が行われる。

　Ｓ８１１でユーザによって録音された新たな音波形の特性分布は、当該楽曲の楽譜データの特性分布と必ずしも一致しない。新たな音波形全体の特性分布は、図１０の特性分布と必ずしも一致しない。システム（サーバ１００Ａ）は、既存の音波形及び新たな音波形の中から訓練に用いられる音波形を選択し（Ｓ８０７）、訓練に用いられる音波形を分析して、その特性分布を取得する（Ｓ８０８）。ここで取得される特性分布は、その音波形が用いられた将来の訓練で確立されることが期待される音響モデル１２０Ａについて、その将来の訓練で使用された音波形の特性分布である。Ｓ８０８において、システムは、当該期待される訓練済み音響モデル１２０Ａの訓練で使用された全音波形の特性分布を表示する。その訓練のベースモデルが訓練済み音響モデルである場合、ベースモデルの特性分布と当該期待される音響モデル１２０の特性分布とを合成した特性分布が表示される。ユーザは、この特性分布を見て、Ｓ８０７で特定した音波形が適正か否か判断できる。

　Ｓ８０６の問い合わせに対して、ユーザが（訓練不要ボタンを操作して）訓練を希望しない旨の返答をした場合、図８に示すフローは終了する。

　Ｓ８０８に続き、サーバ１００Ａは、ユーザに対して、音響モデル１２０Ａの訓練実行の要否を問い合わせる（Ｓ８１２）。当該問い合わせに対して、ユーザが訓練実行ボタンを操作して、Ｓ８０７で選択された音波形が用いられた訓練の実行を指示した場合、システム（サーバ１００Ａ）は、Ｓ５０２と同様に、Ｓ８０１で選択された音響モデル１２０Ａの訓練を、Ｓ８０７で選択された音波形を用いて実行し、訓練済みの音響モデル１２０Ａを確立する（Ｓ８１３）。システム（サーバ１００Ａ）は、Ｓ７０３～Ｓ７０６と同様に、確立された音響モデル１２０Ａの訓練に用いられた全音信号の特性分布を取得し、履歴データとして当該音響モデル１２０Ａにリンクする（Ｓ８１４）。

　他方、上記の問い合わせに対して、ユーザが（音波形の再選択ボタンを操作して）音波形の再選択を指示した場合、システム（サーバ１００Ａ）は、再度ユーザに対して音波形を選択するためのＧＵＩを提供し、Ｓ８０７に示すようにユーザの選択操作に応じて音波形を特定する。

　Ｓ８１２の問い合わせに対して、ユーザが（訓練のキャンセルボタンを操作して）訓練の実行をキャンセルする旨を指示した場合、システムは、図８に示す処理を終了する。

　Ｓ８１２において、システムはユーザに対して新たな録音の要否を問い合わせてもよい。その問い合わせに対し、ユーザが（録音＆訓練ボタンを操作して）音波形を新たに録音する旨を指示した場合、上述したＳ８０９～Ｓ８１１以降の処理が行われる。

　Ｓ８０９では、システムは、過去に音響モデル１２０Ａの訓練に使用された楽曲に基づいて、新たな楽曲を推薦してもよい。例えば、システムは、既に訓練に使用された楽曲と同じ歌手又は演奏者の別の楽曲を推薦してもよい。システムは、訓練に使用された楽曲と同じ又は近いジャンルの楽曲を推薦してもよい。さらに、システムは、一曲の全体を推薦してもよく、一曲の一部だけを推薦してもよい。

　以上のように、本実施形態に係る音響モデル訓練システム１０Ａによると、現在の音響モデル１２０Ａにおいて訓練不足の領域に適した訓練用音波形をユーザが効率よく準備ないし選定することができ、当該領域にデータを補充するために適した楽曲をユーザに推薦することができる。

［３．第３実施形態］
　図１１を用いて、第３実施形態に係る音響モデル訓練システム１０Ｂについて説明する。音響モデル訓練システム１０Ｂの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図４を参照し、これらの図に示された符号の後にアルファベット“Ｂ”を付して説明する。

［３－１．楽曲の選択・編集・再生処理］
　図１１は、システム１０Ｂによって実行されるフローチャートであり、ユーザが所望の楽曲の選択、編集、再生をできるようにするために、楽曲の選択・編集・再生処理を例示するフローチャートである。図１１では、音響モデル１２０Ｂの特性分布に基づいて、音響モデル１２０Ｂの得意度を評価し、その得意度をユーザに対して表示する構成について説明する。

　システム（サーバ１００Ｂ）は、ユーザからの選択指示に応じて、複数の訓練済み音響モデルの中から音響モデル１２０Ｂを選択し、リンクされた履歴データに基づいて、当該音響モデル１２０Ｂの特性分布を取得する（Ｓ１１０１）。続いて、システム（サーバ１００Ｂ）は、複数の楽曲から、Ｓ１１０１で取得された特性分布に適合しそうな１又は複数の候補曲を特定し（Ｓ１１０２）、各候補曲に対する当該音響モデル１２０Ｂの得意度を評価する（Ｓ１１０３）。

　各音響モデル１２０Ｂは、初期モデルから複数の第１楽曲の音波形を用いて訓練されたモデルであり、その訓練の少なくとも一部において、第１楽曲の演奏音の音波形及び当該音波形に対応する楽譜を用いて訓練されている。つまり、音響モデル１２０Ｂは、過去に訓練に用いられた第１楽曲の音波形の少なくとも一部の楽譜の楽譜特徴量と、当該音波形の第１音響特徴量とを含む訓練データとを用いて訓練されたモデルである。この音響モデル１２０Ｂに（訓練に使用されていない）未知の第２楽曲の楽譜が入力されると、音響モデル１２０Ｂは、当該第２楽曲の楽譜特徴量に応じた第２音響の音響特徴量（第２音響特徴量）を生成する。

　Ｓ１１０１において、システム（サーバ１００Ｂ）は、選択された音響モデル１２０Ｂの訓練に用いられた第１楽曲の全音波形の履歴を示す履歴データを取得する。第１実施形態に関して説明したように、当該音響モデル１２０Ｂにリンクされた履歴データには、前記全音波形の識別子、又は、前記全音波形の特性分布が含まれていてもよい。システム（サーバ１００Ｂ）は、当該履歴データに基づいて、前記全音信号の特性分布を、当該音響モデル１２０Ｂの特性分布として取得する。ここで取得される特性分布は、音信号の複数の特性のうち、ユーザの指定した又は所定の、何れか１以上の特性の分布である。システムは、当該音響モデルの特性分布を通信端末２００Ｂの表示器に表示してもよい。本明細書において、楽譜データを「楽譜」と呼ぶ場合がある。

　システムには、複数の楽曲の楽譜データが用意されている。Ｓ１１０２において、システムは、前記複数の楽曲の各々を分析し、その楽曲の特性分布を取得し、前記複数の楽曲のうちから、その楽曲の特性分布が当該音響モデル１２０Ｂの特性分布から外れる量が少ない楽曲を選択することで、当該楽曲を当該音響モデル１２０に適合しそうな候補曲（推薦曲とも呼ぶ）として特定する。又は、Ｓ１１０２において、システムは、前記複数の楽曲の各々の最高音と最低音とを検出し、前記取得された音響モデル１２０Ｂの特性分布がその最高音及び最低音を含む１又は複数の楽曲を選択して、当該楽曲を当該音響モデル１２０Ｂに適合しそうな候補曲として特定してもよい。

　演奏する楽曲に対する得意度は、前記取得した特性分布及びその楽曲の楽譜データに基づいて評価される。具体的には、その得意度は、当該音響モデル１２０Ｂの特性分布が、その楽譜データの特性をカバーする程度である。当該音響モデル１２０Ｂの特性分布が楽譜データの特性をカバーする、とは、楽譜データに基づく音信号の特性が分布する範囲に、当該音響モデル１２０Ｂの特性が分布していること、つまり、その範囲の音信号を当該音響モデル１２０Ｂが既に学習していることを意味する。例えば、両特性分布を重ねた場合に、楽譜データの特性分布が、当該音響モデルの特性分布の内側に存在する場合、得意度は１００％である。

　さらに、得意度は、楽譜データの特性が分布する範囲の各特性値における、当該音響モデル１２０Ｂの特性分布のデータ量に基づいて評価されてもよい。具体的には、得意度は、その範囲の特性値のうち、その特性分布のデータ量が所定量（例えば、４０秒）より多くなる特性値の割合を意味してもよい。例えば、楽譜データの特性分布の範囲の全特性値において、当該音響モデル１２０Ｂの特性分布のデータ量が所定量より多い特性値の割合が８０％である場合、当該音響モデルの得意度（カバー率）は８０％である。

　得意度は数値、メータ、又はバーグラフで表されてもよい。又は、図６の表示において、システムが当該音響モデル１２０Ｂの特性分布と楽曲の楽譜データの特性分布とを重ねて表示することによって、ユーザは、その表示を見て、当該音響モデルのその楽曲に対する得意度を認識できる。

　Ｓ１１０３において、システム（サーバ１００Ｂ）は、候補曲として特定された楽曲（第２楽曲）の楽譜及び当該音響モデル１２０Ｂの特性分布に基づき、当該音響モデルの、第２楽曲に対する得意度を評価する。Ｓ１１０２とＳ１１０３との実行順を逆にしてもよい。その場合、システムは、まずＳ１１０３において、用意された複数の楽曲全部の得意度を評価し、続くＳ１１０２において、複数の楽曲のうちから、得意度が高い１又は複数の曲を選択し、候補曲として特定してもよい。又は、複数の楽曲のうち得意度が閾値より高い楽曲を選び、選択された楽曲のうちから得意度の高い１又は複数の楽曲を候補曲として特定してもよい。

　続いて、システムは、各候補曲（推薦曲）に対応付けて、当該音響モデル１２０Ｂのその候補曲に対する得意度を表示する（Ｓ１１０４）。この推薦曲及び得意度の表示の一例を図１２に示す。この例では、当該音響モデル１２０Ｂの特性分布に基づいて選択された複数の第２楽曲と、その各楽曲に対する当該音響モデル１２０Ｂの得意度とを対応付けて表示することで、ユーザにそれら楽曲を推薦している。

　図１２に示すＧＵＩ１６０Ｂは、システム（通信端末２００Ｂ）の表示器に表示され、表題１６１Ｂ、推薦曲の表示欄、及び選択ボタン１６６Ｂを含む。推薦曲の表示欄には、各推薦曲と、その推薦曲を選ぶためのラジオボタン１６２Ｂ～１６５Ｂと、その推薦曲についての得意度、ジャンルなどの付加情報が表示される。

　ユーザが、ＧＵＩ１６０Ｂにおいて、複数の推薦曲のうちの所望の楽曲に対応するラジオボタンを選択して選択ボタン１６６Ｂを押すと、システム（サーバ１００Ｂ）は当該ユーザ操作に応じてその楽曲を選択する（Ｓ１１０５）。

　続いて、システム（サーバ１００Ｂ）は、選択された楽曲の楽譜データの一連の音符のうち各音符に対する当該音響モデル１２０Ｂの得意度を、当該音響モデル１２０Ｂの特性分布に基づいて評価し（Ｓ１１０６）、システム（通信端末２００）の表示器に、その楽曲の各音符を、その音符に対する得意度とともに表示する（Ｓ１１０７）。例えば、システムは、得意度の表示付きで、その楽曲のピアノロールを表示してもよい。当該得意度は、各音符に対して評価されているため、当該ピアノロールにおいて、音符毎に得意度が表示される。

　Ｓ１１０７で表示されるピアノロールの一例を図１３に示す。図１３に示すピアノロール１７０Ｂにおいて、横軸が「時間（ｓｅｃ）」であり、縦軸が「音高」である。

　ピアノロール１７０Ｂ中には、選択された楽曲の一連の音符の各々のピッチとタイミングとを示す複数の音符バー１７１Ｂが表示される。各音符の音符バー１７１Ｂは、例えば、３種類の態様のうちその音符に対する得意度に応じた何れか１の態様で表示される。密なハッチングの音符バー１７２Ｂ「優」は、その音符に対する得意度が高いことを示す。疎なハッチングの音符バー１７３Ｂ「可」は、その音符に対する得意度が中程度であることを示す。白の音符バー１７４Ｂ「劣」は、その音符に対する得意度が低いことを示す。つまり、音符バーは、得意度が高い順に「優」、「可」、「劣」の３つのレベルで表示される。

　ここでは、当該音響モデル１２０Ｂの得意度が、音符毎に評価され表示される。当該得意度は、上記楽曲（第２楽曲）の各音符の区間の楽譜について評価され、図１３のように、音符の区間毎に表示される。

　同じ音高であっても、強度が異なれば得意度が異なる場合がある。図１３には、音高が同じでも得意度が異なる音符、及び音高が同じでも得意度が途中で変わる音符がある。楽曲に対する得意度の区分数は、３つに限らず、２つでも４つ以上でもよい。異なる区分は、ハッチングの差異に限らず、色、明るさ、形状、ぼやけ具合などの差異で表現してもよい。

　図１３のバーをその上方から指し示す矢印は、後述する再生動作において、再生位置を示すカーソル１７５Ｂである。さらに、グラフの下方に示された得意度メータ１７６Ｂには、カーソル１７５Ｂの位置における楽曲の得意度が表示される。得意度メータ１７６Ｂの下方には、再生ボタン１７８Ｂ及び取消ボタン１７９Ｂが表示される。システムは、ユーザが音符バーを編集操作したか否かの判定（Ｓ１１０８）と、ユーザが再生ボタン１７８Ｂを操作したかい否かの判定（Ｓ１１１０）とを行う。

　ユーザが何れかの音符バーを編集操作した場合（Ｓ１１０８の「ＹＥＳ」）、サーバ１００Ｂは、その編集操作に応じて、楽曲の楽譜データのうち、その音符バーに対応する音符を編集する（Ｓ１１０９）。当該編集は、その音符の音高、強度、音韻、音長、及びスタイルのいずれかの変更を含む。例えば、ユーザがある音符バーを縦軸方向に動かすと、対応する音符の音高が変更され、横方向に動かすと、その音符のタイミングが変更される。ユーザがある音符バーの長さを変更すると、対応する音符の音長が変化する。さらに、ユーザは、ある音符バーのプロパティ編集画面を開いて、対応する音符の強度やスタイルを変更できる。当該編集が行われると、再度Ｓ１１０６、Ｓ１１０７の処理によって、編集された音符に対する得意度が評価し直され、当該音符に対する表示（得意度を含む表示）が更新される。

　一方、ユーザが何れの音符バーも編集操作しない場合（Ｓ１１０８の「ＮＯ」）、システムは、Ｓ１１１０で再生ボタン操作の有無を判断する。ユーザが再生ボタン１７８Ｂを操作した場合（Ｓ１１１０の「ＹＥＳ」）、サーバ１００Ｂは、当該音響モデル１２０Ｂを用いて、当該楽曲の楽譜データに応じた音波形を合成し、再生デバイスを用いて、その合成された音波形を再生し（Ｓ１１１１）、その再生が完了したら、ピアノロール表示を消去して、図１１の処理を終了する。再生の完了時に、図１１の処理を終了する代わりに、ピアノロール表示を残したまま、Ｓ１１０８に進んでもよい。

　上記の音波形の合成は、システム（サーバ１００Ｂ又は通信端末２００Ｂ）が入手した楽曲の楽譜データに基づく音波形（歌唱又は楽器音）の合成である。本実施形態では、Ｓ１１１０で再生指示された後に、Ｓ１１１１で楽譜データに基づく音波形が合成される。しかし、当該音波形の合成は、再生指示されるより前に行われてもよい。例えば、当該音波形の合成は、Ｓ１１０５で楽曲が選択された時点、又は楽譜データの編集が行われた時点などに行われてもよい。この場合、Ｓ１１１０における再生指示に応じて、予め合成された音波形が再生される。

　他方、ユーザが図１３に示す再生ボタン１７８Ｂを操作しない場合（Ｓ１１１０の「ＮＯ」）、システムは、Ｓ１１０８のステップに戻り、編集要否を判断する。つまり、ユーザが音符バーの編集操作も再生ボタンの操作も行わない場合、サーバ１００Ｂは、Ｓ１１０８、Ｓ１１１０のステップを繰り返すスタンバイ状態である。ユーザが取消ボタン１７９Ｂを操作すると、システムは、ピアノロール表示を消去して、図１１の処理を終了する。

　以上のように、本実施形態に係る音響モデル訓練システム１０Ｂによると、ユーザは、選択した訓練済み音響モデル１２０Ｂの特性分布に基づき、当該音響モデル１２０Ｂで再生するのに適した楽曲を、容易に選択できる。ユーザは、楽曲の各音符に関連づけて、当該音響モデル１２０Ｂのその音符に対する得意度を確認できる。さらに、ユーザは、楽曲の一連の音符の各々に対する得意度を確認しつつ、その楽曲の音符を個別に編集できる。

［４．第４実施形態］
　図１４を用いて、第４実施形態に係る音響モデル訓練システム１０Ｃについて説明する。音響モデル訓練システム１０Ｃの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図４を参照し、これらの図に示された符号の後にアルファベット“Ｃ”を付して説明する。

［４－１．特性分布の表示方法］
　図１４は、システム１０Ｃが表示する音波形の特性分布の一例である。図１４に示す特性分布は、図６に示す特性分布と類似しているが、特性分布を表示する２つの特性のうち、一方の特性が所定の範囲にある場合における他方の特性に係る分布を表示する点において、両者は相違する。

　図１４では、ユーザが、第３区分に相当する音波形のデータ量が１００［ｓｅｃ］より大きい条件を指定し、データ量の表示を音高についてその条件を満たす範囲（Ｍ１［Ｈｚ］～Ｍ２［Ｈｚ］）に限定した場合において、第２軸表示部１４３Ｃにおける音量の特性分布の表示例が示されている。つまり、第１軸表示部１４２Ｃにおいて斜線で示された範囲（Ｍ１［Ｈｚ］～Ｍ２［Ｈｚ］）の音波形の音量の分布が、第２軸表示部１４３Ｃに表示される。このように、図１４では、システムは、音高（第１特性）が所定範囲内である場合における音信号の音量（第２特性）の特性分布を表示する。

　図１４の例では、音波形のデータ量に基づいて、第１特性の範囲が決定されているが、これに限定されない。第１特性の範囲、つまり下限Ｍ１及び上限Ｍ２を、それぞれユーザが任意の値に設定してよい。下限Ｍ１及び上限Ｍ２の何れか一方だけを指定してもよい。又は、第２特性の範囲を指定し、その範囲における音波形の第１特性の分布が表示されてもよい。

　以上のように、本実施形態に係る音響モデル訓練システム１０Ｃによると、ユーザは、第１特性に関して注目した音信号（訓練データ）の第２特性の特性分布を確認できる。例えば、音高が上限Ｍ２より低い範囲において、どの強度の音波形による訓練が不足しているか確認できる。又は、強度が下限Ｍ１より強い範囲において、どの音高の音波形による訓練が十分か確認できる。

［５．第５実施形態］
　図１５を用いて、第５実施形態に係る音響モデル訓練システム１０Ｄについて説明する。音響モデル訓練システム１０Ｄの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図４を参照し、これらの図に示された符号の後にアルファベット“Ｄ”を付して説明する。

［５－１．リアルタイム得意度表示］
　図１５は、楽曲再生処理を例示するフローチャートである。図１５に示すフローチャートに示す処理では、音響モデル訓練システム１０Ｄは、サーバ１００Ｄ又は通信端末２００Ｄに未保存の楽曲を、外部の配信サイトから、楽曲のストリームとして、その楽曲の楽譜データの一部分を順次受信しつつ音声合成を行う。本実施形態の場合、システムは、当該楽曲の一連の各音に対する得意度を予め算出できない。したがって、本実施形態では、システム（サーバ１００Ｄ）は、各時点において受信したストリームに基づいて、そのストリームに含まれる各音に対する得意度をリアルタイムに計算し、表示する。

　システム１０Ｄは、通信端末２００Ｄ（又はユーザ）からの選択操作に応じて、複数の楽曲の中から所望の楽曲を選択する（Ｓ１５０１）。システム（サーバ１００Ｄ）は、選択された楽曲の楽譜を分析し、その楽曲の特性分布を取得し、当該特性分布を、複数の音響モデル１２０Ｄの特性分布と対比し、その楽曲の特性分布をカバーできる特性分布を有する１以上の音響モデル１２０Ｄを、当該楽曲に適した候補モデルとして特定する（Ｓ１５０２）。つまり、システムは、楽曲に応じて、当該楽曲に適した音響モデル１２０Ｄを推薦する。そして、システム（サーバ１００Ｄ）は、当該楽曲に対する、各候補モデルの得意度を取得する（Ｓ１５０３）。得意度の評価方法は、第２実施形態（図１１に係る説明）と同様の手法で行われるため、詳細な説明を省略する。

　続いて、システムは、上記楽曲の特性分布及び各候補モデルの特性分布と、当該楽曲に対する各候補モデルの得意度とをシステム（通信端末２００Ｄ）の表示器に表示する（Ｓ１５０４）。当該表示は、例えば、当該楽曲の特性分布及びユーザによって指定された何れかの候補モデルの特性分布が図６に示すようなグラフで表示され、その候補モデルの当該楽曲に対する得意度が、テキスト形式で、グラフ表示と重ねて又は並べて表示される。当該グラフ表示とテキスト形式の表示とが並列に表示されてもよい。

　候補モデルとして複数の音響モデル１２０Ｄが特定された場合、ユーザは、Ｓ１５０４で表示された特性分布及び得意度を参照して、何れか１の音響モデル１２０Ｄを選択する。システム（サーバ１００Ｄ）は、その選択操作に応じて、その音響モデル１２０Ｄを選択する（Ｓ１５０５）。

　続いて、システムは、ユーザに対して、Ｓ１５０１で選択された楽曲又はＳ１５０５で選択された音響モデル１２０Ｄの変更要否（Ｓ１５０６）、及び当該楽曲の再生要否（Ｓ１５０７）を問い合わせる。

　ユーザがＳ１５０６で（音響モデルの選択ボタンを操作して）音響モデル１２０Ｄの変更を指示した場合、システムは、再度、上記の特性分布及び得意度をシステム（通信端末２００Ｄ）の表示器に表示し（Ｓ１５０４）、ユーザによる新たな選択操作に応じて、何れか１の音響モデル１２０Ｄを選択する（Ｓ１５０５）。他方、ユーザがＳ１５０６で（楽曲の選択ボタンを操作して）楽曲の変更を指示した場合、システム（サーバ１００Ｄ）は、ユーザによる新たな選択操作に応じて、何れか１の楽曲を選択する（Ｓ１５０１）。

　ユーザがＳ１５０６で（いずれの選択ボタンも操作せず）変更を指示しない場合（Ｓ１５０６の「ＮＯ」）、システムは、楽曲の再生要否（Ｓ１５０７）を判断する。ユーザが（再生ボタンを操作して）楽曲の再生を指示した場合（Ｓ１５０７の「ＹＥＳ」）、処理フローは楽曲再生のステップに進む。他方、ユーザがＳ１５０７で（再生ボタンを操作せず）再生を指示しない場合（Ｓ１５０７の「ＮＯ」）、システムは、Ｓ１６０６のステップに戻り、再び、上述の変更要否を判断する。つまり、ユーザが変更も再生も指示しない場合、システムは、Ｓ１５０６及びＳ１５０７のステップを繰り返すスタンバイ状態である。このように、処理フローがループすることによって、ユーザが楽曲の再生の前に楽曲や使用する音響モデルを選択し直すことができる。ユーザがＳ１５０７で取消を指示すると、システムは、図１５に示す一連の処理フローを終了する。

　Ｓ１５０７でユーザが再生を指示すると、システム（サーバ１００Ｄ）は、楽曲のストリームを取得する（Ｓ１５０８）。具体的には、ユーザが再生を指示すると、システムは、当該再生指示の操作に応じて、配信サイトに当該楽曲を要求する。当該要求に応じて、当該配信サイトからシステム（サーバ１００Ｄ）に、当該楽曲のストリーム配信が開始される。楽譜データの部分ごとのストリーム配信は、楽曲の先頭から末尾まで継続的に行われる。つまり、Ｓ１５０８において、システム（サーバ１００Ｄ）は、楽曲（第２楽曲）の楽譜の一部分を順次受け取る。なお、配信サイトが楽曲を通信端末２００Ｄにストリーム配信し、通信端末２００Ｄがその受信した楽譜の一部分をサーバ１００Ｄに順次転送してもよい。

　システム（サーバ１００Ｄ）は、楽曲のストリーム（一部分）を取得するごとに、選択された音響モデル１２０Ｄを用いた第２音響のリアルタイム生成と、その音響モデル１２０の得意度の表示とを並行で行う（Ｓ１５０９、Ｓ１５１０）。システム（サーバ１００Ｄ）は、リアルタイム生成に並行して、受け取った楽譜の一部分とその音響モデル１２０Ｄの特性分布とに基づいて、その楽譜の一部分に対する、その音響モデル１２０Ｄの得意度をリアルタイムで取得（評価）する（Ｓ１５０９）。続いて、サーバ１００Ｄは、その音響モデル１２０Ｄを用いて、その楽譜の一部分を処理して、その一部分に対応する第２音響特徴量をリアルタイムで生成し、その第２音響特徴量に基づいて音波形（第２音響）をリアルタイムで合成して再生するとともに、その取得された得意度をリアルタイムで表示する（Ｓ１５１０）。

　なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

［６．第６実施形態］
　図１６～図２４を用いて、本発明の一実施形態に係るサービスについて説明する。

　図１６は、本発明の一実施形態に係るサービスのプロジェクト概要を説明する図である。図１６には、プロジェクト概要に係る説明が記載されている。「プロジェクト概要」として、以下の項目が記載されている。
・目的
・基本機能
・補足

　「目的」の項目には、以下の内容が記載されている。
・歌声合成技術ＶＯＣＡＬＯＩＤ：ＡＩのボイスバンクをユーザが制作するサービスの試作・評価。
・技術的課題の洗い出し（多様な入力への耐性，計算時間など）。
・社会的な応用可能性・課題の洗い出し（想定外の応用や悪用をユーザが試みる可能性）。

　「基本機能」の項目には、以下の内容が記載されている。
・歌声データをアップロードするとＶＯＣＡＬＯＩＤ：ＡＩのボイスバンクが機械学習されるＷｅｂサービス。

　「補足」の項目には、以下の内容が記載されている。
・商用の実サービスとしての提供は未定（その可否を検証する）。
・ただし，最大１００人程度のモニターユーザーを公募してオープンベータテストを実施することが望ましい。

　図１７は、本発明の一実施形態に係るサービスの背景を説明する図である。図１７には、背景に係る説明が記載されている。「背景」として、以下の事項が記載されている。
（Ａ）従来，ＶＯＣＡＬＯＩＤのボイスバンク制作は企業にしかできなかった。
（Ｂ）ＶＯＣＡＬＯＩＤ：ＡＩでは個人でもボイスバンク制作ができるようにすることが望ましい。

　（Ａ）には、以下の内容が記載されている。
・技術的制約から，非常に大きな（１０００万円程度）制作コストがかかる。
・そのため限られた企業の趣向に従った，限られた数のボイスバンクしか世に出なかった。

　（Ｂ）には、以下の内容が記載されている。
・技術的には，歌声データさえあれば，機械学習によってほぼ全自動で制作可能である。
・世界中の個人にも参加してもらい，音楽制作における多様な声での歌声合成を実現することが望ましい。
・テキスト音声合成では，他社から既にそのようなサービスが出現している。

　図１８は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図１８には、「ｖｏｃｔｒａｉｎ機能概要」が記載されている。ｖｏｃｔｒａｉｎは、本発明の一実施形態に係るサービスの名称である。図１８には、当該サービスにおいて提供されるユーザインタフェースの一例が示されている。

　図１８の「ｖｏｃｔｒａｉｎ機能概要」には、以下の内容が記載されている。
１．ユーザはＷＡＶファイルを多数アップロードして保管できる。

　図１９は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図１９には、「ｖｏｃｔｒａｉｎ機能概要」が記載されている。図１９には、当該サービスにおいて提供されるユーザインタフェースの一例が示されている。

　図１９の「ｖｏｃｔｒａｉｎ機能概要」には、以下の内容が記載されている。
２．ユーザはＶＯＣＡＬＯＩＤ：ＡＩボイスバンクを訓練できる。
・自身がアップロードし保管しているＷＡＶファイルから，複数を選択して訓練ジョブを実行する。
・ファイルの組み合わせや種々の条件を変更して，複数回実行可能である。

　図２０は、本発明の一実施形態に係るサービスの機能概要を説明する図である。図２０には、「ｖｏｃｔｒａｉｎ機能概要」が記載されている。図２０には、当該サービスにおいて提供されるユーザインタフェース及び専用アプリケーション（専用アプリ）にダウンロードされた音波形の一例が示されている。

　図２０の「ｖｏｃｔｒａｉｎ機能概要」には、以下の内容が記載されている。
３．訓練完了後，ボイスバンクとサンプル合成音をダウンロードできる。
・ローカルＰＣ上で専用のアプリを使うことで任意の歌声を合成できる。

　図２０に示すように、ユーザインタフェースに表示された「ダウンロード」のアイコンを選択すると、選択されたアイコンとリンクする音波形がダウンロードされる。ダウンロードされたデータ（ＤＬデータ）を専用アプリで表示した画面が図２０に示されている。

　図２１は、本発明の一実施形態に係るサービスにおける実装を説明する図である。図２１には、実装に係る説明が記載されている。「実装」として、以下の項目が記載されている。
・ＡＷＳ（Ａｍａｚｏｎ　Ｗｅｂ　Ｓｅｒｖｉｃｅ）上での実装。

　「ＡＷＳ上での実装」の項目には、以下の項目が記載されている。
・主要な利用サービス
・個人情報の保管

　「主要な利用サービス」の項目には、以下の内容が記載されている。
・ＥＣ２（Ｗｅｂサーバ，機械学習）
・Ｓ３（オーディオデータ，学習済みデータ保管）
・ＡＷＳ　Ｂａｔｃｈ（ジョブ実行）
・ＲＤＳ（ファイルリスト，ユーザ情報などのデータベース）
・Ｒｏｕｔｅ５３（ＤＮＳ）
・Ｃｏｇｎｉｔｏ（ユーザ認証）
・ＳＥＳ（通知メール配信）

　「個人情報の保管」の項目には、以下の内容が記載されている。
・ＲＤＳとＣｏｇｎｉｔｏに氏名・メールアドレスを保管

　図２２は、本発明の一実施形態に係るサービスのシステム構成を説明する図である。図２２では、一般ユーザによってアップロード（ＨＴＴＰＳファイルアップロード）された音声ファイルが訓練データ格納に格納されている。訓練データ格納に格納された音声ファイルが、ＥＣＳ（Ｅｌａｓｔｉｃ　Ｃｏｎｔａｉｎｅｒ　Ｓｅｒｖｉｃｅ）にコピー（データコピー）され、ＥＣＳにおいて音響モデルの訓練が実行される。訓練が実行されると、その結果が出力される。出力結果には、訓練済みボイスバンクファイル及びサンプル合成音が含まれる。出力結果は、直接又はロードバランサー（ＡＬＢロードバランサー）を介してＷｅｂサーバ（ＥＣ２　Ｗｅｂサーバ）に転送される。

　図２３は、本発明の一実施形態に係るサービスについて、商用サービスとしての将来構想を説明する図である。図２３には、商用サービスとしての将来構想に係る説明が記載されている。「商用サービスとしての将来構想」として、以下の事項が記載されている。
（Ｃ）ユーザがＷｅｂ上でＶＯＣＡＬＯＩＤ：ＡＩボイスバンクを売買する。

　（Ｃ）には、以下の内容が記載されている。
・スマホアプリストアのイメージ。
・ヤマハの商用歌声合成アプリ（ＶＯＣＡＬＯＩＤシリーズなど）で合成が可能になる。
・売り上げはボイスバンク制作ユーザに還元され，ヤマハは手数料をとる。

　図２４は、本発明の一実施形態に係るサービスの構造イメージを説明する図である。図２４に示すように、ボイスバンク制作・販売サービスは、ボイス販売の売上金から手数料をもらうビジネスである。利用者は、ボイス提供者及び音楽制作者である。事業としてボイスバンク学習サーバ及びボイスバンク販売サイトが実施される。

　ボイスバンク販売サイトは、制作ページ及び販売ページを含む。ボイス提供者は、制作ページに対して歌唱音源を提供（アップロード）する。歌唱音源をアップロードするときに、制作ページはボイス提供者に対して、歌唱音源を研究利用することについて許諾してもらう。音楽制作者が販売ページに対して購入代金を支払うことで、販売ページから音楽制作者にボイスバンクが提供される。

　事業者は、ボイスバンク販売サイトのサイト運営費を負担する代わりに、ボイスバンク販売サイトから販売手数料を事業者の収益として得る。ボイス提供者は、購入代金から手数料（販売手数料）を差し引いた額を収益として得る。

　ボイス提供者から提供された歌唱音源は、制作ページからボイスバンク学習サーバに提供される。ボイスバンク学習サーバは、研究利用が許諾された歌唱音源とボイスバンクとを事業者に提供する。事業者は、ボイスバンク学習サーバのサーバ運用費を負担し、事業者の研究成果をボイスバンク学習サーバに反映する。ボイスバンク学習サーバは、提供された歌唱音源に基づいて得られたボイスバンクを制作ページに提供する。

　なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、本発明に係る実施形態は以下の構成であってもよい。

［発明１－１］
［１．発明の概要］
　音響モデルの訓練制御方法において、
　端末からクラウドに予め複数の波形をアップロードし、前記アップロードされた波形の中から所望の波形を端末によって選択し、音響モデルの訓練ジョブの起動を指示したことに応じて、クラウドで、選択された波形を用いて、その音響モデルの訓練を実行し、訓練済みの音響モデルを端末に提供することによって、
　クラウド（サーバ）における音響モデルの訓練を、端末（デバイス）から効率的に制御する。
　ネットワークを介した機械学習システム。

［２．この発明の顧客価値］
　クラウドにおける訓練ジョブについて、端末からの制御が容易になる。
　訓練に使用する波形の組み合わせを変えながら、異なる音響モデルの訓練ジョブを、容易に起動して試すことができる。

［３．従来技術］
　クラウドにおける音響モデルの訓練
・端末は、訓練用の波形を、クラウドにアップロードする。
・クラウドは、アップロードされた波形を用いて音響モデルを訓練し、訓練済の音響モデルを端末に提供する。
・端末は、訓練の都度、波形をアップロードしないといけない。

［４．この発明の効果］
　クラウドにおける訓練ジョブについて、端末からの制御が容易になる。

［５．この発明の構成（構造、方法、工程、組成などの要点）］
［用語の定義］
　１以上のサーバ：単体のサーバや、複数のサーバで構成されるクラウドなどを含む。
　第１デバイス、第２デバイス：それぞれ、特定のデバイスではなく、第１ユーザが使用しているデバイスで、第２ユーザが使用しているデバイスが第２デバイス。第１ユーザが自分のスマートフォンを使用している間は、それが第１デバイスであり、共有のパソコンを使用している間は、それが第１デバイスである。

［基本システム］
（１）　音響特徴量を生成する音響モデルを訓練するシステム
　ネットワークに接続された、
　少なくとも第１ユーザの第１デバイスと、
　１以上のサーバと、
　を含み、
　前記第１デバイスは、前記第１ユーザによる制御の下で、
　　予め、前記１以上のサーバに、複数の波形をアップロードし、
　　前記アップロードされた波形の中から、一組の波形を選択し、
　　前記音響モデルの訓練ジョブの起動を、前記１以上のサーバに指示し、
　前記１以上のサーバは、記第１デバイスからの起動指示に応じて、
　　前記一組の波形を用いた、前記音響モデルの訓練ジョブを実行し、
　　その訓練ジョブによって訓練済みになった音響モデルを、前記第１デバイスに提供する。

［他のユーザへの公開］
（２）　（１）の機械学習システムにおいて、
　さらに、前記ネットワークに接続された、第２ユーザの第２デバイスを含み、
　前記第１デバイスは、前記第１ユーザによる制御の下で、
　　前記起動された訓練ジョブの公開を、前記１以上のサーバに指示し、
　前記１以上のサーバは、前記公開の指示に応じて、
　　前記実行された訓練ジョブの状態を示す情報を、前記第２デバイスに提供する。

（３）　（２）の機械学習システムにおいて、
　前記訓練ジョブの状態は、時間の経過に応じて変化し、
　前記１以上のサーバは、
　　前記実行された訓練ジョブの現時点の状態を示す情報を、前記第２デバイスに繰り返し提供する。

［複数訓練ジョブの並列実行］
（４）　（１）の機械学習システムにおいて、
　前記第１デバイスは、前記第１ユーザによる制御の下で、
　　並列に、複数組の波形を選択して、対応する複数の訓練ジョブの起動を、前記１以上のサーバに対して指示することができ、
　前記１以上のサーバは、それら複数の起動指示に応じて、
　　並列に、前記複数組の波形を使用した前記複数の訓練ジョブを実行する。

（５）　（４）の機械学習システムにおいて、
　さらに、前記ネットワークに接続された、第２ユーザの第２デバイスを含み、
　前記第１デバイスは、前記第１ユーザによる制御の下で、
　　前記実行された複数の訓練ジョブのうち、所望の訓練ジョブの公開を、前記１以上のサーバに選択的に指示し、
　前記１以上のサーバは、前記公開の指示に応じて、
　　前記実行中の複数の訓練ジョブのうち、前記選択的に公開が指示された訓練ジョブに関する情報を、前記第２デバイスに提供する。

［オンライン課金］
（６）　（１）の機械学習システムにおいて、
　前記１以上のサーバは、記第１デバイスからの起動指示に応じて、
　　前記訓練ジョブ実行の対価を、前記第１ユーザに対して、課金し、
　　前記音響モデルの訓練ジョブの実行、および、前記訓練済みの音響モデルの前記第１デバイスへの提供は、前記課金が成功した場合に、実行される。

［カラオケルーム課金］
（７）　（１）の機械学習システムにおいて、
　前記第１デバイスは、前記第１ユーザがレンタルした部屋に設置され、前記訓練ジョブ実行の対価は、その部屋のレンタル費用に含まれる。

（８）　（７）の機械学習システムにおいて、
　前記部屋は、伴奏再生用のヘッドフォンと、収音用のマイクとを備えた防音室である。

［楽曲の推薦］
（９）　（１）の機械学習システムにおいて、
　前記１以上のサーバは、
　　前記アップロードされた複数の波形を分析し、
　　その分析結果に基づき、前記第１ユーザに適した楽曲を選択し、
　　前記選択された楽曲を示す情報を、前記第１デバイスに提供する。

（１０）　（９）の機械学習システムにおいて、
　　前記分析結果は、前記第１ユーザが得意な演奏音域、前記第１ユーザが好きな音楽ジャンル、前記第１ユーザが好きな演奏スタイル、の何れか１以上を示す。

（１１）　（９）の機械学習システムにおいて、
　　前記分析結果は、第１ユーザの演奏スキルを示す。

［６．追加説明］
　複数の音波形からユーザによって選択された音波形を用いて訓練ジョブを実行させる前段階として、ユーザにそのようなインタフェースを提供する。
　本開示は、波形がアップロードされることが前提だが、その本質的な部分は、アップロード済みの波形からユーザによって選択された波形を使って訓練することである。そのため、予めどこかに存在していればよいので「予め登録された」という表現が用いられている。
　実際のサービスでは、デバイス単位でＩＤが割り振られるのではなく、ユーザ単位でＩＤが割り振られる可能性が高い。
　ユーザは複数のデバイスを用いてサービスにログインすることが想定されるため、指示をする主体、及び訓練された音響モデルの提供先が「第１ユーザ」と規定される。
　他のユーザへの公開では、訓練の進行状況や完成度が公開される。公開する情報によって、訓練によって練り上げられている途中のパラメータを確認することができ、その時点でのパラメータを用いた音声を試聴することができる。
　ボイスバンク作製者は、公開された情報に基づいて、訓練を完了させることができる。訓練ジョブにかかる費用が従量制である場合、作製者は訓練の完成度合と費用とのバランスを考えて訓練を実行することができるため、作製者への訓練の程度に対する自由度を高くすることができる。
　一般ユーザは、訓練の進捗を見ながら、ボイスバンクが完成していく様子を楽しむことができる。
　現在の完成度を数値やプログレスバーで表示する。
　カラオケルームにおいて本開示が実施されてもよい。その場合、カラオケルームのレンタル費用に訓練ジョブの対価を加えてもよい。
　カラオケルームを「レンタルした空間」と定義してもよい。部屋以外の具体的な構成を想定している訳ではないが、「部屋」に限定解釈されないようにするためである。
　ユーザアカウントとルームＩＤとを関連付けてもよい。
　音波形に加えて伴奏（音程データ）及び歌詞（テキストデータ）を付加情報として音波形に付加してもよい。
　録音期間を区切ってもよい。
　アップロード前に録音した音声を確認してもよい。
　課金をする場合、ＣＰを使った量に応じて金額を決定してもよく（完全従量制）、基本料金＋従量制で決定してもよい（オンライン課金）。
　カラオケルームで音波形の録音及びアップデートを行うことができる（以下、カラオケルーム課金という）。
　音波形のアップデート及び訓練ジョブを行うサービスに対するユーザアカウントとカラオケルームのルームＩＤとを関連付けることで、アップロードされた音波形を特定するアップロードＩＤに対するユーザアカウントの特定を行ってもよい。
　ユーザアカウントとルームＩＤとの関連付けは、カラオケルームの予約時に行ってもよい。
　カラオケ利用時に録音をする期間を指定できるようにする。曲単位で録音の実行有無を指定してもよく、曲の中で所定の期間を録音するようにしてもよい。
　アップロードする前に、録音したデータを試聴してから、アップロード要否を判断してもよい。
　音楽のジャンルは、曲によって決まるものである。例えば、音楽のジャンルは、ロック、レゲエ、Ｒ＆Ｂなどのジャンルを指す。
　演奏スタイルは、歌い方によって決まるものである。同じ曲でも演奏スタイルは変わる。例えば、演奏スタイルは、笑顔での歌唱、暗い雰囲気での歌唱などを指す。例えば、ビブラートというのは「ビブラートを多用する演奏スタイル」のことであって、ピッチも音量も音色も、またそれらの動的挙動も一貫して全体的にスタイルによって変わる。
　演奏スキルは、コブシなどの歌唱技術を指す。
　ＡＩを用いて、歌声から音楽のジャンル、演奏スタイル、演奏スキルを認識することができる。
　アップロードされた音波形から、不足している音域や音の強度を把握することができる。よって、ユーザに対して、不足した音域や音の強度を含む楽曲を推薦することができる。

［発明１－２］
［１．発明の概要］
　第１入力データと第１音響特徴量とを含む訓練データを用いて、未知の入力データに応じた音響特徴量を生成するよう訓練された音響モデルに関する表示方法において、
　前記音響モデルに、その訓練に用いた前記第１入力データに関する履歴データが付与されており、前記音響モデルを用いた音生成に先立ち、又は、その音生成中に、前記履歴データに応じた表示を行う。
　ユーザは、訓練済みの音響モデルの能力を把握できる。
　音響モデルの訓練履歴を利用する。

［２．この発明の顧客価値］
　ユーザは、履歴データに基づいて、音響モデルの得意不得意を知ることができる。

［３．従来技術］
　音響モデルの訓練／ＪＰ６７４７４８９
・音響モデルに基本訓練した後に、必要に応じて、追加訓練を行うことができる。
・ユーザにとって、基本訓練に使用する波形が十分かどうか、判断するのが難しい。
・ユーザにとって、追加訓練にどのような波形を使うのが良いか、判断するのが難しい。

　音響モデルを用いた音生成
・音響モデルを用いて入力データを処理して、音を生成するとき、その入力データが、その音響モデルの訓練済み領域にあるのか、未訓練の領域にあるのか、ユーザにとって、判断するのが難しい。

［４．この発明の効果］
　ユーザは、履歴データに基づいて、音響モデルの得意不得意を知ることができる。

［５．この発明の構成（構造、方法、工程、組成などの要点）］
（１）　コンピュータで実現される、音響モデルに関する情報表示方法
　前記音響モデルは、第１入力データと第１音響特徴量とを含む訓練データを用いて、未知の第２入力データに応じた音響特徴量を生成するよう訓練されており、また、その訓練に用いた前記第１入力データに関する履歴データが付与されており、
　前記音響モデルを用いた音生成に関連して、前記履歴データに応じた表示を行う。

［音響モデルの習熟状況を表示］
（２）　（１）の表示方法において、
　前記表示ステップは、前記第２入力データが示す何れかの特徴に関して、前記履歴データに基づき、前記音響モデルの習熟状況を表示する。
※音響モデルが、どういう入力データに習熟しているか、が表示される。

（３）　（２）の表示方法において、
　分布が表示される習熟状況は、前記第２入力データが示す音高、強度、音韻、音長、スタイルの何れかの特徴に関する。
※例えば、習熟している音高や強度の範囲が表示される。
※例えば、習熟しているスタイルが表示される。

［楽曲ごとの得意度を表示］
（４）　（１）の表示方法において、
　前記表示ステップは、ある楽曲から生成される第２入力データに基づく音生成に関連して、その第２入力データと前記履歴データとに基づき、前記音響モデルの当該楽曲に関する得意度を推定して表示する。
※音響モデルが、音生成しようとしている楽曲を得意とするか否か、が表示される。

（５）　（４）の表示方法において、
　前記推定して表示するステップは、
　　前記音響モデルの得意度を、当該楽曲の（時間軸上の）各部分ごとに推定し、
　　前記推定された得意度を、当該楽曲の各部分に対応付けて表示する。
※例えば、その色を得意度に応じて変えながら（得意な音符は青、不得意な音符は赤など）、楽曲の各音符を表示する。

（６）　（４）の表示方法において、
　前記分布が表示される得意度は、前記楽曲の第２入力データが示す音高、強度、音韻、音長、スタイルの何れかの１以上の特徴に関する。

［得意度に基づく推薦曲を表示］
（７）　（１）の表示方法において、
　前記表示ステップは、
　　複数の楽曲の第２入力データと前記履歴データとに基づき、各楽曲の得意度を推定し、
　　前記複数の楽曲のうちの前記推定された得意度が高い楽曲を、推薦曲として表示する。

［得意度をリアルタイムに表示］
（８）　（１）の表示方法において、
　前記表示ステップは、
　　前記音響モデルを用いた音生成の実行中に、その音生成に係る前記第２入力データをリアルタイムに受け取り、
　　前記受け取った第２入力データと前記履歴データとに基づいて、前記音響モデルの得意度をリアルタイムに取得して表示する。

［６．追加説明］
　例えば、音強、音高をｘｙ軸として、各点における習熟度を色表示又はｚ軸表示としてもよい。
　習熟状況は、例えば、第２入力データが男性の声で歌うデータの場合に、その場合に対する学習モデルの適性度を、例えば「ｘｘ％」という形で表示する。
　習熟状況は、歌いたい曲がまだ特定されていない状況において、どの範囲の音をよく学習しているか、を示すものである。一方、得意度は、曲が決まった後に、その曲が含む音の範囲とその音の範囲における習熟状況とに応じて、算出されるものである。
　作成したい楽曲が特定された場合に、その楽曲に対して、現在のボイスバンクがどの程度適しているか（得意度）を判断する。例えば、その楽曲で使われる音の強度、音域の習熟状況が十分か否かを判断する。
　得意度の判断は、楽曲単位だけでなく、ある楽曲の中のある区間に対して行うこともできる。
　演奏スタイルを学習していれば、スタイルに応じて推薦するＭＩＤＩデータを選択もできる。
　推薦曲として、学習に用いた楽曲とそれに類似した楽曲とが選択される。この場合、スタイルを学習していれば、そのスタイルに応じた楽曲を推薦することができる。

［発明１－３］
［１．発明の概要］
　複数の波形を用いて音響モデルの訓練する方法において、
　前記訓練に使用される又は使用された波形の特性分布を取得し、前記取得された特性分布を表示することによって、
　音響モデルの訓練状況をユーザが把握できる。
　訓練に用いる波形セットの傾向を表示する。

［２．この発明の顧客価値］
　ユーザは、訓練で不足している波形を特定して準備することで、音響モデルの訓練を効率的に行える。

［４．この発明の効果］
　ユーザは、基本訓練に使用する波形が十分かどうかを、表示を見て判断できる。
　ユーザは、どういう波形が足りないのかを、表示を見て判断できる。

［５．この発明の構成（構造、方法、工程、組成などの要点）］
［訓練データの分布表示］
（１）　コンピュータで実現される、複数の波形を用いて音響モデルの訓練する方法において、
　前記訓練に使用される又は使用された波形のうちの何れかの特性分布を取得し、
　前記取得された特性分布又はその特性分布に関する情報を表示する。

［発明の効果］
　音響モデルの訓練状況をユーザが把握できる。
※例：音高方向又は強度方向のヒストグラムを表示する。

（２）　（１）の訓練方法において、
　前記取得される特性分布は、音高、強度、音韻、音長、スタイルのうちの１以上の特性の分布である。

（３）　（１）の訓練方法において、
　前記取得され表示される特性分布は、前記複数の波形の第１特性と第２特性の２次元分布である。
※例：音高と強度の２次元ヒストグラムを表示する。

（４）　（１）の訓練方法において、
　前記取得ステップでは、
　　前記複数の波形の第１特性と第２特性とを検出し、
　　前記複数の波形のうち、その前記第１特性が所定値である波形の前記第２特性の分布を取得し、
　前記表示ステップでは、
　　前記取得された第２特性の分布を表示する。
※例：強度が強又は弱の波形の、音高方向のヒストグラムを表示する。
※例：音長が短いスタッカート波形の、音高方向のヒストグラムを表示する。

［不足データの指摘］
（５）　（１）の訓練制御方法において、さらに、
　前記取得された特性分布における隙間を検出し、
　前記表示ステップでは、
　　前記検出された隙間に関する情報を表示する。

（６）　（５）の訓練制御方法において、
　前記隙間に関する情報は、前記隙間の特性値を示す。
※ユーザは、その隙間の特性値を認識して、そこを埋める波形を準備できる。

（７）　〔５〕の訓練制御方法において、さらに、
　前記隙間を埋めるのに適した楽曲を特定するステップを含み、
　前記隙間に関する情報は、前記特定された楽曲を示す。
※ユーザは、表示された楽曲を演奏して録音し、その隙間を埋めることができる。

［６．追加説明］
　習熟状況（特性分布）の具体例として、例えば、横軸に音の強度、縦軸に音域として二次元のグラフ上に訓練の習熟度をカラーで表示してもよい。
　訓練に使用する予定の波形を選択（例えば、チェックボックスをチェック）すると、当該波形の特性分布をレビューすることができる。このような構成によって、訓練に足りない特性を視認することができる。
　（６）の「隙間の特性値」は、特性分布のうち、どの音が不足しているかを示す。
　（７）の「楽曲を特定」は、その不足した音を補うために適した曲を推薦することを意味する。

［発明１－４］
［１．発明の概要］
　シンボル（テキストｏｒ楽譜）に基づき音響特徴量を生成する音響モデルの訓練方法において、
　受け取った複数の波形を分析し、目的の音色の音が含まれる区間を検出し、検出された区間の波形を用いて、前記音響モデルを訓練することによって、
　より品質の高い音響モデルを確立する。
　訓練に使用する波形の自動選別。

［２．この発明の顧客価値］
　ユーザが選択した波形に基づき、より品質の高い音響モデルが確立できる。

［３．従来技術］
　音響モデルの訓練／ＪＰ６７４７４８９
・音響モデルに基本訓練した後に、必要に応じて、追加訓練を行うことができる。
・訓練に使用する波形の品質によって、音響モデルの品質が大きな影響を受ける。
・ユーザにとって、訓練に使用する波形を選別するのが面倒である。

　訓練データの選別／ＪＰ４８２９８７１
・音声認識モデルの訓練に適した訓練データを自動選択する。
・音声認識モデルの認識スコアを向上させるための音声データを自動選択するものであり、音声合成や歌唱合成の訓練に適した音声データの選択には簡単に適用できない。

［４．この発明の効果］
　ユーザが選択した波形に基づき、より品質の高い音響モデルが確立できる。

［５．この発明の構成（構造、方法、工程、組成などの要点）］
（１）　シンボル列（テキストｏｒ楽譜）に基づき音響特徴量を生成する音響モデルの訓練方法において、
　入力波形を受け取り、
　前記入力波形を分析し、
　その分析結果に基づいて、特定音色の音が含まれる複数の区間を検出し、
　前記複数の区間の波形を用いて、前記音響モデルを訓練する。

［ユーザが最終判断］
（２）　（１）の訓練方法であって、さらに、
　前記入力波形の時間軸に沿って、前記検出された複数の区間を表示し、
　ユーザの操作に応じて、前記複数の区間の少なくとも１区間を調整する。
　ここで、前記音響モデルの訓練ステップは、調整された区間を含む前記複数の区間の波形を用いて実行される。

（３）　（２）の訓練方法であって、
　前記調整は、前記１区間の境界の変更、削除、追加の何れかである。

（４）　（２）の訓練方法であって、
　前記調整を行う区間の波形を再生する。

［無音の除去および特定音色の判定］
（５）　（１）の訓練方法であって、
　前記分析ステップでは、
　　前記入力波形の時間軸に沿って音の有無を判定し、
　　そこで有音とされた区間の波形の音色を判定し、
　前記検出ステップでは、
　　前記判定された音色が前記特定音色である前記複数の区間が検出される。

［特定音色以外の伴奏音やノイズの除去］
（６）　（１）の訓練方法であって、
　前記分析ステップでは、
　　少なくとも前記有音とされた区間の波形から、前記特定音色の波形が分離され、
　前記音響モデルの訓練には、前記複数の区間の前記分離された波形が用いられる。

（７）　（６）の訓練方法であって、
　前記分離ステップでは、
　　伴奏音、残響音、雑音のうちの少なくとも１が除去される。

［既存コンテンツの著作権の保護］
（８）　（１）の訓練方法であって、
　前記分析ステップでは、
　　前記入力波形に、少なくとも部分的な既存コンテンツの混入の有無を判定し、
前記検出ステップでは、
　　前記入力波形のうち、前記既存コンテンツを含まない区間から、前記特定音色の音が含まれる複数の区間を検出する。

［６．追加説明］
　本開示は、入力データが提供されると音波形を合成するための音響特徴量を生成する音響モデルの訓練方法である。
　本開示は、シンボル列に基づく音響特徴量を生成するという点において、ＪＰ４８２９８７１の音声認識とは異なる。
　所望の音色が含まれている区間のみを使って、効率良く音響モデルを訓練することができる（不要な領域、ノイズ等を除外した訓練が可能になる）。
　選択された波形の区間を調整することで、ユーザの希望に応じた区間を用いて音響モデルの訓練を実行することができる。
　音の有無を判定する際に、音量について一定の閾値に基づいて判断してもよい。例えば「有音区間」は、音量レベルが一定以上の部分であってもよい。

［発明１－５］
［１．発明の概要］
　音響モデルの販売方法において、
　それぞれ、付加情報が付与された複数の音響モデルをユーザに供給し、そのユーザにより、前記複数の音響モデルのうちから何れか１の音響モデルが選択され、そのユーザにより、参照音響信号が用意され、そのユーザによって選択された音響モデルの付加情報が再訓練の許可を示していることを条件に、そのユーザが用意した参照音響信号を用いて、当該音響モデルを訓練し、その訓練の結果として得られる訓練済み音響モデルを、そのユーザに提供する、ことによって、
　作成者は、複数の音響モデルの一部を選択的にベースモデルとして供給し、ユーザは、そのベースモデルを用いて容易に音響モデルを作成できる。

［２．この発明の顧客価値］
　作成者は、作成した音響モデルの一部を選択的に、ベースモデルとして供給し、
　ユーザは、その提供されたベースモデルを用いて、新たな音響モデルを容易に作成できる。

　ユーザモデルの販売／ＪＰ６９８２６７２
・第１者が公開した第１モデルを、第２者が再学習させ、第２モデルを生成して公開する。
・その第２モデルが売れたら、その報酬を第１者と第２者とで分配する。
・モデルを一旦公開してしまうと、第３者によって、自由に再学習に使用されてしまう。

本発明によれば、再学習に使用されないように、公開することができる。

［４．この発明の効果］
　作成者は、作成した音響モデルの一部を選択的に、ベースモデルとして供給し、
　ユーザは、その提供されたベースモデルを用いて、新たな音響モデルを容易に作成できる。

［５．この発明の構成（構造、方法、工程、組成などの要点）］
（１）　（ユーザへの）音響モデルの提供方法において、
　それぞれ、対応する付加情報が付与された複数の音響モデルを（前記ユーザが）入手し、
　（前記ユーザが）参照音響信号を用意し、
　（前記ユーザが）前記複数の音響モデルのなかから何れか１の音響モデルを選択し、
　（前記ユーザの指示に応じて）前記選択された１の音響モデルの付加情報が再訓練のベースモデルとしての利用可能であることを示すこと条件に、少なくとも前記参照音響信号を用いて、当該１の音響モデルを再訓練し、
　その再訓練の結果として得られる再訓練済み音響モデルを（前記ユーザに）提供する。

［発明の効果］
　作成者は、複数の音響モデルの一部を選択的にベースモデルとして供給し、ユーザは、そのベースモデルを用いて容易に音響モデルを作成できる。

（２）　（１）の提供方法において、
　前記付加情報は、再訓練のベースモデルとして利用可能又は利用不可能であることを示す許可フラグを含む。

［発明の効果］
　再学習をクラウドで行う場合、許可フラグでの制限がシンプルかつ容易である。

（３）　（１）の提供方法において、
　前記複数の音響モデルに対し、個々に異なる訓練プロセスが規定されており、
　前記付加情報は、前記１の音響モデルの訓練プロセスを示す手順データであり、
　前記再訓練ステップにおいて、
　　前記１の音響モデルは、前記手順データの示す訓練プロセスを行うことで、再訓練される。

［発明の効果］
　追加訓練されたくない音響モデルを、より強力に保護することができる。なぜなら、訓練プロセスが不明であれば、追加訓練を行うことができないからである。

（４）　（１）の提供方法において、
　各付加情報は、対応する音響モデルの特徴を示し、
　前記選択ステップにおいては、
　　前記参照音響信号の特性を分析し、
　　前記分析された特性と各音響モデルの付加情報が示す特徴とに基づいて、前記複数の音響モデルのなかから前記何れか１の音響モデルを選択する。

［発明の効果］
　参照音響信号の特性に適合した音響モデルを選択することで、追加学習をより効率的に行うことができる。

（５）　（１）の提供方法において、
　１のテスト曲を、前記複数の各音響モデルで処理することにより、その曲の複数の音響信号を生成し、
　前記選択するステップにおいては、
　　生成された複数の音響信号に基づいて、前記１の音響モデルが選択される。

［発明の効果］
　各音響モデルの生成する音響信号に応じて、何れか１の音響モデルを選択できる。

（６）　（５）の提供方法において、
　前記選択ステップにおいては、
　　前記参照音響信号の特性と、前記複数の各音響信号の特性とを分析し、
　　前記参照音響信号の特性と、前記各音響信号の特性とに基づいて、前記複数の音響モデルのなかから前記何れか１の音響モデルを選択する。

［発明の効果］
　付加情報が各音響モデルの特徴を示さない場合でも、参照音響信号の特性に適合した音響モデルを選択することで、追加学習をより効率的に行うことができる。

（７）　（１）の提供方法において、
　前記複数の音響モデルは、１以上の作成者により、作成されており、
　各作成者は、自分が訓練して作成した音響モデルに、前記ベースモデルとして利用可能であることを示す付加情報または利用不可能であることを示す付加情報を付与して、（前記ユーザに）販売する。
　前記入手ステップにおいて、
　　前記複数の音響モデルは、前記販売された複数の音響モデルを（前記ユーザが）購入することにより、入手される。

［発明の効果］
　作成者は、自分の作成した音響モデルを（前記ユーザに）販売する際に、ベースモデルとして利用可能又は利用不可能であることを指定できる。

（８）　（７）の提供方法において、さらに、
　（前記ユーザは）前記提供された再訓練済み音響モデルに、前記ベースモデルとして利用可能であることを示す付加情報または利用不可能であることを示す付加情報を付与して、（自身が作成者として別のユーザに）販売する。

［発明の効果］
　ユーザは、自分が再訓練した音響モデルを、（自身が作成者として）ベースモデルとして利用可能又は利用不可能であることを指定しつつ、（別のユーザに）販売できる。

（９）　（７）の提供方法において、さらに、
　（前記ユーザは）前記提供された再訓練済み音響モデルを、（自身が作成者として別のユーザに）販売する。
　前記前記再訓練における、前記再訓練済み音響モデルの前記１の音響モデルからの変化度を算出し、
　前記販売された再訓練済み音響モデルが売れたとき、その対価を、前記算出された変化度に基づいて、（ユーザとベースモデルの作成者とで）分配する。

［発明の効果］
　ユーザは、自分の行った再訓練の程度に応じた対価を得ることができる。

（１０）　（７）の提供方法において、
　前記作成者が音響モデルに付与する前記利用可能であることを示す付加情報は、前記作成者の取り分を示し、
　さらに、
　（前記ユーザは）前記提供された再訓練済み音響モデルを、（自身が作成者として別のユーザに）販売する。
　前記販売された再訓練済み音響モデルが売れたとき、その対価を、前記１の音響モデルに付与された前記付加情報が示す取り分に基づいて、（ユーザとベースモデルの作成者とで）分配する。

［発明の効果］
　ベースモデルの作成者は、ユーザの再訓練済み音響モデルが売れたとき、その対価の一部を受け取ることができる。

（１１）　（１）の提供方法において、
　前記複数の音響モデルには、ベースモデルとして利用可能であることを示す付加情報が付与された、未訓練の音響モデルが含まれる。

［発明の効果］
　ユーザは、未訓練の音響モデルを、ゼロから訓練することができる。

（１２）　（１）の提供方法において、
　前記複数の音響モデルには、ベースモデルとして利用可能であることを示す付加情報が付与された、音色種別ごとに、その音色種別の基礎訓練がされた普遍的な音響モデルが含まれる。

［発明の効果］
　ユーザは、目的の音色種別に応じた、普遍的な音響モデルを起点に、再学習させることができる。

［６．追加説明］
　異なる音響モデルによって訓練されることが想定される。異なる音響モデルとは、例えば、ニューラルネットワーク（ＮＮ）が異なる、ＮＮの接続関係が異なる、ＮＮのサイズ、深さが異なる、等の構成が想定される。異なる音響モデル間において、訓練プロセスが分からないことは、前記再訓練ができないことを意味する。
「手順データ」がプロセス自体を示すデータであってもよく、プロセスを識別可能な識別子であってもよい。
　適した１つの音響モデルを選択するに当たり、訓練用の音波形である「参照音響信号」の元である楽曲データ（ＭＩＤＩ）を音響モデルに入れることで生成された音響特徴量を用いてもよい。
　オリジナルの音響モデル作成者が、自分が作成した音響モデルに対して、ベースモデルとしての利用可否を決める付加情報を付与してもよい。
　音響モデルを販売、購入できるようにしてもよい。
　作成者に第１付加情報を付与させる場合には、作成者に対して第１付加情報を付与させるためのインタフェースを提供してもよい。
　音響モデルを訓練したユーザが、訓練済み音響モデルに対して、訓練のベースモデルとしての利用可否を決める付加情報を付与してもよい。
　訓練による音響モデルの変化度に基づいて対価を算出してもよい。
　オリジナルの音響モデル作成者が取り分を予め決定してもよい。
　「初期化された音響モデル」に対して、初期化されたことを示す識別子が付与されるのであれば、識別子を規定してもよい。

［発明を特定する構成要件］
　以下の構成要件を特許請求の範囲として記載してもよい。
［構成要件１］
　音響特徴量を生成する音響モデルに対して、予め登録された複数の音波形から、第１訓練ジョブを実行させるための一以上の音波形を選択させるインタフェースを第１ユーザに提供する訓練方法。
［構成要件２］
　音響特徴量を生成する音響モデルに対して、予め登録された複数の音波形から第１ユーザの指示に基づいて選択された一以上の音波形を用いた第１訓練ジョブを実行し、
　前記第１訓練ジョブによって訓練された前記音響モデルを前記第１ユーザに提供する訓練方法。
［構成要件３］
　前記第１ユーザの公開指示に基づいて、前記第１訓練ジョブの状態を示す情報を、前記第１ユーザとは異なる第２ユーザに公開する、請求項２に記載の訓練方法。
［構成要件４］
　前記第１訓練ジョブの状態を示す情報を第１端末に表示することで前記第１ユーザに公開し、前記第１訓練ジョブの状態を示す情報を前記第１端末とは異なる第２端末に表示することで前記第２ユーザに公開する、請求項２に記載の訓練方法。
［構成要件５］
　前記第１訓練ジョブの状態は、時間経過に応じて変化し、
　前記第１訓練ジョブの状態を示す情報を前記第２ユーザに繰り返し提供する、請求項３または４に記載の訓練方法。
［構成要件６］
　前記第１訓練ジョブの状態を示す情報は、前記第１訓練ジョブの完成度を含む、請求項３または４に記載の訓練方法。
［構成要件７］
　前記公開指示に基づいて、前記公開指示のタイミングに応じた前記音響モデルを前記第１ユーザに提供する、請求項３に記載の訓練方法。
［構成要件８］
　前記第１ユーザの指示に基づいて、
　　アップロードされた複数の音波形から他の一組の音波形を選択し、
　　前記音響モデルに対して、前記他の一組の音波形を用いた第２訓練ジョブを起動し、
　　前記第１訓練ジョブ及び前記第２訓練ジョブを並行して実行する、請求項２に記載の訓練方法。
［構成要件９］
　前記第１ユーザの公開指示に基づいて、前記第１訓練ジョブの状態を示す情報及び前記第２訓練ジョブの状態を示す情報を、選択的に、前記第１ユーザとは異なる第２ユーザに公開する、請求項８に記載の訓練方法。
［構成要件１０］
　前記第１ユーザの指示に応じて、前記第１ユーザに対して課金し、
　前記課金が成功した場合に、前記第１訓練ジョブを実行する、請求項２に記載の訓練方法。
［構成要件１１］
　前記第１ユーザがレンタルした空間を特定する空間ＩＤを受信し、
　前記訓練方法を提供するサービスに対する前記第１ユーザのアカウントと、前記空間ＩＤとを関連付ける、請求項２に記載の訓練方法。
［構成要件１２］
　前記空間において提供された、曲を構成する音を示す音高データ及び曲の歌詞を示すテキストデータと、前記曲の提供期間の少なくとも一部における歌唱が収録された音声データを受信し、
　前記音声データを前記アップロードされた音波形として、前記音程データ及び前記テキストデータと関連付けて格納する、請求項１１に記載の訓練方法。
［構成要件１３］
　前記第１ユーザの録音指示に基づいて、前記提供期間のうち指定された期間の音声データのみを収録する、請求項１２に記載の訓練方法。
［構成要件１４］
　前記第１ユーザの再生指示に基づいて、受信した前記音声データを前記空間において再生し、
　前記再生指示によって再生した前記音声データを前記第１ユーザの指示に基づいて選択可能な前記複数の音波形の一つとして登録するか否かを前記第１ユーザに問い合わせる、請求項１２に記載の訓練方法。
［構成要件１５］
　前記アップロードされた音波形を分析し、
　前記分析によって得られた結果に基づいて、前記第１ユーザに対応する楽曲を特定し、
　特定された前記楽曲を示す情報を前記第１ユーザに提供する、請求項２に記載の訓練方法。
［構成要件１６］
　前記分析結果は、演奏音域、音楽ジャンル、及び演奏スタイルの少なくともいずれか一を示す、請求項１５に記載の訓練方法。
［構成要件１７］
　前記分析結果は、演奏スキルを示す、請求項１５に記載の訓練方法。
［構成要件１８］
　音響特徴量を生成する音響モデルに関連する情報を表示する方法であって、
　前記音響モデルの訓練に関連する複数の音波形に対応する特性分布を取得し、
　前記特性分布に関する情報を表示する表示方法。
［構成要件１９］
　前記音響モデルの訓練に関連する音波形は、前記訓練に使用される音波形又は前記訓練に使用された音波形を含む、請求項１８に記載の表示方法。
［構成要件２０］
　前記取得される前記特性分布は、音高、強度、音韻、音長、スタイルのうち１以上の特性の分布を含む、請求項１８に記載の表示方法。
［構成要件２１］
　前記表示される前記特性分布は、前記特性分布に含まれる特性のうち第１特性と第２特性との２次元分布である、請求項１８に記載の表示方法。
［構成要件２２］
　前記特性分布を前記取得することは、
　　前記特性分布に含まれる特性のうち第１特性と第２特性とを抽出し、
　　前記第１特性が所定の範囲に含まれる場合の前記第２特性の分布を取得する
　ことを含み、
　前記特性分布を前記表示することは、前記取得された前記第２特性の分布を表示することを含む、請求項１８に記載の表示方法。
［構成要件２３］
　前記取得された前記特性分布において、所定の条件を満たす領域を検出し、
　前記領域を表示する、請求項１８に記載の表示方法。
［構成要件２４］
　前記領域を前記表示することは、前記領域に係る特徴値を表示することを含む、請求項２３に記載の表示方法。
［構成要件２５］
　前記領域を前記表示することは、前記領域に対応する楽曲を表示することを含む、請求項２３に記載の表示方法。
［構成要件２６］
　前記音響モデルは、第１入力データ及び第１音響特徴量を含む訓練データを用いて訓練されたモデルであって、第２入力データが提供されると第２音響特徴量を生成するモデルであり、
　前記音響モデルの訓練に関連する音波形として、前記第１入力データに関する履歴データの音波形を取得し、前記履歴データに対応する前記特性分布を取得し、
　前記履歴データに対応する前記特性分布に関する情報を表示する、請求項１８に記載の表示方法。
［構成要件２７］
　前記第２入力データが示す任意の特性について、前記履歴データに基づき、前記音響モデルの学習状況を表示する、請求項２６に記載の表示方法。
［構成要件２８］
　前記任意の特性は、音高、強度、音韻、音長、及びスタイルの特性の少なくとも一つを含む、請求項２７に記載の表示方法。
［構成要件２９］
　楽曲を生成するために必要な前記第２入力データと前記履歴データとに基づき、前記楽曲に対する評価を行い、前記評価の結果を表示する、請求項２６に記載の表示方法。
［構成要件３０］
　前記楽曲を時間軸上で複数の区間に区分し、
　前記区間毎に前記楽曲に対する評価を行い、前記評価の結果を表示する、請求項２９に記載の表示方法。
［構成要件３１］
　前記評価の結果は、前記楽曲を生成するために必要な前記第２入力データが示す音高、強度、音韻、音長、及びスタイルの特性の少なくともいずれか一つを含む、請求項２９に記載の表示方法。
［構成要件３２］
　複数の楽曲を生成するために必要な前記第２入力データと前記履歴データとに基づき、前記複数の楽曲の各々に対する評価を行い、
　前記評価の結果に基づき、前記複数の楽曲から少なくとも一の楽曲を表示する、請求項２６に記載の表示方法。
［構成要件３３］
　前記音響モデルによって音を生成する際に、生成された音に対する前記第２入力データを受け取り、
　前記受け取った前記第２入力データと前記履歴データとに基づき、生成された前記第２音響特徴量に対する評価を行い、
　前記第２入力データとともに前記評価の結果を表示する、請求項２６に記載の表示方法。
［構成要件３４］
　シンボル列に基づく音響特徴量を生成する音響モデルの訓練方法であって、
　訓練に用いる音波形のうち、所定の条件を満たす特定区間を検出し、
　前記特定区間に含まれる前記音波形に基づいて前記音響モデルを訓練する訓練方法。
［構成要件３５］
　入力データが提供されると音波形を合成するための音響特徴量を生成する音響モデルの訓練方法であって、
　訓練に用いる音波形のうち、所定の条件を満たす特定区間を検出し、
　前記特定区間に含まれる前記音波形に基づいて前記音響モデルを訓練する訓練方法。
［構成要件３６］
　前記音波形の時間軸に沿って、複数の前記特定区間を検出し、
　前記複数の前記特定区間を表示し、
　ユーザの指示に基づき、表示された前記複数の前記特定区間のうち少なくとも１つの区間を時間軸の方向に調整する、請求項３４または３５に記載の訓練方法。
［構成要件３７］
　前記音波形の時間軸に沿って、複数の前記特定区間を検出し、
　前記複数の前記特定区間を表示し、表示された前記複数の前記特定区間のうち少なくとも１つの区間を時間軸の方向に調整するためのインタフェースをユーザに提供する、請求項３４または３５に記載の訓練方法。
［構成要件３８］
　前記調整は、前記少なくとも１つの区間の境界の変更、削除、又は追加である、請求項３６に記載の訓練方法。
［構成要件３９］
　前記調整が行われる対象の区間であって、前記少なくとも１つの区間に含まれる前記音波形に基づく音を再生する、請求項３６に記載の訓練方法。
［構成要件４０］
　前記特定区間を検出することは、
　　前記音波形の時間軸に沿って、前記音波形における有音区間を検出し、
　　検出された前記有音区間における前記音波形の第１音色を判定し、
　　前記第１音色が前記特定音色に含まれる前記特定区間を検出することを含む、請求項３４または３５に記載の訓練方法。
［構成要件４１］
　前記特定区間を検出した後に、前記音波形の時間軸に沿って、前記音波形における有音区間が検出された前記特定区間の波形から、前記特定音色の波形を分離し、前記特定区間に含まれる前記音波形に代えて、前記分離された前記特定音色の波形に基づいて前記音響モデルを訓練する、請求項３４または３５に記載の訓練方法。
［構成要件４２］
　前記分離によって、前記音波形の時間軸の各時点において前記音波形とともに再生された音（伴奏音）、前記音波形に基づいて機械的に生成された音（残響音）、及び前記音波形のうち隣接する時点で所定の量以上の変化をするピークに含まれる音（雑音）のうち少なくとも１つが除去される、請求項４１に記載の訓練方法。
［構成要件４３］
　前記特定区間を検出することは、
　　受け取った前記音波形の少なくとも一部に所定のコンテンツが含まれるか否かを判定し、
　　前記特定区間から前記所定のコンテンツが含まれない区間を除外することを含む、請求項３４または３５に記載の訓練方法。
［構成要件４４］
　音響特徴量を生成する音響モデルの提供方法であって、
　第１付加情報が関連付けられた音響モデルを、音波形を用いた再訓練の対象として取得し、
　前記第１付加情報に基づき、前記音響モデルに対する再訓練の可否を判定し、
　再訓練が可能と判定された場合に、前記音響モデルに対して再訓練が実行された再訓練済み音響モデルを提供する音響モデルの提供方法。
［構成要件４５］
　前記第１付加情報は、前記音響モデルに対する再訓練の可否を示すフラグである、請求項４４に記載の音響モデルの提供方法。
［構成要件４６］
　前記第１付加情報は、前記音響モデルを再訓練するためのプロセスを示す手順データを含み、
　前記音響モデルの前記再訓練は、前記手順データに基づいて行われる、請求項４４に記載の音響モデルの提供方法。
［構成要件４７］
　前記第１付加情報は、前記音響モデルの第１特徴を示す情報を含み、
　再訓練に用いられる前記音波形が特定されると、前記第１特徴と前記音波形の第２特徴とに基づいて、それぞれ前記第１付加情報が関連付けられた複数の音響モデルから、再訓練の対象として取得する前記音響モデルを選択する、請求項４４に記載の音響モデルの提供方法。
［構成要件４８］
　再訓練の対象として取得される前記音響モデルは、それぞれ前記第１付加情報が関連付けられた複数の音響モデルから選択され、
　前記音波形に係る楽曲データを用いて、前記複数の音響モデルによって複数の前記音響特徴量に基づく複数の音響信号を生成し、
　前記音波形と前記複数の音響信号とに基づいて、再訓練の対象として取得される前記音響モデルを選択する、請求項４４に記載の音響モデルの提供方法。
［構成要件４９］
　前記複数の前記音響特徴量と前記音波形とに基づいて、前記音響モデルを選択する、請求項４４に記載の音響モデルの提供方法。
［構成要件５０］
　前記音響モデルは、１以上の作成者によって作成された音響モデルであり、
　前記第１付加情報は、前記１以上の作成者によって付与された、前記作成者が作成した音響モデルに対する再訓練の可否を示す情報である、請求項４４に記載の音響モデルの提供方法。
［構成要件５１］
　前記再訓練済み音響モデルには、第２付加情報が関連付けられており、
　前記第２付加情報は、再訓練を実行したユーザによって設定された、前記ユーザが再訓練を実行した前記再訓練済み音響モデルに対する再訓練の可否を示す情報である、請求項４４又は５０に記載の音響モデルの提供方法。
［構成要件５２］
　前記再訓練済み音響モデルを購入した購入者による決済手続きに基づき、
　再訓練の対象としての前記音響モデルから、前記再訓練済み音響モデルへの変化度を算出し、
　前記変化度に基づいて、前記音響モデルに対する対価と、前記再訓練済み音響モデルに対する対価と、を算出する、請求項４４又は５０に記載の音響モデルの提供方法。
［構成要件５３］
　前記第１付加情報は、取り分情報を含み、
　前記取り分情報は、購入者が前記再訓練済み音響モデルを購入する決済手続きに対する対価において、再訓練の対象としての前記音響モデルと、前記再訓練済み音響モデルと、の対価の比率を示す情報である、請求項４４又は５０に記載の音響モデルの提供方法。
［構成要件５４］
　前記音響モデルは複数存在し、
　前記複数の前記音響モデルは、初期化された音響モデルを含み、
　前記初期化された音響モデルには、前記再訓練を可とする前記第１付加情報が付与され、
　前記初期化された音響モデルは、変数が乱数で置き換えられたモデルである、請求項４４に記載の音響モデルの提供方法。
［構成要件５５］
　前記音響モデルは複数存在し、
　前記複数の前記音響モデルには、前記音響モデルによって生成される前記音響特徴量が示す音色種別に関する識別子が関連付けられている、請求項４４に記載の音響モデルの提供方法。

１０：音響モデル訓練システム、　１００：サーバ、　１０１：制御部、　１０２：ＲＡＭ、　１０３：ＲＯＭ、　１０４：ユーザインタフェース（ＵＩ）、　１０５：通信インタフェース、　１１０：ストレージ、　１１１：音声合成プログラム、　１１２：訓練ジョブ、　１１３：楽譜データ、　１１４：音波形、　１２０：音響モデル、　１２３：楽譜特徴量、　１２４、１２９：音響特徴量、　１３０：合成音波形、　１４０：画面、　１４１：２次元表示部、　１４２：第１軸表示部、　１４３：第２軸表示部、　１４４：データ量バー、　１６０Ｂ：ＧＵＩ、　１６１Ｂ：表題、　１６２Ｂ～１６５Ｂ：ラジオボタン、　１６６Ｂ：選択ボタン、　１７０Ｂ：ピアノロール、　１７１Ｂ～１７４Ｂ：音符バー、　１７５Ｂ：カーソル、　１７６Ｂ：得意度メータ、　１７８Ｂ：再生ボタン、　１７９Ｂ：取消ボタン、　２００、３００：通信端末、　４００：ネットワーク

Claims

　音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法であって、
　音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、
　前記特性の分布に関連する情報を表示する表示方法。
　前記特性の分布は、前記使用された複数の音波形を分析して得られる特性の分布である、請求項１に記載の表示方法。
　前記特性の分布に関連する情報は、前記音響モデルに不足する訓練を示す、請求項１に記載の表示方法。
　前記特性の分布に関連する情報は、前記音響モデルが前記訓練で獲得した能力を示す、請求項１に記載の表示方法。
　前記取得では、前記音響モデルの訓練の前に、その訓練に使用する予定の音波形を含む、その訓練で確立されると期待される音響モデルの訓練で使用された音波形の前記特性の分布を取得し、
　前記表示では、前記期待される音響モデルの訓練に使用された複数の音波形の前記取得された特性の分布に関連する情報を表示する、請求項１に記載の表示方法。
　前記訓練は追加訓練であって、
　前記特性の分布は、前記追加訓練前の音響モデルの訓練に使用された複数の音波形と前記追加訓練に使用される音波形とを分析して得られる特性の分布である、請求項５に記載の表示方法。
　前記追加訓練前の音響モデルは、ユーザによって複数の訓練済み音響モデルの中から選択された音響モデルである、請求項６に記載の表示方法。
　前記複数の音波形の特性は、音高、強度、音韻、音長、スタイルのうち一以上を含む、請求項１に記載の表示方法。
　前記表示では、前記特性の分布を示すグラフが表示される、請求項１又は請求項８に記載の表示方法。
　前記複数の特性は、第１特性及び第２特性を含み、
　前記表示では、前記第１特性及び前記第２特性の２次元分布を示すグラフが表示される、請求項１に記載の表示方法。
　前記特性の分布を前記取得することは、
　　前記複数の音波形を分析して、前記特性として第１特性及び第２特性を取得し、
　前記表示では、前記第１特性が所定範囲内のときの前記第２特性の分布を表示する、請求項１に記載の表示方法。
　前記表示では、
　前記取得された前記特性の分布において、前記分布が閾値より小さくなる、前記特性に関する音波形の不足範囲を検出し、
　前記不足範囲を表示する、請求項１に記載の表示方法。
　前記表示は、前記検出された範囲の上限と下限との少なくとも一方の特性値を表示する、請求項１２に記載の表示方法。
　前記表示は、複数の楽曲のうちの、前記検出された範囲の特性値の音符を含む楽曲を選択的に表示する、請求項１２に記載の表示方法。
　前記表示は、複数の楽曲のうちの、前記検出された範囲の特性値の音符を含む複数の候補曲を検出し、
　ユーザに対して、検出された候補曲を提示する、請求項１２に記載の表示方法。
　前記音響モデルは、第１楽曲の前記音波形の少なくとも一部の楽譜特徴量と、前記音波形の第１音響特徴量を含む訓練データを用いて訓練されることで、第２楽曲の楽譜特徴量に応じて第２音響特徴量を生成する能力を習得したモデルであり、
　前記取得は、前記音響モデルの訓練に用いた前記音波形の履歴を示す履歴データを取得し、前記履歴データに基づいて、前記音響モデルの訓練に用いた前記音波形の特性分布に関する情報を取得し、
　前記表示は、前記取得した音波形の特性分布に関する情報を表示する、請求項１に記載の表示方法。
　前記表示は、前記取得した音波形の特性分布に基づき、前記第２楽曲の楽譜の特徴量に対する前記音響モデルの得意度を表示する、請求項１６に記載の表示方法。
　前記表示は、前記第２楽曲の楽譜と前記取得した音波形の特性分布とに基づき、前記音響モデルの、前記第２楽曲に対する得意度を評価し、前記評価された得意度を表示する、請求項１６に記載の表示方法。
　前記表示は、
　前記第２楽曲の各区間の楽譜と前記取得した音波形の特性分布とに基づいて、その区間の第２楽曲に対する前記音響モデルの得意度を評価し、
　前記評価された得意度を、区間毎に表示する、請求項１６に記載の表示方法。
　前記表示は、
　複数の第２楽曲の複数の楽譜と前記取得した音波形の特性分布とに基づき、前記音響モデルの、複数の第２楽曲の各々に対する得意度を評価し、
　前記評価された得意度に基づき、前記複数の楽曲のうちの少なくとも一の楽曲を推薦表示する、請求項１６に記載の表示方法。
　前記取得は、複数の音響モデルの各々について、その音響モデルの履歴データに基づいて、その音響モデルの訓練に用いた音信号の特性分布を取得し、
　前記表示は、前記第２楽曲の楽譜と前記取得された複数の音響モデルの複数の特性分布とに基づいて、前記第２楽曲に適合する一以上の音響モデルを推薦表示する、請求項１６に記載の表示方法。
　第２楽曲の楽譜の一部を順次受け取り、前記音響モデルを用いて前記受け取った楽譜の一部の特徴量をリアルタイム処理して、前記受け取った楽譜の一部に対応する、前記第２音響特徴量の一部をリアルタイム生成する生成方法の実行中に、
　前記表示は、
　前記受け取った楽譜の一部と前記取得した音信号の特性分布とに基づき、前記受け取った楽譜の一部に対する前記音響モデルの得意度をリアルタイム評価し、
　前記評価された得意度をリアルタイム表示する、請求項１６に記載の表示方法。