WO2021251188A1

WO2021251188A1 - 推奨情報提供装置

Info

Publication number: WO2021251188A1
Application number: PCT/JP2021/020516
Authority: WO
Inventors: 茂樹田中; 佑介深澤
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2020-06-09
Filing date: 2021-05-28
Publication date: 2021-12-16
Also published as: JPWO2021251188A1; US20230215406A1

Abstract

幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することを目的とする。推奨情報提供装置５は、少なくとも１つのプロセッサを備え、少なくとも１つのプロセッサが、ユーザの過去の楽曲の歌唱に関する採点結果を、楽曲の時間的な区間毎に取得し、楽曲を構成する音であって、区間において時系列に並ぶ音の高さを示す音程情報を取得し、採点結果及び音程情報を訓練データとして用いて、音程情報から、ユーザの楽曲の歌唱に関する採点結果を予測する学習モデルを構築し、対象の楽曲に関する音程情報を、音程情報の示す音の高さを複数種類に変更しながら学習モデルに入力することにより、学習モデルの出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果を取得し、対象の楽曲に関する複数種類の音程情報を対象とした採点結果を基に、ユーザに推奨する音の高さの設定内容を推奨情報として出力する。

Description

推奨情報提供装置

　本発明の一側面は、推奨情報を提供する推奨情報提供装置に関する。

　従来から、カラオケ装置において、利用者が歌唱する度に、利用者ＩＤ、楽曲ＩＤ、採点結果、及び利用者の歌唱時にカラオケ装置に設定された設定キー情報を紐づけて管理し、利用者が所望の楽曲を演奏予約した際に、設定キー情報において最も高い採点結果の平均値を有する設定キーに関する情報を表示手段に表示する技術が知られている（下記特許文献１参照。）。

特開２０１７－１０９２２号公報

　しかしながら、上記の従来の装置によっては、利用者が既に設定したことがある楽曲の設定キー情報に対応した採点結果の履歴を用いて、推奨する楽曲の音の高さの設定情報が出力されているため、ユーザの歌唱履歴の少ない楽曲については、ユーザにとって推奨される音の高さの設定内容に関する推奨情報を得ることは難しい傾向にある。そのため、従来から、幅広い種類の楽曲に関して、ユーザの過去の歌唱傾向にマッチした推奨情報を提供することが望まれている。

　そこで、上述の課題を解決するために、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することが可能な推奨情報提供装置を提供することを目的とする。

　本実施形態の推奨情報提供装置は、推奨情報を提供する推奨情報提供装置であって、少なくとも１つのプロセッサを備え、少なくとも１つのプロセッサが、ユーザの過去の楽曲の歌唱に関する採点結果を、楽曲の時間的な区間毎に取得し、楽曲を構成する音であって、区間において時系列に並ぶ音の高さを示す音程情報を取得し、採点結果及び音程情報を訓練データとして用いて、音程情報から、ユーザの楽曲の歌唱に関する採点結果を予測する学習モデルを構築し、対象の楽曲に関する音程情報を、音程情報の示す音の高さを複数種類に変更しながら学習モデルに入力することにより、学習モデルの出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果を取得し、対象の楽曲に関する複数種類の音程情報を対象とした採点結果を基に、ユーザに推奨する音の高さの設定内容を推奨情報として出力する。

　本実施形態によれば、ユーザの過去の楽曲の歌唱に関する区間毎の採点結果、および、区間の音程情報が訓練データとして用いられて、採点結果を予測する学習モデルが構築される。そして、対象の楽曲に関する音程情報が、音程情報の示す音の高さが複数種類に変更されながら、構築された学習モデルに入力されることにより、その出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果が取得される。さらに、複数種類に変更された音程情報を対象にした採点結果を基に、音の高さの設定内容に関する推奨情報が出力される。これにより、ユーザの過去の音程のパターンに対する採点傾向を基に、対象の楽曲の歌唱の際に音の高さの設定内容を様々に変更した場合の採点結果の予測値を取得することができる。加えて、それらの予測値を用いて音の高さの設定内容に関する推奨情報を出力することにより、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することができる。

　本発明の一側面によれば、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することができる。

本実施形態にかかるカラオケシステム１の構成を示すシステム構成図である。データ管理装置４に格納された履歴情報のデータ構成の一例を示す図である。データ管理装置４に格納された楽曲情報のデータ構成の一例を示す図である。データ管理装置４に格納された楽曲情報のデータ構成の一例を示す図である。推奨情報提供装置５が生成する履歴情報のデータ構成の一例を示す図である。推奨情報提供装置５が生成する１次元ベクトルのデータ構成の一例を示す図である。推奨情報提供装置５が使用する学習モデルの構成を示す図である。推奨情報提供装置５が使用する学習モデルによって変換される２次元ベクトルのデータ構成を示す図である。推奨情報提供装置５が使用する学習モデルによって出力される出力ベクトルのデータ構成を示す図である。推奨情報提供装置５による学習モデルの構築処理の手順を示すフローチャートである。推奨情報提供装置５による楽曲に関する推奨処理の手順を示すフローチャートである。推奨情報提供装置５によって出力される推奨情報のデータ構成の一例を示す図である。本開示の一実施の形態に係るデータ管理装置４及び推奨情報提供装置５のハードウェア構成の一例を示す図である。

　添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

　図１は、本実施形態にかかるカラオケシステム１の構成を示すシステム構成図である。カラオケシステム１は、ユーザによって指定された楽曲を再生する公知の機能と、その再生に応じたユーザによる歌唱音声を集音して、その歌唱音声を評価して採点する公知の機能とを有する装置である。このカラオケシステム１は、さらに、ユーザに対して楽曲の音の高さ（音程）の設定キーに関する推奨情報を提供する機能も有する。

　図１に示すように、カラオケシステム１は、カラオケ装置２、フロントサーバ３、データ管理装置４、及び推奨情報提供装置５を備えている。フロントサーバ３、データ管理装置４、及び推奨情報提供装置５は、ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network)、及び移動体通信ネットワーク等の通信ネットワークを介して互いにデータを送受信可能なように構成されている。

　カラオケ装置２は、楽曲の再生機能と、ユーザの歌唱音声の集音機能とを提供する。フロントサーバ３は、カラオケ装置２に電気的に接続され、カラオケ装置２に対してユーザによって指定された楽曲の再生のための再生データを提供する再生機能、ユーザの操作に応じた楽曲の検索機能、楽曲の再生に応じてカラオケ装置２によって集音された歌唱音声のデータを受信して、歌唱音声の採点結果を計算する採点機能、等を有する。フロントサーバ３は、楽曲の再生データを提供する際には、予めユーザによって設置された設定キーに応じて、楽曲の音程が一律に変更された再生データを提供する機能を有する。この設定キーには、例えば、－７から＋７までの数値が割り当てられ、設定キーが＋１増加すると楽曲の音程が一律で所定の音階分（例えば、半音）上がるように再生データが設定される。また、フロントサーバ３は、ユーザによる歌唱音声の採点結果を、履歴情報としてその都度データ管理装置４に格納する機能も有する。このフロントサーバ３は、ユーザの操作を受け付け、ユーザに対して情報を表示させるためのユーザ・インターフェースを提供し、フロントサーバ３に対して有線あるいは無線によって接続された端末装置を含んでいる。

　データ管理装置４は、フロントサーバ３及び推奨情報提供装置５によって処理されるデータを格納するデータ格納装置（データベース装置）である。このデータ管理装置４は、ユーザの過去の楽曲の歌唱に関する採点結果を記録した履歴情報を格納する履歴情報格納部１０１と、カラオケ装置２で再生可能な楽曲に関する音程情報を格納する楽曲情報格納部１０２とを含む。データ管理装置４に格納される各種情報は、フロントサーバ３の処理、あるいは、外部から取得されたデータによって随時更新される。

　図２には、データ管理装置４に格納された履歴情報のデータ構成の一例を示し、図３及び図４には、データ管理装置４に格納された楽曲情報のデータ構成の一例を示している。

　図２に示すように、履歴情報には、ユーザを識別する「ユーザ識別子」と、そのユーザがカラオケシステム１を利用して過去に歌唱した楽曲を識別する「楽曲識別子」と、その楽曲を過去に歌唱した時刻を示す「歌唱時間」と、フロントサーバ３の機能によるその楽曲の全区間の歌唱を対象とした採点結果を示す「総合点」と、フロントサーバ３の機能によるその楽曲の各区間の歌唱を対象とした採点結果を示す「区間１点数」、…、「区間２４点数」とが、関連付けられて格納されている。フロントサーバ３の採点機能においては、各楽曲の時間的な区間を所定数（例えば、２４）に分割し、分割した区間毎に採点結果を計算し、全ての区間の採点結果から各楽曲の全体の採点結果「総合点」を計算する。履歴情報には、各ユーザの楽曲毎の歌唱を対象にして、フロントサーバ３によって計算された、各区間の採点結果及び全体の採点結果が記録される。

　図３には、楽曲情報のうちの音程情報のデータ構成の一例を示している。このように、音程情報には、カラオケシステム１を利用して再生可能な楽曲を識別する「楽曲識別子」と、その楽曲を構成する音（ノート）の全体の楽曲中における開始時刻を示す「ノート開始時刻（ｍｓ）」と、その音の全体の楽曲中の終了時刻を示す「ノート終了時刻（ｍｓ）」と、その音の標準的な高さ（音程）を数値で示す「音程」と、その音の強さを数値で示す「強さ」とが、関連付けられて格納されている。データ管理装置４には、フロントサーバ３によって再生可能な各楽曲を構成し、各楽曲中において時系列に並ぶ全ての標準的な音（設定キーによる変更前の音）に関する音程情報が格納されている。

　図４には、楽曲情報のうちの区間情報のデータ構成の一例を示している。このように、区間情報には、カラオケシステム１を利用して再生可能な楽曲を識別する「楽曲識別子」と、その楽曲の区間の全体の楽曲中における開始時刻を示す「区間開始時刻（ｍｓ）」と、その区間の全体の楽曲中の終了時刻を示す「区間終了時刻（ｍｓ）」とが、関連付けられて格納されている。データ管理装置４には、フロントサーバ３によって再生可能な各楽曲を構成する全ての区間に関する区間情報が格納されている。

　推奨情報提供装置５は、ユーザに対して設定キーに関する推奨情報を提供する装置であり、機能的な構成要素として、データ取得部２０１、モデル構築部２０２、予測部２０３、及び推奨情報生成部２０４を含んでいる。以下、各構成要素の機能について説明する。

　データ取得部２０１は、採点結果を予測するための学習モデルの構築処理に先立って、データ管理装置４から、履歴情報及び楽曲情報を取得する。また、データ取得部２０１は、採点結果の予測処理に先立って、楽曲情報を取得することも行う。データ取得部２０１は、取得した各情報を、モデル構築部２０２あるいは予測部２０３に引き渡す。

　すなわち、データ取得部２０１は、学習モデルの構築処理時には、データ管理装置４の履歴情報格納部１０１及び楽曲情報格納部１０２から読み出した情報を組み合わせて、ユーザが過去に歌唱した楽曲の各区間の音毎の採点結果の履歴情報を生成する。図５には、データ取得部２０１が生成する履歴情報のデータ構成の一例を示す。このように、履歴情報には、ユーザを識別する「ユーザ識別子」と、ユーザが過去に歌唱した楽曲を識別する「楽曲識別子」と、その楽曲の区間を識別する「区間」と、その区間中の音の開始時刻を示す「ノート開始時刻（ｍｓ）」と、その音の終了時刻を示す「ノート終了時刻（ｍｓ）」と、その音の音程を数値で示す「音程」と、その音の強さを数値で示す「強さ」と、その音が含まれる区間の採点結果を示す「点数」とが、関連付けられている。データ取得部２０１によって、ユーザによって過去に歌唱された各楽曲を構成する全ての音に関する履歴情報が生成される。なお、履歴情報に含まれる「音程情報」には、ユーザの過去の歌唱時に設定キーが標準キーから変更されていた場合には、それに応じて変更された音程に対応する数値が記録される。

　また、データ取得部２０１は、採点結果の予測処理時には、予測対象の楽曲に関する楽曲情報をデータ管理装置４から取得する。データ取得部２０１は、取得した楽曲情報を予測部２０３に引き渡す。

　図１に戻って、モデル構築部２０２は、データ取得部２０１によって生成された履歴情報を訓練データとして用いて、対象の楽曲の音程情報を基にユーザの対象の楽曲の歌唱に関する採点結果を予測する機械学習の学習モデルを構築する。モデル構築部２０２は、学習モデルの構築に先立って、データ取得部２０１から引き渡された履歴情報を加工する前処理を実行する。詳細には、モデル構築部２０２は、履歴情報の各情報を、過去にユーザが歌唱した楽曲を構成する各音に関する音程及び強さの情報が配列された１次元ベクトル（音ベクトル）に変換する。加えて、モデル構築部２０２は、履歴情報の各情報を、音ベクトルに対応する１次元ベクトルである、各音に対応する区間の採点結果が配列された１次元ベクトル（点数ベクトル）と、音ベクトルに対応する１次元ベクトルである、歌唱したユーザに関するユーザ識別情報が配列された１次元ベクトル（ユーザ識別ベクトル）とに変換する。

　図６には、モデル構築部２０２の前処理によって生成される１次元ベクトルのデータ構成の一例を示している。このように、モデル構築部２０２は、履歴情報を、音ベクトルＶ１、点数ベクトルＶ２、及びユーザ識別ベクトルＶ３に変換する。

　そして、モデル構築部２０２は、音ベクトルＶ１及びユーザ識別ベクトルＶ３を学習モデルに入力し、その学習モデルの出力結果が点数ベクトルＶ２の示す点数に近づくように、学習モデルのパラメータを最適化する（学習モデルをトレーニングする）。この際、モデル構築部２０２は、学習モデルとして、深層学習の学習モデルを使用する。

　図７には、モデル構築部２０２が使用する学習モデルＭの構成を示している。図７に示すように、学習モデルＭは、ワンホットエンコーディング（Ｏｎｅ－ｈｏｔ　ｅｎｃｏｄｉｎｇ）部Ｍ１、ＧＲＵ部Ｍ２、結合部Ｍ３、及び、デンス（Ｄｅｎｓｅ）部Ｍ４によって構成される。

　ワンホットエンコーディング部Ｍ１は、ユーザ識別ベクトルＶ３が入力されて、ユーザ識別ベクトルＶ３を２次元ベクトルに変換する。図８には、ワンホットエンコーディング部Ｍ１によって変換される２次元ベクトルのデータ構成の一例を示す。このように、２次元ベクトルにおいては、各行が音ベクトルＶ１の各要素が示す音に対応し、各列がユーザ識別ベクトルＶ３の各要素の示す各ユーザに対応している。例えば、ユーザ識別ベクトルＶ３に含まれる１つの要素の「ユーザ識別子」が“Ａ１”の場合には、その要素に対応する行において、「ユーザ識別子　Ａ１」に対応する列の値が“１”に設定され、他のユーザ識別子に対応する列の値は“０”に設定される。ワンホットエンコーディング部Ｍ１によって、ユーザ識別ベクトルＶ３に含まれる全ての要素に対応する行分の２次元ベクトルが生成される。

　ＧＲＵ部Ｍ２は、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent　Neural　Network）の一種であり、通常の出力の他に状態を出力し、入力には、通常の入力としての音ベクトルＶ１の他に、直前に出力された状態が再度入力される。これにより、ＧＲＵ部Ｍ２は、過去の入力情報を記憶する機能を有し、長期的な時系列情報を処理することができる。

　結合部Ｍ３は、ワンホットエンコーディング部Ｍ１の出力と、ＧＲＵ部Ｍ２の出力とを結合する。デンス部Ｍ４は、深層学習における全結合層であり、結合部Ｍ３から出力されたある次元数の数値列に対し、重み（ｗ）を乗算してバイアス（ｂ）を加算することで任意の次元数の出力（Ｙ）に変換する。本実施形態では、デンス部Ｍ４は、楽曲の各区間の採点結果（点数）が配列された１次元の出力ベクトルＹに変換する。図９には、デンス部Ｍ４によって変換される出力ベクトルのデータ構成の一例を示す。このように、出力ベクトル（Ｙ）においては、各要素が、入力された音ベクトルＶ１の要素に対応する音によって構成される各区間の採点結果の予測値を示している。

　モデル構築部２０２は、上記構成の学習モデルＭを用いて、ユーザ識別ベクトルＶ３と音ベクトルＶ１を学習モデルＭに入力し、その結果得られた出力ベクトル（Ｙ）が点数ベクトルＶ２の示す各区間の点数に近づくように、学習モデルＭをトレーニングする。トレーニングの結果、例えば、学習モデルＭのデンス部Ｍ４における重み（ｗ）及びバイアス（ｂ）のパラメータが最適化される。

　再び図１に戻って、予測部２０３は、対象の楽曲に関する楽曲情報を基に、モデル構築部２０２によって構築された学習モデルＭを用いて、ユーザの対象の楽曲の歌唱に関する各区間の採点結果の予測値を取得する。具体的には、予測部２０３は、楽曲情報を対象にしてモデル構築部２０２と同様な前処理を施し、対象の楽曲に関する音ベクトルＶ１及びユーザ識別ベクトルＶ３を生成する。そして、予測部２０３は、生成した音ベクトルＶ１及びユーザ識別ベクトルＶ３を学習モデルＭに入力することにより得られた出力ベクトル（Ｙ）を基に、対象の楽曲の各区間の採点結果の予測値を取得する。

　本実施形態では、予測部２０３は、対象の楽曲の楽曲情報において、各区間の音程情報の数値を複数種類に変更しながら、複数種類に音程情報が変更された楽曲情報を基に、学習モデルＭを用いて各区間の採点結果の予測値を取得する。具体的には、予測部２０３は、対象の楽曲の楽曲情報において、全区間の音程情報を、フロントサーバ３に設定される設定キーの数値に対応させて、一律に標準的な音程から所定数値分増減させる。例えば、設定キー「＋１」に対応して全区間の音程情報の数値が＋１増加させて設定され、設定キー「＋２」に対応して全区間の音程情報の数値が＋２増加させて設定される。

　推奨情報生成部２０４は、予測部２０３から、複数種類に音程情報が変更された楽曲に関する各区間の採点情報の予測値を繰り返し取得し、複数種類に音程情報が変更された楽曲毎の全体の採点結果の予測値を計算する。例えば、全体の採点結果の予測値としては、全ての区間の採点結果の予測値の平均値が計算される。そして、推奨情報生成部２０４は、複数種類に音程情報が変更された楽曲の採点結果の予測値を基に、ユーザに推奨する音程の設定内容（設定キー）を選択し、選択した設定キーを示す推奨情報を、設定キーに対応する採点結果の予測値と共に、出力する。

　例えば、推奨情報生成部２０４は、ユーザに推奨する設定キーとして、採点結果の予測値が比較的高い楽曲に対応するもの、採点結果の予測値が予め設定した閾値よりも高い楽曲に対応するもの等を選択する。推奨情報生成部２０４によって出力された推奨情報及び予測値の情報は、フロントサーバ３の端末装置等に出力される。

　次に、このように構成された推奨情報提供装置５の処理について説明する。図１０は、推奨情報提供装置５による学習モデルの構築処理の手順を示すフローチャートであり、図１１は、推奨情報提供装置５による設定キーに関する推奨処理の手順を示すフローチャートである。学習モデルの構築処理は、予め設定されたタイミング（例えば、定期的なタイミング）、あるいは、データ管理装置４においてある程度の情報量の履歴情報が蓄積されたタイミング等で開始される。設定キーに関する推奨処理は、予め設定されたタイミング、あるいは、フロントサーバ３においてユーザから指示が受け付けられたタイミング等で開始される。

　図１０を参照して、学習モデルの構築処理が開始されると、データ取得部２０１によって、データ管理装置４からユーザの過去の楽曲の歌唱の採点結果に関する履歴情報が取得される（ステップＳ１０１）。また、データ取得部２０１によって、データ管理装置４から、履歴情報に記録された楽曲に関する楽曲情報が取得される（ステップＳ１０２）。

　次に、モデル構築部２０２によって前処理が実行されて、履歴情報及び楽曲情報を基に、音ベクトルＶ１、点数ベクトルＶ２、及びユーザ識別ベクトルＶ３が生成される（ステップＳ１０３）。その後、モデル構築部２０２によって、音ベクトルＶ１、点数ベクトルＶ２、及びユーザ識別ベクトルＶ３を用いて学習モデルＭがトレーニングされることにより、学習モデルＭのパラメータが最適化され（学習モデルの構築、ステップＳ１０４）、学習モデルの構築処理が終了する。

　次に、図１１を参照して、設定キーに関する推奨処理が開始されると、データ取得部２０１によって、データ管理装置４から対象の楽曲に関する楽曲情報が取得される（ステップＳ２０１）。その後、予測部２０３によって前処理が実行されて、音程情報が複数種類に変更された楽曲情報を基に音ベクトルＶ１が生成されるとともに、採点結果の予測対象のユーザを識別するユーザ識別ベクトルＶ３が、音ベクトルＶ１に対応する要素分生成される（ステップＳ２０２）。

　次に、予測部２０３により、音ベクトルＶ１及びユーザ識別ベクトルＶ３が学習モデルＭに入力され、学習モデルＭの出力ベクトルを基に、複数種類に設定キーが変更された楽曲の区間毎の採点結果の予測値が取得される（ステップＳ２０３）。その後、推奨情報生成部２０４により、複数の設定キーの楽曲の区間毎の採点結果の予測値を基に、複数の設定キーの楽曲毎の全体の採点結果の予測値が計算される（ステップＳ２０４）。最後に、推奨情報生成部２０４により、複数の設定キーの楽曲毎の採点結果の予測値を基にユーザに推奨する設定キーが選択され、ユーザに対する推奨情報が生成及び出力される（ステップＳ２０５）。

　図１２には、推奨情報提供装置５によって出力される推奨情報のデータ構成の一例を示している。このように、設定キーの種類を示す「キー設定内容」の項目と、全体の採点結果の予測値を示す「推定点数」の項目とが対応付けられたレコードが複数出力される。このような構成の推奨情報においては、比較的高い数値を示す「推定点数」に対応する「キー設定内容」によって、推奨される設定キーが示される。

　つぎに、本実施形態の推奨情報提供装置５の作用効果について説明する。この推奨情報提供装置５によれば、ユーザの過去の楽曲の歌唱に関する区間毎の採点結果、および、区間の音程情報が訓練データとして用いられて、採点結果を予測する学習モデルＭが構築される。そして、対象の楽曲に関する音程情報が、音程情報の示す音の高さが複数種類に変更されながら、構築された学習モデルＭに入力されることにより、その出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果が取得される。さらに、複数種類に変更された音程情報を対象にした採点結果を基に、音の高さの設定内容に関する推奨情報が出力される。これにより、ユーザの過去の音程のパターンに対する採点傾向を基に、対象の楽曲の歌唱の際に音の高さの設定内容を様々に変更した場合の採点結果の予測値を取得することができる。加えて、それらの予測値を用いて音の高さの設定内容に関する推奨情報を出力することにより、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することができる。

　また、本実施形態では、時系列の音程情報を入力とし、音程情報に対応する楽曲の区間毎の採点結果を出力する学習モデルＭを用い、学習モデルＭの出力が、訓練データに含まれる区間毎の採点結果に近づくように、学習モデルＭを構築している。このようにすれば、楽曲の区間毎の音程のパターンに対する採点結果の傾向を掴んだ学習モデルＭを構築することができ、ユーザの対象の楽曲の歌唱に関する採点結果の予測精度を確実に向上させることができる。その結果、ユーザの対象の楽曲の歌唱に適した推奨情報を提供できる。

　また、本実施形態では、ユーザの識別情報をさらに入力する学習モデルＭを用いている。こうすれば、ユーザ毎の音程のパターンに対する採点結果の傾向を掴んだ学習モデルＭを構築することができ、個々のユーザを対象とした採点結果の予測精度を確実に向上させることができる。その結果、個々のユーザに適した推奨情報を提供できる。

　また、本実施形態では、学習モデルＭの出力である対象の楽曲の区間毎の採点結果を平均してユーザの対象の楽曲の歌唱に関する採点結果を取得している。このようにすれば、対象の楽曲の歌唱に関するユーザの得手不得手を容易に判断することができる。

　また、本実施形態では、対象の楽曲に関する全ての区間における音程情報の示す音の高さを所定の数値分一律に変更し、当該音程情報を学習モデルＭに入力することにより、学習モデルＭの出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果を取得する。このような構成により、対象の楽曲の歌唱の際に音の高さの設定内容を変更した際の採点結果の予測精度を維持することができ、ユーザにとって歌唱の際に有益な推奨情報を提供することができる。

　なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本開示の一実施の形態におけるデータ管理装置４及び推奨情報提供装置５は、本開示の処理を行うコンピュータとして機能してもよい。図１３は、本開示の一実施の形態に係るデータ管理装置４及び推奨情報提供装置５のハードウェア構成の一例を示す図である。上述のデータ管理装置４及び推奨情報提供装置５は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。データ管理装置４及び推奨情報提供装置５のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　データ管理装置４及び推奨情報提供装置５における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。例えば、上述のデータ取得部２０１、モデル構築部２０２、予測部２０３、及び推奨情報生成部２０４などは、プロセッサ１００１によって実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、データ取得部２０１、モデル構築部２０２、予測部２０３、及び推奨情報生成部２０４は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る構築処理及び推奨処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency　Division　Duplex）及び時分割複信（ＴＤＤ：Time　Division　Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の情報を受信するデータ取得部２０１などは、通信装置１００４によって実現されてもよい。このデータ取得部２０１は、送信部と受信部とで、物理的に、または論理的に分離された実装がなされてもよい。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。例えば、上述の推奨情報生成部２０４などは、出力装置１００６によって実現されてもよい。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　また、データ管理装置４及び推奨情報提供装置５は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　情報の通知は、本開示において説明した態様／実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング（例えば、ＤＣＩ（Downlink　Control　Information）、ＵＣＩ（Uplink　Control　Information））、上位レイヤシグナリング（例えば、ＲＲＣ（Radio　Resource　Control）シグナリング、ＭＡＣ（Medium　Access　Control）シグナリング、報知情報（ＭＩＢ（Master　Information　Block）、ＳＩＢ（System　Information　Block）））、その他の信号又はこれらの組み合わせによって実施されてもよい。また、ＲＲＣシグナリングは、ＲＲＣメッセージと呼ばれてもよく、例えば、ＲＲＣ接続セットアップ（RRC　Connection　Setup）メッセージ、ＲＲＣ接続再構成（RRC　Connection　Reconfiguration）メッセージなどであってもよい。

　本開示において説明した各態様／実施形態は、ＬＴＥ（Long　Term　Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ　３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ（4th　generation　mobile　communication　system）、５Ｇ（5th　generation　mobile　communication　system）、ＦＲＡ（Future　Radio　Access）、ＮＲ（new　Radio）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra　Mobile　Broadband）、ＩＥＥＥ　８０２．１１（Ｗｉ－Ｆｉ（登録商標））、ＩＥＥＥ　８０２．１６（ＷｉＭＡＸ（登録商標））、ＩＥＥＥ　８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて（例えば、ＬＴＥ及びＬＴＥ－Ａの少なくとも一方と５Ｇとの組み合わせ等）適用されてもよい。

　本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　情報等は、上位レイヤ（又は下位レイヤ）から下位レイヤ（又は上位レイヤ）へ出力され得る。複数のネットワークノードを介して入出力されてもよい。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

　なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及びシンボルの少なくとも一方は信号（シグナリング）であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア（ＣＣ：Component　Carrier）は、キャリア周波数、セル、周波数キャリアなどと呼ばれてもよい。

　本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

　また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。

　上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々なチャネル（例えば、ＰＵＣＣＨ、ＰＤＣＣＨなど）及び情報要素は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。

　本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking　up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

　「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

　本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語でのa,　an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

　本発明の一形態は、推奨情報を提供する推奨情報提供装置を使用用途とし、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することを可能にするものである。

　５…推奨情報提供装置、１００１…プロセッサ、２０１…データ取得部、２０２…モデル構築部、２０３…予測部、２０４…推奨情報生成部、Ｍ…学習モデル。

Claims

　推奨情報を提供する推奨情報提供装置であって、
　少なくとも１つのプロセッサを備え、
　前記少なくとも１つのプロセッサが、
　ユーザの過去の楽曲の歌唱に関する採点結果を、前記楽曲の時間的な区間毎に取得し、
　前記楽曲を構成する音であって、前記区間において時系列に並ぶ音の高さを示す音程情報を取得し、
　前記採点結果及び前記音程情報を訓練データとして用いて、前記音程情報から、前記ユーザの楽曲の歌唱に関する採点結果を予測する学習モデルを構築し、
　対象の楽曲に関する前記音程情報を、前記音程情報の示す音の高さを複数種類に変更しながら前記学習モデルに入力することにより、前記学習モデルの出力を基に、前記ユーザの前記対象の楽曲の歌唱に関する採点結果を取得し、
　前記対象の楽曲に関する複数種類の前記音程情報を対象とした前記採点結果を基に、前記ユーザに推奨する前記音の高さの設定内容を前記推奨情報として出力する、
推奨情報提供装置。
　前記少なくとも１つのプロセッサは、
　時系列の前記音程情報を入力とし、前記音程情報に対応する楽曲の区間毎の採点結果を出力する学習モデルを用い、前記学習モデルの出力が、前記訓練データに含まれる前記区間毎の採点結果に近づくように、前記学習モデルを構築する、
請求項１に記載の推奨情報提供装置。
　前記少なくとも１つのプロセッサは、
　前記ユーザの識別情報をさらに入力する前記学習モデルを用いる、
請求項１又は２に記載の推奨情報提供装置。
　前記少なくとも１つのプロセッサは、
　前記学習モデルの出力である前記対象の楽曲の区間毎の採点結果を平均して前記ユーザの前記対象の楽曲の歌唱に関する採点結果を取得する、
請求項２に記載の推奨情報提供装置。
　前記少なくとも１つのプロセッサは、
　前記対象の楽曲に関する全ての区間における音程情報の示す音の高さを所定の数値分一律に変更し、当該音程情報を前記学習モデルに入力することにより、前記学習モデルの出力を基に、前記ユーザの前記対象の楽曲の歌唱に関する採点結果を取得する、
請求項１～４のいずれか１項に記載の推奨情報提供装置。