JPWO2018211602A1

JPWO2018211602A1 - 学習装置、推定装置、学習方法及びプログラム

Info

Publication number: JPWO2018211602A1
Application number: JP2019518646A
Authority: JP
Inventors: 勉堀川
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2019-11-07
Anticipated expiration: 2037-05-16
Also published as: US20200118037A1; JP6707715B2; WO2018211602A1; US11568325B2

Abstract

１の種類のデバイスのデータを用いて、用いられるデータの形式が異なる複数のモデルの学習が行える学習装置、学習方法及びプログラムを提供する。学習データ取得部（３６）は、第１の種類のデバイスのデータである第１データを取得する。第１学習部（４２）は、第１データを用いて、第１の種類のデバイスのデータを用いた推定が実行される第１モデル（３４（１））の学習を行う。学習データ生成部（４０）は、第１データに基づいて、第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成する。第２学習部（４４）は、第２データを用いて、第２の種類のデバイスのデータを用いた推定が実行される第２モデル（３４（２））の学習を行う。

Description

本発明は、学習装置、推定装置、学習方法及びプログラムに関する。

近年、ニューラルネットワークやサポートベクタマシン（ＳＶＭ）などといった機械学習のモデルを用いて推定対象の推定を行う人工知能の技術が注目されている。このような技術においては、例えば推定対象のデータを学習済のモデルに入力した際の出力に基づいて、当該推定対象の推定が行われる。

近年、様々なデバイスによってセンシングデータ等のデータを大量に収集することが可能になっている。このように収集される大量のデータを用いてモデルの学習を行えば、当該モデルを用いた推定対象の推定精度は向上するものと期待される。

しかし、機械学習のモデルを用いた推定は当該モデルの学習に用いられた形式のデータで行われる必要がある。またデバイスの種類によって取得可能なデータの形式は異なる。そのため現状では、データを収集するデバイスの種類毎に、当該種類に対応するモデルの学習を行い、推定対象のデータに対応するモデルに当該データを入力した際の出力に基づいて、推定対象の推定を行う必要がある。このように現状では、様々なデバイスを用いて様々な種類の大量のデータが収集できても１つのモデルの学習には収集したデータの一部しか用いることができない。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、１の種類のデバイスのデータを用いて、用いられるデータの形式が異なる複数のモデルの学習が行える学習装置、推定装置、学習方法及びプログラムを提供することを目的とする。

上記課題を解決するために、本発明に係る学習装置は、第１の種類のデバイスのデータである第１データを取得する取得部と、前記第１データを用いて、前記第１の種類のデバイスのデータを用いた推定が実行される第１のモデルの学習を行う第１学習部と、前記第１データに基づいて、前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成する生成部と、前記第２データを用いて、前記第２の種類のデバイスのデータを用いた推定が実行される第２のモデルの学習を行う第２学習部と、を含む。

本発明の一態様では、前記生成部は、前記第１データを前記第１の種類のデバイスのデータの次元から前記第２の種類のデバイスのデータの次元に変換することで前記第２データを生成する。

また、本発明の一態様では、前記生成部は、前記第１データの粒度を前記第２の種類のデバイスのデータの粒度に下げることで前記第２データを生成する。

また、本発明の一態様では、前記生成部は、前記第１データのうちから前記第２の種類のデバイスのデータの形式に相当する一部を選択することで前記第２データを生成する。

また、本発明に係る推定装置は、第１の種類のデバイスのデータに基づいて生成されるデータであり前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである学習データによる学習が実行された学習済モデルに、前記第２の種類のデバイスのデータである推定対象のデータを入力する入力部と、前記推定対象のデータの入力に応じた前記学習済モデルの出力に基づいて、当該推定対象の推定処理を実行する推定処理実行部と、を含む。

また、本発明に係る学習方法は、第１の種類のデバイスのデータである第１データを取得するステップと、前記第１データを用いて、前記第１の種類のデバイスのデータを用いた推定が実行される第１のモデルの学習を行うステップと、前記第１データに基づいて、前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成するステップと、前記第２データを用いて、前記第２の種類のデバイスのデータを用いた推定が実行される第２のモデルの学習を行うステップと、を含む。

また、本発明に係るプログラムは、第１の種類のデバイスのデータである第１データを取得する手順、前記第１データを用いて、前記第１の種類のデバイスのデータを用いた推定が実行される第１のモデルの学習を行う手順、前記第１データに基づいて、前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成する手順、前記第２データを用いて、前記第２の種類のデバイスのデータを用いた推定が実行される第２のモデルの学習を行う手順、をコンピュータに実行させる。

本発明の一実施形態に係るコンピュータネットワークの全体構成の一例を示す図である。本発明の一実施形態に係るサーバの構成の一例を示す図である。エンタテインメントシステムのカメラにより撮影される画像の一例を示す図である。スマートフォンのカメラにより撮影される画像の一例を示す図である。スマートフォンのタッチパネルにユーザの名前を表す文字列が表示されている様子の一例を示す図である。本発明の一実施形態に係るサーバで実装される機能の一例を示す機能ブロック図である。形式管理データの一例を示す図である。対応モデル管理データの一例を示す図である。本発明の一実施形態に係るサーバで行われる処理の流れの一例を示すフロー図である。本発明の一実施形態に係るサーバで行われる処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係るコンピュータネットワークの全体構成図である。図１に示すように、インターネットなどのコンピュータネットワーク１６には、いずれもコンピュータを中心に構成されたサーバ１０、エンタテインメントシステム１２、スマートフォン１４が接続されている。そしてエンタテインメントシステム１２、及び、スマートフォン１４は、コンピュータネットワーク１６を介してサーバ１０と通信可能となっている。

サーバ１０は、本発明の一実施形態に係る学習装置及び推定装置として機能するコンピュータシステムである。図２は、本発明の一実施形態に係るサーバ１０の構成図である。図２に示すように、本実施形態に係るサーバ１０は、例えば、プロセッサ２０、記憶部２２、通信部２４を含んでいる。プロセッサ２０は、例えばサーバ１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。記憶部２２は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部２２には、プロセッサ２０によって実行されるプログラムなどが記憶される。通信部２４は、ネットワークボードなどの通信インタフェースである。

本実施形態に係るエンタテインメントシステム１２は、エンタテインメント装置１２ａ、ディスプレイ１２ｂ、カメラ１２ｃ、マイク１２ｄ、コントローラ１２ｅなどを含んでいる。エンタテインメント装置１２ａは、例えばゲームコンソール等のコンピュータである。ディスプレイ１２ｂは、例えば液晶ディスプレイ等であり、エンタテインメント装置１２ａから出力される映像信号が表す映像などを表示させる。カメラ１２ｃは、例えば被写体を撮像した画像などといった、カメラ１２ｃの周辺の様子を表すデータをエンタテインメント装置１２ａに出力するデジタルカメラ等のデバイスである。また本実施形態に係るカメラ１２ｃは、深さ情報に関連付けられたカラー画像の撮影が可能であるステレオカメラであってもよい。例えばカメラ１２ｃが、画素毎に、Ｒ値、Ｇ値、及び、Ｂ値に加え、カメラ１２ｃから被写体までの距離を表すｄ値を含むカラー画像の撮影が可能であってもよい。マイク１２ｄは、周囲の音声を取得して当該音声を表す音声データをエンタテインメント装置１２ａに出力するデバイスである。コントローラ１２ｅは、エンタテインメント装置１２ａに対する操作入力を行うための操作入力装置である。

本実施形態に係るスマートフォン１４は、例えばタッチパネル１４ａ、カメラ１４ｂ、マイク１４ｃなどを備えた携帯型のコンピュータである。ここで本実施形態ではカメラ１４ｂはステレオカメラではないこととする。そのため、カメラ１４ｂは深さ情報に関連付けられたカラー画像の撮影ができないこととする。

本実施形態に係るサーバ１０には、機械学習のモデルが記憶されている。そして当該モデルは、カメラ１２ｃにより撮影される、図３に例示するユーザの顔の画像、及び、マイク１２ｄが取得する音声を表す音声データを入力データとし、当該ユーザのユーザＩＤを教師データとする教師あり学習を実行する。ここでは当該画像は、上述したような、深さ情報に関連付けられたカラー画像であることとする。この場合に例えば、エンタテインメントシステム１２にログインする際にユーザが入力するユーザＩＤ、その際にカメラ１２ｃにより撮影される画像、及び、その際にマイク１２ｄが取得する音声を表す音声データがサーバ１０に送信されるようにしてもよい。なお、上述のユーザＩＤ、画像、及び、音声データが、エンタテインメント装置１２ａが備える通信インタフェース等の通信部を介して、サーバ１０に送信されてもよい。そしてこのようにして送信される画像及び音声データを入力データとし、送信されるユーザＩＤを教師データとする教師あり学習が実行されてもよい。

そしてこのような学習が数多く実行されると、例えば学習が実行されたモデルを用いて、カメラ１２ｃにより撮影されるユーザの顔の画像及びマイク１２ｄが取得する音声が表す音声データに基づく、当該ユーザのユーザＩＤの推定が可能となる。こうなれば例えばユーザがユーザＩＤを入力することなく、ユーザの顔の画像がカメラ１２ｃにより撮影されることで、当該ユーザがエンタテインメントシステム１２にログインすることが可能となる。

そして本実施形態に係るサーバ１０には、エンタテインメントシステム１２から送信される画像及び音声データを入力データとするモデルの他に、スマートフォン１４が備えるカメラ１４ｂにより撮影される画像を入力データとするモデルも記憶されている。以下、エンタテインメントシステム１２から送信される画像及び音声データを入力データとするモデルを第１モデルと呼び、スマートフォン１４が備えるカメラ１４ｂにより撮影される画像を入力データとするモデルを第２モデルと呼ぶこととする。

そして本実施形態では、エンタテインメントシステム１２から送信される画像及び音声データを入力データとする第１モデルの学習の際に、当該画像に基づいて、スマートフォン１４が備えるカメラ１４ｂにより撮影される画像と同じ形式の画像が生成される。そして本実施形態では例えば第１モデルの学習の際に、このようにして生成された画像を入力データとする第２モデルの学習が併せて行われる。

ここで例えば、カメラ１４ｂにより撮影される画像は、カメラ１２ｃにより撮影される画像よりも１の画像に含まれる画素数が少ないこととする。またカメラ１４ｂにより撮影される画像は、カメラ１２ｃにより撮影される画像とアスペクト比が異なることとする。またカメラ１４ｂにより撮影される画像は、カメラ１２ｃにより撮影される画像よりも各画素の階調も小さいこととする。具体的には例えばカメラ１２ｃにより撮影される画像は２５６階調でカメラ１４ｂにより撮影される画像は３２階調であることとする。この場合本実施形態では例えば、カメラ１２ｃにより撮影される画像に対して各種の加工処理が実行される。ここで加工処理としては、例えば、各画素のｄ値を削除する処理、１の画像に含まれる画素数を小さくする処理、トリミング処理やパディング処理、拡張・縮小・変形処理、各画素の階調を下げる処理、などが挙げられる。そしてこれらの加工処理が実行された後の画像を入力データとする第２モデルの学習が行われる。

なお第２モデルの学習において、第１モデルの学習に用いられた教師データが流用されてもよい。例えば、サーバ１０がエンタテインメントシステム１２から画像とともに受信したユーザＩＤを教師データとして、サーバ１０が受信した画像に対して上述の加工処理が実行された画像を入力データとする第２モデルの学習が実行されてもよい。

そして本実施形態では、図４に例示する、スマートフォン１４のカメラ１４ｂにより撮影されたユーザの画像を、上述のようにして学習が実行された第２モデルに入力した際の出力に基づいて、当該ユーザのユーザＩＤの推定が実行される。ここで例えば、スマートフォン１４のカメラ１４ｂにより撮影されたユーザの顔の画像を、上述のようにして学習が実行された第２モデルに入力した際の出力に基づいて、当該ユーザの顔の画像の認識処理が実行されてもよい。そして当該認識処理の結果に基づいて、当該ユーザのユーザＩＤが推定されてもよい。また例えばサーバ１０に、ユーザのユーザＩＤと当該ユーザの名前とが関連付けられたユーザデータが記憶されていてもよい。そして当該ユーザデータにおいて推定されたユーザＩＤに関連付けられている名前が特定されてもよい。そして図５に示すように、スマートフォン１４のタッチパネル１４ａに特定されたユーザの名前を表す文字列Ｓが表示されるようにしてもよい。

なお以上の例で、カメラ１４ｂにより撮影される画像及びマイク１４ｃにより取得される音声を表す音声データに基づく、第２モデルを用いたユーザＩＤの推定が行われてもよい。この場合は、第２モデルの学習の際に、カメラ１２ｃにより撮影される画像に対して加工処理が実行された画像、及び、マイク１２ｄが出力する音声データを入力データとする学習が実行されてもよい。またこの場合に、マイク１２ｄが出力する音声データの代わりに当該音声データに対して加工処理が実行された音声データを入力データとする学習が実行されてもよい。

近年、上述のエンタテインメントシステム１２のカメラ１２ｃやスマートフォン１４のカメラ１４ｂに限らず、推定に用いられることがデータを出力可能な様々なデバイスが存在する。このようなデバイスの例として、携帯型のゲーム装置、ヘッドマウントディスプレイ（ＨＭＤ）、タブレット端末、デジタルカメラ、パーソナルコンピュータ、などが挙げられる。また自動車、航空機、ドローン等の乗り物も、このようなデバイスの一例として考えられる。

また上述の様々なデバイスが備えるセンサには、カメラやマイクに限らず、様々な物理量を検出可能であり、当該物理量に対応するセンシングデータを出力可能なものが存在する。例えば、デバイスが動く速度、角速度、加速度、角加速度などを検出可能なモーションセンサ、デバイスが向く方位を検出可能な方位センサ（コンパス）などが存在する。また、デバイスの位置を検出可能なＧＰＳや無線ＬＡＮモジュールなども存在する。また、温度を検出可能な温度センサや湿度を検出可能な湿度センサなども存在する。

またカメラのなかには、グレースケールの画像や二値画像などを出力可能なものや、動画像（映像）を出力可能なものも存在する。

また上述の様々なデバイスには、現在時刻を表すデータを出力可能な時計を備えたものや、使用しているユーザのユーザＩＤ、名前、年齢、性別、住所などといったユーザの識別情報を出力可能なものも存在する。

そして本発明における学習や推定に用いられるデータは、カメラ１２ｃやカメラ１４ｂによって撮影された画像やマイク１２ｄが出力する音声データには限定されない。本発明は、例えば上述の様々なデータを用いた学習や推定にも適用可能である。

以下、本実施形態に係るサーバ１０の機能、及び、サーバ１０で実行される処理についてさらに説明する。

図６は、本実施形態に係るサーバ１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るサーバ１０で、図６に示す機能のすべてが実装される必要はなく、また、図６に示す機能以外の機能が実装されていても構わない。

図６に示すように、サーバ１０は、機能的には例えば、形式管理データ記憶部３０、対応モデル管理データ記憶部３２、複数のモデル３４（第１モデル３４（１）、第２モデル３４（２）、第３モデル３４（３）、・・・、第ｎモデル３４（ｎ））、学習データ取得部３６、学習モデル決定部３８、学習データ生成部４０、第１学習部４２、第２学習部４４、推定対象データ取得部４６、推定モデル決定部４８、推定処理実行部５０、を含んでいる。形式管理データ記憶部３０、対応モデル管理データ記憶部３２は、記憶部２２を主として実装される。その他の要素は、プロセッサ２０、及び、記憶部２２を主として実装される。本実施形態に係るサーバ１０は、モデルの学習を実行する学習装置としての役割も推定対象の推定を実行する推定装置の役割も担っている。

以上の機能は、コンピュータであるサーバ１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ２０で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してサーバ１０に供給されてもよい。

形式管理データ記憶部３０は、本実施形態では例えば、図７に例示する形式管理データを記憶する。形式管理データには、例えば、デバイスの種類の識別情報であるデバイス種類ＩＤと、学習及び推定に用いられる入力データの形式を示す形式データと、が含まれている。図７の例では、エンタテインメントシステム１２のデバイス種類ＩＤは１であり、スマートフォン１４のデバイス種類ＩＤは２であることとする。このように複数のデバイスから構成されるエンタテインメントシステム１２等のシステムが１のデバイス種類ＩＤに対応付けられてもよい。

また本実施形態では、デバイス種類ＩＤにより識別されるデバイスの種類は、モデル３４に対応付けられることとする。ここでは例えば、エンタテインメントシステム１２は第１モデル３４（１）に対応付けられ、スマートフォン１４は第２モデル３４（２）に対応付けられることとする。

対応モデル管理データ記憶部３２は、本実施形態では例えば、図８に例示する対応モデル管理データを記憶する。図８に示すように、対応モデル管理データには、例えば、第１の種類のデバイスのデバイス種類ＩＤである第１デバイス種類ＩＤと、第２の種類のデバイスのデバイス種類ＩＤである第２デバイス種類ＩＤと、が含まれている。例えば第１デバイス種類ＩＤに対応付けられる第２デバイス種類ＩＤとして、当該第１デバイス種類ＩＤより識別される種類のデバイスのデータに基づいて、学習に用いられるデータを生成可能なモデルに対応付けられるデバイス種類ＩＤが設定される。上述のようにエンタテインメントシステム１２から取得される画像に基づいて、第２モデル３４（２）の学習に用いられるデータは生成可能である。この場合は、図８に示すように、第１デバイス種類ＩＤとして１を含み第２デバイス種類ＩＤとして２を含む対応モデル管理データが対応モデル管理データ記憶部３２に記憶されることとなる。この場合、第１の種類のデバイスがエンタテインメントシステム１２に相当し、第２の種類のデバイスがスマートフォン１４に相当することとなる。なお、形式管理データに基づいて、対応モデル管理データが生成されても構わない。

モデル３４は、本実施形態では例えば、当該モデル３４に対応付けられるデバイス種類ＩＤを含む形式管理データに含まれる形式データが示す形式のデータを用いた学習及び推定を実行する機械学習のモデルである。上述のように、第１モデル３４（１）は、エンタテインメントシステム１２のデータを用いた学習及び推定を実行する機械学習のモデルであることとする。また第２モデル３４（２）は、スマートフォン１４のデータを用いた学習及び推定を実行する機械学習のモデルであることとする。

なお本実施形態に係るモデル３４の種類は特に問わない。モデル３４は例えばサポートベクタマシン（ＳＶＭ）やニューラルネットワークや他の機械学習のモデルであっても構わない。またモデル３４は、教師あり学習のモデルであっても教師なし学習のモデルであっても構わない。

学習データ取得部３６は、本実施形態では例えば、モデル３４の学習に用いられる学習データを取得する。上述の例では学習データ取得部３６は、入力データとしてカメラ１２ｃが撮影した画像及びマイク１２ｄが取得する音声を表す音声データを含み、教師データとしてユーザＩＤを含む、エンタテインメントシステム１２のデータを学習データとして取得する。

学習モデル決定部３８は、本実施形態では例えば、学習データ取得部３６が取得するデータに基づいて学習データを生成するモデルを決定する。ここで学習モデル決定部３８が、対応モデル管理データ記憶部３２に記憶されている対応モデル管理データに基づいて、学習データを生成するモデルを決定してもよい。例えば学習データ取得部３６が、第１の種類のデバイスのデータを取得したとする。この場合、当該第１の種類のデバイスのデバイス種類ＩＤを第１デバイス種類ＩＤとして含む対応モデル管理データに含まれる第２デバイス種類ＩＤが特定されてもよい。そして当該第２デバイス種類ＩＤにより識別される第２の種類のデバイスに対応するモデル３４が、学習データを生成するモデルとして決定されてもよい。このようにして例えば、学習データ取得部３６がエンタテインメントシステム１２のデータを取得する場合に、学習データを生成するモデルとして第２モデル３４（２）が決定されてもよい。

学習データ生成部４０は、本実施形態では例えば、モデル３４の学習に用いられる学習データを生成する。ここで例えば、学習データ取得部３６が取得する学習データに基づいて、当該学習データとは形式が異なる、学習モデル決定部３８により決定されるモデル３４の学習データが生成されてもよい。また例えば、形式管理データ記憶部３０に記憶されている形式管理データに基づいて特定される、学習モデル決定部３８により決定されるモデル３４に対応する形式の学習データが生成されてもよい。また例えばエンタテインメントシステム１２の学習データに基づいて、スマートフォン１４の学習データが生成されてもよい。以下、学習データ取得部３６が取得する、第１の種類のデバイスのデータを第１データと呼ぶこととする。また、第１データに基づいて学習データ生成部４０により生成される、第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータを第２データと呼ぶこととする。

ここで例えば、学習データ生成部４０が、第１データを第１の種類のデバイスのデータの次元から第２の種類のデバイスのデータの次元に変換する変換処理を実行することで第２データを生成してもよい。この変換処理には、例えば、上述した各画素のｄ値を削除する処理、すなわち、画像に含まれる各画素について、Ｒ値、Ｇ値、Ｂ値、及び、ｄ値のなかから、ｄ値を削除して、Ｒ値、Ｇ値、及び、Ｂ値を選択する処理などが含まれる。またこの変換処理には、圧縮処理などによって、１の画像に含まれる画素数を小さくする処理も含まれる。またこの変換の処理には、例えば、複数のフレーム画像から構成される動画像のうちから静止画像であるフレーム画像を選択する処理も含まれる。またこの変換処理には、例えば、Ｒ値、Ｇ値、及び、Ｂ値を含むカラー画像を、グレースケールや二値画像に変換する処理のような、色空間の変更処理が含まれる。

また例えば、学習データ生成部４０が、第１データの粒度を第２の種類のデバイスのデータの粒度に下げる粒度低減処理を実行することで第２データを生成してもよい。この粒度低減処理には、例えば、上述した、各画素の階調を下げる処理、例えば２５６階調の画像を３２階調の画像に変換する処理やグレースケールの画像を二値画像に変換する処理などが含まれる。また粒度低減処理には、ユーザの年齢の情報を年代の情報に変換する処理（例えば、２４歳という情報を２０歳代という情報に変換する処理）や、都道府県及び市町村の情報を含む位置情報から市町村の情報を削除する処理も含まれる。

また例えば、学習データ生成部４０が、第１データのうちの、第２の種類のデバイスのデータの形式に相当する一部を選択する選択処理を実行することで第２データを生成してもよい。この選択処理には、例えば、カメラ１２ｃが撮影する画像及びマイク１２ｄが出力する音声データのうちから、音声データを削除して画像を選択する処理などが含まれる。

なお学習データ生成部４０が、第１データに対して、トリミング処理、パディング処理、変形処理、等の画像の加工処理を実行することで、第２データを生成してもよい。また学習データ生成部４０が、以上で説明した処理のうちの複数の処理を実行してもよい。例えば学習データ生成部４０が、第１データである画像に対して、階調を下げるとともに１の画像に含まれる画素数を少なくすることで、第２データである画像を生成してもよい。

第１学習部４２は、本実施形態では例えば、第１の種類のデバイスのデータを用いたモデル３４の学習を実行する。ここで例えば、学習データ取得部３６が取得するエンタテインメントシステム１２のデータを用いて第１モデル３０の学習が実行されてもよい。

第２学習部４４は、本実施形態では例えば、第２の種類のデバイスのデータを用いたモデル３４の学習を実行する。ここで例えば、学習データ生成部４０が生成したデータを用いたモデル３４の学習が実行されてもよい。また学習モデル決定部３８が決定したモデル３４の学習が実行されてもよい。上述のように、例えばエンタテインメントシステム１２のデータに基づいてスマートフォン１４のデータが生成される場合は、第２学習部４４は、生成されるスマートフォン１４のデータを用いた第２モデル３４（２）の学習を実行する。

推定対象データ取得部４６は、本実施形態では例えば、学習済のモデルに入力される推定対象のデータを取得する。上述の例では、スマートフォン１４が備えるカメラ１４ｂが撮影した、図４に例示する画像が推定対象のデータに相当する。ここで例えば、推定対象のデータには、当該データを生成したデバイスの種類に対応するデバイス種類ＩＤが関連付けられていてもよい。また例えば、推定対象のデータには、当該データの形式を示す形式データが関連付けられていてもよい。

推定モデル決定部４８は、本実施形態では例えば、推定対象データ取得部４６が取得した推定対象のデータに基づいて、当該データを用いた推定処理を実行するモデル３４を決定する。ここで例えば、推定対象のデータに関連付けられているデバイス種類ＩＤに対応付けられるモデル３４が、推定対象のデータを用いた推定処理を実行するモデル３４として決定されてもよい。また例えば推定対象のデータに関連付けられている形式データと同じ値の形式データを含む形式管理データが特定されてもよい。そして当該形式管理データに含まれるデバイス種類ＩＤに対応付けられるモデル３４が、推定対象のデータを用いた推定処理を実行するモデル３４として決定されてもよい。

推定処理実行部５０は、本実施形態では例えば、推定対象データ取得部４６が取得する推定対象のデータを用いて当該推定対象の推定処理を実行する。例えば推定処理実行部５０が、スマートフォン１４が備えるカメラ１４ｂが撮影した、図４に例示する画像である推定対象のデータを、学習済モデルである第２モデル３４（２）に入力してもよい。そして推定処理実行部５０が、当該推定対象のデータの入力に応じた学習済モデルである第２モデル３４（２）の出力に基づいて、当該推定対象の認識などといった、当該推定対象の推定処理を実行してもよい。

例えば推定対象データ取得部４６が、スマートフォン１４が備えるカメラ１４ｂが撮影した画像を取得したとする。この場合は、推定モデル決定部４８は、第２モデル３４（２）を、推定を実行するモデルとして決定してもよい。そして推定処理実行部５０が、推定対象データ取得部４６が取得した画像を第２モデル３４（２）に入力した際における第２モデル３４（２）からの出力に基づいて、当該画像に表されているユーザのユーザＩＤの推定処理を実行してもよい。また例えば、推定処理実行部５０が、推定対象データ取得部４６が取得した画像を第２モデル３４（２）に入力した際における第２モデル３４（２）からの出力に基づいて、当該画像の認識（例えば、当該画像に表されているユーザの顔の認識など）を実行してもよい。

なお推定モデル決定部４８は、推定対象のデータに関連付けられている形式データが示す形式のデータから生成可能なデータの形式を示す形式データを含む形式管理データを特定してもよい。そして当該形式管理データに含まれるデバイス種類ＩＤに対応付けられるモデル３４が、推定対象のデータを用いた推定処理を実行するモデル３４として決定されてもよい。この場合、推定処理実行部５０が、推定対象データ取得部４６が取得するデータに基づいて、決定されたモデル３４に対応付けられるデバイスのデータを生成してもよい。そして推定処理実行部５０は、生成されるデータが決定されたモデル３４に入力されることに応じた当該モデル３４からの出力に基づいて、推定対象の推定を行ってもよい。

なお本実施形態に係る推定処理実行部５０が実行する推定は、ユーザＩＤの推定には限定されない。例えば、推定処理実行部５０が、入力された実写画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味を特定するセマンティックセグメンテーションを実行してもよい。また例えば、推定処理実行部５０が、入力された実写画像が何の画像であるかを特定する処理や、入力された実写画像内のどこに何が配置されているのかを特定する処理などを実行してもよい。

ここで、本実施形態に係るサーバ１０で行われるモデル３４の学習処理の流れの一例を、図９に例示するフロー図を参照しながら説明する。

まず、学習データ取得部３６が、第１の種類のデバイスのデータである第１データを取得する（Ｓ１０１）。ここでは例えば、カメラ１２ｃにより撮影されたユーザの画像及びマイク１２ｄにより取得された音声を表す音声データを入力データとして含み、当該ユーザのユーザＩＤを教師データとして含む学習データが第１データとして取得される。

そして学習モデル決定部３８が、Ｓ１０１に示す処理で取得した第１データに基づいて学習データを生成するモデル３４を決定する（Ｓ１０２）。ここでは例えば、Ｓ１０１に示す処理で取得した第１データに基づいて学習データを生成するモデル３４として、第２モデル３４（２）が決定される。

そして学習データ生成部４０が、Ｓ１０１に示す処理で取得した第１データに基づいて、Ｓ１０２に示す処理で決定された第２モデル３４（２）に対応付けられる第２の種類のデバイスの第２データを生成する（Ｓ１０３）。ここでは例えば、上述のようにしてカメラ１４ｂにより撮影される画像と同じ形式の画像が第２データとして生成される。なお、Ｓ１０２に示す処理で複数のモデル３４が決定され、Ｓ１０３に示す処理で当該複数のモデル３４のそれぞれに対応付けられる第２データが生成されてもよい。

そして第１学習部４２が、Ｓ１０１に示す処理で取得された第１データを用いて、第１データに対応付けられるモデル３４の学習を実行する（Ｓ１０４）。ここでは例えば、第１モデル３４（１）の学習が実行される。

そして第２学習部４４が、Ｓ１０３に示す処理で生成された第２データを用いて、第２データに対応付けられるモデル３４の学習を実行する（Ｓ１０５）。ここでは例えば、Ｓ１０１に示す処理で取得された学習データに含まれるユーザＩＤを教師データとして含み、Ｓ１０３に示す処理で生成された画像を入力データとして含む学習データを用いた、第２モデル３４（２）の学習が実行される。なお、Ｓ１０２に示す処理で複数のモデル３４が決定された場合は、Ｓ１０５に示す処理で、当該複数のモデル３４のそれぞれについて、当該モデル３４に対応する第２データを用いて、当該モデル３４の学習が実行されてもよい。そして本処理例に示す処理は終了される。

このように本処理例では、第１モデル３４（１）の学習における教師データが第２モデル３４（２）の学習における教師データとしても用いられることとなる。

次に、本実施形態に係るサーバ１０で行われる、スマートフォン１４のカメラ１４ｂが撮影した画像に基づくユーザＩＤの推定処理の流れの一例を、図１０に例示するフロー図を参照しながら説明する。

まず、推定対象データ取得部４６が、推定対象のデータとして、カメラ１４ｂにより撮影された画像を取得する（Ｓ２０１）。この画像は、上述の第２の種類のデバイスのデータに相当する。

そして、推定モデル決定部４８が、Ｓ２０１に示す処理で取得された画像に基づいて、当該画像を用いた推定処理を実行するモデルを決定する（Ｓ２０２）。ここでは例えば、
第２モデル３４（２）が推定処理を実行するモデルとして決定される。

そして、推定処理実行部５０が、Ｓ２０１に示す処理で取得されたデータを、Ｓ２０２に示す処理で決定されたモデル３４に入力した際の当該モデル３４の出力に基づいて、推定対象の推定処理を実行する（Ｓ２０３）。ここでは例えば、Ｓ２０１に示す処理で取得された画像をＳ２０２に示す処理で決定されたモデル３４に入力した際の当該モデル３４の出力に基づいて、当該画像に表されているユーザのユーザＩＤの推定を実行する。そして本処理例に示す処理は終了される。

例えば、サーバ１０は、例えば、Ｓ２０３に示す処理で推定されたユーザＩＤに基づいて図４に示されているような当該ユーザＩＤに対応付けられるユーザの名前を含むメッセージを生成してもよい。そしてサーバ１０は、Ｓ２０１に示す処理で取得された画像を撮影したスマートフォン１４に当該メッセージを送信してもよい。そして当該メッセージを受信したスマートフォン１４は、当該メッセージをタッチパネル１４ａに表示させてもよい。

以上で説明したように、本実施形態によれば、１の種類のデバイスのデータを用いて、用いられるデータの形式が異なる複数のモデル３４の学習が行えることとなる。具体的には例えば、エンタテインメントシステム１２のデータを用いて、第１モデル３４（１）及び第２モデル３４（２）の学習が行えることとなる。

なお、本発明は上述の実施形態に限定されるものではない。

例えばモデル３４とデバイスとは１対１で対応付けられている必要はない。例えば複数のデバイスのデータが共通する１のモデル３４の学習や推定に用いられてもよい。

また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

第１の種類のデバイスのデータである第１データを取得する取得部と、
前記第１データを用いて、前記第１の種類のデバイスのデータを用いた推定が実行される第１のモデルの学習を行う第１学習部と、
前記第１データに基づいて、前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成する生成部と、
前記第２データを用いて、前記第２の種類のデバイスのデータを用いた推定が実行される第２のモデルの学習を行う第２学習部と、
を含むことを特徴とする学習装置。
前記生成部は、前記第１データを前記第１の種類のデバイスのデータの次元から前記第２の種類のデバイスのデータの次元に変換することで前記第２データを生成する、
ことを特徴とする請求項１に記載の学習装置。
前記生成部は、前記第１データの粒度を前記第２の種類のデバイスのデータの粒度に下げることで前記第２データを生成する、
ことを特徴とする請求項１又は２に記載の学習装置。
前記生成部は、前記第１データのうちから前記第２の種類のデバイスのデータの形式に相当する一部を選択することで前記第２データを生成する、
ことを特徴とする請求項１から３のいずれか一項に記載の学習装置。
第１の種類のデバイスのデータに基づいて生成されるデータであり前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである学習データによる学習が実行された学習済モデルに、前記第２の種類のデバイスのデータである推定対象のデータを入力する入力部と、
前記推定対象のデータの入力に応じた前記学習済モデルの出力に基づいて、当該推定対象の推定処理を実行する推定処理実行部と、
を含むことを特徴とする推定装置。
第１の種類のデバイスのデータである第１データを取得するステップと、
前記第１データを用いて、前記第１の種類のデバイスのデータを用いた推定が実行される第１のモデルの学習を行うステップと、
前記第１データに基づいて、前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成するステップと、
前記第２データを用いて、前記第２の種類のデバイスのデータを用いた推定が実行される第２のモデルの学習を行うステップと、
を含むことを特徴とする学習方法。
第１の種類のデバイスのデータである第１データを取得する手順、
前記第１データを用いて、前記第１の種類のデバイスのデータを用いた推定が実行される第１のモデルの学習を行う手順、
前記第１データに基づいて、前記第１の種類のデバイスのデータとは形式が異なる第２の種類のデバイスのデータである第２データを生成する手順、
前記第２データを用いて、前記第２の種類のデバイスのデータを用いた推定が実行される第２のモデルの学習を行う手順、
をコンピュータに実行させることを特徴とするプログラム。