JPWO2018211602A1 - 学習装置、推定装置、学習方法及びプログラム - Google Patents

学習装置、推定装置、学習方法及びプログラム Download PDF

Info

Publication number
JPWO2018211602A1
JPWO2018211602A1 JP2019518646A JP2019518646A JPWO2018211602A1 JP WO2018211602 A1 JPWO2018211602 A1 JP WO2018211602A1 JP 2019518646 A JP2019518646 A JP 2019518646A JP 2019518646 A JP2019518646 A JP 2019518646A JP WO2018211602 A1 JPWO2018211602 A1 JP WO2018211602A1
Authority
JP
Japan
Prior art keywords
data
learning
type
model
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019518646A
Other languages
English (en)
Other versions
JP6707715B2 (ja
Inventor
勉 堀川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2018211602A1 publication Critical patent/JPWO2018211602A1/ja
Application granted granted Critical
Publication of JP6707715B2 publication Critical patent/JP6707715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

1の種類のデバイスのデータを用いて、用いられるデータの形式が異なる複数のモデルの学習が行える学習装置、学習方法及びプログラムを提供する。学習データ取得部(36)は、第1の種類のデバイスのデータである第1データを取得する。第1学習部(42)は、第1データを用いて、第1の種類のデバイスのデータを用いた推定が実行される第1モデル(34(1))の学習を行う。学習データ生成部(40)は、第1データに基づいて、第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成する。第2学習部(44)は、第2データを用いて、第2の種類のデバイスのデータを用いた推定が実行される第2モデル(34(2))の学習を行う。

Description

本発明は、学習装置、推定装置、学習方法及びプログラムに関する。
近年、ニューラルネットワークやサポートベクタマシン(SVM)などといった機械学習のモデルを用いて推定対象の推定を行う人工知能の技術が注目されている。このような技術においては、例えば推定対象のデータを学習済のモデルに入力した際の出力に基づいて、当該推定対象の推定が行われる。
近年、様々なデバイスによってセンシングデータ等のデータを大量に収集することが可能になっている。このように収集される大量のデータを用いてモデルの学習を行えば、当該モデルを用いた推定対象の推定精度は向上するものと期待される。
しかし、機械学習のモデルを用いた推定は当該モデルの学習に用いられた形式のデータで行われる必要がある。またデバイスの種類によって取得可能なデータの形式は異なる。そのため現状では、データを収集するデバイスの種類毎に、当該種類に対応するモデルの学習を行い、推定対象のデータに対応するモデルに当該データを入力した際の出力に基づいて、推定対象の推定を行う必要がある。このように現状では、様々なデバイスを用いて様々な種類の大量のデータが収集できても1つのモデルの学習には収集したデータの一部しか用いることができない。
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、1の種類のデバイスのデータを用いて、用いられるデータの形式が異なる複数のモデルの学習が行える学習装置、推定装置、学習方法及びプログラムを提供することを目的とする。
上記課題を解決するために、本発明に係る学習装置は、第1の種類のデバイスのデータである第1データを取得する取得部と、前記第1データを用いて、前記第1の種類のデバイスのデータを用いた推定が実行される第1のモデルの学習を行う第1学習部と、前記第1データに基づいて、前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成する生成部と、前記第2データを用いて、前記第2の種類のデバイスのデータを用いた推定が実行される第2のモデルの学習を行う第2学習部と、を含む。
本発明の一態様では、前記生成部は、前記第1データを前記第1の種類のデバイスのデータの次元から前記第2の種類のデバイスのデータの次元に変換することで前記第2データを生成する。
また、本発明の一態様では、前記生成部は、前記第1データの粒度を前記第2の種類のデバイスのデータの粒度に下げることで前記第2データを生成する。
また、本発明の一態様では、前記生成部は、前記第1データのうちから前記第2の種類のデバイスのデータの形式に相当する一部を選択することで前記第2データを生成する。
また、本発明に係る推定装置は、第1の種類のデバイスのデータに基づいて生成されるデータであり前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである学習データによる学習が実行された学習済モデルに、前記第2の種類のデバイスのデータである推定対象のデータを入力する入力部と、前記推定対象のデータの入力に応じた前記学習済モデルの出力に基づいて、当該推定対象の推定処理を実行する推定処理実行部と、を含む。
また、本発明に係る学習方法は、第1の種類のデバイスのデータである第1データを取得するステップと、前記第1データを用いて、前記第1の種類のデバイスのデータを用いた推定が実行される第1のモデルの学習を行うステップと、前記第1データに基づいて、前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成するステップと、前記第2データを用いて、前記第2の種類のデバイスのデータを用いた推定が実行される第2のモデルの学習を行うステップと、を含む。
また、本発明に係るプログラムは、第1の種類のデバイスのデータである第1データを取得する手順、前記第1データを用いて、前記第1の種類のデバイスのデータを用いた推定が実行される第1のモデルの学習を行う手順、前記第1データに基づいて、前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成する手順、前記第2データを用いて、前記第2の種類のデバイスのデータを用いた推定が実行される第2のモデルの学習を行う手順、をコンピュータに実行させる。
本発明の一実施形態に係るコンピュータネットワークの全体構成の一例を示す図である。 本発明の一実施形態に係るサーバの構成の一例を示す図である。 エンタテインメントシステムのカメラにより撮影される画像の一例を示す図である。 スマートフォンのカメラにより撮影される画像の一例を示す図である。 スマートフォンのタッチパネルにユーザの名前を表す文字列が表示されている様子の一例を示す図である。 本発明の一実施形態に係るサーバで実装される機能の一例を示す機能ブロック図である。 形式管理データの一例を示す図である。 対応モデル管理データの一例を示す図である。 本発明の一実施形態に係るサーバで行われる処理の流れの一例を示すフロー図である。 本発明の一実施形態に係るサーバで行われる処理の流れの一例を示すフロー図である。
以下、本発明の一実施形態について図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係るコンピュータネットワークの全体構成図である。図1に示すように、インターネットなどのコンピュータネットワーク16には、いずれもコンピュータを中心に構成されたサーバ10、エンタテインメントシステム12、スマートフォン14が接続されている。そしてエンタテインメントシステム12、及び、スマートフォン14は、コンピュータネットワーク16を介してサーバ10と通信可能となっている。
サーバ10は、本発明の一実施形態に係る学習装置及び推定装置として機能するコンピュータシステムである。図2は、本発明の一実施形態に係るサーバ10の構成図である。図2に示すように、本実施形態に係るサーバ10は、例えば、プロセッサ20、記憶部22、通信部24を含んでいる。プロセッサ20は、例えばサーバ10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。記憶部22は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部22には、プロセッサ20によって実行されるプログラムなどが記憶される。通信部24は、ネットワークボードなどの通信インタフェースである。
本実施形態に係るエンタテインメントシステム12は、エンタテインメント装置12a、ディスプレイ12b、カメラ12c、マイク12d、コントローラ12eなどを含んでいる。エンタテインメント装置12aは、例えばゲームコンソール等のコンピュータである。ディスプレイ12bは、例えば液晶ディスプレイ等であり、エンタテインメント装置12aから出力される映像信号が表す映像などを表示させる。カメラ12cは、例えば被写体を撮像した画像などといった、カメラ12cの周辺の様子を表すデータをエンタテインメント装置12aに出力するデジタルカメラ等のデバイスである。また本実施形態に係るカメラ12cは、深さ情報に関連付けられたカラー画像の撮影が可能であるステレオカメラであってもよい。例えばカメラ12cが、画素毎に、R値、G値、及び、B値に加え、カメラ12cから被写体までの距離を表すd値を含むカラー画像の撮影が可能であってもよい。マイク12dは、周囲の音声を取得して当該音声を表す音声データをエンタテインメント装置12aに出力するデバイスである。コントローラ12eは、エンタテインメント装置12aに対する操作入力を行うための操作入力装置である。
本実施形態に係るスマートフォン14は、例えばタッチパネル14a、カメラ14b、マイク14cなどを備えた携帯型のコンピュータである。ここで本実施形態ではカメラ14bはステレオカメラではないこととする。そのため、カメラ14bは深さ情報に関連付けられたカラー画像の撮影ができないこととする。
本実施形態に係るサーバ10には、機械学習のモデルが記憶されている。そして当該モデルは、カメラ12cにより撮影される、図3に例示するユーザの顔の画像、及び、マイク12dが取得する音声を表す音声データを入力データとし、当該ユーザのユーザIDを教師データとする教師あり学習を実行する。ここでは当該画像は、上述したような、深さ情報に関連付けられたカラー画像であることとする。この場合に例えば、エンタテインメントシステム12にログインする際にユーザが入力するユーザID、その際にカメラ12cにより撮影される画像、及び、その際にマイク12dが取得する音声を表す音声データがサーバ10に送信されるようにしてもよい。なお、上述のユーザID、画像、及び、音声データが、エンタテインメント装置12aが備える通信インタフェース等の通信部を介して、サーバ10に送信されてもよい。そしてこのようにして送信される画像及び音声データを入力データとし、送信されるユーザIDを教師データとする教師あり学習が実行されてもよい。
そしてこのような学習が数多く実行されると、例えば学習が実行されたモデルを用いて、カメラ12cにより撮影されるユーザの顔の画像及びマイク12dが取得する音声が表す音声データに基づく、当該ユーザのユーザIDの推定が可能となる。こうなれば例えばユーザがユーザIDを入力することなく、ユーザの顔の画像がカメラ12cにより撮影されることで、当該ユーザがエンタテインメントシステム12にログインすることが可能となる。
そして本実施形態に係るサーバ10には、エンタテインメントシステム12から送信される画像及び音声データを入力データとするモデルの他に、スマートフォン14が備えるカメラ14bにより撮影される画像を入力データとするモデルも記憶されている。以下、エンタテインメントシステム12から送信される画像及び音声データを入力データとするモデルを第1モデルと呼び、スマートフォン14が備えるカメラ14bにより撮影される画像を入力データとするモデルを第2モデルと呼ぶこととする。
そして本実施形態では、エンタテインメントシステム12から送信される画像及び音声データを入力データとする第1モデルの学習の際に、当該画像に基づいて、スマートフォン14が備えるカメラ14bにより撮影される画像と同じ形式の画像が生成される。そして本実施形態では例えば第1モデルの学習の際に、このようにして生成された画像を入力データとする第2モデルの学習が併せて行われる。
ここで例えば、カメラ14bにより撮影される画像は、カメラ12cにより撮影される画像よりも1の画像に含まれる画素数が少ないこととする。またカメラ14bにより撮影される画像は、カメラ12cにより撮影される画像とアスペクト比が異なることとする。またカメラ14bにより撮影される画像は、カメラ12cにより撮影される画像よりも各画素の階調も小さいこととする。具体的には例えばカメラ12cにより撮影される画像は256階調でカメラ14bにより撮影される画像は32階調であることとする。この場合本実施形態では例えば、カメラ12cにより撮影される画像に対して各種の加工処理が実行される。ここで加工処理としては、例えば、各画素のd値を削除する処理、1の画像に含まれる画素数を小さくする処理、トリミング処理やパディング処理、拡張・縮小・変形処理、各画素の階調を下げる処理、などが挙げられる。そしてこれらの加工処理が実行された後の画像を入力データとする第2モデルの学習が行われる。
なお第2モデルの学習において、第1モデルの学習に用いられた教師データが流用されてもよい。例えば、サーバ10がエンタテインメントシステム12から画像とともに受信したユーザIDを教師データとして、サーバ10が受信した画像に対して上述の加工処理が実行された画像を入力データとする第2モデルの学習が実行されてもよい。
そして本実施形態では、図4に例示する、スマートフォン14のカメラ14bにより撮影されたユーザの画像を、上述のようにして学習が実行された第2モデルに入力した際の出力に基づいて、当該ユーザのユーザIDの推定が実行される。ここで例えば、スマートフォン14のカメラ14bにより撮影されたユーザの顔の画像を、上述のようにして学習が実行された第2モデルに入力した際の出力に基づいて、当該ユーザの顔の画像の認識処理が実行されてもよい。そして当該認識処理の結果に基づいて、当該ユーザのユーザIDが推定されてもよい。また例えばサーバ10に、ユーザのユーザIDと当該ユーザの名前とが関連付けられたユーザデータが記憶されていてもよい。そして当該ユーザデータにおいて推定されたユーザIDに関連付けられている名前が特定されてもよい。そして図5に示すように、スマートフォン14のタッチパネル14aに特定されたユーザの名前を表す文字列Sが表示されるようにしてもよい。
なお以上の例で、カメラ14bにより撮影される画像及びマイク14cにより取得される音声を表す音声データに基づく、第2モデルを用いたユーザIDの推定が行われてもよい。この場合は、第2モデルの学習の際に、カメラ12cにより撮影される画像に対して加工処理が実行された画像、及び、マイク12dが出力する音声データを入力データとする学習が実行されてもよい。またこの場合に、マイク12dが出力する音声データの代わりに当該音声データに対して加工処理が実行された音声データを入力データとする学習が実行されてもよい。
近年、上述のエンタテインメントシステム12のカメラ12cやスマートフォン14のカメラ14bに限らず、推定に用いられることがデータを出力可能な様々なデバイスが存在する。このようなデバイスの例として、携帯型のゲーム装置、ヘッドマウントディスプレイ(HMD)、タブレット端末、デジタルカメラ、パーソナルコンピュータ、などが挙げられる。また自動車、航空機、ドローン等の乗り物も、このようなデバイスの一例として考えられる。
また上述の様々なデバイスが備えるセンサには、カメラやマイクに限らず、様々な物理量を検出可能であり、当該物理量に対応するセンシングデータを出力可能なものが存在する。例えば、デバイスが動く速度、角速度、加速度、角加速度などを検出可能なモーションセンサ、デバイスが向く方位を検出可能な方位センサ(コンパス)などが存在する。また、デバイスの位置を検出可能なGPSや無線LANモジュールなども存在する。また、温度を検出可能な温度センサや湿度を検出可能な湿度センサなども存在する。
またカメラのなかには、グレースケールの画像や二値画像などを出力可能なものや、動画像(映像)を出力可能なものも存在する。
また上述の様々なデバイスには、現在時刻を表すデータを出力可能な時計を備えたものや、使用しているユーザのユーザID、名前、年齢、性別、住所などといったユーザの識別情報を出力可能なものも存在する。
そして本発明における学習や推定に用いられるデータは、カメラ12cやカメラ14bによって撮影された画像やマイク12dが出力する音声データには限定されない。本発明は、例えば上述の様々なデータを用いた学習や推定にも適用可能である。
以下、本実施形態に係るサーバ10の機能、及び、サーバ10で実行される処理についてさらに説明する。
図6は、本実施形態に係るサーバ10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るサーバ10で、図6に示す機能のすべてが実装される必要はなく、また、図6に示す機能以外の機能が実装されていても構わない。
図6に示すように、サーバ10は、機能的には例えば、形式管理データ記憶部30、対応モデル管理データ記憶部32、複数のモデル34(第1モデル34(1)、第2モデル34(2)、第3モデル34(3)、・・・、第nモデル34(n))、学習データ取得部36、学習モデル決定部38、学習データ生成部40、第1学習部42、第2学習部44、推定対象データ取得部46、推定モデル決定部48、推定処理実行部50、を含んでいる。形式管理データ記憶部30、対応モデル管理データ記憶部32は、記憶部22を主として実装される。その他の要素は、プロセッサ20、及び、記憶部22を主として実装される。本実施形態に係るサーバ10は、モデルの学習を実行する学習装置としての役割も推定対象の推定を実行する推定装置の役割も担っている。
以上の機能は、コンピュータであるサーバ10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ20で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してサーバ10に供給されてもよい。
形式管理データ記憶部30は、本実施形態では例えば、図7に例示する形式管理データを記憶する。形式管理データには、例えば、デバイスの種類の識別情報であるデバイス種類IDと、学習及び推定に用いられる入力データの形式を示す形式データと、が含まれている。図7の例では、エンタテインメントシステム12のデバイス種類IDは1であり、スマートフォン14のデバイス種類IDは2であることとする。このように複数のデバイスから構成されるエンタテインメントシステム12等のシステムが1のデバイス種類IDに対応付けられてもよい。
また本実施形態では、デバイス種類IDにより識別されるデバイスの種類は、モデル34に対応付けられることとする。ここでは例えば、エンタテインメントシステム12は第1モデル34(1)に対応付けられ、スマートフォン14は第2モデル34(2)に対応付けられることとする。
対応モデル管理データ記憶部32は、本実施形態では例えば、図8に例示する対応モデル管理データを記憶する。図8に示すように、対応モデル管理データには、例えば、第1の種類のデバイスのデバイス種類IDである第1デバイス種類IDと、第2の種類のデバイスのデバイス種類IDである第2デバイス種類IDと、が含まれている。例えば第1デバイス種類IDに対応付けられる第2デバイス種類IDとして、当該第1デバイス種類IDより識別される種類のデバイスのデータに基づいて、学習に用いられるデータを生成可能なモデルに対応付けられるデバイス種類IDが設定される。上述のようにエンタテインメントシステム12から取得される画像に基づいて、第2モデル34(2)の学習に用いられるデータは生成可能である。この場合は、図8に示すように、第1デバイス種類IDとして1を含み第2デバイス種類IDとして2を含む対応モデル管理データが対応モデル管理データ記憶部32に記憶されることとなる。この場合、第1の種類のデバイスがエンタテインメントシステム12に相当し、第2の種類のデバイスがスマートフォン14に相当することとなる。なお、形式管理データに基づいて、対応モデル管理データが生成されても構わない。
モデル34は、本実施形態では例えば、当該モデル34に対応付けられるデバイス種類IDを含む形式管理データに含まれる形式データが示す形式のデータを用いた学習及び推定を実行する機械学習のモデルである。上述のように、第1モデル34(1)は、エンタテインメントシステム12のデータを用いた学習及び推定を実行する機械学習のモデルであることとする。また第2モデル34(2)は、スマートフォン14のデータを用いた学習及び推定を実行する機械学習のモデルであることとする。
なお本実施形態に係るモデル34の種類は特に問わない。モデル34は例えばサポートベクタマシン(SVM)やニューラルネットワークや他の機械学習のモデルであっても構わない。またモデル34は、教師あり学習のモデルであっても教師なし学習のモデルであっても構わない。
学習データ取得部36は、本実施形態では例えば、モデル34の学習に用いられる学習データを取得する。上述の例では学習データ取得部36は、入力データとしてカメラ12cが撮影した画像及びマイク12dが取得する音声を表す音声データを含み、教師データとしてユーザIDを含む、エンタテインメントシステム12のデータを学習データとして取得する。
学習モデル決定部38は、本実施形態では例えば、学習データ取得部36が取得するデータに基づいて学習データを生成するモデルを決定する。ここで学習モデル決定部38が、対応モデル管理データ記憶部32に記憶されている対応モデル管理データに基づいて、学習データを生成するモデルを決定してもよい。例えば学習データ取得部36が、第1の種類のデバイスのデータを取得したとする。この場合、当該第1の種類のデバイスのデバイス種類IDを第1デバイス種類IDとして含む対応モデル管理データに含まれる第2デバイス種類IDが特定されてもよい。そして当該第2デバイス種類IDにより識別される第2の種類のデバイスに対応するモデル34が、学習データを生成するモデルとして決定されてもよい。このようにして例えば、学習データ取得部36がエンタテインメントシステム12のデータを取得する場合に、学習データを生成するモデルとして第2モデル34(2)が決定されてもよい。
学習データ生成部40は、本実施形態では例えば、モデル34の学習に用いられる学習データを生成する。ここで例えば、学習データ取得部36が取得する学習データに基づいて、当該学習データとは形式が異なる、学習モデル決定部38により決定されるモデル34の学習データが生成されてもよい。また例えば、形式管理データ記憶部30に記憶されている形式管理データに基づいて特定される、学習モデル決定部38により決定されるモデル34に対応する形式の学習データが生成されてもよい。また例えばエンタテインメントシステム12の学習データに基づいて、スマートフォン14の学習データが生成されてもよい。以下、学習データ取得部36が取得する、第1の種類のデバイスのデータを第1データと呼ぶこととする。また、第1データに基づいて学習データ生成部40により生成される、第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータを第2データと呼ぶこととする。
ここで例えば、学習データ生成部40が、第1データを第1の種類のデバイスのデータの次元から第2の種類のデバイスのデータの次元に変換する変換処理を実行することで第2データを生成してもよい。この変換処理には、例えば、上述した各画素のd値を削除する処理、すなわち、画像に含まれる各画素について、R値、G値、B値、及び、d値のなかから、d値を削除して、R値、G値、及び、B値を選択する処理などが含まれる。またこの変換処理には、圧縮処理などによって、1の画像に含まれる画素数を小さくする処理も含まれる。またこの変換の処理には、例えば、複数のフレーム画像から構成される動画像のうちから静止画像であるフレーム画像を選択する処理も含まれる。またこの変換処理には、例えば、R値、G値、及び、B値を含むカラー画像を、グレースケールや二値画像に変換する処理のような、色空間の変更処理が含まれる。
また例えば、学習データ生成部40が、第1データの粒度を第2の種類のデバイスのデータの粒度に下げる粒度低減処理を実行することで第2データを生成してもよい。この粒度低減処理には、例えば、上述した、各画素の階調を下げる処理、例えば256階調の画像を32階調の画像に変換する処理やグレースケールの画像を二値画像に変換する処理などが含まれる。また粒度低減処理には、ユーザの年齢の情報を年代の情報に変換する処理(例えば、24歳という情報を20歳代という情報に変換する処理)や、都道府県及び市町村の情報を含む位置情報から市町村の情報を削除する処理も含まれる。
また例えば、学習データ生成部40が、第1データのうちの、第2の種類のデバイスのデータの形式に相当する一部を選択する選択処理を実行することで第2データを生成してもよい。この選択処理には、例えば、カメラ12cが撮影する画像及びマイク12dが出力する音声データのうちから、音声データを削除して画像を選択する処理などが含まれる。
なお学習データ生成部40が、第1データに対して、トリミング処理、パディング処理、変形処理、等の画像の加工処理を実行することで、第2データを生成してもよい。また学習データ生成部40が、以上で説明した処理のうちの複数の処理を実行してもよい。例えば学習データ生成部40が、第1データである画像に対して、階調を下げるとともに1の画像に含まれる画素数を少なくすることで、第2データである画像を生成してもよい。
第1学習部42は、本実施形態では例えば、第1の種類のデバイスのデータを用いたモデル34の学習を実行する。ここで例えば、学習データ取得部36が取得するエンタテインメントシステム12のデータを用いて第1モデル30の学習が実行されてもよい。
第2学習部44は、本実施形態では例えば、第2の種類のデバイスのデータを用いたモデル34の学習を実行する。ここで例えば、学習データ生成部40が生成したデータを用いたモデル34の学習が実行されてもよい。また学習モデル決定部38が決定したモデル34の学習が実行されてもよい。上述のように、例えばエンタテインメントシステム12のデータに基づいてスマートフォン14のデータが生成される場合は、第2学習部44は、生成されるスマートフォン14のデータを用いた第2モデル34(2)の学習を実行する。
推定対象データ取得部46は、本実施形態では例えば、学習済のモデルに入力される推定対象のデータを取得する。上述の例では、スマートフォン14が備えるカメラ14bが撮影した、図4に例示する画像が推定対象のデータに相当する。ここで例えば、推定対象のデータには、当該データを生成したデバイスの種類に対応するデバイス種類IDが関連付けられていてもよい。また例えば、推定対象のデータには、当該データの形式を示す形式データが関連付けられていてもよい。
推定モデル決定部48は、本実施形態では例えば、推定対象データ取得部46が取得した推定対象のデータに基づいて、当該データを用いた推定処理を実行するモデル34を決定する。ここで例えば、推定対象のデータに関連付けられているデバイス種類IDに対応付けられるモデル34が、推定対象のデータを用いた推定処理を実行するモデル34として決定されてもよい。また例えば推定対象のデータに関連付けられている形式データと同じ値の形式データを含む形式管理データが特定されてもよい。そして当該形式管理データに含まれるデバイス種類IDに対応付けられるモデル34が、推定対象のデータを用いた推定処理を実行するモデル34として決定されてもよい。
推定処理実行部50は、本実施形態では例えば、推定対象データ取得部46が取得する推定対象のデータを用いて当該推定対象の推定処理を実行する。例えば推定処理実行部50が、スマートフォン14が備えるカメラ14bが撮影した、図4に例示する画像である推定対象のデータを、学習済モデルである第2モデル34(2)に入力してもよい。そして推定処理実行部50が、当該推定対象のデータの入力に応じた学習済モデルである第2モデル34(2)の出力に基づいて、当該推定対象の認識などといった、当該推定対象の推定処理を実行してもよい。
例えば推定対象データ取得部46が、スマートフォン14が備えるカメラ14bが撮影した画像を取得したとする。この場合は、推定モデル決定部48は、第2モデル34(2)を、推定を実行するモデルとして決定してもよい。そして推定処理実行部50が、推定対象データ取得部46が取得した画像を第2モデル34(2)に入力した際における第2モデル34(2)からの出力に基づいて、当該画像に表されているユーザのユーザIDの推定処理を実行してもよい。また例えば、推定処理実行部50が、推定対象データ取得部46が取得した画像を第2モデル34(2)に入力した際における第2モデル34(2)からの出力に基づいて、当該画像の認識(例えば、当該画像に表されているユーザの顔の認識など)を実行してもよい。
なお推定モデル決定部48は、推定対象のデータに関連付けられている形式データが示す形式のデータから生成可能なデータの形式を示す形式データを含む形式管理データを特定してもよい。そして当該形式管理データに含まれるデバイス種類IDに対応付けられるモデル34が、推定対象のデータを用いた推定処理を実行するモデル34として決定されてもよい。この場合、推定処理実行部50が、推定対象データ取得部46が取得するデータに基づいて、決定されたモデル34に対応付けられるデバイスのデータを生成してもよい。そして推定処理実行部50は、生成されるデータが決定されたモデル34に入力されることに応じた当該モデル34からの出力に基づいて、推定対象の推定を行ってもよい。
なお本実施形態に係る推定処理実行部50が実行する推定は、ユーザIDの推定には限定されない。例えば、推定処理実行部50が、入力された実写画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味を特定するセマンティックセグメンテーションを実行してもよい。また例えば、推定処理実行部50が、入力された実写画像が何の画像であるかを特定する処理や、入力された実写画像内のどこに何が配置されているのかを特定する処理などを実行してもよい。
ここで、本実施形態に係るサーバ10で行われるモデル34の学習処理の流れの一例を、図9に例示するフロー図を参照しながら説明する。
まず、学習データ取得部36が、第1の種類のデバイスのデータである第1データを取得する(S101)。ここでは例えば、カメラ12cにより撮影されたユーザの画像及びマイク12dにより取得された音声を表す音声データを入力データとして含み、当該ユーザのユーザIDを教師データとして含む学習データが第1データとして取得される。
そして学習モデル決定部38が、S101に示す処理で取得した第1データに基づいて学習データを生成するモデル34を決定する(S102)。ここでは例えば、S101に示す処理で取得した第1データに基づいて学習データを生成するモデル34として、第2モデル34(2)が決定される。
そして学習データ生成部40が、S101に示す処理で取得した第1データに基づいて、S102に示す処理で決定された第2モデル34(2)に対応付けられる第2の種類のデバイスの第2データを生成する(S103)。ここでは例えば、上述のようにしてカメラ14bにより撮影される画像と同じ形式の画像が第2データとして生成される。なお、S102に示す処理で複数のモデル34が決定され、S103に示す処理で当該複数のモデル34のそれぞれに対応付けられる第2データが生成されてもよい。
そして第1学習部42が、S101に示す処理で取得された第1データを用いて、第1データに対応付けられるモデル34の学習を実行する(S104)。ここでは例えば、第1モデル34(1)の学習が実行される。
そして第2学習部44が、S103に示す処理で生成された第2データを用いて、第2データに対応付けられるモデル34の学習を実行する(S105)。ここでは例えば、S101に示す処理で取得された学習データに含まれるユーザIDを教師データとして含み、S103に示す処理で生成された画像を入力データとして含む学習データを用いた、第2モデル34(2)の学習が実行される。なお、S102に示す処理で複数のモデル34が決定された場合は、S105に示す処理で、当該複数のモデル34のそれぞれについて、当該モデル34に対応する第2データを用いて、当該モデル34の学習が実行されてもよい。そして本処理例に示す処理は終了される。
このように本処理例では、第1モデル34(1)の学習における教師データが第2モデル34(2)の学習における教師データとしても用いられることとなる。
次に、本実施形態に係るサーバ10で行われる、スマートフォン14のカメラ14bが撮影した画像に基づくユーザIDの推定処理の流れの一例を、図10に例示するフロー図を参照しながら説明する。
まず、推定対象データ取得部46が、推定対象のデータとして、カメラ14bにより撮影された画像を取得する(S201)。この画像は、上述の第2の種類のデバイスのデータに相当する。
そして、推定モデル決定部48が、S201に示す処理で取得された画像に基づいて、当該画像を用いた推定処理を実行するモデルを決定する(S202)。ここでは例えば、
第2モデル34(2)が推定処理を実行するモデルとして決定される。
そして、推定処理実行部50が、S201に示す処理で取得されたデータを、S202に示す処理で決定されたモデル34に入力した際の当該モデル34の出力に基づいて、推定対象の推定処理を実行する(S203)。ここでは例えば、S201に示す処理で取得された画像をS202に示す処理で決定されたモデル34に入力した際の当該モデル34の出力に基づいて、当該画像に表されているユーザのユーザIDの推定を実行する。そして本処理例に示す処理は終了される。
例えば、サーバ10は、例えば、S203に示す処理で推定されたユーザIDに基づいて図4に示されているような当該ユーザIDに対応付けられるユーザの名前を含むメッセージを生成してもよい。そしてサーバ10は、S201に示す処理で取得された画像を撮影したスマートフォン14に当該メッセージを送信してもよい。そして当該メッセージを受信したスマートフォン14は、当該メッセージをタッチパネル14aに表示させてもよい。
以上で説明したように、本実施形態によれば、1の種類のデバイスのデータを用いて、用いられるデータの形式が異なる複数のモデル34の学習が行えることとなる。具体的には例えば、エンタテインメントシステム12のデータを用いて、第1モデル34(1)及び第2モデル34(2)の学習が行えることとなる。
なお、本発明は上述の実施形態に限定されるものではない。
例えばモデル34とデバイスとは1対1で対応付けられている必要はない。例えば複数のデバイスのデータが共通する1のモデル34の学習や推定に用いられてもよい。
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (7)

  1. 第1の種類のデバイスのデータである第1データを取得する取得部と、
    前記第1データを用いて、前記第1の種類のデバイスのデータを用いた推定が実行される第1のモデルの学習を行う第1学習部と、
    前記第1データに基づいて、前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成する生成部と、
    前記第2データを用いて、前記第2の種類のデバイスのデータを用いた推定が実行される第2のモデルの学習を行う第2学習部と、
    を含むことを特徴とする学習装置。
  2. 前記生成部は、前記第1データを前記第1の種類のデバイスのデータの次元から前記第2の種類のデバイスのデータの次元に変換することで前記第2データを生成する、
    ことを特徴とする請求項1に記載の学習装置。
  3. 前記生成部は、前記第1データの粒度を前記第2の種類のデバイスのデータの粒度に下げることで前記第2データを生成する、
    ことを特徴とする請求項1又は2に記載の学習装置。
  4. 前記生成部は、前記第1データのうちから前記第2の種類のデバイスのデータの形式に相当する一部を選択することで前記第2データを生成する、
    ことを特徴とする請求項1から3のいずれか一項に記載の学習装置。
  5. 第1の種類のデバイスのデータに基づいて生成されるデータであり前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである学習データによる学習が実行された学習済モデルに、前記第2の種類のデバイスのデータである推定対象のデータを入力する入力部と、
    前記推定対象のデータの入力に応じた前記学習済モデルの出力に基づいて、当該推定対象の推定処理を実行する推定処理実行部と、
    を含むことを特徴とする推定装置。
  6. 第1の種類のデバイスのデータである第1データを取得するステップと、
    前記第1データを用いて、前記第1の種類のデバイスのデータを用いた推定が実行される第1のモデルの学習を行うステップと、
    前記第1データに基づいて、前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成するステップと、
    前記第2データを用いて、前記第2の種類のデバイスのデータを用いた推定が実行される第2のモデルの学習を行うステップと、
    を含むことを特徴とする学習方法。
  7. 第1の種類のデバイスのデータである第1データを取得する手順、
    前記第1データを用いて、前記第1の種類のデバイスのデータを用いた推定が実行される第1のモデルの学習を行う手順、
    前記第1データに基づいて、前記第1の種類のデバイスのデータとは形式が異なる第2の種類のデバイスのデータである第2データを生成する手順、
    前記第2データを用いて、前記第2の種類のデバイスのデータを用いた推定が実行される第2のモデルの学習を行う手順、
    をコンピュータに実行させることを特徴とするプログラム。
JP2019518646A 2017-05-16 2017-05-16 学習装置、推定装置、学習方法及びプログラム Active JP6707715B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/018407 WO2018211602A1 (ja) 2017-05-16 2017-05-16 学習装置、推定装置、学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2018211602A1 true JPWO2018211602A1 (ja) 2019-11-07
JP6707715B2 JP6707715B2 (ja) 2020-06-10

Family

ID=64273755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019518646A Active JP6707715B2 (ja) 2017-05-16 2017-05-16 学習装置、推定装置、学習方法及びプログラム

Country Status (3)

Country Link
US (1) US11568325B2 (ja)
JP (1) JP6707715B2 (ja)
WO (1) WO2018211602A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020217762A1 (ja) * 2019-04-25 2020-10-29 ソニー株式会社 通信装置、通信方法、及び通信プログラム
US11842540B2 (en) * 2021-03-31 2023-12-12 Qualcomm Incorporated Adaptive use of video models for holistic video understanding
JP7320809B1 (ja) * 2022-10-18 2023-08-04 株式会社サマデイ Aiサーバ用インターフェースシステム、及び非認知スキルブラッシュアップシステム

Also Published As

Publication number Publication date
US20200118037A1 (en) 2020-04-16
JP6707715B2 (ja) 2020-06-10
WO2018211602A1 (ja) 2018-11-22
US11568325B2 (en) 2023-01-31

Similar Documents

Publication Publication Date Title
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
US11693901B2 (en) Systems and methods for geolocation prediction
CN109086709B (zh) 特征提取模型训练方法、装置及存储介质
EP3754592B1 (en) Image acquisition device and method of controlling the same
CN111476871B (zh) 用于生成视频的方法和装置
EP3815042B1 (en) Image display with selective depiction of motion
WO2019182346A1 (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
CN109740018B (zh) 用于生成视频标签模型的方法和装置
US11810279B2 (en) Image acquisition device and method of controlling the same
US11457273B2 (en) Video playback device and control method thereof
JP6678246B2 (ja) 大域的最適化に基づく意味的セグメント化
CN110263213B (zh) 视频推送方法、装置、计算机设备及存储介质
CN110059623B (zh) 用于生成信息的方法和装置
CN115699082A (zh) 缺陷检测方法及装置、存储介质及电子设备
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
JP6707715B2 (ja) 学習装置、推定装置、学習方法及びプログラム
JP2021039625A (ja) 物体数推定装置、物体数推定方法、および物体数推定プログラム
US10937428B2 (en) Pose-invariant visual speech recognition using a single view input
CN109816023B (zh) 用于生成图片标签模型的方法和装置
US20190251355A1 (en) Method and electronic device for generating text comment about content
JP6892557B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
JP7490004B2 (ja) 機械学習を用いた画像カラー化
JP2020042528A (ja) オブジェクト識別システム、モデル学習システム、オブジェクト識別方法、モデル学習方法、プログラム
WO2021220658A1 (ja) 情報処理装置およびプログラム
CN111582206B (zh) 用于生成生物体姿态关键点信息的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200520

R150 Certificate of patent or registration of utility model

Ref document number: 6707715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150