WO2020148810A1

WO2020148810A1 - 情報処理装置

Info

Publication number: WO2020148810A1
Application number: PCT/JP2019/000964
Authority: WO
Inventors: 圭介清水
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2020-07-23
Also published as: US20220101491A1; JP7134260B2; JPWO2020148810A1

Abstract

再現対象となる対象物を撮影して得られる複数の基準画像を取得し、当該複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得し、当該複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成する情報処理装置である。

Description

情報処理装置

　本発明は、対象物を表す画像を生成するための情報処理装置、情報処理方法、プログラム、及び学習済みデータに関する。

　機械学習によって画像を自動生成する技術が研究されている。このような試みの一つとして、人などの対象物を撮影して得られる複数の撮影画像を教師データとして用いて、同じ対象物を再現する画像を生成する手法が検討されている。

　上記技術においては、限られた種類の画像を教師データとして利用して機械学習を行ったとしても、その限られた教師データに比較的近いパターンの再現画像しか生成することができず、教師データの内容から大きく逸脱したパターンの再現画像を精度よく生成することは難しい。一方で、生成可能な再現画像のバリエーションを増やすためには多様なパターンの画像を撮影しなければならず、手間がかかってしまう。

　本発明は上記実情を考慮してなされたものであって、その目的の一つは、比較的少ない手間で対象物を再現する再現画像のバリエーションを増やすことのできる情報処理装置、情報処理方法、プログラム、及び学習済みデータを提供することにある。

　本発明の一態様に係る情報処理装置は、再現対象となる対象物を撮影して得られる複数の基準画像を取得する基準画像取得部と、前記複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得する変換画像取得部と、前記複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成する機械学習部と、を含むことを特徴とする。

　本発明の一態様に係る情報処理方法は、再現対象となる対象物を撮影して得られる複数の基準画像を取得するステップと、前記複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得するステップと、前記複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成するステップと、を含むことを特徴とする。

　本発明の一態様に係るプログラムは、再現対象となる対象物を撮影して得られる複数の基準画像を取得するステップと、前記複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得するステップと、前記複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成するステップと、をコンピュータに実行させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。

　本発明の一態様に係る学習済みデータは、再現対象となる対象物を撮影して得られる複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行した結果得られる、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータである。

　本発明の一態様に係る情報処理装置は、再現対象となる対象物の姿勢を表す姿勢データを取得する取得部と、対象物を撮影して得られる複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行した結果得られる学習済みデータを用いて、前記姿勢データが表す姿勢を前記対象物が取っている様子を表す再現画像を生成する再現画像生成部と、を含むことを特徴とする。

本発明の実施の形態に係る情報処理装置の構成ブロック図である。情報処理装置の機能ブロック図である。基準画像の一例を示す図である。変換画像の一例を示す図である。基準画像に対する姿勢特定処理の結果の一例を示す図である。利用者を撮影する様子を示す図である。再現画像の一例を示す図である。

　以下、本発明の実施の形態について、図面に基づき詳細に説明する。

　図１は、本発明の一実施形態に係る情報処理装置１０の構成ブロック図である。情報処理装置１０は、パーソナルコンピューター等の情報処理装置であって、図１に示されるように、制御部１１と、記憶部１２と、インタフェース部１３と、を含んで構成される。また、情報処理装置１０は、操作デバイス１４、表示装置１５、及びカメラ１６と接続されている。

　制御部１１は、ＣＰＵ等のプロセッサを少なくとも一つ含み、記憶部１２に記憶されているプログラムを実行して各種の情報処理を実行する。なお、本実施形態において制御部１１が実行する処理の具体例については、後述する。記憶部１２は、ＲＡＭ等のメモリデバイスを少なくとも一つ含み、制御部１１が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。

　インタフェース部１３は、操作デバイス１４、表示装置１５及びカメラ１６との間のデータ通信のためのインタフェースである。情報処理装置１０は、インタフェース部１３を介して有線又は無線のいずれかで操作デバイス１４、表示装置１５及びカメラ１６のそれぞれと接続される。具体的にインタフェース部１３は、情報処理装置１０が供給する映像データを表示装置１５に送信するために、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）等のマルチメディアインタフェースを含むこととする。また、操作デバイス１４が受け付けたユーザーの操作内容を示す操作信号や、カメラ１６によって撮影された撮影画像を受信するために、ＵＳＢ（Universal Serial Bus）等のデータ通信インタフェースを含んでいる。

　操作デバイス１４は、ユーザーからの操作指示を受け付け、その内容を示す操作信号を情報処理装置１０に送信する。表示装置１５は、情報処理装置１０から送信される映像信号に応じた映像を表示して、ユーザーに閲覧させる。

　カメラ１６は、視野内の様子を撮影して得られる撮影画像を出力する。本実施形態では、後述する再現映像を生成する際に、人の姿勢を表す姿勢データを取得するために用いられる。

　次に、情報処理装置１０が実現する機能について、図２を用いて説明する。情報処理装置１０は、再現対象となる物体（対象物）の外観を表す画像を入力として機械学習を行い、その結果を用いて対象物の外観を再現するために用いられる。図２に示すように、情報処理装置１０は、機能的に、基準画像取得部５１と、変換画像取得部５２と、機械学習部５３と、再現画像生成部５４と、を含んでいる。これらの機能は、制御部１１が記憶部１２に記憶されたプログラムを実行することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置１０に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。

　基準画像取得部５１は、後述する機械学習において教師データとして用いられる基準画像Ｉｒのデータを取得する。本実施形態において基準画像Ｉｒは、再現対象となる対象物を実際に撮影して得られる撮影画像であるものとする。また、対象物は人であることとし、この人物を対象者Ｔという。

　基準画像Ｉｒは、対象者Ｔの略全体を含むことが望ましい。ただし、再現対象となる部分が対象者Ｔの一部分に限られるのであれば、再現対象となる部分のみを含んでいればよい。また、基準画像Ｉｒは対象者Ｔ以外の背景などの色情報をできる限り含んでいないことが望ましい。そのため、対象者Ｔを撮影して基準画像Ｉｒを生成する際には、特定色のスクリーンの前で対象者Ｔを撮影して、グリーンバックなどと呼ばれる手法により、背景の情報を基準画像Ｉｒから消去してもよい。あるいは、実際に対象者Ｔを撮影して得られる撮影画像から対象者Ｔが写っている部分のみを抽出して得られる画像を、基準画像Ｉｒとして使用してもよい。

　また、基準画像Ｉｒは、対象者Ｔの再現対象となる部分が略中心に位置する画像であることが望ましい。そのため、撮影時には対象者Ｔの目の位置が基準画像Ｉｒの縦方向の中心に略一致するように、カメラの高さを調整する。また、対象者Ｔの位置が横方向の中心に略一致するようにカメラの向き、及び対象者Ｔが立つ位置を調整する。あるいは、撮影した画像を後からクリッピングして対象者Ｔの目の位置が基準画像Ｉｒの中心に位置するように調整してもよい。図３は、以上説明したような要件を満たす基準画像Ｉｒの一例を示している。なお、ここでは人の目の位置を中心とすることとしたが、これとは別の部位が基準画像Ｉｒの中心に位置するよう調整してもよい。

　基準画像取得部５１は、一人の対象者Ｔを様々に異なる複数の姿勢で撮影して得られる複数の基準画像Ｉｒのデータを取得する。ただし、撮影時のカメラから対象者Ｔまでの距離は、どの基準画像Ｉｒについても変化がなく、略一定のままであるものとする。そのため、対象者Ｔを撮影する際には、対象者Ｔが同じ場所で様々な姿勢を取りつつ撮影を行えばよく、カメラの位置や対象者Ｔの位置を変化させて撮影を行う必要はない。

　変換画像取得部５２は、基準画像Ｉｒを予め定められた倍率で拡大して変換画像Ｉｔを生成することによって、そのデータを取得する。この変換画像Ｉｔも、基準画像Ｉｒとともに教師データとして機械学習に利用される。特に変換画像取得部５２は、１枚の基準画像Ｉｒを互いに異なる倍率で拡大することによって、１枚の基準画像Ｉｒから複数の変換画像Ｉｔを生成することとする。なお、以下の説明において倍率の値は、基準画像Ｉｒの縦横それぞれの向きの長さに対する倍率を意味している。また、変換画像Ｉｔは、縦横比を維持しつつ基準画像Ｉｒの一部領域を拡大して得られる、元の基準画像Ｉｒと同じサイズの画像であるものとする。

　１枚の基準画像Ｉｒに基づいて生成される複数の変換画像Ｉｔそれぞれの基準画像Ｉｒに対する倍率は、等比数列にしたがって順に増加する値に決定される。具体的に、１枚の基準画像ＩｒからＸ枚の変換画像Ｉｔを生成することとし、これらＸ枚の変換画像Ｉｔを倍率が小さい方から順に変換画像Ｉｔ（１）,Ｉｔ（２）,・・・,Ｉｔ（Ｘ）と表記する。また、最大の倍率（すなわち、変換画像Ｉｔ（Ｘ）の倍率）をＥｍａｘとする。このとき、各変換画像Ｉｔの倍率は、公比
（Ｅｍａｘ）^１／Ｘ
で増加するように決定される。すなわち、ｎ番目の変換画像Ｉｔ（ｎ）の倍率Ｅ（ｎ）は、
Ｅ（ｎ）＝（Ｅｍａｘ）^ｎ／Ｘ
で計算される。

　具体例として、以下では１枚の基準画像Ｉｒに基づいて９枚の変換画像Ｉｔ（１）～Ｉｔ（９）が生成されることとする。また、最大の倍率（すなわち、変換画像Ｉｔ（９）の倍率）は４倍とする。このとき、変換画像Ｉｔ（ｎ）の倍率Ｅ（ｎ）は、以下の計算式に従って計算される。
Ｅ（ｎ）＝４^ｎ／９

　各変換画像Ｉｔは、元の基準画像Ｉｒと同じ大きさの画像となるように、元の基準画像Ｉｒの一部分のみを拡大して生成される。例えば倍率４倍の変換画像Ｉｔ（９）については、元の基準画像Ｉｒに含まれる縦横それぞれ１／４のサイズの領域を拡大することによって生成される。基準画像Ｉｒが縦横それぞれ１０２４ピクセルの画像であれば、変換画像取得部５２は、基準画像Ｉｒに含まれる縦横それぞれ２５６（＝１０２４／４）ピクセルの正方形の領域を拡大して、元の基準画像Ｉｒと同じ縦横それぞれ１０２４ピクセルの変換画像Ｉｔ（９）を生成することとなる。

　ここで、拡大対象とする領域は、基準画像Ｉｒ内の中心位置を中心とする領域であることとする。ただし、対象者Ｔの再現対象としたい部分が基準画像Ｉｒの中心に位置しておらず、ずれた位置に含まれている場合には、対象者Ｔの位置に合わせて中心からずれた領域を拡大対象としてもよい。

　以上説明したような画像処理によって得られる複数の変換画像Ｉｔは、対象者Ｔが実際の撮影時よりもカメラに少しずつ近づいた状態で撮影した撮影画像に近くなると想定される。すなわち、カメラから対象者Ｔまでの距離が様々に変化した場合の撮影画像に相当する画像を、実際に撮影を行わずに生成することができる。このとき、複数の変換画像Ｉｔの倍率は、順に等比数列にしたがって増加するように決定されているので、これらの変換画像Ｉｔは、基準画像Ｉｒと最大倍率の変換画像Ｉｔ（９）との間で等間隔に距離を変化させた際の撮影画像に近い大きさで、対象者Ｔを含んだ画像となる。図４は、このようにして図３に示す基準画像Ｉｒから生成された９枚の変換画像Ｉｔの一例を示している。

　機械学習部５３は、変換画像取得部５２によって取得された変換画像Ｉｔを教師データとして用いて、機械学習を行う。この機械学習は、対象者Ｔの姿勢と外観との対応関係についての学習であるものとする。以下では、機械学習部５３が機械学習に使用する画像を学習対象画像という。学習対象画像は、少なくとも変換画像Ｉｔを含む。また、学習対象画像は基準画像取得部５１によって取得された基準画像Ｉｒを含んでもよい。以下の説明では、学習対象画像は基準画像Ｉｒ及び変換画像Ｉｔの双方を含むものとする。例えば基準画像取得部５１が同じ対象者Ｔを撮影して得られる１００枚の基準画像Ｉｒを取得し、変換画像取得部５２が１００枚の基準画像Ｉｒのそれぞれを互いに異なる倍率で拡大することによって、１枚の基準画像Ｉｒにつき９枚の変換画像Ｉｔを生成したものとする。この場合、１００枚の基準画像Ｉｒと９００枚の変換画像Ｉｔの計１０００枚の画像が学習対象画像となる。

　以下、機械学習部５３が実行する機械学習の具体的な内容について説明する。まず機械学習部５３は、取得された全ての学習対象画像について、対象者Ｔの姿勢を特定する処理を行う。この姿勢特定処理は、人の身体を構成する各部位がどのような位置関係にあるかを特定する処理であって、公知の技術により実現できる。姿勢特定処理の結果得られる姿勢データは、人の身体を構成する関節や特徴点などの画像内における位置を示す座標値の集合によって構成されてよい。図５は、図３の基準画像Ｉｒに対して姿勢特定処理を実行した結果得られる姿勢データを表す骨格モデルの一例を示している。

　機械学習部５３は、基準画像Ｉｒだけでなく、その基準画像Ｉｒを拡大して得られる複数の変換画像Ｉｔのそれぞれについても、別個独立に姿勢特定処理を実行することとする。変換画像Ｉｔ内では対象者Ｔが基準画像Ｉｒや他の変換画像Ｉｔとは違う大きさで含まれており、その身体の一部しか含まれないような場合もあり得る。そのため、同じ姿勢の対象者Ｔを撮影して得られる基準画像Ｉｒと各変換画像Ｉｔとの間で、姿勢特定処理の結果に相違が生じることもあるからである。

　なお、姿勢特定処理の処理内容や処理の対象は、後述する再現処理においてどの程度対象者Ｔの外観を詳細に再現したいかによって変化してもよい。例えば対象者Ｔの手指の動きを再現する必要があれば、学習対象画像に含まれる手指の姿勢を特定し、機械学習に用いる必要がある。また、対象者Ｔの表情を再現したい場合には、学習対象画像内の対象者Ｔの顔に含まれる目や口の位置や状態などを対象者Ｔの姿勢データの一部として特定してもよい。

　姿勢特定処理を終えると、機械学習部５３は、姿勢特定処理の結果を用いて、実際に機械学習に利用する教師データを選択する。この教師データ選択処理は必須ではなく、取得された全ての学習対象画像を教師データとして機械学習に利用してもよい。しかしながら、学習に寄与しない、又は寄与の度合いが低いと想定される学習対象画像をこの選択処理によって教師データから除外することによって、機械学習に必要な所要時間や計算量等を削減し、処理効率を向上させることができる。

　教師データ選択処理の一例として、機械学習部５３は、対象者Ｔの特定の部位が含まれない学習対象画像を教師データから除外してもよい。この特定の部位は、例えば対象者Ｔの頭部である。対象者Ｔが前屈みになっているときなど、対象者Ｔの姿勢によっては、対象者Ｔの頭部が基準画像Ｉｒの中心からずれ、その結果基準画像Ｉｒの中心領域を拡大して変換画像Ｉｔを生成した際に、変換画像Ｉｔ内に対象者Ｔの頭部が含まれなくなってしまう場合がある。このような変換画像Ｉｔを機械学習の入力に利用しても、対象者Ｔの姿勢と外観との対応関係を効果的に学習することは難しい。そのため、このように重要な部位が含まれない状態の学習対象画像は、教師データから除外することとする。なお、このような特定の部位が含まれるか否かを判断基準とした選択処理は、変換画像Ｉｔだけについて実施してもよい。また、そもそも学習対象画像に対する姿勢の特定処理に失敗した場合や、特定された姿勢の精度が低いと判定された場合には、その学習対象画像を教師データから除外することとしてもよい。

　教師データ選択処理の別の例として、機械学習部５３は、互いに姿勢が類似すると判定される複数の学習対象画像が発見された場合に、そのうちの一部の学習対象画像だけを教師データとして選択し、それ以外の学習対象画像を教師データから除外してもよい。このような類否判定処理を実現するために、例えば機械学習部５３は、各学習対象画像から得られる姿勢データ（姿勢特定結果）に対して分類処理を実行して、互いに姿勢が近いと判断される学習対象画像をグルーピングする。この分類処理は、ｋ平均法などの公知のクラスタリング技術によって実現されてよい。

　この分類処理は、学習対象画像の全体について実行するのではなく、基準画像Ｉｒ、及び倍率が互いに等しい変換画像Ｉｔのグループのそれぞれについて独立に実行することが望ましい。すなわち、機械学習部５３は、基準画像Ｉｒだけを含むグループを対象として分類処理を行った結果に基づいて、他の基準画像Ｉｒと姿勢データが類似すると判定される一部の基準画像Ｉｒを教師データから除外する。また、倍率４^１／９倍で拡大された変換画像Ｉｔ（１）のグループ、倍率４^２／９倍で拡大された変換画像Ｉｔ（２）のグループなど、それぞれ同じ倍率の変換画像Ｉｔが属する９個の変換画像Ｉｔのグループに対して、それぞれ独立に分類処理を行って、同様に類似する姿勢が他に存在する変換画像Ｉｔを教師データから除外する。このように倍率ごとに独立して分類処理を実行するのは、倍率によって学習対象画像に含まれる対象者Ｔの大きさが異なり、それにより姿勢の類似度に寄与する部位も変化するからである。例えば対象者Ｔの全身が含まれる基準画像Ｉｒについては、手や足の位置が近ければ姿勢が近いと判断される可能性が高くなる。一方、対象者Ｔの表情が複数の基準画像Ｉｒの間で互いに異なっていたとしても、基準画像Ｉｒ内における目や口の位置は大きく変化しないため、このような顔の中の部位の位置情報は姿勢の類似度に対する寄与の度合いが相対的に小さくなる。これに対して最大倍率の変換画像Ｉｔ（９）においては、図４に例示したように対象者Ｔの顔を中心とした限られた領域のみが画像内に含まれ、手や足などは画像内に含まれなくなる。そのため、手や足の位置の相違は姿勢の類似度に寄与せず、顔に含まれる目や口の位置などが姿勢の類否を判断する上で重要となる。このように倍率のグループ毎に分類処理を実行する結果、ある基準画像Ｉｒは他の基準画像Ｉｒと姿勢が類似すると判断されて教師データから除外される一方で、この基準画像Ｉｒを拡大して得られる変換画像Ｉｔは教師データとして利用されるケースも生じ得る。このような分類処理の実行結果に基づいて実際に機械学習に使用する教師データを絞り込むことで、比較的少ない画像を教師データとして効率的に学習を行うことができる。

　なお、以上説明した複数の選択処理は、互いに組み合わせて実行してもよい。また、以上説明したもの以外にも、各種の判断基準で教師データから除外する学習対象画像を選択してもよい。

　選択処理によって実際に機械学習に使用する学習対象画像を教師データとして選択すると、機械学習部５３は、選択された学習対象画像と、その学習対象画像に基づいて特定された姿勢データの組を入力として、その姿勢を取っている対象者Ｔの外観がどのような画像になるかを学習する。このような機械学習は、ニューラルネットワークなどを用いた機械学習アルゴリズムによって実現できる。この機械学習によって、対象者Ｔの姿勢を表す姿勢データから対象者Ｔの外観を表す画像を推定する推定器を実現するための学習済みデータが生成される。

　再現画像生成部５４は、機械学習部５３が実行する機械学習によって得られる学習済みデータを用いて、対象者Ｔの外観を再現する画像（再現画像）を生成する。具体的に再現画像生成部５４は、対象者Ｔに取らせたい姿勢を表す姿勢データ（骨格モデルデータ）を取得し、機械学習部５３が生成した学習済みデータを使用する推定器に入力する。推定器は、その骨格モデルデータが表す姿勢を対象者Ｔが取った場合にどのような外観になるかを推定し、推定結果の画像を出力する。

　より具体的に、本実施形態では、対象者Ｔとは別の人物（以下、利用者Ｕという）の動作を反映して、その動作と対応する動作を対象者Ｔが取っているかのように見える映像（再現映像）を生成し、出力する。このような制御を実現するため、再現画像生成部５４は、カメラ１６で利用者Ｕを撮影して得られる撮影画像を取得する。このとき、カメラ１６による利用者Ｕの撮影条件は、基準画像Ｉｒを用意するために対象者Ｔを撮影した際の撮影条件に近いことが望ましい。すなわち、カメラ１６は、対象者Ｔを撮影したカメラと同じカメラであっても異なるカメラであってもよいが、解像度などは同じであることが望ましい。また、撮影時のカメラ１６の高さも、対象者Ｔを撮影した際のカメラの高さと近いほうがよい。

　一方で、カメラ１６と利用者Ｕとの間の距離は一定である必要がなく、利用者Ｕはカメラ１６に近づいたり遠ざかったりする移動を行ってもよい。ただし、その距離範囲は、基準画像Ｉｒを取得するための撮影が行われた際のカメラと対象者Ｔとの間の距離を超えないことが望ましい。また、以上の説明では変換画像Ｉｔを生成する際の最大倍率を縦横それぞれ４倍としているので、この倍率を超える大きさで写ってしまう距離までカメラ１６に近づきすぎることは好ましくない。しかしながら、基準画像Ｉｒに対応する距離と最大倍率の変換画像Ｉｔに対応する距離の間の距離範囲内であれば、任意の位置に移動しながら撮影を行うことができる。図６は、このような利用者Ｕの撮影の様子を示している。

　再現画像生成部５４は、利用者Ｕを含むカメラ１６の撮影画像に対して、姿勢特定処理を実行する。この姿勢特定処理は、機械学習部５３が学習対象データを生成するために学習対象画像に実行した姿勢特定処理と同じアルゴリズムのものである。これにより、利用者Ｕの撮影時点における姿勢を表す姿勢データが得られる。

　再現画像生成部５４は、利用者Ｕの姿勢データを、機械学習部５３が生成した学習済みデータを用いる推定器に入力する。その結果として、対象者Ｔが利用者Ｕと同じ姿勢を取っている様子を表す再現画像が生成される。再現画像生成部５４は、この再現画像を描画し、表示装置１５の画面に表示する。以上説明した手順による利用者Ｕの撮影画像に基づく再現画像の表示処理を、利用者Ｕが様々に姿勢を変化させながらリアルタイムで繰り返し実行することにより、利用者Ｕと同じように対象者Ｔが動く様子を示す再現映像を生成、表示することができる。図７は、図６に示す利用者Ｕの姿勢に応じて再現画像生成部５４が生成する対象者Ｔの再現画像の一例を示している。

　ここで、様々な姿勢を取っている対象者Ｔを撮影して得られる複数の基準画像Ｉｒを用いて機械学習を行った結果得られる学習済みデータを利用することで、再現画像生成部５４は、対象者Ｔが現実には取っていないような姿勢を取った際にどのような外観となるかを推定し、再現画像を生成することができる。さらに、基準画像Ｉｒだけでなく変換画像Ｉｔを学習対象に含めて機械学習を行った結果の学習済みデータを利用することで、再現画像生成部５４は、対象者Ｔを撮影した際の距離よりも近い位置まで利用者Ｕがカメラ１６に近づいたとしても、対象者Ｔの外観を比較的精度よく再現することができる。これにより、カメラ１６の撮影方向に沿って移動する動きを含め、利用者Ｕが様々な動作を行った場合に、その動作と同じ動作を取る対象者Ｔの様子を動画像として表示することができる。このような処理によれば、例えば窓口における受付対応などのように、その場には存在しない対象者Ｔが現実に起こる状況に反応する動作を行う様子を、リアルタイムで映像として生成し、閲覧者に提示することができる。

　なお、再現画像生成部５４が生成する再現画像は、対象者Ｔが含まれる部分以外の領域を透明な画素に変換した画像であってもよい。このような画素変換は、生成された再現画像内において基準画像Ｉｒの背景色と同じ色の画素を透明色に変換することによって実現できる。このように背景を透明にした再現画像を所与の背景画像と合成することで、対象者Ｔが実際には行っていない別の場所にいるかのような画像を生成することができる。このような合成を行う際には、対象者Ｔの明度に合わせて背景画像の明度を調整したり、背景画像と対象者Ｔとの境界部分にガウシアンノイズを追加したりするなどして境界部分が目立たないようにする処理を実行してもよい。

　以上説明したように、本実施形態に係る情報処理装置１０によれば、固定された位置にいる対象者Ｔを撮影して得られる画像に基づいて、この対象者Ｔが前後方向の移動も含めて様々な動作を取る様子を再現する画像を生成することができる。

　なお、本発明の実施の形態は、以上説明したものに限られない。例えば以上の説明では再現対象となる対象物は人であることとしたが、これ以外にも、例えば動物など姿勢が変化する各種の物であってよい。また、以上の説明では一人の対象者Ｔのみを再現対象とすることとしたが、複数の対象者についてそれぞれ複数の基準画像Ｉｒを取得し、それぞれ独立に機械学習を行って学習済みデータを生成すれば、複数の対象者を再現対象とすることも可能である。この場合、再現画像生成部５４は、まず再現対象となる対象者の選択を利用者から受け入れ、選択された対象者に対応する学習済みデータを読み出して、再現画像の生成に利用する。

　また、以上の説明では一つの情報処理装置１０が機械学習と再現画像の生成処理の双方を実施することとしたが、これに限らずこれらの処理は互いに別の情報処理装置によって実現されてもよい。この場合、機械学習を行った情報処理装置は、その結果得られる学習済みデータをコンピュータ読み取り可能な情報記憶媒体に格納したり、通信ネットワークを介して配信したりして外部の情報処理装置に提供する。提供を受けた情報処理装置は、提供された学習済みデータを利用することで、以上説明したような再現画像生成部５４の機能を実現することができる。

　また、以上の説明における変換画像の倍率や１枚の基準画像に基づいて生成する変換画像の数などの各種のパラメータは、例示に過ぎない。また、以上の説明では変換画像は基準画像を拡大して得られる拡大画像であることとしたが、これに限らず、基準画像を所与の倍率で縮小して得られる縮小画像を変換画像として機械学習に利用してもよい。このような縮小画像を機械学習に用いることで、基準画像の撮影時におけるカメラから対象者Ｔまでの距離よりも離れた位置まで利用者Ｕがカメラ１６から遠ざかった場合にも、精度よく対象者Ｔを再現する再現画像を生成することができる。

　１０　情報処理装置、１１　制御部、１２　記憶部、１３　インタフェース部、１４　操作デバイス、１５　表示装置、１６　カメラ、５１　基準画像取得部、５２　変換画像取得部、５３　機械学習部、５４　再現画像生成部。

Claims

　再現対象となる対象物を撮影して得られる複数の基準画像を取得する基準画像取得部と、
　前記複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得する変換画像取得部と、
　前記複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成する機械学習部と、
　を含むことを特徴とする情報処理装置。
　請求項１に記載の情報処理装置において、
　前記複数の学習対象画像は、前記複数の基準画像を含む
　ことを特徴とする情報処理装置。
　請求項１又は２に記載の情報処理装置において、
　前記機械学習部は、前記複数の学習対象画像のそれぞれに対して、当該学習対象画像に含まれる前記対象物の姿勢を特定する処理を実行し、当該処理の結果得られる姿勢データと、当該学習対象画像とを教師データとして用いて前記機械学習を実行し、前記対象物の姿勢データを前記再現画像に変換するために用いられる学習済みデータを生成する
　ことを特徴とする情報処理装置。
　請求項３に記載の情報処理装置において、
　前記機械学習部は、前記姿勢を特定する処理を実行した結果、前記対象物の所定の部位を含まないと判定された学習対象画像を前記教師データから除外する
　ことを特徴とする情報処理装置。
　請求項３又は４に記載の情報処理装置において、
　前記機械学習部は、前記複数の学習対象画像に対して、それぞれの学習対象画像から得られた姿勢データが互いに類似するか否か判定する類否判定処理を実行し、得られた姿勢データが他の学習対象画像から得られた姿勢データに類似すると判定された一部の学習対象画像を、前記教師データから除外する
　ことを特徴とする情報処理装置。
　請求項５に記載の情報処理装置において、
　前記変換画像取得部は、１枚の前記基準画像を互いに異なる倍率で拡大又は縮小して複数の前記変換画像を生成し、
　前記機械学習部は、前記複数の学習対象画像を、それぞれ互いに同じ倍率で拡大又は縮小された複数の変換画像を含む複数のグループに分類し、当該複数のグループのそれぞれに対して独立に前記類否判定処理を実行して前記教師データから除外する学習対象画像を選択する
　ことを特徴とする情報処理装置。
　請求項１から６のいずれか一項に記載の情報処理装置において、
　前記変換画像取得部は、１枚の前記基準画像を互いに異なる倍率で拡大又は縮小して複数の前記変換画像を生成し、かつ、前記互いに異なる倍率は、等比数列にしたがって順に変化する倍率である
　ことを特徴とする情報処理装置。
　再現対象となる対象物を撮影して得られる複数の基準画像を取得するステップと、
　前記複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得するステップと、
　前記複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成するステップと、
　を含むことを特徴とする情報処理方法。
　再現対象となる対象物を撮影して得られる複数の基準画像を取得するステップと、
　前記複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を取得するステップと、
　前記複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行し、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータを生成するステップと、
　をコンピュータに実行させるためのプログラム。
　再現対象となる対象物を撮影して得られる複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行した結果得られる、前記対象物の外観を表す再現画像を生成するために用いられる学習済みデータ。
　再現対象となる対象物の姿勢を表す姿勢データを取得する取得部と、
　対象物を撮影して得られる複数の基準画像のそれぞれを拡大又は縮小して得られる複数の変換画像を含む複数の学習対象画像を教師データとして用いて機械学習を実行した結果得られる学習済みデータを用いて、前記姿勢データが表す姿勢を前記対象物が取っている様子を表す再現画像を生成する再現画像生成部と、
　を含むことを特徴とする情報処理装置。