WO2022269963A1

WO2022269963A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2022269963A1
Application number: PCT/JP2022/002081
Authority: WO
Inventors: 圭祐千田
Original assignee: ソニーグループ株式会社
Priority date: 2021-06-23
Filing date: 2022-01-21
Publication date: 2022-12-29
Also published as: JPWO2022269963A1

Abstract

情報処理装置（ＩＰ）は、人相判断ネットワーク（ＰＮ）と超解像ネットワーク（ＳＲＮ）とを有する。人相判断ネットワーク（ＰＮ）は、超解像処理される前の入力画像（ＩＭＩ）と超解像処理された後の入力画像（ＩＭＩ）の人相一致度を算出する。超解像ネットワーク（ＳＲＮ）は、超解像処理の生成力を人相一致度に基づいて調整する。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　入力画像を高解像度化して出力する超解像技術が知られている。最近では、敵対的生成システム（ＧＡＮ）と呼ばれる画像生成手法を用いて、入力画像からは判別しにくい細かい情報まで再現可能な超解像ネットワークも提案されている。

特開平１０－２４０９２０号公報

[online]，Few-shot　Video-to-Video　Synthesis，[令和３年６月４日検索]，インターネット＜URL:https://nvlabs.github.io/few-shot-vid2vid/main.pdf＞

　ＧＡＮを用いた超解像ネットワークでは、学習結果に基づいて、入力信号にない高周波成分の信号が新たに生成される。信号を生成する能力（生成力）が高い超解像ネットワークほど、解像度の高い画像を生成することができる。しかし、入力信号にない信号が追加されることで、入力画像との間に乖離が生じることがある。例えば、人間の顔を対象とした場合、目元や口元の形状が微妙にずれることで人相が変化することがある。

　そこで、本開示では、超解像処理に起因した人相の変化を抑制可能な情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出する人相判断ネットワークと、前記超解像処理の生成力を前記人相一致度に基づいて調整する超解像ネットワークと、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。

超解像技術を用いた画像処理の一例を示す図である。超解像処理に起因した人相の変化を示す図である。超解像処理に起因した人相の変化を示す図である。従来の超解像処理システムの一例を示す図である。従来の超解像処理システムの一例を示す図である。第１実施形態の情報処理装置の構成を示す図である。人相一致度と生成力制御値との関係の一例を示す図である。情報処理装置の情報処理の一例を示すフローチャートである。超解像ネットワークの学習方法の一例を示す図である。生成力レベルに対応した重みの組み合わせの一例を示す図である。第２実施形態の情報処理装置の構成を示す図である。顔の姿勢、大きさおよび位置の比較方法の一例を示す図である。情報処理装置の情報処理の一例を示すフローチャートである。情報処理装置のハードウェア構成例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．背景］
　［１－１．超解像技術］
　［１－２．超解像処理に起因した人相の変化］
［２．第１実施形態］
　［２－１．情報処理装置の構成］
　［２－２．情報処理方法］
　［２－３．学習方法］
　［２－４．効果］
［３．第２実施形態］
　［３－１．情報処理装置の構成］
　［３－２．情報処理方法］
　［３－３．効果］
［４．ハードウェア構成例］

［１．背景］
［１－１．超解像技術］
　図１は、超解像技術を用いた画像処理（超解像処理）の一例を示す図である。

　図１の左上の画像は、オリジナル画像（高解像度画像）ＩＭ_Ｏである。生成画像ＩＭ_Ｇ１～ＩＭ_Ｇ７は、圧縮などにより低解像度化されたオリジナル画像ＩＭ_Ｏを超解像処理によって復元したものである。生成画像ＩＭ_Ｇ１から生成画像ＩＭ_Ｇ７に向けて超解像処理の生成力が強くなっている。なお、生成力とは、入力信号にない高周波成分の信号を新たに生成する能力を意味する。生成力が強いほど、高解像度な画像が得られる。

　生成力が弱い超解像処理では、入力信号で失われた情報（模様など）は十分に復元されない。しかし、入力信号との差が小さいため、オリジナル画像ＩＭ_Ｏから乖離した画像は生成されにくい。生成力の強い超解像処理では、入力信号で失われた情報まで生成されるため、オリジナル画像ＩＭ_Ｏに近い画像が得られる。しかし、正しく信号が生成されないと、オリジナル画像ＩＭ_Ｏから乖離した画像が生成される可能性がある。

　例えば、図１の例では、マントヒヒの髭の画像が示されている。オリジナル画像ＩＭ_Ｏには、細かい髭が多数表示されている。生成画像ＩＭＧ_１から生成画像ＩＭＧ_７に向けて髭のぼやけは少なくなっており、生成画像ＩＭＧ_７ではオリジナル画像ＩＭ_Ｏと同程度の解像度が得られている。しかし、生成画像ＩＭＧ７では、１本１本の髭の形が微妙に異なっており、オリジナル画像ＩＭ_Ｏとは若干雰囲気の異なる画像となっている。このような生成画像の微妙な変化は、人間の顔を処理対象とすると、人相の変化として現れる。

［１－２．超解像処理に起因した人相の変化］
　図２および図３は、超解像処理に起因した人相の変化を示す図である。

　図２の例では、男性の顔が処理対象となっている。入力画像ＩＭ_Ｉはオリジナル画像ＩＭ_Ｏを低解像度化して生成される。低解像度化によって、目、鼻および口などの顔パーツの輪郭や肌の質感などの情報の一部が失われる。超解像処理では、失われた情報が機械学習の学習結果に基づいて復元（生成）される。しかし、復元された情報とオリジナルの情報との間に乖離があると、人相が変化する。

　図２の例では、オリジナル画像ＩＭ_Ｏに比べて、目の大きさや形状、髭や髪の毛の濃さ、および、肌の艶や皺が微妙に異なる生成画像ＩＭ_Ｇが出力される。目元の形状は人相に大きな影響を与えるため、目の大きさや形状が僅かに変化しただけでも人相が変化したように感じられる。

　図３の例では、オリジナル画像ＩＭ_Ｏに比べて、目の大きさや形状、鼻筋の形状、髪の毛の質感、唇の形状、および、口角の上がり具合などが微妙に異なる生成画像ＩＭ_Ｇが出力されている。目、口および鼻などの顔パーツの形状が変化することで、見た目の印象が大きく変化している。

　図４および図５は、従来の超解像処理システムの一例を示す図である。

　図４には、ＧＡＮを用いた一般的な超解像ネットワークＳＲＮ_Ａが示されている。超解像ネットワークＳＲＮ_Ａでは、強力な生成力によって生成画像ＩＭ_Ｇの解像度が高められる一方、想定外の生成結果に対する制御が困難である。その理由は、機械学習によって得られる入出力の依存関係を明確化することは困難であり、学習プロセスも複雑であるため、意図通りに生成画像ＩＭ_Ｇを修正することが現実的にできないからである。また、学習プロセスを制御できないため、特定の入力結果に対する処理結果が誤っていたとしても、特定の入力だけを修正することも困難である。

　図５には、同一人物の顔画像を参考画像ＩＭ_Ｒとして用いる超解像ネットワークＳＲＮ_Ｂが示されている。この種の超解像ネットワークＳＲＮ_Ｂは、非特許文献１に開示されている。超解像ネットワークＳＲＮ_Ｂは、参考画像ＩＭ_Ｒの特徴情報を用いて、超解像処理に用いるパラメータの一部を動的に調整する。これにより、参考画像ＩＭ_Ｒに近い人相の画像が生成される。しかし、参考画像ＩＭ_Ｒと出力結果との因果関係は深層学習によって取得されるため、全ての場合で完全に一致する人相が生成されるわけではない。よって、超解像ネットワークＳＲＮ_Ｂを用いても、人相の変化を完全に抑制することはできない。

　そこで、本開示では、上述の問題を解決する新たな手法を提案する。本開示の情報処理装置ＩＰは、超解像処理される前と後の人相一致度を算出し、算出された人相一致度に基づいて超解像ネットワークＳＲＮの生成力を調整する。この構成によれば、生成画像ＩＭ_Ｇの人相が超解像処理にフィードバックされる。そのため、超解像処理に起因した人相の変化が生じにくい。

　情報処理装置ＩＰは、古い映像素材（映画や写真など）の高画質化および高効率の映像の圧縮・伝送システム（ビデオ電話、オンライン会議、ライブ映像の中継、映像コンテンツのネット配信）などに用いることができる。映画や写真を高画質化する場合には、被写体の顔について高い再現性が求められるため、本開示の手法が好適に採用される。映像の圧縮・伝送システムでは、元映像の情報が大幅に削減されるため、復元時に人相変化が生じやすい。本開示の手法を用いれば、このような弊害が回避される。

　以下、情報処理装置ＩＰの実施形態について詳細に説明する。

［２．第１実施形態］
［２－１．情報処理装置の構成］
　図６は、第１実施形態の情報処理装置ＩＰ１の構成を示す図である。

　情報処理装置ＩＰ１は、超解像技術を用いて入力画像ＩＭ_Ｉから高解像度な生成画像ＩＭ_Ｇを復元する装置である。情報処理装置ＩＰ１は、超解像ネットワークＳＲＮ_１、人相判断ネットワークＰＮおよび生成力制御値算出部ＧＣＵを有する。

　超解像ネットワークＳＲＮ_１は、入力画像ＩＭ_Ｉを超解像処理して生成画像ＩＭ_Ｇを生成する。超解像ネットワークＳＲＮ_１は、超解像処理の生成力を複数段階で変更可能である。例えば、超解像ネットワークＳＲＮ_１は、生成力レベルＬＶの異なる複数のＧＡＮのジェネレータＧＥを含む。図６の例では、４つのジェネレータＧＥ（生成力レベルＬＶ＝０～３）が学習済みデータベースに保持されているが、ジェネレータＧＥの数は４つに限られない。ジェネレータＧＥの数は２以上であればよい。

　複数のジェネレータＧＥは、同一のニューラルネットワークを用いて生成される。複数のジェネレータＧＥは、ニューラルネットワークを最適化する際に用いるパラメータが互いに異なっている。最適化に用いるパラメータが異なることにより、各ジェネレータＧＥの生成力レベルＬＶに差が生じている。

　超解像ネットワークＳＲＮ_１は、入力画像ＩＭ_Ｉの被写体と同一人物の顔画像を人相基準画像ＩＭ_ＰＲとして取得してもよい。超解像ネットワークＳＲＮ_１は、人相基準画像ＩＭ_ＰＲの特徴情報を用いて入力画像ＩＭ_Ｉの超解像処理を行うことができる。人相基準画像ＩＭ_ＰＲは、人相を調整するための参考画像ＩＭ_Ｒとして用いられる。例えば、超解像ネットワークＳＲＮ_１は、人相基準画像ＩＭ_ＰＲの特徴情報を用いて、超解像処理に用いるパラメータの一部を動的に調整する。これにより、人相基準画像ＩＭ_ＰＲに近い人相の生成画像ＩＭ_Ｇが得られる。人相基準画像ＩＭ_ＰＲを用いた人相調整の手法としては、非特許文献１などに記載の公知の手法が用いられる。

　人相判断ネットワークＰＮは、超解像処理される前の入力画像ＩＭ_Ｉと超解像処理された後の入力画像ＩＭ_Ｉの人相一致度ＤＣを算出する。人相判断ネットワークＰＮは、顔認識を行うニューラルネットワークである。人相判断ネットワークＰＮは、例えば、生成画像に含まれる人物の顔と、人相基準画像に含まれる同一人物の顔と、の類似度を人相一致度ＤＣとして算出する。類似度の算出は、特徴点マッチングなどを用いた公知の顔認識技術を用いて行われる。

　超解像ネットワークＳＲＮ_１は、超解像処理の生成力を人相一致度ＤＣに基づいて調整する。例えば、超解像ネットワークＳＲＮ_１は、生成力レベルＬＶの異なる複数のジェネレータＧＥから、人相一致度ＤＣが許容基準を満たすジェネレータＧＥを選択して用いる。超解像ネットワークＳＲＮ_１は、生成力レベルＬＶの高いジェネレータＧＥから順に、人相一致度ＤＣが許容基準を満たすか否かを判定する。超解像ネットワークＳＲＮ_１は、最初に許容基準を満たすと判定されたジェネレータＧＥを選択して用いる。

　生成力制御値算出部ＧＣＵは、人相一致度ＤＣに基づいて生成力制御値ＣＶを算出する。生成力制御値ＣＶは、現在の生成力レベルＬＶからの下げ幅を示す。下げ幅は、人相一致度ＤＣが低いほど大きい。超解像ネットワークＳＲＮ_１は、生成力制御値ＣＶに基づいて生成力レベルＬＶを算出する。超解像ネットワークＳＲＮ_１は、算出された生成力レベルＬＶに応じたジェネレータＧＥを用いて超解像処理を行う。

　図７は、人相一致度ＤＣと生成力制御値ＣＶとの関係の一例を示す図である。

　図７の例では、許容基準として、閾値Ｔ_Ａ、閾値Ｔ_Ｂおよび閾値Ｔ_Ｃ（閾値Ｔ_Ａ＜閾値Ｔ_Ｂ＜閾値Ｔ_Ｃ）が設定されている。例えば、人相一致度ＤＣが閾値Ｔ_Ａよりも小さい場合には、生成力制御値ＣＶは（－３）に設定される。人相一致度ＤＣが閾値Ｔ_Ａ以上で且つ閾値Ｔ_Ｂよりも小さい場合には、生成力制御値ＣＶは（－２）に設定される。人相一致度Ｄ_Ｃが閾値Ｔ_Ｂ以上で且つ閾値Ｔ_Ｃよりも小さい場合には、生成力制御値ＣＶは（－１）に設定される。人相一致度ＤＣが閾値Ｔ_Ｃ以上である場合には、生成力制御値ＣＶは０に設定される。人相一致度ＤＣに応じて生成力レベルＬＶの下げ幅が段階的に設定されることで、適切なジェネレータＧＥが素早く検出される。

［２－２．情報処理方法］
　図８は、情報処理装置ＩＰ１の情報処理の一例を示すフローチャートである。

　ステップＳＴ１において、超解像ネットワークＳＲＮ_１は、生成力レベルＬＶが最大のジェネレータＧＥを選択する。ステップＳＴ２において、超解像ネットワークＳＲＮ_１は、選択したジェネレータＧＥを用いて超解像処理を実施する。

　ステップＳＴ３において、超解像ネットワークＳＲＮ_１は、現在選択しているジェネレータＧＥの生成力レベルＬＶが最小であるか否かを判定する。ステップＳＴ３において生成力レベルＬＶが最小であると判定された場合には（ステップＳＴ３：ｙｅｓ）、超解像ネットワークＳＲＮ_１は、現在選択しているジェネレータＧＥを継続して使用する。

　ステップＳＴ３において生成力レベルＬＶが最小ではないと判定された場合には（ステップＳＴ３：ｎｏ）、ステップＳＴ４に進む。ステップＳＴ４において、人相判断ネットワークＰＮは、生成画像ＩＭ_Ｇと人相基準画像ＩＭ_ＰＲとを用いて人相一致度ＤＣを算出し、人相判断を行う。

　ステップＳＴ５において、生成力制御値算出部ＧＣＵは人相一致度ＤＣが閾値Ｔ_Ｃ以上であるか否かを判定する。ステップＳＴ５において人相一致度ＤＣが閾値Ｔ_Ｃ以上であると判定された場合には（ステップＳＴ５：ｙｅｓ）、生成力制御値算出部ＧＣＵは、生成力制御値ＣＶを０に設定する。超解像ネットワークＳＲＮ_１は、現在選択しているジェネレータＧＥを継続して使用する。

　ステップＳＴ５において人相一致度ＤＣが閾値Ｔ_Ｃよりも小さいと判定された場合には（ステップＳＴ５：ｎｏ）、ステップＳＴ６に進む。ステップＳＴ６において、生成力制御値算出部ＧＣＵは、人相一致度ＤＣに応じた生成力制御値ＣＶを算出する。ステップＳＴ７において、超解像ネットワークＳＲＮ_１は、生成力制御値ＣＶによって特定される生成力レベルＬＶのジェネレータＧＥを選択する。そして、ステップＳＴ２に戻り、超解像ネットワークＳＲＮ_１は、変更後の生成力レベルＬＶを持つジェネレータＧＥを用いて超解像処理を実施する。その後、上述の処理が繰り返される。

［２－３．学習方法］
　図９は、超解像ネットワークＳＲＮ_１の学習方法の一例を示す図である。

　超解像ネットワークＳＲＮ_１は、生徒画像ＩＭ_Ｓと生成画像ＩＭ_Ｇとを用いて機械学習した複数のＧＡＮのジェネレータＧＥを含む。生徒画像ＩＭ_Ｓは、教師画像ＩＭ_Ｔを低解像度化した機械学習用の入力データである。生成画像ＩＭ_Ｇは、生徒画像ＩＭ_Ｓを超解像処理した出力データである。教師画像ＩＭ_Ｔには、様々な人物の顔画像が用いられる。

　ＧＡＮのジェネレータＧＥでは、生成画像ＩＭ_Ｇと教師画像ＩＭ_Ｔとの差分が小さくなるように機械学習が行われる。ＧＡＮのディスクリミネータＤＩでは、教師画像ＩＭ_Ｔを入力したときの識別値が０となり、生徒画像ＩＭ_Ｓを入力したときの識別値が１となるように機械学習が行われる。生成画像ＩＭ_Ｇと教師画像ＩＭ_Ｔからは、それぞれ物体認識ネットワークＯＲＮによって特徴量Ｃが抽出される。物体認識ネットワークＯＲＮは、画像の特徴量Ｃを抽出する学習済みのニューラルネットワークである。ジェネレータＧＥでは、生成画像ＩＭ_Ｇの特徴量Ｃと教師画像ＩＭ_Ｔの特徴量Ｃとの差分が小さくなるように機械学習が行われる。

　例えば、教師画像ＩＭ_Ｔと生成画像ＩＭ_Ｇとの画素ごとの差分値をＤ１とする。ディスクリミネータＤＩの識別値をＤ２とする。教師画像ＩＭ_Ｔと生成画像ＩＭ_Ｇとの特徴量Ｃの差分値をＤ３とする。差分値Ｄ１の重みをｗ１とする。識別値Ｄ２の重みをｗ２とする。差分値Ｄ３の重みをｗ３とする。各ＧＡＮでは、差分値Ｄ１、識別値Ｄ２および差分値Ｄ３の重み付き和（ｗ１×Ｄ１＋ｗ２×Ｄ２＋ｗ３×Ｄ３）が最小となるように機械学習が行われる。重みｗ１、重みｗ２および重みｗ３の比率はＧＡＮごとに異なる。

　ＧＡＮは、広く知られたＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）であり、上述した３つの値（差分値Ｄ１、識別値Ｄ２、差分値Ｄ３）の重み付き和を最小化させて学習を行う。３つの重みｗ１，ｗ２，ｗ３は、学習に用いるＣＮＮおよび学習データセットなどによって最適値が変化する。通常は最大の生成力を得るために最適な１組の値が用いられるが、本開示では、３つの重みｗ１，ｗ２，ｗ３を変化させることで、同一のＣＮＮを用いながら、段階的に生成力の異なる学習結果が得られる。

　図１０は、生成力レベルＬＶに対応した重みｗ１，ｗ２，ｗ３の組み合わせの一例を示す図である。

　ＧＡＮを用いた代表的な超解像処理用ＣＮＮとして、ＥＳＲＧＡＮ（Ｅｎｈａｎｃｅｄ　Ｓｕｐｅｒ－Ｒｅｓｏｌｕｔｉｏｎ　Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋｓ）が知られている。ＥＳＲＧＡＮについては、下記［１］に記載がある。

［１］Ｘｉｎｔａｏ　Ｗａｎｇ，Ｋｅ　Ｙｕ，Ｓｈｉｘｉａｎｇ　Ｗｕ，Ｊｉｎｊｉｎ　Ｇｕ，Ｙｉｈａｏ　Ｌｉｕ，Ｃｈａｏ　Ｄｏｎｇ，Ｙｕ　Ｑｉａｏ，Ｃｈｅｎ　Ｃｈａｎｇｅ　Ｌｏｙ，“ＥＳＲＧＡＮ：Ｅｎｈａｎｃｅｄ　Ｓｕｐｅｒ－Ｒｅｓｏｌｕｔｉｏｎ　Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋｓ”，Ｐｕｂｌｉｓｈｅｄ　ｉｎ　ＥＣＣＶ　Ｗｏｒｋｓｈｏｐｓ　２０１８

　例えば、本開示では、ＥＳＲＧＡＮのジェネレータＧＥが超解像ネットワークＳＲＮ_１に適用される。生成力レベルＬＶが高いジェネレータＧＥほど、重みｗ１に対する重みｗ２および重みｗ３の比率が高い。生成力レベルＬＶが低いジェネレータＧＥほど、重みｗ１に対する重みｗ２および重みｗ３の比率が低い。

　図１０の例では、ｗ１＝１．０、ｗ２＝０、ｗ３＝０のときに生成力レベル＝０のジェネレータＧＥが得られる。ｗ１＝０．１、ｗ２＝０．０５、ｗ３＝０．１のときに生成力レベル＝１のジェネレータＧＥが得られる。ｗ１＝０．０１、ｗ２＝０．０５、ｗ３＝０．１のときに生成力レベル＝２のジェネレータＧＥが得られる。ｗ１＝０．０１、ｗ２＝０．０５、ｗ３＝１．０のときに生成力レベル＝３のジェネレータＧＥが得られる。

　なお、ニューラルネットワークの構成、学習データセットの画像数、画像の内容、その他ＣＮＮの学習率などの条件によって重みｗ１，ｗ２，ｗ３の値は変化し得る。異なる重みの値の組み合わせでも、同一条件下で学習結果が最適値に収束することもある。

［２－４．効果］
　情報処理装置ＩＰ１は、人相判断ネットワークＰＮと超解像ネットワークＳＲＮ_１とを有する。人相判断ネットワークＰＮは、超解像処理される前の入力画像ＩＭ_Ｉと超解像処理された後の入力画像ＩＭ_Ｉの人相一致度ＤＣを算出する。超解像ネットワークＳＲＮ_１は、超解像処理の生成力を人相一致度ＤＣに基づいて調整する。本開示の情報処理方法は、情報処理装置ＩＰ１の処理がコンピュータ１０００（図１４参照）により実行される。本開示のプログラム（プログラムデータ１４５０：図１４参照）は、情報処理装置ＩＰ１の処理をコンピュータ１０００に実現させる。

　この構成によれば、超解像処理の前と後の人相の変化に基づいて超解像ネットワークＳＲＮ_１の生成力が調整される。よって、超解像処理に起因した人相の変化が抑制される。

　超解像ネットワークＳＲＮ_１は、生成力レベルＬＶの異なる複数のジェネレータＧＥから、人相一致度ＤＣが許容基準を満たすジェネレータＧＥを選択して用いる。

　この構成によれば、ジェネレータＧＥの選択によって超解像ネットワークＳＲＮ_１の生成力が調整される。

　超解像ネットワークＳＲＮ_１は、教師画像ＩＭ_Ｔを低解像度化した生徒画像ＩＭ_Ｓと、生徒画像ＩＭ_Ｓを超解像処理した生成画像ＩＭ_Ｇと、を用いて機械学習した複数のＧＡＮのジェネレータＧＥを含む。教師画像ＩＭ_Ｔと生成画像ＩＭ_Ｇとの画素ごとの差分値をＤ１とし、ＧＡＮのディスクリミネータＤＩの識別値をＤ２とし、教師画像ＩＭ_Ｔと生成画像ＩＭ_Ｇとの特徴量Ｃの差分値をＤ３とし、差分値Ｄ１の重みをｗ１とし、識別値Ｄ２の重みをｗ２とし、差分値Ｄ３の重みをｗ３とする。各ＧＡＮでは、差分値Ｄ１、識別値Ｄ２および差分値Ｄ３の重み付き和（ｗ１×Ｄ１＋ｗ２×Ｄ２＋ｗ３×Ｄ３）が最小となるように機械学習が行われる。重みｗ１、重みｗ２および重みｗ３の比率はＧＡＮごとに異なる。

　この構成によれば、各ジェネレータＧＥのニューラルネットワークを共通化することができる。また、各ジェネレータＧＥの生成力を重みｗ１、重みｗ２および重みｗ３の比率によって容易に制御することができる。

　超解像ネットワークＳＲＮ_１は、生成力レベルＬＶの高いジェネレータＧＥから順に、人相一致度が許容基準を満たすか否かを判定する。超解像ネットワークＳＲＮ_１は、最初に許容基準を満たすと判定されたジェネレータＧＥを選択して用いる。

　この構成によれば、許容可能な最大の生成力を持つジェネレータＧＥが選択される。

　情報処理装置ＩＰ１は、生成力制御値算出部ＧＣＵを有する。生成力制御値算出部ＧＣＵは、人相一致度ＤＣに基づいて、現在の生成力レベルＬＶからの下げ幅を示す生成力制御値ＣＶを算出する。下げ幅は、人相一致度ＤＣが低いほど大きい。

　この構成によれば、適切なジェネレータＧＥが素早く検出される。

　超解像ネットワークＳＲＮ_１は、人相基準画像ＩＭ_ＰＲの特徴情報を用いて入力画像ＩＭ_Ｉの超解像処理を行う。

　この構成によれば、超解像処理の前と後の人相一致度ＤＣが高まる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［３．第２実施形態］
［３－１．情報処理装置の構成］
　図１１は、第２実施形態の情報処理装置ＩＰ２の構成を示す図である。

　本実施形態において第１実施形態と異なる点は、超解像ネットワークＳＲＮ_２の生成力が人相基準画像ＩＭ_ＰＲの切り替えによって調整される点である。以下、第１実施形態との相違点を中心に説明する。

　第１実施形態では、人相一致度ＤＣに基づいて複数のジェネレータＧＥが切り替えて用いられた。しかし、本実施形態で、使用されるジェネレータＧＥの数は１つのみである。超解像ネットワークＳＲＮ_２は、人相基準画像ＩＭ_ＰＲの特徴情報を用いて入力画像ＩＭ_Ｉの超解像処理を行う。超解像ネットワークＳＲＮ_２は、参考画像群ＲＧに含まれる複数の参考画像ＩＭ_Ｒから、人相一致度ＤＣが許容基準を満たす参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして選択する。

　参考画像群ＲＧは、情報処理装置ＩＰ２の内部または外部にある画像データから取得される。例えば、入力画像ＩＭ_Ｉに写る人物が著名人である場合には、インターネットなどから、対象となる人物の人相を特定可能な複数の参考画像ＩＭ_Ｒ（参考画像群ＲＧ）が取得される。入力画像ＩＭ_Ｉが過去映像（映画など）のあるシーンの画像である場合には、同一映像内の別シーンの顔のアップのシーンから参考画像ＩＭ_Ｒとなりうる画像群が抽出される。入力画像ＩＭ_Ｉに写る人物が情報処理装置ＩＰ２のユーザであり、且つ、情報処理装置ＩＰ２がスマートフォンなどのカメラ機能を持った機器である場合には、情報処理装置ＩＰ２に保存された写真データから参考画像ＩＭ_Ｒとなりうる画像群が抽出される。

　参考画像群ＲＲＧからは、人相判断に適した参考画像ＩＭ_Ｒから順に人相基準画像ＩＭ_ＰＲとして選択される。超解像ネットワークＳＲＮ_２は、複数の参考画像ＩＭ_Ｒに対して優先順位を決定し、優先順位にしたがって各参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして選択していく。例えば、超解像ネットワークＳＲＮ_２は、被写体の顔の姿勢、大きさおよび位置が入力画像ＩＭ_Ｉと近い参考画像ＩＭ_Ｒから順に、人相一致度ＤＣが許容基準を満たすか否かを判定する。超解像ネットワークＳＲＮ_２は、最初に許容基準を満たすと判定された参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして選択する。これにより、許容可能な最大の生成力によって超解像処理が実施される。

　図１２は、顔の姿勢、大きさおよび位置の比較方法の一例を示す図である。

　超解像ネットワークＳＲＮ_２では、左右の目、眉、鼻、上下の唇および下顎などが、比較の対象となる顔パーツとして予め設定されている。超解像ネットワークＳＲＮ_２は、入力画像ＩＭ_Ｉと参考画像ＩＭ_Ｒからそれぞれ顔パーツの輪郭線上の各点の座標を抽出する。顔パーツの検出は、例えば下記［２］に示す公知の顔認識技術を用いて行われる。

［２］Ｋａｚｅｍｉ，Ｖ．，＆Ｊｏｓｅｐｈｉｎｅ，Ｓ．“Ｏｎｅ　Ｍｉｌｌｉｓｅｃｏｎｄ　Ｆａｃｅ　Ａｌｉｇｎｍｅｎｔ　ｗｉｔｈ　ａｎ　Ｅｎｓｅｍｂｌｅ　ｏｆ　Ｒｅｇｒｅｓｓｉｏｎ　Ｔｒｅｅｓ．　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　（ＣＶＰＲ）”，　２０１４

　超解像ネットワークＳＲＮ_２は、対応点マッチングなどの手法を用いて、入力画像ＩＭ_Ｉと参考画像ＩＭ_Ｒの互いに対応する点（対応点）を抽出する。超解像ネットワークＳＲＮ_２は、入力画像ＩＭ_Ｉと参考画像ＩＭ_Ｒの対応点どうしの座標の差分の絶対値の和が小さい参考画像ＩＭ_Ｒほど優先順位を高くする。これにより、適切な人相基準画像ＩＭ_ＰＲが素早く検出される。図１２の例では、参考画像ＩＭ_ＲＡのほうが参考画像ＩＭ_ＲＢよりも顔パーツの姿勢が入力画像ＩＭ_Ｉに近い。そのため、参考画像ＩＭ_ＲＡの優先順位が参考画像ＩＭ_ＲＢよりも高く設定される。

［３－２．情報処理方法］
　図１３は、情報処理装置ＩＰ２の情報処理の一例を示すフローチャートである。

　ステップＳＴ１１において、超解像ネットワークＳＲＮ_２は、参考画像群ＲＧから優先順位に応じた１つの参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして選択する。ステップＳＴ１２において、超解像ネットワークＳＲＮ_２は、選択した参考画像ＩＭ_Ｒの特徴情報を用いて超解像処理を実施する。

　ステップＳＴ１３において、超解像ネットワークＳＲＮ_２は、人相基準画像ＩＭ_ＰＲとして選択された現在の参考画像ＩＭ_Ｒが優先順位に応じた最後の参考画像ＩＭ_Ｒであるか否かを判定する。ステップＳＴ１３において現在の参考画像ＩＭ_Ｒが最後の参考画像ＩＭ_Ｒであると判定された場合には（ステップＳＴ１３：ｙｅｓ）、超解像ネットワークＳＲＮ_２は、現在選択している参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして継続して使用する。

　ステップＳＴ１３において現在の参考画像ＩＭ_Ｒが最後の参考画像ＩＭ_Ｒではないと判定された場合には（ステップＳＴ１３：ｎｏ）、ステップＳＴ１４に進む。ステップＳＴ１４において、超解像ネットワークＳＲＮ_２は、生成画像ＩＭ_Ｇと現在選択している参考画像ＩＭ_Ｒとを用いて人相一致度ＤＣを算出し、人相判断を行う。

　ステップＳＴ１５において、超解像ネットワークＳＲＮ_２は人相一致度ＤＣが閾値Ｔ_Ｃ以上であるか否かを判定する。ステップＳＴ１５において人相一致度ＤＣが閾値Ｔ_Ｃ以上であると判定された場合には（ステップＳＴ１５：ｙｅｓ）、超解像ネットワークＳＲＮ_２は、現在選択している参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして継続して使用する。

　ステップＳＴ１５において人相一致度ＤＣが閾値Ｔ_Ｃよりも小さいと判定された場合には（ステップＳＴ１５：ｎｏ）、ステップＳＴ１６に進む。ステップＳＴ１６において、超解像ネットワークＳＲＮ_２は、優先順位にしたがってまだ選択されていない参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして選択する。そして、ステップＳＴ１２に戻り、超解像ネットワークＳＲＮ_２は、新たに選択した参考画像ＩＭ_Ｒを用いて超解像処理を実施する。その後、上述の処理が繰り返される。

［３－３．効果］
　本実施形態の超解像ネットワークＳＲＮ_２は、複数の参考画像ＩＭ_Ｒから、人相一致度ＤＣが許容基準を満たす参考画像ＩＭ_Ｒを人相基準画像ＩＭ_ＰＲとして選択する。この構成によれば、人相基準画像ＩＭ_ＰＲの選択に応じて超解像ネットワークＳＲＮ_２の生成力が調整される。そのため、超解像処理に起因した人相の変化が抑制される。

［４．ハードウェア構成例］
　図１４は、情報処理装置ＩＰのハードウェア構成例を示す図である。例えば情報処理装置ＩＰは、コンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インタフェース１５００、及び入出力インタフェース１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インタフェース１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインタフェースである。例えば、ＣＰＵ１１００は、通信インタフェース１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インタフェース１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインタフェースである。例えば、ＣＰＵ１１００は、入出力インタフェース１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インタフェース１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ-Ｏｐｔｉｃａｌ　ｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が情報処理装置ＩＰとして機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、超解像処理のための各種の機能を実現する。また、ＨＤＤ１４００には、コンピュータを情報処理装置ＩＰとして機能させるためのプログラムが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

［付記］
　なお、本技術は以下のような構成も取ることができる。
（１）
　超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出する人相判断ネットワークと、
　前記超解像処理の生成力を前記人相一致度に基づいて調整する超解像ネットワークと、
　を有する情報処理装置。
（２）
　前記超解像ネットワークは、生成力レベルの異なる複数のジェネレータから、前記人相一致度が許容基準を満たすジェネレータを選択して用いる、
　上記（１）に記載の情報処理装置。
（３）
　前記超解像ネットワークは、教師画像を低解像度化した生徒画像と、前記生徒画像を超解像処理した生成画像と、を用いて機械学習した複数のＧＡＮのジェネレータを含み、
　前記教師画像と前記生成画像との画素ごとの差分値をＤ１とし、前記ＧＡＮのディスクリミネータの識別値をＤ２とし、前記教師画像と前記生成画像との特徴量の差分値をＤ３とし、前記差分値Ｄ１の重みをｗ１とし、前記識別値Ｄ２の重みをｗ２とし、前記差分値Ｄ３の重みをｗ３とすると、
　各ＧＡＮでは、前記差分値Ｄ１、前記識別値Ｄ２および前記差分値Ｄ３の重み付き和（ｗ１×Ｄ１＋ｗ２×Ｄ２＋ｗ３×Ｄ３）が最小となるように機械学習が行われ、
　前記重みｗ１、前記重みｗ２および前記重みｗ３の比率はＧＡＮごとに異なる、
　上記（２）に記載の情報処理装置。
（４）
　前記超解像ネットワークは、前記生成力レベルの高いジェネレータから順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記ジェネレータを選択して用いる、
　上記（２）または（３）に記載の情報処理装置。
（５）
　前記人相一致度に基づいて、現在の前記生成力レベルからの下げ幅を示す生成力制御値を算出する生成力制御値算出部を有し、
　前記下げ幅は、前記人相一致度が低いほど大きい、
　上記（２）ないし（４）のいずれか１つに記載の情報処理装置。
（６）
　前記超解像ネットワークは、人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行う、
　上記（２）ないし（５）のいずれか１つに記載の情報処理装置。
（７）
　前記超解像ネットワークは人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行い、
　前記超解像ネットワークは、複数の参考画像から、前記人相一致度が許容基準を満たす参考画像を前記人相基準画像として選択する、
　上記（１）に記載の情報処理装置。
（８）
　前記超解像ネットワークは、被写体の顔の姿勢、大きさおよび位置が前記入力画像と近い参考画像から順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記参考画像を前記人相基準画像として選択する、
　上記（７）に記載の情報処理装置。
（９）
　前記超解像ネットワークは、前記入力画像と前記参考画像からそれぞれ顔パーツの輪郭線上の各点の座標を抽出し、前記入力画像と前記参考画像の対応点どうしの前記座標の差分の絶対値の和が小さい前記参考画像ほど優先順位を高くする、
　上記（８）に記載の情報処理装置。
（１０）
　超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
　前記超解像処理の生成力を前記人相一致度に基づいて調整する、
　ことを有する、コンピュータにより実行される情報処理方法。
（１１）
　超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
　前記超解像処理の生成力を前記人相一致度に基づいて調整する、
　ことをコンピュータに実現させるプログラム。

Ｃ　特徴量
ＣＶ　生成力制御値
Ｄ１，Ｄ３　差分値
Ｄ２　識別値
ＤＣ　人相一致度
ＤＩ　ディスクリミネータ
ＧＣＵ　生成力制御値算出部
ＧＥ　ジェネレータ
ＩＭ_Ｇ　生成画像
ＩＭ_Ｉ　入力画像
ＩＭ_ＰＲ　人相基準画像
ＩＭ_Ｒ　参考画像
ＩＭ_Ｓ　生徒画像
ＩＭ_Ｔ　教師画像
ＩＰ，ＩＰ１，ＩＰ２　情報処理装置
ＬＶ　生成力レベル
ＰＮ　人相判断ネットワーク
ＳＲＮ，ＳＲＮ_１，ＳＲＮ_２　超解像ネットワーク
ｗ１、ｗ２、ｗ３　重み

Claims

　超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出する人相判断ネットワークと、
　前記超解像処理の生成力を前記人相一致度に基づいて調整する超解像ネットワークと、
　を有する情報処理装置。
　前記超解像ネットワークは、生成力レベルの異なる複数のジェネレータから、前記人相一致度が許容基準を満たすジェネレータを選択して用いる、
　請求項１に記載の情報処理装置。
　前記超解像ネットワークは、教師画像を低解像度化した生徒画像と、前記生徒画像を超解像処理した生成画像と、を用いて機械学習した複数のＧＡＮのジェネレータを含み、
　前記教師画像と前記生成画像との画素ごとの差分値をＤ１とし、前記ＧＡＮのディスクリミネータの識別値をＤ２とし、前記教師画像と前記生成画像との特徴量の差分値をＤ３とし、前記差分値Ｄ１の重みをｗ１とし、前記識別値Ｄ２の重みをｗ２とし、前記差分値Ｄ３の重みをｗ３とすると、
　各ＧＡＮでは、前記差分値Ｄ１、前記識別値Ｄ２および前記差分値Ｄ３の重み付き和（ｗ１×Ｄ１＋ｗ２×Ｄ２＋ｗ３×Ｄ３）が最小となるように機械学習が行われ、
　前記重みｗ１、前記重みｗ２および前記重みｗ３の比率はＧＡＮごとに異なる、
　請求項２に記載の情報処理装置。
　前記超解像ネットワークは、前記生成力レベルの高いジェネレータから順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記ジェネレータを選択して用いる、
　請求項２に記載の情報処理装置。
　前記人相一致度に基づいて、現在の前記生成力レベルからの下げ幅を示す生成力制御値を算出する生成力制御値算出部を有し、
　前記下げ幅は、前記人相一致度が低いほど大きい、
　請求項２に記載の情報処理装置。
　前記超解像ネットワークは、人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行う、
　請求項２に記載の情報処理装置。
　前記超解像ネットワークは人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行い、
　前記超解像ネットワークは、複数の参考画像から、前記人相一致度が許容基準を満たす参考画像を前記人相基準画像として選択する、
　請求項１に記載の情報処理装置。
　前記超解像ネットワークは、被写体の顔の姿勢、大きさおよび位置が前記入力画像と近い参考画像から順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記参考画像を前記人相基準画像として選択する、
　請求項７に記載の情報処理装置。
　前記超解像ネットワークは、前記入力画像と前記参考画像からそれぞれ顔パーツの輪郭線上の各点の座標を抽出し、前記入力画像と前記参考画像の対応点どうしの前記座標の差分の絶対値の和が小さい前記参考画像ほど優先順位を高くする、
　請求項８に記載の情報処理装置。
　超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
　前記超解像処理の生成力を前記人相一致度に基づいて調整する、
　ことを有する、コンピュータにより実行される情報処理方法。
　超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
　前記超解像処理の生成力を前記人相一致度に基づいて調整する、
　ことをコンピュータに実現させるプログラム。