WO2023188160A1

WO2023188160A1 - 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2023188160A1
Application number: PCT/JP2022/016149
Authority: WO
Inventors: 彬土屋
Original assignee: 日本電気株式会社
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-10-05

Abstract

特徴点の位置をより適切に決定することができる入力支援装置、入力支援方法、及びプログラムを提供する。入力支援装置（１）は、入力画像の特徴点の位置を推定する推定部（２）と、ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援部（３）とを有する。

Description

入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体

　この開示は、入力支援装置、入力支援方法、及びプログラムに関する。

　画像を用いた情報処理を行うための準備として、ユーザが画像を確認し、画像における特徴点の位置をユーザが指定する作業が行われることがある。例えば、顔画像を用いて人物を特定する照合システムのデータベースを作成するために、データベース作成者であるユーザが既知の複数の人物の顔画像のそれぞれに対し特徴点の位置を指定することがある。また、例えば、照合システムにより顔画像を用いて人物を特定するために、検索担当者であるユーザが、特定すべき人物の顔の特徴点の位置を照合システムに入力することがある。また、例えば、機械学習モデルの教師データを準備するために、教師データ作成者であるユーザが、画像の特徴点の位置を指定することもある。このように、任意の目的のために、画像における特徴点の位置をユーザが指定する作業が行われることがある。

　ところで、関連する技術として、特許文献１に記載された輪郭検出装置が知られている。この輪郭検出装置によれば、画像からの爪の輪郭の特徴点の自動検出結果に対し、輪郭としての信頼度の低い特徴点が特定される。

特開２０１９－０５７１１１号公報

　特許文献１に示されるように、装置による推定結果は、誤っている可能性がある。一方で、ユーザ（人間）による判断が誤る可能性もある。したがって、装置の推定結果の誤りにだけ着目するのではなく、装置の推定結果とユーザの判断との相違に着目することで、より適切な特徴点の位置の決定を可能にすることができる。しかしながら特許文献１に記載された技術では、特徴点の自動検出結果の誤りを容易に特定することは可能であるが、特徴点について装置が推定した位置とユーザが指定した位置との相違に着目した処理は行なわれていない。

　そこで、この明細書に開示される実施形態が達成しようとする目的の１つは、特徴点の位置をより適切に決定することができる入力支援装置、入力支援方法、及びプログラムを提供することである。

　この開示の第１の態様にかかる入力支援装置は、
　入力画像の特徴点の位置を推定する推定手段と、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援手段と
　を有する。

　この開示の第２の態様にかかる入力支援方法では、
　入力画像の特徴点の位置を推定し、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、推定された位置と前記入力により指定された位置に基づいて支援する。

　この開示の第３の態様にかかるプログラムは、
　入力画像の特徴点の位置を推定する推定ステップと、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定ステップで推定された位置と前記入力により指定された位置に基づいて支援する入力支援ステップと
　をコンピュータに実行させる。

実施の形態の概要にかかる入力支援装置の構成の一例を示すブロック図である。目の画像の一例を示す模式図である。実施の形態１にかかる入力支援装置の機能構成の一例を示すブロック図である。ユーザインタフェース部が入力画像上の推定された位置に特徴点を表示する例を示す模式図である。実施の形態１にかかる入力支援装置のハードウェア構成の一例を示すブロック図である。実施の形態１にかかる入力支援装置の動作の一例を示すフローチャートである。誤った順序による入力について説明する模式図である。実施の形態２にかかる入力支援装置の機能構成の一例を示すブロック図である。実施の形態２にかかる入力支援装置の動作の一例を示すフローチャートである。

＜実施の形態の概要＞
　まず、実施の形態の概要について説明する。
　図１は、実施の形態の概要にかかる入力支援装置１の構成の一例を示すブロック図である。図１に示すように、入力支援装置１は、推定部２と、入力支援部３とを有する。入力支援装置１は、入力支援装置１に入力された画像である入力画像に対し、ユーザが特徴点の位置を指定する作業に用いられる装置である。なお、入力画像は例えば、人の顔が映された顔画像であり、特徴点は例えば顔の特徴点であるが、入力画像及び特徴点はこれらに限られない。例えば、入力画像には、動物、自動車、構造物などの任意の対象物が映されていてもよい。また、特徴点は、対象物毎に予め定義されていればよく、その種類については限定されない。以下、入力支援装置１の各構成要素について説明する。

　推定部２は、入力画像の特徴点の位置を推定する。例えば、推定部２は、予め学習された機械学習モデルを用いて推定を行なってもよい。ここで、機械学習モデルは、画像と当該画像に映された対象物の特徴点の位置との組を教師データとして用いて、予め学習されている。この教師データにおいて、特徴点の位置は、例えば、特徴点の位置を指定する作業の熟練者により予め指定されている。換言すると、この教師データにおいて、特徴点の位置は、特徴点の定義に合致する正しい位置に指定されている。

　入力支援部３は、ユーザによる入力画像の特徴点の位置を指定するための入力を、推定部２により推定された位置に基づいて支援する。ここで、特徴点の位置を指定するための入力を支援するとは、例えば、推定された位置の表示、警告の出力、位置の指定の順序の表示などといったように、ユーザが特徴点の位置を指定する際に当該ユーザに所定の情報を提示する処理を行なうことをいう。特に、入力支援部３は、前記推定手段により推定された位置と前記入力により指定された位置に基づいて、ユーザによる入力を支援する。例えば、入力支援部３は、推定部２により推定された位置とユーザの入力により指定された位置との差異により警告を出力することで、ユーザの入力を支援してもよい。

　入力支援装置１によれば、推定部２の推定結果及び入力結果を用いてユーザの入力が支援される。このため、入力支援装置１によれば、装置による推定とユーザによる判断とを相互に補完した上で特徴点の位置を決定することができる。したがって、入力支援装置１によれば、本装置を用いない場合と比較して、特徴点の位置をより適切に決定することができる。

　一般的に、対象物のどのような部分を特徴点とするかについては予め定義されているため、ユーザは、入力画像に対して、この定義に合致する位置を特徴点の位置として指定する。しかしながら、特徴点の定義、すなわち特徴点としての満たすべき基準を知っている全てのユーザが同じ位置に特徴点をプロットできるとは限らない。ユーザにより指定される特徴点の位置は、ユーザの経験によっても変動しうるし、特徴点の定義の不明確さによっても変動しうる。特に、人間の顔のように個体差のある対象についての特徴点については、個体毎の厳密な定義ではなく、個体差を無視した汎用的な定義がなされるため、特徴点の定義は各個体にとって不明確となり得る。このため、ユーザが適切な位置に特徴点をプロットすることは容易ではない。例えば、目の特徴点として、目尻９０（図２参照）に点を指定することが予め定義されているとする。しかしながら、人それぞれ、目の形や大きさなどが異なるため、全ての人物に共通する目尻の特徴点の位置を正確に事前に定義しておくことは難しい。このため、特に、経験が少ないユーザにとっては、特徴点の定義だけからは適切な位置に特徴点の位置を指定することは難しい。このため、経験が少ないユーザが作業を行った場合、目尻の特徴点の位置にばらつきが生じうる。

　これに対し、ユーザが入力支援装置１を用いた場合、ユーザは、推定部２が推定した特徴点の位置に基づいて、入力の支援を受けることができる。例えば、目尻の特徴点の適切な位置が指定された教師データを用いて学習されたモデルを利用して推定すれば、たいていの入力画像については、目尻の特徴点の適切な位置が推定される。この推定結果により、ユーザの特徴の指定の誤りを防ぐことが可能になる。また、そのような推定結果により、ユーザは汎用的な特徴点の定義からは理解しがたい適切な位置を理解することができる。そして、適切な位置を理解したユーザは、特異な顔画像などが推定部２（例えば機械学習モデル）に入力された際に不適切な位置が推定されたとしても、適切な位置を指定することができる。つまり、特徴点の位置を指定する入力作業の初心者であっても、特徴点の位置の基準をよく知った熟練者と同等に特徴点の位置の指定を行うことができる。

　なお、上記説明では、図１に示す構成を備える入力支援装置１について説明したが、上記効果を得るための態様は装置に限られない。例えば、入力支援装置１の上述した処理を含む入力支援方法や、入力支援装置１の上述した処理を行うプログラムもしくは当該プログラムが格納された非一時的なコンピュータ可読媒体においても、同様の効果を得ることができる。

　以下、図面を参照しつつ、この開示の実施の形態を詳細に説明する。なお、以下の記載及び図面は、説明の明確化のため、適宜、省略及び簡略化がなされている。また、各図面において、同様な構成要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

＜実施の形態１＞
　図３は、実施の形態１にかかる入力支援装置１００の機能構成の一例を示すブロック図である。入力支援装置１００は、図１の入力支援装置１に対応する装置である。なお、この実施の形態では、入力支援装置１００は、一例として、顔画像の特徴点の位置を指定する入力を支援するが、入力支援装置１００は顔以外の対象物の特徴点の位置を指定する入力を支援してもよい。ユーザは、入力支援装置１００を用いて、対象物（顔）の特徴点の位置を指定する入力を行う。なお、ユーザは、例えば、特徴点の定義について予め把握しているが、入力作業に慣れていない初心者である。ただし、入力支援装置１００のユーザは、そのようなユーザには限られない。入力支援装置１００のユーザは、特徴点の位置の入力の熟練者であってもよいし、特徴点の定義について予め把握していない人であってもよい。

　図３に示すように、入力支援装置１００は、モデル記憶部１０１、入力画像取得部１０２、推定部１０３、ユーザインタフェース部１０４、特徴点データ生成部１０５、及び特徴点データ記憶部１０６を有する。以下、これらについて説明する。

　モデル記憶部１０１は、画像に映された所定の対象物の所定の特徴点の位置を推定する機械学習モデルを記憶している。この実施の形態では、所定の対象物は、人の顔である。また、所定の特徴点は、顔の所定の部位に対応する予め定義された１９点である。具体的には、これら１９の特徴点は、各眉に３点ずつ、各目に３点ずつ、鼻に４点、口に３点である。なお、特徴点の数は一例に過ぎず、より多くの特徴点又はより少ない特徴点が定義されていてもよい。もちろん、どの部位を特徴点とするかについても例を示しただけであり、上記に限定されない。この機械学習モデルは、画像と当該画像に映された対象物の特徴点の位置との組を教師データとして用いて、ディープラーニングなどの機械学習により予め学習されている。具体的には、モデル記憶部１０１が記憶する機械学習モデルは、特徴点の位置を指定する作業の熟練者により指定された特徴点の位置を教師データとして用いて予め学習されている。つまり、この機械学習モデルは、特徴点の位置として特徴点の定義に合致する正しい位置が示された教師データを用いて学習されている。

　なお、図３に示した構成では、モデル記憶部１０１は、入力支援装置１００に含まれているが、モデル記憶部１０１は、入力支援装置１００とネットワークなどを介して通信可能に接続された他の装置において実現されてもよい。

　入力画像取得部１０２は、入力支援装置１００に入力される画像であり、特徴点の位置を指定すべき画像を取得する。すなわち、入力画像取得部１０２は、所定の対象物（人の顔）が映された画像を取得する。典型的には、入力画像は、カメラなどの撮像装置により撮影された画像であるが、必ずしもそのような画像でなくてもよく、コンピュータグラフィックで表された対象物の画像であってもよい。入力画像取得部１０２は、他の装置から入力画像を受信することにより入力画像を取得してもよいし、入力支援装置１００が内蔵する記憶装置もしくは入力支援装置１００に接続された記憶装置から読み出すことにより、入力画像を取得してもよい。

　推定部１０３は、図１の推定部２に対応している。推定部１０３は、モデル記憶部１０１に記憶された機械学習モデルを用いて、入力画像取得部１０２が取得した入力画像の特徴点の位置を推定する。ここでは、推定部１０３は、顔画像に対して、１９の特徴点の位置を推定する。

　ユーザインタフェース部１０４は、入力画像取得部１０２が取得した入力画像に対して特徴点の位置を指定する入力をユーザから受付けるユーザインタフェースを提供し、ユーザからの当該入力を受付ける。例えば、ユーザインタフェース部１０４は、入力画像を表示するとともに、ユーザからの入力を受付けるためのＵＩ（ユーザインタフェース）コンポーネントが配置したＵＩ画面を後述する出力装置１５０において表示する。すなわち、ユーザインタフェース部１０４は、特徴点の位置の指定の入力をユーザから受付けるためのＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）を提供する。そして、ユーザインタフェース部１０４は、後述する入力装置１５１を介して入力された特徴点の位置の指定を受付ける。

　ユーザインタフェース部１０４は、入力支援部と称されてもよい。ユーザインタフェース部１０４は、ユーザによる入力画像の特徴点の位置を指定するための入力を、推定部１０３により推定された位置に基づいて支援する。この実施の形態では、具体的には、ユーザインタフェース部１０４は、ユーザによる特徴点の位置の入力に先だって、推定部１０３により推定された位置を表示することにより、ユーザの入力を支援する。より詳細には、ユーザインタフェース部１０４は、入力画像上において、推定部１０３により推定された位置に特徴点を表示する。

　図４は、ユーザインタフェース部１０４が入力画像９１上の推定された位置に特徴点を表示する例を示す模式図である。図４に示すように、ユーザインタフェース部１０４は、推定部１０３により推定された位置に、１９点の特徴点９２を表示する。なお、図４では、図が複雑になることを防ぐべく、１９点の特徴点の一部にのみ符号を付している。

　この場合、ユーザは、推定結果に基づいて表示された特徴点の位置を参照しつつ、各特徴点の位置を指定する入力を行う。なお、各特徴点の位置を指定する入力は、推定結果に基づいて表示された特徴点の位置を修正する入力であってもよいし、推定結果に基づいて表示された特徴点の位置を承認する入力であってもよい。

　また、ユーザインタフェース部１０４は、ユーザによる入力により指定された位置と、推定部１０３により推定された位置とのずれの大きさに基づいて、警告を出力することにより、ユーザの入力を支援してもよい。この場合、ユーザインタフェース部１０４は、例えば、両者のずれの大きさが所定の閾値を超えた場合は、警告を出力する。具体的には、例えば、ユーザインタフェース部１０４は、ユーザの指定した位置が誤っている恐れがあることを通知する警告を出力する。なお、この警告は、ＵＩ画面に表示されてもよいし、音声出力されてもよい。警告を受けたユーザは、必要により特徴点の位置を修正することにより、特徴点の位置として適切な位置を指定することができる。また、警告を受けたユーザは、推定部１０３の推定結果が誤っていると判断した場合、指定した位置を警告に反して確定させてもよい。

　特徴点データ生成部１０５は、ユーザから受付けた入力により指定された位置、すなわちユーザの入力にしたがって確定した位置を入力画像の特徴点の位置として、当該入力画像の特徴点を表す特徴点データを入力画像毎に生成する。特徴点データ生成部１０５は、生成した特徴点データを特徴点データ記憶部１０６に記憶する。なお、特徴点データ生成部１０５は、入力画像とこの入力画像の特徴点データとを関連付けて、特徴点データ記憶部１０６に記憶してもよい。

　特徴点データ記憶部１０６は、ユーザからの入力に基づいて特徴点データ生成部１０５によって生成された特徴点データを記憶する。なお、図３に示した構成では、特徴点データ記憶部１０６は、入力支援装置１００に含まれているが、特徴点データ記憶部１０６は、入力支援装置１００とネットワークなどを介して通信可能に接続された他の装置において実現されてもよい。また、特徴点データ記憶部１０６は、データベースとして構成されていてもよい。

　特徴点データ記憶部１０６に記憶されたデータは、任意の用途に用いられうる。すなわち、ユーザが入力画像に対して特徴点の位置を指定する作業の目的は、任意であり、特定の目的に限定されない。例えば、特徴点データは、顔画像を用いた人物の照合に用いられてもよい。具体的には、特定すべき人物が既知の人物のいずれに該当するかを、この特定すべき人物の顔画像の特徴点と既知の複数の人物のそれぞれの顔画像の特徴点とを照合することで特定することを可能にするために、入力支援装置１００が用いられてもよい。この場合、既知の人物の顔画像の特徴点を予めデータベースに登録しておくために入力支援装置１００が用いられてもよいし、データベースに記憶された特徴点と比較される人物の顔画像の特徴点を特定するために入力支援装置１００が用いられてもよい。また、特徴点データの利用は、画像照合に限られない。例えば、特徴点データから新たなデータを生成するために特徴点データが収集されてもよい。具体的には、所定の部分（例えば目）を囲むバウンディングボックスのデータ生成するために、特徴点データが収集されてもよい。また、特徴点の位置の統計データを生成するために、特徴点データが収集されてもよい。また、機械学習モデルの作成するための教師データとして利用するために、特徴点データが収集されてもよい。このように、ユーザが入力画像に対して特徴点の位置を指定する作業の目的は、任意である。

　図５は、入力支援装置１００のハードウェア構成の一例を示すブロック図である。図５に示すように、入力支援装置１００は、出力装置１５０、入力装置１５１、記憶装置１５２、メモリ１５３、及びプロセッサ１５４を含む。

　出力装置１５０は、外部へ情報の出力を行うディスプレイなどの出力装置である。ディスプレイは、例えば、液晶ディスプレイ、プラズマディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどのフラットパネルディスプレイであってもよい。また、出力装置１５０は、スピーカを含んでもよい。出力装置１５０は、ユーザインタフェース部１０４が提供するユーザインタフェースを表示する。

　入力装置１５１は、ユーザインタフェースを介して、ユーザが入力を行うための装置であり、例えば、ポインティングデバイス又はキーボードなどの入力装置である。ポインティングデバイスの例としては、マウス、トラックボール、タッチパネル、ペンタブレットなどが挙げられる。入力装置１５１及び出力装置１５０は、タッチパネルとして一体的に構成されていてもよい。

　記憶装置１５２は、ハードディスク、フラッシュメモリ等の不揮発性記憶装置である。上述したモデル記憶部１０１及び特徴点データ記憶部１０６は、例えば記憶装置１５２により実現されるが、他の記憶装置により実現されてもよい。

　メモリ１５３は、例えば、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１５３は、プロセッサ１５４により実行される、１以上の命令を含むソフトウェア（コンピュータプログラム）、及び入力支援装置１００の各種処理に用いるデータなどを格納するために使用される。

　プロセッサ１５４は、メモリ１５３からソフトウェア（コンピュータプログラム）を読み出して実行することで、上述した入力画像取得部１０２、推定部１０３、ユーザインタフェース部１０４、及び特徴点データ生成部１０５の処理を行う。プロセッサ１５４は、例えば、マイクロプロセッサ、ＭＰＵ(Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｏｒ　Ｕｎｉｔ)、又はＣＰＵ(Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ)などであってもよい。プロセッサ１５４は、複数のプロセッサを含んでもよい。
　このように、入力支援装置１００は、コンピュータとしての機能を備える。

　プログラムは、コンピュータに読み込まれた場合に、実施形態で説明される１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、ｒａｎｄｏｍ－ａｃｃｅｓｓ　ｍｅｍｏｒｙ（ＲＡＭ）、ｒｅａｄ－ｏｎｌｙ　ｍｅｍｏｒｙ（ＲＯＭ）、フラッシュメモリ、ｓｏｌｉｄ－ｓｔａｔｅ　ｄｒｉｖｅ（ＳＳＤ）又はその他のメモリ技術、ＣＤ－ＲＯＭ、ｄｉｇｉｔａｌ　ｖｅｒｓａｔｉｌｅ　ｄｉｓｃ（ＤＶＤ）、Ｂｌｕ－ｒａｙ（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　次に、入力支援装置１００の動作についてフローチャートを参照して説明する。図６は、入力支援装置１００の動作の一例を示すフローチャートである。以下、図６を参照しつつ、入力支援装置１００の動作の流れを説明する。

　ステップＳ１００において、入力画像取得部１０２が、所定の対象物（人の顔）が映された画像を取得する。
　次に、ステップＳ１０１において、推定部１０３が、モデル記憶部１０１に記憶された機械学習モデルを用いて、ステップＳ１００で取得した入力画像の特徴点の位置を推定する。

　次に、ステップＳ１０２において、ユーザインタフェース部１０４は、ステップＳ１００で取得された入力画像に対して特徴点の位置を指定する入力をユーザから受付けるユーザインタフェースを提供し、ユーザからの当該入力を受付ける。その際、ユーザインタフェース部１０４は、ステップＳ１０１で得られた推定結果を用いてユーザの入力を支援しつつ、ユーザによる位置の指定を受付ける。具体的には、上述したように、ユーザインタフェース部１０４は、入力画像上において、推定された位置に特徴点を表示する。また、ユーザインタフェース部１０４は、ユーザによる入力により指定された位置と、推定された位置とのずれが閾値を超える場合には、警告を出力してもよい。

　次に、ステップＳ１０３において、特徴点データ生成部１０５が、ユーザの入力にしたがって確定した位置を入力画像の特徴点の位置として、当該入力画像の特徴点を表す特徴点データを生成する。そして、特徴点データ生成部１０５は、生成した特徴点データを特徴点データ記憶部１０６に記憶する。
　次に、ステップＳ１０４において、入力画像取得部１０２は、次の入力画像があるか否かを判定する。すなわち、入力画像取得部１０２は、特徴点の位置を指定すべき他の入力画像があるか否かを判定する。他の入力画像がある場合、処理はステップＳ１００に戻り、上述した処理が繰り返される。これに対し、他の入力画像がない場合、処理は終了する。

　以上、実施の形態１について説明した。入力支援装置１００によれば、機械学習モデルの推定結果を用いてユーザの入力が支援される。この入力支援装置１００によれば、ユーザが画像の特徴点の位置として適切な位置を容易に指定することができる。特に、この実施の形態では、ユーザインタフェース部１０４が、ユーザによる特徴点の位置の入力に先だって、推定部１０３により推定された位置を表示することにより、ユーザの入力を支援する。このような構成によれば、特徴点の位置の基準をよく知った熟練者により作成された教師データを使って学習した機械学習モデルの推定結果を見ながら作業を行うことができる。このため、特徴点の位置を指定する入力作業の経験が少ないユーザであっても、画像の特徴点の位置として適切な位置を容易に指定することができる。つまり、特徴点の位置を指定する入力作業の初心者であっても、特徴点の位置の基準をよく知った熟練者と同等に特徴点の位置の指定を行うことができる。また、ユーザの作業を、推定された位置の修正作業だけとすることも可能になるため、作業負荷の軽減と効率的な作業の実現が期待できる。

　また、上述した通り、ユーザインタフェース部１０４は、ユーザによる入力により指定された位置と、推定部１０３により推定された位置とのずれの大きさに基づいて、警告を出力してもよい。このような構成によれば、ユーザが不適切な位置を、誤って特徴点の位置として指定することを抑制することができる。すなわち、ヒューマンエラーの発生を抑制することができる。特に、このような構成によれば、推定部１０３の推定結果及び入力結果を用いて特徴点の位置が評価されることとなるため、装置による推定とユーザによる判断とを加味した適切な位置を特徴点の位置とすることができる。

　また、上述した通り、入力画像は、顔画像であり、特徴点は顔の特徴点であってもよい。このような入力画像及び特徴点に対して、入力支援装置１００を用いることにより、個体差のある対象物である顔についても、ユーザは適切に特徴点の位置を指定することができる。

＜実施の形態１の第１の変形例＞
　次に、上述した実施の形態１の第１の変形例について説明する。上述した実施の形態では、ユーザインタフェース部１０４は、推定部１０３により推定された位置をユーザによる入力に先だって表示した。しかしながら、ユーザインタフェース部１０４は、推定部１０３により推定された位置をユーザによる入力に先だって表示しなくてもよい。この場合、ユーザインタフェース部１０４は、ユーザによる入力により指定された位置と、推定部１０３により推定された位置とに基づいてユーザの当該入力を評価することにより、ユーザの入力を支援してもよい。例えば、ユーザインタフェース部１０４は、ユーザによる入力により指定された位置と推定部１０３により推定された位置とのずれの大きさを評価し、評価結果を出力してもよい。具体的には、例えば、ずれの大きさが所定の閾値以下である場合、ユーザインタフェース部１０４は、評価結果として、モデルの推定結果が示す位置と近接した位置が指定されていることを通知する出力を行なってもよい。なお、この所定の閾値は、実施の形態１で述べた閾値、すなわち、ずれの大きさに基づいて警告を出力するための閾値と同じであってもよい。また、ずれの大きさが所定の閾値を超える場合、ユーザインタフェース部１０４は、評価結果として、警告を出力してもよい。警告を受けたユーザは、必要により特徴点の位置を修正することにより、特徴点の位置として適切な位置を指定することができる。評価結果は、ＵＩ画面に表示されてもよいし、音声出力されてもよい。このような構成によれば、ユーザは自らが指定した位置が適切であるか否かの判断材料を得ることができるため、特徴点の位置として適切な位置を容易に指定することができる。また、特に、この変形例によれば、支援のための表示を実施の形態１に比べて少なくすることができる。このため、入力の際に、そのような表示によりユーザが煩わされることを抑制することができる。

＜実施の形態１の第２の変形例＞
　次に、上述した実施の形態１の第２の変形例について説明する。上述した実施の形態では、推定部１０３は、特徴点の位置だけを推定した。しかしながら、推定部１０３は、さらに、入力画像の複数の特徴点の順序を推定してもよい。例えば、各特徴点について、所定の順序で位置情報を表す特徴点データを生成する必要がある場合には、これら特徴点について予め順序が定義されている。この場合、ユーザは、対象物の複数の特徴点の位置を、所定の順序にしたがって指定する必要がある。具体例を用いて説明すると、例えば、顔の入力画像の１９個の特徴点について予め順序が定義されおり、ユーザはこの順序にしたがって各特徴点の位置を指定しなければならない場合がある。この場合、誤った順序で特徴点の位置の指定が行われることを防ぐことが求められる。

　このため、推定部１０３は、機械学習モデルを用いて、入力画像の複数の特徴点の位置を特徴点の順序とともに推定してもよい。そして、ユーザインタフェース部１０４は、ユーザによる特徴点の位置の当該順序にしたがった指定を支援してもよい。これにより、誤った順序で特徴点の位置の指定が行われることを抑制することができる。なお、そのような機械学習モデルは、例えば、画像と当該画像に映された対象物の各特徴点の順序と各特徴点の位置との組を教師データとして用いて、ディープラーニングなどの機械学習により予め学習されている。すなわち、推定部１０３は、各特徴点の位置を各特徴点の順序情報とともに学習した機械学習モデルを用いて、推定処理を行う。

　ユーザインタフェース部１０４は、例えば、各特徴点の推定された位置と、各特徴点の順序とを入力画像上に表示することにより、ユーザの入力を支援してもよい。より詳細には、ユーザインタフェース部１０４は、ユーザによる特徴点の位置の入力に先だって、入力画像上において、推定部１０３により推定された位置に特徴点を表示するとともに、各特徴点の順序を示す情報を表示してもよい。ここで、各特徴点の順序を示す情報は、例えば、順序を表す数字であるが、順序を示す矢印などのマークであってもよい。このような構成によれば、ユーザは、機械学習モデルの推定結果を見ながら作業を行うことができる。このため、特徴点の位置を指定する入力作業の経験が少ないユーザであっても、適切な順序で特徴点の位置を指定することができる。

　また、ユーザインタフェース部１０４は、機械学習モデルにより推定された順序と、ユーザによる特徴点の位置の指定の順序の差異に基づいて、警告を出力することにより、ユーザの入力を支援してもよい。この場合、ユーザインタフェース部１０４は、推定された順序と異なる順序でユーザが特徴点の位置の指定を行った場合に、警告を出力する。具体的には、例えば、ユーザインタフェース部１０４は、ユーザが所定の順序とは異なる順序で特徴点の位置の指定を行っている恐れがあることを通知する警告を出力する。なお、この警告は、ＵＩ画面に表示されてもよいし、音声出力されてもよい。図７は、誤った順序による入力について説明する模式図である。ここでは、図７に図示された矢印９３により示されるように、正しい入力順序は、鼻の左側端部を示す特徴点９２ａの位置の入力、次に、鼻の頂点を示す特徴点９２ｂの位置の入力、次に、鼻の右側端部を示す特徴点９２ｃの位置の入力であるとする。しかし、ユーザが、特徴点９２ａをプロットする入力を行った後、鼻の下端を示す特徴点９２ｄをプロットする入力を行ったとする。この場合、ユーザインタフェース部１０４は、警告を出力する。なお、ユーザインタフェース部１０４は、例えば、ユーザが指定した特徴点の位置が、定義された順序から特定される次に入力すべき特徴点（特徴点９２ｂ）とは異なる特徴点（特徴点９２ｃ）の推定位置に近接している場合、入力順序が誤っていると判定する。ここで、ユーザが指定した特徴点の位置が、推定位置に近接しているとは、両者の位置の差が所定の閾値以下であることを言う。なお、この所定の閾値は、実施の形態１で述べた閾値、すなわち、ずれの大きさに基づいて警告を出力するための閾値と同じであってもよい。このように、順序の誤りについて警告を出力することにより、所定の順序とは異なる順序で各特徴点の位置情報が並ぶ特徴点データが生成されることを抑制することができる。

　以上、実施の形態１の第２の変形例について説明したが、上述した第２の変形例は、上述した第１の変形例と組み合わされてもよい。

＜実施の形態２＞
　次に、実施の形態２について説明する。実施の形態２は、機械学習モデルが更新される点で、実施の形態１と異なっている。図８は、実施の形態２にかかる入力支援装置１００ａの機能構成の一例を示すブロック図である。実施の形態２にかかる入力支援装置１００ａは、再学習部１０７をさらに有する点で、実施の形態１にかかる入力支援装置１００と異なっている。再学習部１０７の処理も、例えば、プロセッサ１５４が、メモリ１５３からソフトウェア（コンピュータプログラム）を読み出して実行することで行なわれる。

　以下、実施の形態１と異なる点ついて具体的に説明し、適宜重複する説明については省略する。なお、実施の形態２について、上述した第１の変形例を適用することも可能であるし、上述した第２の変形例を適用することも可能である。

　再学習部１０７は、入力画像取得部１０２が取得した入力画像と、この入力画像に対して、ユーザによる入力により指定された特徴点の位置との組み合わせを教師データとして用いることにより、機械学習モデルの機械学習を再度行う。すなわち、再学習部１０７は、特徴点データ生成部１０５により生成された特徴点データを教師データとして用いることにより、機械学習モデルの機械学習を再度行う。

　再学習部１０７は、ユーザによる特徴点の位置の指示により生成された一部の画像についての特徴点データだけを再学習のために利用してもよいし、全ての画像についての特徴点データを再学習のために利用してもよい。特に、再学習部１０７は、ユーザの指定位置と、推定部１０３の推定位置とのずれの大きさが閾値を超えたことによる警告に反して、当該指定位置を特徴点の位置として確定するユーザの指示がされることにより生成された特徴点データを再学習に用いてもよい。このような特徴データは、モデルの推定結果が誤るような特異な画像に対する特徴データであるため、このような特徴データを用いて再学習を行うことで、そのような画像に対しても適切な予測を行うモデルへと機械学習モデルを更新することができる。また、全ての画像についての特徴点データを再学習のために利用することで、より多くの教師データにより機械学習モデルが学習されることとなるため、機械学習モデルの安定性を向上することができる。なお、再学習部１０７は、機械学習モデルを生成するために最初に用いた教師データも用いて再学習を行なってもよい。

　次に、実施の形態２にかかる入力支援装置１００ａの動作についてフローチャートを参照して説明する。図９は、実施の形態２にかかる入力支援装置１００ａの動作の一例を示すフローチャートである。図９に示すように、ここで示されるフローチャートは、ステップＳ１０４の後にステップＳ１０５が追加されている点で、図６に示したフローチャートと異なっている。以下、図６に示したフローチャートと異なる点について説明する。

　ステップＳ１０４において、他の入力画像がないと判定された場合、処理はステップＳ１０５へ移行する。ステップＳ１０５において、再学習部１０７は、ステップＳ１００からステップＳ１０４の一連の処理に基づいて生成された特徴点データを特徴点データ記憶部１０６から読み出して、モデル記憶部１０１に記憶されている機械学習モデルの再学習を行なう。そして、再学習部１０７は、再学習された機械学習モデルをモデル記憶部１０１に記憶する。これにより、次回の作業では、更新された機械学習モデルを用いて推定が行なわれることとなる。

　以上、実施の形態２について説明した。入力支援装置１００ａによれば、機械学習モデルの再学習が行なわれる。このため、機械学習モデルが随時更新され、モデルの精度を向上させることができる。したがって、推定部１０３の推定をより精度よく実施することができる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、様々な実施の形態及び様々な変形例は、適宜組み合わせることが可能である。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
（付記１）
　入力画像の特徴点の位置を推定する推定手段と、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援手段と
　を有する入力支援装置。
（付記２）
　前記入力支援手段は、さらに、推定された位置を前記ユーザによる前記入力に先だって表示することにより、前記入力を支援する
　付記１に記載の入力支援装置。
（付記３）
　前記入力支援手段は、推定された位置を前記ユーザによる前記入力に先だって表示せず、前記ユーザによる前記入力により指定された位置と、推定された位置とに基づいて前記入力を評価することにより、前記入力を支援する
　付記１に記載の入力支援装置。
（付記４）
　前記入力支援手段は、前記ユーザによる前記入力により指定された位置と、推定された位置とのずれの大きさに基づいて、警告を出力することにより支援する
　付記１から３のいずれか一項に記載の入力支援装置。
（付記５）
　前記推定手段は、前記入力画像の複数の特徴点の位置を特徴点の順序とともに推定し、
　前記入力支援手段は、前記ユーザによる特徴点の位置の前記順序にしたがった指定を支援する
　付記１から４のいずれか一項に記載の入力支援装置。
（付記６）
　前記入力支援手段は、各特徴点の推定された位置と、各特徴点の順序とを前記入力画像上に表示することにより支援する
　付記５に記載の入力支援装置。
（付記７）
　前記入力支援手段は、推定された順序と、前記ユーザによる特徴点の位置の指定の順序の差異に基づいて、警告を出力することにより支援する
　付記５又は６に記載の入力支援装置。
（付記８）
　前記推定手段は、予め学習された機械学習モデルを用いて、前記入力画像の特徴点の位置を推定し、
　前記入力画像と、前記ユーザによる前記入力により指定された位置との組み合わせを教師データとして用いることにより、前記機械学習モデルの機械学習を再度行う再学習手段をさらに有する
　付記１から７のいずれか一項に記載の入力支援装置。
（付記９）
　前記入力画像は顔画像であり、前記特徴点は顔の特徴点である
　付記１から８のいずれか一項に記載の入力支援装置。
（付記１０）
　入力画像の特徴点の位置を推定し、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、推定された位置と前記入力により指定された位置に基づいて支援する
　入力支援方法。
（付記１１）
　入力画像の特徴点の位置を推定する推定ステップと、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定ステップで推定された位置と前記入力により指定された位置に基づいて支援する入力支援ステップと
　をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。

１　　入力支援装置
２　　推定部
３　　入力支援部
１００　　入力支援装置
１００ａ　　入力支援装置
１０１　　モデル記憶部
１０２　　入力画像取得部
１０３　　推定部
１０４　　ユーザインタフェース部
１０５　　特徴点データ生成部
１０６　　特徴点データ記憶部
１０７　　再学習部
１５０　　出力装置
１５１　　入力装置
１５２　　記憶装置
１５３　　メモリ
１５４　　プロセッサ

Claims

　入力画像の特徴点の位置を推定する推定手段と、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定手段により推定された位置と前記入力により指定された位置に基づいて支援する入力支援手段と
　を有する入力支援装置。
　前記入力支援手段は、さらに、推定された位置を前記ユーザによる前記入力に先だって表示することにより、前記入力を支援する
　請求項１に記載の入力支援装置。
　前記入力支援手段は、推定された位置を前記ユーザによる前記入力に先だって表示せず、前記ユーザによる前記入力により指定された位置と、推定された位置とに基づいて前記入力を評価することにより、前記入力を支援する
　請求項１に記載の入力支援装置。
　前記入力支援手段は、前記ユーザによる前記入力により指定された位置と、推定された位置とのずれの大きさに基づいて、警告を出力することにより支援する
　請求項１から３のいずれか一項に記載の入力支援装置。
　前記推定手段は、前記入力画像の複数の特徴点の位置を特徴点の順序とともに推定し、
　前記入力支援手段は、前記ユーザによる特徴点の位置の前記順序にしたがった指定を支援する
　請求項１から４のいずれか一項に記載の入力支援装置。
　前記入力支援手段は、各特徴点の推定された位置と、各特徴点の順序とを前記入力画像上に表示することにより支援する
　請求項５に記載の入力支援装置。
　前記入力支援手段は、推定された順序と、前記ユーザによる特徴点の位置の指定の順序の差異に基づいて、警告を出力することにより支援する
　請求項５又は６に記載の入力支援装置。
　前記推定手段は、予め学習された機械学習モデルを用いて、前記入力画像の特徴点の位置を推定し、
　前記入力画像と、前記ユーザによる前記入力により指定された位置との組み合わせを教師データとして用いることにより、前記機械学習モデルの機械学習を再度行う再学習手段をさらに有する
　請求項１から７のいずれか一項に記載の入力支援装置。
　前記入力画像は顔画像であり、前記特徴点は顔の特徴点である
　請求項１から８のいずれか一項に記載の入力支援装置。
　入力画像の特徴点の位置を推定し、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、推定された位置と前記入力により指定された位置に基づいて支援する
　入力支援方法。
　入力画像の特徴点の位置を推定する推定ステップと、
　ユーザによる前記入力画像の特徴点の位置を指定するための入力を、前記推定ステップで推定された位置と前記入力により指定された位置に基づいて支援する入力支援ステップと
　をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。