JPWO2019155570A1 - 視線推定装置、視線推定方法、およびプログラム - Google Patents

視線推定装置、視線推定方法、およびプログラム Download PDF

Info

Publication number
JPWO2019155570A1
JPWO2019155570A1 JP2019570215A JP2019570215A JPWO2019155570A1 JP WO2019155570 A1 JPWO2019155570 A1 JP WO2019155570A1 JP 2019570215 A JP2019570215 A JP 2019570215A JP 2019570215 A JP2019570215 A JP 2019570215A JP WO2019155570 A1 JPWO2019155570 A1 JP WO2019155570A1
Authority
JP
Japan
Prior art keywords
line
image
eye
sight
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019570215A
Other languages
English (en)
Other versions
JP7040539B2 (ja
Inventor
雄介 森下
雄介 森下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019155570A1 publication Critical patent/JPWO2019155570A1/ja
Priority to JP2022033164A priority Critical patent/JP7255721B2/ja
Application granted granted Critical
Publication of JP7040539B2 publication Critical patent/JP7040539B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Abstract

人物の目の形状によらず、人物の視線を高精度に推定する。画像取得部(110)は、人物の顔を含む画像を取得する。目検出部(120)は、画像から目を検出する。特徴量計算部(130)は、目の形状に関する特徴量、例えば目の大きさまたは傾き、を計算する。正規化部(140)は、各画像から目を含む領域を抽出して、目の形状に関する特徴量が平準化されるように、抽出した画像を変換する。視線推定部(150)は、変換した画像を用いて視線を推定する。

Description

本開示は、視線推定装置、視線推定方法、および記録媒体に関し、特に、撮影画像に含まれる人物の視線を推定する視線推定装置に関する。
人物の視線(目が見ている方向)は、その人物の行動や意図を解析する上で重要な手掛かりとなり得る。例えば、人物の視線から、その人物が注視している物体または事象を特定することができる。人物の視線を推定する技術、特に、人物の顔を含む画像(以下「顔画像」と呼ぶ。)を用いて、人物の視線を推定する技術が開発されている。
顔画像に基づいて視線を推定する技術が、例えば、特許文献1〜3、および非特許文献1〜2に記載されている。特許文献1は、顔画像に含まれる特徴点(画像特徴点)を用いて、視線を推定する方法(feature-based methods)を開示している。非特許文献1は、ただ1つの目を含む顔画像から、視線を推定する方法を開示している。
また、特許文献2および非特許文献2は、「見た目に基づく視線の推定」(appearance-based gaze estimation)の例を、それぞれ開示している。例えば、特許文献2では、与えられた顔画像のデータセットを用いて、CNN(Convolutional neural network)モデルに基づく深層学習を行うことにより、顔と視線の関係を学習する。
特許第4829141号公報 特開2009−059257号公報 特許第5772821号公報 国際公開第2008/007781号 特開2014−210076号公報 特開2008−210239号公報 特開2000−339457号公報
J. Wang, E. Sung, and R. Venkateswarlu, "Eye Gaze Estimation from a Single Image of One Eye," Proc. IEEE ICCV 2003, pp.I−136−143, 2003. X. Zhang, Y. Sugano, M. Fritz and A. Bulling, "Appearance-Based Gaze Estimation in the Wild," Proc. IEEE CVPR 2015, pp. 4511-4520, 2015.
上述した関連する技術には、人物の目の形状の違いによって、視線の推定の精度が変動するという問題がある。例えば、特許文献2に開示された技術では、目の大きい人物の視線を精度よく推定できるが、目の小さい人物の視線を精度よく推定できないといった問題が生じ得る。すなわち、上述した関連する技術は、目の形状に関する特徴量(例えば、大きさ、傾き)によらず、視線を高精度に推定することが困難である。
本発明は上記の課題に鑑みてなされたものであり、その目的は、人物の目の形状によらず、人物の視線を高精度に推定することにある。
本発明の一態様に係わる視線推定装置は、人物の顔を含む画像を取得する画像取得手段と、前記画像から人物の目を検出する目検出手段と、前記検出された目の形状に関する特徴量を計算する特徴量計算手段と、前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも1つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換する画像変換手段と、前記変換された部分画像を用いて、前記人物の視線を推定する視線推定手段と、前記推定された視線の情報を出力する出力手段と、を備えている。
本発明の一態様に係わる視線推定方法は、人物の顔を含む画像を取得することと、前記画像から人物の目を検出することと、前記検出された目の形状に関する特徴量を計算することと、前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも1つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、前記変換された部分画像を用いて、前記人物の視線を推定することと、前記推定された視線の情報を出力することと、を含む。
本発明の一態様に係わる、一時的でない記録媒体は、人物の顔を含む画像を取得することと、前記画像から人物の目を検出することと、前記検出された目の形状に関する特徴量を計算することと、前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも1つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、前記変換された部分画像を用いて、前記人物の視線を推定することと、前記推定された視線の情報を出力することと、をコンピュータ装置に実行させるためのプログラムを記録している。
本開示によれば、人物の目の形状によらず、人物の視線を高精度に推定することができる。
視線推定装置の構成の一例を示すブロック図である。 顔画像の一例を示す図である。 目領域画像の一例を示す図である。 (a)および(b)は、目の大きさ(高さ)に基づく目領域画像の正規化の流れを説明する図である。 視線推定装置の動作の一例を示すフローチャートである。 コンピュータ装置によって実現される視線推定装置のハードウェア構成の一例を示すブロック図である。
[第1実施形態]
図1は、第1実施形態に係る視線推定装置100の構成を示すブロック図である。視線推定装置100は、画像に含まれる人物の視線を推定するための装置である。図1に示すように、視線推定装置100は、画像取得部110と、目検出部120と、特徴量計算部130と、正規化部140と、視線推定部150と、出力部160とを少なくとも含む。視線推定装置100は、図示しない他の構成要素を含んでもよい。
[画像取得部110]
画像取得部110は、人物の顔を含む画像データを取得する。例えば、画像取得部110は、他の装置から送信される画像データを取得してもよい。ここでいう他の装置とは、監視カメラまたは電子機器の内蔵カメラ等の撮像装置であってもよいし、画像データが記録されたデータベース等の記憶装置であってもよい。画像取得部110は、目検出部120へ、取得した画像データを出力する。
画像取得部110が取得する画像データは、複数の画素の輝度値によって表現されている。画像データに含まれる画素数、色数(色成分の数)、および階調数などは、特定の数値に限定されない。画像取得部110は、あらかじめ決められた画素数および色数を有する画像データのみを取得してもよいが、画像データの画素数および色数を制限しなくてもよい。また、画像データは、静止画であってもよいし、動画であってもよい。説明の便宜上、以下では、画像取得部110が取得する画像データを「入力画像」と呼ぶ。
以下の説明においては、入力画像はいずれも、ただ1人の人物の顔を含んでいることとする。1つの入力画像に複数の顔が含まれる場合、画像取得部110は、その入力画像を、それぞれ1つの顔のみを含む複数の入力画像に分割すればよい。
画像取得部110は、取得した入力画像から、顔画像を生成し、生成した顔画像を、目検出部120および正規化部140に供給する。顔画像とは、人物の顔の一部又は全部を含む画像のことをいう。換言すれば、顔画像とは、入力画像から、人物の顔以外の要素(背景、物体、および人物の体等)を除いたものである。
(顔画像)
図2は、画像取得部110が入力画像から生成する顔画像400を示す。図2に示す顔画像400は、目の他にも、顔のパーツ(眉、鼻、および口)を含んでいる。しかしながら、顔画像400は、少なくとも片目を含んでいれば十分である。本実施形態では、顔画像400から抽出した目領域画像(後述)のみを使用するからである。
入力画像が動画である場合、入力画像は複数の画像(フレーム)で構成される。この場合、ある再生期間の画像には顔が含まれるが、別の再生期間の画像には顔が含まれない可能性がある。そこで、入力画像が動画である場合、画像取得部110は、動画から、人物の顔を含む1または複数の画像のみを抽出して、抽出した1または複数の画像を、顔画像として、目検出部120および正規化部140に供給してもよい。この構成により、視線推定装置100が視線を推定する処理(後述)を効率化することができる。
一方、入力画像が静止画である場合、画像取得部110は、入力画像をそのまま、顔画像として、目検出部120と正規化部140に供給してもよいし、加工した入力画像を、顔画像として、目検出部120と正規化部140に供給してもよい。後者の構成では、例えば、画像取得部110は、入力画像から人物の顔を検出し、検出した人物の顔を含む入力画像の一部を、顔画像として抽出し、抽出した顔画像を、目検出部120および正規化部140に供給してもよい。
顔画像はモノクロ画像またはカラー画像であってよい。すなわち、顔画像は、R(赤)、G(緑)、B(青)などの複数の色成分を含む画素により構成されていてよい。この場合、画像取得部110は、色数または階調数が所定の数値になるように、顔画像を変換し、変換した顔画像を、目検出部120および正規化部140に供給してもよい。あるいは、画像取得部110は、カラー画像である顔画像を、単一成分のグレースケールで表わされる単色の顔画像に変換してもよい。本実施形態では、顔画像に含まれる色の情報(彩度、色相)を使用しないからである。このようにして変換された顔画像のことも、以後は単に「顔画像」と呼ぶ。
[目検出部120]
目検出部120は、画像取得部110から供給される顔画像400(図2参照)から、目を検出する。そして、目検出部120は、顔画像400から検出した目の瞳の中心と、目の輪郭線上の複数の点とを検出する。目検出部120が検出する、瞳の中心、および、目の輪郭線上の複数の点のことを、以下では目の特徴点と呼ぶ。
本実施形態において、目検出部120は、目の特徴点として、瞳の中心に加えて、内眼角、外眼角、上瞼の中心、および、下瞼の中心の4点を特定する。内眼角(いわゆる目頭)とは、目の輪郭線の両端において、上下の瞼が相会する2点のうち、顔の内側にあるほうの点を言う。外眼角(いわゆる目尻)とは、上下のまぶたが相会する2点のうち、顔の外側にあるほうの点を言う。上瞼の中心とは、上瞼と眼球との境界の、横方向における中心である。また、下瞼の中心とは、下瞼と眼球との境界の、横方向における中心である。
目検出部120は、目の特徴点を検出するために、例えば特許文献3に記載された方法など、周知のいかなる方法を使用してもよい。例えば、目検出部120は、教師あり学習などの一般的な機械学習を用いてもよい。この構成では、目検出部120は、与えられた顔画像400を用いて、複数の人物の顔における瞳および目の輪郭線の特徴および位置を学習する。
目検出部120は、顔画像400から検出した目の特徴点の情報を、特徴量計算部130に出力する。
[特徴量計算部130]
特徴量計算部130は、目検出部120が検出した目の特徴点の情報に基づいて、顔画像400(図2参照)に含まれる目の形状に関する特徴を示す指標(以下では、この指標を、「目の形状に関する特徴量」あるいは単に「特徴量」と呼ぶ)を計算する。
(特徴量の例)
図3を参照して、目の形状に関する特徴量の具体例を説明する。図3は、図2に示す顔画像400の一部の拡大図である。図3に示す顔画像410は、図2に示す顔画像400において左側の目を含み、顔画像420は、図2に示す顔画像400において右側の目を含む。顔画像410、420において、点Iが内眼角であり、点Oが外眼角である。また、図3に示す顔画像410において、点Hが上瞼の中心であり、点Lが下瞼の中心である。そして、点Pが瞳の中心である。
例えば、特徴量計算部130は、顔画像410、420における目の高さを、目の形状に関する特徴量としてもよい。図3の顔画像410に示すように、目の高さyは、上瞼の中心Hと下瞼の中心Lとの間の距離である。上瞼の中心Hおよび下瞼の中心Lは、目検出部120によって検出されている。そこで、特徴量計算部130は、目検出部120から取得した目の特徴点(点H,Lを含む)の情報を用いて、目の高さyを計算することができる。目の高さyが高い(低い)目は、一般的に目が大きい(細い)といわれるような特徴を備えている。
左右の目の大きさは、通常、微妙に異なる。そこで、特徴量計算部130は、左右の目の高さの平均値を特徴量としてもよいし、左右の目の高さの両方を特徴量としてもよい。
あるいは、他の例では、特徴量計算部130は、顔画像410における目の幅xを、目の形状に関する特徴量としてもよい。図3の顔画像410に示すように、目の幅xは、目の内眼角I(目頭)と外眼角O(目尻)との間の距離である。目の内眼角Iおよび外眼角Oは、目検出部120によって検出されている。そこで、特徴量計算部130は、目検出部120から取得した目の特徴点(点I、Oを含む)の情報を用いて、目の幅xを計算することができる。なお、特徴量計算部130は、左右の目の幅の平均値を特徴量としてもよいし、左右の目の幅の両方を特徴量としてもよい。
あるいはまた、他の例では、特徴量計算部130は、図3の顔画像420に示す目の傾きθを、目の形状に関する特徴量としてもよい。この場合、特徴量計算部130は、まず、左右の瞳の中心Pを通る第1の線分と、内眼角I(目頭)と外眼角O(目尻)とを通る第2の線分とを計算する。そして、特徴量計算部130は、第1の線分に対する第2の線分の傾きθを計算する。なお、特徴量計算部130は、左右の目の傾きの平均値を特徴量としてもよいし、左右の目の傾きの両方を特徴量としてもよい。
あるいはまた、特徴量計算部130は、目検出部120が検出した目の輪郭線(すなわち、上下の瞼と眼球との境界)そのものを、特徴量としてもよい。
あるいはまた、特徴量計算部130は、上述した複数の特徴量を計算してもよい。例えば、特徴量計算部130は、目の高さおよび目の幅の両方を、目の形状に関する特徴量としてもよい。しかしながら、目の形状に関する特徴量は、上述した例に限定されない。特徴量計算部130は、目の形状に関する他の要素を、特徴量の一つとして計算してもよい。
[正規化部140]
正規化部140は、画像取得部110から、顔画像400(図2参照)を取得する。そして、正規化部140は、特徴量計算部130から取得した特徴量の情報を用いて、顔画像400に対する正規化処理を実行することによって、目領域画像(正規化された顔画像)を生成する。
正規化部140は、まず、顔画像400上において、目領域画像の大きさを規定する4つの基準座標を決定する。
正規化部140は、顔画像400上における左右の瞳の中心Pの間の距離w(以下、「目間距離」と呼ぶ)を計算する。目検出部120によって、左右の瞳の中心Pが検出されているので、特徴量計算部130は、目検出部120から取得した目の特徴点(点Pを含む)の情報を用いて、距離wを計算することができる。
正規化部140は、例えば、以下の式(1)にしたがって、目領域画像の幅X0および高さY0を計算する。
X0=Y0=w×k ・・・・ (1)
式(1)によれば、目領域画像の幅X0および高さY0は、左右の瞳の中心Pの間の距離wに比例する。kは所定の定数である。kは、例えば0.75であってよい。
正規化部140は、瞳の中心Pから、直交座標系上で(±X0/2,±Y0/2)だけ離れた4つの点を、目領域画像の基準座標A〜Dとして設定する。
(正規化処理)
図4の(a)および(b)を参照して、正規化部140による目領域画像の生成について説明する。図4の(a)は、正規化部140が目検出部120から取得する顔画像434〜436を示す。図4の(b)は、顔画像434〜436が正規化されることによって生成される目領域画像437〜439を示す。なお、図4の(a)および(b)では、目以外の顔のパーツ(眉など)の図示を省略している。
図4の(a)に示す顔画像434〜436は、それぞれ異なる人物の顔を含んでいる。顔画像434〜436に含まれる目の大きさは、互いに異なる。具体的には、顔画像435に含まれる目は大きく、顔画像436に含まれる目は小さい。また、顔画像434に含まれる目は、顔画像435よりも小さいが、顔画像436よりも大きい。
正規化部140は、まず、顔画像434〜436に含まれる目の形状に係わる特徴量に基づいて、顔画像434〜436の大きさを規定する基準座標A´〜D´を決定する。
次に、正規化部140は、目の形状に関する特徴量(本実施形態では目の大きさ)が平準化されるように、顔画像434〜436に対する正規化処理を行う。これにより、図4の(a)に示す顔画像434〜436から、図4の(b)に示す目領域画像437〜439が生成される。正規化処理は、例えば、顔画像434〜436に対するアフィン変換(affine transformation)を含む。正規化部140が実行する正規化処理の具体例を後述する。
図4の(b)に示す目領域画像437〜439の高さY0と、図4の(a)に示す顔画像434〜436の高さYとの比をJ1とおく。また、図4の(b)に示す目領域画像437〜439の幅X0と、図4の(a)に示す顔画像434〜436の幅Xとの比をJ2とおく。このとき、Y0とYとの関係は、以下の式(2)によって表される。また、X0とXとの関係は、以下の式(3)によって表される。
Y=J1×Y0 ・・・・ (2)
X=J2×X0 ・・・・ (3)
ここで、図4の(b)に示す目領域画像437〜439の画素サイズは、図4の(a)に示す顔画像434〜436の画素サイズと一致してもよい。しかしながら、これらは一致している必要はない。例えば、元の顔画像434〜436が640×480画素で構成されている一方、目領域画像437〜439は50×50画素で構成されていてもよい。
なお、目領域画像437〜439の画素の位置を示す座標が整数ではない場合、つまり、顔画像434〜436における画素と画素との間の位置を示す座標と対応している場合、正規化部140は、バイリニア法(bilinear method)(線形補間法)またはバイキュービック法(bicubic method)などの周知の任意の方法を用いて、目領域画像437〜439の画素値を計算することができる。
(正規化の具体例)
<例1:特徴量が目の高さである場合>
一例では、正規化部140は、目の位置および高さが一定になるように、顔画像を正規化する。
この例では、上述した式(2)のJ1は、顔画像434〜436における目の高さyに依存する。具体的に、J1は、以下の式(4)で表される。
J1=j0×y÷w ・・・・ (4)
式(4)のj0は、目領域画像437〜439における目の高さy0と目領域画像の高さY0との比であり、一定値である。j0は、例えば5.0であってよい。式(4)のwは、前述した目間距離(図3参照)である。
したがって、式(1)、式(2)、および式(4)にしたがって、顔画像434〜436の高さYは、以下の式(5)のように表される。
Y=k×j0×y ・・・・ (5)
式(5)に基づいて、正規化部140は、顔画像434〜436の高さYを決定する。また、本例では、J2=1である。すなわち、Xは、以下の式(6)で表される。
X=w×k ・・・・ (6)
正規化部140は、瞳の中心Pを中心とし、高さY、幅Xを有する顔画像434〜436の4つの基準座標A´〜D´を決定する。
さらに、正規化部140は、左右の瞳の中心Pを結ぶ線分が水平になるように、目領域画像437〜439を回転させても良い。具体的には、左右の瞳の中心Pを結ぶ線分の傾きがθ(図3の顔画像420参照)であるとすれば、正規化部140は、目領域画像437〜439を、目の瞳の中心Pを回転中心として、θだけ回転させる。
<例2:特徴量が目の幅である場合>
他の例では、正規化部140は、目の幅が一定になるように、顔画像を正規化する。
正規化部140は、まず、特徴量が目の高さである場合と同様に、目領域画像の大きさを規定するパラメータの組(X0,Y0)を決定する。
顔画像の幅をXとする。本例では、顔画像の幅Xは、目間距離w(図3参照)に比例するように決定される。目領域画像の幅X0と、目領域画像における目の幅x0との比を、j1とおく。顔画像434〜436の幅Xは、以下の式(7)によって表される。
X=k×j1×x ・・・・ (7)
式(7)のj1は、目領域画像437〜439における目の幅x0と目領域画像の幅X0との比であり、一定値である。j1は、例えば1.25であってよい。
この例では、上述した式(3)のJ2は、顔画像434〜436における目の幅xに依存する。具体的に、J2は、以下の式(8)で表される。
J2=j1×x÷w ・・・・ (8)
式(8)のj1は、目領域画像437〜439における目の幅x0と目領域画像の幅X0との比であり、一定値である。j1は、例えば1.25であってよい。式(8)のwは、前述した目間距離(図3参照)である。
式(7)に基づいて、正規化部140は、顔画像434〜436の幅Xを決定する。また、本例では、J1=1である。すなわち、Yは、以下の式(9)で表される。
Y=w×k ・・・・ (9)
正規化部140は、瞳の中心Pを中心とし、高さY、幅Xを有する顔画像434〜436の4つの基準座標A´〜D´を決定する。さらに、特徴量が目の高さである場合と同様に、正規化部140は、左右の瞳の中心Pを結ぶ線分が水平になるように、目領域画像を回転させてもよい。
<例3:特徴量が目の傾きである場合>
正規化部140は、目の傾きθ(図3参照)が一定になるように、顔画像を正規化する。
正規化部140は、まず、特徴量が目の高さである場合と同様に、目領域画像の大きさを規定する基準座標を計算する。次に、正規化部140は、顔画像において、左右の瞳の中心Pを結ぶ第1の線分と、目頭と外眼角とを結ぶ第2の線分とを計算する。
水平に対する第1の線分の傾き角度をφとし、第1の線分に対する第2の線分の傾き角度をθとする。正規化部140は、顔画像の座標系を、瞳の中心を回転中心として、角度−(θ+φ)だけ回転させることによって正規化する。これにより、目領域画像の間では、目の傾きが一定になる。
正規化部140が、例1〜3で説明したような画像処理を実行することによって、目領域画像における目の大きさ(x0、y0)または傾き(θ)は一定になる。したがって、視線推定部150は、目の大きさまたは傾きの変化と、視線との関係を視線推定器151に学習させる必要がなくなる。そのため、視線推定部150は、目領域画像を用いて、視線をより精度よく推定することができる。
[視線推定部150]
視線推定部150は、顔画像に含まれる顔の向きおよび目(瞳)の向きから、人物の視線を推定する。視線は、人物の目が見ている方向(より正確には向き)を示す。具体的には、視線推定部150は、正規化部140が正規化した目領域画像から視線を推定する。視線推定部150は、周知である任意の視線の推定方法を用いることができる。
本実施形態では、視線推定部150は、視線が予め特定されている顔画像(正解あり顔画像)を用いて、顔の見た目と視線との関係を視線推定器151に学習させる。視線推定部150は、学習した視線推定器151を用いて、視線を推定する。視線推定部150は、視線の推定結果のデータを、出力部160に出力する。
(教師あり学習)
視線推定器151は、以下の式(10)を用いて、視線がどちらの方向を向いているかを示す視線ベクトル(g,g)を算出する。式(10)において、通常、gは、−90≦g≦90[deg]を満たすように、また、gは、−90≦g≦90[deg]を満たすように、式(10)のu、uが学習される。
Figure 2019155570
式(10)に示すfは画像特徴量(スカラー)であり、(u、u)は重みベクトルである。式(10)に示す視線ベクトル(g,g)は、顔の正面に対する視線のずれの方向を表してもよい。この場合、視線が顔の正面を向いているならば、(g,g)=(0,0)である。視線が真上を向いているならば、(g,g)=(0,+90)である。視線が真下を向いているならば、(g,g)=(0,−90)である。また、視線が真横(右または左)を向いているならば、(g,g)=(±90,0)である。
なお、視線ベクトル(g,g)は、顔の正面に対する相対的な方向を表す。したがって、撮影された人物が目で見ている方向は、視線ベクトル(g,g)のみによっては特定されず、視線ベクトル(g,g)と人物の顔の向きとによって特定される。
視線推定器151は、顔の正面を基準とする代わりに、カメラの方向を基準としてもよい。この場合、目がカメラを真っすぐに見ているとき、すなわち視線とカメラの方向とが一致するとき、視線ベクトル(g,g)=(0,0)になる。視線ベクトル(g,g)は、カメラの方向からの視線のずれを水平角と仰俯角とによって表す。例えば、視線がカメラの方向に対して、上に30度を向いているとき、視線ベクトル(g,g)=(0,+30)である。視線がカメラの方向に対して、横(右または左)に30度を向いているとき、視線ベクトル(g,g)=(±30,0)である。
画像特徴量fは、目領域における輝度の変化の方向と大きさとを、所定の次元数(例えば、数百〜数千)で示す。一例では、画像特徴量fは、画像の輝度の勾配に関する。輝度の勾配に関する画像特徴量fとしては、例えば、HOG(Histograms of Oriented Gradients)が知られている。この画像特徴量fは、所定の要素数の列ベクトルによっても表現される。
重みベクトルu、uは、それぞれ、画像特徴量fと同じ要素数の行ベクトルである。したがって、視線推定器151は、画像特徴量fと重みベクトルu、uとの内積を算出することができる。重みベクトルu、uは、サポートベクトル回帰(Support Vector Regression, SVR)や最小二乗法による線形回帰などの周知の手法によって、学習することができる。
[出力部160]
出力部160は、視線推定部150により推定された視線を示すデータ(以下「視線データ」ともいう。)を出力する。視線データは、視線推定部150により決定された視線が示す方向を、所定の規則に従って表す。出力部160による出力は、例えば、視線データを表示装置等の他の装置に供給することであってもよいし、視線推定装置100に含まれる記録媒体に視線データを書き込むことであってもよい。
視線推定装置100の構成は以上のとおりである。このような構成を備えた視線推定装置100は、例えば、以下で説明するように動作する。ただし、視線推定装置100の具体的な動作は、ここで説明する動作例に限定されない。
[視線の推定方法(視線推定装置100の動作例)]
図5は、本実施形態に係る視線推定装置100が実行する視線の推定方法を示すフローチャートである。視線推定装置100は、図5に示す各ステップの処理を、フローにしたがって順番に実行することにより、顔画像から視線を推定する。
視線推定装置100は、例えば、ユーザによって指定されたタイミングや、他の装置から入力画像が送信されたタイミングなどの適当なタイミングで、図5に示される処理を開始することができる。この例において、視線推定装置100に入力される画像データは、人物の顔を含む。画像上の座標は、所定の位置(例えば、画像の中心)を原点とする直交座標系によって表される。
図5に示すステップS11において、画像取得部110は、入力画像を取得する。画像取得部110は、取得した入力画像から、1つまたは複数の顔画像を生成する。各顔画像は、一人の人物の顔を含む。
ステップS12において、目検出部120は、ステップS11において生成された顔画像に含まれる目を検出し、検出した目の特徴点を検出する。具体的には、目検出部120は、目の虹彩の中心と、目頭と、目尻と、上瞼の中心と、下瞼の中心とを検出する。
ステップS13において、特徴量計算部130は、ステップS12において計算された目の形状のデータを用いて、目の形状に関する特徴量を計算する。例えば、特徴量計算部130は、前述したように、目の形状に関する特徴量として、目の高さ、目の幅、または目の傾きを計算する。
ステップS14において、正規化部140は、ステップS11で生成された顔画像から、目領域画像を抽出する。そして、正規化部140は、ステップS13において計算された特徴量を用いて、目領域画像を正規化する。
ステップS15において、視線推定部150は、事前に機械学習を行った視線推定器151を用いて、人物の視線を推定する。
ステップS16において、出力部160は、視線推定部150により算出された視線(g,g)を示す視線データを出力する。視線データは、例えば、表示装置(図示せず)に出力されることによって可視化される。視線データは、数値で表示されてもよいし、顔画像上において、視線を示す矢印で表示されてもよい。
[変形例]
本実施形態1に対して、例えば、以下のような変形例を適用することができる。ここで説明する変形例は、必要に応じて組み合わせることも可能である。
(変形例1)
視線推定部150は、周知の顔向き推定技術を用いることによって、顔の方向を推定してもよい。視線推定部150は、このように推定された顔の方向を基準として用いても良い。
(変形例2)
右目および左目の中心などの特徴点や目領域画像を、ユーザが入力してもよい。この場合、視線推定装置100は、特徴点を検出する必要がなく、また目領域画像を生成する必要がない。
(変形例3)
目領域画像の形状は、必ずしも矩形に限定されない。例えば、目領域画像では、顔の一部、すなわち視線の推定に直接的に影響しない部分(例えば眉または鼻を含む)が、除外されていてもよい。また、目領域画像は、必ずしも片目(左目または右目)のみを含んでいなくてもよい。目領域画像は両目を含んでいてもよい。
(変形例4)
視線推定器151による視線の学習方法は、上述した機械学習に限定されない。例えば、視線推定器151は、ランダムフォレスト(random forest)等の集団学習アルゴリズムにより、視線を推定するための非線形関数を学習してもよい。
(変形例5)
視線推定装置100により推定された視線の用途は特に限定されない。例えば、視線推定装置100は、店舗に設置された監視カメラによって撮像された人物の視線を推定し、推定した視線から不審人物を判定するシステムに適用されてもよい。
あるいは、視線推定装置100は、情報が表示された画面に対するユーザの視線を推定して、視線の推定結果に基づいて、ユーザの興味・関心を推測するシステムに適用されてもよい。そのほかにも、視線推定装置100は、視線の動きによって操作可能な電子機器に適用されてもよいし、自動車等の運転支援に適用されてもよい。
(変形例6)
視線推定装置100の具体的なハードウェア構成には、さまざまなバリエーションが含まれてよく、特定の構成に限定されない。例えば、本開示に係わる装置は、ソフトウェアを用いて実現されてもよく、複数のハードウェアを用いて各種処理を分担するように構成されてもよい。なお、本変形例の構成に関して、実施形態2で詳細に説明する。
[本実施形態の効果]
本実施形態に係わる視線推定装置100は、人物の目の形状に関する特徴量が一定になるように正規化した目領域画像を生成し、正規化した目領域画像に基づいて、人物の視線を推定する。このようにして目の形状に関する特徴量を正規化した目領域画像を、機械学習のための正解あり画像として用いることで、頑健(ロバスト)な推定結果を安定して得ることができる。
最小二乗法による線形回帰などの線形学習器は、非線形学習器と比べ、表現能力が相対的に低いので、目の形状に関する特徴量の差異が、視線の推定の精度に影響を与えやすい。本実施形態の構成を適用した場合、線形学習器による視線の推定性能が飛躍的に改善する。本実施形態の構成によれば、目の形状に関する特徴量の差異によらず、視線を高精度に推定することができるためである。
[実施形態2]
図6は、本実施形態2に係わる視線推定装置300を実現するコンピュータのハードウェア構成の一例を示すブロック図である。視線推定装置300は、CPU(Central Processing Unit)301と、ROM(Read Only Memory)302と、RAM(Random Access Memory)303と、記憶装置304と、ドライブ装置305と、通信インタフェース306と、入出力インタフェース307とを含んで構成される。本実施形態2に係わる視線推定装置300は、図6に示されるハードウェア構成(又はその一部)によって実現され得る。
CPU301は、RAM303に読み込んだプログラム308を実行する。プログラム308は、ROM302に記憶されていてもよい。また、プログラム308は、メモリカード等の記録媒体309に記録され、ドライブ装置305によって読み出されてもよいし、外部装置から、ネットワーク310を介して、視線推定装置300へと送信されてもよい。通信インタフェース306は、ネットワーク310を介して外部装置とデータをやり取りする。入出力インタフェース307は、周辺機器(入力装置、表示装置など)とデータをやり取りする。通信インタフェース306および入出力インタフェース307は、データを取得または出力するための構成要素として機能することができる。
あるいは、本実施形態に係わる視線推定装置300の構成要素は、単一の回路(circuitry)(プロセッサ等)によって構成されてもよいし、複数の回路の組み合わせによって構成されてもよい。ここでいう回路は、専用又は汎用のいずれであってもよい。例えば、本開示に係る視線推定装置は、一部が専用のプロセッサによって実現され、他の部分が汎用のプロセッサによって実現されてもよい。
本実施形態において、視線推定装置300は単体のコンピュータによって実現されている必要はない。視線推定装置300の構成要素は、複数のコンピュータに分散して設けられてもよい。例えば、本実施形態に係わる視線推定装置300は、クラウドコンピューティング技術を用いて、複数のコンピュータ装置の協働によって実現されてもよい。
以上、本発明は、上述された実施形態及び変形例を模範的な例として説明した。しかしながら、本発明は、これらの実施形態及び変形例に限定されない。本発明は、本発明のスコープ内において、当業者が把握し得るさまざまな変形又は応用を適用した実施の形態を含み得る。また、本発明は、本明細書に記載された事項を必要に応じて適宜に組み合わせ、又は置換した実施の形態を含み得る。例えば、特定の実施形態を用いて説明された事項は、矛盾を生じない範囲において、他の実施形態に対しても適用し得る。
100 視線推定装置
300 視線推定装置
110 画像取得部
120 目検出部
130 特徴量計算部
140 正規化部
150 視線推定部
160 出力部

Claims (6)

  1. 人物の顔を含む画像を取得する画像取得手段と、
    前記画像から人物の目を検出する目検出手段と、
    前記検出された目の形状に関する特徴量を計算する特徴量計算手段と、
    前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも1つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換する画像変換手段と、
    前記変換された部分画像を用いて、前記人物の視線を推定する視線推定手段と、
    前記推定された視線の情報を出力する出力手段と、
    を備えたことを特徴とする視線推定装置。
  2. 前記目検出手段は、前記人物の目の中心、および目の輪郭線上の特徴点を検出することを特徴とする、請求項1に記載の視線推定装置。
  3. 前記特徴量計算手段は、前記検出された目の高さ、目の幅、および目の傾きのうちの少なくとも1つを、前記特徴量として計算することを特徴とする、請求項1または2に記載の視線推定装置。
  4. 前記特徴量計算手段は、個人の目ごとに、前記特徴量を計算することを特徴とする、請求項1〜3のいずれか1項に記載の視線推定装置。
  5. 人物の顔を含む画像を取得することと、
    前記画像から人物の目を検出することと、
    前記検出された目の形状に関する特徴量を計算することと、
    前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも1つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、
    前記変換された部分画像を用いて、前記人物の視線を推定することと、
    前記推定された視線の情報を出力することと、を含む
    ことを特徴とする視線推定方法。
  6. 人物の顔を含む画像を取得することと、
    前記画像から人物の目を検出することと、
    前記検出された目の形状に関する特徴量を計算することと、
    前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも1つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、
    前記変換された部分画像を用いて、前記人物の視線を推定することと、
    前記推定された視線の情報を出力することと、
    をコンピュータ装置に実行させるためのプログラムを記録した、
    一時的でない記録媒体。
JP2019570215A 2018-02-08 2018-02-08 視線推定装置、視線推定方法、およびプログラム Active JP7040539B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022033164A JP7255721B2 (ja) 2018-02-08 2022-03-04 視線推定装置、視線推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/004370 WO2019155570A1 (ja) 2018-02-08 2018-02-08 視線推定装置、視線推定方法、および記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022033164A Division JP7255721B2 (ja) 2018-02-08 2022-03-04 視線推定装置、視線推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019155570A1 true JPWO2019155570A1 (ja) 2021-01-14
JP7040539B2 JP7040539B2 (ja) 2022-03-23

Family

ID=67549300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019570215A Active JP7040539B2 (ja) 2018-02-08 2018-02-08 視線推定装置、視線推定方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7040539B2 (ja)
WO (1) WO2019155570A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7164231B1 (ja) * 2021-06-01 2022-11-01 株式会社プロモデルスタジオ キャスティング装置、方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037934A (ja) * 2010-08-03 2012-02-23 Canon Inc 視線検出装置、視線検出方法及びプログラム
JP2012038106A (ja) * 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
US20160247272A1 (en) * 2015-02-25 2016-08-25 Canon Kabushiki Kaisha Apparatus and method for estimating gazed position of person

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037934A (ja) * 2010-08-03 2012-02-23 Canon Inc 視線検出装置、視線検出方法及びプログラム
JP2012038106A (ja) * 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
US20160247272A1 (en) * 2015-02-25 2016-08-25 Canon Kabushiki Kaisha Apparatus and method for estimating gazed position of person

Also Published As

Publication number Publication date
JP7040539B2 (ja) 2022-03-23
WO2019155570A1 (ja) 2019-08-15

Similar Documents

Publication Publication Date Title
US11232585B2 (en) Line-of-sight estimation device, line-of-sight estimation method, and program recording medium
US11915518B2 (en) Facial authentication device, facial authentication method, and program recording medium
JP2008194146A (ja) 視線検出装置及びその方法
JP6410450B2 (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
US20230360433A1 (en) Estimation device, estimation method, and storage medium
CN112232128B (zh) 基于视线追踪的老年残障人士照护需求识别方法
US20210174062A1 (en) Image processing device, image processing method, and recording medium
JP7040539B2 (ja) 視線推定装置、視線推定方法、およびプログラム
JP7255721B2 (ja) 視線推定装置、視線推定方法、およびプログラム
Xia et al. SDM-based means of gradient for eye center localization
US20220309704A1 (en) Image processing apparatus, image processing method and recording medium
JP7103443B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2021064043A (ja) 画像処理装置、画像処理システム、画像処理方法及び画像処理プログラム
US11503998B1 (en) Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases
TWI662946B (zh) 瞳距運算裝置及方法
CN114761999A (zh) 图像处理方法、图像处理装置以及图像处理程序
JP2020086626A (ja) 学習装置、学習方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211022

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R151 Written notification of patent or utility model registration

Ref document number: 7040539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151