WO2020158812A1 - 画像処理装置 - Google Patents

画像処理装置 Download PDF

Info

Publication number
WO2020158812A1
WO2020158812A1 PCT/JP2020/003202 JP2020003202W WO2020158812A1 WO 2020158812 A1 WO2020158812 A1 WO 2020158812A1 JP 2020003202 W JP2020003202 W JP 2020003202W WO 2020158812 A1 WO2020158812 A1 WO 2020158812A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
opening
acquisition unit
image processing
data acquisition
Prior art date
Application number
PCT/JP2020/003202
Other languages
English (en)
French (fr)
Inventor
健太 西行
智浩 籔内
成典 長江
家堯 蕭
Original Assignee
オムロン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オムロン株式会社 filed Critical オムロン株式会社
Publication of WO2020158812A1 publication Critical patent/WO2020158812A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/06Alarms for ensuring the safety of persons indicating a condition of sleep, e.g. anti-dozing alarms
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems

Definitions

  • This image processing method includes a step of calculating opening/closing data relating to opening/closing of eyes at a predetermined time from a plurality of images which are generated by photographing and include a face of a subject and which are arranged in time series, and at least one of which is arranged in time series. Outputting a drowsiness level from input information including at least the time-series opening/closing data by a learned data acquisition unit including a time domain convolutional layer.
  • each neuron is connected to all the neurons in the adjacent layers, but the connection of the neurons is not limited to such an example, and is set appropriately according to the embodiment. You can
  • the eye shape data 15 that is, the eye center position, the pupil center position, and the eye width. And the height and the opening degree of the eyes are calculated.
  • the eye shape data 15 is input to the third processing unit 16, and the above-described eye opening/closing data 17, that is, PERCLOS, blink frequency, AECT, SoftPERCLOS is calculated.
  • the calculated opening/closing data 17 is calculated every predetermined time. In particular, in the present embodiment, the opening/closing data at a plurality of different times is calculated.
  • the first learning data acquisition unit 401 acquires the first learning data 423 for the first learning. That is, a plurality of sets of the eye image for learning that is input to the second processing unit 13 and the eye position data corresponding to each eye image are acquired.
  • the second learning data acquisition unit 404 acquires the second learning data 426 for the second learning. That is, a plurality of sets of the above-mentioned input data for learning which is the input of the second data acquisition unit 2 and the drowsiness level corresponding to each input data are acquired.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

この画像処理装置は、撮影によって生成され、対象者の顔を含み、時系列に並ぶ複数の画像から、所定時間における目の開閉に係る開閉データを時系列に算出する第1データ取得部と、前記第1データ取得部で算出された時系列の前記開閉データを含む入力情報から、眠気のレベルを出力する学習を行った学習済みの第2データ取得部であって、少なくとも1つのタイムドメイン畳み込み層を含む第2データ取得部と、を備えている。

Description

画像処理装置
 本発明は、画像処理装置、これを備えた監視システム、画像処理方法、及び画像処理プログラムに関する。
 従来より、自動車の運転者の居眠りを監視するための種々の技術が提案されている。例えば、特許文献1には、カメラによって運転者の顔を撮影し、運転者の目の開眼時間を取得している。そして、取得した開眼時間のパラツキが大きければ、運転者の覚醒度が高いと判定し、開眼時間のパラツキが小さければ、運転者の覚醒度が低いと判定している。すなわち、この技術では、開眼時間の閾値を設定し、この閾値に基づいて、覚醒度を判定している。
特開2010-184067号公報
 しかしながら、眠気レベルは経時的に変化するものであるため、眠気レベルの判定は容易ではなく、より精度の高い判定が要望されていた。また、このような問題は、自動車の運転に限られず、例えば、工場での作業者の居眠りの判定においても起こりうる問題である。本発明は、この問題を解決するためになされたものであり、対象者の眠気レベルをより正確に判断することができる、画像処理装置、これを用いた監視システム、画像処理方法、及び画像処理プログラムを提供することを目的とする。
 この画像処理装置は、撮影によって生成され、対象者の顔を含み、時系列に並ぶ画像から、所定時間における目の開閉に係る開閉データを時系列に算出する第1データ取得部と、前記第1データ取得部で算出された時系列の前記開閉データが少なくとも含まれた入力情報から、眠気のレベルを出力する学習を行った学習済みの第2データ取得部であって、少なくとも1つのタイムドメイン畳み込み層を含む第2データ取得部と、を備えている。
 上記画像処理装置において、前記第2データ取得部は、複数のメインブロックと、複数のサブブロックと、グローバルプーリング層と、全結合層と、を結合することで構成されており、前記各メインブロック及び各サブブロックには、少なくとも前記タイムドメイン畳み込み層が含まれており、前記各メインブロックのタイムドメイン畳み込み層のカーネルサイズは、2以上であり、前記各サブブロックのタイムドメイン畳み込み層のカーネルサイズは、1であり、前記複数のメインブロックは直列的に結合され、前記複数のメインブロックの少なくとも1つには、前記サブブロックが結合されており、前記サブブロック及び最も出力側のメインブロックのうち、少なくとも前記サブブロックの出力が前記グローバルプーリング層に入力され、前記グローバルプーリング層の出力が、前記全結合層に入力されているものとすることができる。
 上記画像処理装置においては、全ての前記メインブロックに前記サブブロックが結合されており、前記各サブブロックの出力が前記グローバルプーリング層に入力されているものとすることができる。
 上記画像処理装置において、前記複数のメインブロックの少なくとも1つは、プーリング層を有することができる。
 上記画像処理装置において、前記第1データ取得部は、異なる前記所定時間における複数種の前記開閉データを出力し、前記第2データ取得部は、前記複数種の前記開閉データを入力とすることができる。
 上記画像処理装置において、前記第1データ取得部は、前記動画から、目の形状に係る形状データを出力する形状データ取得部と、所定時間内の複数の前記形状データから、前記開閉データを算出する開閉データ取得部と、を備えることができる。
 上記画像処理装置において、前記第2データ取得部は、前記開閉データ及びこれに対応する前記形状データを入力とすることができる。
 上記画像処理装置において、前記開閉データの1つは、前記所定時間における前記動画の全フレーム数に対する、前記目が閉じていたフレーム数の割合とすることができる。
 上記画像処理装置において、前記開閉データの1つは、前記所定時間における前記動画の全フレーム数に対する、前記目が完全に開いていないフレーム数の割合とすることができる。
 この監視システムは、自動車に設置される監視システムであって、カメラと、前記カメラによって撮影された動画が入力される、上述したいずれかの画像処理装置と、前記画像処理装置において算出された眠気レベルが所定値以上である場合に、居眠りに対する警告を発する報知部と、を備えている。
 この画像処理方法は、撮影によって生成され、対象者の顔を含み、時系列に並ぶ複数の画像から、所定時間における目の開閉に係る開閉データを算出するステップと、時系列に並ぶ少なくとも1つのタイムドメイン畳み込み層を含む学習済みのデータ取得部によって、前記時系列の開閉データを少なくとも含む入力情報から、眠気のレベルを出力するステップと、を備えている。
 この画像処理プログラムは、コンピュータに、撮影によって生成され、対象者の顔を含み、時系列に並ぶ複数の画像から、所定時間における目の開閉に係る開閉データを算出するステップと、時系列に並ぶ少なくとも1つのタイムドメイン畳み込み層を含む学習済みのデータ取得部によって、前記時系列の開閉データを少なくとも含む入力情報から、眠気のレベルを出力するステップと、を実行させる。
 本発明によれば、対象者の眠気レベルをより正確に判断することができる。
本発明の一実施形態に係る運転監視システムの概要を示す図である。 図1の画像処理装置のハードウェア構成の一例を示すブロック図である。 図1の学習装置のハードウェア構成の一例を示すブロック図である。 図1の画像処理装置のソフトウェア構成の一例を示すブロック図である。 図4の第2データ取得部のソフトウェア構成の一例を示すブロック図である。 図5の第2データ取得部におけるタイムドメイン畳み込み層の処理を説明する図である。 図5の第2データ取得部におけるタイムドメイン畳み込み層の処理を説明する図である。 図1の学習装置のソフトウェア構成の一例を示すブロック図である。 図1の運転監視システムの動作を示すフローチャートである。
 以下、本発明に係る運転監視システム、画像処理装置、画像処理方法、及び画像処理プログラムの一実施形態について、図面を参照しつつ説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。
 <1.適用例>
 まず、図1を参照しつつ、本実施形態に係る運転監視システムについて説明する。この運転監視ステムは、自動車に設けられるものであり、自動車100に設けられたカメラ101と、このカメラ101によって撮影された運転者の顔の動画を取得し、得られた動画から運転者の眠気レベルを算出する画像処理装置10と、居眠り運転の警告を行う報知器106と、を備えている。なお、ここでいう動画とは、運転者が含まれる時系列に並ぶ複数の画像を意味するが、画像とは、カメラで撮影されたフレーム画像などの各種静止画、あるいは圧縮された画像を意味する。
 画像処理装置10は、第1データ取得部1と、第2データ取得部2とを有している。そして、第1データ取得部には、第1~第3処理部11,13,16が設けられている。第1データ取得部1では、得られた動画の各フレームから、第1処理部11によって、運転者の目の画像12を抽出し、この目の画像12から第2処理部(形状データ取得部)13によって、目の形状に関する位置データ14を算出する。第1処理部11は、公知の画像認識技術により、顔の画像から目を検出し、目を含む画像12を抽出する。また、第2処理部13は、ニューラルネットワークなどの機械学習器によって構成される。この学習器のよって生成される位置データ14は、例えば、目の輪郭上にある複数の点141の二次元座標、瞳の二次元座標等とすることができる。そして、この位置データ14から、目の形状に関する形状データ15を算出することができる。形状データ15は、例えば、目の中心の位置、瞳の中心の位置、目の幅と高さ、目の開度などとすることができるが、これは一例であり、目の形状に係る他のデータを算出することもできる。なお、目の開度とは、例えば、目が完全に開いている状態を1,目が完全に閉じている状態を0としたときの目が開いている度合いを0~1の数字で表したものである。このように、第2処理部13では、動画の各フレームにおける運転者の目の静的なデータ、つまり形状データ15が取得される。また、第2処理部13は、目の画像12が入力されたときに、それに対応する位置データ14が出力されるように、学習装置4によって学習されている。
 続いて、第3処理部(開閉データ取得部)16では、複数のフレームを用い、上記のように得られた目の形状データ15から、所定時間における目の動的なデータ、つまり目の開閉データ17を算出する。ここでは、以下の4つの開閉データ17を算出する。
・PERCLOS(Percentage of eyelid closure):所定時間における全フレーム数に対する、目が閉じているフレーム数の割合・瞬き頻度:所定時間における全フレーム数に対する、目が開いた状態から目が閉じた状態に遷移している回数の割合
・AECT(Average eye closed time):所定時間における瞬きの合計に対する、目が閉じているフレーム数の割合
・Soft PERCLOS(Soft Percentage of eyelid closure):所定時間における全フレーム数に対する、目が完全に開いていないフレーム数の割合
 但し、上記開閉データ17は、一例であり、目の開閉に係る経時的な変化、度合いなどを表せるものであれば、特には限定されない。また、上記全ての開閉データ17を用いなくてもよく、一部を用いてもよい。
 このように、第1データ取得部1では、運転者の顔を撮影した動画から、所定時間における、運転者の目の動的な開閉データ17を算出する。
 第2データ取得部2は、タイムドメイン畳み込み層を有するニューラルネットワークなどの機械学習器によって構成される。すなわち、時間の経過を考慮した機械学習器によって構成されている。この第2データ取得部2では、第1データ取得部1で算出された形状データ15と開閉データ17の両方を入力とし、眠気レベルを出力とする。眠気レベルは、種々の指標で示すことができるが、例えば、眠気のレベルを0~4の5段階で表すことができる。具体的には、眠気がない:0、少し眠い:1、眠い:2、かなり眠い:3、極度に眠い:4とすることができる。なお、第2データ取得部2は、形状データ15及び開閉データ17を入力としたとき、それに対応する眠気レベルを出力するように、学習装置4によって学習されている。
 以上のように、本実施形態においては、まず、第1データ取得部1において、動画から、目の開閉の経時的な変化を表す開閉データ17を算出し、この開閉データ17から、経時的な機械学習がなされた第2データ取得部2によって眠気レベルを算出する。したがって、入力データ及び学習器の何れも時間の経過を考慮したものを用いる。したがって、眠気レベルを正確に算出することができる。
 <2.構成例>
 <2-1.ハードウェア構成>
 <2-1-1.画像処理装置>
 次に、本実施形態に係る画像処理装置10のハードウェア構成の一例について説明する。図2は、画像処理装置のハードウェア構成の一例を示すブロック図である。
 この画像処理装置10は、制御部31、記憶部32、通信インタフェース33、及び外部インタフェース34が電気的に接続されたコンピュータである。なお、図2では、通信インタフェース33及び外部インタフェース34を「通信I/F」及び「外部I/F」と記載している。この点は、後述する学習装置においても同様である。
 制御部31は、CPU、RAM、ROM等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部32は、例えば、RAM、ROM等で構成され、画像処理プログラム321、学習結果データ322等を記憶する。画像処理プログラム321は、後述するように、カメラ101で撮影された動画から運転者の眠気レベルを算出するための処理を実行させるためのプログラムであり、学習装置4で生成された学習結果データ322に基づいて制御処理を行う。制御部31は、この画像処理プログラム321を解釈及び実行することで、後述する各ステップの処理を実行するように構成される。
 通信インタフェース33は、例えば、有線LAN(Local Area Network)モジュール、無線LANモジュール等であり、有線又は無線通信を行うためのインタフェースである。すなわち、通信インタフェース33は、他の装置と通信を行うように構成された通信部の一例である。本実施形態では、ネットワーク10を介して、上述した学習装置4に接続されている。
 外部インタフェース34は、外部装置と接続するためのインタフェースであり、接続する外部装置に応じて適宜構成される。本実施形態では、外部インタフェース34が、カメラ101、入力装置105、及び出力装置106に接続されている。入力装置105は、例えば、キーボード、タッチパネル等で構成され、出力装置106は、ディスプレイ等の表示装置や、スピーカ、警報器などの音声の出力装置により構成される。
 なお、画像処理装置10の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。制御部31は、複数のプロセッサを含んでもよい。また、制御部31は、FPGAにより構成されてもよい。記憶部32は、制御部31に含まれるRAM及びROMにより構成されてもよい。また、記憶部32は、ハードディスクドライブ、ソリッドステートドライブ等の補助記憶装置で構成されてもよい。画像処理装置10は、提供されるサービス専用に設計された情報処理装置の他、制御する対象に応じて、汎用のデスクトップPC、タブレットPC等であってもよい。以上の点は、後述する学習装置4においても同じである。
 <2-1-2.カメラ>
 図1に示すように、カメラ101は、自動車100の運転席に座る運転者を撮影するようになっている。なお、カメラ101は、所定の場所に固定されてもよいし、モータ等により撮影方向(向き)を変更可能に構成されてもよい。カメラ101には、一般のデジタルカメラ、ビデオカメラ、360度カメラ等が用いられてよいし、可視光撮影用でも赤外光撮影用カメラであってもよい。
 <2-1-3.学習装置>
 図3は、本実施形態に係る学習装置を示すブロック図である。図4に示すように、本実施形態に係る学習装置4は、画像処理装置10の制御部31を学習するためのものであり、制御部41、記憶部42、外部インタフェース43、通信インタフェース44、及びドライブ47が電気的に接続されたコンピュータである。
 制御部41は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を含み、情報処理に応じて各構成要素の制御を行う。記憶部42は、例えば、ハードディスクドライブ、ソリッドステートドライブ等の補助記憶装置であり、制御部41で実行される第1学習プログラム421、第1学習結果データ422、第1学習データ423、第2学習プログラム424、第2学習結果データ425、第2学習データ426等を記憶する。
 第1学習プログラム421は、学習装置4に、ニューラルネットワーク等の機械学習による学習処理を実行させるためのプログラムであり、学習処理の結果として、第1学習結果データ422を生成する。この学習処理を第1学習と称することとする。この第1学習結果データ422は、画像処理装置10の第2処理部13の設定を行うためのデータである。また、第1学習データ423は、学習装置4が第1学習を行うためのデータである。
 第2学習プログラム424は、学習装置4に、ニューラルネットワーク等の機械学習による学習処理を実行させるためのプログラムであり、学習処理の結果として、第2学習結果データ425を生成する。この学習処理を第2学習と称することとする。この第2学習結果データ425は、画像処理装置10の第2データ取得部2の設定を行うためのデータである。また、第2学習データ426は、学習装置4が第2学習を行うためのデータである。
 外部インタフェース43及び通信インタフェース44は、画像処理装置10で示したものと同じである。外部インタフェース43には、入力装置45及び出力装置46が接続される。入力装置45は、例えば、マウス、キーボード等の入力を行うための装置であり、各学習データ423,426の入力等が行われる。出力装置46は、例えば、ディスプレイ、スピーカ等の出力を行うための装置であり、例えば、ディスプレイには、学習装置4の操作画面等が表示される。
 ドライブ47は、例えば、CD(Compact Disk)ドライブ、DVD(Digital Versatile Disk)ドライブ等であり、記憶媒体49に記憶されたプログラムを読み込むための装置である。ドライブ47の種類は、記憶媒体49の種類に応じて適宜選択されてよい。上記各学習プログラム421、424及び/又は学習結果データ422、425は、この記憶媒体49に記憶されていてもよい。
 記憶媒体49は、コンピュータその他装置、機械等が記録されたプログラム等の情報を読み取り可能なように、このプログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。画像処理装置10は、この記憶媒体49から、各学習プログラム421、424及び/又は学習結果データ422、425を取得してもよい。
 ここで、図3では、記憶媒体49の一例として、CD、DVD等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体49の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。
 <2-2.ソフトウェア構成>
 <2-2-1.画像処理装置>
 次に、図4を参照しつつ、画像処理装置10のソフトウェア構成について説明する。図4に示すように、画像処理装置10の制御部31は、記憶部32に記憶された画像処理プログラム321をRAMに展開すると、その画像処理プログラム321をCPUにより解釈及び実行して、第1データ取得部1、第2データ取得部2、及び入力部311を備えたコンピュータとして機能する。また、第1データ取得部1には、第1処理部11、第2処理部13、及び第3処理部16が含まれている。
 入力部311は、カメラで101撮影された動画データを逐次取得し、これを第1処理部11に入力する。また、入力部311は、学習装置4から第1学習結果データ422及び第2学習結果データ425を取得する。そして、第1学習結果データ422は、第2処理部13の設定のために用いられ、第2学習結果データ425は、第2データ取得部2の設定のために用いられる。
 第1処理部11では、公知の画像処理技術により、入力された動画データからフレーム毎に目の検出が行われ、各フレーム画像から目の画像12の抽出が行われる。そして、抽出された目の画像12は、フレーム毎に第2処理部13に入力される。
 第2処理部13では、入力された目の画像12から、これに対応する目の位置データ14が出力される。目の位置データ14は、目の輪郭に沿う複数の点141の座標、瞳の座標等が含まれる。このような位置データ14の出力を行う第2処理部13は、ニューラルネットワークで構成されている。具体的には、図4に示すような、いわゆる深層学習に用いられる多層構造のニューラルネットワークであり、入力から順に、入力層131、中間層(隠れ層)132、及び出力層133を備えている。
 このニューラルネットワークは1層の中間層132を備えており、入力層131の出力が中間層132の入力となり、中間層132の出力が出力層133の入力となっている。ただし、中間層132の数は1層に限られなくてもよく、ニューラルネットワークは、中間層132を2層以上備えてもよい。
 各層131~133は、1又は複数のニューロンを備えている。例えば、入力層131のニューロンの数は、入力される目の画像12の画素数等に応じて設定することができる。中間層132のニューロンの数は実施の形態に応じて適宜設定することができる。また、出力層133も、出力する目の位置データ14の数に応じて設定することができる。
 隣接する層のニューロン同士は適宜結合され、各結合には重み(結合荷重)が設定されている。図4の例では、各ニューロンは、隣接する層の全てのニューロンと結合されているが、ニューロンの結合は、このような例に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。
 各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。この第2処理部13では、このようなニューラルネットワークの入力層131に、上記目の画像12に係るデータを入力することで、出力層133からそれに対応する目の位置データ14を得る。
 なお、このようなニューラルネットワークの構成(例えば、ニューラルネットワークの層数、各層におけるニューロンの個数、ニューロン同士の結合関係、各ニューロンの伝達関数)、各ニューロン間の結合の重み、及び各ニューロンの閾値を示す情報は、第1学習結果データ422に含まれている。画像処理装置10は、第1学習結果データ422を参照して、学習済みの第2処理部13の設定を行う。
 こうして第2処理部13から出力された目の位置データ14に対しては演算処理が行われ、上述したように、目の形状データ15、つまり目の中心位置、瞳の中心位置、目の幅と高さ、及び目の開度が、算出される。そして、この目の形状データ15は、第3処理部16に入力され、上述した目の開閉データ17、つまりPERCLOS、まばたき頻度、AECT,Soft PERCLOSが算出される。ここで、算出される開閉データ17は、所定時間おきに算出される。特に、本実施形態では、複数の異なる時間の開閉データが算出される。一例として、5秒毎の開閉データ、10秒毎の開閉データ、及び20秒毎の開閉データの3種類の開閉データ17が、逐次算出される。但し、開閉データ17を算出する時間は適宜変更でき、また、時間の種類の数も適宜変更することができる。その後、各開閉データ、及びこれに対応する形状データが第2データ取得部2に入力される。以下、これら開閉データ17及び形状データ15をまとめて入力データと称することがある。
 <2-2-2.第2データ取得部>
 次に、第2データ取得部2における処理について説明する。第2データ取得部2は、複数のいわゆるタイムドメイン畳み込みニューラルネットワーク(Time-domain CNN)により構成されている。具体的には、第1メインブロック21、第2メインブロック22、及び第3メインブロック23を有しており、これらが入力側から出力側へ、この順で直列に結合されている。各メインブロック21~23は、タイムドメイン畳み込み層211,221,231、正規化処理層212,222,232、及び活性化処理層213,223,233を備えており、第2メインブロック22と第3メインブロック23は、さらにプーリング層224,234を備えている。正規化処理層212,222,232、及び活性化処理層213,223,233は、一般的な畳み込みニューラルネットワークで用いられる公知の層である。
 続いて、図6を参照しつつ、タイムドメイン畳み込み層211,221,231の処理について説明する。タイムドメイン畳み込み層211,221,231は、上述した入力データの畳み込み演算を行う層である。図6に示すように、入力データは、時系列に並ぶデータであり(説明の便宜のため、一次元のデータとする)、形状データ、5秒毎の開閉データ、10秒毎の開閉データ、及び20秒毎の開閉データである。但し、図6では、説明の便宜のため、4フレーム分の画像を5秒間のデータとし、20秒毎の開閉データは省略している。例えば、5秒毎の開閉データは、4フレームの形状データによって順次作成され、10秒毎の形状データは、8フレームの形状データによって順次作成される。こうして時系列に並ぶ形状データ及び開閉データが作成されると、1フレームずつすらしながら、4フレーム分のデータを、タイムドメイン畳み込み層211,221,231に順次入力する。但し、フレームの数である「4」は、説明のための一例であり、これに限定されない。
 例えば、図7に示すように、抽出された時刻t+7のデータは、4つのフレームのデータが時系列に並ぶように結合し、これを入力とする。そして、畳み込み層211,221,231では、結合されたデータに対し、カーネルサイズが2以上の一次元のカーネル(フィルタ)によって畳み込みを行う(説明の便宜のため、図6に示す実際のカーネルサイズとは異なり、カーネルサイズを2にしている)。畳み込みは、時系列に対応するデータ(図7の横方向に並ぶ一列のデータ)に対して行われる。図7の縦方向には、異なる特徴が並んでいるので(例えば、形状データであれば、目の中心位置、瞳の中心位置等)、図示を省略するが、これらに対しても一列ずつ畳み込みを行う。
 そして、畳み込み処理によって得られた出力データを、正規化処理層及び活性化処理層に順に入力し、出力値を得る。また、第2及び第3メインブロック22,23においては、さらにプーリング層224,234によりプーリング処理を行う。このプーリング処理は、特には限定されないが、例えば、データの圧縮を行う最大プーリング処理を行うことができる。本実施形態のプーリング層224,234は、全ての最大プーリング処理を行うこととし、出力を半分に圧縮することとする。また、図5に示すように、第1~第3メインブロック21~23におけるカーネルの数、及びカーネルサイズが相違している。例えば、第1メインブロックでは、カーネルの数が32であるため、出力されるデータ列も32となる。但し、カーネルの数、及びカーネルサイズは一例であり、適宜変更が可能である。
 また、各メインブロック21~23にはサブブロック24~26がそれぞれ結合されている。すなわち、第1~第3メインブロック21~23には、それぞれ、第1~第3サブブロック24~26が結合されている。したがって、例えば、第1メインブロック21の出力は、第2メインブロック22と、第1サブブロック24に入力される。また、第3メインブロック23には第3サブブロック26のみが結合されている。各サブブロック24~26は、タイムドメイン畳み込み層241,251,261、及び活性化処理層242,252,262を備えており、カーネルサイズが、メインブロック21~23とは異なり、1であることが特徴となっている。したがって、各サブブロック24~26では、時間を考慮した畳み込みは行わず、活性化処理層242,252,262によって、単に、入力されたデータ列の重み付けするような処理がなされる。
 こうして各サブブロック24~26からの出力はグローバルプーリング層に入力される。この例では、第1サブブロック24、第2サブブロック25、及び第3サブブロック26から、グローバルプーリング層27へ、それぞれ32,64,及び128の合計214のデータ列が入力される。すなわち、グローバルプーリング層27は、214のニューロンを有している。そして、グローバルプーリング層27は、全結合層28に結合されている。全結合層28は、隣接する層の間のニューロン全てを結合した層であり、眠気レベルが出力される。すなわち、全結合層28に含まれる各ニューロンは、隣接する層に含まれる全てのニューロンに結合される。全結合層28は、2層以上で構成されてもよい。そして、この眠気レベルは、ディスプレイやスピーカなどの出力装置106から出力それる。
 なお、各ブロック21~26の各層に含まれるニューロン(ノード)の数は、実施の形態に応じて適宜選択されてよい。隣接する層のニューロン同士は適宜結合され、各結合には重み(結合荷重)が設定されている。各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。各層に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、演算処理に利用される各ブロック21~26のパラメータの一例である。
 <2-2-3.学習装置>
 次に、本実施形態に係る学習装置4のソフトウェア構成の一例を説明する。図8は、学習装置のソフトウェア構成の一例を示すブロック図である。
 第1学習を行うとき、つまり、第2処理部13のための第1学習結果データ422を生成するとき、学習装置4の制御部41は、記憶部42に記憶された第1学習プログラム421をRAMに展開する。そして、制御部41は、RAMに展開された第1学習プログラム421をCPUにより解釈及び実行して、各構成要素を制御する。これによって、図8に示されるとおり、本実施形態に係る学習装置4は、第1学習データ取得部401、第1学習処理部402、及び送信部403を備えるコンピュータとして機能する。また、第1学習処理部には、第1学習器406が含まれる。
 一方、第2学習を行うとき、つまり第2データ取得部2のための第2学習結果データ425を生成するとき、学習装置4の制御部41は、記憶部42に記憶された第2学習プログラム424をRAMに展開する。これにより、学習装置4は、第2学習データ取得部404、第2学習処理部405、及び送信部403を備えるコンピュータとして機能する。また、第2学習処理部405には、第2学習器407が含まれる。
 まず、第1学習について説明する。第1学習データ取得部401は、第1学習のための第1学習データ423を取得する。すなわち、第2処理部13の入力となる学習用の目の画像と、各目の画像に対応する目の位置データとの組を複数取得する。
 次に、この第1学習データ423を用いて、第1学習処理部402は、第1学習器406の学習を行う。第1学習器406は、第2処理部13と同じネットワーク構造を有するニューラルネットワークにより構成されている。そして、第1学習処理部402は、誤差逆伝播法(Back propagation)などの学習処理により、目の画像を入力すると、各目の画像に対応する目の位置データを出力するとニューラルネットワークを構築する。そして、第1学習処理部402は、構築したニューラルネットワークの構成、各ニューロン間の結合の重み、及び各ニューロンの閾値等を示す情報を第1学習結果データ422として記憶部42に格納する。そして、この第1学習結果データ422は、送信部403によって画像処理装置10に送信され、第2処理部13の設定に用いられる。
 続いて、第2学習について説明する。第2学習データ取得部404は、第2学習のための第2学習データ426を取得する。すなわち、第2データ取得部2の入力となる学習用の上述した入力データと、各入力データに対応する眠気レベルとの組を複数取得する。
 これに続いて、この第2学習データ426を用いて、第2学習処理部405は、第2学習器407の学習を行う。第2学習器407は、第2データ取得部2と同じネットワーク構造を有するニューラルネットワークにより構成されている。そして、第2学習処理部405は、誤差逆伝播法(Back propagation)などの学習処理により、入力データを入力すると、各目の画像に対応する目の位置データを出力するとニューラルネットワークを構築する。そして、第2学習処理部405は、構築したニューラルネットワークの構成、各ニューロン間の結合の重み、及び各ニューロンの閾値等を示す情報を第2学習結果データ425として記憶部42に格納する。そして、この第2学習結果データ425は、送信部403によって画像処理装置10に送信され、第2データ取得部2の設定に用いられる。
 <3.画像処理装置の動作>
 次に、図9を参照しつつ、画像処理装置10の動作例を説明する。図9は、画像処理装置における学習器の更新の処理手順の一例を例示するフローチャートである。なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
 まず、自動車の運転が開始されると、カメラ101によって運転者の顔の撮影を開始する(ステップS101)。そして、上記のように、撮影された動画を画像処理装置10に逐次入力し、眠気レベルを算出する(ステップS102)。眠気レベルは、経時的に算出する。そして、算出された眠気レベルが所定値以上、例えば、眠気レベル2以上になったときに(ステップS103のYES)、警報器を駆動し(ステップS104)、運転者に居眠り運転の警告を行う。そして、運転を停止する場合(ステップS105のYES)、例えば、イグニションキーをオフにした場合には、画像処理装置10による処理を停止する。一方、眠気レベルが1以下である場合には(ステップS103のNO)、運転が停止するまで、撮影と眠気レベルの算出を続けていく。
 <4.特徴>
 以上のように、本実施形態によれば、次の効果を得ることができる。
(1)運転者を撮影した動画から目の開閉データを取得している。すなわち、所定時間内に生じる目の開閉に関する動的なデータを取得し、さらに、動画から得られた目の形状に関する静的なデータを取得し、これらの両方に基づいて、眠気レベルを算出している。したがって、眠気レベルを正確に算出することができる。
 そして、このような動的なデータを、時間経過を考慮できるタイムドメイン畳み込み層を有するニューラルネットワークの入力とすることで、入力データと、これを入力とするニューラルネットワークとの親和性が向上し、眠気レベルをより正確に算出することができる。
(2)第2データ取得部2では、タイムドメイン畳み込み層を有する複数のメインブロック21~23を直列に結合し、これをグローバルプーリング層27及び全結合層28に接続している。このように、複数のメインブロック21~23でデータが順次処理されることで、最も出力側の第3メインブロック23では、眠気レベルの算出のためのより強い特徴を持ったデータが出力される。これに対し、本実施形態では、各メインブロック21~23と並列に結合されたサブブロック24~26を有している。そして、これらサブブロック24~26を、グローバルプーリング層27に接続し、全結合層28から眠気レベルを出力している。これにより、グローバルプーリング層27では、複数のメインブロック21~23を経た、特徴の強いデータのみならず、例えば、入力側の第1メインブロック21から出力された特徴がまだ強くないデータも入力される。したがって、グローバルプーリング層27では、より広範なデータが入力されるため、眠気レベルをさらに正確に算出することができる。なお、サブブロック24~26の畳み込み層では、カーネルサイズを1にしているが、これは、各メインブロック21~23の出力の重要度を調整するためである。
(3)第2データ取得部2には、3つの異なる時間における開閉データ17を用いている。眠気レベルは、時間の経過によって変化するため、複数種の時間のデータを入力とすることで、より正確な眠気レベルを算出することができる。
 <5.変形例>
 以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。
 <5-1>
 上記実施形態では、第2データ取得部2において、形状データ15と開閉データ17とを入力としているが、開閉データ17のみを入力とすることもできる。また、第1データ取得部1では、形状データ15を算出し、さらにこの形状データ15から開閉データ17を算出しているが、撮影された動画から開閉データ17を直接算出することもできる。すなわち、第1データ取得部1では、少なくとも、第2データ取得部2に入力するための開閉データ17が取得できればよく、その方法は特には限定されない。
 また、上記実施形態において、形状データ15を算出する第2処理部13は、ニューラルネットワークを有しているが、これ以外の公知の手法で、形状データ15を算出することもできる。
 <5-2>
 第2データ取得部2では、3つのメインブロック21~23と、3つのサブブロック24~26を用いてネットワークを構成しているが、これに限定されない。すなわち、メインブロック21~23の数及びサブブロック24~26の数は適宜変更することができる。また、最も出力側のメインブロック(第3メインブロック23)を、サブブロックを介さずに、グローバルプーリング層27に直接接続することもできる。さらに、全てのメインブロック21~23にサブブロックを結合しなくてもよく、少なくとも1つのメインブロックにサブブロックが接続されればよい。但し、より入力側のメインブロックにサブブロックを接続することが好ましい。あるいは、サブブロックを用いず、メインブロックのみでネットワークを構成することもできる。
 <5-3>
 各メインブロック21~23及びサブブロック24~26の層構成は、特には限定されず、少なくともタイムドメイン畳み込み層を有していればよく、正規化処理層、活性化処理層、プーリング層は、必要に応じて適宜設ければよい。また、タイムドメイン畳み込み層のカーネルの数、カーネルサイズは適宜変更することができる。
 <5-4>
 上記実施形態では、第2データ取得部2に複数種(3種類)の時間における開閉データ17を入力しているが、これ以外の時間の開閉データを入力とすることもできし、3種類以外の時間の開閉データ(例えば、2種類や4種類以上)を入力とすることもできる。また、1種類の時間の開閉データのみを入力してもよい。
 <5-5>
 上記実施形態では、画像処理装置10と学習装置4とは別々のコンピュータで構成されている。しかしながら、画像処理装置10及び学習装置4の構成はこのような例に限定されなくてもよく、画像処理装置10及び学習装置4の両方の機能を有するシステムを1台又は複数台のコンピュータで実現してもよい。画像処理装置10に組み込んで使用することもできる。
 <5-6>
 上記実施形態では、本発明に係る画像処理装置を自動車の運転監視システムに適用した例を説明したが、これに限定されず、例えば、工場などの作業者の居眠りを監視するためのシステムなど、種々のシステムに適用することもできる。
 10…画像処理装置
 101…カメラ
 1…第1データ取得部
 2…第2データ取得部
 12…第2処理部(形状データ取得部)
 16…第3処理部(開閉データ取得部)
 106…報知器

Claims (12)

  1.  撮影によって生成され、対象者の顔を含み、時系列に並ぶ複数の画像から、所定時間における前記人の目の開閉に係る開閉データを時系列に算出する第1データ取得部と、
     前記第1データ取得部で算出された時系列の前記開閉データが少なくとも含まれた入力情報から、眠気レベルを出力する学習を行った学習済みの第2データ取得部であって、少なくとも1つのタイムドメイン畳み込み層を含む第2データ取得部と、を備えている、画像処理装置。
  2.  前記第2データ取得部は、複数のメインブロックと、複数のサブブロックと、グローバルプーリング層と、全結合層と、を結合することで構成されており、
     前記各メインブロック及び各サブブロックには、少なくとも前記タイムドメイン畳み込み層が含まれており、
     前記各メインブロックのタイムドメイン畳み込み層のカーネルサイズは、2以上であり、
     前記各サブブロックのタイムドメイン畳み込み層のカーネルサイズは、1であり、
     前記複数のメインブロックは直列的に結合され、
     前記複数のメインブロックの少なくとも1つには、前記サブブロックが結合されており、
     前記サブブロック及び最も出力側のメインブロックのうち、少なくとも前記サブブロックの出力が前記グローバルプーリング層に入力され、
     前記グローバルプーリング層の出力が、前記全結合層に入力されている、請求項1に記載の画像処理装置。
  3.  全ての前記メインブロックに前記サブブロックが結合されており、
     前記各サブブロックからの出力が前記グローバルプーリング層に入力されている、請求項2に記載の画像処理装置。
  4.  前記複数のメインブロックの少なくとも1つは、プーリング層を有している、請求項2または3に記載の画像処理装置。
  5.  前記第1データ取得部は、異なる前記所定時間における複数種の前記開閉データを出力し、
     前記第2データ取得部は、前記複数種の前記開閉データを入力とする、請求項1から4のいずれかに記載の画像処理装置。
  6.  前記第1データ取得部は、
     前記動画から、目の形状に係る形状データを出力する形状データ取得部と、
     所定時間内の複数の前記形状データから、前記開閉データを算出する開閉データ取得部と、
    を備えている、請求項1から5のいずれかに記載の画像処理装置。
  7.  前記第2データ取得部は、前記開閉データ及びこれに対応する前記形状データを入力とする、請求項6に記載の画像処理装置。
  8.  前記開閉データの1つは、前記所定時間における前記動画の全フレーム数に対する、前記目が閉じていたフレーム数の割合である、請求項1から7のいずれかに記載の画像処理装置。
  9.  前記開閉データの1つは、前記所定時間における前記動画の全フレーム数に対する、前記目が完全に開いていないフレーム数の割合である、請求項1から8のいずれかに記載の画像処理装置。
  10.  カメラと、
     前記カメラによって撮影された動画が入力される、請求項1から8のいずれかに記載の画像処理装置と、
     前記画像処理装置において算出された眠気レベルが所定値以上である場合に、居眠りに対する警告を発する報知部と、
    を備えている、監視システム。
  11.  撮影によって生成され、対象者の顔を含み、時系列に並ぶ複数の画像から、所定時間における目の開閉に係る開閉データを時系列に算出するステップと、
     少なくとも1つのタイムドメイン畳み込み層を含む学習済みのデータ取得部によって、前記時系列の開閉データを少なくとも含む入力情報から、眠気のレベルを出力するステップと、
    を備えている、画像処理方法。
  12.  コンピュータに、
     撮影によって生成され、対象者の顔を含み、時系列に並ぶ複数の画像から、所定時間における目の開閉に係る開閉データを時系列に算出するステップと、
     少なくとも1つのタイムドメイン畳み込み層を含む学習済みのデータ取得部によって、
    前記時系列の開閉データを少なくとも含む入力情報から、眠気のレベルを出力するステップと、
    を実行させる、画像処理プログラム。
PCT/JP2020/003202 2019-02-01 2020-01-29 画像処理装置 WO2020158812A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-017516 2019-02-01
JP2019017516A JP7334415B2 (ja) 2019-02-01 2019-02-01 画像処理装置

Publications (1)

Publication Number Publication Date
WO2020158812A1 true WO2020158812A1 (ja) 2020-08-06

Family

ID=71841547

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003202 WO2020158812A1 (ja) 2019-02-01 2020-01-29 画像処理装置

Country Status (2)

Country Link
JP (1) JP7334415B2 (ja)
WO (1) WO2020158812A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008088070A1 (ja) * 2007-01-19 2008-07-24 Asahi Kasei Kabushiki Kaisha 覚醒状態判定モデル生成装置、覚醒状態判定装置及び警告装置
JP2011048531A (ja) * 2009-08-26 2011-03-10 Aisin Seiki Co Ltd 眠気検出装置、眠気検出方法、及びプログラム
CN108446593A (zh) * 2018-02-08 2018-08-24 北京捷通华声科技股份有限公司 一种面部痉挛检测方法及装置
JP2018152034A (ja) * 2017-03-14 2018-09-27 オムロン株式会社 運転者監視装置、運転者監視方法、学習装置及び学習方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008088070A1 (ja) * 2007-01-19 2008-07-24 Asahi Kasei Kabushiki Kaisha 覚醒状態判定モデル生成装置、覚醒状態判定装置及び警告装置
JP2011048531A (ja) * 2009-08-26 2011-03-10 Aisin Seiki Co Ltd 眠気検出装置、眠気検出方法、及びプログラム
JP2018152034A (ja) * 2017-03-14 2018-09-27 オムロン株式会社 運転者監視装置、運転者監視方法、学習装置及び学習方法
CN108446593A (zh) * 2018-02-08 2018-08-24 北京捷通华声科技股份有限公司 一种面部痉挛检测方法及装置

Also Published As

Publication number Publication date
JP2020126378A (ja) 2020-08-20
JP7334415B2 (ja) 2023-08-29

Similar Documents

Publication Publication Date Title
US9714037B2 (en) Detection of driver behaviors using in-vehicle systems and methods
JP7020156B2 (ja) 評価装置、動作制御装置、評価方法、及び評価プログラム
JP6264492B1 (ja) 運転者監視装置、運転者監視方法、学習装置及び学習方法
JP2022188295A (ja) 機械学習ベースの診断分類器
KR20170000767A (ko) 신경망, 신경망 학습 방법 및 이미지 신호 처리 튜닝 시스템
KR102292678B1 (ko) 뇌 인지 부하 분류 시스템 및 방법
US20220067519A1 (en) Neural network synthesis architecture using encoder-decoder models
Zhao et al. Research on fatigue detection based on visual features
WO2018168038A1 (ja) 運転者の着座判定装置
JP6904287B2 (ja) 制御装置、制御方法、及び制御プログラム
JP2021037216A (ja) 閉眼判定装置
WO2020158812A1 (ja) 画像処理装置
Sharara et al. A real-time automotive safety system based on advanced ai facial detection algorithms
WO2021084810A1 (ja) 情報処理装置及び情報処理方法、並びに人工知能モデル製造方法
US20230419721A1 (en) Electronic device for improving quality of image and method for improving quality of image by using same
Poon et al. Driver distracted behavior detection technology with YOLO-based deep learning networks
Gupta et al. Real time driver drowsiness detecion using transfer learning
JP2022000940A (ja) データ圧縮評価システム、データ圧縮システム、及びデータ圧縮評価方法
WO2022230629A1 (ja) 電子機器、電子機器の制御方法、及びプログラム
McCall et al. Driver monitoring for a human-centered driver assistance system
Ankitha et al. Enhanced Driver’s Drowsiness Detection System using CNN model
US20230386644A1 (en) Medical image post-processing
Tumuluru et al. SDDD: Stacked Ensemble Model for Driver Drowsiness Detection
Priyanka et al. A Novel Approach to Detect Driver Drowsiness Using Transfer Learning and Hybrid Features
WO2021240589A1 (ja) 学習装置、推論装置、プログラム、学習方法及び推論方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20749145

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20749145

Country of ref document: EP

Kind code of ref document: A1