JPWO2005114576A1 - 動作内容判定装置 - Google Patents

動作内容判定装置 Download PDF

Info

Publication number
JPWO2005114576A1
JPWO2005114576A1 JP2006513753A JP2006513753A JPWO2005114576A1 JP WO2005114576 A1 JPWO2005114576 A1 JP WO2005114576A1 JP 2006513753 A JP2006513753 A JP 2006513753A JP 2006513753 A JP2006513753 A JP 2006513753A JP WO2005114576 A1 JPWO2005114576 A1 JP WO2005114576A1
Authority
JP
Japan
Prior art keywords
image
feature amount
utterance
hmm
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006513753A
Other languages
English (en)
Other versions
JP4286860B2 (ja
Inventor
祥宏 野口
祥宏 野口
敬士 嶋田
敬士 嶋田
憲 石原
憲 石原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Publication of JPWO2005114576A1 publication Critical patent/JPWO2005114576A1/ja
Application granted granted Critical
Publication of JP4286860B2 publication Critical patent/JP4286860B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Navigation (AREA)

Abstract

対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な顔部位検出装置、動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、顔向判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を提供する。発話区間検出装置1を、画像撮影部10と、データ記憶部11と、画像処理部12と、口唇領域検出部13と、特徴量抽出部14と、発話区間検出部15とを含んだ構成とし、口唇領域検出部13において専用のSVMを用いて撮影画像から口唇領域を検出し、発話区間検出部15において、検出された口唇領域の画像の特徴量及び専用のHMMを用いて発話区間を検出する。

Description

本発明は、対象者の動作内容を判定する装置に係り、特に、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法に関する。
対象者の顔の部位の表情からその人の状態及び行為を認知し、それを応用したアプリケーションが知られている。例えば、自動車内に設置されるカーナビゲーションシステム(以下、CNSと称す)の一機能として、音声による行き先の指示等のCNSの操作を車内に設置されたマイク等への音声入力により行う音声操作機能がある。マイクから入力された音声は、音声認識によりその内容が認識される。運転手が目的地(例えば、地名や施設名等の目的地)を音声入力した場合は、音声認識により目的地を示す単語を認識し、認識した単語が示す場所へのルート検索や情報の表示等を行う。しかしながら、音声操作機能を利用する場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等によってマイクに余計な音が入力されてしまうため音声認識の精度が著しく低下してしまうといった問題がある。このような問題に対処する技術として、特許文献1の音声認識装置及び特許文献2の画像認識装置がある。
特許文献1の音声認識装置は、カメラにより発話者を撮影し、画像処理ECUにより撮影画像を処理して、発話者の外観面の状態から発声の有無を判定する。例えば、顔の向き、唇の動き、視線の向きといった外観状態から発声の有無を判定する。顔の向き、唇の動き、視線の向きを検出するための撮影画像の処理においてはパターン・マッチング方式を用いている。つまり、発話者が発話をしていると判定されたときに音声認識を行うことにより、認識精度を向上させる。ここで、パターン・マッチング方式の中のテンプレート・マッチング方式は、予め検出しようとする顔やその他の部位の代表的な画像パターンや平均的な画像パターンをテンプレートとして用意し、そのテンプレート画像と最も近い画像領域を全体画像から探索することにより顔検出やその他の部位検出を実現する手法である。
また、特許文献2の画像認識装置は、対象物体に対する距離画像ストリームを取得するための画像取得部と、画像取得部により取得された距離画像ストリームから口腔部分を抽出する口腔部分抽出部と、口腔部分抽出部により抽出された口腔部分の距離画像ストリームに基づいて、口唇の形状および口唇の動きの少なくとも一方を認識するための画像認識部とを具備している。口腔部分の抽出には特許文献1の音声認識装置と同様にテンプレート・マッチング方式等を用いている。更に、画像認識部では、予め「あ」、「い」といった発音に対応する口腔部分の形状画像のテンプレートを用意し、これらテンプレートと抽出された口腔部分の画像とのマッチングを行うことにより発話内容を認識する。
また、対象者の顔画像を撮影し、当該撮影画像を画像処理して、運転者が覚醒状態にあるか否かを検出する技術として、特許文献3に記載の運転状態検出装置、特許文献4に記載の居眠り状態検出装置及び特許文献5に記載の居眠り運転防止装置がある。
特許文献3記載の運転状態検出装置は、撮像された画像に対して、対象テンプレートを用いて相関演算を行って運転者の目領域を検出し、検出された目領域の画像から運転者の運転状態を判定する。
また、特許文献4記載の居眠り状態検出装置は、顔画像の縦方向の画素列に沿って画素の濃度を検出し、画素列における濃度の局所的な高まり毎に1個づつの画素を定めて抽出点とし、隣接する画素列の画素列方向に近接した抽出点を連結して顔の横方向に伸びる曲線群から眼の位置を検出し、その後、眼を含む所定領域内で眼の位置を検出し、その後、眼を含む所定領域内で、眼の開閉状態を判定し、その開閉状態の変化により居眠り状態を検出する。
また、特許文献5記載の居眠り運転防止装置は、自動車の運転者の眼部を含む映像を、ビデオカメラにより動画像として順次的に撮像し、最新の映像と、フレームメモリに記憶された前の映像との間で輝度の変化した領域の面積を算出し、輝度が増加した領域と減少した領域との面積差の時系列的なパターンと標準の瞬目波形との間で相関係数をとる演算を行う。相関係数が基準値を超えると、瞬目の時点が抽出され、瞬目の抽出に基づいて運転者の覚醒状態が判定される。
特開平11−352987号公報 特開平11−219421号公報 特開平8−175218号公報 特開平10−275212号公報 特開2000−40148号公報
しかしながら、上記特許文献1及び特許文献2の従来技術においては、固定カメラによって撮影された画像からの口唇部分の検出にテンプレート・マッチング方式を用いているため、例えば、運転中に起こる顔向きの変化により斜めや横向きになった顔画像から口唇部分を検出するような場合に、用意されたテンプレートの内容によっては著しく検出精度が低下する恐れがある。更に、顔全体の画像に対して口唇部分の探索を行っているため探索ポイント数が多くなり処理が重くなるという問題もある。
また、上記特許文献2の画像認識装置においては、開口時の口腔領域の大きさなどをある閾値で判断し発話区間を検出しているため、例えば、欠伸と発話とを区別するといった曖昧な画像から動作内容の判断を行うことが困難であった。
また、上記特許文献3乃至特許文献5の従来技術においては、一定時間内のまばたきの回数頻度、一定時間内のまばたきの開閉時間の積算値などを覚醒状態の判定に用いているが、このような構成では、生理学の見地において覚醒状態の判定に有効であるとされている、1回1回のまばたきの振幅、持続時間及び速度などの情報を考慮して覚醒状態を判定することはできない。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法を提供することを目的としている。
上記目的を達成するために、本発明に係る請求項1記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMM(Hidden MarkovModel)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴としている。
このような構成であれば、画像撮影手段によって、対象者の顔を構成する所定部位を含む撮影画像を撮影することが可能であり、特徴量抽出手段によって、前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
従って、公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。
ここで、HMMは時系列信号の確率モデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。また、例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。HMMはそのような揺らぎを吸収することができる統計的モデルである。HMMは、どのような単位で定義されても良く(例えば、音声認識をするのであれば単語や音素)、各HMM(ここで「各」というのは例えば単語であれば複数の単語が存在し、音素においても複数の音素が存在するため。)は、図31に示すように、複数の状態からなり、各状態は統計的に学習された、状態遷移確率(a)と出力確率(b:正規分布、混合正規分布等の確率分布)で構成されている。例えば、遷移確率は音声の時間伸縮の揺らぎを、出力確率はスペクトルの揺らぎを吸収する。
また、特徴量としては、所定部位の画像をフーリエ変換したスペクトル成分、所定部位の画像をフーリエ変換した周波数スペクトルに対する対数成分、所定部位の画像をフーリエ変換した周波数スペクトルに対しての現フレームとその前後のフレームとのフレーム間差分成分、所定部位の画像に対するメル・ケプストラム(MFCC)成分、所定部位の画像に対するフレーム内モーメント成分、所定部位の画像に対するフレーム間モーメント成分、所定部位の画像をフーリエ変換した周波数スペクトルに対するフレーム内モーメント成分、所定部位の画像をフーリエ変換した周波数スペクトルに対するフレーム間モーメント成分などがある。以下、請求項2記載の動作内容判定装置、請求項22記載の動作内容判定プログラム及び請求項26の動作内容判定方法において同じである。
また、所定部位の画像とは、撮影画像から切り出した所定部位の画像そのものの他、当該所定部位の画像とその近傍の画像を含む領域画像等も含む。以下、請求項2記載の動作内容判定装置、請求項22記載の動作内容判定プログラム及び請求項26の動作内容判定方法において同じである。
また、顔を構成する所定部位は、眼、鼻、口、眉等である。以下、請求項2記載の動作内容判定装置、請求項22記載の動作内容判定プログラム及び請求項26の動作内容判定方法において同じである。
また、上記目的を達成するために、請求項2記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴としている。
このような構成であれば、画像撮影手段によって、前記対象者の顔を含む画像を撮影することが可能であり、顔部位検出手段によって、前記画像撮影手段の撮影画像に基づき、SVM(SupportVector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出することが可能であり、特徴量抽出手段によって、前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
従って、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。
ここで、SVMは、パターン認識性能の優秀な2つのクラスを識別する識別器を構成するための学習モデルの1つである。SVMは、マージン最大化という基準によって識別平面を設定することにより未学習データに対しても高い識別性能を発揮する。具体的には、識別平面と訓練サンプルとの最小距離を評価関数として用い、これを最大にするように識別平面を設定する。更に、SVMは、カーネルトリックという手法により非線形の識別関数を構成することが可能である。ここで、カーネルトリックは、非線形識別器への拡張手法であり、特徴空間ベクトルを非線形な写像を用いてより高次元の空間に写像し、その空間において線形識別を行うことにより元の空間での非線形識別を実現する。この非線形な写像をカーネル関数と呼び、それを用いた識別手法をカーネルトリックと呼ぶ。なお、SVMについては、URL「http://www.neurosci.aist.go.jp/~kurita/lecture/svm/svm.html」のWebページに掲載された「サポートベクターマシン入門 栗田 多喜夫」を参照されたい。以下、請求項2記載の動作内容判定装置、請求項22記載の動作内容判定プログラム及び請求項26の動作内容判定方法において同じである。
つまり、SVMを用いて、顔向きに応じて内容(形状、輝度分布等)の変わる顔やそれを構成する部位の画像を予め多パターン学習させておき、顔やその部位の画像とこれら以外の画像との境界面を曲面を用いて精度良く分離しておき、この境界面を基準として顔やその部位の画像の検出を行わせることで、顔向きに応じて内容の変わる顔やその部位の画像に対しても精度良い検出性能を発揮させることが可能となる。
また、請求項3に係る発明は、請求項2記載の動作内容判定装置において、前記顔部位検出手段は、前記撮影画像における前記対象者の複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することを特徴としている。
このような構成であれば、前記顔部位検出手段は、前記複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することが可能である。
つまり、例えば、自動車内のインナーミラーに設置された1台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、所定部位が、顔の向きに応じて様々な形及びサイズに変形した状態で撮影されるため、検出する所定部位の画像領域のサイズを顔の向きに応じて変更しても、必要な特徴量を十分抽出することが可能である。従って、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。
また、本発明に係る請求項4記載の動作内容判定装置は、請求項1乃至請求項3のいずれか1項に記載の動作内容判定装置において、前記画像撮影手段は、前記対象者の顔全体を含む画像部分を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段と、を備え、
前記HMMは、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したものを含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
このような構成であれば、位置関係情報取得手段によって、前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得することが可能であり、顔向判定手段によって、前記位置関係情報に基づき前記対象者の顔の向きを判定することが可能であり、前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
従って、対象者の顔の向きを判定すると共に、複数方向の顔の向きに対応したHMMの中から前記判定結果の顔向きに対応したHMMを選択し、当該選択したHMMを用いて動作内容の判定を行うようにしたので、例えば、自動車内のインナーミラーに設置された1台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
また、請求項5に係る発明は、請求項1乃至請求項4のいずれか1項に記載の動作内容判定装置において、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴としている。
このような構成であれば、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
また、請求項6に係る発明は、請求項1乃至請求項5のいずれか1項に記載の動作内容判定装置において、前記所定部位の画像は、前記前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記HMMは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
このような構成であれば、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能となる。
ここで、口唇部分の画像とは、撮影画像から切り出した口唇部分の画像をそのものの他、当該口唇部分の画像とその近傍の画像を含む領域画像等も含む。
また、請求項7に係る発明は、請求項6記載の動作内容判定装置において、前記HMMは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
前記動作内容判定手段は、前記口唇状態判定用HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記口唇状態判定用HMMの出力を示す発話開始点を判定する発話開始点判定手段を備え、
前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴としている。
このような構成であれば、発話開始点判定手段によって、前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記HMMの出力を示す発話開始点を判定することが可能であり、前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、HMMによる発話状態か否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。例えば、上述したCNSなどの乗物内における音声認識に適用することで、発話内容の認識精度を向上させることが可能となる。
また、請求項8に係る発明は、請求項7記載の動作内容判定装置において、前記発話開始点判定手段は、前記判別結果が1フレーム目からn(nは整数且つn≧2)フレーム目まで連続で発話を示す状態となったときに、前記1フレーム目を発話開始点の候補に設定し、前記判別結果がnフレーム目から更にm(mは整数且つm≧3)フレーム連続で発話を示す状態となったときに、前記1フレーム目を発話開始点と判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能となる。
また、請求項9に係る発明は、請求項8記載の動作内容判定装置において、前記発話開始点判定手段は、前記nフレーム目からk(kは整数且つk≦m)フレーム以内において、前記判別結果が非発話を示す状態となり、且つ、n+kフレーム目から更にp(pは整数且つp≧10)フレーム連続で前記判別結果が非発話を示す状態となったときに、前記1フレーム目を発話開始点の候補から外し、一方、前記n+kフレーム目からr(rは整数且つr<p)フレーム以内において再び前記判別結果が発話を示す状態となったときに、前記1フレーム目を発話開始点として判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能となる。
また、請求項10に係る発明は、請求項6乃至請求項9のいずれか1項に記載の動作内容判定装置において、前記HMMは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
前記動作内容判定手段は、前記HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記HMMの出力を示す発話終了点を判定する発話終了点判定手段を備え、
前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴としている。
このような構成であれば、発話終了点判定手段によって、前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記HMMの出力を示す発話終了点を判定することが可能であり、前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、HMMによる前記判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。
また、請求項11に係る発明は、請求項10記載の動作内容判定装置において、発話終了点判定手段は、前記判別結果がw(wは整数且つw≧20)フレーム連続で非発話を示す状態となったときに当該wフレームにおける最初のフレームを発話終了点として判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
また、請求項12に係る発明は、請求項11記載の動作内容判定装置において、前記発話終了点判定手段は、前記非発話を示す状態が連続してx(xは整数且つ6≦x<w)フレーム続いたときに、x+1フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び2フレーム連続して発話を示す状態のいずれか一方になってもwフレーム目までの前記カウントを継続し、一方、3フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
また、請求項13に係る発明は、請求項1乃至請求項12のいずれか1項に記載の動作内容判定装置において、前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記HMMは、前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを含み、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
このような構成であれば、居眠り等の動作内容を判定することが可能である。
また、請求項14に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの種類を判定することを特徴としている。
このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等の対象者のまばたきの種類を精度良く判定することが可能である。
また、請求項15に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの速度と振幅の種類を判定することを特徴としている。
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度(筋電位の変化時間)と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項16に係る発明は、請求項15記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項17に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記特定の性質を有したまばたきの種類に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
例えば、生理学の見地において覚醒状態の判定に有効であるとされている、まばたき時の眼の筋肉の筋電位の変化を表す筋電位波形には、多種類の波形パターンが存在するが、まばたきの速度、振幅などのまばたきにとって重要な要素の特徴に着目することによって、これら多種類のうち特定種類(例えば、3種類)の波形パターンを判定に用いることで、覚醒状態を十分に判定できるとされている。従って、このような構成であれば、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
また、請求項18に係る発明は、請求項17記載の動作内容判定装置において、前記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、生理学の見地において覚醒状態の判定に有効であるとされている、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
一方、上記目的を達成するために、請求項19記載の発話内容判定装置は、対象者の顔を構成する所定部位を含む画像を撮影する画像撮影手段と、
前記撮影画像から前記対象者の口唇部分の画像を検出する顔部位検出手段と、
前記顔部位検出手段によって検出された前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出する特徴量抽出手段と、
前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する発話内容に対する尤度を出力とする発話内容判定用HMM(HiddenMarkov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記発話内容判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定する発話内容判定手段と、を備えることを特徴としている。
このような構成であれば、特徴量抽出手段によって、前記口唇部分の画像に基づき当該画像における特徴量を抽出することが可能であり、発話内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定することが可能である。
従って、HMMを用いることにより、時間的概念を伴う発話動作の状態を判定することができるので、音声情報が無くても口唇の動きから高精度に発話内容の判定を行うことが可能である。
ここで、口唇部分の画像とは、撮影画像から切り出した口唇部分の画像をそのものの他、当該口唇部分の画像とその近傍の画像を含む領域画像等も含む。
また、上記目的を達成するために、請求項20記載のカーナビゲーションシステムは、請求項6乃至請求項12のいずれか1項に記載の動作内容判定装置と、当該動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴としている。
このような構成であれば、音声認識手段によって、動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行うことが可能であり、動作処理手段によって、音声認識手段の認識結果に基づき所定の動作処理を行うことが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
ここで、カーナビゲーションシステムは、慣性航法装置やGPS(全地球位置評定衛星システム)を利用して、自動車の運行時に運転者等の乗員に対して、ディスプレイ画面上に現在位置や目的地への走行経路案内等を行なう公知の装置である。
また、上記目的を達成するために、請求項21記載の警報システムは、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。
このような構成であれば、通知手段によって、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置によって判定された、対象者の覚醒状態の判定結果を対象者又は関係者に通知することが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
一方、上記目的を達成するために、請求項22記載の動作内容判定プログラムは、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の作用及び効果が得られる。
また、請求項23に係る発明は、請求項22記載の動作内容判定プログラムにおいて、 前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の作用及び効果が得られる。
また、請求項24に係る発明は、請求項22又は請求項23記載の動作内容判定プログラムにおいて、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の作用及び効果が得られる。
また、請求項25に係る発明は、請求項22乃至請求項24のいずれか1項に記載の動作内容判定プログラムにおいて、前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の作用及び効果が得られる。
一方、上記目的を達成するために、請求項26記載の動作内容判定方法は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の効果が得られる。
また、請求項27に係る発明は、請求項26記載の動作内容判定方法において、前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の効果が得られる。
また、請求項28に係る発明は、請求項26又は請求項27記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の効果が得られる。
また、請求項29に係る発明は、請求項26乃至請求項28のいずれか1項に記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出ステップにおいては、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記HMMは、を含み、
前記動作内容判定ステップにおいては、前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の効果が得られる。
本発明に係る発話区間検出装置の構成を示すブロック図である。 (a)は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、(b)は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、(c)は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。 (a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。 HMMへの特徴量の入力における時間的概念を示す図である。 HMMの出力に基づく発話開始点の判定処理の流れを示す図である。 HMMの出力に基づく発話終了点の判定処理の流れを示す図である。 様々な顔向きに対する発話/非発話の判定結果の一例を示す図である。 発話区間検出装置1の動作処理を示すフローチャートである。 画像処理部12における検出用画像データの生成処理を示すフローチャートである。 唇領域検出部13における口唇領域の検出処理を示すフローチャートである。 特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。 は、発話区間検出部15における発話区間の検出処理を示すフローチャートである。 発話区間判定部15における発話開始点判定処理を示すフローチャートである。 発話区間判定部15における発話終了点判定処理を示すフローチャートである。 (a)〜(c)は、顔向きに応じて検出される口唇領域の一例を示す図である。 第1の実施の形態の変形例の口唇領域検出部13における口唇領域の検出処理を示すフローチャートである。 第1の実施の形態の変形例の特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。 第1の実施の形態の変形例の発話区間検出部15における発話区間の検出処理を示すフローチャートである。 顔向きを考慮しないHMMを用いた場合と、考慮したHMMを用いた場合とにおける発話区間の識別確率を示す図である。 本発明に係る覚醒状態判定装置の構成を示すブロック図である。 (a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。 1回のまばたきに対する覚醒状態判定用の筋電図波形を示す図である。 まばたき波形のパターンを示す図である。 図23における波形Oに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。 図23における波形Aに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。 図23における波形Bに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。 まばたきの間隔と群発の波形パターンの一例を示す図である。 眼領域検出部33における左眼領域の検出処理を示すフローチャートである。 特徴量抽出部34における特徴量の抽出処理を示すフローチャートである。 覚醒状態判定部35における覚醒状態の判定処理を示すフローチャートである。 HMM及び該HMMの各状態に対応するスペクトル包絡の一例を示す図である。
〔第1の実施の形態〕
以下、本発明の第1の実施の形態を図面に基づき説明する。図1〜図14は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第1の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の発話開始から発話終了までの区間である発話区間を検出する発話区間検出装置に適用した場合を説明する。
まず、本発明に係る発話区間検出装置の構成を図1に基づき説明する。図1は、本発明に係る発話区間検出装置の構成を示すブロック図である。
図1に示すように、発話区間検出装置1は、画像撮影部10と、データ記憶部11と、画像処理部12と、口唇領域検出部13と、特徴量抽出部14と、発話区間検出部15とを含んだ構成となっている。なお、本実施の形態において、発話区間検出装置1は、自動車室内に設置され、且つ、図示しない自動車室内に設置された音声認識機能を有したカーナビゲーションシステム(以下、CNSと称す)と連動可能に接続される。そして、発話区間検出装置1の出力はCNSに入力され、CNSは入力された情報に基づき音声認識を行い、その認識結果に基づき所定の動作を行う。
画像撮影部10は、CCD(charge coupled device)カメラを含んだ構成となっており、フレーム単位で撮影した画像をデジタルのデータで出力する。そして、出力画像データは、データ記憶部11に伝送される。本実施の形態において、CCDカメラは、自動車室内におけるインナーミラーに、運転席に座った人(運転手)の顔全体を含む像を撮影可能な状態で取り付けられている。なお、CCDカメラの設置位置は、インナーミラーに限らず、撮影対象者の顔全体を含む画像が撮影可能な位置であれば、ステアリング・コラム位置、センター・パネル位置、フロント・ピラー位置等の別の場所でも良い。
データ記憶部11は、全体顔検出用SVM、口唇領域検出用SVM、発話区間検出用のHMM、画像撮影部10によって撮影された画像等、発話区間の検出に必要なデータを記憶する。本実施の形態においては、撮影画像のフレームに合わせて音声データも記憶する。従って、本実施の形態においては、自動車内に、運転席に座った人の発話した音声データを取得するためのマイクが設置されている。
画像処理部12は、口唇領域検出部13において行われる、撮影画像から口唇領域を検出する処理の前処理として、撮影画像の各フレーム毎にグレースケール化による色情報の削減やサブ・サンプリングによる画像サイズの縮小等を行う。以下、グレースケール化及び画像サイズの縮小された撮影画像を検出用画像と称すこととする。
口唇領域検出部13は、SVMを用いて画像処理部12から取得した検出用画像から撮影対象者の口唇領域を検出する。本実施の形態においては、検出用画像から撮影対象者の顔全体の領域を検出する全体顔検出用SVMと、全体顔検出用SVMによって検出された全体顔画像から口唇領域を検出する口唇領域検出用SVMとの2種類のSVMを用いて2段階で口唇領域を検出する。また、一度口唇領域が検出されると、次のフレームの検出用画像に対しては、前のフレームで検出された口唇領域の位置情報(例えば、画像の左上の画素を座標(1,1)とした場合の座標情報)に基づき口唇領域の探索範囲を設定し、この探索範囲に対して口唇領域検出用SVMを適用する。つまり、一度口唇領域が検出されると、口唇領域が未検出となるまで次フレームからの検出用画像に対して全体顔検出用SVMによる顔全体の画像領域の検出処理を省略する。このとき、最初に口唇領域を検出する際の探索範囲よりも狭い範囲の探索範囲を設定することで口唇領域の検出処理を高速化する。以下、上記した2種類のSVMを用いた口唇領域の検出処理を行うモードを検出モードと称し、前のフレームで検出された口唇領域の位置情報に基づき口唇領域の探索範囲を設定し、この探索範囲に対して口唇領域検出用SVMを適用して口唇領域の検出処理を行うモードをトラッキングモードと称すこととする。なお、検出結果の情報は、特徴量抽出部14に伝送される。
特徴量抽出部14は、口唇領域検出部13からの検出結果の情報を取得すると、この情報に基づき、対応する元の撮影画像をデータ記憶部11から読み出し、当該読み出した画像から口唇領域の画像を切り取り、当該切り取った口唇領域画像から後述する発話区間検出用のHMMに入力する特徴量を抽出する。本実施の形態においては、抽出した特徴量に対して、主成分分析や独立成分分析を用いて次元数の削減を行う。また、本実施の形態においては、切り取った口唇領域画像をフーリエ変換してその周波数スペクトル成分を特徴量として抽出する。また、抽出された特徴量は、連続する5フレーム分を一組として発話区間検出部15に伝送される。
発話区間検出部15は、特徴量抽出部14から取得した口唇領域画像の特徴量を発話区間検出用のHMMに入力し、この入力に対するHMMからの出力に基づき、対象者の発話開始から終了までの発話区間を検出する。検出された発話区間の情報は、図示しないカーナビゲーションシステムに伝送される。
ここで、本実施の形態において、発話区間検出装置1は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。
また、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
更に、図2〜図7に基づき、発話区間検出装置1のより具体的な動作を説明する。ここで、図2(a)は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、(b)は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、(c)は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。また、図3(a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。また、図4は、HMMへの特徴量の入力における時間的概念を示す図であり、図5は、HMMの出力に基づく発話開始点の判定処理の流れを示す図であり、図6は、HMMの出力に基づく発話終了点の判定処理の流れを示す図である。また、図7は、様々な顔向きに対する発話/非発話の判定結果の一例を示す図である。
発話区間検出装置1は、発話区間の検出処理が開始されると、まず、画像撮影部10において、インナーミラーに取り付けられたCCDカメラにより、図3(a)に示すような自動車の運転席に座っている撮影対象者の顔全体を含む画像を撮影し、この撮影された画像データを、フレーム(ここでは、1/30秒とする)単位で且つ撮影した順番にデータ記憶部11に記憶する。ここで、本実施の形態において撮影画像はカラー画像とする。データ記憶部11は、撮影画像データを記憶すると、そのことを画像処理部12に通知する。
画像処理部12は、データ記憶部11からの通知を受けると、当該データ記憶部から撮影画像データを読み出し、読み出した画像データに対してグレースケース化による色情報の削減処理及びサブ・サンプリングによる画像サイズの縮小処理を行う。例えば、撮影画像が640×480画素のサイズのフルカラー画像であったとすると、グレイスケール化によりフルカラーは白と黒の中間色だけからなる色の階調を有したデータに変換され、更に、画像の縦及び横方向にそれぞれ1/10にサブ・サンプリングされ64×48画素のサイズの画像に変換される。これにより、画素数を1/100に減少する。このようにして生成された検出用画像は、口唇領域検出部13に伝送される。
口唇領域検出部13は、画像処理部12から検出用画像を取得すると、検出モードに移行し、図2(a)に示すように、64×48画素の検出用画像20の全体に対して、20×30画素のサーチウィンドウ22により顔全体の画像領域のスキャニングを行う。更に、スキャニングされた20×30画素の計600画素のグレイスケール値を600次元の値として全体顔検出用SVMに入力する。全体顔検出用SVMでは、予め600次元空間における全体顔クラスと非全体顔クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い20×30画素の領域画像を顔全体の画像領域200として検出する。顔全体の画像領域200が検出されると、次に、図2(b)に示すように、顔全体の画像領域200の下半分の画像領域を含む20×15画素の探索領域23を設定し、当該設定した探索領域23に対して10×10画素のサーチウィンドウ24により口唇領域のスキャニングを行う。つまり、実際の画像においては、図3(b)に示すようになる。そして、スキャニングされた10×10画素の計100画素のグレイスケール値を100次元の値として口唇領域検出用SVMに入力する。口唇領域検出用SVMでは、予め100次元空間における口唇領域クラスと非口唇領域クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い10×10画素の領域画像を口唇領域画像として検出する。更に、口唇領域画像が検出されるとその位置情報(座標情報)を取得し、次のフレームの検出用画像に対してトラッキングモードへと移行する。
口唇領域検出部13は、トラッキングモードに移行すると、次のフレームの検出用画像に対して、図2(c)に示すように、前のフレームで検出された口唇領域画像の位置座標を中心に縦方向及び横方向に5画素ずつ広げた15×15画素の探索領域25を設定し、当該設定された探索領域25に対して10×10画素のサーチウィンドウ24により口唇領域のスキャニングを行う。実際の画像においては、図3(c)に示すようになる。つまり、顔全体の画像領域の検出処理を省き、且つ、20×15画素の探索領域23よりも狭い15×15画素の探索領域25に範囲を限定して口唇領域の探索を行うことで処理を高速化する。スキャニングされた10×10画素の計100画素のグレイスケール値は、上記検出モードと同様に口唇領域検出用SVMに入力され、口唇領域の検出処理が行われる。なお、口唇領域が検出されると、本実施の形態においては、口唇領域の中心座標が特徴量抽出部14に伝送される。また、トラッキングモードにおいては、口唇領域の検出が成功している間はこのモードを維持し、口唇領域の検出が失敗した場合は顔検出モードへと移行する。
特徴量抽出部14は、口唇領域検出部13から各フレームの検出用画像における口唇領域の中心座標を取得すると、データ記憶部11によって記憶された対応する撮影画像から、前記取得した中心座標を中心に64×64画素のグレイスケールの口唇画像を切り出す。そして切り出した各フレームの口唇画像に対して、口唇部分以外の鼻や顎などが含まれていた場合の影響をなるべく少なくするような処理をハミング窓などの窓関数により行い。その後、2次元フーリエ変換処理を施し、口唇画像の振幅スペクトルを特徴量として求める。本実施の形態において、求めた特徴量は、更に、演算量削減及び識別に無用な情報の除去のために主成分分析によって次元削減を行う。ここで、主成分分析に用いる固有ベクトルは、予め不特定多数の人の様々な口唇画像を使用してオフラインで求めておき、例えば、固有ベクトルの第10成分までを使って主成分分析を行うことで、10次元よりも多次元の特徴量の次数を10次元に削減する。このような特徴量の抽出を1フレーム毎に実施し、抽出した特徴量を、撮影した順番に5フレーム分を一組として、発話区間検出部15に伝送する。
発話区間検出部15は、特徴量抽出部14から5フレーム一組の特徴量を取得すると、図4に示すように、一つ前に入力した特徴量の一組400aの最初のフレームに対応する特徴量に対して、次の特徴量の一組400bの最初のフレームに対応する特徴量が1フレームだけずれるように、特徴量の一組400bの最初のフレームに対応する特徴量を発話区間検出用のHMMに入力する。これにより、特徴量の一組400aの2フレーム目から5フレーム目と特徴量の一組400bの最初のフレームから4フレーム目までがオーバーラップして発話区間検出用のHMMに入力されることになる。同様に、特徴量の一組400bの次の一組400cも、当該400bの最初のフレームに対応する特徴量に対して、次の一組400cの最初のフレームに対応する特徴量が1フレームずれるように、特徴量の一組400cの最初のフレームに対応する特徴量を発話区間検出用のHMMに入力することになる。このようにして、前のフレームに対して1フレームずつずらして特徴量を発話区間検出用のHMMに入力させることにより、1フレーム毎の時間解像度によってHMMの出力を得ることが可能となる。
また、発話区間検出用のHMMは、入力された5フレーム一組の特徴量に対して発話/非発話の識別を行うもので、予め不特定多数の人の様々な口唇画像を用いて学習により求めたものを用いる。つまり、発話用のHMM及び非発話用のHMMの各々に5フレーム一組の特徴量を入力し、生起確率の大きい方のモデルを識別結果として出力する。例えば、5フレーム一組の特徴量を上記各々のHMM入力したときに、発話用のHMMからの出力確率が非発話用のHMMの出力確率より大きかった場合は、その5フレームの識別結果は発話となる。
発話区間検出部15は、更に、HMMの出力に基づき、上記撮影対象者の発話開始点及び発話終了点を判定する処理を行う。発話開始点及び発話終了点は、5フレーム一組の特徴量に対する上記発話用のHMM及び非発話用のHMMを用いた発話/非発話の出力に対して判定が行われるものであり、まず、発話開始点の判定処理について説明する。
発話開始点は、図5に示すような流れで判定処理が行われる。ここで、図5中「S」は、発話候補点が未決定の状態を示し、「C」は、発話候補点が決定した状態を示し、「D」は、発話候補点が降格した状態を示し、状態遷移における「0」はHMMの出力が非発話の状態を示し、「1」はHMMの出力が発話の状態を示す。図5に示すように、HMMの出力が1フレーム目から2フレーム連続して発話の状態(図5中区間A)であった場合は、1フレーム目が発話開始点の候補として設定され、3フレーム目からは「C」の状態に遷移する。その後、「C」の状態から3フレーム連続してHMMの出力が発話の状態(図5中区間B)になると、発話候補点として設定された1フレーム目(図5中S1)は、発話開始点と判定される。一方、「C」の状態から3フレーム以内においてHMMの出力が非発話の状態になると、非発話の発生したフレームの次のフレームは「D」の状態へと遷移する。そして、「D」の状態で10フレーム連続してHMMの出力が非発話の状態(図5中区間C)になると発話候補点として設定された1フレーム目は降格して発話候補点から除外される。
次に、発話終了点の判定処理について説明する。発話終了点は、図6に示すような流れで判定処理が行われる。ここで、図6中「S」は、6フレーム連続してHMMの出力が非発話となる区間(区間D)を探索している状態を示し、「C」は、発話終了点を探索している状態を示し、状態遷移における「0」はHMMの出力が非発話の状態を示し、「1」はHMMの出力が発話の状態を示す。図6に示すように、HMMの出力が1フレーム目から6フレーム以上連続して非発話の状態(図6中区間D)になったときは、発話終了点を探索する「C」の状態に遷移する。そして、「C」の状態からは、単発でHMMの出力が発話の状態になったときと、2フレーム連続でHMMの出力が発話の状態になったときとを無視して、HMMの出力が非発話になる状態を継続してカウントする。一方、「C」の状態からHMMの出力が3回連続して「1」の状態となったときは、状態「S1」に遷移する。最終的に、非発話の状態がトータルで20回カウントされたときに1フレーム目(図6中の状態「S1」)を発話終了点として判定する。
上記した判定処理により、発話開始点及び発話終了点が決定されると、これらの情報を発話区間情報としてCNSに入力する。
以上のように、SVMにより撮影画像から切り出した口唇領域画像に対する、発話区間検出用のHMMによる発話/非発話の判定に加え、上記した発話開始点判定処理及び発話終了点判定処理を行うことにより、図7(a)〜(d)に示すような様々な顔向きの口唇画像に対しても正しく発話区間の検出を行うことが可能である。例えば、図7においては、発話区間検出用のHMMにより、(a)〜(c)の口唇画像が発話状態であると判定され、(d)の口唇画像が非発話状態であると判定される。
また、CNSにおいては、発話区間検出装置1からの発話開始点及び発話終了点の情報に基づき、発話開始点のフレームから発話終了点のフレームまでの撮影画像に対応する音声データをデータ記憶部11から読み出し、当該読み出した音声データを音声認識する。そして、音声認識結果に基づき経路探索や情報の表示等の所定の処理を行う。
更に、図8に基づき、発話区間検出装置1の動作処理の流れを説明する。図8は、発話区間検出装置1の動作処理を示すフローチャートである。
図8に示すように、発話区間の検出処理が開始すると、まずステップS100に移行し、画像撮影部10において、撮影対象者の画像を撮影してステップS102に移行する。
ステップS102では、データ記憶部11において、画像撮影部10において撮影された画像データを記憶してステップS104に移行する。
ステップS104では、画像処理部12において、データ記憶部11によって記憶された撮影画像データを読み出しステップS106に移行する。
ステップS106では、画像処理部12において、上記読み出した撮影画像データから検出用画像データを生成し、当該生成した検出用画像データを口唇領域検出部13に伝送してステップS108に移行する。
ステップS108では、口唇領域検出部13において、検出用画像から口唇領域を検出し、検出された口唇領域の位置情報を特徴量抽出部14に伝送してステップS110に移行する。
ステップS110では、特徴量抽出部14において、上記検出された口唇領域の位置情報に基づき撮影画像から口唇領域の画像を切り出し、当該切り出した画像から特徴量を抽出し、当該抽出した特徴量を発話区間検出部15に伝送してステップS112に移行する。
ステップS112では、発話区間検出部15において、特徴量抽出部14から取得した特徴量を発話区間検出用HMMに入力して、発話/非発話の状態を判定し、当該判定結果に基づき発話区間を検出してステップS114に移行する。
ステップS114では、発話区間検出部15において、検出した発話区間の情報をCNSに伝送して処理を終了する。
更に、図9に基づき、画像処理部12における検出用画像データの生成処理の流れを説明する。図9は、画像処理部12における検出用画像データの生成処理を示すフローチャートである。
図9に示すように、まずステップS200に移行し、データ記憶部11から撮影画像データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS202に移行し、そうでない場合(No)は取得するまで待機する。
ステップS202に移行した場合は、上記取得した撮影画像に対してサブ・サンプリング処理を行いステップS204に移行する。
ステップS204では、サブ・サンプリングした撮影画像データをグレイスケール化して検出用撮影画像データを生成しステップS206に移行する。
ステップS206では、上記生成した検出用画像データを口唇領域検出部13に伝送して処理を終了する。
更に、図10に基づき、口唇領域検出部13における口唇領域の検出処理の流れを説明する。図10は、口唇領域検出部13における口唇領域の検出処理を示すフローチャートである。
図10に示すように、まずステップS300に移行し、画像処理部12から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS302に移行し、そうでない場合(No)は取得するまで待機する。
ステップS302に移行した場合は、検出モードに移行し、検出用画像における20×30画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用SVMを用いて識別処理を行いステップS304に移行する。
ステップS304では、ステップS302の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS306に移行し、そうでない場合(No)はステップS330に移行する。
ステップS306に移行した場合は、上記検出された顔全体の領域画像における下半分の領域を含む、20×15画素の口唇領域の探索領域を検出用画像に対して設定しステップS308に移行する。
ステップS308では、ステップS306で設定された探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS310に移行する。
ステップS310では、ステップS308の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS312に移行し、そうでない場合(No)はステップS330に移行する。
ステップS312に移行した場合は、ステップS310で検出された口唇領域の位置情報を取得してステップS314に移行する。
ステップS314では、検出モードからトラッキングモードに設定を切り換えステップS316に移行する。
ステップS316では、ステップS310で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップS318に移行する。
ステップS318では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、15×15画素の口唇領域の探索領域を設定してステップS320に移行する。
ステップS320では、ステップS318で設定された15×15画素の探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS322に移行する。
ステップS322では、ステップS320の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS324に移行し、そうでない場合(No)はステップS330に移行する。
ステップS324に移行した場合は、ステップS322で検出された口唇領域の位置情報を取得してステップS326に移行する。
ステップS326では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS316に移行し、そうでない場合(No)はステップS328に移行する。
ステップS328に移行した場合は、取得した位置情報を特徴量抽出部14に伝送してステップS300に移行する。
また、ステップS330に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS332に移行し、そうでない場合(No)はステップS300に移行する。
ステップS332に移行した場合は、次フレームの検出用画像データを取得してステップS302に移行する。
更に、図11に基づき、特徴量抽出部14における特徴量の抽出処理の流れを説明する。図11は、特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。
図11に示すように、まずステップS400に移行し、口唇領域検出部13から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS402に移行し、そうでない場合(No)は取得するまで待機する。
ステップS402に移行した場合は、データ記憶部11に記憶された撮影画像から上記取得した位置情報に基づき口唇領域の画像を切り出してステップS404に移行する。
ステップS404では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップS406に移行する。
ステップS406では、窓関数による処理後の画像に対して、2次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップS408に移行する。
ステップS408では、ステップS406で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップS410に移行する。
ステップS410では、上記生成した特徴量を5フレーム分を一組にして発話区間判定部15に伝送してステップS400に移行する。
更に、図12に基づき、発話区間検出部15における発話区間の検出処理の流れを説明する。図12は、発話区間検出部15における発話区間の検出処理を示すフローチャートである。
図12に示すように、まずステップS500に移行し、特徴量抽出部14から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS502に移行し、そうでない場合(No)は取得するまで待機する。
ステップS502に移行した場合は、発話区間検出用HMMである発話用のHMM及び非発話用のHMMの各々に上記取得した5フレーム一組の特徴量を入力して、5フレーム毎の発話/非発話を判定してステップS504に移行する。
ステップS504では、ステップS502の判定結果に基づき、発話開始点の判定処理を行いステップS506に移行する。
ステップS506では、ステップS504の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS508に移行し、そうでない場合(No)はステップS500に移行する。
ステップS508に移行した場合は、ステップS502の判定結果に基づき、発話終了点の判定処理を行いステップS510に移行する。
ステップS510では、ステップS508に判定処理により、発話終了点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS512に移行し、そうでない場合(No)はステップS500に移行する。
ステップS512に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をCNSに伝送して処理を終了する。
更に、図13に基づき、発話区間判定部15における発話開始点判定処理の流れを説明する。図13は、発話区間判定部15における発話開始点判定処理を示すフローチャートである。
図13に示すように、まずステップS600に移行し、発話区間検出用HMMによる発話/非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS602に移行し、そうでない場合(No)は取得するまで待機する。
ステップS602に移行した場合は、上記判定結果に基づき、該当するフレームから発話状態が連続して2回続いたか否かを判定し、続いたと判定された場合(Yes)はステップS604に移行し、そうでない場合(No)は続くフレームに対して判定処理を継続する。
ステップS604に移行した場合は、該当フレームを1フレーム目(S1)として、このフレームを発話開始点の候補に設定してステップS606に移行する。
ステップS606では、S1から3フレーム目以降を状態「C」に遷移させてステップS608に移行する。
ステップS608では、状態「C」におけるフレームにおいて、非発話の状態が発生したか否かを判定し、非発話の状態が発生したと判定された場合(Yes)はステップS610に移行し、そうでない場合(No)はステップS620に移行する。
ステップS610に移行した場合は、非発話の発生したフレームの次フレーム以降を状態「D」に遷移させてステップS612に移行する。
ステップS612では、状態「D」におけるフレームにおいて、発話状態が発生したか否かを判定し発生したと判定された場合(Yes)はステップS614に移行し、そうでない場合(No)はステップS616に移行する。
ステップS614に移行した場合は、1フレーム目(S1)を発話開始点と判定して処理を終了する。
一方、ステップS616に移行した場合は、状態「D」におけるフレームにおいて、非発話状態が連続して10回続いたか否かを判定し、続いたと判定された場合(Yes)はステップS618に移行し、そうでない場合(No)はステップS612に移行する。
ステップS618に移行した場合は、1フレーム目(S1)を発話候補点から降格してステップS602に移行する。
一方、ステップS608において、状態「C」において非発話の状態が発生せずステップS620に移行した場合は、発話状態の発生回数をカウントすると共に、3フレーム連続して発話状態が発生したか否かを判定し、発生したと判定された場合(Yes)はステップS622に移行し、そうでない場合(No)はステップS608に移行する。
ステップS622に移行した場合は、1フレーム目(S1)を発話開始点と判定して処理を終了する。
更に、図14に基づき、発話区間判定部15における発話終了点判定処理の流れを説明する。図14は、発話区間判定部15における発話終了点判定処理を示すフローチャートである。
図14に示すように、まずステップS700に移行し、発話区間検出用HMMによる発話/非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS702に移行し、そうでない場合(No)は取得するまで待機する。
ステップS702に移行した場合は、フレームの順番に非発話の発生回数をカウントしてステップS704に移行する。
ステップS704では、非発話の状態が6回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップS706に移行し、そうでない場合(No)はステップS702に移行する。
ステップS706に移行した場合は、上記6回連続後のフレーム以降を状態「C」に遷移させてステップS708に移行する。
ステップS708では、発話の発生回数もカウントし、且つ、状態「C」におけるフレームにおいて、発話の状態が3回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップS710に移行し、そうでない場合(No)はステップS712に移行する。
ステップS710に移行した場合は、非発話の発生回数のカウントをクリアしてステップS702に移行する。
一方、ステップS712に移行した場合は、非発話の発生回数のカウントを継続して行いステップS714に移行する。
ステップS714では、非発話の発生回数がトータルで20回となったか否かを判定し、20回になったと判定された場合(Yes)はステップS716に移行し、そうでない場合(No)はステップS708に移行する。
ステップS716に移行した場合は、ステップS704における6回連続したフレームの1フレーム目(S1)を発話終了点と判定し処理を終了する。
以上、発話区間検出装置1は、画像撮影部10により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部11により、撮影画像データを記憶することが可能であり、画像処理部12により、撮影画像データをグレイスケール化し、且つ、サブ・サンプリングによりサイズを縮小することにより検出用画像を生成することが可能であり、口唇領域検出部13により、全体顔検出用SVM及び口唇領域検出用SVMを用いて検出用画像から口唇領域を検出することが可能であり、特徴量抽出部14により、検出された口唇領域の位置情報に基づき、元の撮影画像から口唇領域画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部15により、発話区間検出用HMMを用いて、発話区間の検出を行うことが可能である。
なお、上記実施の形態において、口唇画像の検出と同様に、専用のSVMにより眼の画像を検出し、その特徴量を抽出して専用のHMMを用いて眼の動きに関連する動作内容を判定できる構成としても良い。このような構成であれば、居眠り等の動作を判定することが可能となり、音声による警告を与える等の運転支援を行うことが可能となる。
また、上記実施の形態において、特徴量抽出部14において抽出された特徴量を、発話内容判定用のHMMに入力することにより、発話区間では無くて、発話内容を直接識別する構成も可能である。この場合は、予め不特定多数の人の様々な口唇画像を用いて学習により、「あ」、「い」等の発音内容を識別するためのHMMを作成する。このような構成であれば、口唇の動きのみから発話内容を判定することが可能となるので、音声情報が不要となり音声認識に必要なデータ量を削減することが可能となる。
また、上記実施の形態において、全体顔検出用SVM及び口唇領域検出用SVMを用いて、検出用画像から顔全体の画像領域及び口唇画像の領域を検出した後に、これらの位置関係を用いて撮影対象者の顔の向きを判定する構成も可能である。この構成により、例えば、発話者の顔向きの判定結果を用いて自動車内に設置された集音装置の集音部(マイク等)の向きを制御したり、自動車内に複数設置された集音部のうち、発話者の向いている方向にある集音部を選択して動作させる制御等を行うことにより、発話者の音声データをより確実且つ正確に取得することが可能となる。
上記実施の形態において、画像撮影部10及びデータ記憶部11による撮影対象者の画像データの取得処理は、請求項1、2、19、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、19、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、6、19、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、5、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対応する。
〔第1の実施の形態の変形例〕
次に、本発明の第1の実施の形態の変形例を図面に基づき説明する。図15乃至図19は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第1の実施の形態の変形例を示す図である。
上記第1の実施の形態と異なるのは、対象者の顔の向きに応じた発話区間検出用のHMMをそれぞれ設定した顔向き毎に用意する点、上記口唇領域検出部13において、対象者の顔の向きを判定すると共に、判定結果の顔向きに応じて検出する口唇領域の領域サイズを変更する点、発話区間検出部15において、前記判定結果の顔向きに応じた発話区間検出用のHMMを選択し、当該選択したHMMによって発話区間を検出する点である。以下、上記第1の実施の形態と異なる部分についてのみ説明し、上記第1の実施の形態と重複する部分については説明を省略する。
まず、上記第1の実施の形態の発話区間検出装置1における上記第1の実施の形態とは異なる部分を説明する。
データ記憶部11は、上記発話区間検出用のHMMとして、予め設定された複数方向の顔向きに対応して生成されたものを記憶する。
口唇領域検出部13は、上記第1の実施の形態の機能に加え、全体顔検出用SVMによって検出された撮影対象者の顔全体の領域と、口唇領域の位置情報とに基づき、撮影対象者の顔向き方向を判定する機能を有している。更に、この判定された顔向き方向に基づき、口唇領域の検出サイズを変更する。つまり、撮影対象者の顔向き方向によって、撮影される口唇部分の形状が異なるため、口唇部分を含むのに必要な口唇領域のサイズもそれに応じて異なってくるので、全ての形状を考慮した1種類のサイズにするよりも、形状に応じてサイズを可変とすることで、後段の処理を効率化し高性能化することが可能となる。なお、検出結果の情報及び顔向き方向の判定結果は、特徴量抽出部14に伝送される。
特徴量抽出部14は、口唇領域検出部13からの検出結果の情報及び顔向き方向の判定結果を取得すると、これらの情報に基づき、対応する元の撮影画像をデータ記憶部11から読み出し、当該読み出した画像から顔向き方向に応じたサイズの口唇領域の画像を切り取り、当該切り取った口唇領域画像から後述する発話区間検出用のHMMに入力する特徴量を抽出する。つまり、上記第1の実施の形態とは、顔向き方向に応じて切り出すサイズを変更している点が異なる。
発話区間検出部15は、口唇領域検出部13からの判定結果の顔向き方向の情報に基づき、当該顔向きに対応した発話区間検出用のHMMをデータ記憶部11から選択して読み出し、特徴量抽出部14から取得した口唇領域画像の特徴量を、当該選択した発話区間検出用のHMMに入力し、この入力に対するHMMからの出力に基づき、対象者の発話開始から終了までの発話区間を検出する。
更に、図15に基づき、本変形例における発話区間検出装置1のより具体的な動作を説明する。ここで、図15(a)〜(c)は、顔向きに応じて検出される口唇領域の一例を示す図である。
本変形例においては、インナーミラーの鏡面の向きと平行となるようにCCDカメラが設置されており、撮影対象者がインナーミラーの方を向くと当該撮影対象者の顔が正面から撮影されるようになっている。また、データ記憶部11は、撮影対象者が、運転席に座った状態において、右の窓の方を向いた方向(以下、右窓方向と略す)、右のドアミラーの方を向いた方向(以下、右ミラー方向と略す)、正面を向いた方向(以下、正面方向と略す)、インナーミラーの方を向いた方向(以下、インナーミラー方向と略す)、左のドアミラーの方を向いた方向(以下、左ミラー方向と略す)、左の窓の方を向いた方向(以下、左窓方向と略す)にそれぞれ対応する6種類の発話区間検出用のHMMが記憶されている。これらHMMは、それぞれの顔向き毎に、不特定多数の撮影対象者の撮影画像から抽出された口唇部分の画像の特徴量を学習データとして学習を行い生成されたもので、口唇部分の画像から抽出される特徴量を入力とし、撮影対象者の発話状態に対する尤度、非発話状態に対する尤度を出力とするものである。
本変形例において、口唇領域検出部13は、画像処理部12から検出用画像を取得すると、上記第1の実施の形態と同様に、検出モードに移行し、全体顔検出用SVMを用いて20×30画素の領域画像を顔全体の画像領域200として検出する。顔全体の画像領域200が検出されると、次に、上記第1の実施の形態と同様に、口唇領域検出用SVMを用いて10×10画素の口唇領域画像を検出する。更に、口唇領域画像が検出されるとその位置情報(座標情報)を取得し、顔全体の画像領域200と、当該取得した位置情報に基づき、撮影された画像における対象者の顔の向き(上記した6種類のいずれか)を判定する。具体的には、上記した6種類の顔の向きによって、顔全体の画像領域200における口唇部分の位置座標が異なるので、これら位置座標の違いからそれぞれの顔向きを判断する。更に、顔向きが判定されると、判定結果の顔向きに応じて縦×横が10×10画素の口唇領域を10×8画素、10×5画素等のサイズに変更する。
例えば、図15(a)〜(c)は、撮影対象者の顔向きが、正面方向、インナーミラー方向及び右窓方向のときの口唇領域の検出結果を示す図であるが、CCDカメラの設置位置との関係から、インナーミラー方向を向いているときに口唇部分が正面から撮影されるため口唇部分の画素数が最も多くなるので、図15(b)に示すように、口唇領域は10×10画素のサイズとなり、次いで、正面方向(又は左ミラー方向)を向いているときが口唇部分の画素数が二番目に多くなるので、図15(a)に示すように、10×10画素が10×8画素のサイズに変更され、右窓方向を向いたときの口唇部分の画素数が最も少なくなるので、図15(c)に示すように、10×10画素が10×8画素のサイズに変更される。図示しないが、10×8画素と10×5画素との間に、右ミラー方向及び左窓方向に対応したサイズ(例えば、10×7画素)がある。
このようにして、口唇領域のサイズが変更されると、次のフレームの検出用画像に対してトラッキングモードへと移行する。
口唇領域検出部13は、トラッキングモードに移行すると、上記第1の実施の形態と同様に、次のフレームの検出用画像に対して、図2(c)に示すように、前のフレームで検出された口唇領域画像の位置座標を中心に縦方向及び横方向に5画素ずつ広げた15×15画素の探索領域25を設定し、当該設定された探索領域25に対して10×10画素のサーチウィンドウ24により口唇領域のスキャニングを行う。スキャニングされた10×10画素の計100画素のグレイスケール値は、上記検出モードと同様に口唇領域検出用SVMに入力され、口唇領域の検出処理が行われる。なお、口唇領域が検出され、座標情報が取得されると、既に検出されている顔全体の画像領域200と座標情報とに基づき上記同様に顔向きを判定し、判定結果の顔向きに基づき口唇領域のサイズ変更を行う。また、本変形例においては、顔向き方向の情報及び口唇領域の中心座標が、特徴量抽出部14に伝送される。
特徴量抽出部14は、口唇領域検出部13から各フレームの検出用画像における顔向き方向の情報及び口唇領域の中心座標を取得すると、データ記憶部11によって記憶された対応する撮影画像から、前記取得した中心座標を中心に顔向き方向に応じた画素数(例えば、縦×横が64×48画素〜64×64画素の範囲)のグレイスケールの口唇画像を切り出す。つまり、上記口唇領域と同様に、インナーミラー方向を最大サイズ(64×64画素)とし、右窓方向を最小サイズ(64×48画素)にする。以降は、上記第1の実施の形態と同様の処理を行い、口唇画像の振幅スペクトルを特徴量として求める。そして、このような特徴量の抽出を1フレーム毎に実施し、抽出した特徴量を、撮影した順番に5フレーム分を一組として、発話区間検出部15に伝送すると共に、5フレーム一組に対応した顔向き判定結果を発話区間検出部15に伝送する。
発話区間検出部15は、特徴量抽出部14から顔向き判定結果及び5フレーム一組の特徴量を取得すると、まず、顔向き判定結果に基づき、データ記憶部11から当該顔向き方向に対応する発話区間検出用のHMMを選択して読み出す。つまり、上記した6種類の顔向き方向に対応したHMMから、判定結果の顔向きに対応したHMMを選択する。以降は、選択したHMMを用いて、上記第1の実施の形態と同様の処理によって、発話区間が検出される。
更に、図16に基づき、本変形例における口唇領域検出部13における口唇領域の検出処理の流れを説明する。図16は、第1の実施の形態の変形例の口唇領域検出部13における口唇領域の検出処理を示すフローチャートである。
図16に示すように、まずステップS800に移行し、画像処理部12から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS802に移行し、そうでない場合(No)は取得するまで待機する。
ステップS802に移行した場合は、検出モードに移行し、検出用画像における20×30画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用SVMを用いて識別処理を行いステップS804に移行する。
ステップS804では、ステップS802の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS806に移行し、そうでない場合(No)はステップS838に移行する。
ステップS806に移行した場合は、上記検出された顔全体の領域画像における下半分の領域を含む、20×15画素の口唇領域の探索領域を検出用画像に対して設定しステップS808に移行する。
ステップS808では、ステップS806で設定された探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS810に移行する。
ステップS810では、ステップS808の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS812に移行し、そうでない場合(No)はステップS838に移行する。
ステップS812に移行した場合は、ステップS810で検出された口唇領域の位置情報を取得してステップS814に移行する。
ステップS814では、ステップS804で検出された顔全体の領域画像と、ステップS812で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップS816に移行する。
ステップS816では、ステップS814で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップS818に移行する。ここで、領域サイズの決定は、CCDカメラに対して撮影対象者の顔が正面となる顔向き方向(インナーミラー方向)において、10×10画素の最大サイズとし、その他の顔向きの場合は、顔向き方向に応じて予め設定された10×10画素よりも小さいサイズの領域に変更する。
ステップS818では、検出モードからトラッキングモードに設定を切り換えステップS820に移行する。
ステップS820では、ステップS810で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップS822に移行する。
ステップS822では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、15×15画素の口唇領域の探索領域を設定してステップS824に移行する。
ステップS824では、ステップS822で設定された15×15画素の探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS826に移行する。
ステップS826では、ステップS824の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS828に移行し、そうでない場合(No)はステップS838に移行する。
ステップS828に移行した場合は、ステップS826で検出された口唇領域の位置情報を取得してステップS838に移行する。
ステップS830では、ステップS804で検出された顔全体の領域画像と、ステップS828で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップS832に移行する。
ステップS832では、ステップS830で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップS834に移行する。
ステップS834では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS820に移行し、そうでない場合(No)はステップS836に移行する。
ステップS836に移行した場合は、取得した位置情報及び判定結果の顔向き方向の情報を特徴量抽出部14に伝送してステップS800に移行する。
また、ステップS838に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS840に移行し、そうでない場合(No)はステップS800に移行する。
ステップS840に移行した場合は、次フレームの検出用画像データを取得してステップS802に移行する。
更に、図17に基づき、特徴量抽出部14における特徴量の抽出処理の流れを説明する。図17は、特徴量抽出部14における特徴量の抽出処理を示すフローチャートである。
図17に示すように、まずステップS900に移行し、口唇領域検出部13から顔向き方向の情報及び位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS902に移行し、そうでない場合(No)は取得するまで待機する。
ステップS902に移行した場合は、データ記憶部11に記憶された撮影画像から上記取得した顔向き方向情報及び位置情報に基づき、顔向き方向に応じたサイズの口唇領域の画像を切り出してステップS904に移行する。ここで、顔向き方向に応じたサイズとは、CCDカメラに対して撮影対象者の顔が正面となる顔向き方向(インナーミラー方向)において、最大サイズとし、その他の顔向きの場合は、顔向き方向に応じて予め設定された最大サイズよりも小さいサイズの領域となる。
ステップS904では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップS906に移行する。
ステップS906では、窓関数による処理後の画像に対して、2次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップS908に移行する。
ステップS908では、ステップS906で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップS910に移行する。
ステップS910では、上記生成した特徴量を5フレーム分を一組にして発話区間判定部15に伝送してステップS900に移行する。
更に、図18に基づき、発話区間検出部15における発話区間の検出処理の流れを説明する。図18は、第1の実施の形態の変形例の発話区間検出部15における発話区間の検出処理を示すフローチャートである。
図18に示すように、まずステップS1000に移行し、特徴量抽出部14から顔向き方向の情報及び特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1002に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1002に移行した場合は、顔向き方向の情報に基づき、データ記憶部11に記憶された複数方向の顔向きに対応した発話区間検出用のHMMから、顔向き方向の情報の示す顔向き方向に対応したHMMを選択して読み出しステップS1004に移行する。
ステップS1004では、ステップS1002で選択した、発話区間検出用のHMMである発話用のHMM及び非発話用のHMMの各々に上記取得した5フレーム一組の特徴量を入力して、5フレーム毎の発話/非発話を判定してステップS1006に移行する。
ステップS1006では、ステップS1004の判定結果に基づき、発話開始点の判定処理を行いステップS1008に移行する。
ステップS1008では、ステップS1006の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS1010に移行し、そうでない場合(No)はステップS1000に移行する。
ステップS1010に移行した場合は、ステップS1004の判定結果に基づき、発話終了点の判定処理を行いステップS1012に移行する。
ステップS1012では、ステップS1010に判定処理により、発話終了点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS1014に移行し、そうでない場合(No)はステップS1000に移行する。
ステップS1014に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をCNSに伝送して処理を終了する。
更に、本変形例の効果を示すために、図19に基づき、上記第1の実施の形態における発話区間の検出方法と、本変形例における発話区間の検出方法とを比較する。ここで、図19は、顔向きを考慮しないHMMを用いた場合と、考慮したHMMを用いた場合とにおける発話区間の識別確率を示す図である。つまり、上記第1の実施の形態における顔向き方向を考慮しない全方向に対応した1種類のHMMを用いて発話区間の検出をおこなった実施例における当該発話区間の識別確率と、本変形例で用いた上記6種類の顔向き方向毎にそれぞれ生成された6種類のHMMを用いて発話区間の検出を行った実施例における当該発話区間の識別確率とを比較する。
図16の例においては、撮影対象者の顔向き方向を考慮せずに、本変形例で説明した撮影対象者の上記6種類の顔向き方向に対するそれぞれの発話区間を、全顔向き方向に対応した1種類のHMMを用いて検出した場合の識別確率と、撮影対象者の顔向き方向を考慮して、上記6種類の顔向き方向毎にそれぞれ対応したHMMを生成し、これら6種類のHMMを用いて、上記6種類の顔向き方向に対するそれぞれの発話区間を検出した場合の識別確率とが示されている。
上記第1の実施の形態の方法の識別確率と、本変形例の方法の識別確率とを比較してみると、CCDカメラの撮影方向に対する、撮影対象者の顔向き方向の角度が特に大きくなる右ミラー方向と右窓方向において、本変形例の顔向きを考慮した方法が、上記第1の実施の形態の方法より4%も識別確率が向上しているのが解る。これは、前記角度が異なることによって、CCDカメラによって撮影される口唇部分の画像形状が、角度の大きさに応じて異なる形状となってくるためである。つまり、口唇部分の画像の変形度合いが大きければ大きいほど(前記角度が大きければ大きいほど)、変形度合いが小さい(前記角度が小さい)画像から抽出される特徴量とは違った特徴量が抽出されるようになるため、このように角度によって違った特徴量が得られるものに対して1種類のHMMを用いて発話区間を検出するよりも、それぞれの方向(角度範囲)に応じたHMMを用いた方が発話区間の検出精度が向上する。このことは、図16に示すように、HMMを各顔向き方向毎に作成した方が、1種類のHMMで全方向の発話区間を検出するよりも、全ての方向において識別確率が向上していることからも解る。
以上、本変形例における発話区間検出装置1は、画像撮影部10により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部11により、撮影対象者の複数方向の顔向き方向に対応した発話区間検出用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部12により、撮影画像データをグレイスケール化し、且つ、サブ・サンプリングによりサイズを縮小することにより検出用画像を生成することが可能であり、口唇領域検出部13により、全体顔検出用SVM及び口唇領域検出用SVMを用いて検出用画像から口唇領域を検出すると共に、顔全体の領域画像と検出した口唇領域の座標情報とに基づき、撮影対象者の顔向き方向を判定し、当該判定結果に基づき口唇領域の検出サイズを変更することが可能であり、特徴量抽出部14により、検出された口唇領域の位置情報及び判定結果の顔向き方向に基づき、元の撮影画像から顔向き方向に応じたサイズの口唇領域画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部15により、判定結果の顔向き方向に対応した発話区間検出用のHMMを用いて、発話区間の検出を行うことが可能である。
上記実施の形態において、画像撮影部10及びデータ記憶部11による撮影対象者の画像データの取得処理は、請求項1、2、4、19、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、3、19、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
また、上記実施の形態において、口唇領域検出部13による位置情報の取得処理は、請求項4又は23記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、4、6、19、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、4、5、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対応する。
〔第2の実施の形態〕
次に、本発明の第2の実施の形態を図面に基づき説明する。図20〜図30は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第2の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の覚醒状態を判定する覚醒状態判定装置に適用した場合を説明する。
まず、本発明に係る覚醒状態判定装置の構成を図20に基づき説明する。図20は、本発明に係る覚醒状態判定装置の構成を示すブロック図である。
図20に示すように、覚醒状態判定装置2は、画像撮影部30と、データ記憶部31と、画像処理部32と、眼領域検出部33と、特徴量抽出部34と、覚醒状態判定部35とを含んだ構成となっている。なお、本実施の形態において、覚醒状態判定装置2は、自動車室内に設置され、且つ、図示しない自動車室内に設置された警報システムと連動可能に接続される。そして、覚醒状態判定装置2の出力は警報システムに入力され、警報システムは入力された情報に基づき、運転者が睡眠状態や睡眠しかかった状態にあると判定された場合には、判定結果の画面表示、警告音や警告音声メッセージを発する等の動作を行う。
画像撮影部30は、CCD(charge coupled device)カメラを含んだ構成となっており、フレーム単位で撮影した画像をデジタルのデータで出力する。そして、出力画像データは、データ記憶部31に伝送される。本実施の形態において、CCDカメラは、自動車室内におけるインナーミラーに、運転席に座った人(運転手)の顔全体を含む像を撮影可能な状態で取り付けられている。なお、CCDカメラの設置位置は、インナーミラーに限らず、撮影対象者の顔全体を含む画像が撮影可能な位置であれば、ステアリング・コラム位置、センター・パネル位置、フロント・ピラー位置等の別の場所でも良い。
データ記憶部31は、全体顔検出用SVM、眼領域検出用SVM、覚醒状態判定用のHMM、画像撮影部30によって撮影された画像等、覚醒状態の判定に必要なデータを記憶する。
画像処理部32は、眼領域検出部33において行われる、撮影画像から眼領域を検出する処理の前処理として、画像サイズの縮小等を行う。以下、画像サイズの縮小された撮影画像を検出用画像と称すこととする。
眼領域検出部33は、SVMを用いて画像処理部32から取得した検出用画像から撮影対象者の眼領域を検出する。本実施の形態においては、検出用画像から撮影対象者の顔全体の領域200を検出する全体顔検出用SVMと、全体顔検出用SVMによって検出された全体顔画像から撮影対象者の左眼を含む左眼領域(右眼は含まない)を検出する左眼領域検出用SVMとの2種類のSVMを用いて2段階で左眼領域を検出する。また、一度左眼領域が検出されると、次のフレームの検出用画像に対しては、前のフレームで検出された左眼領域の位置情報(例えば、画像の左上の画素を座標(1,1)とした場合の座標情報)に基づき左眼領域の探索範囲を設定し、この探索範囲に対して左眼領域検出用SVMを適用する。つまり、一度左眼領域が検出されると、左眼領域が未検出となるまで次フレームからの検出用画像に対して全体顔検出用SVMによる顔全体の画像領域の検出処理を省略する。このとき、最初に左眼領域を検出する際の探索範囲よりも狭い範囲の探索範囲を設定することで左眼領域の検出処理を高速化する。以下、上記した2種類のSVMを用いた左眼領域の検出処理を行うモードを検出モードと称し、前のフレームで検出された左眼領域の位置情報に基づき左眼領域の探索範囲を設定し、この探索範囲に対して左眼領域検出用SVMを適用して左眼領域の検出処理を行うモードをトラッキングモードと称すこととする。なお、検出結果の情報は、特徴量抽出部34に伝送される。
特徴量抽出部34は、眼領域検出部33からの検出結果の情報を取得すると、この情報に基づき、対応する元の撮影画像をデータ記憶部11から読み出し、当該読み出した画像から左眼領域の画像を切り取り、当該切り取った左眼領域画像から後述する覚醒状態判定用のHMMに入力する特徴量を抽出する。本実施の形態においては、抽出した特徴量に対して、主成分分析や独立成分分析を用いて次元数の削減を行う。また、本実施の形態においては、切り取った左眼領域画像をフーリエ変換してその周波数スペクトル成分を特徴量として抽出する。また、抽出された特徴量は、連続する所定フレーム(例えば、10フレーム)分を一組として覚醒状態判定部35に伝送される。
覚醒状態判定部35は、特徴量抽出部34から取得した左眼領域画像の特徴量を覚醒状態判定用のHMMに入力し、この入力に対するHMMからの出力に基づき、対象者の覚醒状態を判定する。判定結果の情報は、図示しない警報システムに伝送される。
ここで、本実施の形態において、覚醒状態判定装置2は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。
また、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。
更に、図21〜図27に基づき、覚醒状態判定装置2のより具体的な動作を説明する。ここで、図21(a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。また、図22は、1回のまばたきに対する覚醒状態判定用の筋電図波形の構成を示す図である。また、図23は、まばたき波形のパターンを示す図である。図24は、図23における波形Oに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図であり、図25は、図23における波形Aに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図であり、図26は、図23における波形Bに対する覚醒状態判定用HMMの出力と筋電図波形との一致関係を示す図である。また、図27は、まばたきの間隔と群発の波形パターンの一例を示す図である。
覚醒状態判定装置2は、覚醒状態の判定処理が開始されると、まず、画像撮影部10において、インナーミラーに取り付けられたCCDカメラにより、図21(a)に示すような自動車の運転席に座っている撮影対象者(運転者)の顔全体を含む画像を撮影し、この撮影された画像データを、フレーム(ここでは、1/30秒とする)単位で且つ撮影した順番にデータ記憶部31に記憶する。ここで、本実施の形態において撮影画像はカラー画像とする。データ記憶部31は、撮影画像データを記憶すると、そのことを画像処理部32に通知する。
画像処理部32は、データ記憶部31からの通知を受けると、当該データ記憶部31から撮影画像データを読み出し、読み出した画像データに対してサブ・サンプリングによる画像サイズの縮小処理を行う。例えば、撮影画像が640×480(縦×横)画素のサイズのフルカラー画像であったとすると、画像の縦及び横方向にそれぞれ1/8にサブ・サンプリングされ80×60(縦×横)画素のサイズの画像に変換される。サブ・サンプリングは、例えば、640×480画素の撮影画像を、80×80画素の矩形領域単位に分割し、各矩形領域を当該各矩形領域の画素の輝度値の平均値を輝度値とした1画素に置換することにより行われる。これにより、画素数を1/64に減少する。このようにして生成された検出用画像は、眼領域検出部33に伝送される。
眼領域検出部33は、画像処理部32から検出用画像を取得すると、検出モードに移行し、上記第1の実施の形態と同様の方法により、80×60画素の検出用画像の全体に対して、20×20画素のサーチウィンドウにより顔全体の画像領域のスキャニングを行う。更に、スキャニングされた20×20画素の計400画素の画素値を400次元の値として全体顔検出用SVMに入力する。全体顔検出用SVMでは、予め400次元空間における全体顔クラスと非全体顔クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い20×20画素の領域画像を顔全体の画像領域として検出する。顔全体の画像領域200が検出されると、次に、上記第1の実施の形態と同様の方法により、顔全体の画像領域200の上半分の画像領域(左眼を含む領域)を含む10×20(縦×横)画素の探索領域26を設定し、当該設定した探索領域に対して4×8(縦×横)画素のサーチウィンドウ27により左眼領域のスキャニングを行う。つまり、実際の画像においては、図21(b)に示すようになる。そして、スキャニングされた4×8画素の計32画素の画素値を32次元の値として左眼領域検出用SVMに入力する。左眼領域検出用SVMでは、予め32次元空間における左眼領域クラスと非左眼領域クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離(ユークリッド距離等)により両者の類似度を判定し、最も類似度の高い4×8画素の領域画像を左眼領域画像として検出する。更に、左眼領域画像が検出されるとその位置情報(座標情報)を取得し、次のフレームの検出用画像に対してトラッキングモードへと移行する。
眼領域検出部33は、トラッキングモードに移行すると、次のフレームの検出用画像に対して、上記第1の実施の形態と同様の方法により、前のフレームで検出された左眼領域画像の位置座標を中心に縦方向及び横方向に5画素ずつ広げた15×15画素の探索領域28を設定し、当該設定された探索領域に対して4×8画素のサーチウィンドウにより左眼領域のスキャニングを行う。実際の画像においては、図21(c)に示すようになる。スキャニングされた4×8画素の計32画素の画素値は、上記検出モードと同様に左眼領域検出用SVMに入力され、左眼領域の検出処理が行われる。なお、左眼領域が検出されると、本実施の形態においては、左眼領域の中心座標が特徴量抽出部34に伝送される。また、トラッキングモードにおいては、左眼領域の検出が成功している間はこのモードを維持し、左眼領域の検出が失敗した場合は顔検出モードへと移行する。
特徴量抽出部34は、左眼領域検出部33から各フレームの検出用画像における左眼領域の中心座標を取得すると、データ記憶部31によって記憶された対応する撮影画像から、前記取得した中心座標を中心に4×8画素の左眼領域画像を切り出す。そして切り出した各フレームの左眼領域画像に対して、FFTなどにより分散フーリエ変換処理を施し、その変換後の実部係数と、1つ前のフレームの左眼領域画像の分散フーリエ変換後の実部係数との差分値を特徴量として求める。なお、特徴量としては、他にも、左目領域画像をフーリエ変換した周波数スペクトル成分、左目領域画像をフーリエ変換した周波数スペクトルに対する対数成分、左目領域画像をフーリエ変換した周波数スペクトルに対しての前後のフレームとのフレーム間差分成分、左目領域画像に対するメル・ケプストラム(MFCC)成分、左目領域画像に対するフレーム内モーメント成分、左目領域画像に対するフレーム間モーメント成分、左目領域画像をフーリエ変換した周波数スペクトルに対するフレーム内モーメント成分、左目領域画像をフレーム変換した周波数スペクトルに対するフレーム間モーメント成分などや、これらの組合せなどがある。これらは、システムの構成などに応じて適切なものを用いるようにする。
本実施の形態において、求めた特徴量は、更に、上記第1の実施の形態と同様に、演算量削減及び識別に無用な情報の除去のために主成分分析によって次元削減を行う。このような特徴量の抽出を1フレーム毎に実施し、抽出した特徴量を、撮影した順番に所定フレーム(例えば、10フレーム)分を一組として、覚醒状態判定部35に伝送する。ここで、所定フレーム(例えば、10フレーム)分を一組とすることで、まばたき1回分の画像に対する特徴量を含ませるようにしている。
覚醒状態判定部35は、特徴量抽出部34から所定フレーム(例えば、10フレーム)一組の特徴量を取得すると、この特徴量を覚醒状態判定用のHMMに入力する。
ここで、図22及び図23に基づき、覚醒状態の判定に有効なまばたきの特性について説明する。まばたきの特性を識別するための要素として、図22に示すように、1回のまばたきの筋電図波形における、振幅、瞼を開いた状態(図22中の開始点)から閉じ(図22中の頂点)、そして再び開くまでにかかる時間(まばたきの速度)、振幅が50%の位置におけるまばたき速度(図22中の振幅50%ウィンドウ持続時間)、瞼を開いた状態(図22中の開始点)から瞼が閉じるまでの時間(図22中の閉瞼時間)、振幅が50%の位置から瞼が閉じるまでの時間(図22中の下降時間)などがある。また、生理学においては、まばたきに対する筋電図波形として、図23に示すように、人間の覚醒時の標準のまばたき波形である波形O、標準波形O以外の波形A〜波形Lといったように、様々なまばたき波形が確認されている。これらまばたき波形の中でも、特に眠気のある状態(以下、眠気状態という)を判断するのに代表的な波形は、波形A及び波形Bであり、1回1回のまばたきの振幅及びまばたきの速度から、これら波形A及び波形Bの判断を行い、これらの出現パターンや出現頻度などを解析することによって、対象者が覚醒状態にあるか否かを高精度に判定することが可能である。
従って、本実施の形態においては、上記特徴量抽出部34で抽出された特徴量を入力とし、上記標準のまばたき波形O、まばたき波形A、まばたき波形B、及びこれら以外のまばたき波形(波形C〜L)の計4種類の波形に対する尤度を出力とする覚醒状態判定用のHMMを用意する。つまり、不特定多数の人の左眼に対する1回のまばたきに対応したまばたき映像(動画像)に対して、まばたきの振幅や速度でラベル付け(波形O、A、B、これら以外の波形(波形C〜L)に分類)を行い、これらの映像から検出された左眼領域画像から抽出された特徴量を学習データとしてHMMによる学習を行い、上記4種類の波形の各波形をそれぞれ識別可能な4種類のHMM(各波形に1対1に対応したHMM)を生成する。
覚醒状態判定部35は、上記のようにして生成された4種類の覚醒状態判定用のHMMに対して、特徴量抽出部34から取得した所定フレーム(例えば、10フレーム)一組の特徴量をそれぞれ入力して、上記4種類のまばたき波形にそれぞれ対応したHMMのいずれが最も高い尤度を出力するかを調べ、最も出力尤度が高かったまばたき波形を、入力された特徴量に対する対象者の1回のまばたきの波形として確定する。
ここで、図24〜図26に基づき、覚醒状態判定用のHMMを用いて上記波形O、A、Bを識別することの有効性を説明する。図24〜図26は、実際に、被験者に電極を右眼及び左眼の筋電位測定位置にそれぞれ付けてもらい、1回のまばたきに対する筋電位の変化を測定した際の筋電図の筋電位波形と、このときの被験者の撮影画像から1回のまばたきに対する左眼領域画像を本発明の手法を用いて検出し、当該検出した左眼領域画像の1回のまばたき分の特徴量を、上記4種類の覚醒状態判定用のHMMにそれぞれ入力し、これらの出力のうち最も尤度が高くなるHMMに対応した波形とを示した図である。図24〜図26に示す画面は、いずれも検証用のアプリケーションソフトの画面を図面化したものであり、画面の上部に表示されるまばたきの動画(左眼のみ)に合わせて、当該動画の下に右眼及び左眼の筋電位の測定波形(筋電図波形)が表示され、このまばたき動画に対して本発明を適用して識別した波形O、A、B、それ以外の波形の4種類の波形のいずれかの識別結果の情報が画面右側に表示される。図24は、被験者が標準のまばたきに分類されるまばたきをしたときの筋電図波形と、覚醒状態判定用のHMMによって識別された波形とが表示された画面を示す図であるが、このときのまばたきの映像から抽出される特徴量に対して覚醒状態判定用のHMMはその識別結果として、図24の画面右側に示すように、波形O(通常のまばたき波形)を表示しており、被験者のまばたき波形の種類を正確に識別していることが解る。同様に、図25、図26は、眠気状態の判定において代表的なまばたき波形である、波形A及び波形Bに分類されるまばたきを被験者がしたときの筋電図波形と、このときのまばたきの映像から抽出される特徴量に対して覚醒状態判定用のHMMによって識別された波形とをそれぞれ示す図であるが、これらに対しても、覚醒状態判定用のHMMはその識別結果として、図25及び図26に示すように、波形A及び波形Bをそれぞれ表示しており、被験者のまばたき波形の種類を正確に識別していることが解る。
また、上記図24〜図26に示したようなまばたき波形の識別を、多くの被験者に対して行ったところ、標準のまばたき(波形O)に分類されるまばたきに対しては「99%」の識別率が得られ、眠気状態の判定において代表的なまばたきである、波形Aに分類されるまばたきに対しては「84%」、波形Bに分類されるまばたきに対しては「79%」の識別率がそれぞれ得られた。
従って、覚醒状態判定用のHMMを用いて、筋電位測定のための電極などを装着することなく、撮影対象者に非接触で撮影対象者の左眼領域映像から1回のまばたきに対するまばたき波形の識別を行うことは有効であると言える。
更に、覚醒状態判定部35は、まばたき波形の種類が確定すると、以前に確定されたまばたき波形と合わせて、各波形の出現パターンや出現頻度等を解析し、当該解析結果に基づき対象者の覚醒状態(覚醒している状態、睡眠しかかっている状態、睡眠状態など)を判定する。本実施の形態においては、1回1回のまばたき波形の識別結果を所定の時間単位でヒストグラム処理することにより、4つのまばたきパターンの発生頻度変化を捉え、対象者の覚醒状態の推定を行う。具体的には、波形A〜波形Lの発生頻度が高くなってきた場合に覚醒状態が低くなった(眠気が増した)と判断する。また、生理学において、図27に示すように、眠気が増してきたときにおいてまばたきの群発と言われる現象が起こることが知られている。このことから、本実施の形態においては、識別された上記4種類のまばたき波形の出現間隔を求め、まばたきが連続的に発生する頻度が高くなった場合には、この状態も覚醒状態が低くなった(眠気が増した)と判断する。このようにして判定(推定)された判定結果の情報は、図示しない警報システムへと出力される。
更に、図28に基づき、眼領域検出部33における左眼領域の検出処理の流れを説明する。図28は、眼領域検出部33における左眼領域の検出処理を示すフローチャートである。
図28に示すように、まずステップS1100に移行し、画像処理部32から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1102に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1102に移行した場合は、検出モードに移行し、検出用画像における20×20画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用SVMを用いて識別処理を行いステップS1104に移行する。
ステップS1104では、ステップS1102の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS1106に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1106に移行した場合は、上記検出された顔全体の領域画像における上半分の領域を含む、10×20画素の眼領域の探索領域を検出用画像に対して設定しステップS1108に移行する。
ステップS1108では、ステップS1106で設定された探索領域における4×8画素のサーチウィンドウによりスキャニングした領域に対して左眼領域検出用SVMを用いて識別処理を行いステップS1110に移行する。
ステップS1110では、ステップS1108の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS1112に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1112に移行した場合は、ステップS1110で検出された左眼領域の位置情報を取得してステップS1114に移行する。
ステップS1114では、検出モードからトラッキングモードに設定を切り換えステップS1116に移行する。
ステップS1116では、ステップS1110で左眼領域の検出された検出用画像の次フレームの画像データを取得してステップS1118に移行する。
ステップS1118では、一つ前のフレームの検出用画像における左眼領域の位置情報に基づき、15×15画素の左眼領域の探索領域を設定してステップS1120に移行する。
ステップS1120では、ステップS1118で設定された15×15画素の探索領域における4×8画素のサーチウィンドウによりスキャニングした領域に対して左眼領域検出用SVMを用いて識別処理を行いステップS1122に移行する。
ステップS1122では、ステップS1120の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS1124に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1124に移行した場合は、ステップS1122で検出された左眼領域の位置情報を取得してステップS1126に移行する。
ステップS1126では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS1116に移行し、そうでない場合(No)はステップS1128に移行する。
ステップS1128に移行した場合は、取得した位置情報を特徴量抽出部34に伝送してステップS1100に移行する。
また、ステップS1130に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップS1132に移行し、そうでない場合(No)はステップS1100に移行する。
ステップS1132に移行した場合は、次フレームの検出用画像データを取得してステップS1102に移行する。
更に、図29に基づき、特徴量抽出部34における特徴量の抽出処理の流れを説明する。図29は、特徴量抽出部34における特徴量の抽出処理を示すフローチャートである。
図29に示すように、まずステップS1200に移行し、眼領域検出部33から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1202に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1202に移行した場合は、データ記憶部31に記憶された撮影画像から上記取得した位置情報に基づき左眼領域の画像を切り出してステップS1204に移行する。
ステップS1204では、窓関数により、右眼や眉などの左眼以外の画像による影響を少なくする処理を行いステップS1206に移行する。
ステップS1206では、窓関数による処理後の画像に対して、分散フーリエ変換処理を施し、左眼領域画像の振幅スペクトルを得てステップS1208に移行する。
ステップS1208では、ステップS1206で得られた振幅スペクトルと、一つ前のフレームの振幅スペクトルとにおける実部係数の差分を算出してステップS1210に移行する。
ステップS1210では、ステップS1208で算出された実部係数の差分に対して主成分分析を行い、実部係数の次元数を削減して特徴量を生成しステップS1212に移行する。
ステップS1212では、上記生成した特徴量の所定フレーム(例えば、10フレーム)分を一組にして覚醒状態判定部35に伝送してステップS1200に移行する。
更に、図30に基づき、覚醒状態判定部35における覚醒状態の判定処理の流れを説明する。図30は、覚醒状態判定部35における覚醒状態の判定処理を示すフローチャートである。
図30に示すように、まずステップS1300に移行し、特徴量抽出部34から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1302に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1302に移行した場合は、覚醒状態判定用HMMである、上記4種類のまばたき波形をそれぞれ識別する4種類のHMMに上記取得した所定フレーム(例えば、10フレーム)一組の特徴量をそれぞれ入力して、これら4種類のHMMの尤度に基づく所定フレーム毎のまばたき波形の種類を判定してステップS1304に移行する。
ステップS1304では、ステップS1302の判定結果を、データ記憶部31に判定順に記憶してステップS1306に移行する。
ステップS1306では、データ記憶部31に所定期間分の判定結果が蓄積されたか否かを判定し、蓄積されたと判定された場合(Yes)は、ステップS1308に移行し、そうでない場合(No)は、ステップS1300に移行する。
ステップS1308に移行した場合は、所定期間の判定結果に基づき、覚醒状態を判定してステップS1310に移行する。ここで、覚醒状態の判定は、所定期間のまばたき波形の判定結果に基づき、各波形パターンをヒストグラム処理して、各まばたき波形パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形O以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。
ステップS1310では、ステップS1308で判定された結果を警報システムに伝送して処理を終了する。
以上、本変形例における覚醒状態判定装置2は、画像撮影部30により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部31により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部32により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部33により、全体顔検出用SVM及び左眼領域検出用SVMを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部34により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部35により、覚醒状態判定用のHMMを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第2の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。
上記実施の形態において、画像撮影部30及びデータ記憶部31による撮影対象者の画像データの取得処理は、請求項1、2、19、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部32及び眼領域検出部33による撮影画像からの左眼領域の検出処理は、請求項2、19、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
また、上記実施の形態において、眼領域検出部33による位置情報の取得処理は、請求項4又は23記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部34は、請求項1、2、13、14、15、16、17、19、22及び25のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部35は、請求項1、2、5、13、14、15、16、17、18、22、23及び25のいずれか1項に記載の動作内容判定手段に対応する。
なお、上記第1の実施の形態及び上記第1の実施の形態の変形例においては、撮影画像から検出した口唇領域画像から、発話区間の検出、発話内容の検出を行っているが、これに限らず、ガムを噛んでいる状態や、欠伸をしている状態など他の動作内容を判定するようにしても良い。
また、上記第1の実施の形態又は上記第1の実施の形態の変形例における発話区間検出装置1の機能と、上記第2の実施の形態における覚醒状態判定装置2の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。
また、上記第1及び第2の実施の形態においては、撮影画像から口唇領域画像を検出して、口唇の動きに関連した動作内容(発話区間)の判定と、撮影画像から眼の画像を検出して、眼の動きに関連した動作内容(居眠り等)の判定を行っているが、これに限らず、その他の顔を構成する鼻や眉等の部位の画像を検出し、これらの動きに関連した動作内容を判定するようにしても良い。
また、上記第2の実施の形態においては、上記第1の実施の形態の変形例のように対象者の顔向き方向を考慮していないが、これに限らず、対象者の顔向き方向を考慮し、各顔向き方向に対応した覚醒状態判定用のHMMを用意し、顔向き方向を判定して、これらHMMから判定された顔向き方向に対応したHMMを選択し、当該選択したHMMを用いて、対象者のまばたき波形の種類判定を行う構成としても良い。これにより、より高精度にまばたき波形の種類を判定することが可能となる。
産業上の利用の可能性
以上説明したように、本発明に係る請求項1記載の動作内容判定装置によれば、公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。
また、請求項2記載の動作内容判定装置によれば、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。
また、請求項3記載の動作内容判定装置によれば、請求項1又は請求項2の前記効果に加え、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。
また、請求項4記載の動作内容判定装置によれば、請求項1乃至請求項3のいずれか1の前記効果に加え、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
また、請求項5記載の動作内容判定装置によれば、請求項1乃至請求項4のいずれか1の前記効果に加え、動作内容の判定処理の時間解像度を向上させることが可能となる。
また、請求項6記載の動作内容判定装置によれば、請求項1乃至請求項5のいずれか1の前記効果に加え、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能である。
また、請求項7記載の動作内容判定装置によれば、請求項6の前記効果に加え、HMMによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項8及び請求項9記載の動作内容判定装置によれば、請求項7の前記効果に加え、HMMの出力が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能である。
また、請求項10記載の動作内容判定装置によれば、請求項6乃至請求項9のいずれか1の前記効果に加え、HMMによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項11及び請求項12記載の動作内容判定装置によれば、請求項6乃至請求項10のいずれか1の前記効果に加え、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能である。
また、請求項13記載の動作内容判定装置によれば、請求項1乃至請求項12のいずれか1の前記効果に加え、居眠り等の動作内容を判定することが可能である。
また、請求項14記載の動作内容判定装置によれば、請求項13の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等の対象者のまばたきの種類を精度良く判定することが可能である。
また、請求項15記載の動作内容判定装置によれば、請求項13の前記効果に加え、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度(筋電位の変化時間)と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項16記載の動作内容判定装置によれば、請求項13の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項17記載の動作内容判定装置によれば、請求項13の前記効果に加え、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
また、請求項18記載の動作内容判定装置によれば、請求項17の前記効果に加え、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
また、請求項19記載の動作内容判定装置によれば、HMMを用いることにより、時間的概念を伴う発話動作の状態を判定することができるので、音声情報が無くても口唇の動きから高精度に発話内容の判定を行うことが可能である。
また、請求項20記載のカーナビゲーションシステムによれば、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
また、請求項21記載の警報システムによれば、例えば、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
また、請求項22記載の動作内容判定プログラムによれば、請求項2の動作内容判定装置と同等の効果が得られる。
また、請求項23記載の動作内容判定プログラムによれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項24記載の動作内容判定プログラムによれば、請求項6の動作内容判定装置と同等の効果が得られる。
また、請求項25記載の動作内容判定プログラムによれば、請求項13の動作内容判定装置と同等の効果が得られる。
また、請求項26記載の動作内容判定方法によれば、請求項2の動作内容判定装置と同等の効果が得られる。
また、請求項27記載の動作内容判定方法によれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項28記載の動作内容判定方法によれば、請求項6の動作内容判定装置と同等の効果が得られる。
また、請求項29記載の動作内容判定方法によれば、請求項13の動作内容判定装置と同等の効果が得られる。
【0004】
[0010]
上記目的を達成するために、本発明に係る請求項1記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備え、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
[0011]
このような構成であれば、画像撮影手段によって、対象者の顔を構成する所定部位を含む撮影画像を撮影することが可能であり、特徴量抽出手段によって、前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
また、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することが可能である。
[0012]
従って、公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
[0013]
ここで、HMMは時系列信号の確率モデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。また、例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。HMMはそのような揺らぎを吸収することができる統計的モデルである。HM
【0006】
て前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備え、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
[0017]
このような構成であれば、画像撮影手段によって、前記対象者の顔を含む画像を撮影することが可能であり、顔部位検出手段によって、前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出することが可能であり、特徴量抽出手段によって、前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
また、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することが可能である。
[0018]
従って、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
[0019]
ここで、SVMは、パターン認識性能の優秀な2つのクラスを識別する識別器を構成するための学習モデルの1つである。SVMは、マージン最大化という基準によって識別平面を設定することにより未学習データに対しても高い識別性能を発揮する。具体的には、識別平面と訓練サンプルとの最小距離を評価関数として用い、これを最大
【0009】
に設置された1台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
[0028]
また、請求項6に係る発明は、請求項1乃至請求項4のいずれか1項に記載の動作内容判定装置において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記HMMは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記
【0012】
前記対象者が発話を終了した時点に対応する前記HMMの出力を示す発話終了点を判定することが可能であり、前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、HMMによる前記判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。
[0037]
また、請求項11に係る発明は、請求項10記載の動作内容判定装置において、発話終了点判定手段は、前記判別結果がw(wは整数且つw≧20)フレーム連続で非発話を示す状態となったときに当該wフレームにおける最初のフレームを発話終了点として判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
[0038]
また、請求項12に係る発明は、請求項11記載の動作内容判定装置において、前記発話終了点判定手段は、前記非発話を示す状態が連続してx(xは整数且つ6≦x<w)フレーム続いたときに、x+1フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び2フレーム連続して発話を示す状態のいずれか一方になってもwフレーム目までの前記カウントを継続し、一方、3フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
[0039]
一方、上記目的を達成するために、請求項13記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
【0013】
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、
前記特徴量抽出手段によって抽出した特徴量及び前記眼状態判定用HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記まばたき波形を判定する動作内容判定手段と、を備えることを特徴としている。
[0040]
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、対象者のまばたきの種類を示す波形を精度良く判定することが可能である。
[0041]
また、上記目的を達成するために、請求項15記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力とするHMMである眼状態判定用HMMと、
前記特徴量抽出手段によって抽出した特徴量及び前記眼状態判定用HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記まばたきの速度と振幅の種類を判定する動作内容判定手段と、を備えることを特徴としている。
[0042]
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度(筋電位の変化時間)と、ま
【0014】
ばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項16に係る発明は、請求項15記載の動作内容判定装置において、前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
[0043]
このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項17に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記特定の性質を有したまばたき波形に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
[0044]
例えば、生理学の見地において覚醒状態の判定に有効であるとされている、まばたき時の眼の筋肉の筋電位の変化を表す筋電位波形には、多種類の波形パターンが存在するが、まばたきの速度、振幅などのまばたきにとって重要な要素の特徴に着目することによって、これら多種類のうち特定種類(例えば、3種類)の波形パターンを判定に用いることで、覚醒状態を十分に判定できるとされている。従って、このような構成であれば、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
[0045]
また、請求項18に係る発明は、請求項17記載の動作内容判定装置において、前
【0015】
記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、生理学の見地において覚醒状態の判定に有効であるとされている、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
【0016】
また、上記目的を達成するために、請求項20記載のカーナビゲーションシステムは、請求項6乃至請求項12のいずれか1項に記載の動作内容判定装置と、当該動作内容判定装置による発話区間の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴としている。
[0049]
このような構成であれば、音声認識手段によって、動作内容判定装置による発話区間の判定結果に基づき音声認識処理を行うことが可能であり、動作処理手段によって、音声認識手段の認識結果に基づき所定の動作処理を行うことが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
[0050]
ここで、カーナビゲーションシステムは、慣性航法装置やGPS(全地球位置評定衛星システム)を利用して、自動車の運行時に運転者等の乗員に対して、ディスプレイ画面上に現在位置や目的地への走行経路案内等を行なう公知の装置である。
また、上記目的を達成するために、請求項21記載の警報システムは、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。
[0051]
このような構成であれば、通知手段によって、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置によって判定された、対象者の覚醒状態の判定結果を対象者又は関係者に通知することが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
[0052]
一方、上記目的を達成するために、請求項22記載の動作内容判定プログラムは、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容
【0017】
を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムを含み、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の作用及び効果が得られる。
[0053]
また、請求項23に係る発明は、請求項22記載の動作内容判定プログラムにおいて、前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の作用及び効果が得られる。
[0054]
また、請求項24に係る発明は、請求項22又は請求項23記載の動作内容判定プロ
【0018】
グラムにおいて、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の作用及び効果が得られる。
[0055]
また、上記目的を達成するために、請求項25記載の動作内容判定プログラムは、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の作用及び効果が得られる。
[0056]
一方、上記目的を達成するために、請求項26記載の動作内容判定方法は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
【0019】
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含み、
前記動作内容判定ステップにおいては、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の効果が得られる。
[0057]
また、請求項27に係る発明は、請求項26記載の動作内容判定方法において、前記画像撮影ステップにおいては、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の効果が得られる。
[0058]
また、請求項28に係る発明は、請求項26又は請求項27記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対
【0020】
する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の効果が得られる。
[0059]
また、上記目的を達成するために、請求項29記載の動作内容判定方法は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定方法であって、
前記眼部分を含む画像を撮影する画像撮影ステップと、
前記画像撮影ステップの撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の効果が得られる。
また、請求項30に係る発明は、請求項13又は請求項15記載の動作内容判定装置において、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
このような構成であれば、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
【図面の簡単な説明】
[0060]
[図1]本発明に係る発話区間検出装置の構成を示すブロック図である。
[図2](a)は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、(b)は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、(c)は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。
[図3](a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。
[図4]HMMへの特徴量の入力における時間的概念を示す図である。
[図5]HMMの出力に基づく発話開始点の判定処理の流れを示す図である。
[図6]HMMの出力に基づく発話終了点の判定処理の流れを示す図である。
[図7]様々な顔向きに対する発話/非発話の判定結果の一例を示す図である。
[図8]発話区間検出装置1の動作処理を示すフローチャートである。
【0037】
発話内容判定用のHMMに入力することにより、発話区間では無くて、発話内容を直接識別する構成も可能である。この場合は、予め不特定多数の人の様々な口唇画像を用いて学習により、「あ」、「い」等の発音内容を識別するためのHMMを作成する。このような構成であれば、口唇の動きのみから発話内容を判定することが可能となるので、音声情報が不要となり音声認識に必要なデータ量を削減することが可能となる。
[0115]
また、上記実施の形態において、全体顔検出用SVM及び口唇領域検出用SVMを用いて、検出用画像から顔全体の画像領域及び口唇画像の領域を検出した後に、これらの位置関係を用いて撮影対象者の顔の向きを判定する構成も可能である。この構成により、例えば、発話者の顔向きの判定結果を用いて自動車内に設置された集音装置の集音部(マイク等)の向きを制御したり、自動車内に複数設置された集音部のうち、発話者の向いている方向にある集音部を選択して動作させる制御等を行うことにより、発話者の音声データをより確実且つ正確に取得することが可能となる。
[0116]
上記実施の形態において、画像撮影部10及びデータ記憶部11による撮影対象者の画像データの取得処理は、請求項1、2、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
[0117]
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、6、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対
【0047】
画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部15により、判定結果の顔向き方向に対応した発話区間検出用のHMMを用いて、発話区間の検出を行うことが可能である。
[0152]
上記実施の形態において、画像撮影部10及びデータ記憶部11による撮影対象者の画像データの取得処理は、請求項1、2、4、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、3、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
[0153]
また、上記実施の形態において、口唇領域検出部13による位置情報の取得処理は、請求項4又は23記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、4、6、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、4、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対応する。
[0154]
〔第2の実施の形態〕
次に、本発明の第2の実施の形態を図面に基づき説明する。図20〜図30は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第2の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装
【0059】
パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形O以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。
[0191]
ステップS1310では、ステップS1308で判定された結果を警報システムに伝送して処理を終了する。
以上、本変形例における覚醒状態判定装置2は、画像撮影部30により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部31により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部32により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部33により、全体顔検出用SVM及び左眼領域検出用SVMを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部34により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部35により、覚醒状態判定用のHMMを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第2の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。
[0192]
上記実施の形態において、画像撮影部30及びデータ記憶部31による撮影対象者の画像データの取得処理は、請求項1、2、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部32及び眼領域検出部33による撮影画像からの左眼領域の検出処理は、請求項2、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
【0060】
[0193]
また、上記実施の形態において、眼領域検出部33による位置情報の取得処理は、請求項4又は23記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部34は、請求項1、2、13、15、16、17、22及び25のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部35は、請求項1、2、13、15、16、17、18、22、23及び25のいずれか1項に記載の動作内容判定手段に対応する。
[0194]
なお、上記第1の実施の形態及び上記第1の実施の形態の変形例においては、撮影画像から検出した口唇領域画像から、発話区間の検出、発話内容の検出を行っているが、これに限らず、ガムを噛んでいる状態や、欠伸をしている状態など他の動作内容を判定するようにしても良い。
また、上記第1の実施の形態又は上記第1の実施の形態の変形例における発話区間検出装置1の機能と、上記第2の実施の形態における覚醒状態判定装置2の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。
[0195]
また、上記第1及び第2の実施の形態においては、撮影画像から口唇領域画像を検出して、口唇の動きに関連した動作内容(発話区間)の判定と、撮影画像から眼の画像を検出して、眼の動きに関連した動作内容(居眠り等)の判定を行っているが、これに限らず、その他の顔を構成する鼻や眉等の部位の画像を検出し、これらの動きに関連した動作内容を判定するようにしても良い。
[0196]
また、上記第2の実施の形態においては、上記第1の実施の形態の変形例のように対象者の顔向き方向を考慮していないが、これに限らず、対象者の顔向き方向を考慮し、各顔向き方向に対応した覚醒状態判定用のHMMを用意し、顔向き方向を判定して、これらHMMから判定された顔向き方向に対応したHMMを選択し、当該選択したHMMを用いて、対象者のまばたき波形の種類判定を行う構成としても良い。これにより、より高精度にまばたき波形の種類を判定することが可能となる。
【0061】
【産業上の利用可能性】
[0197]
以上説明したように、本発明に係る請求項1記載の動作内容判定装置によれば、公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、動作内容の判定処理の時間解像度を向上させることが可能となる。
また、請求項2記載の動作内容判定装置によれば、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、動作内容の判定処理の時間解像度を向上させることが可能となる。
[0198]
また、請求項3記載の動作内容判定装置によれば、請求項1又は請求項2の前記効果に加え、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。
また、請求項4記載の動作内容判定装置によれば、請求項1乃至請求項3のいずれか1の前記効果に加え、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
[0199]
また、請求項6記載の動作内容判定装置によれば、請求項1乃至請求項4のいずれか1の前記効果に加え、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能である。
[0200]
また、請求項7記載の動作内容判定装置によれば、請求項6の前記効果に加え、HMMによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項8及び請求項9記載の動作内容判定装置によれば、請求項7の前記
【0062】
効果に加え、HMMの出力が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能である。
[0201]
また、請求項10記載の動作内容判定装置によれば、請求項6乃至請求項9のいずれか1の前記効果に加え、HMMによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項11及び請求項12記載の動作内容判定装置によれば、請求項6乃至請求項10のいずれか1の前記効果に加え、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能である。
[0202]
また、請求項13記載の動作内容判定装置によれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、対象者のまばたきの種類を示す波形を精度良く判定することが可能である。
[0203]
また、請求項15記載の動作内容判定装置によれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度(筋電位の変化時間)と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項16記載の動作内容判定装置によれば、請求項15の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
[0204]
また、請求項17記載の動作内容判定装置によれば、請求項13の前記効果に加え、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
【0063】
また、請求項18記載の動作内容判定装置によれば、請求項17の前記効果に加え、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
[0205]
また、請求項20記載のカーナビゲーションシステムによれば、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
[0206]
また、請求項21記載の警報システムによれば、例えば、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
また、請求項22記載の動作内容判定プログラムによれば、請求項2の動作内容判定装置と同等の効果が得られる。
[0207]
また、請求項23記載の動作内容判定プログラムによれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項24記載の動作内容判定プログラムによれば、請求項6の動作内容判定装置と同等の効果が得られる。
また、請求項25記載の動作内容判定プログラムによれば、請求項13の動作内容判定装置と同等の効果が得られる。
[0208]
また、請求項26記載の動作内容判定方法によれば、請求項2の動作内容判定装置と同等の効果が得られる。
また、請求項27記載の動作内容判定方法によれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項28記載の動作内容判定方法によれば、請求項6の動作内容判定装置と同等の効果が得られる。

Claims (29)

  1. 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
    前記所定部位を含む画像を撮影する画像撮影手段と、
    前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
    前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMM(Hidden MarkovModel)と、
    前記特徴量抽出手段によって抽出した特徴量及び前記HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。
  2. 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
    前記所定部位を含む画像を撮影する画像撮影手段と、
    前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
    前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
    前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
    前記特徴量抽出手段によって抽出した特徴量及び前記HMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。
  3. 前記顔部位検出手段は、前記撮影画像における前記対象者の複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することを特徴とする請求項2記載の動作内容判定装置。
  4. 前記画像撮影手段は、前記対象者の顔全体を含む画像部分を撮影し、
    前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
    前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段と、を備え、
    前記HMMは、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したものを含み、
    前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項1乃至請求項3のいずれか1項に記載の動作内容判定装置。
  5. 前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴とする請求項1乃至請求項4のいずれか1項に記載の動作内容判定装置。
  6. 前記所定部位の画像は、前記前記対象者の口唇部分の画像を含み、
    前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
    前記HMMは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを含み、
    前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項1乃至請求項5のいずれか1項に記載の動作内容判定装置。
  7. 前記口唇状態判定用HMMは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力するようになっており、
    前記動作内容判定手段は、前記口唇状態判定用HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別するようになっており、
    前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記口唇状態判定用HMMの出力を示す発話開始点を判定する発話開始点判定手段を備え、
    前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴とする請求項6記載の動作内容判定装置。
  8. 前記発話開始点判定手段は、前記判別結果が1フレーム目からn(nは整数且つn≧2)フレーム目まで連続で発話を示す状態となったときに、前記1フレーム目を発話開始点の候補に設定し、前記判別結果がnフレーム目から更にm(mは整数且つm≧3)フレーム連続で発話を示す状態となったときに、前記1フレーム目を発話開始点と判定することを特徴とする請求項7記載の動作内容判定装置。
  9. 前記発話開始点判定手段は、前記nフレーム目からk(kは整数且つk≦m)フレーム以内において、前記判別結果が非発話を示す状態となり、且つ、n+kフレーム目から更にp(pは整数且つp≧10)フレーム連続で前記判別結果が非発話を示す状態となったときに、前記1フレーム目を発話開始点の候補から外し、一方、前記n+kフレーム目からr(rは整数且つr<p)フレーム以内において再び前記判別結果が発話を示す状態となったときに、前記1フレーム目を発話開始点として判定することを特徴とする請求項8記載の動作内容判定装置。
  10. 前記口唇状態判定用HMMは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
    前記動作内容判定手段は、前記口唇状態判定用HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
    前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記口唇状態判定用HMMの出力を示す発話終了点を判定する発話終了点判定手段を備え、
    前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴とする請求項6乃至請求項9のいずれか1項に記載の動作内容判定装置。
  11. 発話終了点判定手段は、前記判別結果がw(wは整数且つw≧20)フレーム連続で非発話を示す状態となったときに当該wフレームにおける最初のフレームを発話終了点として判定することを特徴とする請求項10記載の動作内容判定装置。
  12. 前記発話終了点判定手段は、前記非発話を示す状態が連続してx(xは整数且つ6≦x<w)フレーム続いたときに、x+1フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び2フレーム連続して発話を示す状態のいずれか一方になってもwフレーム目までの前記カウントを継続し、一方、3フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴とする請求項11記載の動作内容判定装置。
  13. 前記所定部位の画像は、前記対象者の眼部分の画像を含み、
    前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
    前記HMMは、前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを含み、
    前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項1乃至請求項12のいずれか1項に記載の動作内容判定装置。
  14. 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの種類に対する尤度を出力し、
    前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの種類を判定することを特徴とする請求項13記載の動作内容判定装置。
  15. 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力し、
    前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの速度と振幅の種類を判定することを特徴とする請求項13記載の動作内容判定装置。
  16. 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して前記対象者のまばたきの種類に対する尤度を出力し、
    前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴とする請求項13記載の動作内容判定装置。
  17. 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
    前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記特定の性質を有したまばたきの種類に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴とする請求項13記載の動作内容判定装置。
  18. 前記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴とする請求項17記載の動作内容判定装置。
  19. 対象者の顔を構成する所定部位を含む画像を撮影する画像撮影手段と、
    前記撮影画像から前記対象者の口唇部分の画像を検出する顔部位検出手段と、
    前記顔部位検出手段によって検出された前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出する特徴量抽出手段と、
    前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する発話内容に対する尤度を出力とする発話内容判定用HMM(HiddenMarkov Model)と、
    前記特徴量抽出手段によって抽出した特徴量及び前記発話内容判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定する発話内容判定手段と、を備えることを特徴とする発話内容判定装置。
  20. 請求項6乃至請求項12のいずれか1項に記載の動作内容判定装置と、当該動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴とするカーナビゲーションシステム。
  21. 請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴とする警報システム。
  22. 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
    前記所定部位を含む画像を撮影する画像撮影手段と、
    前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
    前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする動作内容判定プログラム。
  23. 前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
    前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
    前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
    前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項22記載の動作内容判定プログラム。
  24. 前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
    前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
    前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項22又は請求項23記載の動作内容判定プログラム。
  25. 前記所定部位の画像は、前記対象者の眼部分の画像を含み、
    前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
    前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項22乃至請求項24のいずれか1項に記載の動作内容判定プログラム。
  26. 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
    前記所定部位を含む画像を撮影する画像撮影ステップと、
    前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
    前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
    前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含むことを特徴とする動作内容判定方法。
  27. 前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
    前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
    前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
    前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項26記載の動作内容判定方法。
  28. 前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
    前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
    前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項26又は請求項27記載の動作内容判定方法。
  29. 前記所定部位の画像は、前記対象者の眼部分の画像を含み、
    前記特徴量抽出ステップにおいては、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
    前記HMMは、を含み、
    前記動作内容判定ステップにおいては、前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項26乃至請求項28のいずれか1項に記載の動作内容判定方法。
JP2006513753A 2004-05-21 2005-05-23 動作内容判定装置 Active JP4286860B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004151579 2004-05-21
JP2004151579 2004-05-21
PCT/JP2005/009376 WO2005114576A1 (ja) 2004-05-21 2005-05-23 動作内容判定装置

Publications (2)

Publication Number Publication Date
JPWO2005114576A1 true JPWO2005114576A1 (ja) 2008-07-31
JP4286860B2 JP4286860B2 (ja) 2009-07-01

Family

ID=35428570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006513753A Active JP4286860B2 (ja) 2004-05-21 2005-05-23 動作内容判定装置

Country Status (4)

Country Link
US (1) US7894637B2 (ja)
EP (1) EP1748387B1 (ja)
JP (1) JP4286860B2 (ja)
WO (1) WO2005114576A1 (ja)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK1667991T3 (da) * 2003-09-16 2008-08-18 Astrazeneca Ab Quinazolinderivater som tyrosinkinaseinhibitorer
JP5292671B2 (ja) * 2006-03-06 2013-09-18 トヨタ自動車株式会社 覚醒度推定装置及びシステム並びに方法
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP4137969B2 (ja) * 2006-12-04 2008-08-20 アイシン精機株式会社 眼部検出装置、眼部検出方法及びプログラム
JP2008171107A (ja) * 2007-01-10 2008-07-24 Matsushita Electric Ind Co Ltd 顔状況判定処理装置および撮像装置
JP2008171108A (ja) * 2007-01-10 2008-07-24 Matsushita Electric Ind Co Ltd 顔状況判定処理装置および撮像装置
WO2008088070A1 (ja) 2007-01-19 2008-07-24 Asahi Kasei Kabushiki Kaisha 覚醒状態判定モデル生成装置、覚醒状態判定装置及び警告装置
JP4895847B2 (ja) * 2007-02-08 2012-03-14 アイシン精機株式会社 瞼検出装置及びプログラム
KR100795160B1 (ko) * 2007-03-22 2008-01-16 주식회사 아트닉스 얼굴영역검출장치 및 검출방법
JP4891144B2 (ja) * 2007-05-08 2012-03-07 キヤノン株式会社 画像検索装置及び画像検索方法
JP4375448B2 (ja) * 2007-06-26 2009-12-02 ソニー株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
JP4458173B2 (ja) * 2008-03-19 2010-04-28 カシオ計算機株式会社 画像記録方法、画像記録装置、およびプログラム
JP5189893B2 (ja) * 2008-05-20 2013-04-24 旭化成株式会社 瞬目種別識別装置、瞬目種別識別方法、及び瞬目種別識別プログラム
US20100005169A1 (en) * 2008-07-03 2010-01-07 Von Hilgers Philipp Method and Device for Tracking Interactions of a User with an Electronic Document
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
JP2010074399A (ja) * 2008-09-17 2010-04-02 Sony Corp 構図判定装置、構図判定方法、画像処理装置、画像処理方法、プログラム
US20100074557A1 (en) * 2008-09-25 2010-03-25 Sanyo Electric Co., Ltd. Image Processing Device And Electronic Appliance
KR101179497B1 (ko) * 2008-12-22 2012-09-07 한국전자통신연구원 얼굴 검출 방법 및 장치
JP2010165052A (ja) * 2009-01-13 2010-07-29 Canon Inc 画像処理装置及び画像処理方法
JP5270415B2 (ja) * 2009-03-19 2013-08-21 トヨタ自動車株式会社 眠気判定装置及びプログラム
DE112009004768B4 (de) * 2009-05-12 2018-01-04 Toyota Jidosha Kabushiki Kaisha Abschätzvorrichtung für den visuellen erkennungsbereich und antriebsunterstützungsvorrichtung
CN102460469A (zh) * 2009-06-12 2012-05-16 皇家飞利浦电子股份有限公司 用于生物识别的系统和方法
JP5261805B2 (ja) 2009-06-16 2013-08-14 インテル・コーポレーション 携帯用機器のカメラアプリケーション
US8745250B2 (en) * 2009-06-30 2014-06-03 Intel Corporation Multimodal proximity detection
JP2011053915A (ja) * 2009-09-02 2011-03-17 Sony Corp 画像処理装置、画像処理方法、プログラム及び電子機器
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
JP5249273B2 (ja) * 2010-03-25 2013-07-31 パナソニック株式会社 生体情報計測システム
JP2012003326A (ja) * 2010-06-14 2012-01-05 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2012068948A (ja) * 2010-09-24 2012-04-05 Renesas Electronics Corp 顔属性推定装置およびその方法
JP5569990B2 (ja) * 2010-10-22 2014-08-13 Necソリューションイノベータ株式会社 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
TW201226245A (en) * 2010-12-31 2012-07-01 Altek Corp Vehicle apparatus control system and method thereof
WO2012161346A1 (ja) * 2011-05-24 2012-11-29 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP5914992B2 (ja) * 2011-06-02 2016-05-11 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
JP5837341B2 (ja) * 2011-06-24 2015-12-24 株式会社ブリヂストン 路面状態判定方法とその装置
US9094539B1 (en) * 2011-09-22 2015-07-28 Amazon Technologies, Inc. Dynamic device adjustments based on determined user sleep state
JP5836095B2 (ja) * 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
US20130188825A1 (en) * 2012-01-19 2013-07-25 Utechzone Co., Ltd. Image recognition-based startup method
US20130243077A1 (en) * 2012-03-13 2013-09-19 Canon Kabushiki Kaisha Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern
JP5649601B2 (ja) * 2012-03-14 2015-01-07 株式会社東芝 照合装置、方法及びプログラム
BR112015002920A2 (pt) * 2012-08-10 2017-08-08 Honda Access Kk método e dispositivo de reconhecimento de fala
JP5888205B2 (ja) * 2012-11-02 2016-03-16 ソニー株式会社 画像表示装置並びに情報入力装置
JP6181925B2 (ja) * 2012-12-12 2017-08-16 キヤノン株式会社 画像処理装置、画像処理装置の制御方法およびプログラム
DE102014100364B4 (de) * 2013-01-18 2020-08-13 Carnegie Mellon University Verfahren zum Bestimmen, ob eine Augen-abseits-der-Straße-Bedingung vorliegt
US20140229568A1 (en) * 2013-02-08 2014-08-14 Giuseppe Raffa Context-rich communication between a device and a vehicle
JP6182917B2 (ja) * 2013-03-15 2017-08-23 ノーリツプレシジョン株式会社 監視装置
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
CN105307737A (zh) 2013-06-14 2016-02-03 洲际大品牌有限责任公司 互动视频游戏
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
WO2015111771A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
CN104269172A (zh) * 2014-07-31 2015-01-07 广东美的制冷设备有限公司 基于视频定位的语音控制方法和系统
CN104202694B (zh) * 2014-07-31 2018-03-13 广东美的制冷设备有限公司 语音拾取装置的定向方法和系统
US9952675B2 (en) * 2014-09-23 2018-04-24 Fitbit, Inc. Methods, systems, and apparatuses to display visibility changes responsive to user gestures
US9269374B1 (en) * 2014-10-27 2016-02-23 Mattersight Corporation Predictive video analytics system and methods
US9535905B2 (en) * 2014-12-12 2017-01-03 International Business Machines Corporation Statistical process control and analytics for translation supply chain operational management
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN104834222B (zh) * 2015-04-30 2018-11-27 广东美的制冷设备有限公司 家用电器的控制方法和装置
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
JP6651989B2 (ja) 2015-08-03 2020-02-19 株式会社リコー 映像処理装置、映像処理方法、及び映像処理システム
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
DE102015225109A1 (de) 2015-12-14 2017-06-14 Robert Bosch Gmbh Verfahren und Vorrichtung zum Klassieren von Augenöffnungsdaten zumindest eines Auges eines Insassen eines Fahrzeugs und Verfahren und Vorrichtung zum Erfassen einer Schläfrigkeit und/oder eines Sekundenschlafes eines Insassen eines Fahrzeugs
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
CN106920558B (zh) * 2015-12-25 2021-04-13 展讯通信(上海)有限公司 关键词识别方法及装置
CN107103271A (zh) * 2016-02-23 2017-08-29 芋头科技(杭州)有限公司 一种人脸检测方法
JP6649306B2 (ja) * 2017-03-03 2020-02-19 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
CN107123423B (zh) * 2017-06-07 2021-05-18 微鲸科技有限公司 语音拾取装置及多媒体设备
CN107910009B (zh) * 2017-11-02 2020-12-01 中国科学院声学研究所 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统
CN108875535B (zh) * 2018-02-06 2023-01-10 北京旷视科技有限公司 图像检测方法、装置和系统及存储介质
CN111712852B (zh) * 2018-02-19 2023-08-11 三菱电机株式会社 乘客状态检测装置、系统和方法
WO2019171452A1 (ja) * 2018-03-06 2019-09-12 三菱電機株式会社 運転支援装置、運転支援方法及び運転支援装置を備えた運転支援システム
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
KR20200067465A (ko) * 2018-12-04 2020-06-12 삼성전자주식회사 영상 처리 방법 및 장치
CN109624844A (zh) * 2018-12-05 2019-04-16 电子科技大学成都学院 一种基于图像识别和语音传控的公交车行车保护系统
US11992317B2 (en) * 2019-02-01 2024-05-28 Nec Corporation Alertness estimation apparatus, alertness estimation method, and computer- readable recording medium
WO2021114224A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 语音检测方法、预测模型的训练方法、装置、设备及介质
JP7415611B2 (ja) 2020-01-30 2024-01-17 富士通株式会社 計算プログラム、計算方法及び計算装置
CN112101201B (zh) * 2020-09-14 2024-05-24 北京数衍科技有限公司 行人状态的检测方法、装置及电子设备
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
JP2023036262A (ja) * 2021-09-02 2023-03-14 株式会社トランストロン 通報装置、通報方法及び通報プログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2600834B2 (ja) 1988-08-23 1997-04-16 オムロン株式会社 居眠り検出装置
JPH0398078A (ja) * 1989-09-12 1991-04-23 Seiko Epson Corp 音声評価システム
JP2541688B2 (ja) * 1990-05-21 1996-10-09 日産自動車株式会社 眼位置検出装置
JPH0779937A (ja) * 1993-09-17 1995-03-28 Nissan Motor Co Ltd 覚醒度判定装置
JPH07156682A (ja) 1993-12-03 1995-06-20 Nissan Motor Co Ltd 覚醒状態検出装置
JP3296118B2 (ja) * 1994-11-17 2002-06-24 トヨタ自動車株式会社 顔位置判定装置及び瞬き検出装置
JPH08175218A (ja) 1994-12-26 1996-07-09 Toyota Motor Corp 運転状態検出装置
JP3710205B2 (ja) 1996-06-05 2005-10-26 沖電気工業株式会社 音声認識装置
US6070098A (en) * 1997-01-11 2000-05-30 Circadian Technologies, Inc. Method of and apparatus for evaluation and mitigation of microsleep events
JP3577882B2 (ja) 1997-03-31 2004-10-20 日産自動車株式会社 居眠り状態検出装置
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
JP2948186B2 (ja) 1998-02-10 1999-09-13 株式会社エイ・ティ・アール知能映像通信研究所 顔動画像からの表情抽出方法
JPH11352987A (ja) 1998-06-04 1999-12-24 Toyota Motor Corp 音声認識装置
JP3012226B2 (ja) 1998-07-24 2000-02-21 マルチメディアシステム事業協同組合 居眠り運転防止装置
JP4517457B2 (ja) 2000-06-13 2010-08-04 カシオ計算機株式会社 音声認識装置、及び音声認識方法
US20020116197A1 (en) * 2000-10-02 2002-08-22 Gamze Erten Audio visual speech processing
JP4590717B2 (ja) * 2000-11-17 2010-12-01 ソニー株式会社 顔識別装置及び顔識別方法
JP4675492B2 (ja) * 2001-03-22 2011-04-20 本田技研工業株式会社 顔画像を使用した個人認証装置
JP2003158643A (ja) * 2001-11-20 2003-05-30 Shibasoku:Kk 信号処理方法及び信号処理装置
US7209883B2 (en) * 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
ATE454849T1 (de) * 2002-10-15 2010-01-15 Volvo Technology Corp Verfahren für die auswertung der kopf- und augenaktivität einer person
US7359529B2 (en) * 2003-03-06 2008-04-15 Samsung Electronics Co., Ltd. Image-detectable monitoring system and method for using the same

Also Published As

Publication number Publication date
JP4286860B2 (ja) 2009-07-01
US20080037837A1 (en) 2008-02-14
EP1748387A1 (en) 2007-01-31
EP1748387B1 (en) 2018-12-05
US7894637B2 (en) 2011-02-22
WO2005114576A1 (ja) 2005-12-01
EP1748387A4 (en) 2015-04-29

Similar Documents

Publication Publication Date Title
JP4286860B2 (ja) 動作内容判定装置
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US11854550B2 (en) Determining input for speech processing engine
JP4633043B2 (ja) 画像処理装置
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US20100332229A1 (en) Apparatus control based on visual lip share recognition
Hassanat Visual speech recognition
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
CN111767785A (zh) 人机交互控制方法及装置、智能机器人及存储介质
Navarathna et al. Multiple cameras for audio-visual speech recognition in an automotive environment
JP4669150B2 (ja) 主被写体推定装置及び主被写体推定方法
CN112639964A (zh) 利用深度信息识别语音的方法、系统及计算机可读介质
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US20220036048A1 (en) Emotion-recognition-based service provision apparatus for vehicle and method of controlling the same
Hassanat et al. Visual words for lip-reading
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
Ibrahim A novel lip geometry approach for audio-visual speech recognition
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
Heckmann Inter-speaker variability in audio-visual classification of word prominence.
Axyonov et al. Audio-Visual Speech Recognition In-The-Wild: Multi-Angle Vehicle Cabin Corpus and Attention-Based Method
Lucey Lipreading across multiple views
Chen et al. Challenges in the fusion of video and audio for robust speech recognition
Paramasivam et al. An optimized model for visual speech recognition using HMM.
Shaikh Robust visual speech recognition using optical flow analysis and rotation invariant features

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090325

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4286860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350