JPWO2005114576A1

JPWO2005114576A1 - 動作内容判定装置

Info

Publication number: JPWO2005114576A1
Application number: JP2006513753A
Authority: JP
Inventors: 祥宏野口; 敬士嶋田; 憲石原
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2004-05-21
Filing date: 2005-05-23
Publication date: 2008-07-31
Anticipated expiration: 2025-05-23
Also published as: JP4286860B2; US20080037837A1; EP1748387A1; EP1748387B1; US7894637B2; WO2005114576A1; EP1748387A4

Abstract

対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な顔部位検出装置、動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、顔向判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を提供する。発話区間検出装置１を、画像撮影部１０と、データ記憶部１１と、画像処理部１２と、口唇領域検出部１３と、特徴量抽出部１４と、発話区間検出部１５とを含んだ構成とし、口唇領域検出部１３において専用のＳＶＭを用いて撮影画像から口唇領域を検出し、発話区間検出部１５において、検出された口唇領域の画像の特徴量及び専用のＨＭＭを用いて発話区間を検出する。

Description

本発明は、対象者の動作内容を判定する装置に係り、特に、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法に関する。

対象者の顔の部位の表情からその人の状態及び行為を認知し、それを応用したアプリケーションが知られている。例えば、自動車内に設置されるカーナビゲーションシステム（以下、ＣＮＳと称す）の一機能として、音声による行き先の指示等のＣＮＳの操作を車内に設置されたマイク等への音声入力により行う音声操作機能がある。マイクから入力された音声は、音声認識によりその内容が認識される。運転手が目的地（例えば、地名や施設名等の目的地）を音声入力した場合は、音声認識により目的地を示す単語を認識し、認識した単語が示す場所へのルート検索や情報の表示等を行う。しかしながら、音声操作機能を利用する場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等によってマイクに余計な音が入力されてしまうため音声認識の精度が著しく低下してしまうといった問題がある。このような問題に対処する技術として、特許文献１の音声認識装置及び特許文献２の画像認識装置がある。

特許文献１の音声認識装置は、カメラにより発話者を撮影し、画像処理ＥＣＵにより撮影画像を処理して、発話者の外観面の状態から発声の有無を判定する。例えば、顔の向き、唇の動き、視線の向きといった外観状態から発声の有無を判定する。顔の向き、唇の動き、視線の向きを検出するための撮影画像の処理においてはパターン・マッチング方式を用いている。つまり、発話者が発話をしていると判定されたときに音声認識を行うことにより、認識精度を向上させる。ここで、パターン・マッチング方式の中のテンプレート・マッチング方式は、予め検出しようとする顔やその他の部位の代表的な画像パターンや平均的な画像パターンをテンプレートとして用意し、そのテンプレート画像と最も近い画像領域を全体画像から探索することにより顔検出やその他の部位検出を実現する手法である。

また、特許文献２の画像認識装置は、対象物体に対する距離画像ストリームを取得するための画像取得部と、画像取得部により取得された距離画像ストリームから口腔部分を抽出する口腔部分抽出部と、口腔部分抽出部により抽出された口腔部分の距離画像ストリームに基づいて、口唇の形状および口唇の動きの少なくとも一方を認識するための画像認識部とを具備している。口腔部分の抽出には特許文献１の音声認識装置と同様にテンプレート・マッチング方式等を用いている。更に、画像認識部では、予め「あ」、「い」といった発音に対応する口腔部分の形状画像のテンプレートを用意し、これらテンプレートと抽出された口腔部分の画像とのマッチングを行うことにより発話内容を認識する。

また、対象者の顔画像を撮影し、当該撮影画像を画像処理して、運転者が覚醒状態にあるか否かを検出する技術として、特許文献３に記載の運転状態検出装置、特許文献４に記載の居眠り状態検出装置及び特許文献５に記載の居眠り運転防止装置がある。
特許文献３記載の運転状態検出装置は、撮像された画像に対して、対象テンプレートを用いて相関演算を行って運転者の目領域を検出し、検出された目領域の画像から運転者の運転状態を判定する。

また、特許文献４記載の居眠り状態検出装置は、顔画像の縦方向の画素列に沿って画素の濃度を検出し、画素列における濃度の局所的な高まり毎に１個づつの画素を定めて抽出点とし、隣接する画素列の画素列方向に近接した抽出点を連結して顔の横方向に伸びる曲線群から眼の位置を検出し、その後、眼を含む所定領域内で眼の位置を検出し、その後、眼を含む所定領域内で、眼の開閉状態を判定し、その開閉状態の変化により居眠り状態を検出する。

また、特許文献５記載の居眠り運転防止装置は、自動車の運転者の眼部を含む映像を、ビデオカメラにより動画像として順次的に撮像し、最新の映像と、フレームメモリに記憶された前の映像との間で輝度の変化した領域の面積を算出し、輝度が増加した領域と減少した領域との面積差の時系列的なパターンと標準の瞬目波形との間で相関係数をとる演算を行う。相関係数が基準値を超えると、瞬目の時点が抽出され、瞬目の抽出に基づいて運転者の覚醒状態が判定される。
特開平１１−３５２９８７号公報特開平１１−２１９４２１号公報特開平８−１７５２１８号公報特開平１０−２７５２１２号公報特開２０００−４０１４８号公報

しかしながら、上記特許文献１及び特許文献２の従来技術においては、固定カメラによって撮影された画像からの口唇部分の検出にテンプレート・マッチング方式を用いているため、例えば、運転中に起こる顔向きの変化により斜めや横向きになった顔画像から口唇部分を検出するような場合に、用意されたテンプレートの内容によっては著しく検出精度が低下する恐れがある。更に、顔全体の画像に対して口唇部分の探索を行っているため探索ポイント数が多くなり処理が重くなるという問題もある。
また、上記特許文献２の画像認識装置においては、開口時の口腔領域の大きさなどをある閾値で判断し発話区間を検出しているため、例えば、欠伸と発話とを区別するといった曖昧な画像から動作内容の判断を行うことが困難であった。

また、上記特許文献３乃至特許文献５の従来技術においては、一定時間内のまばたきの回数頻度、一定時間内のまばたきの開閉時間の積算値などを覚醒状態の判定に用いているが、このような構成では、生理学の見地において覚醒状態の判定に有効であるとされている、１回１回のまばたきの振幅、持続時間及び速度などの情報を考慮して覚醒状態を判定することはできない。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法を提供することを目的としている。

上記目的を達成するために、本発明に係る請求項１記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭ（Hidden MarkovModel）と、
前記特徴量抽出手段によって抽出した特徴量及び前記ＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴としている。

このような構成であれば、画像撮影手段によって、対象者の顔を構成する所定部位を含む撮影画像を撮影することが可能であり、特徴量抽出手段によって、前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。

従って、公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。

ここで、ＨＭＭは時系列信号の確率モデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。また、例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状（スペクトル包絡という）を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。ＨＭＭはそのような揺らぎを吸収することができる統計的モデルである。ＨＭＭは、どのような単位で定義されても良く（例えば、音声認識をするのであれば単語や音素）、各ＨＭＭ（ここで「各」というのは例えば単語であれば複数の単語が存在し、音素においても複数の音素が存在するため。）は、図３１に示すように、複数の状態からなり、各状態は統計的に学習された、状態遷移確率（ａ）と出力確率（ｂ：正規分布、混合正規分布等の確率分布）で構成されている。例えば、遷移確率は音声の時間伸縮の揺らぎを、出力確率はスペクトルの揺らぎを吸収する。

また、特徴量としては、所定部位の画像をフーリエ変換したスペクトル成分、所定部位の画像をフーリエ変換した周波数スペクトルに対する対数成分、所定部位の画像をフーリエ変換した周波数スペクトルに対しての現フレームとその前後のフレームとのフレーム間差分成分、所定部位の画像に対するメル・ケプストラム（ＭＦＣＣ）成分、所定部位の画像に対するフレーム内モーメント成分、所定部位の画像に対するフレーム間モーメント成分、所定部位の画像をフーリエ変換した周波数スペクトルに対するフレーム内モーメント成分、所定部位の画像をフーリエ変換した周波数スペクトルに対するフレーム間モーメント成分などがある。以下、請求項２記載の動作内容判定装置、請求項２２記載の動作内容判定プログラム及び請求項２６の動作内容判定方法において同じである。

また、所定部位の画像とは、撮影画像から切り出した所定部位の画像そのものの他、当該所定部位の画像とその近傍の画像を含む領域画像等も含む。以下、請求項２記載の動作内容判定装置、請求項２２記載の動作内容判定プログラム及び請求項２６の動作内容判定方法において同じである。
また、顔を構成する所定部位は、眼、鼻、口、眉等である。以下、請求項２記載の動作内容判定装置、請求項２２記載の動作内容判定プログラム及び請求項２６の動作内容判定方法において同じである。

また、上記目的を達成するために、請求項２記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（Support Vector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（Hidden Markov Model）と、
前記特徴量抽出手段によって抽出した特徴量及び前記ＨＭＭ（Hidden Markov Model）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴としている。

このような構成であれば、画像撮影手段によって、前記対象者の顔を含む画像を撮影することが可能であり、顔部位検出手段によって、前記画像撮影手段の撮影画像に基づき、ＳＶＭ（SupportVector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出することが可能であり、特徴量抽出手段によって、前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。

従って、ＳＶＭを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。

ここで、ＳＶＭは、パターン認識性能の優秀な２つのクラスを識別する識別器を構成するための学習モデルの１つである。ＳＶＭは、マージン最大化という基準によって識別平面を設定することにより未学習データに対しても高い識別性能を発揮する。具体的には、識別平面と訓練サンプルとの最小距離を評価関数として用い、これを最大にするように識別平面を設定する。更に、ＳＶＭは、カーネルトリックという手法により非線形の識別関数を構成することが可能である。ここで、カーネルトリックは、非線形識別器への拡張手法であり、特徴空間ベクトルを非線形な写像を用いてより高次元の空間に写像し、その空間において線形識別を行うことにより元の空間での非線形識別を実現する。この非線形な写像をカーネル関数と呼び、それを用いた識別手法をカーネルトリックと呼ぶ。なお、ＳＶＭについては、ＵＲＬ「ｈｔｔｐ://ｗｗｗ.ｎｅｕｒｏｓｃｉ.ａｉｓｔ.ｇｏ.ｊｐ/~ｋｕｒｉｔａ/ｌｅｃｔｕｒｅ/ｓｖｍ/ｓｖｍ.ｈｔｍｌ」のＷｅｂページに掲載された「サポートベクターマシン入門栗田多喜夫」を参照されたい。以下、請求項２記載の動作内容判定装置、請求項２２記載の動作内容判定プログラム及び請求項２６の動作内容判定方法において同じである。

つまり、ＳＶＭを用いて、顔向きに応じて内容（形状、輝度分布等）の変わる顔やそれを構成する部位の画像を予め多パターン学習させておき、顔やその部位の画像とこれら以外の画像との境界面を曲面を用いて精度良く分離しておき、この境界面を基準として顔やその部位の画像の検出を行わせることで、顔向きに応じて内容の変わる顔やその部位の画像に対しても精度良い検出性能を発揮させることが可能となる。

また、請求項３に係る発明は、請求項２記載の動作内容判定装置において、前記顔部位検出手段は、前記撮影画像における前記対象者の複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することを特徴としている。
このような構成であれば、前記顔部位検出手段は、前記複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することが可能である。

つまり、例えば、自動車内のインナーミラーに設置された１台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、所定部位が、顔の向きに応じて様々な形及びサイズに変形した状態で撮影されるため、検出する所定部位の画像領域のサイズを顔の向きに応じて変更しても、必要な特徴量を十分抽出することが可能である。従って、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。

また、本発明に係る請求項４記載の動作内容判定装置は、請求項１乃至請求項３のいずれか１項に記載の動作内容判定装置において、前記画像撮影手段は、前記対象者の顔全体を含む画像部分を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段と、を備え、
前記ＨＭＭは、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したものを含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。

このような構成であれば、位置関係情報取得手段によって、前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得することが可能であり、顔向判定手段によって、前記位置関係情報に基づき前記対象者の顔の向きを判定することが可能であり、前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。

従って、対象者の顔の向きを判定すると共に、複数方向の顔の向きに対応したＨＭＭの中から前記判定結果の顔向きに対応したＨＭＭを選択し、当該選択したＨＭＭを用いて動作内容の判定を行うようにしたので、例えば、自動車内のインナーミラーに設置された１台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。

また、請求項５に係る発明は、請求項１乃至請求項４のいずれか１項に記載の動作内容判定装置において、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴としている。

このような構成であれば、例えば、５フレームの所定部位画像の特徴量を入力としたＨＭＭの出力から動作内容を判定するようなときに、１フレームが１／３０秒であった場合に、５フレーム毎に順番にＨＭＭに入力すると動作内容の判定の時間解像度は１／１０秒となる。そこで、５フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら１フレームずつずらしてＨＭＭに入力することにより、１フレーム毎（１／３０秒毎）に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。

また、請求項６に係る発明は、請求項１乃至請求項５のいずれか１項に記載の動作内容判定装置において、前記所定部位の画像は、前記前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記ＨＭＭは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。

このような構成であれば、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能となる。
ここで、口唇部分の画像とは、撮影画像から切り出した口唇部分の画像をそのものの他、当該口唇部分の画像とその近傍の画像を含む領域画像等も含む。

また、請求項７に係る発明は、請求項６記載の動作内容判定装置において、前記ＨＭＭは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
前記動作内容判定手段は、前記口唇状態判定用ＨＭＭによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記口唇状態判定用ＨＭＭの出力を示す発話開始点を判定する発話開始点判定手段を備え、
前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴としている。

このような構成であれば、発話開始点判定手段によって、前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記ＨＭＭの出力を示す発話開始点を判定することが可能であり、前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、ＨＭＭによる発話状態か否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。例えば、上述したＣＮＳなどの乗物内における音声認識に適用することで、発話内容の認識精度を向上させることが可能となる。

また、請求項８に係る発明は、請求項７記載の動作内容判定装置において、前記発話開始点判定手段は、前記判別結果が１フレーム目からｎ（ｎは整数且つｎ≧２）フレーム目まで連続で発話を示す状態となったときに、前記１フレーム目を発話開始点の候補に設定し、前記判別結果がｎフレーム目から更にｍ（ｍは整数且つｍ≧３）フレーム連続で発話を示す状態となったときに、前記１フレーム目を発話開始点と判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話開始点を判定することが可能となる。

また、請求項９に係る発明は、請求項８記載の動作内容判定装置において、前記発話開始点判定手段は、前記ｎフレーム目からｋ（ｋは整数且つｋ≦ｍ）フレーム以内において、前記判別結果が非発話を示す状態となり、且つ、ｎ＋ｋフレーム目から更にｐ（ｐは整数且つｐ≧１０）フレーム連続で前記判別結果が非発話を示す状態となったときに、前記１フレーム目を発話開始点の候補から外し、一方、前記ｎ＋ｋフレーム目からｒ（ｒは整数且つｒ＜ｐ）フレーム以内において再び前記判別結果が発話を示す状態となったときに、前記１フレーム目を発話開始点として判定することを特徴としている。

このような構成であれば、前記判別結果が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話開始点を判定することが可能となる。

また、請求項１０に係る発明は、請求項６乃至請求項９のいずれか１項に記載の動作内容判定装置において、前記ＨＭＭは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
前記動作内容判定手段は、前記ＨＭＭによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記ＨＭＭの出力を示す発話終了点を判定する発話終了点判定手段を備え、
前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴としている。

このような構成であれば、発話終了点判定手段によって、前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記ＨＭＭの出力を示す発話終了点を判定することが可能であり、前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、ＨＭＭによる前記判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。

また、請求項１１に係る発明は、請求項１０記載の動作内容判定装置において、発話終了点判定手段は、前記判別結果がｗ（ｗは整数且つｗ≧２０）フレーム連続で非発話を示す状態となったときに当該ｗフレームにおける最初のフレームを発話終了点として判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話終了点を判定することが可能となる。

また、請求項１２に係る発明は、請求項１１記載の動作内容判定装置において、前記発話終了点判定手段は、前記非発話を示す状態が連続してｘ（ｘは整数且つ６≦ｘ＜ｗ）フレーム続いたときに、ｘ＋１フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び２フレーム連続して発話を示す状態のいずれか一方になってもｗフレーム目までの前記カウントを継続し、一方、３フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話終了点を判定することが可能となる。

また、請求項１３に係る発明は、請求項１乃至請求項１２のいずれか１項に記載の動作内容判定装置において、前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記ＨＭＭは、前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用ＨＭＭを含み、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。

このような構成であれば、居眠り等の動作内容を判定することが可能である。
また、請求項１４に係る発明は、請求項１３記載の動作内容判定装置において、前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの種類を判定することを特徴としている。

このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等の対象者のまばたきの種類を精度良く判定することが可能である。
また、請求項１５に係る発明は、請求項１３記載の動作内容判定装置において、前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの速度と振幅の種類を判定することを特徴としている。

このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度（筋電位の変化時間）と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項１６に係る発明は、請求項１５記載の動作内容判定装置において、前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。

このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項１７に係る発明は、請求項１３記載の動作内容判定装置において、前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記特定の性質を有したまばたきの種類に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。

例えば、生理学の見地において覚醒状態の判定に有効であるとされている、まばたき時の眼の筋肉の筋電位の変化を表す筋電位波形には、多種類の波形パターンが存在するが、まばたきの速度、振幅などのまばたきにとって重要な要素の特徴に着目することによって、これら多種類のうち特定種類（例えば、３種類）の波形パターンを判定に用いることで、覚醒状態を十分に判定できるとされている。従って、このような構成であれば、特定種類のまばたきに対するＨＭＭを生成すれば良く、また、特定種類のＨＭＭを用いて判定処理を行えば良いので、ＨＭＭに必要なメモリ容量の軽減や判定処理の高速化等が可能である。

また、請求項１８に係る発明は、請求項１７記載の動作内容判定装置において、前記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、生理学の見地において覚醒状態の判定に有効であるとされている、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。

一方、上記目的を達成するために、請求項１９記載の発話内容判定装置は、対象者の顔を構成する所定部位を含む画像を撮影する画像撮影手段と、
前記撮影画像から前記対象者の口唇部分の画像を検出する顔部位検出手段と、
前記顔部位検出手段によって検出された前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出する特徴量抽出手段と、
前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する発話内容に対する尤度を出力とする発話内容判定用ＨＭＭ（HiddenMarkov Model）と、
前記特徴量抽出手段によって抽出した特徴量及び前記発話内容判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定する発話内容判定手段と、を備えることを特徴としている。

このような構成であれば、特徴量抽出手段によって、前記口唇部分の画像に基づき当該画像における特徴量を抽出することが可能であり、発話内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び前記口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定することが可能である。
従って、ＨＭＭを用いることにより、時間的概念を伴う発話動作の状態を判定することができるので、音声情報が無くても口唇の動きから高精度に発話内容の判定を行うことが可能である。

ここで、口唇部分の画像とは、撮影画像から切り出した口唇部分の画像をそのものの他、当該口唇部分の画像とその近傍の画像を含む領域画像等も含む。
また、上記目的を達成するために、請求項２０記載のカーナビゲーションシステムは、請求項６乃至請求項１２のいずれか１項に記載の動作内容判定装置と、当該動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴としている。

このような構成であれば、音声認識手段によって、動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行うことが可能であり、動作処理手段によって、音声認識手段の認識結果に基づき所定の動作処理を行うことが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。

ここで、カーナビゲーションシステムは、慣性航法装置やＧＰＳ(全地球位置評定衛星システム)を利用して、自動車の運行時に運転者等の乗員に対して、ディスプレイ画面上に現在位置や目的地への走行経路案内等を行なう公知の装置である。
また、上記目的を達成するために、請求項２１記載の警報システムは、請求項１６乃至請求項１８のいずれか１項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。

このような構成であれば、通知手段によって、請求項１６乃至請求項１８のいずれか１項に記載の動作内容判定装置によって判定された、対象者の覚醒状態の判定結果を対象者又は関係者に通知することが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。

一方、上記目的を達成するために、請求項２２記載の動作内容判定プログラムは、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（Support Vector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（HiddenMarkov Model）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項２記載の動作内容判定装置と同等の作用及び効果が得られる。

また、請求項２３に係る発明は、請求項２２記載の動作内容判定プログラムにおいて、前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項４記載の動作内容判定装置と同等の作用及び効果が得られる。

また、請求項２４に係る発明は、請求項２２又は請求項２３記載の動作内容判定プログラムにおいて、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項６記載の動作内容判定装置と同等の作用及び効果が得られる。

また、請求項２５に係る発明は、請求項２２乃至請求項２４のいずれか１項に記載の動作内容判定プログラムにおいて、前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項１３記載の動作内容判定装置と同等の作用及び効果が得られる。

一方、上記目的を達成するために、請求項２６記載の動作内容判定方法は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（Support Vector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（HiddenMarkov Model）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項２記載の動作内容判定装置と同等の効果が得られる。

また、請求項２７に係る発明は、請求項２６記載の動作内容判定方法において、前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項４記載の動作内容判定装置と同等の効果が得られる。

また、請求項２８に係る発明は、請求項２６又は請求項２７記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項６記載の動作内容判定装置と同等の効果が得られる。

また、請求項２９に係る発明は、請求項２６乃至請求項２８のいずれか１項に記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出ステップにおいては、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記ＨＭＭは、を含み、
前記動作内容判定ステップにおいては、前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項１３記載の動作内容判定装置と同等の効果が得られる。

本発明に係る発話区間検出装置の構成を示すブロック図である。（ａ）は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、（ｂ）は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、（ｃ）は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。（ａ）は、撮影画像の一例を示す図であり、（ｂ）は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、（ｃ）は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。ＨＭＭへの特徴量の入力における時間的概念を示す図である。ＨＭＭの出力に基づく発話開始点の判定処理の流れを示す図である。ＨＭＭの出力に基づく発話終了点の判定処理の流れを示す図である。様々な顔向きに対する発話／非発話の判定結果の一例を示す図である。発話区間検出装置１の動作処理を示すフローチャートである。画像処理部１２における検出用画像データの生成処理を示すフローチャートである。唇領域検出部１３における口唇領域の検出処理を示すフローチャートである。特徴量抽出部１４における特徴量の抽出処理を示すフローチャートである。は、発話区間検出部１５における発話区間の検出処理を示すフローチャートである。発話区間判定部１５における発話開始点判定処理を示すフローチャートである。発話区間判定部１５における発話終了点判定処理を示すフローチャートである。（ａ）〜（ｃ）は、顔向きに応じて検出される口唇領域の一例を示す図である。第１の実施の形態の変形例の口唇領域検出部１３における口唇領域の検出処理を示すフローチャートである。第１の実施の形態の変形例の特徴量抽出部１４における特徴量の抽出処理を示すフローチャートである。第１の実施の形態の変形例の発話区間検出部１５における発話区間の検出処理を示すフローチャートである。顔向きを考慮しないＨＭＭを用いた場合と、考慮したＨＭＭを用いた場合とにおける発話区間の識別確率を示す図である。本発明に係る覚醒状態判定装置の構成を示すブロック図である。（ａ）は、撮影画像の一例を示す図であり、（ｂ）は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、（ｃ）は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。１回のまばたきに対する覚醒状態判定用の筋電図波形を示す図である。まばたき波形のパターンを示す図である。図２３における波形Ｏに対する覚醒状態判定用ＨＭＭの出力と筋電図波形との一致関係を示す図である。図２３における波形Ａに対する覚醒状態判定用ＨＭＭの出力と筋電図波形との一致関係を示す図である。図２３における波形Ｂに対する覚醒状態判定用ＨＭＭの出力と筋電図波形との一致関係を示す図である。まばたきの間隔と群発の波形パターンの一例を示す図である。眼領域検出部３３における左眼領域の検出処理を示すフローチャートである。特徴量抽出部３４における特徴量の抽出処理を示すフローチャートである。覚醒状態判定部３５における覚醒状態の判定処理を示すフローチャートである。ＨＭＭ及び該ＨＭＭの各状態に対応するスペクトル包絡の一例を示す図である。

〔第１の実施の形態〕
以下、本発明の第１の実施の形態を図面に基づき説明する。図１〜図１４は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第１の実施の形態を示す図である。

本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の発話開始から発話終了までの区間である発話区間を検出する発話区間検出装置に適用した場合を説明する。
まず、本発明に係る発話区間検出装置の構成を図１に基づき説明する。図１は、本発明に係る発話区間検出装置の構成を示すブロック図である。

図１に示すように、発話区間検出装置１は、画像撮影部１０と、データ記憶部１１と、画像処理部１２と、口唇領域検出部１３と、特徴量抽出部１４と、発話区間検出部１５とを含んだ構成となっている。なお、本実施の形態において、発話区間検出装置１は、自動車室内に設置され、且つ、図示しない自動車室内に設置された音声認識機能を有したカーナビゲーションシステム（以下、ＣＮＳと称す）と連動可能に接続される。そして、発話区間検出装置１の出力はＣＮＳに入力され、ＣＮＳは入力された情報に基づき音声認識を行い、その認識結果に基づき所定の動作を行う。

画像撮影部１０は、ＣＣＤ（charge coupled device）カメラを含んだ構成となっており、フレーム単位で撮影した画像をデジタルのデータで出力する。そして、出力画像データは、データ記憶部１１に伝送される。本実施の形態において、ＣＣＤカメラは、自動車室内におけるインナーミラーに、運転席に座った人（運転手）の顔全体を含む像を撮影可能な状態で取り付けられている。なお、ＣＣＤカメラの設置位置は、インナーミラーに限らず、撮影対象者の顔全体を含む画像が撮影可能な位置であれば、ステアリング・コラム位置、センター・パネル位置、フロント・ピラー位置等の別の場所でも良い。

データ記憶部１１は、全体顔検出用ＳＶＭ、口唇領域検出用ＳＶＭ、発話区間検出用のＨＭＭ、画像撮影部１０によって撮影された画像等、発話区間の検出に必要なデータを記憶する。本実施の形態においては、撮影画像のフレームに合わせて音声データも記憶する。従って、本実施の形態においては、自動車内に、運転席に座った人の発話した音声データを取得するためのマイクが設置されている。
画像処理部１２は、口唇領域検出部１３において行われる、撮影画像から口唇領域を検出する処理の前処理として、撮影画像の各フレーム毎にグレースケール化による色情報の削減やサブ・サンプリングによる画像サイズの縮小等を行う。以下、グレースケール化及び画像サイズの縮小された撮影画像を検出用画像と称すこととする。

口唇領域検出部１３は、ＳＶＭを用いて画像処理部１２から取得した検出用画像から撮影対象者の口唇領域を検出する。本実施の形態においては、検出用画像から撮影対象者の顔全体の領域を検出する全体顔検出用ＳＶＭと、全体顔検出用ＳＶＭによって検出された全体顔画像から口唇領域を検出する口唇領域検出用ＳＶＭとの２種類のＳＶＭを用いて２段階で口唇領域を検出する。また、一度口唇領域が検出されると、次のフレームの検出用画像に対しては、前のフレームで検出された口唇領域の位置情報（例えば、画像の左上の画素を座標（１，１）とした場合の座標情報）に基づき口唇領域の探索範囲を設定し、この探索範囲に対して口唇領域検出用ＳＶＭを適用する。つまり、一度口唇領域が検出されると、口唇領域が未検出となるまで次フレームからの検出用画像に対して全体顔検出用ＳＶＭによる顔全体の画像領域の検出処理を省略する。このとき、最初に口唇領域を検出する際の探索範囲よりも狭い範囲の探索範囲を設定することで口唇領域の検出処理を高速化する。以下、上記した２種類のＳＶＭを用いた口唇領域の検出処理を行うモードを検出モードと称し、前のフレームで検出された口唇領域の位置情報に基づき口唇領域の探索範囲を設定し、この探索範囲に対して口唇領域検出用ＳＶＭを適用して口唇領域の検出処理を行うモードをトラッキングモードと称すこととする。なお、検出結果の情報は、特徴量抽出部１４に伝送される。

特徴量抽出部１４は、口唇領域検出部１３からの検出結果の情報を取得すると、この情報に基づき、対応する元の撮影画像をデータ記憶部１１から読み出し、当該読み出した画像から口唇領域の画像を切り取り、当該切り取った口唇領域画像から後述する発話区間検出用のＨＭＭに入力する特徴量を抽出する。本実施の形態においては、抽出した特徴量に対して、主成分分析や独立成分分析を用いて次元数の削減を行う。また、本実施の形態においては、切り取った口唇領域画像をフーリエ変換してその周波数スペクトル成分を特徴量として抽出する。また、抽出された特徴量は、連続する５フレーム分を一組として発話区間検出部１５に伝送される。

発話区間検出部１５は、特徴量抽出部１４から取得した口唇領域画像の特徴量を発話区間検出用のＨＭＭに入力し、この入力に対するＨＭＭからの出力に基づき、対象者の発話開始から終了までの発話区間を検出する。検出された発話区間の情報は、図示しないカーナビゲーションシステムに伝送される。
ここで、本実施の形態において、発話区間検出装置１は、図示しないプロセッサと、ＲＡＭ（Random Access Memory）と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。

また、記憶媒体とは、ＲＡＭ、ＲＯＭ等の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、あらゆる記憶媒体を含むものである。

更に、図２〜図７に基づき、発話区間検出装置１のより具体的な動作を説明する。ここで、図２（ａ）は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、（ｂ）は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、（ｃ）は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。また、図３（ａ）は、撮影画像の一例を示す図であり、（ｂ）は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、（ｃ）は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。また、図４は、ＨＭＭへの特徴量の入力における時間的概念を示す図であり、図５は、ＨＭＭの出力に基づく発話開始点の判定処理の流れを示す図であり、図６は、ＨＭＭの出力に基づく発話終了点の判定処理の流れを示す図である。また、図７は、様々な顔向きに対する発話／非発話の判定結果の一例を示す図である。

発話区間検出装置１は、発話区間の検出処理が開始されると、まず、画像撮影部１０において、インナーミラーに取り付けられたＣＣＤカメラにより、図３（ａ）に示すような自動車の運転席に座っている撮影対象者の顔全体を含む画像を撮影し、この撮影された画像データを、フレーム（ここでは、１／３０秒とする）単位で且つ撮影した順番にデータ記憶部１１に記憶する。ここで、本実施の形態において撮影画像はカラー画像とする。データ記憶部１１は、撮影画像データを記憶すると、そのことを画像処理部１２に通知する。

画像処理部１２は、データ記憶部１１からの通知を受けると、当該データ記憶部から撮影画像データを読み出し、読み出した画像データに対してグレースケース化による色情報の削減処理及びサブ・サンプリングによる画像サイズの縮小処理を行う。例えば、撮影画像が６４０×４８０画素のサイズのフルカラー画像であったとすると、グレイスケール化によりフルカラーは白と黒の中間色だけからなる色の階調を有したデータに変換され、更に、画像の縦及び横方向にそれぞれ１／１０にサブ・サンプリングされ６４×４８画素のサイズの画像に変換される。これにより、画素数を１／１００に減少する。このようにして生成された検出用画像は、口唇領域検出部１３に伝送される。

口唇領域検出部１３は、画像処理部１２から検出用画像を取得すると、検出モードに移行し、図２（ａ）に示すように、６４×４８画素の検出用画像２０の全体に対して、２０×３０画素のサーチウィンドウ２２により顔全体の画像領域のスキャニングを行う。更に、スキャニングされた２０×３０画素の計６００画素のグレイスケール値を６００次元の値として全体顔検出用ＳＶＭに入力する。全体顔検出用ＳＶＭでは、予め６００次元空間における全体顔クラスと非全体顔クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離（ユークリッド距離等）により両者の類似度を判定し、最も類似度の高い２０×３０画素の領域画像を顔全体の画像領域２００として検出する。顔全体の画像領域２００が検出されると、次に、図２（ｂ）に示すように、顔全体の画像領域２００の下半分の画像領域を含む２０×１５画素の探索領域２３を設定し、当該設定した探索領域２３に対して１０×１０画素のサーチウィンドウ２４により口唇領域のスキャニングを行う。つまり、実際の画像においては、図３（ｂ）に示すようになる。そして、スキャニングされた１０×１０画素の計１００画素のグレイスケール値を１００次元の値として口唇領域検出用ＳＶＭに入力する。口唇領域検出用ＳＶＭでは、予め１００次元空間における口唇領域クラスと非口唇領域クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離（ユークリッド距離等）により両者の類似度を判定し、最も類似度の高い１０×１０画素の領域画像を口唇領域画像として検出する。更に、口唇領域画像が検出されるとその位置情報（座標情報）を取得し、次のフレームの検出用画像に対してトラッキングモードへと移行する。

口唇領域検出部１３は、トラッキングモードに移行すると、次のフレームの検出用画像に対して、図２（ｃ）に示すように、前のフレームで検出された口唇領域画像の位置座標を中心に縦方向及び横方向に５画素ずつ広げた１５×１５画素の探索領域２５を設定し、当該設定された探索領域２５に対して１０×１０画素のサーチウィンドウ２４により口唇領域のスキャニングを行う。実際の画像においては、図３（ｃ）に示すようになる。つまり、顔全体の画像領域の検出処理を省き、且つ、２０×１５画素の探索領域２３よりも狭い１５×１５画素の探索領域２５に範囲を限定して口唇領域の探索を行うことで処理を高速化する。スキャニングされた１０×１０画素の計１００画素のグレイスケール値は、上記検出モードと同様に口唇領域検出用ＳＶＭに入力され、口唇領域の検出処理が行われる。なお、口唇領域が検出されると、本実施の形態においては、口唇領域の中心座標が特徴量抽出部１４に伝送される。また、トラッキングモードにおいては、口唇領域の検出が成功している間はこのモードを維持し、口唇領域の検出が失敗した場合は顔検出モードへと移行する。

特徴量抽出部１４は、口唇領域検出部１３から各フレームの検出用画像における口唇領域の中心座標を取得すると、データ記憶部１１によって記憶された対応する撮影画像から、前記取得した中心座標を中心に６４×６４画素のグレイスケールの口唇画像を切り出す。そして切り出した各フレームの口唇画像に対して、口唇部分以外の鼻や顎などが含まれていた場合の影響をなるべく少なくするような処理をハミング窓などの窓関数により行い。その後、２次元フーリエ変換処理を施し、口唇画像の振幅スペクトルを特徴量として求める。本実施の形態において、求めた特徴量は、更に、演算量削減及び識別に無用な情報の除去のために主成分分析によって次元削減を行う。ここで、主成分分析に用いる固有ベクトルは、予め不特定多数の人の様々な口唇画像を使用してオフラインで求めておき、例えば、固有ベクトルの第１０成分までを使って主成分分析を行うことで、１０次元よりも多次元の特徴量の次数を１０次元に削減する。このような特徴量の抽出を１フレーム毎に実施し、抽出した特徴量を、撮影した順番に５フレーム分を一組として、発話区間検出部１５に伝送する。

発話区間検出部１５は、特徴量抽出部１４から５フレーム一組の特徴量を取得すると、図４に示すように、一つ前に入力した特徴量の一組４００ａの最初のフレームに対応する特徴量に対して、次の特徴量の一組４００ｂの最初のフレームに対応する特徴量が１フレームだけずれるように、特徴量の一組４００ｂの最初のフレームに対応する特徴量を発話区間検出用のＨＭＭに入力する。これにより、特徴量の一組４００ａの２フレーム目から５フレーム目と特徴量の一組４００ｂの最初のフレームから４フレーム目までがオーバーラップして発話区間検出用のＨＭＭに入力されることになる。同様に、特徴量の一組４００ｂの次の一組４００ｃも、当該４００ｂの最初のフレームに対応する特徴量に対して、次の一組４００ｃの最初のフレームに対応する特徴量が１フレームずれるように、特徴量の一組４００ｃの最初のフレームに対応する特徴量を発話区間検出用のＨＭＭに入力することになる。このようにして、前のフレームに対して１フレームずつずらして特徴量を発話区間検出用のＨＭＭに入力させることにより、１フレーム毎の時間解像度によってＨＭＭの出力を得ることが可能となる。

また、発話区間検出用のＨＭＭは、入力された５フレーム一組の特徴量に対して発話／非発話の識別を行うもので、予め不特定多数の人の様々な口唇画像を用いて学習により求めたものを用いる。つまり、発話用のＨＭＭ及び非発話用のＨＭＭの各々に５フレーム一組の特徴量を入力し、生起確率の大きい方のモデルを識別結果として出力する。例えば、５フレーム一組の特徴量を上記各々のＨＭＭ入力したときに、発話用のＨＭＭからの出力確率が非発話用のＨＭＭの出力確率より大きかった場合は、その５フレームの識別結果は発話となる。
発話区間検出部１５は、更に、ＨＭＭの出力に基づき、上記撮影対象者の発話開始点及び発話終了点を判定する処理を行う。発話開始点及び発話終了点は、５フレーム一組の特徴量に対する上記発話用のＨＭＭ及び非発話用のＨＭＭを用いた発話／非発話の出力に対して判定が行われるものであり、まず、発話開始点の判定処理について説明する。

発話開始点は、図５に示すような流れで判定処理が行われる。ここで、図５中「Ｓ」は、発話候補点が未決定の状態を示し、「Ｃ」は、発話候補点が決定した状態を示し、「Ｄ」は、発話候補点が降格した状態を示し、状態遷移における「０」はＨＭＭの出力が非発話の状態を示し、「１」はＨＭＭの出力が発話の状態を示す。図５に示すように、ＨＭＭの出力が１フレーム目から２フレーム連続して発話の状態（図５中区間Ａ）であった場合は、１フレーム目が発話開始点の候補として設定され、３フレーム目からは「Ｃ」の状態に遷移する。その後、「Ｃ」の状態から３フレーム連続してＨＭＭの出力が発話の状態（図５中区間Ｂ）になると、発話候補点として設定された１フレーム目（図５中Ｓ１）は、発話開始点と判定される。一方、「Ｃ」の状態から３フレーム以内においてＨＭＭの出力が非発話の状態になると、非発話の発生したフレームの次のフレームは「Ｄ」の状態へと遷移する。そして、「Ｄ」の状態で１０フレーム連続してＨＭＭの出力が非発話の状態（図５中区間Ｃ）になると発話候補点として設定された１フレーム目は降格して発話候補点から除外される。

次に、発話終了点の判定処理について説明する。発話終了点は、図６に示すような流れで判定処理が行われる。ここで、図６中「Ｓ」は、６フレーム連続してＨＭＭの出力が非発話となる区間（区間Ｄ）を探索している状態を示し、「Ｃ」は、発話終了点を探索している状態を示し、状態遷移における「０」はＨＭＭの出力が非発話の状態を示し、「１」はＨＭＭの出力が発話の状態を示す。図６に示すように、ＨＭＭの出力が１フレーム目から６フレーム以上連続して非発話の状態（図６中区間Ｄ）になったときは、発話終了点を探索する「Ｃ」の状態に遷移する。そして、「Ｃ」の状態からは、単発でＨＭＭの出力が発話の状態になったときと、２フレーム連続でＨＭＭの出力が発話の状態になったときとを無視して、ＨＭＭの出力が非発話になる状態を継続してカウントする。一方、「Ｃ」の状態からＨＭＭの出力が３回連続して「１」の状態となったときは、状態「Ｓ１」に遷移する。最終的に、非発話の状態がトータルで２０回カウントされたときに１フレーム目（図６中の状態「Ｓ１」）を発話終了点として判定する。

上記した判定処理により、発話開始点及び発話終了点が決定されると、これらの情報を発話区間情報としてＣＮＳに入力する。
以上のように、ＳＶＭにより撮影画像から切り出した口唇領域画像に対する、発話区間検出用のＨＭＭによる発話／非発話の判定に加え、上記した発話開始点判定処理及び発話終了点判定処理を行うことにより、図７（ａ）〜（ｄ）に示すような様々な顔向きの口唇画像に対しても正しく発話区間の検出を行うことが可能である。例えば、図７においては、発話区間検出用のＨＭＭにより、（ａ）〜（ｃ）の口唇画像が発話状態であると判定され、（ｄ）の口唇画像が非発話状態であると判定される。

また、ＣＮＳにおいては、発話区間検出装置１からの発話開始点及び発話終了点の情報に基づき、発話開始点のフレームから発話終了点のフレームまでの撮影画像に対応する音声データをデータ記憶部１１から読み出し、当該読み出した音声データを音声認識する。そして、音声認識結果に基づき経路探索や情報の表示等の所定の処理を行う。
更に、図８に基づき、発話区間検出装置１の動作処理の流れを説明する。図８は、発話区間検出装置１の動作処理を示すフローチャートである。

図８に示すように、発話区間の検出処理が開始すると、まずステップＳ１００に移行し、画像撮影部１０において、撮影対象者の画像を撮影してステップＳ１０２に移行する。

ステップＳ１０２では、データ記憶部１１において、画像撮影部１０において撮影された画像データを記憶してステップＳ１０４に移行する。
ステップＳ１０４では、画像処理部１２において、データ記憶部１１によって記憶された撮影画像データを読み出しステップＳ１０６に移行する。
ステップＳ１０６では、画像処理部１２において、上記読み出した撮影画像データから検出用画像データを生成し、当該生成した検出用画像データを口唇領域検出部１３に伝送してステップＳ１０８に移行する。

ステップＳ１０８では、口唇領域検出部１３において、検出用画像から口唇領域を検出し、検出された口唇領域の位置情報を特徴量抽出部１４に伝送してステップＳ１１０に移行する。
ステップＳ１１０では、特徴量抽出部１４において、上記検出された口唇領域の位置情報に基づき撮影画像から口唇領域の画像を切り出し、当該切り出した画像から特徴量を抽出し、当該抽出した特徴量を発話区間検出部１５に伝送してステップＳ１１２に移行する。

ステップＳ１１２では、発話区間検出部１５において、特徴量抽出部１４から取得した特徴量を発話区間検出用ＨＭＭに入力して、発話／非発話の状態を判定し、当該判定結果に基づき発話区間を検出してステップＳ１１４に移行する。
ステップＳ１１４では、発話区間検出部１５において、検出した発話区間の情報をＣＮＳに伝送して処理を終了する。

更に、図９に基づき、画像処理部１２における検出用画像データの生成処理の流れを説明する。図９は、画像処理部１２における検出用画像データの生成処理を示すフローチャートである。
図９に示すように、まずステップＳ２００に移行し、データ記憶部１１から撮影画像データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ２０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ２０２に移行した場合は、上記取得した撮影画像に対してサブ・サンプリング処理を行いステップＳ２０４に移行する。
ステップＳ２０４では、サブ・サンプリングした撮影画像データをグレイスケール化して検出用撮影画像データを生成しステップＳ２０６に移行する。
ステップＳ２０６では、上記生成した検出用画像データを口唇領域検出部１３に伝送して処理を終了する。

更に、図１０に基づき、口唇領域検出部１３における口唇領域の検出処理の流れを説明する。図１０は、口唇領域検出部１３における口唇領域の検出処理を示すフローチャートである。
図１０に示すように、まずステップＳ３００に移行し、画像処理部１２から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ３０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ３０２に移行した場合は、検出モードに移行し、検出用画像における２０×３０画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用ＳＶＭを用いて識別処理を行いステップＳ３０４に移行する。
ステップＳ３０４では、ステップＳ３０２の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ３０６に移行し、そうでない場合(No)はステップＳ３３０に移行する。

ステップＳ３０６に移行した場合は、上記検出された顔全体の領域画像における下半分の領域を含む、２０×１５画素の口唇領域の探索領域を検出用画像に対して設定しステップＳ３０８に移行する。
ステップＳ３０８では、ステップＳ３０６で設定された探索領域における１０×１０画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用ＳＶＭを用いて識別処理を行いステップＳ３１０に移行する。

ステップＳ３１０では、ステップＳ３０８の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップＳ３１２に移行し、そうでない場合(No)はステップＳ３３０に移行する。
ステップＳ３１２に移行した場合は、ステップＳ３１０で検出された口唇領域の位置情報を取得してステップＳ３１４に移行する。

ステップＳ３１４では、検出モードからトラッキングモードに設定を切り換えステップＳ３１６に移行する。
ステップＳ３１６では、ステップＳ３１０で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップＳ３１８に移行する。
ステップＳ３１８では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、１５×１５画素の口唇領域の探索領域を設定してステップＳ３２０に移行する。

ステップＳ３２０では、ステップＳ３１８で設定された１５×１５画素の探索領域における１０×１０画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用ＳＶＭを用いて識別処理を行いステップＳ３２２に移行する。
ステップＳ３２２では、ステップＳ３２０の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップＳ３２４に移行し、そうでない場合(No)はステップＳ３３０に移行する。
ステップＳ３２４に移行した場合は、ステップＳ３２２で検出された口唇領域の位置情報を取得してステップＳ３２６に移行する。

ステップＳ３２６では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップＳ３１６に移行し、そうでない場合(No)はステップＳ３２８に移行する。
ステップＳ３２８に移行した場合は、取得した位置情報を特徴量抽出部１４に伝送してステップＳ３００に移行する。

また、ステップＳ３３０に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップＳ３３２に移行し、そうでない場合(No)はステップＳ３００に移行する。
ステップＳ３３２に移行した場合は、次フレームの検出用画像データを取得してステップＳ３０２に移行する。

更に、図１１に基づき、特徴量抽出部１４における特徴量の抽出処理の流れを説明する。図１１は、特徴量抽出部１４における特徴量の抽出処理を示すフローチャートである。
図１１に示すように、まずステップＳ４００に移行し、口唇領域検出部１３から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ４０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ４０２に移行した場合は、データ記憶部１１に記憶された撮影画像から上記取得した位置情報に基づき口唇領域の画像を切り出してステップＳ４０４に移行する。
ステップＳ４０４では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップＳ４０６に移行する。
ステップＳ４０６では、窓関数による処理後の画像に対して、２次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップＳ４０８に移行する。

ステップＳ４０８では、ステップＳ４０６で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップＳ４１０に移行する。
ステップＳ４１０では、上記生成した特徴量を５フレーム分を一組にして発話区間判定部１５に伝送してステップＳ４００に移行する。
更に、図１２に基づき、発話区間検出部１５における発話区間の検出処理の流れを説明する。図１２は、発話区間検出部１５における発話区間の検出処理を示すフローチャートである。

図１２に示すように、まずステップＳ５００に移行し、特徴量抽出部１４から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ５０２に移行し、そうでない場合(No)は取得するまで待機する。
ステップＳ５０２に移行した場合は、発話区間検出用ＨＭＭである発話用のＨＭＭ及び非発話用のＨＭＭの各々に上記取得した５フレーム一組の特徴量を入力して、５フレーム毎の発話／非発話を判定してステップＳ５０４に移行する。

ステップＳ５０４では、ステップＳ５０２の判定結果に基づき、発話開始点の判定処理を行いステップＳ５０６に移行する。
ステップＳ５０６では、ステップＳ５０４の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ５０８に移行し、そうでない場合(No)はステップＳ５００に移行する。
ステップＳ５０８に移行した場合は、ステップＳ５０２の判定結果に基づき、発話終了点の判定処理を行いステップＳ５１０に移行する。

ステップＳ５１０では、ステップＳ５０８に判定処理により、発話終了点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ５１２に移行し、そうでない場合(No)はステップＳ５００に移行する。
ステップＳ５１２に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をＣＮＳに伝送して処理を終了する。

更に、図１３に基づき、発話区間判定部１５における発話開始点判定処理の流れを説明する。図１３は、発話区間判定部１５における発話開始点判定処理を示すフローチャートである。
図１３に示すように、まずステップＳ６００に移行し、発話区間検出用ＨＭＭによる発話／非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ６０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ６０２に移行した場合は、上記判定結果に基づき、該当するフレームから発話状態が連続して２回続いたか否かを判定し、続いたと判定された場合(Yes)はステップＳ６０４に移行し、そうでない場合(No)は続くフレームに対して判定処理を継続する。
ステップＳ６０４に移行した場合は、該当フレームを１フレーム目（Ｓ１）として、このフレームを発話開始点の候補に設定してステップＳ６０６に移行する。

ステップＳ６０６では、Ｓ１から３フレーム目以降を状態「Ｃ」に遷移させてステップＳ６０８に移行する。
ステップＳ６０８では、状態「Ｃ」におけるフレームにおいて、非発話の状態が発生したか否かを判定し、非発話の状態が発生したと判定された場合(Yes)はステップＳ６１０に移行し、そうでない場合(No)はステップＳ６２０に移行する。

ステップＳ６１０に移行した場合は、非発話の発生したフレームの次フレーム以降を状態「Ｄ」に遷移させてステップＳ６１２に移行する。
ステップＳ６１２では、状態「Ｄ」におけるフレームにおいて、発話状態が発生したか否かを判定し発生したと判定された場合(Yes)はステップＳ６１４に移行し、そうでない場合(No)はステップＳ６１６に移行する。

ステップＳ６１４に移行した場合は、１フレーム目（Ｓ１）を発話開始点と判定して処理を終了する。
一方、ステップＳ６１６に移行した場合は、状態「Ｄ」におけるフレームにおいて、非発話状態が連続して１０回続いたか否かを判定し、続いたと判定された場合(Yes)はステップＳ６１８に移行し、そうでない場合(No)はステップＳ６１２に移行する。

ステップＳ６１８に移行した場合は、１フレーム目（Ｓ１）を発話候補点から降格してステップＳ６０２に移行する。
一方、ステップＳ６０８において、状態「Ｃ」において非発話の状態が発生せずステップＳ６２０に移行した場合は、発話状態の発生回数をカウントすると共に、３フレーム連続して発話状態が発生したか否かを判定し、発生したと判定された場合(Yes)はステップＳ６２２に移行し、そうでない場合(No)はステップＳ６０８に移行する。

ステップＳ６２２に移行した場合は、１フレーム目（Ｓ１）を発話開始点と判定して処理を終了する。
更に、図１４に基づき、発話区間判定部１５における発話終了点判定処理の流れを説明する。図１４は、発話区間判定部１５における発話終了点判定処理を示すフローチャートである。
図１４に示すように、まずステップＳ７００に移行し、発話区間検出用ＨＭＭによる発話／非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ７０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ７０２に移行した場合は、フレームの順番に非発話の発生回数をカウントしてステップＳ７０４に移行する。
ステップＳ７０４では、非発話の状態が６回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップＳ７０６に移行し、そうでない場合(No)はステップＳ７０２に移行する。
ステップＳ７０６に移行した場合は、上記６回連続後のフレーム以降を状態「Ｃ」に遷移させてステップＳ７０８に移行する。

ステップＳ７０８では、発話の発生回数もカウントし、且つ、状態「Ｃ」におけるフレームにおいて、発話の状態が３回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップＳ７１０に移行し、そうでない場合(No)はステップＳ７１２に移行する。
ステップＳ７１０に移行した場合は、非発話の発生回数のカウントをクリアしてステップＳ７０２に移行する。
一方、ステップＳ７１２に移行した場合は、非発話の発生回数のカウントを継続して行いステップＳ７１４に移行する。

ステップＳ７１４では、非発話の発生回数がトータルで２０回となったか否かを判定し、２０回になったと判定された場合(Yes)はステップＳ７１６に移行し、そうでない場合(No)はステップＳ７０８に移行する。
ステップＳ７１６に移行した場合は、ステップＳ７０４における６回連続したフレームの１フレーム目（Ｓ１）を発話終了点と判定し処理を終了する。

以上、発話区間検出装置１は、画像撮影部１０により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部１１により、撮影画像データを記憶することが可能であり、画像処理部１２により、撮影画像データをグレイスケール化し、且つ、サブ・サンプリングによりサイズを縮小することにより検出用画像を生成することが可能であり、口唇領域検出部１３により、全体顔検出用ＳＶＭ及び口唇領域検出用ＳＶＭを用いて検出用画像から口唇領域を検出することが可能であり、特徴量抽出部１４により、検出された口唇領域の位置情報に基づき、元の撮影画像から口唇領域画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部１５により、発話区間検出用ＨＭＭを用いて、発話区間の検出を行うことが可能である。

なお、上記実施の形態において、口唇画像の検出と同様に、専用のＳＶＭにより眼の画像を検出し、その特徴量を抽出して専用のＨＭＭを用いて眼の動きに関連する動作内容を判定できる構成としても良い。このような構成であれば、居眠り等の動作を判定することが可能となり、音声による警告を与える等の運転支援を行うことが可能となる。

また、上記実施の形態において、特徴量抽出部１４において抽出された特徴量を、発話内容判定用のＨＭＭに入力することにより、発話区間では無くて、発話内容を直接識別する構成も可能である。この場合は、予め不特定多数の人の様々な口唇画像を用いて学習により、「あ」、「い」等の発音内容を識別するためのＨＭＭを作成する。このような構成であれば、口唇の動きのみから発話内容を判定することが可能となるので、音声情報が不要となり音声認識に必要なデータ量を削減することが可能となる。

また、上記実施の形態において、全体顔検出用ＳＶＭ及び口唇領域検出用ＳＶＭを用いて、検出用画像から顔全体の画像領域及び口唇画像の領域を検出した後に、これらの位置関係を用いて撮影対象者の顔の向きを判定する構成も可能である。この構成により、例えば、発話者の顔向きの判定結果を用いて自動車内に設置された集音装置の集音部（マイク等）の向きを制御したり、自動車内に複数設置された集音部のうち、発話者の向いている方向にある集音部を選択して動作させる制御等を行うことにより、発話者の音声データをより確実且つ正確に取得することが可能となる。

上記実施の形態において、画像撮影部１０及びデータ記憶部１１による撮影対象者の画像データの取得処理は、請求項１、２、１９、２２及び２６のいずれか１に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部１２及び口唇領域検出部１３による撮影画像からの口唇領域の検出処理は、請求項２、１９、２２及び２６のいずれか１項に記載の顔部位検出手段に対応する。

また、上記実施の形態において、特徴量抽出部１４は、請求項１、２、６、１９、２２及び２４のいずれか１項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部１５は、請求項１、２、５、６、７、１０、２２、２３、２４及び２５のいずれか１項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話開始点の判定処理は、請求項７、８及び９のいずれか１項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話終了点の判定処理は、請求項１０、１１及び１２のいずれか１項に記載の発話終了点判定手段に対応する。

〔第１の実施の形態の変形例〕
次に、本発明の第１の実施の形態の変形例を図面に基づき説明する。図１５乃至図１９は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第１の実施の形態の変形例を示す図である。

上記第１の実施の形態と異なるのは、対象者の顔の向きに応じた発話区間検出用のＨＭＭをそれぞれ設定した顔向き毎に用意する点、上記口唇領域検出部１３において、対象者の顔の向きを判定すると共に、判定結果の顔向きに応じて検出する口唇領域の領域サイズを変更する点、発話区間検出部１５において、前記判定結果の顔向きに応じた発話区間検出用のＨＭＭを選択し、当該選択したＨＭＭによって発話区間を検出する点である。以下、上記第１の実施の形態と異なる部分についてのみ説明し、上記第１の実施の形態と重複する部分については説明を省略する。

まず、上記第１の実施の形態の発話区間検出装置１における上記第１の実施の形態とは異なる部分を説明する。
データ記憶部１１は、上記発話区間検出用のＨＭＭとして、予め設定された複数方向の顔向きに対応して生成されたものを記憶する。

口唇領域検出部１３は、上記第１の実施の形態の機能に加え、全体顔検出用ＳＶＭによって検出された撮影対象者の顔全体の領域と、口唇領域の位置情報とに基づき、撮影対象者の顔向き方向を判定する機能を有している。更に、この判定された顔向き方向に基づき、口唇領域の検出サイズを変更する。つまり、撮影対象者の顔向き方向によって、撮影される口唇部分の形状が異なるため、口唇部分を含むのに必要な口唇領域のサイズもそれに応じて異なってくるので、全ての形状を考慮した１種類のサイズにするよりも、形状に応じてサイズを可変とすることで、後段の処理を効率化し高性能化することが可能となる。なお、検出結果の情報及び顔向き方向の判定結果は、特徴量抽出部１４に伝送される。

特徴量抽出部１４は、口唇領域検出部１３からの検出結果の情報及び顔向き方向の判定結果を取得すると、これらの情報に基づき、対応する元の撮影画像をデータ記憶部１１から読み出し、当該読み出した画像から顔向き方向に応じたサイズの口唇領域の画像を切り取り、当該切り取った口唇領域画像から後述する発話区間検出用のＨＭＭに入力する特徴量を抽出する。つまり、上記第１の実施の形態とは、顔向き方向に応じて切り出すサイズを変更している点が異なる。

発話区間検出部１５は、口唇領域検出部１３からの判定結果の顔向き方向の情報に基づき、当該顔向きに対応した発話区間検出用のＨＭＭをデータ記憶部１１から選択して読み出し、特徴量抽出部１４から取得した口唇領域画像の特徴量を、当該選択した発話区間検出用のＨＭＭに入力し、この入力に対するＨＭＭからの出力に基づき、対象者の発話開始から終了までの発話区間を検出する。
更に、図１５に基づき、本変形例における発話区間検出装置１のより具体的な動作を説明する。ここで、図１５（ａ）〜（ｃ）は、顔向きに応じて検出される口唇領域の一例を示す図である。

本変形例においては、インナーミラーの鏡面の向きと平行となるようにＣＣＤカメラが設置されており、撮影対象者がインナーミラーの方を向くと当該撮影対象者の顔が正面から撮影されるようになっている。また、データ記憶部１１は、撮影対象者が、運転席に座った状態において、右の窓の方を向いた方向（以下、右窓方向と略す）、右のドアミラーの方を向いた方向（以下、右ミラー方向と略す）、正面を向いた方向（以下、正面方向と略す）、インナーミラーの方を向いた方向（以下、インナーミラー方向と略す）、左のドアミラーの方を向いた方向（以下、左ミラー方向と略す）、左の窓の方を向いた方向（以下、左窓方向と略す）にそれぞれ対応する６種類の発話区間検出用のＨＭＭが記憶されている。これらＨＭＭは、それぞれの顔向き毎に、不特定多数の撮影対象者の撮影画像から抽出された口唇部分の画像の特徴量を学習データとして学習を行い生成されたもので、口唇部分の画像から抽出される特徴量を入力とし、撮影対象者の発話状態に対する尤度、非発話状態に対する尤度を出力とするものである。

本変形例において、口唇領域検出部１３は、画像処理部１２から検出用画像を取得すると、上記第１の実施の形態と同様に、検出モードに移行し、全体顔検出用ＳＶＭを用いて２０×３０画素の領域画像を顔全体の画像領域２００として検出する。顔全体の画像領域２００が検出されると、次に、上記第１の実施の形態と同様に、口唇領域検出用ＳＶＭを用いて１０×１０画素の口唇領域画像を検出する。更に、口唇領域画像が検出されるとその位置情報（座標情報）を取得し、顔全体の画像領域２００と、当該取得した位置情報に基づき、撮影された画像における対象者の顔の向き（上記した６種類のいずれか）を判定する。具体的には、上記した６種類の顔の向きによって、顔全体の画像領域２００における口唇部分の位置座標が異なるので、これら位置座標の違いからそれぞれの顔向きを判断する。更に、顔向きが判定されると、判定結果の顔向きに応じて縦×横が１０×１０画素の口唇領域を１０×８画素、１０×５画素等のサイズに変更する。

例えば、図１５（ａ）〜（ｃ）は、撮影対象者の顔向きが、正面方向、インナーミラー方向及び右窓方向のときの口唇領域の検出結果を示す図であるが、ＣＣＤカメラの設置位置との関係から、インナーミラー方向を向いているときに口唇部分が正面から撮影されるため口唇部分の画素数が最も多くなるので、図１５（ｂ）に示すように、口唇領域は１０×１０画素のサイズとなり、次いで、正面方向（又は左ミラー方向）を向いているときが口唇部分の画素数が二番目に多くなるので、図１５（ａ）に示すように、１０×１０画素が１０×８画素のサイズに変更され、右窓方向を向いたときの口唇部分の画素数が最も少なくなるので、図１５（ｃ）に示すように、１０×１０画素が１０×８画素のサイズに変更される。図示しないが、１０×８画素と１０×５画素との間に、右ミラー方向及び左窓方向に対応したサイズ（例えば、１０×７画素）がある。
このようにして、口唇領域のサイズが変更されると、次のフレームの検出用画像に対してトラッキングモードへと移行する。

口唇領域検出部１３は、トラッキングモードに移行すると、上記第１の実施の形態と同様に、次のフレームの検出用画像に対して、図２（ｃ）に示すように、前のフレームで検出された口唇領域画像の位置座標を中心に縦方向及び横方向に５画素ずつ広げた１５×１５画素の探索領域２５を設定し、当該設定された探索領域２５に対して１０×１０画素のサーチウィンドウ２４により口唇領域のスキャニングを行う。スキャニングされた１０×１０画素の計１００画素のグレイスケール値は、上記検出モードと同様に口唇領域検出用ＳＶＭに入力され、口唇領域の検出処理が行われる。なお、口唇領域が検出され、座標情報が取得されると、既に検出されている顔全体の画像領域２００と座標情報とに基づき上記同様に顔向きを判定し、判定結果の顔向きに基づき口唇領域のサイズ変更を行う。また、本変形例においては、顔向き方向の情報及び口唇領域の中心座標が、特徴量抽出部１４に伝送される。

特徴量抽出部１４は、口唇領域検出部１３から各フレームの検出用画像における顔向き方向の情報及び口唇領域の中心座標を取得すると、データ記憶部１１によって記憶された対応する撮影画像から、前記取得した中心座標を中心に顔向き方向に応じた画素数（例えば、縦×横が６４×４８画素〜６４×６４画素の範囲）のグレイスケールの口唇画像を切り出す。つまり、上記口唇領域と同様に、インナーミラー方向を最大サイズ（６４×６４画素）とし、右窓方向を最小サイズ（６４×４８画素）にする。以降は、上記第１の実施の形態と同様の処理を行い、口唇画像の振幅スペクトルを特徴量として求める。そして、このような特徴量の抽出を１フレーム毎に実施し、抽出した特徴量を、撮影した順番に５フレーム分を一組として、発話区間検出部１５に伝送すると共に、５フレーム一組に対応した顔向き判定結果を発話区間検出部１５に伝送する。

発話区間検出部１５は、特徴量抽出部１４から顔向き判定結果及び５フレーム一組の特徴量を取得すると、まず、顔向き判定結果に基づき、データ記憶部１１から当該顔向き方向に対応する発話区間検出用のＨＭＭを選択して読み出す。つまり、上記した６種類の顔向き方向に対応したＨＭＭから、判定結果の顔向きに対応したＨＭＭを選択する。以降は、選択したＨＭＭを用いて、上記第１の実施の形態と同様の処理によって、発話区間が検出される。

更に、図１６に基づき、本変形例における口唇領域検出部１３における口唇領域の検出処理の流れを説明する。図１６は、第１の実施の形態の変形例の口唇領域検出部１３における口唇領域の検出処理を示すフローチャートである。
図１６に示すように、まずステップＳ８００に移行し、画像処理部１２から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ８０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ８０２に移行した場合は、検出モードに移行し、検出用画像における２０×３０画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用ＳＶＭを用いて識別処理を行いステップＳ８０４に移行する。
ステップＳ８０４では、ステップＳ８０２の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ８０６に移行し、そうでない場合(No)はステップＳ８３８に移行する。

ステップＳ８０６に移行した場合は、上記検出された顔全体の領域画像における下半分の領域を含む、２０×１５画素の口唇領域の探索領域を検出用画像に対して設定しステップＳ８０８に移行する。
ステップＳ８０８では、ステップＳ８０６で設定された探索領域における１０×１０画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用ＳＶＭを用いて識別処理を行いステップＳ８１０に移行する。

ステップＳ８１０では、ステップＳ８０８の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップＳ８１２に移行し、そうでない場合(No)はステップＳ８３８に移行する。
ステップＳ８１２に移行した場合は、ステップＳ８１０で検出された口唇領域の位置情報を取得してステップＳ８１４に移行する。
ステップＳ８１４では、ステップＳ８０４で検出された顔全体の領域画像と、ステップＳ８１２で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップＳ８１６に移行する。

ステップＳ８１６では、ステップＳ８１４で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップＳ８１８に移行する。ここで、領域サイズの決定は、ＣＣＤカメラに対して撮影対象者の顔が正面となる顔向き方向（インナーミラー方向）において、１０×１０画素の最大サイズとし、その他の顔向きの場合は、顔向き方向に応じて予め設定された１０×１０画素よりも小さいサイズの領域に変更する。
ステップＳ８１８では、検出モードからトラッキングモードに設定を切り換えステップＳ８２０に移行する。

ステップＳ８２０では、ステップＳ８１０で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップＳ８２２に移行する。
ステップＳ８２２では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、１５×１５画素の口唇領域の探索領域を設定してステップＳ８２４に移行する。
ステップＳ８２４では、ステップＳ８２２で設定された１５×１５画素の探索領域における１０×１０画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用ＳＶＭを用いて識別処理を行いステップＳ８２６に移行する。

ステップＳ８２６では、ステップＳ８２４の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップＳ８２８に移行し、そうでない場合(No)はステップＳ８３８に移行する。
ステップＳ８２８に移行した場合は、ステップＳ８２６で検出された口唇領域の位置情報を取得してステップＳ８３８に移行する。

ステップＳ８３０では、ステップＳ８０４で検出された顔全体の領域画像と、ステップＳ８２８で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップＳ８３２に移行する。
ステップＳ８３２では、ステップＳ８３０で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップＳ８３４に移行する。

ステップＳ８３４では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップＳ８２０に移行し、そうでない場合(No)はステップＳ８３６に移行する。
ステップＳ８３６に移行した場合は、取得した位置情報及び判定結果の顔向き方向の情報を特徴量抽出部１４に伝送してステップＳ８００に移行する。

また、ステップＳ８３８に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップＳ８４０に移行し、そうでない場合(No)はステップＳ８００に移行する。
ステップＳ８４０に移行した場合は、次フレームの検出用画像データを取得してステップＳ８０２に移行する。

更に、図１７に基づき、特徴量抽出部１４における特徴量の抽出処理の流れを説明する。図１７は、特徴量抽出部１４における特徴量の抽出処理を示すフローチャートである。
図１７に示すように、まずステップＳ９００に移行し、口唇領域検出部１３から顔向き方向の情報及び位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ９０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ９０２に移行した場合は、データ記憶部１１に記憶された撮影画像から上記取得した顔向き方向情報及び位置情報に基づき、顔向き方向に応じたサイズの口唇領域の画像を切り出してステップＳ９０４に移行する。ここで、顔向き方向に応じたサイズとは、ＣＣＤカメラに対して撮影対象者の顔が正面となる顔向き方向（インナーミラー方向）において、最大サイズとし、その他の顔向きの場合は、顔向き方向に応じて予め設定された最大サイズよりも小さいサイズの領域となる。

ステップＳ９０４では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップＳ９０６に移行する。
ステップＳ９０６では、窓関数による処理後の画像に対して、２次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップＳ９０８に移行する。
ステップＳ９０８では、ステップＳ９０６で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップＳ９１０に移行する。

ステップＳ９１０では、上記生成した特徴量を５フレーム分を一組にして発話区間判定部１５に伝送してステップＳ９００に移行する。
更に、図１８に基づき、発話区間検出部１５における発話区間の検出処理の流れを説明する。図１８は、第１の実施の形態の変形例の発話区間検出部１５における発話区間の検出処理を示すフローチャートである。

図１８に示すように、まずステップＳ１０００に移行し、特徴量抽出部１４から顔向き方向の情報及び特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ１００２に移行し、そうでない場合(No)は取得するまで待機する。
ステップＳ１００２に移行した場合は、顔向き方向の情報に基づき、データ記憶部１１に記憶された複数方向の顔向きに対応した発話区間検出用のＨＭＭから、顔向き方向の情報の示す顔向き方向に対応したＨＭＭを選択して読み出しステップＳ１００４に移行する。

ステップＳ１００４では、ステップＳ１００２で選択した、発話区間検出用のＨＭＭである発話用のＨＭＭ及び非発話用のＨＭＭの各々に上記取得した５フレーム一組の特徴量を入力して、５フレーム毎の発話／非発話を判定してステップＳ１００６に移行する。
ステップＳ１００６では、ステップＳ１００４の判定結果に基づき、発話開始点の判定処理を行いステップＳ１００８に移行する。

ステップＳ１００８では、ステップＳ１００６の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ１０１０に移行し、そうでない場合(No)はステップＳ１０００に移行する。
ステップＳ１０１０に移行した場合は、ステップＳ１００４の判定結果に基づき、発話終了点の判定処理を行いステップＳ１０１２に移行する。

ステップＳ１０１２では、ステップＳ１０１０に判定処理により、発話終了点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ１０１４に移行し、そうでない場合(No)はステップＳ１０００に移行する。
ステップＳ１０１４に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をＣＮＳに伝送して処理を終了する。

更に、本変形例の効果を示すために、図１９に基づき、上記第１の実施の形態における発話区間の検出方法と、本変形例における発話区間の検出方法とを比較する。ここで、図１９は、顔向きを考慮しないＨＭＭを用いた場合と、考慮したＨＭＭを用いた場合とにおける発話区間の識別確率を示す図である。つまり、上記第１の実施の形態における顔向き方向を考慮しない全方向に対応した１種類のＨＭＭを用いて発話区間の検出をおこなった実施例における当該発話区間の識別確率と、本変形例で用いた上記６種類の顔向き方向毎にそれぞれ生成された６種類のＨＭＭを用いて発話区間の検出を行った実施例における当該発話区間の識別確率とを比較する。

図１６の例においては、撮影対象者の顔向き方向を考慮せずに、本変形例で説明した撮影対象者の上記６種類の顔向き方向に対するそれぞれの発話区間を、全顔向き方向に対応した１種類のＨＭＭを用いて検出した場合の識別確率と、撮影対象者の顔向き方向を考慮して、上記６種類の顔向き方向毎にそれぞれ対応したＨＭＭを生成し、これら６種類のＨＭＭを用いて、上記６種類の顔向き方向に対するそれぞれの発話区間を検出した場合の識別確率とが示されている。

上記第１の実施の形態の方法の識別確率と、本変形例の方法の識別確率とを比較してみると、ＣＣＤカメラの撮影方向に対する、撮影対象者の顔向き方向の角度が特に大きくなる右ミラー方向と右窓方向において、本変形例の顔向きを考慮した方法が、上記第１の実施の形態の方法より４％も識別確率が向上しているのが解る。これは、前記角度が異なることによって、ＣＣＤカメラによって撮影される口唇部分の画像形状が、角度の大きさに応じて異なる形状となってくるためである。つまり、口唇部分の画像の変形度合いが大きければ大きいほど（前記角度が大きければ大きいほど）、変形度合いが小さい（前記角度が小さい）画像から抽出される特徴量とは違った特徴量が抽出されるようになるため、このように角度によって違った特徴量が得られるものに対して１種類のＨＭＭを用いて発話区間を検出するよりも、それぞれの方向（角度範囲）に応じたＨＭＭを用いた方が発話区間の検出精度が向上する。このことは、図１６に示すように、ＨＭＭを各顔向き方向毎に作成した方が、１種類のＨＭＭで全方向の発話区間を検出するよりも、全ての方向において識別確率が向上していることからも解る。

以上、本変形例における発話区間検出装置１は、画像撮影部１０により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部１１により、撮影対象者の複数方向の顔向き方向に対応した発話区間検出用のＨＭＭ、撮影画像データなどを記憶することが可能であり、画像処理部１２により、撮影画像データをグレイスケール化し、且つ、サブ・サンプリングによりサイズを縮小することにより検出用画像を生成することが可能であり、口唇領域検出部１３により、全体顔検出用ＳＶＭ及び口唇領域検出用ＳＶＭを用いて検出用画像から口唇領域を検出すると共に、顔全体の領域画像と検出した口唇領域の座標情報とに基づき、撮影対象者の顔向き方向を判定し、当該判定結果に基づき口唇領域の検出サイズを変更することが可能であり、特徴量抽出部１４により、検出された口唇領域の位置情報及び判定結果の顔向き方向に基づき、元の撮影画像から顔向き方向に応じたサイズの口唇領域画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部１５により、判定結果の顔向き方向に対応した発話区間検出用のＨＭＭを用いて、発話区間の検出を行うことが可能である。

上記実施の形態において、画像撮影部１０及びデータ記憶部１１による撮影対象者の画像データの取得処理は、請求項１、２、４、１９、２２及び２６のいずれか１に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部１２及び口唇領域検出部１３による撮影画像からの口唇領域の検出処理は、請求項２、３、１９、２２及び２６のいずれか１項に記載の顔部位検出手段に対応する。

また、上記実施の形態において、口唇領域検出部１３による位置情報の取得処理は、請求項４又は２３記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部１４は、請求項１、２、４、６、１９、２２及び２４のいずれか１項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部１５は、請求項１、２、４、５、６、７、１０、２２、２３、２４及び２５のいずれか１項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話開始点の判定処理は、請求項７、８及び９のいずれか１項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話終了点の判定処理は、請求項１０、１１及び１２のいずれか１項に記載の発話終了点判定手段に対応する。

〔第２の実施の形態〕
次に、本発明の第２の実施の形態を図面に基づき説明する。図２０〜図３０は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第２の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の覚醒状態を判定する覚醒状態判定装置に適用した場合を説明する。

まず、本発明に係る覚醒状態判定装置の構成を図２０に基づき説明する。図２０は、本発明に係る覚醒状態判定装置の構成を示すブロック図である。
図２０に示すように、覚醒状態判定装置２は、画像撮影部３０と、データ記憶部３１と、画像処理部３２と、眼領域検出部３３と、特徴量抽出部３４と、覚醒状態判定部３５とを含んだ構成となっている。なお、本実施の形態において、覚醒状態判定装置２は、自動車室内に設置され、且つ、図示しない自動車室内に設置された警報システムと連動可能に接続される。そして、覚醒状態判定装置２の出力は警報システムに入力され、警報システムは入力された情報に基づき、運転者が睡眠状態や睡眠しかかった状態にあると判定された場合には、判定結果の画面表示、警告音や警告音声メッセージを発する等の動作を行う。

画像撮影部３０は、ＣＣＤ（charge coupled device）カメラを含んだ構成となっており、フレーム単位で撮影した画像をデジタルのデータで出力する。そして、出力画像データは、データ記憶部３１に伝送される。本実施の形態において、ＣＣＤカメラは、自動車室内におけるインナーミラーに、運転席に座った人（運転手）の顔全体を含む像を撮影可能な状態で取り付けられている。なお、ＣＣＤカメラの設置位置は、インナーミラーに限らず、撮影対象者の顔全体を含む画像が撮影可能な位置であれば、ステアリング・コラム位置、センター・パネル位置、フロント・ピラー位置等の別の場所でも良い。

データ記憶部３１は、全体顔検出用ＳＶＭ、眼領域検出用ＳＶＭ、覚醒状態判定用のＨＭＭ、画像撮影部３０によって撮影された画像等、覚醒状態の判定に必要なデータを記憶する。
画像処理部３２は、眼領域検出部３３において行われる、撮影画像から眼領域を検出する処理の前処理として、画像サイズの縮小等を行う。以下、画像サイズの縮小された撮影画像を検出用画像と称すこととする。

眼領域検出部３３は、ＳＶＭを用いて画像処理部３２から取得した検出用画像から撮影対象者の眼領域を検出する。本実施の形態においては、検出用画像から撮影対象者の顔全体の領域２００を検出する全体顔検出用ＳＶＭと、全体顔検出用ＳＶＭによって検出された全体顔画像から撮影対象者の左眼を含む左眼領域（右眼は含まない）を検出する左眼領域検出用ＳＶＭとの２種類のＳＶＭを用いて２段階で左眼領域を検出する。また、一度左眼領域が検出されると、次のフレームの検出用画像に対しては、前のフレームで検出された左眼領域の位置情報（例えば、画像の左上の画素を座標（１，１）とした場合の座標情報）に基づき左眼領域の探索範囲を設定し、この探索範囲に対して左眼領域検出用ＳＶＭを適用する。つまり、一度左眼領域が検出されると、左眼領域が未検出となるまで次フレームからの検出用画像に対して全体顔検出用ＳＶＭによる顔全体の画像領域の検出処理を省略する。このとき、最初に左眼領域を検出する際の探索範囲よりも狭い範囲の探索範囲を設定することで左眼領域の検出処理を高速化する。以下、上記した２種類のＳＶＭを用いた左眼領域の検出処理を行うモードを検出モードと称し、前のフレームで検出された左眼領域の位置情報に基づき左眼領域の探索範囲を設定し、この探索範囲に対して左眼領域検出用ＳＶＭを適用して左眼領域の検出処理を行うモードをトラッキングモードと称すこととする。なお、検出結果の情報は、特徴量抽出部３４に伝送される。

特徴量抽出部３４は、眼領域検出部３３からの検出結果の情報を取得すると、この情報に基づき、対応する元の撮影画像をデータ記憶部１１から読み出し、当該読み出した画像から左眼領域の画像を切り取り、当該切り取った左眼領域画像から後述する覚醒状態判定用のＨＭＭに入力する特徴量を抽出する。本実施の形態においては、抽出した特徴量に対して、主成分分析や独立成分分析を用いて次元数の削減を行う。また、本実施の形態においては、切り取った左眼領域画像をフーリエ変換してその周波数スペクトル成分を特徴量として抽出する。また、抽出された特徴量は、連続する所定フレーム（例えば、１０フレーム）分を一組として覚醒状態判定部３５に伝送される。

覚醒状態判定部３５は、特徴量抽出部３４から取得した左眼領域画像の特徴量を覚醒状態判定用のＨＭＭに入力し、この入力に対するＨＭＭからの出力に基づき、対象者の覚醒状態を判定する。判定結果の情報は、図示しない警報システムに伝送される。
ここで、本実施の形態において、覚醒状態判定装置２は、図示しないプロセッサと、ＲＡＭ（Random Access Memory）と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。

更に、図２１〜図２７に基づき、覚醒状態判定装置２のより具体的な動作を説明する。ここで、図２１（ａ）は、撮影画像の一例を示す図であり、（ｂ）は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、（ｃ）は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。また、図２２は、１回のまばたきに対する覚醒状態判定用の筋電図波形の構成を示す図である。また、図２３は、まばたき波形のパターンを示す図である。図２４は、図２３における波形Ｏに対する覚醒状態判定用ＨＭＭの出力と筋電図波形との一致関係を示す図であり、図２５は、図２３における波形Ａに対する覚醒状態判定用ＨＭＭの出力と筋電図波形との一致関係を示す図であり、図２６は、図２３における波形Ｂに対する覚醒状態判定用ＨＭＭの出力と筋電図波形との一致関係を示す図である。また、図２７は、まばたきの間隔と群発の波形パターンの一例を示す図である。

覚醒状態判定装置２は、覚醒状態の判定処理が開始されると、まず、画像撮影部１０において、インナーミラーに取り付けられたＣＣＤカメラにより、図２１（ａ）に示すような自動車の運転席に座っている撮影対象者（運転者）の顔全体を含む画像を撮影し、この撮影された画像データを、フレーム（ここでは、１／３０秒とする）単位で且つ撮影した順番にデータ記憶部３１に記憶する。ここで、本実施の形態において撮影画像はカラー画像とする。データ記憶部３１は、撮影画像データを記憶すると、そのことを画像処理部３２に通知する。

画像処理部３２は、データ記憶部３１からの通知を受けると、当該データ記憶部３１から撮影画像データを読み出し、読み出した画像データに対してサブ・サンプリングによる画像サイズの縮小処理を行う。例えば、撮影画像が６４０×４８０（縦×横）画素のサイズのフルカラー画像であったとすると、画像の縦及び横方向にそれぞれ１／８にサブ・サンプリングされ８０×６０（縦×横）画素のサイズの画像に変換される。サブ・サンプリングは、例えば、６４０×４８０画素の撮影画像を、８０×８０画素の矩形領域単位に分割し、各矩形領域を当該各矩形領域の画素の輝度値の平均値を輝度値とした１画素に置換することにより行われる。これにより、画素数を１／６４に減少する。このようにして生成された検出用画像は、眼領域検出部３３に伝送される。

眼領域検出部３３は、画像処理部３２から検出用画像を取得すると、検出モードに移行し、上記第１の実施の形態と同様の方法により、８０×６０画素の検出用画像の全体に対して、２０×２０画素のサーチウィンドウにより顔全体の画像領域のスキャニングを行う。更に、スキャニングされた２０×２０画素の計４００画素の画素値を４００次元の値として全体顔検出用ＳＶＭに入力する。全体顔検出用ＳＶＭでは、予め４００次元空間における全体顔クラスと非全体顔クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離（ユークリッド距離等）により両者の類似度を判定し、最も類似度の高い２０×２０画素の領域画像を顔全体の画像領域として検出する。顔全体の画像領域２００が検出されると、次に、上記第１の実施の形態と同様の方法により、顔全体の画像領域２００の上半分の画像領域（左眼を含む領域）を含む１０×２０（縦×横）画素の探索領域２６を設定し、当該設定した探索領域に対して４×８（縦×横）画素のサーチウィンドウ２７により左眼領域のスキャニングを行う。つまり、実際の画像においては、図２１（ｂ）に示すようになる。そして、スキャニングされた４×８画素の計３２画素の画素値を３２次元の値として左眼領域検出用ＳＶＭに入力する。左眼領域検出用ＳＶＭでは、予め３２次元空間における左眼領域クラスと非左眼領域クラスとを識別可能な状態に学習が行われており、識別用のハイパープレーンと入力値との距離（ユークリッド距離等）により両者の類似度を判定し、最も類似度の高い４×８画素の領域画像を左眼領域画像として検出する。更に、左眼領域画像が検出されるとその位置情報（座標情報）を取得し、次のフレームの検出用画像に対してトラッキングモードへと移行する。

眼領域検出部３３は、トラッキングモードに移行すると、次のフレームの検出用画像に対して、上記第１の実施の形態と同様の方法により、前のフレームで検出された左眼領域画像の位置座標を中心に縦方向及び横方向に５画素ずつ広げた１５×１５画素の探索領域２８を設定し、当該設定された探索領域に対して４×８画素のサーチウィンドウにより左眼領域のスキャニングを行う。実際の画像においては、図２１（ｃ）に示すようになる。スキャニングされた４×８画素の計３２画素の画素値は、上記検出モードと同様に左眼領域検出用ＳＶＭに入力され、左眼領域の検出処理が行われる。なお、左眼領域が検出されると、本実施の形態においては、左眼領域の中心座標が特徴量抽出部３４に伝送される。また、トラッキングモードにおいては、左眼領域の検出が成功している間はこのモードを維持し、左眼領域の検出が失敗した場合は顔検出モードへと移行する。

特徴量抽出部３４は、左眼領域検出部３３から各フレームの検出用画像における左眼領域の中心座標を取得すると、データ記憶部３１によって記憶された対応する撮影画像から、前記取得した中心座標を中心に４×８画素の左眼領域画像を切り出す。そして切り出した各フレームの左眼領域画像に対して、ＦＦＴなどにより分散フーリエ変換処理を施し、その変換後の実部係数と、１つ前のフレームの左眼領域画像の分散フーリエ変換後の実部係数との差分値を特徴量として求める。なお、特徴量としては、他にも、左目領域画像をフーリエ変換した周波数スペクトル成分、左目領域画像をフーリエ変換した周波数スペクトルに対する対数成分、左目領域画像をフーリエ変換した周波数スペクトルに対しての前後のフレームとのフレーム間差分成分、左目領域画像に対するメル・ケプストラム(MFCC)成分、左目領域画像に対するフレーム内モーメント成分、左目領域画像に対するフレーム間モーメント成分、左目領域画像をフーリエ変換した周波数スペクトルに対するフレーム内モーメント成分、左目領域画像をフレーム変換した周波数スペクトルに対するフレーム間モーメント成分などや、これらの組合せなどがある。これらは、システムの構成などに応じて適切なものを用いるようにする。

本実施の形態において、求めた特徴量は、更に、上記第１の実施の形態と同様に、演算量削減及び識別に無用な情報の除去のために主成分分析によって次元削減を行う。このような特徴量の抽出を１フレーム毎に実施し、抽出した特徴量を、撮影した順番に所定フレーム（例えば、１０フレーム）分を一組として、覚醒状態判定部３５に伝送する。ここで、所定フレーム（例えば、１０フレーム）分を一組とすることで、まばたき１回分の画像に対する特徴量を含ませるようにしている。
覚醒状態判定部３５は、特徴量抽出部３４から所定フレーム（例えば、１０フレーム）一組の特徴量を取得すると、この特徴量を覚醒状態判定用のＨＭＭに入力する。

ここで、図２２及び図２３に基づき、覚醒状態の判定に有効なまばたきの特性について説明する。まばたきの特性を識別するための要素として、図２２に示すように、１回のまばたきの筋電図波形における、振幅、瞼を開いた状態（図２２中の開始点）から閉じ（図２２中の頂点）、そして再び開くまでにかかる時間（まばたきの速度）、振幅が５０％の位置におけるまばたき速度（図２２中の振幅５０％ウィンドウ持続時間）、瞼を開いた状態（図２２中の開始点）から瞼が閉じるまでの時間（図２２中の閉瞼時間）、振幅が５０％の位置から瞼が閉じるまでの時間（図２２中の下降時間）などがある。また、生理学においては、まばたきに対する筋電図波形として、図２３に示すように、人間の覚醒時の標準のまばたき波形である波形Ｏ、標準波形Ｏ以外の波形Ａ〜波形Ｌといったように、様々なまばたき波形が確認されている。これらまばたき波形の中でも、特に眠気のある状態（以下、眠気状態という）を判断するのに代表的な波形は、波形Ａ及び波形Ｂであり、１回１回のまばたきの振幅及びまばたきの速度から、これら波形Ａ及び波形Ｂの判断を行い、これらの出現パターンや出現頻度などを解析することによって、対象者が覚醒状態にあるか否かを高精度に判定することが可能である。

従って、本実施の形態においては、上記特徴量抽出部３４で抽出された特徴量を入力とし、上記標準のまばたき波形Ｏ、まばたき波形Ａ、まばたき波形Ｂ、及びこれら以外のまばたき波形（波形Ｃ〜Ｌ）の計４種類の波形に対する尤度を出力とする覚醒状態判定用のＨＭＭを用意する。つまり、不特定多数の人の左眼に対する１回のまばたきに対応したまばたき映像（動画像）に対して、まばたきの振幅や速度でラベル付け（波形Ｏ、Ａ、Ｂ、これら以外の波形（波形Ｃ〜Ｌ）に分類）を行い、これらの映像から検出された左眼領域画像から抽出された特徴量を学習データとしてＨＭＭによる学習を行い、上記４種類の波形の各波形をそれぞれ識別可能な４種類のＨＭＭ（各波形に１対１に対応したＨＭＭ）を生成する。

覚醒状態判定部３５は、上記のようにして生成された４種類の覚醒状態判定用のＨＭＭに対して、特徴量抽出部３４から取得した所定フレーム（例えば、１０フレーム）一組の特徴量をそれぞれ入力して、上記４種類のまばたき波形にそれぞれ対応したＨＭＭのいずれが最も高い尤度を出力するかを調べ、最も出力尤度が高かったまばたき波形を、入力された特徴量に対する対象者の１回のまばたきの波形として確定する。

ここで、図２４〜図２６に基づき、覚醒状態判定用のＨＭＭを用いて上記波形Ｏ、Ａ、Ｂを識別することの有効性を説明する。図２４〜図２６は、実際に、被験者に電極を右眼及び左眼の筋電位測定位置にそれぞれ付けてもらい、１回のまばたきに対する筋電位の変化を測定した際の筋電図の筋電位波形と、このときの被験者の撮影画像から１回のまばたきに対する左眼領域画像を本発明の手法を用いて検出し、当該検出した左眼領域画像の１回のまばたき分の特徴量を、上記４種類の覚醒状態判定用のＨＭＭにそれぞれ入力し、これらの出力のうち最も尤度が高くなるＨＭＭに対応した波形とを示した図である。図２４〜図２６に示す画面は、いずれも検証用のアプリケーションソフトの画面を図面化したものであり、画面の上部に表示されるまばたきの動画（左眼のみ）に合わせて、当該動画の下に右眼及び左眼の筋電位の測定波形（筋電図波形）が表示され、このまばたき動画に対して本発明を適用して識別した波形Ｏ、Ａ、Ｂ、それ以外の波形の４種類の波形のいずれかの識別結果の情報が画面右側に表示される。図２４は、被験者が標準のまばたきに分類されるまばたきをしたときの筋電図波形と、覚醒状態判定用のＨＭＭによって識別された波形とが表示された画面を示す図であるが、このときのまばたきの映像から抽出される特徴量に対して覚醒状態判定用のＨＭＭはその識別結果として、図２４の画面右側に示すように、波形Ｏ（通常のまばたき波形）を表示しており、被験者のまばたき波形の種類を正確に識別していることが解る。同様に、図２５、図２６は、眠気状態の判定において代表的なまばたき波形である、波形Ａ及び波形Ｂに分類されるまばたきを被験者がしたときの筋電図波形と、このときのまばたきの映像から抽出される特徴量に対して覚醒状態判定用のＨＭＭによって識別された波形とをそれぞれ示す図であるが、これらに対しても、覚醒状態判定用のＨＭＭはその識別結果として、図２５及び図２６に示すように、波形Ａ及び波形Ｂをそれぞれ表示しており、被験者のまばたき波形の種類を正確に識別していることが解る。

また、上記図２４〜図２６に示したようなまばたき波形の識別を、多くの被験者に対して行ったところ、標準のまばたき（波形Ｏ）に分類されるまばたきに対しては「９９％」の識別率が得られ、眠気状態の判定において代表的なまばたきである、波形Ａに分類されるまばたきに対しては「８４％」、波形Ｂに分類されるまばたきに対しては「７９％」の識別率がそれぞれ得られた。
従って、覚醒状態判定用のＨＭＭを用いて、筋電位測定のための電極などを装着することなく、撮影対象者に非接触で撮影対象者の左眼領域映像から１回のまばたきに対するまばたき波形の識別を行うことは有効であると言える。

更に、覚醒状態判定部３５は、まばたき波形の種類が確定すると、以前に確定されたまばたき波形と合わせて、各波形の出現パターンや出現頻度等を解析し、当該解析結果に基づき対象者の覚醒状態（覚醒している状態、睡眠しかかっている状態、睡眠状態など）を判定する。本実施の形態においては、１回１回のまばたき波形の識別結果を所定の時間単位でヒストグラム処理することにより、４つのまばたきパターンの発生頻度変化を捉え、対象者の覚醒状態の推定を行う。具体的には、波形Ａ〜波形Ｌの発生頻度が高くなってきた場合に覚醒状態が低くなった（眠気が増した）と判断する。また、生理学において、図２７に示すように、眠気が増してきたときにおいてまばたきの群発と言われる現象が起こることが知られている。このことから、本実施の形態においては、識別された上記４種類のまばたき波形の出現間隔を求め、まばたきが連続的に発生する頻度が高くなった場合には、この状態も覚醒状態が低くなった（眠気が増した）と判断する。このようにして判定（推定）された判定結果の情報は、図示しない警報システムへと出力される。

更に、図２８に基づき、眼領域検出部３３における左眼領域の検出処理の流れを説明する。図２８は、眼領域検出部３３における左眼領域の検出処理を示すフローチャートである。
図２８に示すように、まずステップＳ１１００に移行し、画像処理部３２から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ１１０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ１１０２に移行した場合は、検出モードに移行し、検出用画像における２０×２０画素のサーチウィンドウによりスキャニングした領域に対して全体顔検出用ＳＶＭを用いて識別処理を行いステップＳ１１０４に移行する。

ステップＳ１１０４では、ステップＳ１１０２の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップＳ１１０６に移行し、そうでない場合(No)はステップＳ１１３０に移行する。
ステップＳ１１０６に移行した場合は、上記検出された顔全体の領域画像における上半分の領域を含む、１０×２０画素の眼領域の探索領域を検出用画像に対して設定しステップＳ１１０８に移行する。

ステップＳ１１０８では、ステップＳ１１０６で設定された探索領域における４×８画素のサーチウィンドウによりスキャニングした領域に対して左眼領域検出用ＳＶＭを用いて識別処理を行いステップＳ１１１０に移行する。
ステップＳ１１１０では、ステップＳ１１０８の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップＳ１１１２に移行し、そうでない場合(No)はステップＳ１１３０に移行する。

ステップＳ１１１２に移行した場合は、ステップＳ１１１０で検出された左眼領域の位置情報を取得してステップＳ１１１４に移行する。
ステップＳ１１１４では、検出モードからトラッキングモードに設定を切り換えステップＳ１１１６に移行する。

ステップＳ１１１６では、ステップＳ１１１０で左眼領域の検出された検出用画像の次フレームの画像データを取得してステップＳ１１１８に移行する。
ステップＳ１１１８では、一つ前のフレームの検出用画像における左眼領域の位置情報に基づき、１５×１５画素の左眼領域の探索領域を設定してステップＳ１１２０に移行する。

ステップＳ１１２０では、ステップＳ１１１８で設定された１５×１５画素の探索領域における４×８画素のサーチウィンドウによりスキャニングした領域に対して左眼領域検出用ＳＶＭを用いて識別処理を行いステップＳ１１２２に移行する。
ステップＳ１１２２では、ステップＳ１１２０の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップＳ１１２４に移行し、そうでない場合(No)はステップＳ１１３０に移行する。
ステップＳ１１２４に移行した場合は、ステップＳ１１２２で検出された左眼領域の位置情報を取得してステップＳ１１２６に移行する。

ステップＳ１１２６では、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップＳ１１１６に移行し、そうでない場合(No)はステップＳ１１２８に移行する。
ステップＳ１１２８に移行した場合は、取得した位置情報を特徴量抽出部３４に伝送してステップＳ１１００に移行する。

また、ステップＳ１１３０に移行した場合は、次のフレームの検出用画像があるか否かを判定し、あると判定された場合(Yes)はステップＳ１１３２に移行し、そうでない場合(No)はステップＳ１１００に移行する。
ステップＳ１１３２に移行した場合は、次フレームの検出用画像データを取得してステップＳ１１０２に移行する。

更に、図２９に基づき、特徴量抽出部３４における特徴量の抽出処理の流れを説明する。図２９は、特徴量抽出部３４における特徴量の抽出処理を示すフローチャートである。
図２９に示すように、まずステップＳ１２００に移行し、眼領域検出部３３から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ１２０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ１２０２に移行した場合は、データ記憶部３１に記憶された撮影画像から上記取得した位置情報に基づき左眼領域の画像を切り出してステップＳ１２０４に移行する。
ステップＳ１２０４では、窓関数により、右眼や眉などの左眼以外の画像による影響を少なくする処理を行いステップＳ１２０６に移行する。

ステップＳ１２０６では、窓関数による処理後の画像に対して、分散フーリエ変換処理を施し、左眼領域画像の振幅スペクトルを得てステップＳ１２０８に移行する。
ステップＳ１２０８では、ステップＳ１２０６で得られた振幅スペクトルと、一つ前のフレームの振幅スペクトルとにおける実部係数の差分を算出してステップＳ１２１０に移行する。

ステップＳ１２１０では、ステップＳ１２０８で算出された実部係数の差分に対して主成分分析を行い、実部係数の次元数を削減して特徴量を生成しステップＳ１２１２に移行する。
ステップＳ１２１２では、上記生成した特徴量の所定フレーム（例えば、１０フレーム）分を一組にして覚醒状態判定部３５に伝送してステップＳ１２００に移行する。

更に、図３０に基づき、覚醒状態判定部３５における覚醒状態の判定処理の流れを説明する。図３０は、覚醒状態判定部３５における覚醒状態の判定処理を示すフローチャートである。
図３０に示すように、まずステップＳ１３００に移行し、特徴量抽出部３４から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップＳ１３０２に移行し、そうでない場合(No)は取得するまで待機する。

ステップＳ１３０２に移行した場合は、覚醒状態判定用ＨＭＭである、上記４種類のまばたき波形をそれぞれ識別する４種類のＨＭＭに上記取得した所定フレーム（例えば、１０フレーム）一組の特徴量をそれぞれ入力して、これら４種類のＨＭＭの尤度に基づく所定フレーム毎のまばたき波形の種類を判定してステップＳ１３０４に移行する。
ステップＳ１３０４では、ステップＳ１３０２の判定結果を、データ記憶部３１に判定順に記憶してステップＳ１３０６に移行する。

ステップＳ１３０６では、データ記憶部３１に所定期間分の判定結果が蓄積されたか否かを判定し、蓄積されたと判定された場合(Yes)は、ステップＳ１３０８に移行し、そうでない場合(No)は、ステップＳ１３００に移行する。
ステップＳ１３０８に移行した場合は、所定期間の判定結果に基づき、覚醒状態を判定してステップＳ１３１０に移行する。ここで、覚醒状態の判定は、所定期間のまばたき波形の判定結果に基づき、各波形パターンをヒストグラム処理して、各まばたき波形パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形Ｏ以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。

ステップＳ１３１０では、ステップＳ１３０８で判定された結果を警報システムに伝送して処理を終了する。
以上、本変形例における覚醒状態判定装置２は、画像撮影部３０により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部３１により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のＨＭＭ、撮影画像データなどを記憶することが可能であり、画像処理部３２により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部３３により、全体顔検出用ＳＶＭ及び左眼領域検出用ＳＶＭを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部３４により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部３５により、覚醒状態判定用のＨＭＭを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第２の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。

上記実施の形態において、画像撮影部３０及びデータ記憶部３１による撮影対象者の画像データの取得処理は、請求項１、２、１９、２２及び２６のいずれか１に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部３２及び眼領域検出部３３による撮影画像からの左眼領域の検出処理は、請求項２、１９、２２及び２６のいずれか１項に記載の顔部位検出手段に対応する。

また、上記実施の形態において、眼領域検出部３３による位置情報の取得処理は、請求項４又は２３記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部３４は、請求項１、２、１３、１４、１５、１６、１７、１９、２２及び２５のいずれか１項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部３５は、請求項１、２、５、１３、１４、１５、１６、１７、１８、２２、２３及び２５のいずれか１項に記載の動作内容判定手段に対応する。

なお、上記第１の実施の形態及び上記第１の実施の形態の変形例においては、撮影画像から検出した口唇領域画像から、発話区間の検出、発話内容の検出を行っているが、これに限らず、ガムを噛んでいる状態や、欠伸をしている状態など他の動作内容を判定するようにしても良い。
また、上記第１の実施の形態又は上記第１の実施の形態の変形例における発話区間検出装置１の機能と、上記第２の実施の形態における覚醒状態判定装置２の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。

また、上記第１及び第２の実施の形態においては、撮影画像から口唇領域画像を検出して、口唇の動きに関連した動作内容（発話区間）の判定と、撮影画像から眼の画像を検出して、眼の動きに関連した動作内容（居眠り等）の判定を行っているが、これに限らず、その他の顔を構成する鼻や眉等の部位の画像を検出し、これらの動きに関連した動作内容を判定するようにしても良い。

また、上記第２の実施の形態においては、上記第１の実施の形態の変形例のように対象者の顔向き方向を考慮していないが、これに限らず、対象者の顔向き方向を考慮し、各顔向き方向に対応した覚醒状態判定用のＨＭＭを用意し、顔向き方向を判定して、これらＨＭＭから判定された顔向き方向に対応したＨＭＭを選択し、当該選択したＨＭＭを用いて、対象者のまばたき波形の種類判定を行う構成としても良い。これにより、より高精度にまばたき波形の種類を判定することが可能となる。

産業上の利用の可能性

以上説明したように、本発明に係る請求項１記載の動作内容判定装置によれば、公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。
また、請求項２記載の動作内容判定装置によれば、ＳＶＭを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。

また、請求項３記載の動作内容判定装置によれば、請求項１又は請求項２の前記効果に加え、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。
また、請求項４記載の動作内容判定装置によれば、請求項１乃至請求項３のいずれか１の前記効果に加え、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。

また、請求項５記載の動作内容判定装置によれば、請求項１乃至請求項４のいずれか１の前記効果に加え、動作内容の判定処理の時間解像度を向上させることが可能となる。
また、請求項６記載の動作内容判定装置によれば、請求項１乃至請求項５のいずれか１の前記効果に加え、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能である。

また、請求項７記載の動作内容判定装置によれば、請求項６の前記効果に加え、ＨＭＭによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項８及び請求項９記載の動作内容判定装置によれば、請求項７の前記効果に加え、ＨＭＭの出力が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話開始点を判定することが可能である。

また、請求項１０記載の動作内容判定装置によれば、請求項６乃至請求項９のいずれか１の前記効果に加え、ＨＭＭによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項１１及び請求項１２記載の動作内容判定装置によれば、請求項６乃至請求項１０のいずれか１の前記効果に加え、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話終了点を判定することが可能である。

また、請求項１３記載の動作内容判定装置によれば、請求項１乃至請求項１２のいずれか１の前記効果に加え、居眠り等の動作内容を判定することが可能である。
また、請求項１４記載の動作内容判定装置によれば、請求項１３の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等の対象者のまばたきの種類を精度良く判定することが可能である。

また、請求項１５記載の動作内容判定装置によれば、請求項１３の前記効果に加え、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度（筋電位の変化時間）と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項１６記載の動作内容判定装置によれば、請求項１３の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。

また、請求項１７記載の動作内容判定装置によれば、請求項１３の前記効果に加え、特定種類のまばたきに対するＨＭＭを生成すれば良く、また、特定種類のＨＭＭを用いて判定処理を行えば良いので、ＨＭＭに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
また、請求項１８記載の動作内容判定装置によれば、請求項１７の前記効果に加え、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。

また、請求項１９記載の動作内容判定装置によれば、ＨＭＭを用いることにより、時間的概念を伴う発話動作の状態を判定することができるので、音声情報が無くても口唇の動きから高精度に発話内容の判定を行うことが可能である。
また、請求項２０記載のカーナビゲーションシステムによれば、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。

また、請求項２１記載の警報システムによれば、例えば、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
また、請求項２２記載の動作内容判定プログラムによれば、請求項２の動作内容判定装置と同等の効果が得られる。

また、請求項２３記載の動作内容判定プログラムによれば、請求項４の動作内容判定装置と同等の効果が得られる。
また、請求項２４記載の動作内容判定プログラムによれば、請求項６の動作内容判定装置と同等の効果が得られる。
また、請求項２５記載の動作内容判定プログラムによれば、請求項１３の動作内容判定装置と同等の効果が得られる。

また、請求項２６記載の動作内容判定方法によれば、請求項２の動作内容判定装置と同等の効果が得られる。
また、請求項２７記載の動作内容判定方法によれば、請求項４の動作内容判定装置と同等の効果が得られる。
また、請求項２８記載の動作内容判定方法によれば、請求項６の動作内容判定装置と同等の効果が得られる。
また、請求項２９記載の動作内容判定方法によれば、請求項１３の動作内容判定装置と同等の効果が得られる。

【０００４】
［００１０］
上記目的を達成するために、本発明に係る請求項１記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と、
前記特徴量抽出手段によって抽出した特徴量及び前記ＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備え、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
［００１１］
このような構成であれば、画像撮影手段によって、対象者の顔を構成する所定部位を含む撮影画像を撮影することが可能であり、特徴量抽出手段によって、前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
また、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することが可能である。
［００１２］
従って、公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、例えば、５フレームの所定部位画像の特徴量を入力としたＨＭＭの出力から動作内容を判定するようなときに、１フレームが１／３０秒であった場合に、５フレーム毎に順番にＨＭＭに入力すると動作内容の判定の時間解像度は１／１０秒となる。そこで、５フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら１フレームずつずらしてＨＭＭに入力することにより、１フレーム毎（１／３０秒毎）に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
［００１３］
ここで、ＨＭＭは時系列信号の確率モデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。また、例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状（スペクトル包絡という）を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。ＨＭＭはそのような揺らぎを吸収することができる統計的モデルである。ＨＭ

【０００６】
て前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と、
前記特徴量抽出手段によって抽出した特徴量及び前記ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備え、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
［００１７］
このような構成であれば、画像撮影手段によって、前記対象者の顔を含む画像を撮影することが可能であり、顔部位検出手段によって、前記画像撮影手段の撮影画像に基づき、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出することが可能であり、特徴量抽出手段によって、前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
また、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することが可能である。
［００１８］
従って、ＳＶＭを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、例えば、５フレームの所定部位画像の特徴量を入力としたＨＭＭの出力から動作内容を判定するようなときに、１フレームが１／３０秒であった場合に、５フレーム毎に順番にＨＭＭに入力すると動作内容の判定の時間解像度は１／１０秒となる。そこで、５フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら１フレームずつずらしてＨＭＭに入力することにより、１フレーム毎（１／３０秒毎）に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
［００１９］
ここで、ＳＶＭは、パターン認識性能の優秀な２つのクラスを識別する識別器を構成するための学習モデルの１つである。ＳＶＭは、マージン最大化という基準によって識別平面を設定することにより未学習データに対しても高い識別性能を発揮する。具体的には、識別平面と訓練サンプルとの最小距離を評価関数として用い、これを最大

【０００９】
に設置された１台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
［００２８］
また、請求項６に係る発明は、請求項１乃至請求項４のいずれか１項に記載の動作内容判定装置において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記ＨＭＭは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記

【００１２】
前記対象者が発話を終了した時点に対応する前記ＨＭＭの出力を示す発話終了点を判定することが可能であり、前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、ＨＭＭによる前記判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。
［００３７］
また、請求項１１に係る発明は、請求項１０記載の動作内容判定装置において、発話終了点判定手段は、前記判別結果がｗ（ｗは整数且つｗ≧２０）フレーム連続で非発話を示す状態となったときに当該ｗフレームにおける最初のフレームを発話終了点として判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話終了点を判定することが可能となる。
［００３８］
また、請求項１２に係る発明は、請求項１１記載の動作内容判定装置において、前記発話終了点判定手段は、前記非発話を示す状態が連続してｘ（ｘは整数且つ６≦ｘ＜ｗ）フレーム続いたときに、ｘ＋１フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び２フレーム連続して発話を示す状態のいずれか一方になってもｗフレーム目までの前記カウントを継続し、一方、３フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話終了点を判定することが可能となる。
［００３９］
一方、上記目的を達成するために、請求項１３記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、

【００１３】
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするＨＭＭである眼状態判定用ＨＭＭと、
前記特徴量抽出手段によって抽出した特徴量及び前記眼状態判定用ＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記まばたき波形を判定する動作内容判定手段と、を備えることを特徴としている。
［００４０］
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、対象者のまばたきの種類を示す波形を精度良く判定することが可能である。
［００４１］
また、上記目的を達成するために、請求項１５記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力とするＨＭＭである眼状態判定用ＨＭＭと、
前記特徴量抽出手段によって抽出した特徴量及び前記眼状態判定用ＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記まばたきの速度と振幅の種類を判定する動作内容判定手段と、を備えることを特徴としている。
［００４２］
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度（筋電位の変化時間）と、ま

【００１４】
ばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項１６に係る発明は、請求項１５記載の動作内容判定装置において、前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
［００４３］
このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項１７に係る発明は、請求項１３記載の動作内容判定装置において、前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記特定の性質を有したまばたき波形に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
［００４４］
例えば、生理学の見地において覚醒状態の判定に有効であるとされている、まばたき時の眼の筋肉の筋電位の変化を表す筋電位波形には、多種類の波形パターンが存在するが、まばたきの速度、振幅などのまばたきにとって重要な要素の特徴に着目することによって、これら多種類のうち特定種類（例えば、３種類）の波形パターンを判定に用いることで、覚醒状態を十分に判定できるとされている。従って、このような構成であれば、特定種類のまばたきに対するＨＭＭを生成すれば良く、また、特定種類のＨＭＭを用いて判定処理を行えば良いので、ＨＭＭに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
［００４５］
また、請求項１８に係る発明は、請求項１７記載の動作内容判定装置において、前

【００１５】
記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、生理学の見地において覚醒状態の判定に有効であるとされている、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。

【００１６】
また、上記目的を達成するために、請求項２０記載のカーナビゲーションシステムは、請求項６乃至請求項１２のいずれか１項に記載の動作内容判定装置と、当該動作内容判定装置による発話区間の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴としている。
［００４９］
このような構成であれば、音声認識手段によって、動作内容判定装置による発話区間の判定結果に基づき音声認識処理を行うことが可能であり、動作処理手段によって、音声認識手段の認識結果に基づき所定の動作処理を行うことが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
［００５０］
ここで、カーナビゲーションシステムは、慣性航法装置やＧＰＳ（全地球位置評定衛星システム）を利用して、自動車の運行時に運転者等の乗員に対して、ディスプレイ画面上に現在位置や目的地への走行経路案内等を行なう公知の装置である。
また、上記目的を達成するために、請求項２１記載の警報システムは、請求項１６乃至請求項１８のいずれか１項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。
［００５１］
このような構成であれば、通知手段によって、請求項１６乃至請求項１８のいずれか１項に記載の動作内容判定装置によって判定された、対象者の覚醒状態の判定結果を対象者又は関係者に通知することが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
［００５２］
一方、上記目的を達成するために、請求項２２記載の動作内容判定プログラムは、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容

【００１７】
を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムを含み、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴としている。
これにより、請求項２記載の動作内容判定装置と同等の作用及び効果が得られる。
［００５３］
また、請求項２３に係る発明は、請求項２２記載の動作内容判定プログラムにおいて、前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項４記載の動作内容判定装置と同等の作用及び効果が得られる。
［００５４］
また、請求項２４に係る発明は、請求項２２又は請求項２３記載の動作内容判定プロ

【００１８】
グラムにおいて、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする前記口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項６記載の動作内容判定装置と同等の作用及び効果が得られる。
［００５５］
また、上記目的を達成するために、請求項２５記載の動作内容判定プログラムは、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするＨＭＭである眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項１３記載の動作内容判定装置と同等の作用及び効果が得られる。
［００５６］
一方、上記目的を達成するために、請求項２６記載の動作内容判定方法は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、

【００１９】
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含み、
前記動作内容判定ステップにおいては、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
これにより、請求項２記載の動作内容判定装置と同等の効果が得られる。
［００５７］
また、請求項２７に係る発明は、請求項２６記載の動作内容判定方法において、前記画像撮影ステップにおいては、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項４記載の動作内容判定装置と同等の効果が得られる。
［００５８］
また、請求項２８に係る発明は、請求項２６又は請求項２７記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを用いて当該特徴量に対

【００２０】
する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項６記載の動作内容判定装置と同等の効果が得られる。
［００５９］
また、上記目的を達成するために、請求項２９記載の動作内容判定方法は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定方法であって、
前記眼部分を含む画像を撮影する画像撮影ステップと、
前記画像撮影ステップの撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするＨＭＭである眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項１３記載の動作内容判定装置と同等の効果が得られる。
また、請求項３０に係る発明は、請求項１３又は請求項１５記載の動作内容判定装置において、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
このような構成であれば、例えば、５フレームの所定部位画像の特徴量を入力としたＨＭＭの出力から動作内容を判定するようなときに、１フレームが１／３０秒であった場合に、５フレーム毎に順番にＨＭＭに入力すると動作内容の判定の時間解像度は１／１０秒となる。そこで、５フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら１フレームずつずらしてＨＭＭに入力することにより、１フレーム毎（１／３０秒毎）に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
【図面の簡単な説明】
［００６０］
［図１］本発明に係る発話区間検出装置の構成を示すブロック図である。
［図２］（ａ）は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、（ｂ）は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、（ｃ）は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。
［図３］（ａ）は、撮影画像の一例を示す図であり、（ｂ）は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、（ｃ）は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。
［図４］ＨＭＭへの特徴量の入力における時間的概念を示す図である。
［図５］ＨＭＭの出力に基づく発話開始点の判定処理の流れを示す図である。
［図６］ＨＭＭの出力に基づく発話終了点の判定処理の流れを示す図である。
［図７］様々な顔向きに対する発話／非発話の判定結果の一例を示す図である。
［図８］発話区間検出装置１の動作処理を示すフローチャートである。

【００３７】
発話内容判定用のＨＭＭに入力することにより、発話区間では無くて、発話内容を直接識別する構成も可能である。この場合は、予め不特定多数の人の様々な口唇画像を用いて学習により、「あ」、「い」等の発音内容を識別するためのＨＭＭを作成する。このような構成であれば、口唇の動きのみから発話内容を判定することが可能となるので、音声情報が不要となり音声認識に必要なデータ量を削減することが可能となる。
［０１１５］
また、上記実施の形態において、全体顔検出用ＳＶＭ及び口唇領域検出用ＳＶＭを用いて、検出用画像から顔全体の画像領域及び口唇画像の領域を検出した後に、これらの位置関係を用いて撮影対象者の顔の向きを判定する構成も可能である。この構成により、例えば、発話者の顔向きの判定結果を用いて自動車内に設置された集音装置の集音部（マイク等）の向きを制御したり、自動車内に複数設置された集音部のうち、発話者の向いている方向にある集音部を選択して動作させる制御等を行うことにより、発話者の音声データをより確実且つ正確に取得することが可能となる。
［０１１６］
上記実施の形態において、画像撮影部１０及びデータ記憶部１１による撮影対象者の画像データの取得処理は、請求項１、２、２２及び２６のいずれか１に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部１２及び口唇領域検出部１３による撮影画像からの口唇領域の検出処理は、請求項２、２２及び２６のいずれか１項に記載の顔部位検出手段に対応する。
［０１１７］
また、上記実施の形態において、特徴量抽出部１４は、請求項１、２、６、２２及び２４のいずれか１項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部１５は、請求項１、２、６、７、１０、２２、２３、２４及び２５のいずれか１項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話開始点の判定処理は、請求項７、８及び９のいずれか１項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話終了点の判定処理は、請求項１０、１１及び１２のいずれか１項に記載の発話終了点判定手段に対

【００４７】
画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部１５により、判定結果の顔向き方向に対応した発話区間検出用のＨＭＭを用いて、発話区間の検出を行うことが可能である。
［０１５２］
上記実施の形態において、画像撮影部１０及びデータ記憶部１１による撮影対象者の画像データの取得処理は、請求項１、２、４、２２及び２６のいずれか１に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部１２及び口唇領域検出部１３による撮影画像からの口唇領域の検出処理は、請求項２、３、２２及び２６のいずれか１項に記載の顔部位検出手段に対応する。
［０１５３］
また、上記実施の形態において、口唇領域検出部１３による位置情報の取得処理は、請求項４又は２３記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部１４は、請求項１、２、４、６、２２及び２４のいずれか１項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部１５は、請求項１、２、４、６、７、１０、２２、２３、２４及び２５のいずれか１項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話開始点の判定処理は、請求項７、８及び９のいずれか１項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部１５における発話終了点の判定処理は、請求項１０、１１及び１２のいずれか１項に記載の発話終了点判定手段に対応する。
［０１５４］
〔第２の実施の形態〕
次に、本発明の第２の実施の形態を図面に基づき説明する。図２０〜図３０は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第２の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装

【００５９】
パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形Ｏ以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。
［０１９１］
ステップＳ１３１０では、ステップＳ１３０８で判定された結果を警報システムに伝送して処理を終了する。
以上、本変形例における覚醒状態判定装置２は、画像撮影部３０により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部３１により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のＨＭＭ、撮影画像データなどを記憶することが可能であり、画像処理部３２により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部３３により、全体顔検出用ＳＶＭ及び左眼領域検出用ＳＶＭを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部３４により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部３５により、覚醒状態判定用のＨＭＭを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第２の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。
［０１９２］
上記実施の形態において、画像撮影部３０及びデータ記憶部３１による撮影対象者の画像データの取得処理は、請求項１、２、２２及び２６のいずれか１に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部３２及び眼領域検出部３３による撮影画像からの左眼領域の検出処理は、請求項２、２２及び２６のいずれか１項に記載の顔部位検出手段に対応する。

【００６０】
［０１９３］
また、上記実施の形態において、眼領域検出部３３による位置情報の取得処理は、請求項４又は２３記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部３４は、請求項１、２、１３、１５、１６、１７、２２及び２５のいずれか１項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部３５は、請求項１、２、１３、１５、１６、１７、１８、２２、２３及び２５のいずれか１項に記載の動作内容判定手段に対応する。
［０１９４］
なお、上記第１の実施の形態及び上記第１の実施の形態の変形例においては、撮影画像から検出した口唇領域画像から、発話区間の検出、発話内容の検出を行っているが、これに限らず、ガムを噛んでいる状態や、欠伸をしている状態など他の動作内容を判定するようにしても良い。
また、上記第１の実施の形態又は上記第１の実施の形態の変形例における発話区間検出装置１の機能と、上記第２の実施の形態における覚醒状態判定装置２の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。
［０１９５］
また、上記第１及び第２の実施の形態においては、撮影画像から口唇領域画像を検出して、口唇の動きに関連した動作内容（発話区間）の判定と、撮影画像から眼の画像を検出して、眼の動きに関連した動作内容（居眠り等）の判定を行っているが、これに限らず、その他の顔を構成する鼻や眉等の部位の画像を検出し、これらの動きに関連した動作内容を判定するようにしても良い。
［０１９６］
また、上記第２の実施の形態においては、上記第１の実施の形態の変形例のように対象者の顔向き方向を考慮していないが、これに限らず、対象者の顔向き方向を考慮し、各顔向き方向に対応した覚醒状態判定用のＨＭＭを用意し、顔向き方向を判定して、これらＨＭＭから判定された顔向き方向に対応したＨＭＭを選択し、当該選択したＨＭＭを用いて、対象者のまばたき波形の種類判定を行う構成としても良い。これにより、より高精度にまばたき波形の種類を判定することが可能となる。

【００６１】
【産業上の利用可能性】
［０１９７］
以上説明したように、本発明に係る請求項１記載の動作内容判定装置によれば、公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、動作内容の判定処理の時間解像度を向上させることが可能となる。
また、請求項２記載の動作内容判定装置によれば、ＳＶＭを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のＨＭＭを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、動作内容の判定処理の時間解像度を向上させることが可能となる。
［０１９８］
また、請求項３記載の動作内容判定装置によれば、請求項１又は請求項２の前記効果に加え、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。
また、請求項４記載の動作内容判定装置によれば、請求項１乃至請求項３のいずれか１の前記効果に加え、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
［０１９９］
また、請求項６記載の動作内容判定装置によれば、請求項１乃至請求項４のいずれか１の前記効果に加え、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能である。
［０２００］
また、請求項７記載の動作内容判定装置によれば、請求項６の前記効果に加え、ＨＭＭによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項８及び請求項９記載の動作内容判定装置によれば、請求項７の前記

【００６２】
効果に加え、ＨＭＭの出力が、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話開始点を判定することが可能である。
［０２０１］
また、請求項１０記載の動作内容判定装置によれば、請求項６乃至請求項９のいずれか１の前記効果に加え、ＨＭＭによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項１１及び請求項１２記載の動作内容判定装置によれば、請求項６乃至請求項１０のいずれか１の前記効果に加え、例えば、発話／非発話の繰り返しといったように、現実的にあり得ないようなもの（異常な状態）となったときにおいても、より正確に発話終了点を判定することが可能である。
［０２０２］
また、請求項１３記載の動作内容判定装置によれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、対象者のまばたきの種類を示す波形を精度良く判定することが可能である。
［０２０３］
また、請求項１５記載の動作内容判定装置によれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度（筋電位の変化時間）と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項１６記載の動作内容判定装置によれば、請求項１５の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
［０２０４］
また、請求項１７記載の動作内容判定装置によれば、請求項１３の前記効果に加え、特定種類のまばたきに対するＨＭＭを生成すれば良く、また、特定種類のＨＭＭを用いて判定処理を行えば良いので、ＨＭＭに必要なメモリ容量の軽減や判定処理の高速化等が可能である。

【００６３】
また、請求項１８記載の動作内容判定装置によれば、請求項１７の前記効果に加え、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
［０２０５］
また、請求項２０記載のカーナビゲーションシステムによれば、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
［０２０６］
また、請求項２１記載の警報システムによれば、例えば、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
また、請求項２２記載の動作内容判定プログラムによれば、請求項２の動作内容判定装置と同等の効果が得られる。
［０２０７］
また、請求項２３記載の動作内容判定プログラムによれば、請求項４の動作内容判定装置と同等の効果が得られる。
また、請求項２４記載の動作内容判定プログラムによれば、請求項６の動作内容判定装置と同等の効果が得られる。
また、請求項２５記載の動作内容判定プログラムによれば、請求項１３の動作内容判定装置と同等の効果が得られる。
［０２０８］
また、請求項２６記載の動作内容判定方法によれば、請求項２の動作内容判定装置と同等の効果が得られる。
また、請求項２７記載の動作内容判定方法によれば、請求項４の動作内容判定装置と同等の効果が得られる。
また、請求項２８記載の動作内容判定方法によれば、請求項６の動作内容判定装置と同等の効果が得られる。

Claims

対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするＨＭＭ（Hidden MarkovModel）と、
前記特徴量抽出手段によって抽出した特徴量及び前記ＨＭＭを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。
対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（Support Vector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（Hidden Markov Model）と、
前記特徴量抽出手段によって抽出した特徴量及び前記ＨＭＭ（Hidden Markov Model）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。
前記顔部位検出手段は、前記撮影画像における前記対象者の複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することを特徴とする請求項２記載の動作内容判定装置。
前記画像撮影手段は、前記対象者の顔全体を含む画像部分を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段と、を備え、
前記ＨＭＭは、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したものを含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項１乃至請求項３のいずれか１項に記載の動作内容判定装置。
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記ＨＭＭに入力し、更に、一つ前に前記ＨＭＭへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴とする請求項１乃至請求項４のいずれか１項に記載の動作内容判定装置。
前記所定部位の画像は、前記前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記ＨＭＭは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項１乃至請求項５のいずれか１項に記載の動作内容判定装置。
前記口唇状態判定用ＨＭＭは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力するようになっており、
前記動作内容判定手段は、前記口唇状態判定用ＨＭＭによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別するようになっており、
前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記口唇状態判定用ＨＭＭの出力を示す発話開始点を判定する発話開始点判定手段を備え、
前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴とする請求項６記載の動作内容判定装置。
前記発話開始点判定手段は、前記判別結果が１フレーム目からｎ（ｎは整数且つｎ≧２）フレーム目まで連続で発話を示す状態となったときに、前記１フレーム目を発話開始点の候補に設定し、前記判別結果がｎフレーム目から更にｍ（ｍは整数且つｍ≧３）フレーム連続で発話を示す状態となったときに、前記１フレーム目を発話開始点と判定することを特徴とする請求項７記載の動作内容判定装置。
前記発話開始点判定手段は、前記ｎフレーム目からｋ（ｋは整数且つｋ≦ｍ）フレーム以内において、前記判別結果が非発話を示す状態となり、且つ、ｎ＋ｋフレーム目から更にｐ（ｐは整数且つｐ≧１０）フレーム連続で前記判別結果が非発話を示す状態となったときに、前記１フレーム目を発話開始点の候補から外し、一方、前記ｎ＋ｋフレーム目からｒ（ｒは整数且つｒ＜ｐ）フレーム以内において再び前記判別結果が発話を示す状態となったときに、前記１フレーム目を発話開始点として判定することを特徴とする請求項８記載の動作内容判定装置。
前記口唇状態判定用ＨＭＭは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
前記動作内容判定手段は、前記口唇状態判定用ＨＭＭによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記口唇状態判定用ＨＭＭの出力を示す発話終了点を判定する発話終了点判定手段を備え、
前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴とする請求項６乃至請求項９のいずれか１項に記載の動作内容判定装置。
発話終了点判定手段は、前記判別結果がｗ（ｗは整数且つｗ≧２０）フレーム連続で非発話を示す状態となったときに当該ｗフレームにおける最初のフレームを発話終了点として判定することを特徴とする請求項１０記載の動作内容判定装置。
前記発話終了点判定手段は、前記非発話を示す状態が連続してｘ（ｘは整数且つ６≦ｘ＜ｗ）フレーム続いたときに、ｘ＋１フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び２フレーム連続して発話を示す状態のいずれか一方になってもｗフレーム目までの前記カウントを継続し、一方、３フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴とする請求項１１記載の動作内容判定装置。
前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記ＨＭＭは、前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用ＨＭＭを含み、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項１乃至請求項１２のいずれか１項に記載の動作内容判定装置。
前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの種類を判定することを特徴とする請求項１３記載の動作内容判定装置。
前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの速度と振幅の種類を判定することを特徴とする請求項１３記載の動作内容判定装置。
前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴とする請求項１３記載の動作内容判定装置。
前記眼状態判定用ＨＭＭは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用ＨＭＭを用いて当該特徴量に対する前記特定の性質を有したまばたきの種類に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴とする請求項１３記載の動作内容判定装置。
前記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴とする請求項１７記載の動作内容判定装置。
対象者の顔を構成する所定部位を含む画像を撮影する画像撮影手段と、
前記撮影画像から前記対象者の口唇部分の画像を検出する顔部位検出手段と、
前記顔部位検出手段によって検出された前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出する特徴量抽出手段と、
前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する発話内容に対する尤度を出力とする発話内容判定用ＨＭＭ（HiddenMarkov Model）と、
前記特徴量抽出手段によって抽出した特徴量及び前記発話内容判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定する発話内容判定手段と、を備えることを特徴とする発話内容判定装置。
請求項６乃至請求項１２のいずれか１項に記載の動作内容判定装置と、当該動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴とするカーナビゲーションシステム。
請求項１６乃至請求項１８のいずれか１項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴とする警報システム。
対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（Support Vector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（HiddenMarkov Model）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする動作内容判定プログラム。
前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項２２記載の動作内容判定プログラム。
前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項２２又は請求項２３記載の動作内容判定プログラム。
前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項２２乃至請求項２４のいずれか１項に記載の動作内容判定プログラム。
対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、ＳＶＭ（Support Vector Machine）を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするＨＭＭ（HiddenMarkov Model）を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含むことを特徴とする動作内容判定方法。
前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したＨＭＭから前記判定結果の顔の向きに対応したＨＭＭを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したＨＭＭを用いて、当該特徴量に対する当該選択したＨＭＭの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項２６記載の動作内容判定方法。
前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項２６又は請求項２７記載の動作内容判定方法。
前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出ステップにおいては、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記ＨＭＭは、を含み、
前記動作内容判定ステップにおいては、前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用ＨＭＭを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項２６乃至請求項２８のいずれか１項に記載の動作内容判定方法。