JPWO2005114576A1 - 動作内容判定装置 - Google Patents
動作内容判定装置 Download PDFInfo
- Publication number
- JPWO2005114576A1 JPWO2005114576A1 JP2006513753A JP2006513753A JPWO2005114576A1 JP WO2005114576 A1 JPWO2005114576 A1 JP WO2005114576A1 JP 2006513753 A JP2006513753 A JP 2006513753A JP 2006513753 A JP2006513753 A JP 2006513753A JP WO2005114576 A1 JPWO2005114576 A1 JP WO2005114576A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- feature amount
- utterance
- hmm
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims abstract description 393
- 238000000034 method Methods 0.000 claims abstract description 350
- 238000012545 processing Methods 0.000 claims abstract description 137
- 230000008569 process Effects 0.000 claims description 286
- 238000000605 extraction Methods 0.000 claims description 156
- 238000012706 support-vector machine Methods 0.000 claims description 90
- 230000004397 blinking Effects 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 60
- 230000009471 action Effects 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 23
- 238000013500 data storage Methods 0.000 abstract description 45
- 210000001508 eye Anatomy 0.000 description 200
- 230000000694 effects Effects 0.000 description 56
- 238000010586 diagram Methods 0.000 description 37
- 238000001228 spectrum Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 21
- 238000003860 storage Methods 0.000 description 20
- 206010062519 Poor quality sleep Diseases 0.000 description 19
- 230000004048 modification Effects 0.000 description 19
- 238000012986 modification Methods 0.000 description 19
- 230000003183 myoelectrical effect Effects 0.000 description 19
- 206010041349 Somnolence Diseases 0.000 description 17
- 210000000744 eyelid Anatomy 0.000 description 16
- 230000002123 temporal effect Effects 0.000 description 16
- 238000003384 imaging method Methods 0.000 description 11
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000000513 principal component analysis Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 210000003205 muscle Anatomy 0.000 description 8
- 230000035479 physiological effects, processes and functions Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 210000000214 mouth Anatomy 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 229940112822 chewing gum Drugs 0.000 description 5
- 235000015218 chewing gum Nutrition 0.000 description 5
- 230000036626 alertness Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 4
- 238000005549 size reduction Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 208000032140 Sleepiness Diseases 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000037321 sleepiness Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Navigation (AREA)
Abstract
Description
特許文献3記載の運転状態検出装置は、撮像された画像に対して、対象テンプレートを用いて相関演算を行って運転者の目領域を検出し、検出された目領域の画像から運転者の運転状態を判定する。
また、上記特許文献2の画像認識装置においては、開口時の口腔領域の大きさなどをある閾値で判断し発話区間を検出しているため、例えば、欠伸と発話とを区別するといった曖昧な画像から動作内容の判断を行うことが困難であった。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、対象者の顔を含む撮影画像から当該対象者の動作内容を判定するのに好適な動作内容判定装置、発話内容判定装置、カーナビゲーションシステム、警報システム、動作内容判定プログラム及び動作内容判定方法を提供することを目的としている。
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMM(Hidden MarkovModel)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴としている。
また、顔を構成する所定部位は、眼、鼻、口、眉等である。以下、請求項2記載の動作内容判定装置、請求項22記載の動作内容判定プログラム及び請求項26の動作内容判定方法において同じである。
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴としている。
このような構成であれば、前記顔部位検出手段は、前記複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することが可能である。
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段と、を備え、
前記HMMは、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したものを含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記HMMは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
ここで、口唇部分の画像とは、撮影画像から切り出した口唇部分の画像をそのものの他、当該口唇部分の画像とその近傍の画像を含む領域画像等も含む。
前記動作内容判定手段は、前記口唇状態判定用HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記口唇状態判定用HMMの出力を示す発話開始点を判定する発話開始点判定手段を備え、
前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴としている。
従って、HMMによる発話状態か否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。例えば、上述したCNSなどの乗物内における音声認識に適用することで、発話内容の認識精度を向上させることが可能となる。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能となる。
前記動作内容判定手段は、前記HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記HMMの出力を示す発話終了点を判定する発話終了点判定手段を備え、
前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴としている。
従って、HMMによる前記判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記HMMは、前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを含み、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
また、請求項14に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの種類を判定することを特徴としている。
また、請求項15に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの速度と振幅の種類を判定することを特徴としている。
また、請求項16に係る発明は、請求項15記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
また、請求項17に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記特定の性質を有したまばたきの種類に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、生理学の見地において覚醒状態の判定に有効であるとされている、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
前記撮影画像から前記対象者の口唇部分の画像を検出する顔部位検出手段と、
前記顔部位検出手段によって検出された前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出する特徴量抽出手段と、
前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する発話内容に対する尤度を出力とする発話内容判定用HMM(HiddenMarkov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記発話内容判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定する発話内容判定手段と、を備えることを特徴としている。
従って、HMMを用いることにより、時間的概念を伴う発話動作の状態を判定することができるので、音声情報が無くても口唇の動きから高精度に発話内容の判定を行うことが可能である。
また、上記目的を達成するために、請求項20記載のカーナビゲーションシステムは、請求項6乃至請求項12のいずれか1項に記載の動作内容判定装置と、当該動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴としている。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
また、上記目的を達成するために、請求項21記載の警報システムは、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の作用及び効果が得られる。
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の作用及び効果が得られる。
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の作用及び効果が得られる。
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の作用及び効果が得られる。
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の効果が得られる。
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の効果が得られる。
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の効果が得られる。
前記特徴量抽出ステップにおいては、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記HMMは、を含み、
前記動作内容判定ステップにおいては、前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の効果が得られる。
以下、本発明の第1の実施の形態を図面に基づき説明する。図1〜図14は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第1の実施の形態を示す図である。
まず、本発明に係る発話区間検出装置の構成を図1に基づき説明する。図1は、本発明に係る発話区間検出装置の構成を示すブロック図である。
画像処理部12は、口唇領域検出部13において行われる、撮影画像から口唇領域を検出する処理の前処理として、撮影画像の各フレーム毎にグレースケール化による色情報の削減やサブ・サンプリングによる画像サイズの縮小等を行う。以下、グレースケール化及び画像サイズの縮小された撮影画像を検出用画像と称すこととする。
ここで、本実施の形態において、発話区間検出装置1は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。
発話区間検出部15は、更に、HMMの出力に基づき、上記撮影対象者の発話開始点及び発話終了点を判定する処理を行う。発話開始点及び発話終了点は、5フレーム一組の特徴量に対する上記発話用のHMM及び非発話用のHMMを用いた発話/非発話の出力に対して判定が行われるものであり、まず、発話開始点の判定処理について説明する。
以上のように、SVMにより撮影画像から切り出した口唇領域画像に対する、発話区間検出用のHMMによる発話/非発話の判定に加え、上記した発話開始点判定処理及び発話終了点判定処理を行うことにより、図7(a)〜(d)に示すような様々な顔向きの口唇画像に対しても正しく発話区間の検出を行うことが可能である。例えば、図7においては、発話区間検出用のHMMにより、(a)〜(c)の口唇画像が発話状態であると判定され、(d)の口唇画像が非発話状態であると判定される。
更に、図8に基づき、発話区間検出装置1の動作処理の流れを説明する。図8は、発話区間検出装置1の動作処理を示すフローチャートである。
ステップS104では、画像処理部12において、データ記憶部11によって記憶された撮影画像データを読み出しステップS106に移行する。
ステップS106では、画像処理部12において、上記読み出した撮影画像データから検出用画像データを生成し、当該生成した検出用画像データを口唇領域検出部13に伝送してステップS108に移行する。
ステップS110では、特徴量抽出部14において、上記検出された口唇領域の位置情報に基づき撮影画像から口唇領域の画像を切り出し、当該切り出した画像から特徴量を抽出し、当該抽出した特徴量を発話区間検出部15に伝送してステップS112に移行する。
ステップS114では、発話区間検出部15において、検出した発話区間の情報をCNSに伝送して処理を終了する。
図9に示すように、まずステップS200に移行し、データ記憶部11から撮影画像データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS202に移行し、そうでない場合(No)は取得するまで待機する。
ステップS204では、サブ・サンプリングした撮影画像データをグレイスケール化して検出用撮影画像データを生成しステップS206に移行する。
ステップS206では、上記生成した検出用画像データを口唇領域検出部13に伝送して処理を終了する。
図10に示すように、まずステップS300に移行し、画像処理部12から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS302に移行し、そうでない場合(No)は取得するまで待機する。
ステップS304では、ステップS302の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS306に移行し、そうでない場合(No)はステップS330に移行する。
ステップS308では、ステップS306で設定された探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS310に移行する。
ステップS312に移行した場合は、ステップS310で検出された口唇領域の位置情報を取得してステップS314に移行する。
ステップS316では、ステップS310で口唇領域の検出された検出用画像の次フレームの画像データを取得してステップS318に移行する。
ステップS318では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、15×15画素の口唇領域の探索領域を設定してステップS320に移行する。
ステップS322では、ステップS320の識別により、口唇領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS324に移行し、そうでない場合(No)はステップS330に移行する。
ステップS324に移行した場合は、ステップS322で検出された口唇領域の位置情報を取得してステップS326に移行する。
ステップS328に移行した場合は、取得した位置情報を特徴量抽出部14に伝送してステップS300に移行する。
ステップS332に移行した場合は、次フレームの検出用画像データを取得してステップS302に移行する。
図11に示すように、まずステップS400に移行し、口唇領域検出部13から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS402に移行し、そうでない場合(No)は取得するまで待機する。
ステップS404では、窓関数により、鼻や顎などの画像による影響を少なくする処理を行いステップS406に移行する。
ステップS406では、窓関数による処理後の画像に対して、2次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップS408に移行する。
ステップS410では、上記生成した特徴量を5フレーム分を一組にして発話区間判定部15に伝送してステップS400に移行する。
更に、図12に基づき、発話区間検出部15における発話区間の検出処理の流れを説明する。図12は、発話区間検出部15における発話区間の検出処理を示すフローチャートである。
ステップS502に移行した場合は、発話区間検出用HMMである発話用のHMM及び非発話用のHMMの各々に上記取得した5フレーム一組の特徴量を入力して、5フレーム毎の発話/非発話を判定してステップS504に移行する。
ステップS506では、ステップS504の判定処理により、発話開始点が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS508に移行し、そうでない場合(No)はステップS500に移行する。
ステップS508に移行した場合は、ステップS502の判定結果に基づき、発話終了点の判定処理を行いステップS510に移行する。
ステップS512に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をCNSに伝送して処理を終了する。
図13に示すように、まずステップS600に移行し、発話区間検出用HMMによる発話/非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS602に移行し、そうでない場合(No)は取得するまで待機する。
ステップS604に移行した場合は、該当フレームを1フレーム目(S1)として、このフレームを発話開始点の候補に設定してステップS606に移行する。
ステップS608では、状態「C」におけるフレームにおいて、非発話の状態が発生したか否かを判定し、非発話の状態が発生したと判定された場合(Yes)はステップS610に移行し、そうでない場合(No)はステップS620に移行する。
ステップS612では、状態「D」におけるフレームにおいて、発話状態が発生したか否かを判定し発生したと判定された場合(Yes)はステップS614に移行し、そうでない場合(No)はステップS616に移行する。
一方、ステップS616に移行した場合は、状態「D」におけるフレームにおいて、非発話状態が連続して10回続いたか否かを判定し、続いたと判定された場合(Yes)はステップS618に移行し、そうでない場合(No)はステップS612に移行する。
一方、ステップS608において、状態「C」において非発話の状態が発生せずステップS620に移行した場合は、発話状態の発生回数をカウントすると共に、3フレーム連続して発話状態が発生したか否かを判定し、発生したと判定された場合(Yes)はステップS622に移行し、そうでない場合(No)はステップS608に移行する。
更に、図14に基づき、発話区間判定部15における発話終了点判定処理の流れを説明する。図14は、発話区間判定部15における発話終了点判定処理を示すフローチャートである。
図14に示すように、まずステップS700に移行し、発話区間検出用HMMによる発話/非発話の判定結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS702に移行し、そうでない場合(No)は取得するまで待機する。
ステップS704では、非発話の状態が6回連続で続いたか否かを判定し、続いたと判定された場合(Yes)はステップS706に移行し、そうでない場合(No)はステップS702に移行する。
ステップS706に移行した場合は、上記6回連続後のフレーム以降を状態「C」に遷移させてステップS708に移行する。
ステップS710に移行した場合は、非発話の発生回数のカウントをクリアしてステップS702に移行する。
一方、ステップS712に移行した場合は、非発話の発生回数のカウントを継続して行いステップS714に移行する。
ステップS716に移行した場合は、ステップS704における6回連続したフレームの1フレーム目(S1)を発話終了点と判定し処理を終了する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、19、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、5、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対応する。
次に、本発明の第1の実施の形態の変形例を図面に基づき説明する。図15乃至図19は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法の第1の実施の形態の変形例を示す図である。
データ記憶部11は、上記発話区間検出用のHMMとして、予め設定された複数方向の顔向きに対応して生成されたものを記憶する。
更に、図15に基づき、本変形例における発話区間検出装置1のより具体的な動作を説明する。ここで、図15(a)〜(c)は、顔向きに応じて検出される口唇領域の一例を示す図である。
このようにして、口唇領域のサイズが変更されると、次のフレームの検出用画像に対してトラッキングモードへと移行する。
図16に示すように、まずステップS800に移行し、画像処理部12から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS802に移行し、そうでない場合(No)は取得するまで待機する。
ステップS804では、ステップS802の識別処理により、顔全体の画像領域が検出されたか否かを判定し、検出されたと判定された場合(Yes)はステップS806に移行し、そうでない場合(No)はステップS838に移行する。
ステップS808では、ステップS806で設定された探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS810に移行する。
ステップS812に移行した場合は、ステップS810で検出された口唇領域の位置情報を取得してステップS814に移行する。
ステップS814では、ステップS804で検出された顔全体の領域画像と、ステップS812で取得した位置情報とに基づき、検出用画像における撮影対象者の顔向き方向を判定してステップS816に移行する。
ステップS818では、検出モードからトラッキングモードに設定を切り換えステップS820に移行する。
ステップS822では、一つ前のフレームの検出用画像における口唇領域の位置情報に基づき、15×15画素の口唇領域の探索領域を設定してステップS824に移行する。
ステップS824では、ステップS822で設定された15×15画素の探索領域における10×10画素のサーチウィンドウによりスキャニングした領域に対して口唇領域検出用SVMを用いて識別処理を行いステップS826に移行する。
ステップS828に移行した場合は、ステップS826で検出された口唇領域の位置情報を取得してステップS838に移行する。
ステップS832では、ステップS830で判定された顔向き方向に基づき、口唇領域の領域サイズを決定してステップS834に移行する。
ステップS836に移行した場合は、取得した位置情報及び判定結果の顔向き方向の情報を特徴量抽出部14に伝送してステップS800に移行する。
ステップS840に移行した場合は、次フレームの検出用画像データを取得してステップS802に移行する。
図17に示すように、まずステップS900に移行し、口唇領域検出部13から顔向き方向の情報及び位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS902に移行し、そうでない場合(No)は取得するまで待機する。
ステップS906では、窓関数による処理後の画像に対して、2次元フーリエ変換処理を施し、口唇領域画像の振幅スペクトルを得てステップS908に移行する。
ステップS908では、ステップS906で得られた振幅スペクトルに対して主成分分析を行い、振幅スペクトルの次元数を削減して特徴量を生成しステップS910に移行する。
更に、図18に基づき、発話区間検出部15における発話区間の検出処理の流れを説明する。図18は、第1の実施の形態の変形例の発話区間検出部15における発話区間の検出処理を示すフローチャートである。
ステップS1002に移行した場合は、顔向き方向の情報に基づき、データ記憶部11に記憶された複数方向の顔向きに対応した発話区間検出用のHMMから、顔向き方向の情報の示す顔向き方向に対応したHMMを選択して読み出しステップS1004に移行する。
ステップS1006では、ステップS1004の判定結果に基づき、発話開始点の判定処理を行いステップS1008に移行する。
ステップS1010に移行した場合は、ステップS1004の判定結果に基づき、発話終了点の判定処理を行いステップS1012に移行する。
ステップS1014に移行した場合は、上記検出された発話開始点及び発話終了点に基づき発話区間情報をCNSに伝送して処理を終了する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、3、19、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、4、6、19、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、4、5、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対応する。
次に、本発明の第2の実施の形態を図面に基づき説明する。図20〜図30は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第2の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を、自動車を運転する運転者の覚醒状態を判定する覚醒状態判定装置に適用した場合を説明する。
図20に示すように、覚醒状態判定装置2は、画像撮影部30と、データ記憶部31と、画像処理部32と、眼領域検出部33と、特徴量抽出部34と、覚醒状態判定部35とを含んだ構成となっている。なお、本実施の形態において、覚醒状態判定装置2は、自動車室内に設置され、且つ、図示しない自動車室内に設置された警報システムと連動可能に接続される。そして、覚醒状態判定装置2の出力は警報システムに入力され、警報システムは入力された情報に基づき、運転者が睡眠状態や睡眠しかかった状態にあると判定された場合には、判定結果の画面表示、警告音や警告音声メッセージを発する等の動作を行う。
画像処理部32は、眼領域検出部33において行われる、撮影画像から眼領域を検出する処理の前処理として、画像サイズの縮小等を行う。以下、画像サイズの縮小された撮影画像を検出用画像と称すこととする。
ここで、本実施の形態において、覚醒状態判定装置2は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶された記憶媒体と、を備えており、プロセッサにより専用のプログラムを実行することによって上記各部の制御を行う。
覚醒状態判定部35は、特徴量抽出部34から所定フレーム(例えば、10フレーム)一組の特徴量を取得すると、この特徴量を覚醒状態判定用のHMMに入力する。
従って、覚醒状態判定用のHMMを用いて、筋電位測定のための電極などを装着することなく、撮影対象者に非接触で撮影対象者の左眼領域映像から1回のまばたきに対するまばたき波形の識別を行うことは有効であると言える。
図28に示すように、まずステップS1100に移行し、画像処理部32から検出用画像を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1102に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1106に移行した場合は、上記検出された顔全体の領域画像における上半分の領域を含む、10×20画素の眼領域の探索領域を検出用画像に対して設定しステップS1108に移行する。
ステップS1110では、ステップS1108の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS1112に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1114では、検出モードからトラッキングモードに設定を切り換えステップS1116に移行する。
ステップS1118では、一つ前のフレームの検出用画像における左眼領域の位置情報に基づき、15×15画素の左眼領域の探索領域を設定してステップS1120に移行する。
ステップS1122では、ステップS1120の識別により、左眼領域の検出に成功したか否かを判定し、成功したと判定された場合(Yes)はステップS1124に移行し、そうでない場合(No)はステップS1130に移行する。
ステップS1124に移行した場合は、ステップS1122で検出された左眼領域の位置情報を取得してステップS1126に移行する。
ステップS1128に移行した場合は、取得した位置情報を特徴量抽出部34に伝送してステップS1100に移行する。
ステップS1132に移行した場合は、次フレームの検出用画像データを取得してステップS1102に移行する。
図29に示すように、まずステップS1200に移行し、眼領域検出部33から位置情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1202に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1204では、窓関数により、右眼や眉などの左眼以外の画像による影響を少なくする処理を行いステップS1206に移行する。
ステップS1208では、ステップS1206で得られた振幅スペクトルと、一つ前のフレームの振幅スペクトルとにおける実部係数の差分を算出してステップS1210に移行する。
ステップS1212では、上記生成した特徴量の所定フレーム(例えば、10フレーム)分を一組にして覚醒状態判定部35に伝送してステップS1200に移行する。
図30に示すように、まずステップS1300に移行し、特徴量抽出部34から特徴量を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1302に移行し、そうでない場合(No)は取得するまで待機する。
ステップS1304では、ステップS1302の判定結果を、データ記憶部31に判定順に記憶してステップS1306に移行する。
ステップS1308に移行した場合は、所定期間の判定結果に基づき、覚醒状態を判定してステップS1310に移行する。ここで、覚醒状態の判定は、所定期間のまばたき波形の判定結果に基づき、各波形パターンをヒストグラム処理して、各まばたき波形パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形O以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。
以上、本変形例における覚醒状態判定装置2は、画像撮影部30により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部31により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部32により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部33により、全体顔検出用SVM及び左眼領域検出用SVMを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部34により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部35により、覚醒状態判定用のHMMを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第2の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。
また、上記実施の形態において、画像処理部32及び眼領域検出部33による撮影画像からの左眼領域の検出処理は、請求項2、19、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
また、上記実施の形態において、特徴量抽出部34は、請求項1、2、13、14、15、16、17、19、22及び25のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部35は、請求項1、2、5、13、14、15、16、17、18、22、23及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記第1の実施の形態又は上記第1の実施の形態の変形例における発話区間検出装置1の機能と、上記第2の実施の形態における覚醒状態判定装置2の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。
また、請求項2記載の動作内容判定装置によれば、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。
また、請求項4記載の動作内容判定装置によれば、請求項1乃至請求項3のいずれか1の前記効果に加え、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
また、請求項6記載の動作内容判定装置によれば、請求項1乃至請求項5のいずれか1の前記効果に加え、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能である。
また、請求項8及び請求項9記載の動作内容判定装置によれば、請求項7の前記効果に加え、HMMの出力が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能である。
また、請求項11及び請求項12記載の動作内容判定装置によれば、請求項6乃至請求項10のいずれか1の前記効果に加え、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能である。
また、請求項14記載の動作内容判定装置によれば、請求項13の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等の対象者のまばたきの種類を精度良く判定することが可能である。
また、請求項16記載の動作内容判定装置によれば、請求項13の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項18記載の動作内容判定装置によれば、請求項17の前記効果に加え、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
また、請求項20記載のカーナビゲーションシステムによれば、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
また、請求項22記載の動作内容判定プログラムによれば、請求項2の動作内容判定装置と同等の効果が得られる。
また、請求項24記載の動作内容判定プログラムによれば、請求項6の動作内容判定装置と同等の効果が得られる。
また、請求項25記載の動作内容判定プログラムによれば、請求項13の動作内容判定装置と同等の効果が得られる。
また、請求項27記載の動作内容判定方法によれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項28記載の動作内容判定方法によれば、請求項6の動作内容判定装置と同等の効果が得られる。
また、請求項29記載の動作内容判定方法によれば、請求項13の動作内容判定装置と同等の効果が得られる。
[0010]
上記目的を達成するために、本発明に係る請求項1記載の動作内容判定装置は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備え、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
[0011]
このような構成であれば、画像撮影手段によって、対象者の顔を構成する所定部位を含む撮影画像を撮影することが可能であり、特徴量抽出手段によって、前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
また、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することが可能である。
[0012]
従って、公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
[0013]
ここで、HMMは時系列信号の確率モデルであり、複数の定常信号源の間を遷移することで、非定常な時系列信号をモデル化する。また、例えば、音声は話すスピードによりその時間的長さが変わり、発話内容により、周波数上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し、揺らぎが生じる。HMMはそのような揺らぎを吸収することができる統計的モデルである。HM
て前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備え、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
[0017]
このような構成であれば、画像撮影手段によって、前記対象者の顔を含む画像を撮影することが可能であり、顔部位検出手段によって、前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出することが可能であり、特徴量抽出手段によって、前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出することが可能であり、動作内容判定手段によって、前記特徴量抽出手段によって抽出した特徴量及び所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することが可能である。
また、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することが可能である。
[0018]
従って、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
[0019]
ここで、SVMは、パターン認識性能の優秀な2つのクラスを識別する識別器を構成するための学習モデルの1つである。SVMは、マージン最大化という基準によって識別平面を設定することにより未学習データに対しても高い識別性能を発揮する。具体的には、識別平面と訓練サンプルとの最小距離を評価関数として用い、これを最大
に設置された1台の固定カメラによって撮影された対象者の顔全体を含む画像を用いて動作内容の判定処理を行う場合に、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
[0028]
また、請求項6に係る発明は、請求項1乃至請求項4のいずれか1項に記載の動作内容判定装置において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記HMMは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記
前記対象者が発話を終了した時点に対応する前記HMMの出力を示す発話終了点を判定することが可能であり、前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することが可能である。
従って、HMMによる前記判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能であり、また、判定した発話区間における対象者の発話データに対して音声認識を行うことで、雑音の多い場所における対象者の発話内容の認識精度を向上させることが可能となる。
[0037]
また、請求項11に係る発明は、請求項10記載の動作内容判定装置において、発話終了点判定手段は、前記判別結果がw(wは整数且つw≧20)フレーム連続で非発話を示す状態となったときに当該wフレームにおける最初のフレームを発話終了点として判定することを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
[0038]
また、請求項12に係る発明は、請求項11記載の動作内容判定装置において、前記発話終了点判定手段は、前記非発話を示す状態が連続してx(xは整数且つ6≦x<w)フレーム続いたときに、x+1フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び2フレーム連続して発話を示す状態のいずれか一方になってもwフレーム目までの前記カウントを継続し、一方、3フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴としている。
このような構成であれば、前記判別結果が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能となる。
[0039]
一方、上記目的を達成するために、請求項13記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMと、
前記特徴量抽出手段によって抽出した特徴量及び前記眼状態判定用HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記まばたき波形を判定する動作内容判定手段と、を備えることを特徴としている。
[0040]
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、対象者のまばたきの種類を示す波形を精度良く判定することが可能である。
[0041]
また、上記目的を達成するために、請求項15記載の動作内容判定装置は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力とするHMMである眼状態判定用HMMと、
前記特徴量抽出手段によって抽出した特徴量及び前記眼状態判定用HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記まばたきの速度と振幅の種類を判定する動作内容判定手段と、を備えることを特徴としている。
[0042]
このような構成であれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度(筋電位の変化時間)と、ま
ばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項16に係る発明は、請求項15記載の動作内容判定装置において、前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
[0043]
このような構成であれば、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
また、請求項17に係る発明は、請求項13記載の動作内容判定装置において、前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記特定の性質を有したまばたき波形に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴としている。
[0044]
例えば、生理学の見地において覚醒状態の判定に有効であるとされている、まばたき時の眼の筋肉の筋電位の変化を表す筋電位波形には、多種類の波形パターンが存在するが、まばたきの速度、振幅などのまばたきにとって重要な要素の特徴に着目することによって、これら多種類のうち特定種類(例えば、3種類)の波形パターンを判定に用いることで、覚醒状態を十分に判定できるとされている。従って、このような構成であれば、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
[0045]
また、請求項18に係る発明は、請求項17記載の動作内容判定装置において、前
記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴としている。
このような構成であれば、生理学の見地において覚醒状態の判定に有効であるとされている、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
また、上記目的を達成するために、請求項20記載のカーナビゲーションシステムは、請求項6乃至請求項12のいずれか1項に記載の動作内容判定装置と、当該動作内容判定装置による発話区間の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴としている。
[0049]
このような構成であれば、音声認識手段によって、動作内容判定装置による発話区間の判定結果に基づき音声認識処理を行うことが可能であり、動作処理手段によって、音声認識手段の認識結果に基づき所定の動作処理を行うことが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手以外の同乗者による会話や、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
[0050]
ここで、カーナビゲーションシステムは、慣性航法装置やGPS(全地球位置評定衛星システム)を利用して、自動車の運行時に運転者等の乗員に対して、ディスプレイ画面上に現在位置や目的地への走行経路案内等を行なう公知の装置である。
また、上記目的を達成するために、請求項21記載の警報システムは、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴としている。
[0051]
このような構成であれば、通知手段によって、請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置によって判定された、対象者の覚醒状態の判定結果を対象者又は関係者に通知することが可能である。
従って、例えば、本システムを自動車内に設置し、且つ、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
[0052]
一方、上記目的を達成するために、請求項22記載の動作内容判定プログラムは、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容
を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムを含み、
前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の作用及び効果が得られる。
[0053]
また、請求項23に係る発明は、請求項22記載の動作内容判定プログラムにおいて、前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の作用及び効果が得られる。
[0054]
また、請求項24に係る発明は、請求項22又は請求項23記載の動作内容判定プロ
グラムにおいて、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の作用及び効果が得られる。
[0055]
また、上記目的を達成するために、請求項25記載の動作内容判定プログラムは、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記眼部分を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の作用及び効果が得られる。
[0056]
一方、上記目的を達成するために、請求項26記載の動作内容判定方法は、対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含み、
前記動作内容判定ステップにおいては、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
これにより、請求項2記載の動作内容判定装置と同等の効果が得られる。
[0057]
また、請求項27に係る発明は、請求項26記載の動作内容判定方法において、前記画像撮影ステップにおいては、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項4記載の動作内容判定装置と同等の効果が得られる。
[0058]
また、請求項28に係る発明は、請求項26又は請求項27記載の動作内容判定方法において、前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対
する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴としている。
これにより、請求項6記載の動作内容判定装置と同等の効果が得られる。
[0059]
また、上記目的を達成するために、請求項29記載の動作内容判定方法は、対象者の顔を構成する眼部分を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定方法であって、
前記眼部分を含む画像を撮影する画像撮影ステップと、
前記画像撮影ステップの撮影画像に基づき、前記眼部分の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の複数フレームの検出画像から抽出される特徴量を入力とし、前記対象者のまばたき波形に対する尤度を出力とするHMMである眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたき波形を判定する動作内容判定ステップと、を含むことを特徴としている。
これにより、請求項13記載の動作内容判定装置と同等の効果が得られる。
また、請求項30に係る発明は、請求項13又は請求項15記載の動作内容判定装置において、前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームをずらして入力を開始することを特徴としている。
このような構成であれば、例えば、5フレームの所定部位画像の特徴量を入力としたHMMの出力から動作内容を判定するようなときに、1フレームが1/30秒であった場合に、5フレーム毎に順番にHMMに入力すると動作内容の判定の時間解像度は1/10秒となる。そこで、5フレーム一組の特徴量を上記したようにフレームの一部をオーバーラップさせながら1フレームずつずらしてHMMに入力することにより、1フレーム毎(1/30秒毎)に動作内容の判定を行うことが可能となる。つまり、時間解像度を向上させることが可能となる。
【図面の簡単な説明】
[0060]
[図1]本発明に係る発話区間検出装置の構成を示すブロック図である。
[図2](a)は、検出用画像に対する顔全体領域の探索処理の概念を示す図であり、(b)は、検出された顔全体領域から口唇領域を探索する処理の概念を示す図であり、(c)は、トラッキングモードにおける口唇領域の探索処理の概念を示す図である。
[図3](a)は、撮影画像の一例を示す図であり、(b)は、検出用画像における検出モード時の探索領域及びサーチウィンドウを示す図であり、(c)は、検出用画像におけるトラッキングモード時の探索領域及びサーチウィンドウを示す図である。
[図4]HMMへの特徴量の入力における時間的概念を示す図である。
[図5]HMMの出力に基づく発話開始点の判定処理の流れを示す図である。
[図6]HMMの出力に基づく発話終了点の判定処理の流れを示す図である。
[図7]様々な顔向きに対する発話/非発話の判定結果の一例を示す図である。
[図8]発話区間検出装置1の動作処理を示すフローチャートである。
発話内容判定用のHMMに入力することにより、発話区間では無くて、発話内容を直接識別する構成も可能である。この場合は、予め不特定多数の人の様々な口唇画像を用いて学習により、「あ」、「い」等の発音内容を識別するためのHMMを作成する。このような構成であれば、口唇の動きのみから発話内容を判定することが可能となるので、音声情報が不要となり音声認識に必要なデータ量を削減することが可能となる。
[0115]
また、上記実施の形態において、全体顔検出用SVM及び口唇領域検出用SVMを用いて、検出用画像から顔全体の画像領域及び口唇画像の領域を検出した後に、これらの位置関係を用いて撮影対象者の顔の向きを判定する構成も可能である。この構成により、例えば、発話者の顔向きの判定結果を用いて自動車内に設置された集音装置の集音部(マイク等)の向きを制御したり、自動車内に複数設置された集音部のうち、発話者の向いている方向にある集音部を選択して動作させる制御等を行うことにより、発話者の音声データをより確実且つ正確に取得することが可能となる。
[0116]
上記実施の形態において、画像撮影部10及びデータ記憶部11による撮影対象者の画像データの取得処理は、請求項1、2、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
[0117]
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、6、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対
画像を切り出し、当該切り出した口唇領域画像から特徴量を抽出することが可能であり、発話区間検出部15により、判定結果の顔向き方向に対応した発話区間検出用のHMMを用いて、発話区間の検出を行うことが可能である。
[0152]
上記実施の形態において、画像撮影部10及びデータ記憶部11による撮影対象者の画像データの取得処理は、請求項1、2、4、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部12及び口唇領域検出部13による撮影画像からの口唇領域の検出処理は、請求項2、3、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
[0153]
また、上記実施の形態において、口唇領域検出部13による位置情報の取得処理は、請求項4又は23記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部14は、請求項1、2、4、6、22及び24のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、発話区間検出部15は、請求項1、2、4、6、7、10、22、23、24及び25のいずれか1項に記載の動作内容判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話開始点の判定処理は、請求項7、8及び9のいずれか1項に記載の発話開始点判定手段に対応する。
また、上記実施の形態において、発話区間検出部15における発話終了点の判定処理は、請求項10、11及び12のいずれか1項に記載の発話終了点判定手段に対応する。
[0154]
〔第2の実施の形態〕
次に、本発明の第2の実施の形態を図面に基づき説明する。図20〜図30は、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装置制御方法及び動作内容判定装置制御方法を適用した覚醒状態検出装置の第2の実施の形態を示す図である。
本実施の形態においては、本発明に係る顔部位検出装置、動作内容判定装置、顔部位検出装置制御プログラム、動作内容判定装置制御プログラム、顔部位検出装
パターンの発生頻度変化を求めることで判定する。例えば、通常のまばたき波形O以外の、睡眠状態の判定に重要な波形パターンの発生頻度が高い場合などは、対象者が眠気に襲われていると判定する。また、判定精度を高めるために、更に、まばたき波形の群発を調べて、まばたき波形が連続的に出現する頻度が高くなったときにも、対象者が眠気に襲われていると判定する。
[0191]
ステップS1310では、ステップS1308で判定された結果を警報システムに伝送して処理を終了する。
以上、本変形例における覚醒状態判定装置2は、画像撮影部30により、運転席に座った撮影対象者の顔を含む画像を撮影することが可能であり、データ記憶部31により、撮影対象者の複数種類のまばたき波形に対応した覚醒状態判定用のHMM、撮影画像データなどを記憶することが可能であり、画像処理部32により、撮影画像データをサブ・サンプリングによりサイズを縮小した検出用画像を生成することが可能であり、眼領域検出部33により、全体顔検出用SVM及び左眼領域検出用SVMを用いて検出用画像から左眼領域を検出することが可能であり、特徴量抽出部34により、検出された口唇領域の位置情報に基づき、元の撮影画像から左眼領域画像を切り出し、当該切り出した左眼領域画像から特徴量を抽出することが可能であり、覚醒状態判定部35により、覚醒状態判定用のHMMを用いて、まばたき波形の種類を判定し、所定期間のまばたき波形の判定結果に基づき解析処理を行うことで対象者の覚醒状態を判定することが可能である。なお、上記第2の実施の形態では、撮影対象者の左眼領域を検出し覚醒状態の判定を行う例を説明したが、撮影環境や適用するシステムの種類などに応じて撮影対象者の右眼領域や両眼領域を検出して判定を行うようにしても良い。
[0192]
上記実施の形態において、画像撮影部30及びデータ記憶部31による撮影対象者の画像データの取得処理は、請求項1、2、22及び26のいずれか1に記載の画像撮影手段に対応する。
また、上記実施の形態において、画像処理部32及び眼領域検出部33による撮影画像からの左眼領域の検出処理は、請求項2、22及び26のいずれか1項に記載の顔部位検出手段に対応する。
[0193]
また、上記実施の形態において、眼領域検出部33による位置情報の取得処理は、請求項4又は23記載の位置関係情報取得手段に対応する。
また、上記実施の形態において、特徴量抽出部34は、請求項1、2、13、15、16、17、22及び25のいずれか1項に記載の特徴量抽出手段に対応する。
また、上記実施の形態において、覚醒状態判定部35は、請求項1、2、13、15、16、17、18、22、23及び25のいずれか1項に記載の動作内容判定手段に対応する。
[0194]
なお、上記第1の実施の形態及び上記第1の実施の形態の変形例においては、撮影画像から検出した口唇領域画像から、発話区間の検出、発話内容の検出を行っているが、これに限らず、ガムを噛んでいる状態や、欠伸をしている状態など他の動作内容を判定するようにしても良い。
また、上記第1の実施の形態又は上記第1の実施の形態の変形例における発話区間検出装置1の機能と、上記第2の実施の形態における覚醒状態判定装置2の機能とを組み合わせて、まばたきだけでなく、欠伸などの動作内容も判定し、より精度良く覚醒状態の判定を行える構成としても良い。これにより、この判定結果に応じて、乗物の運転手に対して音による警告を与える等の安全運転の支援をより適格に行うことが可能となる。
[0195]
また、上記第1及び第2の実施の形態においては、撮影画像から口唇領域画像を検出して、口唇の動きに関連した動作内容(発話区間)の判定と、撮影画像から眼の画像を検出して、眼の動きに関連した動作内容(居眠り等)の判定を行っているが、これに限らず、その他の顔を構成する鼻や眉等の部位の画像を検出し、これらの動きに関連した動作内容を判定するようにしても良い。
[0196]
また、上記第2の実施の形態においては、上記第1の実施の形態の変形例のように対象者の顔向き方向を考慮していないが、これに限らず、対象者の顔向き方向を考慮し、各顔向き方向に対応した覚醒状態判定用のHMMを用意し、顔向き方向を判定して、これらHMMから判定された顔向き方向に対応したHMMを選択し、当該選択したHMMを用いて、対象者のまばたき波形の種類判定を行う構成としても良い。これにより、より高精度にまばたき波形の種類を判定することが可能となる。
【産業上の利用可能性】
[0197]
以上説明したように、本発明に係る請求項1記載の動作内容判定装置によれば、公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、動作内容の判定処理の時間解像度を向上させることが可能となる。
また、請求項2記載の動作内容判定装置によれば、SVMを用いて上記所定部位を検出するため、様々な撮影画像中からの所定部位の高精度な検出が可能であり、また、動作内容の判定に公知のHMMを用いることにより、時間的概念を伴う所定部位の動きに関連した動作内容を判定することができるので、より高精度に前記動作内容の判定を行うことが可能である。また、動作内容の判定処理の時間解像度を向上させることが可能となる。
[0198]
また、請求項3記載の動作内容判定装置によれば、請求項1又は請求項2の前記効果に加え、顔の向きに応じて検出する所定部位の画像領域のサイズを変更することで、不要な部分の画像に対して特徴量の抽出処理を行う必要が無くなるので抽出処理の速度を向上することが可能となる。
また、請求項4記載の動作内容判定装置によれば、請求項1乃至請求項3のいずれか1の前記効果に加え、様々な顔の向きに応じて形状が変化する所定部位の画像における、当該様々な顔の向きに応じた特徴量から、より正確に所定部位の動きに関連する動作内容を判定することが可能である。
[0199]
また、請求項6記載の動作内容判定装置によれば、請求項1乃至請求項4のいずれか1の前記効果に加え、対象者の発話、欠伸、ガムを噛む等の動作内容を判定することが可能である。
[0200]
また、請求項7記載の動作内容判定装置によれば、請求項6の前記効果に加え、HMMによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話開始点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項8及び請求項9記載の動作内容判定装置によれば、請求項7の前記
効果に加え、HMMの出力が、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話開始点を判定することが可能である。
[0201]
また、請求項10記載の動作内容判定装置によれば、請求項6乃至請求項9のいずれか1の前記効果に加え、HMMによる発話状態であるか否かの判別結果に基づいて別途に対象者の発話終了点を判定するので、発話区間を精度良く判定することが可能である。
また、請求項11及び請求項12記載の動作内容判定装置によれば、請求項6乃至請求項10のいずれか1の前記効果に加え、例えば、発話/非発話の繰り返しといったように、現実的にあり得ないようなもの(異常な状態)となったときにおいても、より正確に発話終了点を判定することが可能である。
[0202]
また、請求項13記載の動作内容判定装置によれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、対象者のまばたきの種類を示す波形を精度良く判定することが可能である。
[0203]
また、請求項15記載の動作内容判定装置によれば、まばたき時の眼の状況を、例えば、筋肉の筋電位波形として表現した際の、まばたきの開始から終了までの速度(筋電位の変化時間)と、まばたき時のまぶたの閉じ加減を示す振幅の種類を精度良く判定することが可能である。
また、請求項16記載の動作内容判定装置によれば、請求項15の前記効果に加え、例えば、まばたきの速度や、まばたき時のまぶたの閉じ加減等から分類される対象者のまばたきの種類から、うつろな状態、居眠りをしている状態などの対象者の覚醒状態を精度良く判定することが可能である。
[0204]
また、請求項17記載の動作内容判定装置によれば、請求項13の前記効果に加え、特定種類のまばたきに対するHMMを生成すれば良く、また、特定種類のHMMを用いて判定処理を行えば良いので、HMMに必要なメモリ容量の軽減や判定処理の高速化等が可能である。
また、請求項18記載の動作内容判定装置によれば、請求項17の前記効果に加え、特定種類のまばたきの発生頻度、特定種類のまばたきの群発などの所定時間内における特定種類のまばたきの発生頻度の変化に基づいて、高精度の覚醒状態の判定を行うことが可能である。
[0205]
また、請求項20記載のカーナビゲーションシステムによれば、カーステレオから流れる音楽、ロードノイズ、風切り音、エンジン音等の雑音のある環境下において、対象者の発話内容をより正確に認識でき、且つ、その認識結果により目的地までの経路探索や経路案内等の所定の動作を行うことが可能である。
[0206]
また、請求項21記載の警報システムによれば、例えば、対象者が自動車の運転手である場合に、運転手が眠気に襲われたているような状態を判定し、警告音等により警告を与えるようにすることで、居眠り運転等を防ぐことが可能である。
また、請求項22記載の動作内容判定プログラムによれば、請求項2の動作内容判定装置と同等の効果が得られる。
[0207]
また、請求項23記載の動作内容判定プログラムによれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項24記載の動作内容判定プログラムによれば、請求項6の動作内容判定装置と同等の効果が得られる。
また、請求項25記載の動作内容判定プログラムによれば、請求項13の動作内容判定装置と同等の効果が得られる。
[0208]
また、請求項26記載の動作内容判定方法によれば、請求項2の動作内容判定装置と同等の効果が得られる。
また、請求項27記載の動作内容判定方法によれば、請求項4の動作内容判定装置と同等の効果が得られる。
また、請求項28記載の動作内容判定方法によれば、請求項6の動作内容判定装置と同等の効果が得られる。
Claims (29)
- 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位の画像から抽出される特徴量を入力とし、前記所定部位の動きに関連する所定動作内容に対する尤度を出力とするHMM(Hidden MarkovModel)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMMを用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。 - 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定装置であって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(Hidden Markov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記HMM(Hidden Markov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段と、を備えることを特徴とする動作内容判定装置。 - 前記顔部位検出手段は、前記撮影画像における前記対象者の複数方向の顔の向き毎に前記所定部位として検出する画像領域のサイズを、それぞれの方向に応じて変更することを特徴とする請求項2記載の動作内容判定装置。
- 前記画像撮影手段は、前記対象者の顔全体を含む画像部分を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段と、を備え、
前記HMMは、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したものを含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、前記複数のHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出手段によって抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項1乃至請求項3のいずれか1項に記載の動作内容判定装置。 - 前記動作内容判定手段は、連続する前記撮影画像の所定数のフレーム毎に対応する各フレームの前記特徴量を一組として前記HMMに入力し、更に、一つ前に前記HMMへの入力を開始した前記特徴量の一組に対して、これに続く次の前記特徴量の一組の入力を、前記一つ前の一組と前記次の一組とのフレームが一部重複するように、前記一つ前の一組の最初のフレームの入力に対して所定フレームずらして入力を開始することを特徴とする請求項1乃至請求項4のいずれか1項に記載の動作内容判定装置。
- 前記所定部位の画像は、前記前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記HMMは、前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを含み、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項1乃至請求項5のいずれか1項に記載の動作内容判定装置。 - 前記口唇状態判定用HMMは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力するようになっており、
前記動作内容判定手段は、前記口唇状態判定用HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別するようになっており、
前記判別結果に基づき、前記対象者が発話を開始した時点に対応する前記口唇状態判定用HMMの出力を示す発話開始点を判定する発話開始点判定手段を備え、
前記動作内容判定手段は、前記発話開始点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴とする請求項6記載の動作内容判定装置。 - 前記発話開始点判定手段は、前記判別結果が1フレーム目からn(nは整数且つn≧2)フレーム目まで連続で発話を示す状態となったときに、前記1フレーム目を発話開始点の候補に設定し、前記判別結果がnフレーム目から更にm(mは整数且つm≧3)フレーム連続で発話を示す状態となったときに、前記1フレーム目を発話開始点と判定することを特徴とする請求項7記載の動作内容判定装置。
- 前記発話開始点判定手段は、前記nフレーム目からk(kは整数且つk≦m)フレーム以内において、前記判別結果が非発話を示す状態となり、且つ、n+kフレーム目から更にp(pは整数且つp≧10)フレーム連続で前記判別結果が非発話を示す状態となったときに、前記1フレーム目を発話開始点の候補から外し、一方、前記n+kフレーム目からr(rは整数且つr<p)フレーム以内において再び前記判別結果が発話を示す状態となったときに、前記1フレーム目を発話開始点として判定することを特徴とする請求項8記載の動作内容判定装置。
- 前記口唇状態判定用HMMは、前記対象者の発話状態及び非発話状態の少なくとも一方に対する尤度を出力し、
前記動作内容判定手段は、前記口唇状態判定用HMMによって前記撮影画像のフレーム毎に前記対象者が発話状態であるか否かを判別し、
前記判別結果に基づき、前記対象者が発話を終了した時点に対応する前記口唇状態判定用HMMの出力を示す発話終了点を判定する発話終了点判定手段を備え、
前記動作内容判定手段は、前記発話終了点判定手段の判定結果に基づき前記対象者の発話開始から発話終了までの発話区間を判定することを特徴とする請求項6乃至請求項9のいずれか1項に記載の動作内容判定装置。 - 発話終了点判定手段は、前記判別結果がw(wは整数且つw≧20)フレーム連続で非発話を示す状態となったときに当該wフレームにおける最初のフレームを発話終了点として判定することを特徴とする請求項10記載の動作内容判定装置。
- 前記発話終了点判定手段は、前記非発話を示す状態が連続してx(xは整数且つ6≦x<w)フレーム続いたときに、x+1フレーム以降の非発話を示す状態のカウントにおいて、前記判別結果が単発で発話を示す状態及び2フレーム連続して発話を示す状態のいずれか一方になってもwフレーム目までの前記カウントを継続し、一方、3フレーム連続して発話を示す状態が続いたときには前記カウントをクリアすることを特徴とする請求項11記載の動作内容判定装置。
- 前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記HMMは、前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを含み、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項1乃至請求項12のいずれか1項に記載の動作内容判定装置。 - 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの種類を判定することを特徴とする請求項13記載の動作内容判定装置。 - 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像から抽出される特徴量の入力に対して、前記対象者のまばたきの速度と振幅の種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者のまばたきの速度と振幅の種類を判定することを特徴とする請求項13記載の動作内容判定装置。 - 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して前記対象者のまばたきの種類に対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴とする請求項13記載の動作内容判定装置。 - 前記眼状態判定用HMMは、前記眼部分の複数フレームの検出画像に対する特徴量の入力に対して特定種類のまばたきに対する尤度を出力し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した複数フレームの眼部分の検出画像の特徴量及び前記眼状態判定用HMMを用いて当該特徴量に対する前記特定の性質を有したまばたきの種類に対する尤度を算出し、当該算出結果に基づき前記対象者の覚醒状態を判定することを特徴とする請求項13記載の動作内容判定装置。 - 前記動作内容判定手段は、所定時間内における前記特定種類のまばたきのそれぞれの発生頻度の変化に基づき、前記対象者の覚醒状態を判定することを特徴とする請求項17記載の動作内容判定装置。
- 対象者の顔を構成する所定部位を含む画像を撮影する画像撮影手段と、
前記撮影画像から前記対象者の口唇部分の画像を検出する顔部位検出手段と、
前記顔部位検出手段によって検出された前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出する特徴量抽出手段と、
前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する発話内容に対する尤度を出力とする発話内容判定用HMM(HiddenMarkov Model)と、
前記特徴量抽出手段によって抽出した特徴量及び前記発話内容判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の発話内容を判定する発話内容判定手段と、を備えることを特徴とする発話内容判定装置。 - 請求項6乃至請求項12のいずれか1項に記載の動作内容判定装置と、当該動作内容判定装置による口唇の動きに関連した動作内容の判定結果に基づき音声認識処理を行う音声認識手段と、当該音声認識手段の認識結果に基づき所定の動作処理を行う動作処理手段と、を備えることを特徴とするカーナビゲーションシステム。
- 請求項16乃至請求項18のいずれか1項に記載の動作内容判定装置と、前記覚醒状態の判定結果を表示又は警報通知する通知手段と、を備えることを特徴とする警報システム。
- 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定する動作内容判定プログラムであって、
前記所定部位を含む画像を撮影する画像撮影手段と、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出手段と、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定手段として実現される処理をコンピュータに実行させるためのプログラムであることを特徴とする動作内容判定プログラム。 - 前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得手段と、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定手段として実現される処理をコンピュータに実行させるためのプログラムを更に含み、
前記動作内容判定手段は、前記顔向判定手段の判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項22記載の動作内容判定プログラム。 - 前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出手段は、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項22又は請求項23記載の動作内容判定プログラム。 - 前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出手段は、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記動作内容判定手段は、前記特徴量抽出手段によって抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項22乃至請求項24のいずれか1項に記載の動作内容判定プログラム。 - 対象者の顔を構成する所定部位を含む撮影画像に基づき、前記対象者の動作内容を判定するための動作内容判定方法であって、
前記所定部位を含む画像を撮影する画像撮影ステップと、
前記画像撮影手段の撮影画像に基づき、SVM(Support Vector Machine)を用いて前記撮影画像中から前記対象者の顔を構成する所定部位を検出する顔部位検出ステップと、
前記顔部位検出手段の検出結果に基づき前記所定部位の画像における特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにおいて抽出した特徴量及び前記所定部位から抽出される特徴量を入力とし、前記所定部位の動きに関連する動作内容に対する尤度を出力とするHMM(HiddenMarkov Model)を用いて前記特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定する動作内容判定ステップと、を含むことを特徴とする動作内容判定方法。 - 前記画像撮影手段は、前記対象者の顔全体を含む画像を撮影し、
前記顔全体を含む画像部分と前記所定部位の画像との位置関係情報を取得する位置関係情報取得ステップと、
前記位置関係情報に基づき前記対象者の顔の向きを判定する顔向判定ステップと、を更に含み、
前記動作内容判定ステップにおいては、前記顔向判定ステップにおける判定結果に基づき、複数方向の前記顔の向き毎に生成された当該複数方向にそれぞれ対応したHMMから前記判定結果の顔の向きに対応したHMMを選択し、前記特徴量抽出ステップにおいて抽出した特徴量及び前記選択したHMMを用いて、当該特徴量に対する当該選択したHMMの尤度を算出し、当該算出結果に基づき前記対象者の前記所定部位の動きに関連する動作内容を判定することを特徴とする請求項26記載の動作内容判定方法。 - 前記所定部位の画像は、前記対象者の口唇部分の画像を含み、
前記特徴量抽出ステップにおいては、前記口唇部分の画像に基づき当該口唇部分の画像における特徴量を抽出し、
前記動作内容判定ステップにおいては、前記口唇部分の特徴量及び前記口唇部分の画像から抽出される特徴量を入力とし、前記口唇部分の動きに関連する所定動作内容に対する尤度を出力とする口唇状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の口唇の動きに関連する動作内容を判定することを特徴とする請求項26又は請求項27記載の動作内容判定方法。 - 前記所定部位の画像は、前記対象者の眼部分の画像を含み、
前記特徴量抽出ステップにおいては、前記眼部分の検出結果に基づき当該眼部分の画像における特徴量を抽出し、
前記HMMは、を含み、
前記動作内容判定ステップにおいては、前記特徴量抽出ステップにおいて抽出した眼部分の特徴量及び前記眼部分の画像から抽出される特徴量を入力とし、前記眼部分の動きに関連する動作内容に対する尤度を出力とする眼状態判定用HMMを用いて当該特徴量に対する前記尤度を算出し、当該算出結果に基づき前記対象者の前記眼部分の動きに関連する動作内容を判定することを特徴とする請求項26乃至請求項28のいずれか1項に記載の動作内容判定方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004151579 | 2004-05-21 | ||
JP2004151579 | 2004-05-21 | ||
PCT/JP2005/009376 WO2005114576A1 (ja) | 2004-05-21 | 2005-05-23 | 動作内容判定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005114576A1 true JPWO2005114576A1 (ja) | 2008-07-31 |
JP4286860B2 JP4286860B2 (ja) | 2009-07-01 |
Family
ID=35428570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006513753A Active JP4286860B2 (ja) | 2004-05-21 | 2005-05-23 | 動作内容判定装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7894637B2 (ja) |
EP (1) | EP1748387B1 (ja) |
JP (1) | JP4286860B2 (ja) |
WO (1) | WO2005114576A1 (ja) |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK1667991T3 (da) * | 2003-09-16 | 2008-08-18 | Astrazeneca Ab | Quinazolinderivater som tyrosinkinaseinhibitorer |
JP5292671B2 (ja) * | 2006-03-06 | 2013-09-18 | トヨタ自動車株式会社 | 覚醒度推定装置及びシステム並びに方法 |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
JP4137969B2 (ja) * | 2006-12-04 | 2008-08-20 | アイシン精機株式会社 | 眼部検出装置、眼部検出方法及びプログラム |
JP2008171107A (ja) * | 2007-01-10 | 2008-07-24 | Matsushita Electric Ind Co Ltd | 顔状況判定処理装置および撮像装置 |
JP2008171108A (ja) * | 2007-01-10 | 2008-07-24 | Matsushita Electric Ind Co Ltd | 顔状況判定処理装置および撮像装置 |
WO2008088070A1 (ja) | 2007-01-19 | 2008-07-24 | Asahi Kasei Kabushiki Kaisha | 覚醒状態判定モデル生成装置、覚醒状態判定装置及び警告装置 |
JP4895847B2 (ja) * | 2007-02-08 | 2012-03-14 | アイシン精機株式会社 | 瞼検出装置及びプログラム |
KR100795160B1 (ko) * | 2007-03-22 | 2008-01-16 | 주식회사 아트닉스 | 얼굴영역검출장치 및 검출방법 |
JP4891144B2 (ja) * | 2007-05-08 | 2012-03-07 | キヤノン株式会社 | 画像検索装置及び画像検索方法 |
JP4375448B2 (ja) * | 2007-06-26 | 2009-12-02 | ソニー株式会社 | 画像処理装置、撮像装置、画像処理方法およびプログラム |
JP4458173B2 (ja) * | 2008-03-19 | 2010-04-28 | カシオ計算機株式会社 | 画像記録方法、画像記録装置、およびプログラム |
JP5189893B2 (ja) * | 2008-05-20 | 2013-04-24 | 旭化成株式会社 | 瞬目種別識別装置、瞬目種別識別方法、及び瞬目種別識別プログラム |
US20100005169A1 (en) * | 2008-07-03 | 2010-01-07 | Von Hilgers Philipp | Method and Device for Tracking Interactions of a User with an Electronic Document |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
JP2010074399A (ja) * | 2008-09-17 | 2010-04-02 | Sony Corp | 構図判定装置、構図判定方法、画像処理装置、画像処理方法、プログラム |
US20100074557A1 (en) * | 2008-09-25 | 2010-03-25 | Sanyo Electric Co., Ltd. | Image Processing Device And Electronic Appliance |
KR101179497B1 (ko) * | 2008-12-22 | 2012-09-07 | 한국전자통신연구원 | 얼굴 검출 방법 및 장치 |
JP2010165052A (ja) * | 2009-01-13 | 2010-07-29 | Canon Inc | 画像処理装置及び画像処理方法 |
JP5270415B2 (ja) * | 2009-03-19 | 2013-08-21 | トヨタ自動車株式会社 | 眠気判定装置及びプログラム |
DE112009004768B4 (de) * | 2009-05-12 | 2018-01-04 | Toyota Jidosha Kabushiki Kaisha | Abschätzvorrichtung für den visuellen erkennungsbereich und antriebsunterstützungsvorrichtung |
CN102460469A (zh) * | 2009-06-12 | 2012-05-16 | 皇家飞利浦电子股份有限公司 | 用于生物识别的系统和方法 |
JP5261805B2 (ja) | 2009-06-16 | 2013-08-14 | インテル・コーポレーション | 携帯用機器のカメラアプリケーション |
US8745250B2 (en) * | 2009-06-30 | 2014-06-03 | Intel Corporation | Multimodal proximity detection |
JP2011053915A (ja) * | 2009-09-02 | 2011-03-17 | Sony Corp | 画像処理装置、画像処理方法、プログラム及び電子機器 |
JP5476955B2 (ja) * | 2009-12-04 | 2014-04-23 | ソニー株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
JP5249273B2 (ja) * | 2010-03-25 | 2013-07-31 | パナソニック株式会社 | 生体情報計測システム |
JP2012003326A (ja) * | 2010-06-14 | 2012-01-05 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2012068948A (ja) * | 2010-09-24 | 2012-04-05 | Renesas Electronics Corp | 顔属性推定装置およびその方法 |
JP5569990B2 (ja) * | 2010-10-22 | 2014-08-13 | Necソリューションイノベータ株式会社 | 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム |
TW201226245A (en) * | 2010-12-31 | 2012-07-01 | Altek Corp | Vehicle apparatus control system and method thereof |
WO2012161346A1 (ja) * | 2011-05-24 | 2012-11-29 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP5914992B2 (ja) * | 2011-06-02 | 2016-05-11 | ソニー株式会社 | 表示制御装置、表示制御方法、およびプログラム |
JP5837341B2 (ja) * | 2011-06-24 | 2015-12-24 | 株式会社ブリヂストン | 路面状態判定方法とその装置 |
US9094539B1 (en) * | 2011-09-22 | 2015-07-28 | Amazon Technologies, Inc. | Dynamic device adjustments based on determined user sleep state |
JP5836095B2 (ja) * | 2011-12-05 | 2015-12-24 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US20130188825A1 (en) * | 2012-01-19 | 2013-07-25 | Utechzone Co., Ltd. | Image recognition-based startup method |
US20130243077A1 (en) * | 2012-03-13 | 2013-09-19 | Canon Kabushiki Kaisha | Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern |
JP5649601B2 (ja) * | 2012-03-14 | 2015-01-07 | 株式会社東芝 | 照合装置、方法及びプログラム |
BR112015002920A2 (pt) * | 2012-08-10 | 2017-08-08 | Honda Access Kk | método e dispositivo de reconhecimento de fala |
JP5888205B2 (ja) * | 2012-11-02 | 2016-03-16 | ソニー株式会社 | 画像表示装置並びに情報入力装置 |
JP6181925B2 (ja) * | 2012-12-12 | 2017-08-16 | キヤノン株式会社 | 画像処理装置、画像処理装置の制御方法およびプログラム |
DE102014100364B4 (de) * | 2013-01-18 | 2020-08-13 | Carnegie Mellon University | Verfahren zum Bestimmen, ob eine Augen-abseits-der-Straße-Bedingung vorliegt |
US20140229568A1 (en) * | 2013-02-08 | 2014-08-14 | Giuseppe Raffa | Context-rich communication between a device and a vehicle |
JP6182917B2 (ja) * | 2013-03-15 | 2017-08-23 | ノーリツプレシジョン株式会社 | 監視装置 |
TWI502583B (zh) * | 2013-04-11 | 2015-10-01 | Wistron Corp | 語音處理裝置和語音處理方法 |
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
CN105307737A (zh) | 2013-06-14 | 2016-02-03 | 洲际大品牌有限责任公司 | 互动视频游戏 |
KR102053820B1 (ko) * | 2013-07-02 | 2019-12-09 | 삼성전자주식회사 | 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법 |
WO2015111771A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
CN104269172A (zh) * | 2014-07-31 | 2015-01-07 | 广东美的制冷设备有限公司 | 基于视频定位的语音控制方法和系统 |
CN104202694B (zh) * | 2014-07-31 | 2018-03-13 | 广东美的制冷设备有限公司 | 语音拾取装置的定向方法和系统 |
US9952675B2 (en) * | 2014-09-23 | 2018-04-24 | Fitbit, Inc. | Methods, systems, and apparatuses to display visibility changes responsive to user gestures |
US9269374B1 (en) * | 2014-10-27 | 2016-02-23 | Mattersight Corporation | Predictive video analytics system and methods |
US9535905B2 (en) * | 2014-12-12 | 2017-01-03 | International Business Machines Corporation | Statistical process control and analytics for translation supply chain operational management |
WO2016157642A1 (ja) * | 2015-03-27 | 2016-10-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN104834222B (zh) * | 2015-04-30 | 2018-11-27 | 广东美的制冷设备有限公司 | 家用电器的控制方法和装置 |
CN106203235B (zh) * | 2015-04-30 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 活体鉴别方法和装置 |
JP6651989B2 (ja) | 2015-08-03 | 2020-02-19 | 株式会社リコー | 映像処理装置、映像処理方法、及び映像処理システム |
US10008201B2 (en) * | 2015-09-28 | 2018-06-26 | GM Global Technology Operations LLC | Streamlined navigational speech recognition |
DE102015225109A1 (de) | 2015-12-14 | 2017-06-14 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Klassieren von Augenöffnungsdaten zumindest eines Auges eines Insassen eines Fahrzeugs und Verfahren und Vorrichtung zum Erfassen einer Schläfrigkeit und/oder eines Sekundenschlafes eines Insassen eines Fahrzeugs |
US10255487B2 (en) * | 2015-12-24 | 2019-04-09 | Casio Computer Co., Ltd. | Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium |
CN106920558B (zh) * | 2015-12-25 | 2021-04-13 | 展讯通信(上海)有限公司 | 关键词识别方法及装置 |
CN107103271A (zh) * | 2016-02-23 | 2017-08-29 | 芋头科技(杭州)有限公司 | 一种人脸检测方法 |
JP6649306B2 (ja) * | 2017-03-03 | 2020-02-19 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
CN107123423B (zh) * | 2017-06-07 | 2021-05-18 | 微鲸科技有限公司 | 语音拾取装置及多媒体设备 |
CN107910009B (zh) * | 2017-11-02 | 2020-12-01 | 中国科学院声学研究所 | 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统 |
CN108875535B (zh) * | 2018-02-06 | 2023-01-10 | 北京旷视科技有限公司 | 图像检测方法、装置和系统及存储介质 |
CN111712852B (zh) * | 2018-02-19 | 2023-08-11 | 三菱电机株式会社 | 乘客状态检测装置、系统和方法 |
WO2019171452A1 (ja) * | 2018-03-06 | 2019-09-12 | 三菱電機株式会社 | 運転支援装置、運転支援方法及び運転支援装置を備えた運転支援システム |
CN109166575A (zh) * | 2018-07-27 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 智能设备的交互方法、装置、智能设备和存储介质 |
KR20200067465A (ko) * | 2018-12-04 | 2020-06-12 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
CN109624844A (zh) * | 2018-12-05 | 2019-04-16 | 电子科技大学成都学院 | 一种基于图像识别和语音传控的公交车行车保护系统 |
US11992317B2 (en) * | 2019-02-01 | 2024-05-28 | Nec Corporation | Alertness estimation apparatus, alertness estimation method, and computer- readable recording medium |
WO2021114224A1 (zh) * | 2019-12-13 | 2021-06-17 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
JP7415611B2 (ja) | 2020-01-30 | 2024-01-17 | 富士通株式会社 | 計算プログラム、計算方法及び計算装置 |
CN112101201B (zh) * | 2020-09-14 | 2024-05-24 | 北京数衍科技有限公司 | 行人状态的检测方法、装置及电子设备 |
CN113345472B (zh) * | 2021-05-08 | 2022-03-25 | 北京百度网讯科技有限公司 | 语音端点检测方法、装置、电子设备及存储介质 |
JP2023036262A (ja) * | 2021-09-02 | 2023-03-14 | 株式会社トランストロン | 通報装置、通報方法及び通報プログラム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2600834B2 (ja) | 1988-08-23 | 1997-04-16 | オムロン株式会社 | 居眠り検出装置 |
JPH0398078A (ja) * | 1989-09-12 | 1991-04-23 | Seiko Epson Corp | 音声評価システム |
JP2541688B2 (ja) * | 1990-05-21 | 1996-10-09 | 日産自動車株式会社 | 眼位置検出装置 |
JPH0779937A (ja) * | 1993-09-17 | 1995-03-28 | Nissan Motor Co Ltd | 覚醒度判定装置 |
JPH07156682A (ja) | 1993-12-03 | 1995-06-20 | Nissan Motor Co Ltd | 覚醒状態検出装置 |
JP3296118B2 (ja) * | 1994-11-17 | 2002-06-24 | トヨタ自動車株式会社 | 顔位置判定装置及び瞬き検出装置 |
JPH08175218A (ja) | 1994-12-26 | 1996-07-09 | Toyota Motor Corp | 運転状態検出装置 |
JP3710205B2 (ja) | 1996-06-05 | 2005-10-26 | 沖電気工業株式会社 | 音声認識装置 |
US6070098A (en) * | 1997-01-11 | 2000-05-30 | Circadian Technologies, Inc. | Method of and apparatus for evaluation and mitigation of microsleep events |
JP3577882B2 (ja) | 1997-03-31 | 2004-10-20 | 日産自動車株式会社 | 居眠り状態検出装置 |
JP3688879B2 (ja) * | 1998-01-30 | 2005-08-31 | 株式会社東芝 | 画像認識装置、画像認識方法及びその記録媒体 |
JP2948186B2 (ja) | 1998-02-10 | 1999-09-13 | 株式会社エイ・ティ・アール知能映像通信研究所 | 顔動画像からの表情抽出方法 |
JPH11352987A (ja) | 1998-06-04 | 1999-12-24 | Toyota Motor Corp | 音声認識装置 |
JP3012226B2 (ja) | 1998-07-24 | 2000-02-21 | マルチメディアシステム事業協同組合 | 居眠り運転防止装置 |
JP4517457B2 (ja) | 2000-06-13 | 2010-08-04 | カシオ計算機株式会社 | 音声認識装置、及び音声認識方法 |
US20020116197A1 (en) * | 2000-10-02 | 2002-08-22 | Gamze Erten | Audio visual speech processing |
JP4590717B2 (ja) * | 2000-11-17 | 2010-12-01 | ソニー株式会社 | 顔識別装置及び顔識別方法 |
JP4675492B2 (ja) * | 2001-03-22 | 2011-04-20 | 本田技研工業株式会社 | 顔画像を使用した個人認証装置 |
JP2003158643A (ja) * | 2001-11-20 | 2003-05-30 | Shibasoku:Kk | 信号処理方法及び信号処理装置 |
US7209883B2 (en) * | 2002-05-09 | 2007-04-24 | Intel Corporation | Factorial hidden markov model for audiovisual speech recognition |
ATE454849T1 (de) * | 2002-10-15 | 2010-01-15 | Volvo Technology Corp | Verfahren für die auswertung der kopf- und augenaktivität einer person |
US7359529B2 (en) * | 2003-03-06 | 2008-04-15 | Samsung Electronics Co., Ltd. | Image-detectable monitoring system and method for using the same |
-
2005
- 2005-05-23 EP EP05741463.3A patent/EP1748387B1/en not_active Expired - Fee Related
- 2005-05-23 JP JP2006513753A patent/JP4286860B2/ja active Active
- 2005-05-23 US US11/596,258 patent/US7894637B2/en active Active
- 2005-05-23 WO PCT/JP2005/009376 patent/WO2005114576A1/ja not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
JP4286860B2 (ja) | 2009-07-01 |
US20080037837A1 (en) | 2008-02-14 |
EP1748387A1 (en) | 2007-01-31 |
EP1748387B1 (en) | 2018-12-05 |
US7894637B2 (en) | 2011-02-22 |
WO2005114576A1 (ja) | 2005-12-01 |
EP1748387A4 (en) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4286860B2 (ja) | 動作内容判定装置 | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US11854550B2 (en) | Determining input for speech processing engine | |
JP4633043B2 (ja) | 画像処理装置 | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
US20100332229A1 (en) | Apparatus control based on visual lip share recognition | |
Hassanat | Visual speech recognition | |
JP2001092974A (ja) | 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
CN111767785A (zh) | 人机交互控制方法及装置、智能机器人及存储介质 | |
Navarathna et al. | Multiple cameras for audio-visual speech recognition in an automotive environment | |
JP4669150B2 (ja) | 主被写体推定装置及び主被写体推定方法 | |
CN112639964A (zh) | 利用深度信息识别语音的方法、系统及计算机可读介质 | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US20220036048A1 (en) | Emotion-recognition-based service provision apparatus for vehicle and method of controlling the same | |
Hassanat et al. | Visual words for lip-reading | |
CN114466179A (zh) | 语音与图像同步性的衡量方法及装置 | |
Ibrahim | A novel lip geometry approach for audio-visual speech recognition | |
Yoshinaga et al. | Audio-visual speech recognition using new lip features extracted from side-face images | |
Heckmann | Inter-speaker variability in audio-visual classification of word prominence. | |
Axyonov et al. | Audio-Visual Speech Recognition In-The-Wild: Multi-Angle Vehicle Cabin Corpus and Attention-Based Method | |
Lucey | Lipreading across multiple views | |
Chen et al. | Challenges in the fusion of video and audio for robust speech recognition | |
Paramasivam et al. | An optimized model for visual speech recognition using HMM. | |
Shaikh | Robust visual speech recognition using optical flow analysis and rotation invariant features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080522 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090317 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090325 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4286860 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120403 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130403 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130403 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140403 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |