WO2004090867A1

WO2004090867A1 - 変化情報認識装置および変化情報認識方法

Info

Publication number: WO2004090867A1
Application number: PCT/JP2004/005155
Authority: WO
Inventors: Ryuji Funayama
Original assignee: Toyota Jidosha Kabushiki Kaisha
Priority date: 2003-04-09
Filing date: 2004-04-09
Publication date: 2004-10-21
Also published as: EP1881484B1; JP4075670B2; US20080056582A1; US20060029277A1; EP1881484A1; US7302086B2; DE602004022472D1; EP1619660B1; EP1619660A1; US7508959B2; JP2004310606A; EP1619660A4

Abstract

　変化情報認識装置は、認識対象物に関する系列情報（撮像手段で撮像された動画など）を記憶する系列情報記憶装置と、その系列情報の変化に対応する基本変化情報をあらかじめ記憶する基本変化情報記憶装置とを備える。系列情報記憶装置は系列情報を変化状態比較装置に出力し、基本変化情報記憶装置は基本変化情報を変化状態比較装置に出力する。変化状態比較装置では、出力された変化情報と基本変化情報とを比較することにより、認識対象物の変化状態を認識する。

Description

明細書

変化情報認識装置および変化情報認識方法

技術分野

【0 0 0 1】本発明は、口の動きや口から発せられる音声、または人の動作など、認識対象物の変化状態を認識する変化情報認識装置およぴ変化情報認、識方法に関する。

背景技術

【0 0 0 2】画像処理などの分野においては、撮像した画像から、人が話す声や人の動作など、状態が変化するものの変化を認識することが行われる。このような状態の変化を認識するものとして、たとえば特開平 1 0— 2 7 4 5 1 6号公報に開示された顔の方向検出装置がある。この顔の方向検出装置は、カメラで得られる画像から、顔領域と目 ■ 口などの特徴領域とを抽出し、顔領域の中心位置などから顔の方向を検出するものである。

発明の開示

【0 0 0 3】上述した特開平 1 0— 2 7 4 5 1 6号公報に開示された顔の方向検出装置では、口の位置などを抽出してから顔の方向を検出するが、口の動きなどまでは検出することができない。そのため、人の言葉などを認識することはできないという問題があった。

[ 0 0 0 4 ] そこで、本発明の課題は、認識対象物の変化状態を正確に認識して、たとえば人の話す言葉などを認識することができるようにした変化情報認識装置および変化情報認識方法を提供することにある。

【0 0 0 5】本発明に係る変化情報認識装置は、認識対象物の変化情報を取得する変化情報取得手段と、認識対象物の基本的な変化状態を基本変化情報としてあらかじめ記憶する基本変化情報記憶手段と、変化情報取得手段で取得された認識対象物の変化情報と、あらかじめ記憶された基本変化情報とを比較して、認識対象物の変化状態を検出する変化状態比較手段と、を備えるものである。【0 0 0 6】本発明に係る変化情報認識装置においては、変化情報取得手段で取得された変化情報と、あらかじめ記憶された基本変化情報とを比較することにより、認識対象物を認識する。たとえば、認識対象物が人の口など、一定の相関関係を持つ動きをすることが多いものである場合には、この動きを基本変化情報としてあらかじめ記憶しておき、取得した変化情報と比較することにより、確実に認識対象物を認識することができる。

【0 0 0 7】ここで、基本変化情報は、認識対象物の変化状態を基本単位に分割した変化情報単位として、基本変化情報記憶手段に記憶されているのが好適である。

【0 0 0 8】このように、基本変化情報を変化情報単位に分割した情報として記憶しておくことにより、さらに高精度で認識対象物を認識することができる。

[ 0 0 0 9 ] また、変化情報取得手段を認識対象物を撮像する撮像手段とし、変化情報を撮像手段によつて取得した画像における宪話に伴う口周辺の画像変化に関する情報とすることができる。

【0 0 1 0】このように、変化情報を発話に伴う口周辺の画像変化とすることにより、人の発話の内容を精度よく認識することができる。

【0 0 1 1〗さらに、変化情報取得手段を認識対象物が発生する音を取得する集音手段とし、変化情報を集音手段によって取得した認識対象物が発生する音の周波数成分変化に関する情報とすることもできる。

[ 0 0 1 2 ] このように、集音手段、たとえばマイクから取得した音の周波数成分に関する変化情報とすることにより、認識対象物が発生する音、たとえば人の発話の内容を高精度で認識することができる。

【0 0 1 3】また、変化情報取得手段を認識対象物を撮像する撮像手段とし、変化情報を撮像手段によつて取得した画像における認識対象物の動きに伴う画像変化に関する情報とすることもできる。あるいは、変化情報取得手段を認識対象物を撮像する撮像手段とし、変化情報を認識対象物の回転に伴う画像変化に関する情報とすることもできる。

【0 0 1 4】このように、変化情報が認識対象物の動きや回転による画像の変化であっても、それらの変化を高精度で認識することができる。

【0 0 1 5】また、上述した基本変化情報が、特徴空間上の情報の系列として設定された基本変化系列情報であり、変化情報取得手段で取得した認識対象物の変化系列情報を特徴空間へ射影して射影変化情報を作成する変化情報射影装置をさらに備え、変化状態比較手段が、認識対象物の変化情報と基本変化情報との比較に代えて、射影変化情報と基本変化系列情報とを比較して、検出象物の変化状態を認識することが好適である。

【0 0 1 6】本発明においては、変化情報を特徴空間の情報系列として認識している。このため、取得された変化系列情報と、あらかじめ設定された基本変化系列情報とを比較している。このため、取得された変化系列情報と基本変化系列情報との類似度 (適合度) を定量的に判断することができる。

[ 0 0 1 7 ] ここで、変化状態比較手段は、基本変化系列情報の連続性と射影変化情報の連続性とを比較することにより、認識対象物の変化状態を検出する態様とするのが好適である。このように、射影変化情報として射影された変化系列情報の連続性を基本変化系列情報と比較することにより、変化しながら移動する認識対象物を精度良く認識することができる。

[ 0 0 1 8 ] 多次元で表すことのできる情報は、多次元空間上の一点として表現し得る。この情報をより低次元の空間上の一点として射影することが可能であり、このより低次元の空間は特徴空間として定義される。

【0 0 1 9】例えば、多次元空間の一点として表現し得る一つの静止画像を、三次元空間（特徴空間）上の一点として射影することが可能である。この場合、連続する複数枚の画像を、三次元空間（特徴空間）上の線（射影軌跡）として表現することができる。基本系列情報を特徴空間上のチューブ状の領域として設定し、射影変化情報から得られる特徴空間上の射影軌跡とを比較する（例えば、チユーブ状の領域内に射影軌跡が含まれるかどうか比較する）ことで、認識対象物の変化状態を認識することが可能となる。

【0 0 2 0】また、変化情報取得手段で取得された認識対象物の変化情報に基づいて、基本変化系列情報を作成する学習手段をさらに備える態様とするのが好適である。このように、変化情報取得手段で取得された認識対象物の変化に基づいて、基本変化情報を作成または更新する学習手段を備えることにより、認識対象物に応じた基本変化系列情報を精度良く作成することができる。

【0 0 2 1】他方、上記課題を解決した本発明に係る変化情報認識方法は、認識対象物の変化情報を取得する変化情報取得工程と、認識対象物の基本的な変化状態を基本変化情報としてあらかじめ記憶する基本変化情報予備記憶工程と、変化情報取得工程において取得した認識対象物の変化情報と、あらかじめ記憶された基本変化情報とを比較して、認識対象物の変化状態を認識する変化状態比較ェ程と、を備えることを特徴とする。

【0 0 2 2〗また、基本変化予備記憶工程で、認識対象物の変化状態を基本単位に分割した変化情報単位を前記基本変化情報としてあらかじめ記憶しておくことが好適である。このように、基本変化情報を変化情報単位に分割した情報として記憶しておくことにより、さらに高精度で認識対象物を認識することができる

【0 0 2 3】また、変化情報取得工程において取得する変化情報が認識対象物を撮像した画像に関する情報であり、かつ、基本変化情報予備記憶工程において予め記憶される基本変化情報も画像に関する情報であり、変化状態比較工程において、変化情報及び基本変化情報の画像に関する情報を比較して認識対象物の変化状態を認識することが好適である。このように、変化情報が認識対象物を撮像した画像に関する情報とすることで、認識対象物の変化を高精度で認識することができる。

【0 0 2 4】さらに、変化情報取得工程において取得する変化情報が認識対象物が発生する音に関する情報であり、かつ、基本変化情報予備記憶工程において予め記憶される基本変化情報も音に関する情報であり、変化状態比較工程において、変化情報及び基本変化情報の音の周波数成分を比較して認識対象物の変化状態を認識することが好適である。このように、変化情報が認識対象物が発生する音に関する情報とすることで、認識対象物が発生する音、たとえば人の発話の内容を高精度に認識することができる。

図面の簡単な説明

【0 0 2 5】図 1は、本発明の第 1の実施形態に係る変化情報認識装置のブロック構成図である。

図 2は、口を含む顔の画像を模式的に示す図である。

図 3 Aは、口の形状の連続的な変化の状態（第 1例）を示すテンプレートを模式的に示す図である。

図 3 Bは、口の形状の連続的な変化の状態（第 2例）を示すテンプレートを模式的に示す図である。

図 4 A〜Hは画像中における口の形状の連続的な変化の状態を模式的に示す図である。

図 5 A〜Hは画像中における口の形状と、テンプレート中の口の形状と一致する位置を模式的に示す図である。

図 6 A〜Fは、従来の口の形状のテンプレートを模式的に示す図である。

図 7は、第 1の実施形態に係る変化情報認識方法の手順を示すフローチヤ一トである。

図 8 Aは、静止画における口と認識しうる位置を模式的に示す図である。

図 8 Bは、動画における口と認識しうる位置を模式的に示す図である。

図 9は第 2の実施形態に係る変化情報認識装置のプロック構成図である。

図 1 0 Aは、連続する口の変化パターンを時間ごとに模式的に示した図である図 1 O Bは、図 1 O Aにおける変化パターンの前半部分の変化を模式的に示した図である。

図 1 0 Cは、図 1 O Aにおける変化パターンの後半部分の変化を模式的に示した図である。

図 1 1は第 2の実施形態に係る変化情報認識方法の手順の要部を示すフローチヤートである。

図 1 2 A〜Hは口を含む画像における連続的な変化の状態を模式的に示す図である。

図 1 3は第 3の実施形態に係る変化情報認識装置のプロック構成図である。図 1 4は発音の変化とそれに割り当てた記号の対応関係を示す表である。図 1 5は「あ」の母音を発する口に形状から、「い」の母音を発する口の形状に至るまでの口の変形過程を模式的に示す図である。

図 1 6 Aは、「おはようございます」の音を文字で表している。

図 1 6 Bは、図 1 6 Aの音にそれぞれ対応する口の形状を模式的に示す図である。

図 1 6 Cは、図 1 6 Bの音の変化に対応する記号をそれぞれ示す図である。図 1 7は第 3の実施形態に係る変形情報認識方法の手順の要部を示すフ口ーチヤートである。

図 1 8 Aは、「あ」から「い」に変化する口の形状の変化を模式的に示す図である。

図 1 8 Bは、「い」から「う」に変化する口の形状の変化を模式的に示す図である。

図 1 9は第 4の実施形態に係る変化情報認識装置のプロック構成図である。図 2 O Aは、ある音声の周波数一強度グラフの時刻 t = 1〜3での変化を示している。

図 2 0 Bは、別の音声の周波数一強度グラフの時刻 t = 1 ~ 3での変化を示している。

図 2 1はある一定のフレーム間隔をおいて、一定のフレーム長の長さのフレーム長に切り取られる音声変化情報を概概略的に示す図である。

図 2 2 A〜Hは、 T 1〜T 8の時間の 8つに切り取られた音声変化情報から作成された音声変化単位の波形を示すグラフである。

図 2 3 Α〜Ηは、図 2 2 Α~Ηにおいて音声変化単位のグラフと一致する部分を示す説明図である。

図 2 4は第 4の実施形態に係る変形情報認識方法の手順を示すフ口一チヤ一トである。

図 2 5は第 4の実施形態に係る音声認識の手順を示すフローチャートである。図 2 6は第 5の実施形態に係る変化情報認識装置のプロック構成図である。図 2 7はジエスチヤ認識に用いる基本体変化単位の時刻における画像の例を模式的に示す図である。

' 図 2 8 A〜 Jは、歩行者認識に用いる基本体変化単位の時刻における画像の例を示す図である。

図 2 9は第 6の実施形態に係る変化情報認識装置のプロック構成図である。図 3 0 A〜Lは、人形の頭部が回転する際の画像を模式的に示す図である。図 3 1は第 7の実施形態に係る変化情報認識装置のプロック構成図である。図 3 2は「ん」から「あ」を発話する口の動きを示す動画像を模式的に示す図である。

図 3 3は図 3 2に示す動画像に基づいて作成した特徴空間上のグラフを示す図である。

図 3 4は他の変形パターンを含めて、動画像に基づいて作成した特徴空間上のグラフを示す図である。 .

図 3 5は複数の人のある発話での口の動きを特徴空間に射影した際の曲線を示す図である。図 3 6は特徴空間に生成されたハイパーチューブを示す図である。

図 3 7は複数のハイパーチューブを配置した特徴空間を示す図である。

図 3 8はハイパーチューブを生成する手順を示すフローチャートである。

図 3 9は特徴空間に 3次元特徴べクトルをプロットした点をつないで形成した 3つの軌跡を示す図である。

図 4 0は 3つの軌跡とそれらの軌跡に基づいて形成された代表軌跡を示す図である。

図 4 1は代表軌跡を求める際に生成する超平面を求める手順を説明するための 1である。

図 4 2は代表軌跡を求める際の手順を説明するための超平面を示す図である。図 4 3は第 7の実施形態に係る変化情報認識方法の手順を示すフローチヤ一トである。

図 4 4 Aは、ある変形を表すハイパーチューブ H Tおよび入力系列軌跡 1 Lの軌跡を合わせて示した図である。

図 4 4 Bは、ハイパーチューブの開始点を 0、終了点を 1とする横軸上に、代表軌跡からの距離を縦軸とするグラフに対応付けした状態を示す図である。

図 4 5は第 8の実施形態に係る変化情報認識装置のプロック構成図である。図 4 6は一定時間切り取るウィンドウを動かすことなく動画を撮像した状態を説明するための図である。

図 4 7 Aは、切り取るウィンドウを動かして口を追跡した動画を説明する図である。

図 4 7 Bは、図 4 7 Aに対応する特徴空間上の軌跡とハイパーチューブとを示す図である。

発明を実施するための最良の形態

【0 0 2 6】以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、各実施形態において、重複する説明は省略することがある。【0 0 2 7】まず、本発明の第 1の実施形態について説明する。図 1は、本実施形態に係る変化情報認識装置のブロック構成図である。図 1に示すように、本実施形態に係る変化情報認識装置 1は、系列情報記憶装置 1 1と、基本変化情報記憶装置 1 2と、変化状態比較装置 1 3とを備えている。

【0 0 2 8】系列情報記憶装置 1 1は、図示しない本発明の変化情報取得手段である撮像装置となるカメラに接続されている。カメラでは、認識対象物となる口を含む顔を撮像している。撮像した人の口の画像は、一定時間の間隔をおいて、系列情報記憶装置 1 1に出力される。系列情報記憶装置 1 1では、これらの一定時間をおいて出力される複数の画像を系列情報 J 1 1として記憶する。

【0 0 2 9】基本変化情報記憶装置 1 2には、あらかじめ人の口の形状がとり得るパターンが複数記憶されている。この口の形状がとり得るパターンについては、後に詳細に説明する。

【0 0 3 0〗変化状態比較装置 1 3には、系列情報記憶装置 1 1から系列情報が出力され、基本変化情報記憶装置 1 2から基本変化情報が出力される。変化状態比較装置 1 3では、これらの系列情報および基本変化情報を比較することにより、口の形状の変化を検出して、口に相当する部分を検出する。さらに、変化状態比較装置 1 3は、図示しない出力装置に接続されており、検出した口に相当する部分の位置を、変化情報の位置情報 J 1 2として出力装置に出力する。また、変化状態比較装置 1 3では、口に相当する部分を検出するとともに、口の動きをも検出する。この検出した口の動きも、変化情報に対応する記号情報 J 1 3として図示しない出力装置に出力する。

【0 0 3 1】それでは、本実施形態に係る変化情報認識装置 1による変化情報認識方法について説明する。本実施形態に係る変化情報認識装置 1の系列情報記憶装置 1 1には、図示しないカメラで撮影された、たとえば図 2に示す口 Mを含む顔 Fの画像 G 1などの画像が順次出力される。系列情報記憶装置 1 1では、これらの画像を記憶しておく。この画像が複数枚、たとえば 8枚揃ったときに、これらの画像を系列情報としてまとめて、変化状態比較装置 1 3に出力する。

【0 0 3 2】また、基本変化情報記憶装置 1 2には、口の変化のパターンを表す画像情報が複数記憶されている。たとえば、図 3 に示す1 = 1〜4の第1変化パターンが第 1テンプレート P 1として、図 3 Bに示す t = 1〜4の第 2変化パターンが第 2テンプレート P 2として、基本変化情報記憶装置 1 2にそれぞれ記憶されている。両変化パターンでは、ある時刻での画像が t = 1の画像であり、一定時間経過した後の次の画像が t = 2の画像であり、さらに一定時間経過した後の画像が t = 3の画像であり、それからさらに一定時間経過した後の画像が t = 4とされている。第 1テンプレート P 1で表される第 1変化パターンでは、大きく開いた口 Mの形状（「あ」の母音を発するときの口の形状）から、横に細長く開いた口 Mの形状（「い」の母音を発するときの口の形状）に変化する状態を示している。また、第 2テンプレート P 2で表される第 2変化パターンでは、大きく開いた口 Mの形状 ( 「あ」の母音を発するときの口の形状) から、縦長に開いた口 Mの形状 ( 「お」の母音を発するときの口の形状) に変化する状態を示している。

【0 0 3 3〗変化状態比較装置 1 3には、 8枚の画像からなる系列情報の動画が系列情報記憶装置 1 1から出力され、第 1 , 第 2変化パタ一ンを示すテンプレ一卜 P l， P 2が、基本変化情報記憶装置 1 2から出力される。ここで、系列情報記憶装置 1 1カゝら出力された系列情報には図 4に示す変化を示す領域が含まれていたとする。図 4 A〜Hは、それぞれ時刻 t = 1〜8に相当する画像を示している。図 4に示す画像に表示された形状の動きと図 3に示すテンプレート P 1， P 2の形状の動きとを比較すると、図 5に示すように、テンプレート P 1の動きが図 4 D〜Gに示す動きと一致していることがわかる。このことから、図 5 D〜 Gにおいて破線 Bで示した部分が口に相当する部分であるということを認識することができる。また、このときに、口は第 1テンプレート P 1に相当する動きをしていたことも同時に認識することができる。【0034】ここで、従来においては、たとえば図 6 A〜Fに示すように、複数の口のテンプレート T 1〜T 6を用意しておき、撮像装置で撮像された画像をラスタスキャンして、テンプレート Τ 1〜Τ 6に相当する部分を口として検出するようにしていた。しかし、この方法では、画像の中に存在する壁のシミゃ背景の一部であって、口と類似する形状のものも口として検出してしまう誤検出や、検出漏れなどの不都合が考えられた。

【0035】これに対して、本実施形態に係る変化情報認識装置では、静止画のような瞬間的に切り取られた画像のみを対象とするのではなく、変化する形状の変形パターンを見つけるようにしているので、誤検出や検出漏れなどを少なくすることができる。しかも、口の位置とその変形の様子とを同時に同定することができる。なお、図 3から図 5は、説明を簡単にするために、口の動きに適用した形で説明を行った。しかし、特に口の動きに限定したものではなく、一般的な図形の変形であればどのような技術にも適用することができるものである。【0036〗続いて、本実施形態の具体的な変化情報認識方法について説明する。図 7は、本実施形態に係る変化情報認識方法の手順を示すフロ一チヤ一トである。図 7に示すように、本実施形態に係る変化情報認識方法では、まず、 8枚ある画像のフレーム番号を表す定数 f (ί定義域 =1〜8) およびそれらの画像を撮像した時刻を表す変数 t 定義域= 1〜8) を初期化し（S 1) 、次に、 2枚あるテンプレート P 1， P 2で表される変化パターンを表す変数 d (d= 1 ， 2) を初期化する (S 2) 。続いて、第 1変化パターン d = 1における時刻 t

(以下 Γ t (d) J と示す) = 1のパターンの類似パターンを、最初のフレーム f = 1の画像から探し出し (S 3) 、時刻 t (d) のパターンの類似パターンが見つかつたか否かを判断する（S 4) 。

【0037】その結果、類似パターンが見つかった場合には、時刻 t (d) のパターンが見つかつたこと、および、フレーム f 1における類似パターンが見つかった位置を、変化パターン d =l用の記憶領域に記憶する（S 5) 。そして、時刻 t (d) =1に 1を加算して、 t (d) =2とする（S 6) 。それから、すべての変化パターン d (= 1， 2) において、類似パターンを探し出す処理が終了したか否かを判断する（S 7) 。

【0038】一方、ステップ S 4において、類似パターンが見つからなかった場合には、ステップ S 7に進み、すべての変化パターン d (= 1， 2) を探し出す処理が終了したか否かを判断する。そして、ステップ S 7において、すべての変化パターン d (=1， 2) を探し出す処理が終了していないと判断したら、変化パターンを進めて変化パターン（d+ l) とし（S 8) 、ステップ S 3に戻つて、フレーム f の画像から類似のパターンを探す。また、すべての変化パターンが探し終わったと判断したら、次のフレーム f + 1に進む（S 9) 。

【0039】こうして次のフレームに進んだら、すべてのフレーム f (= 1〜 8) を処理し終わったか否かを判断する (S 10) 。その結果、すべてのフレームの処理が終わっておらず、処理が終わっていないフレームがあると判断したときには、ステップ S 2に戻って、処理を継続する。一方、すべてのフレームの処理が終わったと判断したときには、変化ごとの記憶領域の記憶されている情報から、検出された変化パターン (変化情報に対応する記号) とその位置を、図示しない出力装置を介して出力する (S 1 1) 。このようにして、口の位置および口の動きを検出することができる。

【0040】このように、本実施形態に係る変化情報認識装置 1においては、静止画像でなく、動画によって表される画像の動きから認識対象物である口の位置を検出するようにしている。このため、図 8 Aに示すように、静止画によるテンプレートを用いた従来の認識方法では、多数の口の候補 C 1 , C 2…を認識してしまう。これに対して、本実施形態に係る認識方法では、一定時間をおいて撮影した複数の画像から口 Mの変化を検出しているので、図 8 Bに示すように、候補 C内に口 Mを確実に認識することができる。しかも、口 Mの動きを複数枚の画像に見られる変化で追従していることから、口 Mの動きまでをも検出することができる。

【0 0 4 1】なお、本実施形態では、テンプレート P 1 , P 2において、それぞれ時刻 t = 1〜4として 4つの時刻での画像を設定しているが、テンプレート内の画像数は 2以上であればよい。たとえば、時刻 t = 1， 2として、 2つの時刻での画像からテンプレートを設定することもできる。

【0 0 4 2】次に、本発明の第 2の実施形態について説明する。図 9は、本実施形態に係る変化情報認識装置のブロック構成図である。図 9に示すように、本実施形態に係る変化情報認識装置 2は、上記第 1の実施形態と同様の系列情報記憶装置 2 1、基本変化情報記憶装置 2 2、および変化状態比較装置 2 3を備えている。このうち、系列情報記憶装置 2 1および変化状態比較装置 2 3は、上記実施形態における系列情報記憶装置 1 1および変化状態比較装置 1 3とそれぞれ同一の構成を有しており、基本変化情報記憶装置 2 2は、上記第 1の実施形態における基本変化情報記憶装置 1 2とは、異なる構成を有している。

【0 0 4 3〗本実施形態に係る基本変化情報記憶装置 2 2は、複数の基本変化情報単位記憶装置 2 4 A， 2 4 B…を有している。各基本変化情報単位記憶装置 2 4 A, 2 4 B…には、認識対象物の変化状態を基本単位に分割した変化情報単位（変化パターン）として記憶されている。この変化パターンは、認識対象物の一連の変化パターンにおける最小の単位となるパターンである。たとえば、図 1 0 Aに示すような時刻 t = 1〜 7の間における変化パターン Pがあるとする。この時刻 t = 1 ~ 7に対応した一連の変化パターンにおいて、図 1 0 Bに示す t =

1〜 4の変化が、図 1 0 Cに示す t = l〜4 (図 1 0 Aの t = 4〜7の変化に相当する）とは異なる意味を持った最小単位であることがある。たとえば、図 1 0 Aにおける t = l ~ 4で「お」から「あ」に変化する口の形状を表し、 t = 4〜 7で「あ」から「い」に変化する口の形状を表すような場合である。図 1 0 B , Cに示す t = l〜4のような変化が、それぞれ最小単位のテンプレート P 3， P

4として、各基本変化情報単位記憶装置 2 4 A, 2 4 B…に記憶されている。【0 0 4 4】次に、本実施形態に係る変化情報認識方法について説明する。図 1 1は、本実施形態に係る変化情報認識方法の手順の要部を示すフローチャートである。図 1 1に示すように、本実施形態に係る変化情報認識方法では、上記第 1の実施形態に係る認識方法と同様にして、系列情報記憶装置 2 1において系列情報 J 2 1 (たとえば 8枚の画像からなる情報）を取得して、変化状態比較装置 2 3に出力する。変化状態比較装置 2 3では、出力された系列情報から各変化情報単位を検出する（S 2 1 ) 。また、基本変化情報記憶装置 2 2からは、変化状態比較装置 2 3に対して、基本変化情報単位記憶装置 2 4に記憶された基本変化情報単位を示すテンプレート P 3， P 4が出力される。

【0 0 4 5】変化状態比較装置 2 3では、検出した変化情報単位と、基本変化情報記憶装置 2 2から出力された基本変化情報単位のテンプレート P 3， P 4とを比較し、変化情報単位の連続性を考慮して一連の変化を検出する ( S 2 2 ) 。たとえば、系列情報記憶装置 2 1から出力された系列情報 J 2 1力図 1 2 A〜 Hにそれぞれ示す 8枚の画像であったとする。変化状態比較装置 2 3では、これらの系列情報 J 2 1による画像と、基本変化情報記憶装置 2 2から出力されたテンプレート P 3 , P 4とを比較して、系列情報における一連の変化を検出する。

[ 0 0 4 6 ] いま、図 1 2 A〜ト Iに示す系列情報を表す 8枚の画像では、図 1 2 A〜Dに示す画像における実線 Rで囲む口 Mの形状が、図 1 0 Bに示すテンプレート P 3の変化と同一の変化を示している。また、図 1 2 D〜Gに示す画像における破線 Bで囲む口 Mの形状が、図 1 0 Cに示すテンプレート P 4の変化と同一の変化を示している。このことから、系列情報 J 2 1には、図 1 O Aに示す形状変化を行う認識対象物としての口があることが認識される。

【0 0 4 7】こうして認識された認識対象物である変化情報としての口は、その変化情報単位の位置情報 J 2 2として変化状態比較装置 2 3から図示しない出力装置に出力される。それと同時に、変化情報単位に対応する記号情報 J 2 3が、変化状態比較装置 2 3から図示しない出力装置に出力される。出力装置では、変化情報単位の位置情報から変化情報 J 2 4を取得し、変化情報単位に対応する記号情報 J 2 3力ゝら、変化情報に対応する記号情報 J 2 5を取得する。

【0 0 4 8】ここで、たとえば系列情報を表す画像に、図 1 0 Bに示すテンプレート P 3の形状変化と同一の形状変化が見られたとしても、その後に、図 1 0 Cに示すテンプレート P 4で表される形状変化と同一の形状変化が見られないことがある。この場合には、図 1 O Aに示す一連の変化は起こってはいないと判断することができ、その結果として誤検出を防止することができる。また、連続した変化情報単位の特定組み合わせをあらかじめ記憶していることから、任意の変化を少ない記憶容量で表現することができる。さらに、一連の変化を、その変化よりも小さい変化の単位に分割することにより、ロバストに変化の様子を検出ことが可能となり、さらには複雑な変化をより単純な変化の組み合わせで表現することができるので、実装が容易になるとともに、少ない記憶容量で複雑な変化を扱うことができる。

【0 0 4 9〗次に、本発明の第 3の実施形態について説明する。 0 1 3は、本実施形態に係る変化情報認識装置のプロック構成図である。本実施形態に係る変化情報認識装置は、口変形認、識装置として用いることができる。図 1 3に示すように、本実施形態に係る変化情報認識装置 3は、動画記憶装置 3 1、口基本変形情報記憶装置 3 2、および口変形状態比較装置 3 3とを備えている。

【0 0 5 0】動画記憶装置 3 1は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる口を含む顔の動画を撮像しており、動画撮像装置は、撮像した動画の動画情報 J 3 1を動画記憶装置 3 1に対して出力している。

【0 0 5 1】口基本変形情報記憶装置 3 2は、人の口の動きがとり得るパターンがあらかじめ記憶された複数の口基本変形単位記憶装置 3 4 A, 3 4 B…を有している。各口基本変形単位記憶装置 3 4 A， 3 4 B…には、口基本変形単位があらかじめ記憶されている。この口基本変形単位については、後に説明する。【0 0 5 2】口変形状態比較装置 3 3には、動画記憶装置 3 1から口変形単位情報が出力され、口基本変形情報記憶装置 3 2から口基本変形単位情報が出力される。口変形状態比較装置 3 3では、これらの口変形単位情報と口基本変形単位情報とを比較することにより、口の動きを認識する。さらに、口変形状態比較装置 3 3は、図示しない出力装置に接続されており、動画記憶装置 3 1から出力されたロ変形単位の位置を口変形単位位置情報 J 3 2として出力装置に出力する。また、それと同時に、口変形単位に対応する記号情報 J 3 3を出力装置に出力する。

【0 0 5 3】また、口基本変形情報記憶装置 3 2における口基本変形単位記憶装置 3 4 A, 3 4 B…には、口の変形パターンを示す動画に対応した口変形単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。人が発話を行う際の口の形状は、主に母音および撥音によつて決定される (日本語の場合 ) 。母音とは、「あ」「い」「う」「え」「お」の 5音を指すものであるが、これに撥音である「ん」を加えて考えると、すべての発話はこれらの 6音とそれ以外の 5音への組み合わせとして表現することができる。図 1 4は、上記の 6音から他の 5音へのすべての組み合わせについて、記号を割り当てたものを示す表であ。

【0 0 5 4】図 1 4に示すように、「あ J を 1、「い」を 2、「う」を 3、「え」を 4、「お」を 5、「ん J を 0とすると、たとえば「あ」から「い」への変形は「1 2」という記号で表される。図 1 5には、「あ」の母音を発する口の形状から、「い」の母音を発する口の形状に至るまでの口の変形過程を模式的に示している。時刻 t = lでは、「あ」の音を発しており、口 Mは大きく開いた状態にある。この状態から、時刻が進むにつれて、口が徐々に狭まるように変形していき、時刻 t = 8のときには、口 Mが「い」の音を発する形状をなしている。このように、「あ」から「い」に変形するまでの口の変形を t = 1〜8までの間で連続画像で示している。このような「あ」から「い」に変形するまでの口の変形を示す動画を、「あ」を表す記号「1」と「い」を表す記号「2」とを用いて、記号「1 2」で表す。

【0 0 5 5】この考え方を用いると、たとえば図 1 6 Aに示すように、「おはようございます（これは日本語である。英語での Good morning.の意味）」という発話は、子音を除いて母音だけをみると図 1 6 Bに示すように、「おあおうおあいあう」となる。この発話に伴う口の変形は、上記の記号を用いると、図 1 6 C に示すように、 5 1→1 5→5 3→3 5→5 1→1 2→2 1→1 3と表すことができる。口基本変形情報記憶装置 3 2には、これらの記号に対応する口基本変形単位が各口基本変形単位記憶装置 3 4 A， 3 4 B…のそれぞれに記憶されている

【0 0 5 6】従来、発話を認識する手段としては「あ」や「い」を表す口の形状を見つけるようなアプローチがなされていた。これに対して、本実施形態では、「あ」から「い」に至るまでに口の形状が変形する過程を、あらかじめ記憶される口基本変形記憶単位に対応させて捉えようとするものである。

【0 0 5 7】それでは、本実施形態に係る変化情報認識装置 3による変形情報認識方法について説明する。図 1 7は、本実施形態に係る変形情報認識方法の手順の要部を示すフローチヤ一トである。本実施形態に係る変形情報認識方法では、まず、動画撮像装置で撮像した口を含む顔の動画が、動画撮像装置から動画記憶装置 3 1に出力され、動画記憶装置 3 1に記憶される。一方、口基本変形情報記憶装置 3 2には、各口基本変形単位記憶装置 3 4 A , 3 4 B…において、口基本変形単位に対応する変化情報およびおよび口基本変形単位に対応する記号があらかじめ記憶されている。動画記憶装置 3 1からは、口変形状態比較装置 3 3に対して、動画が出力され、口基本変形情報記憶装置 3 2からは、口変形状態比較装置 3 3に対して口基本変形単位の変形情報および口基本単位に対応する記号が出力される。

【0 0 5 8】口変形状態比較装置 3 3においては、動画記憶装置 3 1から出力された動画おょぴロ基本変形情報記憶装置 3 2から出力された口基本変形単位との比較を行い、動画における口変形単位が存在する位置および口変形に対応する記号を検出する（S 3 1 ) 。次に、一定時間経過した後の動画上において、口変形位置が存在する位置および口変形に対応する記号を検出する。続いて、検出された各口変形単位について、先に検出された口変形単位である第 1の変形と、後に検出された口変形単位である第 2の変形が同じ位置で行われていたか否かを判断する（S 3 2 ) 。

【0 0 5 9】その結果、同じ位置で検出されたものではないと判断したときには、ステップ S 3 1に戻って同様の処理を繰り返す。一方、同じ位置で検出されたものであると判断したときには、それらの第 1の変形に対応する記号の終了を表す記号と、第 2の変形に対応する記号の開始を表す記号とを比較し、両者が同じであるか否かを判断する ( S 3 3 ) 。その結果、両者が同じではないと判断したときには、ステップ S 3 1に戻って、同様の処理を繰り返す。

[ 0 0 6 0 ] それに対して、たとえば、図 1 8 Aに示すように、第 1の変形では口 Mが t = 1〜 8に示すように動き、対応する記号が 1 2であり、第 2の変形では口 Mが t = 8〜t 1 5に示すように動き、対応する記号が 2 3であったとする。これは、第 1の変形では、発話を母音レベルで理解すると、口の形状が「あ J から「い」に変化したこと、および第 2の変形では、口の形状が「い」から Γ う」に変化したことを意味している。このように、それらの第 1の変形に対応する記号の終了を表す記号と、第 2に変形に対応する記号の開始を表す記号とが同じである場合には、第 1の変形と第 2の変形との繋ぎにおける時間位置で、その記号に対応する音が発せられていたと考えられる。先の例でいえば、第 1の変形に対応する記号の終了を表す記号と、第 2の変形に対応する記号の開始を表す記号がいずれも「2」であり、同じである。このような場合には、第 1の変形と第 2の変形とは連続して行われたものであると判断することができる。

【0 0 6 1】そして、第 1の変形に対応する記号の終了を表す記号と、第 2に変形に対応する記号の開始を表す記号が同じである場合には、第 1の変形と第 2 の変形との繋ぎにおける時間位置およびその記号をそれぞれ口変形単位位置情報 J 3 2および口変形単位に対応する記号情報 J 3 3として、図示しない出力装置に出力する（S 3 4 ) 。出力装置においては、口変形単位位置情報 J 3 2から口の位置情報 J 3 4を求め、口変形単位に対応する記号情報 J 3 3から、発話単語情報 J 3 5を求める。こうして、変化情報認識方法が終了する。

【0 0 6 2】このように、本実施形態に係る変化情報認識装置 3においては、発話に伴う口の変形を、 5種類の母音および 1種類の撥音という 6種類の音に対応する口の形から、その音以外の 5種類の口の形への変形という単位に分割している。このため、入力した動画像から口の位置を検出するとともに、どの時点でどの音が発音されたかを確実に認識することができるので、発話認識装置として用いることができる。また、発音された音を連続して認識することで、発話された単語を認識することもできる。

[ 0 0 6 3 1 なお、本実施形態では、母音および撥音の 6つの音から口基本変形単位を作成しているが、 5 0音のすべてについて、口基本変形単位を作成する態様とすることもできる。この場合、日本語には濁音半濁音を含めて、 6 8の音があるので、 6 7 X 6 8の口基本変形単位を用 I,、ることになる。

【0 0 6 4〗次に、本発明の第 4の実施形態について説明する。図 1 9は、本実施形態に係る変化情報認識装置のプロック構成図である。本実施形態に係る変化情報認識装置は、音声変化認識装置として用いることができる。図 1 9に示すように、本実施形態に係る変化情報認識装置 4は、波形解析装置 4 1と、音声波形記憶装置 4 2と、音声情報記憶装置 4 3と、音声変化比較装置 4 4と、を備えている。

【0 0 6 5】波形解析装置 4 1は、図示しな！/、音声取得手段となるたとえばマイクに接続されており、マイクでは、人が発話する際の音声を取得している。マイクは、取得した音声情報 J 4 1を波形解析装置 4 1に出力する。波形解析装置 4 1は、出力された音声情報 J 4 1を、たとえばウェーブレット変換することによって解析する。ゥユーブレット解析によって得られた波形は、音声波形記憶装置 4 2に出力される。音声波形記憶装置 4 2は、出力された波形を記憶する。【0 0 6 6】音声情報記憶装置 4 3は、音声変化単位記憶装置 4 5 A, 4 5 B …を備えている。音声変化単位記憶装置 4 5 A， 4 5 B…には、音声変化単位としてあらかじめ記憶された基本音声変化単位おょぴそれに対応する記号がそれぞれ記憶されている。基本音声変化単位は、発話での任意の音素を発声したときの周波数の波形から別の任意の音素を発声したときの周波数への変化を表している。この基本音声変化単位は、たとえば図 2 O A又は Bに示す周波数スペクトルを有している。図 2 O Aはある音声を発した場合の時刻 t = 1〜 3における周波数スぺクトルを表すグラフ、図 2 0 Bは他の音声を発した場合の時刻 t = 1〜 3における周波数スぺクトルを示すグラフである。各グラフは、横軸に周波数、縦軸に周波数ごとの強度（スペクトルレベル）を対応させている。図 2 O A, Bに示すグラフは、音素から音素への変化を表す例であり、時刻 t = 1〜 3ごとに示されるグラフのそれぞれに対応する音があり、 t = 1の時刻にある音素に対応する音が発せられ、 t = 2の波形を経て t = 3の別の音素に対応する音が発せられたことを示している。

【0 0 6 7〗音声変化比較装置 4 4には、音声波形記憶装置 4 2から音声波形情報が出力され、音声情報記憶装置 4 3から基本音声変化単位およびそれに対応する記号が出力される。音声変化比較装置 4 4では、これらの音声波形情報と基本音声変化単位とを比較することにより、音声を認識する。さらに、音声変化比較装置 4 4は、図示しない出力装置に接続されており、検出した音声変化単位に対応する記号（以下「音声変化単位対応記号」という）情報 J 4 2を出力装置に出力している。

【0 0 6 8】それでは、本実施形態に係る変化情報認識装置 4による変形情報認識方法について説明する。本実施形態に係る変化情報認識装置 4では、マイク等で取得した音声情報 J 4 1をウェーブレツト解析し、音声変化単位を作成する。この音声変化単位を、あらかじめ記憶している基本音声変化単位と比較することにより、音声の変化を認識するものである。たとえば、音声変化情報がマイクから取得され、波形解析装置 4 1に出力されたとする。波形解析装置 4 1では、図 2 1に示すように、音声変化情報を、ある一定のフレーム間隔、たとえば 1 0 m s e cの間隔をおいて、一定のフレーム長、たとえば 3 O m s e cの長さのフレーム長に切り取り、複数の音声変化単位を作成する。図 2 2 A〜Hには、 t l 〜 t 8の時間の 8つに切り取られた音声変化情報から作成された音声変化単位の波形がそれぞれ示されている。

【0 0 6 9】このような音声変化単位の波形を作成したら、これらの音声変化単位と、音声情報記憶装置 4 3に記憶されている図 2 0に示す基本音声変化単位とを比較する。その結果、図 2 2 A〜Hに示す音声変化単位のうちに、図 2 O A 又は Bに示す基本音声変化単位と同一の波形を有する部分があつたときに、基本音声変化単位を表す音声が発声されていると判断することができる。図 2 2に示す例では、図 2 3に示すように、図 2 3 E〜Gの波形（ t = 5〜 7の波形) が、図 2 0 Aに示す波形（ t = 1〜 3の波形) と一致している。したがって、この部分で図 2 O Aに示す基本音声変化単位に対応する音声と同一の音声を発声していることがわかる。このように、音声変化単位と基本音声変化単位とを比較して、一致または類似する部分がある場合に、基本音声変化単位に対応する音声を発声していることがわかる。

【0 0 7 0】続いて、本発明の具体的な変化情報認識方法について説明する。図 2 4は、本実施形態に係る変形情報認識方法の手順を示すフローチヤ一トである。変化情報認識装置 4の波形解析装置 4 1には、図示しないマイク等から取得された音声情報が出力される。波形解析装置 4 1では、これらの音声をウェーブレット解析し、たとえば図 2 2に示す 8つの波形に分割して、 8つのフレームからなる音声変化単位を作成する。波形解析装置 4 1は、作成した音声変化単位を音声波形記憶装置 42に出力する。音声波形記憶装置 42では、これらの音声変化単位を記憶しておく。

【0071】また、音声情報記憶装置 43には、複数の基本音声変化単位が記憶されている。そして、音声波形記憶装置 42は、記憶している音声変化単位を音声変化比較装置 44に出力し、音声情報記憶装置 43は、記憶している基本音声変化単位およびそれに対応する記号を音声変化比較装置 44に出力する。音声変化比較装置 44では、舎声波形記憶装置 42から出力された音声変化単位および音声情報記憶装置 43から出力された基本音声変化単位を比較する。

【0072】両者の比較を行うにあたり、まず、音声変化単位のフレーム番号を表す変数およびその時刻を表す変数を初期化しフレーム f = 1、時刻 t = 1とする（S 41) 。次に、基本音声変化情報を表す変数を初期化して、変化パターン d =lとする (S 42) 。この変化パターンとしては、図 2 OA, Bに示す 2 つの変化パターンを含む複数の変化パターンが記憶されている。その数は音素の数に基づいて定められ、たとえば音素数が nである場合には、変化パターン数を n X (n— 1) とすることができる。

[0073] 次に、変化パターン d = 1における時刻 t (d) = 1の波形と、音声変化単位におけるフレーム f =lの波形の類似度を算出する（S 43) 。その結果、類似度が一定値以上であるか否かを判断し (S 44) 、類似度が一定値以上であると判断したときには、変化パターン d用の記憶領域に、時刻 t (d) の波形が見つかつたこと、見つかった時刻（またはフレーム番号）を記憶する（ S 45) 。そして、次の時刻 t = 2には、 t (d) = 2のパターンを対象とする旨を記憶しておく。それから、変化パターン d= 1における時刻 t (d) = 1に 1を加算して、 t (d) + 1 (=2) とする（S 46) 。それから、すべての変化パターンにおいて、類似パターンが探し終わったか否かを判断する（S 47) 。ここでは、図 20 Bに示す変化パターン d = 2についての処理が終わってないので、類似パターンを探し終わっていないと判断し、次の変化パターンを加算して d+ 1とする（S 48) 。

【0074】こうして、すべての変化パターンについて、類似パターンが探し終わり、ステップ S 47ですベての変化パターンを探し終わったと判断したときには、フレーム f 二 1に 1を加算して、次のフレーム f + 1 (=2) とする（S 49) 。それから、すべてのフレーム f (= 1-8) についての処理が終了したか否かを判断を行う（S 50) 。その結果、処理が終了していないと判断したときには、ステップ S42に戻って、再度変化パターンの初期化を行い、類似度の計算を行う（S43) 。一方、すべてのフレーム f (= 1-8) での処理が終了したと判断したら、変化パターンごとに記憶領域に記憶されている情報から、検出された変化パターンを出力する (S 51) 。このようにして、変化パターンを処理することにより、たとえば図 22に示す音声変化単位から、図 2 OAに示す基本音声変化単位を検出することができる。

【0075〗こうして、音声変化単位が検出されたら、図 25に示す処理を行うことにより、発話の内容を認識することができる。図 25は、本実施形態に係る音声認識の手順を示すフローチャートである。

【0076】図 24に示すフローチャートにしたがって、音声変化単位を検出したら、図 25に示すように、入力された音声変化単位から、この音声変化単位対応記号情報 J 42 (図 1 9) を図示しない出力装置に出力する (S 52) 。出力装置では、音声変化比較装置 44から出力された音声変化単位対応記号情報 J 42を参照し、複数出力される音声変化単位に対応する記号のうち、第 1音声変化単位対応記号と、第 2音声変化単位対応記号が時間的に連続しているか否かを判断する（S 53) 。

【0077】その結果、時間的に連続していないと判断したときには、ステツプ S 52に戻って同様の処理を繰り返す。一方、時間的に連続していると判断したときには、第 1音声変化単位対応記号の終了を表す記号と、第 2音声変化単位対応記号の開始を表す記号が同じであるか否かを判断する（S 54) 。たとえば、第 1音声変化単位対応記号が音素 Aから音素 Bに変化するものであり、第 2音声変化単位対応記号が音素 Bから音素 Cに変化するものである場合には、第 1音声変化単位対応記号の終了を表す記号と第 2音声変化単位対応記号の開始を表す記号とがー致すると判断する。また、たとえば第 1音声変化単位対応記号が音素 Aから音素 Bに変化するものであり、第 2音声変化単位対応記号が音素 Aから音素 Cに変化するものである場合には、第 1音声変化単位対応記号の終了を表す記号と第 2音声変化単位対応記号の開始を表す記号とがー致しないと判断する。

【0 0 7 8】その結果、第 1音声変化単位対応記号の終了を表す記号と第 2音声変化単位対応記号の開始を表す記号とがー致しないと判断した場合には、ステップ S 5 2に戻って同様の処理を繰り返す。一方、第 1音声変化単位対応記号の終了を表す記号と第 2音声変化単位対応記号の開始を表す記号とがー致していると判断したときには、第 1音声変化単位対応記号と第 2音声変化単位対応記号との間繫ぎ目の時間位置と対応する記号を出力する（S 5 5 ) 。上記の例でいえば、第 1音声変化単位対応記号と第 2音声変化単位対応記号の間には音素 Bがあると判断する。

【0 0 7 9】このような処理を繰り返すことにより、発話単語 J 4 3 (図 1 9 ) を認識することができる。

【0 0 8 0】このように、本実施形態に係る変化情報認識装置 4においては、取得した音声を音声変化単位に分割し、基本音声変化単位との比較を行って音声を検出している。このため、発話された単語等を確実に認識することができる。

[ 0 0 8 1 ] 次に、本発明の第 5の実施形態について説明する。本実施形態では、変化情報として、ジヱスチヤ認識、歩行者認識、表情認識のような体の各部位の移動および変形に伴う体変化の認識を対象とする。

【0 0 8 2】図 2 6は、本実施形態に係る変化情報認識装置のプロック構成図である。図 2 6に示すように、本実施形態に係る変化情報認識装置 5は、動画記憶装置 5 1と、体変化情報記憶装置 5 2と、体変化比較装置 5 3と、を備えている。この変化情報認識装置 5は、体変化認識装置、歩行者認識装置、表情認識装置などとして用いることができる。

【0 0 8 3】動画記憶装置 5 1は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる人の体の動画を撮像しており、動画撮像装置は、撮像した動画情報 J 5 1を動画記憶装置 5 1に出力している。

【0 0 8 4】体変化情報記憶装置 5 2は、人の体の動きがとり得るパターンがあらかじめ記憶された複数の体変化単位記憶装置 5 4 A, 5 4 B…を有している。体変化単位記憶装置 5 4 A, 5 4 B…には、人の体の動きを表す基本体変化単位があらかじめ記憶されている。

【0 0 8 5】体変化比較装置 5 3には、動画記憶装置 5 1から体変化単位情報が出力され、体変化情報記憶装置 5 2から基本体変化単位情報が出力される。体変化比較装置 5 3では、これらの体変化単位情報と基本体変化単位情報とを比較することにより、人の体の動きを認識する。さらに、体変化比較装置 5 3は、図示しない出力装置に接続されており、動画記憶装置 5 1から出力された画像上における人の体の位置を体変化単位の位置情報 J 5 2として出力装置に出力する。また、それと同時に、体変化単位に対応する記号情報 J 5 3を出力装置に出力する。出力装置においては、体変化単位の位置情報 J 5 2から口の位置情報 J 5 4 を求め、体変化単位に対応する記号情報 J 5 3力ゝら、体動作の識別情報 J 5 5を求める。

【0 0 8 6】体変化単位記憶装置 5 4 A, 5 4 B…には、人の動きを示す動画に対応した手、足、腕などの変化を示す基本体変化単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。たとえば、図 2 7には、ジエスチャ認識に用いる基本体変化単位の時刻 t = 1〜8における画像の例を示している。図 2 7 A〜Hに示す基本体変化単位の例では、 t = 1の時点で右手を開いた様子を示しており、その手を開いた状態から開始して t = 8の時点でその手を閉じるまでの様子を連続的に示している。【0 0 8 7】本実施形態に係る変化情報認識装置 5においては、上記第 3の実施形態に係る変化情報認識装置 3による変化情報認識方法と同様の方法により、人の体の位置およびその体の動作（体動作）を認識することができる。具体的には、上記第 3の実施形態における口基本変形情報記憶装置 3 2を本実施形態の体変化情報記憶装置 5 2、口変形状態比較装置 3 3を体変化比較装置 5 3に置き換え、図 1 7に示すフローチャートと同様の手順による処理を行うことにより、体変化単位の位置および体動作を認識することができる。

【0 0 8 8】こうして、動画撮像装置から出力された動画像に基づいて、手や腕の位置と、ジエスチヤに対応する記号を得ることができ、その記号からどのようなジエスチヤ指示がなされているかを識別することができる。

【0 0 8 9】また、変化情報認識装置 5により、動画像上における歩行者の位置およびその動作を認識することもできる。図 2 8には、歩行者認識に用いる基本体変化単位の時刻 t = 1〜 1 0における画像の例を示している。図 2 8 A〜 J に示す基本体変化単位の例では、 t = 1の時点における歩行者の姿勢を示しており、その姿勢から開始して t = 1 0の時点における歩行者の姿勢に至るまでの動作を連続的に示している。これら図 2 8 A~ Jに示される歩行者の画像は、体変化情報記憶装匱 5 2における体変化単位記憶装置 5 4 A , 5 4 B…にそれぞれあらかじめ記憶されている。

【 0 0 9 0】図 2 8に示す例では、上記第 3の実施形態に係る変化情報認識装置 3と同様の方法により、人の歩行動作 (体動作) を認識することができる。この場合も、図 1 7に示すフローチャートと同様の手順による処理を行うことにより、体変化単位の位置および体動作を認識することができる。こうして、動画撮像装置から出力された動画像に基づいて、歩行者の位置と、歩行者の動作状況を識別することができる。

【0 0 9 1】また、図示はしないが、本実施形態に係る変化情報認識装置 5により、人の表情の変化を認識することもできる。人の感情には喜怒哀楽があり、人は、それらの感情に応じた表情または無感情な表情をとる。このように、喜怒哀楽および無表情に対応する顔の 5つの画像から、無表情から喜ぴ、怒りから悲しみといった 5 X 4の変化情報単位を用意することにより、動画像における顔の位置およびその顔の表情をも認識することができる。

【0 0 9 2】次に、本発明の第 6の実施形態について説明する。本実施形態では、認識対象物となる物体が回転したとき、回転する物体の位置とその回転に伴う変化を認識の対象とする。

【0 0 9 3】図 2 9は、本実施形態に係る変化情報認識装置のプロック構成図である。図 2 9に示すように、本実施形態に係る変化情報認識装置 6は、動画記憶装置 6 1と、回転情報記憶装置 6 2と、回転物体比較装置 6 3と.、を備えている。この本実施形態に係る変化情報認識装置 6は、回転物体認識装置として用いることができる。

【0 0 9 4〗動画記憶装置 6 1は、図示しない動画撮像装置に接続されている。この動画撮像装置は、認識対象物となる回転する認識対象物、たとえば人の頭の動画を撮像している。この動画撮像装置は、撮像した動画情報 J 6 1を動画記憶装置 6 1に出力している。

【0 0 9 5〗回転情報記憶装置 6 2は、回転する認識対象物の回転パターンがあらかじめ記憶された複数の回転単位記憶装置 6 4 A, 6 4 B…を有している。回転単位記憶装置 6 4 A， 6 4 B…には、認識対象物の回転を表す基本回転単位があらかじめ記憶されている。

【0 0 9 6】回転物体比較装置 6 3には、動画記憶装置 6 1から回転単位情報が出力され、回転情報記憶装置 6 2から基本回転単位情報が出力される。回転物体比較装置 6 3では、これらの回転単位情報と基本回転単位情報とを比較することにより、たとえば人の頭の回転に伴う変化を認識する。さらに、回転物体比較装置 6 3は、図示しない出力装置に接続されており、動画記憶装置 6 1から出力された画像上における人の頭の位置を回転単位の位置情報 J 6 2として出力装置に出力する。また、それと同時に、回転単位に対応する記号情報 J 6 3を出力装置に出力する。出力装置においては、回転単位の位置情報 J 6 2から回転物体である人の頭の位置情報 J 6 4を求め、回転単位に対応する記号情報 J 6 3力、ら、回転の識別情報 J 6 5を求める。

【0 0 9 7】回転単位記憶装置 6 4 A, 6 4 B…には、人の頭の回転を示す動画に対応した頭の向きの変化を示す回転変化単位の形状およびその形状に対応する記号情報がそれぞれ記憶されている。図 3 0 A〜Lは、人形の頭部が回転する際の画像を模式的に示している。このうち、図 3 0 A〜Eに示す 0度から始まつて 1 2 0度に到達するまでの回転を第 1回転、図 3 0 E〜 Iに示す 1 2 0度から始まって 2 4 0度に到達するまでの回転を第 2回転、図 3 0 1 ~ Lを経て図 3 0 Aに戻るまでに示す 2 4 0度から始まって 3 6 0度（0度）に到達するまでの回転を第 3回転とする。逆に、図 3 O Aから始まり、図 3 0 L ~ Iに至るまでに示す 3 6 0度（0度）から始まって 2 4 0度に到達するまでの回転を第 4回転、図 3 0 I〜Eに示す 2 4 0度から始まって 1 2 0度に到達するまでの回転を第 5回転、図 3 0 E〜Aに示す 1 2 0度から始まって 0度に到達するまでの回転を第 6 回転とする。これらの第 1回転から第 6回転までの画像およびそれに対応する記号が、回転単位記憶装置 6 4 A， 6 4 B…にそれぞれ記憶されている。

【0 0 9 8】本実施形態に係る変化情報認識装置 6においては、上記第 3の実施形態に係る変化情報認識装置 3による変化情報認識方法と同様の方法により、回転する認識対象物からなる回転単位の位置およびその回転動作を認識することができる。具体的には、上記第 3の実施形態における口基本変形情報記憶装置 3 2を本実施形態の回転情報記憶装置 6 2、口変形状態比較装置 3 3を回転物体比較装置 6 3に置き換え、図 1 7に示すフローチャートと同様の手順による処理を行うことにより、回転単位の位置およぴ回転動作を認識することができる。【0 0 9 9】こうして、動画撮像装置から出力された動画像に基づいて、回転する認識対象物の位置と、回転単位に対応する記号を得ることができ、その記号からどのような回転状態となっているかを識別することができる。

【0 1 0 0】次に、本発明に第 7の実施形態について説明する。図 3 1は、本実施形態に係る変化情報認識装置のプロック構成図である。図 3 1に示すように、本実施形態に係る変化情報認識装置 7は、学習装置 7 1と認識装置 7 2とを備えている。学習装置 7 1には、特徴空間生成装置 7 3及び射影装置 7 4が設けられている。射影装置 7 4は、学習装置 7 1及び認識装置 7 2の双方で用いられる

【0 1 0 1】学習装置 7 1における特徴空間生成装置 7 3には、あらかじめ用意された学習用系列情報 J 7 1が入力されている。特徴空間生成装置 7 3には、学習用系列情報 J 7 1をサンプル用としてたとえば 3 0程度用意されており、特徴空間生成装置 7 3は、これらの学習用系列情報 J 7 1から特徴空間を生成する ί 0 1 0 2〗射影装置 7 4は、特徴空間生成装置 Ί 3および図示しない動画撮像装置に接続されている。特徴空間生成装置 7 3は、特徴空間を生成するための特徴空間生成情報を射影装置 7 4に出力する。また、図示しない動画撮像装置は、認識対象物となる口を含む顔の動画を撮像しており、撮像された顔の動画像が認識用系列情報 J 7 2として動画撮像装置から出力される。射影装置 7 4は、動画撮像装置から出力された顔の動画像（認識用系列情報 J 7 2 ) に基づいて、この動画像を特徴空間に射影して得られる射影軌跡を生成している。

【0 1 0 3】また、学習装置 7 1には、特徴空間に、後に説明するチューブ状のモデル（以下「ハイパーチューブ」という）を生成するハイパーチュ一ブ生成装置 7 5が設けられており、学習装置 7 1および認識装置 7 2のそれぞれに用いるハイパーチューブ記憶装置 7 6が設けられている。さらに、認識装置 7 2には、特徴空間におけるハイパーチューブの変化を認識する系列比較装置 7 7が設けられている。射影装置 7 4は、ハイパーチューブ生成装置 7 5および系列比較装置 7 7に動画像の射影軌跡を射影軌跡情報として出力する。【0 1 0 4】ハイパーチューブ生成装置 7 5は、射影装置 7 4から出力された動画像の射影軌跡情報から、特徴空間におけるハイパーチューブを生成し、ハイパーチューブ情報としてハイパーチューブ記憶装置 7 6に出力する。ハイパーチユーブ記憶装置 7 6では、ハイパーチューブ生成装置 7 5から出力されたハイパ一チューブ情報と、各ハイパーチューブに対応する記号とを記憶している。また、ハイパーチューブ記憶装置 7 6は、記憶しているハイパーチューブ情報と各ハィパーチューブに対応する記号とを系列比較装置 7 7に出力する。系列比較装置 7 7では、射影装置 7 4から出力された射影軌跡と、ハイパーチューブ記憶装置 7 6から出力されたハイパーチューブ情報とを比較することにより、変化情報単位の位置およびそれに対応する記号を求める。それから、それぞれ変化情報単位位置情報 J 7 3および変化情報対応記号情報 J 7 4として、それぞれ図示しない出力装置に出力する。

【0 1 0 5〗本実施形態に係る特徴空間生成装置 7 3では、画像から所定の特徴量を取り出して特徴空間で表現している。たとえば、 1枚の画像の特徴量が 3 次元ベクトルで表現される場合、 1枚の画像は三次元空間上の 1点として表現される。この前提のもと、たとえば図 3 2に示す「ん」から「あ」を発話する口の動きを示す動画像を入力し、動画像を構成する画像をそれぞれ三次元空間上にプ口ットする。すると、図 3 3に示すように、この動画像を表す 9枚の各画像は、それらの各画像の点をその時間順に結んだ特徴空間上の軌跡として表現される。

[ 0 1 0 6 ] この特徴量は特に限定されるものではないが、たとえば主成分分析によって得られた上位固有値に対応する固有べクトルを基底とする空間（固有空間）への射影成分とすることができる。たとえば、いま、画像をべクトルとみなすと、縦 1 6 X横 1 6画素の濃淡画像は、各要素に濃淡値を持つ 1 6 X 1 6 = 2 5 6次元のベタトルとして表現することができる。そこで、ベクトルとして表現された多数の画像を学習用系列情報 J 7 1とし、これらの学習用系列情報 J 7 1におけるべクトルの分散共分散行列を求め、その固有べクトルと対応する固有値を求める。そして、固有値の値の大きい方から 3つの固有ベクトルを取り出し、これらの 3つのベクトルが張る空間を特徴空間（固有空間）とする。そして、学習用系列情報 J 7 1における 2 5 6次元のべクトルデータを、この特徴空間に射影したときの成分を各軸の値として持つ点を考えると、ある 2 5 6次元空間の 1点として表現できる 1枚の画像は、三次元空間の 1点として表現することができる。

【0 1 0 7】この点について、さらに具体的に説明すると、たとえば学習用系列情報 J 7 1として、図 1 4に示す 3 0パターンの変形単位の動画像を表す複数の画像を複数の人数分用意する。そのうちの 1つのパターンである変形単位、たとえば記号 1 2で表される変形単位の場合では、「あ」を発音したときの口の形から、「い」を発音したときの口の形まで変形する口の形の変形を連続的に数枚の画像で表現する。このような図 1 4に示す 3 0パターンの変形単位について、複数人数分の学習用系列情報 J 7 1を用意し、これらの学習用系列情報 J 7 1から特徴空間（固有空間）を求める。

【0 1 0 8】ここで求められた特徴空間は、学習用系列情報 J 7 1を用いた口画像をより少ない情報量として表現することができる空間となっている。この特徴空間では、見かけ上わずかな違いしかない変形をしている画像は、特徴空間の中では互いに近、位置の点に射影される。

[ 0 1 0 9 ] 次に、ハイパーチューブの生成について説明する。

【0 1 1 0】特徴空間生成装置 7 3で特徴空間が生成された後、射影装置 7 4 には学習用系列情報 J 7 1が出力される。射影装置 7 4では、生成された特徴空間に学習用系列情報 J 7 1を射影して射影軌跡を生成する。図 3 4は、三次元の特徴空間を示しており、この特徴空間に、たとえば「ん」 → 「あ」の変形を示す折れ線、「ん」 → 「い」の変形を示す折れ線、「ん」 → 「う」の変形を示す折れ線、「ん」 → 「え」の変形を示す折れ線、「ん」 → 「お」の変形を示す折れ線が示されている。そして、これらの軌跡（折れ線）を滑らかな曲線として表現する【0 1 1 1】ところで、当然のことながら、同じ音を発している場合でも、人によって口の形は微妙に異なっているし、口の開き方や口の形も微妙に違う。したがって、同じ発話であっても特徴空間に描かれる軌跡はまったく同じものにはならず、適当なばらつきを持っていることになる。たとえば図 3 5に示す曲線では、複数の人（6人）がある発話を行った際の口の動きを特徴空間に射影した際の曲線 C 1〜C 6を示している。これらの複数の曲線 C 1〜C 6に見られるように、特徴空間に描かれる軌跡はまったく同じものにはならず、適当なばらつきを持っている。

【0 1 1 2】そこで、図 3 6に示すように、同じ変形を表す複数の軌跡を代表する曲線 C Cを 1つ設定し、その代表軌跡のまわりのばらつきを円 E 1， E 2 · ·· の半径で表現すると、ちょうどチューブ状のモデルを構成することができる。このチューブ状のモデルをハイパーチューブ H Tとすることができる。

【0 1 1 3〗このハイパーチューブ H Tは、同一の変形を表すものであるが、個人差などによって生じるばらつきを確率的に表現したモデルとであると考えることができる。このハイパーチューブ H Tを生成する際の代表の軌跡 C Cを求めるには、図 3 5に示すような同一の変形を表す複数の軌跡 C 1〜C 6などを平均したものとすることもできるし、別の適当な計算方法を採用することもできる。また、ばらっきを表す円の半径は、代表軌跡上の各点の進行方向とは垂直の方向にある各軌跡上の点までの距離の分散 σ ²を求めた上でそのばらつきを正規分布とみなして 9 5 %点である 1 . 9 6 σを半径とすることもできるし、他の方法を用いて求めてもよい。

【0 1 1 4】こうして生成したハイパーチューブ Η Τを特徴空間上に 1つまたは複数配置しておく。複数のハイパーチューブ Η Τを配置した場合、 1つのハイパーチューブは 1つの変形に対応することになる。図 3 7に複数のハイパーチューブを配置した特徴空間を示すが、たとえばハイパーチューブ Η Τ 1はある変形 A、たとえば発話時の「あ」から「い」への変形を表し、ハイパーチューブ H T 2は、別の変形 B、たとえば発話時の「う」から「え」への変形を表している。図 3 7中では、ハイパーチューブは H T 1 , H T 2の 2つが存在している。図中の a , b， cは、射影装置 7 4から出力された動画像の射影軌跡情報に相当する。

【0 1 1 5】続いて、本実施形態に係る変化情報認識装置 7による変化情報認識方法について説明する。ここでは、まず、ハイパーチューブを生成する手順について説明する。図 3 8は、本実施形態に係る変化情報認識方法のうち、ハイパ一チューブを生成する手順を示すフローチャートである。学習装置 7 1には、あらかじめ多くの変化情報を学習させてハイパーチューブを生成させる。認識装置 7 2では、そのハイパーチューブを利用して、変化情報の認識を行う。ハイパーチューブを生成するための学習用系列情報 J 7 1となる動画像はある音を発音したときの口の形から、別の音を発音したときの口の形への変形を連続して時間順に並べたものである。これを一つの変形単位とすると、認識したいすべての変形分の学習用系列情報 J 7 1を複数人数、たとえば 3 0 0人分それぞれの変化分について用意する ( S 7 1 ) 。変化単位のパターン数は、図 1 4に示したとおり 3 0パターンが必要である。このパターン数は、認識する対象と認識の詳細さによつて適宜規定することができる。たとえば、変化情報認識装置 7を音声認識装置として用いて音声認識を行う場合、音素の数が 2 9であれば、とり得る変形のパターンは 2 9 X 2 8の 8 1 2パターンとなる。

【0 1 1 6】次に、 3 0 0人分用意した学習用系列情報 J 7 1から、特徴空間生成装置 7 3を用いて特徴空間を生成する（S 7 2 ) 。特徴空間の生成は次のように行われる。一般に、画像の画素ごとの色や濃淡値をそのまま扱おうとすると、情報量が多すぎて計算時間が掛かり過ぎたり、認識には不必要な余計な情報が含まれていたりするために、これらのことが問題となることが多い。そこで、画像から何らかの特徴量を取り出して処理をすることが一般的である。本実施形態では、画素ごとの濃淡値を特徴量として利用する。いま、 1枚の画像の画素数を nとすると、上記のとおり、濃淡画像の場合には画素ごとの濃淡値（特徴量）を要素として持つ n次元のベタトルとして表現することができ、それは n次元空間上の 1点として表される。ここで、画像から取り出された特徴量が m次元べタトルで表されるとし、； m< nであるならば、 n次元の情報量を持つ 1枚の画像は、特徴量抽出により m次元に圧縮され、 m次元空間上の 1点として表すことができる。特徴空間生成装置 73では、この m次元の空間を張る m本の軸を求める。本実施形態では、 3本の軸を求めて 3次元空間を生成した場合について説明する。【011 7】特徴空間を求めるにはさまざまな方法があるが、本実施形態では、固有空間を特徴空間としている。固有空間とは、主成分分析により求められた固有べクトルと固有値のペアのうち、固有値大きい方から m個の固有べクトルカ S 張る空間をいう。 1枚の画像を n次元のベクトルとみなし、ここではその画像のベタトルを Xと示す。固有空間を求めるには、最低 2枚の画像のベクトルが必要であるが、画像が多量にあることが望ましい。これらの複数の画像におけるそれぞれのベクトル Xを入力して分散共分散行列を、下記 (1) 式によって算出する

【0 1 1 8】 S = E { (x-m_x) (x— m_x) ^T} ■ · · (1)

ここで、 m_xは、複数のベタトル Xの平均べクトルで、 m_x = E{x}と定義される。

【01 1 9】次に、（2) 式に示す固有値問題を解く。

【0120】 S Uj =え · · · (2)

上記（2) 式において、求めるべき固有空間の次元を m次元とすると、固有値の大きさを比較し、大きい方から m個の固有値に対応する固有ベクトル {uい u ₂, . · ·， u_m}によって張られる空間が特徴空間となる。本実施形態では、 3 次元の固有空間を生成する（m=3) ので、固有ベクトル {uい u₂, u₃}から 3次元の固有空間を生成する。【0121】こうして特徴空間を生成したら、射影装置 74には、学習用系列情報 J 71が出力されるとともに、特徴空間生成装置 73から特徴空間生成情報である固有ベクトル u (={u_1; u₂， · ■ · , uj) が出力される。射影装置 74では、動画像を特徴空間に射影して得られる射影軌跡を生成する。この射影軌跡としては、上記固有べクトル uを利用し、学習用系列情報 J 71の画像における n次元べクトル Xを下記（3) 式によって変換されてなる m次元特徴べクトル yを用いることができる。

【0122】 y = {uい u ₂, ■ · -， u_m}^Tx · · · (3)

上記のように、本実施形態では、 m= 3としているので、 3次元特徴べクトル yとする。

【0123】こうして特徴空間および 3次元特徴べクトルを生成したら、特徴空間生成装置 73は特徴空間をハイパーチューブ生成装置 75に出力し、射影装置 74は、 3次元特徴べクトルをハイパーチューブ生成装置 75に出力する。ハィパーチューブ生成装置 75では、出力された特徴空間および 3次元特徴べクトルに基づいて、ハイパーチューブを生成する。ハイパーチューブを生成する前提として、 1枚の画像は 3次元特徴空間上の 1点に射影されることになるので、一連の変形を表す画像列はその 3次元特徴空間上の点の軌跡として表すことができる。ここで、学習用系列情報 J 71が、複数の変形単位ごとに用意されているので、射影装置 74からは、学習用系列情報 J 71の数に対応する複数の 3次元特徴べクトル列が出力される。ハイパーチュープ生成装置 75では、これらの複数の 3次元特徴べクトル列を、射影前の学習用系列情報 J 71における変形単位ごとに分類する（S 73) 。続いて、射影前の学習用系列情報 J 71における変形単位ごとに分類された 3次元特徴べクトル列を、それらの変形単位ごとに特徴空間にプロットする、変形単位の数に対応した複数の軌跡を求める（S 74) 。これらの軌跡は、たとえば図 35に示す曲線 C 1〜C 6で表される。

【0 1 24】こうして、特徴空間における複数の軌跡を求めたら、これらの複数の軌跡を代表する代表軌跡を求める（S 75) 。代表軌跡は、様々の方法により求めることができるが、ここでは得られる複数の軌跡の平均を採用する方法について説明する。いま、各軌跡は同一の種類の変形を表す軌跡であるので、特徴空間上ではおおむね似た軌跡を描く。しかし、同一の種類の変形を表す場合でも、その系列を構成する 3次元特徴ベクトルの数と配置は同じとは限らない。いま

、特徴空間に 3次元特徴べクトルをプロットした点をつないで形成した 3つの軌跡の例を図 39に示す。図 39に示す例では、同一の変形を示す 3つの軌跡 C 1 1〜C 1 3を示しており、軌跡 C 1 1は、特徴空間にプロットされた 6つの点 P 1 1〜P 1 6をつないで形成されている。これに対して、軌跡 C 12は、特徴空間にプロットされた 5つの点 P 21〜P 25を、軌跡 C 1 3は、特徴空間にプロットされた 5つの点 P 31〜P 35をそれぞれつないで形成されている。

[0 1 25] そこで、各軌跡が同数の点から構成されるように、各軌跡 C 1 1 〜C 1 3上の点をプロットし直す再設定を行う。各軌跡 C 1 1〜C 1 3上の点をプロットし直す方法としては、スプライン曲線法などのさまざまな方法があるが、ここでは、単純に軌跡 C 1 1〜C 1 3を、それぞれが同じ距離比率となるように設定する。そのため、図 40に示すように、各軌跡 C 1 1〜C 1 3をそれぞれ 7つの点から構成されるように、点を配置しなおしている。こうして、軌跡 C 1 1上には点 P 41〜Ρ 47、軌跡 C 1 2上には点 Ρ 51〜Ρ 57、軌跡 C 1 3上には点 Ρ 6 1-P 67がそれぞれ配置された形になる。

[01 26] そして、これらの各軌跡 C 1 1〜 C 1 3について、それぞれ順番が対応する点の座標値の平均を算出し、この座標値の平均にあたる点をそれぞれプロットして、これらの点をつなぎ合わせる。具体的には、軌跡 C 1 1における点 Ρ 41、軌跡 C 12における点 Ρ 51、軌跡 C 13における点 Ρ 61の座標の平均値を計算して、点 Ρ 71の座標を算出する。同様に、点 Ρ42， Ρ 52, Ρ 62の座標から点 Ρ 72の座標、点 Ρ 43， Ρ 53, Ρ 63の座標から点 Ρ 73 の座標、点 Ρ 44， Ρ 54, Ρ 64の座標から点 Ρ 74の座標を算出する。また、点 P45, P 55, P 65の座標から点 P 75の座標、点 P 46 , P 56 , P 66の座標から点 P 76の座標、点 P47， P 57, P 67の座標から点 P 77 の座標をそれぞれ算出する。こうして求められた各点 P 71〜P 77をつなぎ合わせることにより、代表軌跡 CCを生成することができる。

【0127】こうして、代表軌跡を求めたら、代表軌跡の各点について、その周囲の軌跡までの距離の分散を求める（S 76) 。この分散は、代表軌跡 CC上の各点 P 71〜P 77における代表軌跡 CMの進行方向と直交する方向に超平面を仮定し、この超平面と各軌跡 C 11〜C 1 3とが交差した点との距離の分散によって求めることができる。なお、本実施形態では 3次元空間の例を示しているので、超平面ではなく二次元の平面であるが、説明の容易のため、以降も超平面と記述する。この点について、図 41を用いて説明すると、代表軌跡 CM上の点 P 72における代表軌跡 CMの進行方向と直交する超平面 S P 2を仮定する。この超平面 S P 2と、各軌跡 C 1 1〜C 1 3とが交差する各点 P 42 A, P 52 A ， P 53 Aを求める。そして、点 P 72と点 P 42 Aとの距離、点 P 72と点 5 2 Aとの距離、および点 P 72と点 62 Aとの距離の分散を求める。そして、この分散を、たとえば下記 (4) 式に示す関数における引数 Xに代入する。

【0128】 ί (χ) = 1. 96 (x) ^{1 2} ■ · · (4)

なお、ここで用いた係数の 1. 96は、係数の一例である。

【0129】そして、図 42に示すように、この（4) 式における引数 Xとして求めた ί ( χ ) を入力した値を半径とする円 Ε 2を超平面 S Ρ 2上に設定する。また、代表軌跡 CC上におけるその他の各点 Ρ 71、 Ρ 73〜Ρ 77についても、同様の処理によって超平面 S Ρ 1， S P 3〜SP 7を求め、その上に図 36 に示すような円 E l， E 3〜E 7を求める。こうして、分散を引数とした関数の値を半径とする円 E 1〜E 7を各点 P 71~P 77に設定して（S 77) 、これらの円 E 1〜E 7をつなげることにより、図 36に示すようなハイパーチューブ HTを生成することができる。【0 1 3 0】このようにしてハイパーチューブを生成した後に、認識処理を行うことができるようになる。続いて、ハイパーチューブを用いた変化認識の処理について説明する。図 4 3は、本実施形態に係る変化情報認識方法の手順を示すフローチヤ一トである。

【0 1 3 1】まず、図示しない動画像撮像において、認識対象物となる人の口を含む顔の動画像を撮像し、認識用系列情報として射影装置 7 4に出力する。射影装置 7 4においては、入力された動画像に対して、適当な大きさのウィンドウを設定する（S 8 1 ) 。ウィンドウを設定したら、このウィンドウに合わせて、出力された動画像の一部を切り取る（S 8 2 ) 。このようにして動画像の一部を切り取ることにより、ウィンドウの大きさに切り取られた動画を得ることができる。続いて、切り取ったウィンドウの大きさを適宜拡大縮小し、最終的に動画の大きさを学習用画像（学習用系列情報 J 7 1作成する際に用いる画像）の大きさに合わせる ( S 8 3 ) 。こうして、大きさを調整されたウィンドウにおける動画を、特徴空間生成装置 7 3で生成した特徴空間上に、ハイパーチューブを作成したのと同様の手順によって、その軌跡として写像し、入力系列軌跡を生成する（ S 8 4 ) 。こして生成した入力系列軌跡は、系列比較装置 7 7に出力される。また、系列比較装置 7 7には、ハイパーチューブ記憶装置 7 6に記憶されている複数のハイパーチューブおよびそのハイパーチューブに対応する記号が出力される【0 1 3 2】系列比較装置 7 7では、射影装置 7 4から出力された入力系列軌跡およびハイパーチューブ記憶装置 7 6から出力されたハイパーチューブを比較し、両者の適合度を求める（S 8 5 ) 。両者の適合度は次のようにして求めることができる。上述のように、ハイパーチューブ H Tは、同一の変形に対して生じる個体差を確率的に表現したモデルである。このモデルは、代表軌跡 C C上の各位置についてそのばらつきを円の半径で表現した確率密度関数とみなすことができるので、入力系列軌跡とハイパーチューブとの適合度は、確率として計算することができる。図 44 Aは、ある変形を表すハイパーチューブ HTおよび入力系列軌跡 I Lの軌跡を合わせて示したものである。ここで、ハイパーチューブ HT は、代表軌跡 CCを有している。ハイパーチューブ HTが示す変形単位は、ハイパーチューブ HT内の進行方向により 2種類、正反対の変形を考えることができる。ここでは矢印 Yの方向に沿った変形単位であるとすると、図 44 Bに示すように、ハイパーチューブの開始点を 0、終了点を 1とする横軸上に、代表軌跡 C じからの距離を横軸とするグラフに対応付けすることができる。このグラフは、ちょうどハイパーチューブを水平に引き伸ばしたものとみなすことができる。【0 1 3 3】ここで、代表軌跡 CC上の位置 Xにおけるハイパーチューブの半径を定義域 0≤ χ≤ 1に対する関数 p (x) とし、代表軌跡 CC上の位置 Xからの入力系列軌跡 I Lに対する距離を f ( X ) とすると、ハイパーチューブ i と入力系列の適合度 S iは下記（5) 式で表すことができる。 f ん、ヽ

Si dx (5)

0

(5) 式において、 N (。， D (x) は、平均 0、分散 1の正規確率密度関数とする。上記 (5) 式により、入力系列軌跡 I Lと、ハイパーチューブ HTとの適合度を求めることができる。

【0 1 34】このような適合度を複数のハイパーチューブ HTに対して求め、全てのハイパーチューブ HTと入力系列軌跡 I Lとの適合度との計算が終了したか否かを判断し（S 8 6) 、終了していない場合には、ステップ S 8 5に戻って他のハイパーチューブ HTと入力系列軌跡 I Lとの適合度を計算する。一方、すベてのハイパーチューブ HTに対して適合度を計算したら、その入力系列軌跡 I Lとの適合度が所定のしきい値より大きいハイパーチューブ HTを選択し（S 8 7) 、そのハイパーチューブ HTおよびそれに対応する記号を記憶しておく。

【0 1 3 5】入力系列は、入力動画をウィンドウに合わせて切り取つたものであるので、ウィンドウを移動あるいは拡大縮小し、入力動画における他の部分についても同様の一連の処理を繰り返す。そのため、入力動画の全ての領域について、上記の処理を行ったか否かを判断する（S 8 8 ) 。その結果、いまだ処理されていない領域がある場合には、切り取り用のウィンドウを移動または拡大縮小し（S 8 9 ) 、ステップ S 8 2に戻って、同様の処理を繰り返す。一方、すべての領域での処理が終了したと判断したときには、選択されたハイパーチューブ H Tに対応する変化情報対応記号情報 J 7 4 (図 3 1 ) およびそのときのウィンドゥの変化情報単位位置情報 J 7 3を図示しない出力装置に出力する（S 9 0 ) 。このようにして、学習用系列情報からハイパーチューブを生成し、それを特徵空間に配置して入力系列との適合度を計算することにより、入力動画像中における認識対象物の位置と変形の種別を検出することができる。

[ 0 1 3 6 ] なお、本実施形態において、ある動画像を入力すると、その動画像は特徴空間上の軌跡としてあらわされることになるが、その軌跡と各ハイパーチューブとの評価値を計算する手段を備えることにより、入力された軌跡の全部または一部がある一定値以上（または一定値以下）の評価値を持つ場合、その中で最も評価値が高い（または低い）ハイパーチューブに対応する変形を認識する態様とすることができる。

[ 0 1 3 7 ] また、本実施形態においては、学習用系列情報から求めたハイパ一チューブにより、口の動きから発話を認識する態様について説明した力 s、他の変形情報に対しても同様のハイパーチューブを生成した変形認識を行うことができる。たとえば、変化情報が音声取得手段から取得された音声変化である場合、「あ」 → 「い」、「あ」 → 「う」への周波数の変化をハイパーチューブで表すことができる。変化情報が動画像撮像手段で撮像された動画中におけるジエスチヤの変化である場合、手を閉じた状態から開いた状態への変化をハイパーチューブで表すことができる。変化情報が動画像撮像手段で撮像された歩行者の歩行状態の変化である場合には、 1回の歩行動作における変形をハイパーチューブで表すことができる。さらに、変化情報が動画像撮像手段で撮像された表情の変化である場合、無表情から喜びの表情への変化をハイパーチューブで表すこともできる。変化情報が動画像撮像手段で撮像された回転物体の変化である場合には、顔の向きが 0度の状態から 9 0度の状態に変化する際の変化をハイパーチューブで表すことができる。

【0 1 3 8】次に、本発明に第 8の実施形態について説明する。

【0 1 3 9】図 4 5は、本実施形態に係る変化情報認識装置のプロック構成図である。図 4 5に示すように、本実施形態に係る変化情報認識装置 8は、上記第 7の実施形態と比べて、軌跡の連続性保存装置 8 8および部分系列切り取り装置 8 9が設けられている点において主に異なる。

【0 1 4 0】連続性保存装置 8 8には、ハイパーチューブにおける代表軌跡に相当する軌跡の連続性が保存されている。軌跡の連続性は、軌跡の変化量が、所定のしきレヽ値以下となっているか否かによって判断され、所定のしさレヽ値以下のときに連続性があると判断する。連続性保存装置 8 8には、部分系列切り取り装置 8 9が接続されており、部分系列切り取り装置 8 9には、連続性保存装置 8 8 に保存された軌跡の連続性が連続性保存装置 8 8から出力される。

【0 1 4 1〗次に、本実施形態に係る変化情報認識方法について説明する。本実施形態に係る変化情報認識方法においては、上記第 7の実施形態と同様、学習用系列情報が学習装置 8 1に出力される。学習装置 8 1では、出力された学習用系列情報 J 7 1から特徴空間生成装置 8 3において特徴空間を生成し、ハイパーチューブ生成装置 8 5においてハイパーチューブを生成し、生成されたハイパーチューブをハイパーチューブ記憶装置 8 6が記憶する。

【0 1 4 2】一方、認識装置 8 2においては、図示しない動画像撮像手段によつて撮像された動画に基づく情報が出力される。この情報として、上記第 7の実施形態では、認識用系列情報が出力されたが、本実施形態では、この点については異なる。本実施形態では、図示しない動画像撮像手段によって撮像された動画像からなる入力系列情報 J 8 2を、部分切り取り装置 8 9によって部分系列情報 J 8 3に切り取る。ここで、部分系列切り取り装置 8 9には、軌跡の連続性が出力されており、部分系列切り取り装置 8 9では、この軌跡の連続性に基づいて入力系列情報 J 8 2を切り取り、部分系列情報 J 8 3を生成する。

【0 1 4 3】ここで、たとえば上記第 7の実施形態では、入力動画の一部をゥインドウに合わせて切り取るにあたり、図 4 6に示すように動画を構成する一定時間の間、切り取るウィンドウを動かすことについては想定されていないものである。このことは、変形している物体が画像中で静止していることを前提としているものであるので、認識対象物が画像内で移動してしまうと、認識対象物を検出できなくなってしまうおそれがある。実際のシーンでは、認識対象物は移動していることも少なくなく、このような場合には対応できないことになつてしまう

【0 1 4 4〗これに対して、本実施形態に係る変化認識方法では、軌跡の変化の連続性に対応させて、動画像の部分系列情報を形成するように、入力系列情報を切り取つている。認識対象物が移動していたとして、図 4 7 Aに示すように、ウィンドウ Wが正しく認識対象物となる口 Mを追跡できていたとすると、図 4 7 Bに示すように、特徴空間に射影される射影軌跡 Cは特定のハイパーチューブ H Tと適合度が高く、かつ特徴空間内において滑らかな曲線を描く。また、通常のテレビ信号程度のフレームレート (たとえば 3 0 H z ) があれば、シーンに写る物体の移動は隣接したフレーム間ではわずかであり、変化もあまり急激でない。このため、通常、追跡されるウィンドウ Wの位置の変化も滑らかな軌跡を描くことになる。

【0 1 4 5】したがって、特徴空間内におけるハイパーチューブの軌跡の連続性と、入力系列情報におけるウィンドゥ Wの移動軌跡の連続性が同時に満たされるようにウィンドウ Wを移動させることにより、変形しながら移動する口 Mを検出 '追跡し、その変形の様子も同時に検出することができる。こうして、部分系列情報 J 8 3を生成し、部分系列情報を射影装置 8 4に出力する、射影装置 8 4 では、部分系列情報 J 8 3を特徴空間に射影して部分系列の軌跡情報 J 8 4を生成し、系列比較装置 8 7に出力する。系列比較装置 8 7では、射影装置 7 4から出力された部分系列の軌跡およびハイパーチューブ記憶装置 7 6から出力されたハイパーチューブを比較し、両者の適合度を上記第 7の実施形態と同様の方法によって求める。そして、上記第 7の実施形態と同様にして選択されたハイパーチユーブ H Tに対応する記号情報 J 8 6およびそのときのウィンドウの位置情報 J 8 5を図示しない出力装置に出力する。このようにして、動画像中の認、識対象物の位置と変形の種別を検出することができる。

[ 0 1 4 6 ] このように、本実施形態に係る変化認識方法においては、軌跡の連続性を保存する連続性保存手段を設けたので、動画像中で移動する認識対象物の変形およびその位置を確実に認識することができる。

[ 0 1 4 7 ] なお、上記実施形態における図 1および図 1 2では、実施形態の説明を容易にするために、人の口を例にして説明したが、物体の変形を伴うものであれば容易に他のものにも容易に適用することができる。

【0 1 4 8】以上のとおり、本発明によれば、認識対象物の変化状態を正確に認識して、たとえば人の話す言葉などを認識することができるようにした変化情報認識装置および変化情報認識方法を提供することができる。

産業上の利用可能性

【0 1 4 9】本発明は、口の動きや口から発せられる音声、または人の動作など、認識対象物の変化状態を認識する変化情報認識装置および変化情報認識方法に利用することができる。

Claims

請求の^ S囲

1 . 認識対象物の変化情報を取得する変化情報取得手段と、

前記認識対象物の基本的な変化状態を基本変化情報としてあらかじめ記憶する基本変化情報記憶手段と、

前記変化情報取得手段で取得された前記認識対象物の変化情報と、あらかじめ記憶された前記基本変化情報とを比較して、前記認識対象物の変化状態を認識する変化状態比較手段と、

を備えることを特徴とする変化情報認識装置。

2 . 前記基本変化情報記憶手段が、前記認識対象物の変化状態を基本単位に分割した変化情報単位として前記基本変化情報を記憶している請求の範囲第

1項に記載の変化情報認識装置。

3 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であり、

前記変化情報が、前記撮像手段によって取得した画像における発話に伴う口周辺の画像変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記載の変化情報認識装置。

4 . 前記変化情報取得手段が、前記認識対象物が発生する音を取得する集音手段であり、

前記変化情報が、前記集音手段によつて取得した前記認識対象物が発生する音の周波数成分変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記載の変化情報認識装置。

5 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であり、

前記変化情報が、前記撮像手段によって取得した画像における前記識対象物の動きに伴う画像変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記載の変化情報認識装置。

6 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であり、

前記変化情報が、前記撮像手段によって取得した画像における前記認識対象物の回転に伴う画像変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記載の変化情報認識装置。

7 . 前記基本変化情報が、特徴空間上の情報の系列として設定された基本変化系列情報であり、

前記変化情報取得手段によつて取得した前記認識対象物の変化系列情報を前記特徴空間へ射影して射影変化情報を作成する変化情報射影装置をさらに備え、前記変化状態比較手段が、前記認識対象物の変化情報と前記基本変化情報との比較に代えて、前記射影変化情報と前記基本変化系列情報とを比較して、前記検出象物の変化状態を認識する請求の範囲第 1項または第 2項に記載の変化情報認

8 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であり、

前記変化情報記憶手段が、前記基本変化系列情報を前記特徴空間上のチューブ状の領域としてあらかじめ記憶しており、

前記変化状態比較手段が、前記変化情報取得手段によつて取得した連続する複数枚の画像によって定義される前記認識対象物の変化状態を前記特徴空間上の線状の射影軌跡として把握し、前記チューブ状領域と前記射影軌跡とを比較して前記認識対象物の変化状態を認識する請求の範囲第 7項に記載の変化情報認識装置

9 . 前記変化状態比較手段は、前記基本変化系列情報の連続性と、前記射影変化情報の連続性とを比較することにより、前記認識対象物の変化状態を認識する請求の範囲第 7項または請求の範囲第 7項に記載の変化情報認識装置。

1 0 . 前記変化情報取得手段で取得された前記認識対象物の変化情報に基づいて、前記基本変化系列情報を作成する学習手段をさらに備える請求の範囲第 7項または請求の範囲第 9項に記載の変化情報認識装置。

1 1 . 認識対象物の変化情報を取得する変化情報取得工程と、前記認識対象物の基本的な変化状態を基本変化情報としてあらかじめ記憶する基本変化情報予備記憶工程と、

前記変化情報取得工程において取得した前記認識対象物の変化情報と、あらかじめ記憶された前記基本変化情報とを比較して、前記認識対象物の変化状態を認、識する変化状態比較工程と、

を備えることを特徴とする変化情報認識方法。

1 2 . 前記基本変化予備記憶工程で、前記認識対象物の変化状態を基本単位に分割した変化情報単位を前記基本変化情報としてあらかじめ記憶しておく請求の範囲第 1 1項に記載の変化情報認識方法。

1 3 . 前記変化情報取得工程において取得する変化情報が前記認識対象物を撮像した画像に関する情報であり、かつ、前記基本変化情報予備記憶工程において予め記憶される基本変化情報も画像に関する情報であり、前記変化状態比較工程において、前記変化情報及び前記基本変化情報の画像に関する情報を比較して前記認識対象物の変化状態を認識する請求の範囲第 1 1項に記載の変化情報認識方法。

1 4 . 前記変化情報取得工程において取得する変化情報が前記認識対象物が発生する音に関する情報であり、かつ、前記基本変化情報予備記憶工程において予め記憶される基本変化情報も音に関する情報であり、前記変化状態比較ェ程において、前記変化情報及び前記基本変化情報の音の周波数成分を比較して前記認識対象物の変化状態を認識する請求の範囲第 1 1項に記載の変化情報認識方法。