JPWO2007138885A1

JPWO2007138885A1 - 運動データのデータベースの構造および設計法、データベースシステム

Info

Publication number: JPWO2007138885A1
Application number: JP2008517839A
Authority: JP
Inventors: 中村　仁彦; 仁彦中村; 山根　克; 克山根; 渉高野
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2006-05-26
Filing date: 2007-05-18
Publication date: 2009-10-01
Also published as: WO2007138885A1

Abstract

蓄積されている運動データを簡易に再利用する。データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる。

Description

本発明は、蓄積された運動データの利用に係り、詳しくは、運動データベース構造、運動データベースの検索、生成に関するものである。

ヒューマノイドロボットやＣＧキャラクタにヒトと同じような自然な動きを行わせる手段としてモーションキャプチャデータは有用である。映画やゲームのためのＣＧ製作では、多くの運動データを取得するが、それらの再利用は考えられてこなかった。

モーションキャプチャによって必要な運動データの計測を重ねるにしたがい、計測された運動データの数が膨大になる。このような膨大なキャプチャデータは、計測された日時等の情報に基づいた分類により管理されているため、必ずしもキャプチャデータの再利用に適した形でデータベース化されている訳ではない。

また、過去にモーションキャプチャにより計測された運動パターンデータを再利用する際、従来は、予め計測者がキャプチャデータの運動パターン等の説明を記載し、その説明文からキーワード検索などを用いて再利用したい運動データを探す必要があった。そのため、計測者の説明文記載ミスや説明不足などにより、運動データの説明文に表れていない運動データを見つけ出すことができない場合が生じる。さらには、運動データには存在しない運動が必要な場合は、過去のキャプチャデータは利用不可能であり、新たにキャプチャ試験を行う必要がある。

したがって、人間の運動データが蓄積されている場合に、それらを分類、検索、再生、合成できれば有益であり、蓄積されている運動データを簡易に再利用することを可能とするシステムの構築が望まれている。

本発明が採用した第１の技術手段は、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、を有し、各ファイルに格納されている時系列の運動データは、シンボル系列として認識されている、データベース構造、である。一つの好ましい態様では、各ファイルにシンボルのインデックス系列を用いたラベル付けがなされている。

一つの好ましい態様では、各シンボルは、言語と対応付けられている。シンボルと言語との対応付けには、「１シンボル−１単語」、「１シンボル−複数単語（単語列）」、「複数シンボル（シンボル系列）−１単語」、「複数シンボル（シンボル系列）−複数単語（単語列）」が含まれ得る。シンボルと言語の対応付けは、翻訳モデルにより行うことができる。

本発明が採用した第２の技術手段は、ファイルに含まれる時系列運動データを分節化して時系列の運動パターンデータを取得するステップと、各運動パターンを代表する各シンボルを用いた運動認識を行うことで、前記運動パターンデータをシンボルの系列として認識するステップと、からなるデータベース設計法、である。

一つの好ましい態様では、前記シンボルはＨＭＭであり、前記運動認識ステップは、各ＨＭＭが、前記時系列運動パターンデータを出力する確率を算出するステップと、前記時系列運動パターンデータに対して前記確率が最大となるＨＭＭを時系列運動パターンデータの認識結果とするステップと、からなる。また、一つの好ましい態様では、前記時系列の運動パターンデータを説明する言語と、前記シンボルの時系列とを対応付けることで、シンボル系列あるいは各シンボルに言語説明を付与するステップを含む。

本発明が採用した第３の技術手段は、データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報が前記出力部から出力される、データベースシステム、である。

一つの好ましい態様では、入力部には、シンボルあるいはシンボル列が入力され、処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、出力部は、検索されたファイルを出力する。また、一つの好ましい態様では、入力部には、サンプル運動時系列データが入力され、処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、出力部は、検索されたファイルを出力する。

一つの好ましい態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、シンボルあるいはシンボル列が入力され、処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。また、一つの態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、サンプル運動時系列データが入力され、処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。

本発明が採用した第４の技術手段は、データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、データベースシステム、である。

一つの好ましい態様では、入力部には、言語が入力され、処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、出力部は、検索されたファイルを出力する。

一つの好ましい態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、言語が入力され、処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。

本発明が採用した第５の技術手段は、データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、データベースシステム、である。これは、第４の技術手段において、「時系列の運動データを格納したファイル群」を用いないでシステムを動作させる場合に相当する。したがって、以下の第５の技術手段の好ましい態様は、第４の技術手段にも適用することが可能である。

また、一つの好ましい態様では、入力部には、サンプル運動時系列データが入力され、処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に対応する言語を検索し、出力部は、検索された言語を出力する。

上記の技術手段において、言語を入力あるいは／および出力するものにおいては、入出力される言語は、１単語あるいは複数単語（単語列）である。

上記の技術手段において、「ファイルの出力」には、ファイル名（ファイルのインデックス）を出力するもの、ファイルに格納された運動パターンを再生するもの、が含まれる。

上記の技術手段において、一つの好ましい態様では、前記システムは、表示部を有し、出力が、前記表示部に表示される。

上記の技術手段において、一つの好ましい態様では、前記各シンボルはＨＭＭである。また、シンボル群において、各シンボルを類似度にしたがってクラスタリンクしておけば、入力されたシンボルあるいはシンボル系列と同一のシンボルあるいはシンボル系列のみならず、それに類似したシンボルあるいはシンボル系列を探索することができる。

また、上記データベースシステムの実行は、検索したファイルを出力するものは「ファイル検索法」ないし「運動データ検索法」、運動データを生成するものは「運動データ生成法」として特定することも可能である。また、上記データベースシステムは、コンピュータから構成することができ、上記データベースシステムの実行やデータベースの設計法を、コンピュータ読み取り可能なプログラムとして特定することも可能である。

本発明では、各ファイルに格納されている時系列の運動データを、シンボル系列として認識することで、ファイルの検索を容易にする。例えば、必要な運動パターンに対応するシンボルを入力とし、入力されたシンボルと同じ運動認識結果を出力するキャプチャデータを検索・再生することができる。サンプルの運動パターンの認識を行い、その認識結果に基づき、サンプル運動データに近い運動データの検索・再生することができる。また、認識結果のシンボルから統計的に運動データを生成することが可能である。

シンボルに自然言語説明を付与するものでは、シンボルが自然言語とある関係性を持つことによって、シンボルを言語として認識でき、提案システムの容易な感覚的理解、それに伴う操作性の向上が期待される。キャプチャデータを保存したファイルにラベル付けされたシンボルの時系列と、人によってそのファイルに含まれる運動を説明した単語の系列と、から、シンボルから単語へのマッピングを確率的に表現することが可能となる。このことによって、オペレータからの入力単語に基づいてシンボルを用いたキャプチャデータの検索や、逆にキャプチャデータを説明する単語系列を、シンボルを介して出力することができ、単語による人にとって分かり易いインターフェースが可能となる。また、ファイルに存在しないような連続した複数の運動パターンから成る運動データが必要な場合、自然言語とシンボルの関係から必要とする運動データの自然言語による入力を原始シンボルの系列に変換する。出力されたシンボル系列から、このようなシンボルに対応するキャプチャデータもしくはシンボルから統計的に生成される運動データを用いて新しい運動を作成することが可能である。

本発明は、蓄積されている運動データを自動的に分類し、必要に応じた運動データの検索を助け、過去の運動データの再生と合成を可能にするものであり。多様な運動データのライブラリ化とその有効利用を可能にする。

［Ａ］運動パターンの分節化
モーションキャプチャにて計測した運動データ（各関節の３次元座標もしくは関節角度の時系列データ）に関して、頻繁に出現する時系列データのまとまりを各運動パターンとして境界付けることによって運動データの分節化を行う。一連の連続したキャプチャ運動データに対して、自動にて運動パターンの境界を判定、運動の分節化が可能となる。

［Ａ−１］ＨＭＭを用いた運動パターンの記号列化
人間の一連の運動時系列データＯを一定の時間幅の観測データ時系列ｏ毎に区切りＯ＝｛ｏ_１，ｏ_２，．．，ｏ_ｍ｝と表現する。この観測データｏ_ｉに対して下位のｋ番目ＨＭＭの尤度Ｐ（ｏ_ｉ｜λ_ｋ）を計算する。ここで、ＨＭＭは，状態の集合Ｑ＝｛ｑ_１，．．．ｑ_ｎ｝、状態ｑ_ｉから状態ｑ_ｊへの遷移確率ａ_ｉｊの集合である状態遷移確率行列Ａ＝｛ａ_ｉｊ｝、状態ｑ_ｉでのベクトルxを出力する確率分布の集合Ｂ、および初期状態確率の集合π＝｛π_ｉ｝の４組の集合λ＝｛Ｑ，Ａ，Ｂ，π｝によって表される。観測データｏ_ｉに対して最大尤度を出力するＨＭＭを選び出すことによって、観測データ時系列をＨＭＭの記号列表現に変換する。図１は、観測データをＨＭＭ記号列に変換する概略図を表す。なお、最大尤度を出力するＨＭＭは、入力となる観測データｏ_ｉに対してＥＭアルゴリズムによって逐次最適化される。

［Ａ−２］相関学習
運動データから変換されたＨＭＭ記号列は、ある運動パターン内において統計的規則があると考えられる。本実施形態では、前後の記号列の関係に着目し、その関係性を相関学習によって獲得する。ｘ（ｔ）´は、下位ＨＭＭと同数の要素数を持つ列ベクトルであり、観測データｏ_ｔに対して第ｋ番目のＨＭＭが選択された場合、第ｋ番目の要素が１、他の要素を０とする。しかし、ベクトルは時刻ｔの運動データ情報のみしか持たないため、過去の履歴情報も含めた記号列ベクトルx（ｔ）を以下のように定義する。

ここで、Ｔは行列の転置を表す。ｘ（ｔ−１）を入力パターン、ｘ（ｔ）を出力パターンと見なすことによって、相関行列をＷ_０＝ｘ（ｔ）ｘ（ｔ−１）^Ｔと表すことができる。入力パターンｘ（ｔ−１）と出力パターンｘ（ｔ）が直交関係をみたすならば、入力パターンから予測した出力パターンＷ_０ｘ（ｔ−１）が実測の出力パターンｘ（ｔ）と等しくなり、相関行列により正確に次の記号列を想起できることを示唆する。また、入力パターンと出力パターンが互いに直交関係を満たさない場合においても、想起される出力パターンは実出力パターンと近い値をとることが期待される。ここでは、逐次学習を行うために以下のように相関行列ｗ（ｔ）を算出する。

ただし、α、ηは、各々安定化係数、学習係数を表す。

［Ａ−３］運動パターンの境界判定
ある運動パターン内において、現時刻の動きと次の動きの間にはある程度の相関があると考えられるので、その特定の運動パターン内おいて次の動きが、現在の動きおよび過去の履歴から予測できると思われる。しかし、ある運動パターンから他の運動パターンに遷移する場合は、過去の履歴情報から次の動きを予測することは困難である。この観点から現在のパターンベクトルｘ（ｔ）と予測パターンベクトルＷ（ｔ−１）ｘ（ｔ−１）との誤差Ｅ（ｔ）を計算する。

この誤差を不確実性とみなし、不確実性が大きくなるところを運動パターンの切り替わる境界と判定することによって運動パターンの分節化を行う。

このように一定時間幅の運動時系列データを下位のＨＭＭの記号に変換、圧縮することによって運動パターンを記号列として表現する。変換された記号列から相関行列を獲得し、記号列の出現規則を学習する。獲得した規則が不明瞭な時点が運動パターンの境界と定義づけることによって行動の分節化を行う。さらに、分節化された運動データから上位のＨＭＭを学習することで原始シンボルを取得することができる。運動パターンの文節化の詳細については、高野渉、中村仁彦、統計的相関に基づく動作パターンの分節化、人工知能学会全国大会予稿集、 3F1-02、2005、を参照することができる。

［Ｂ］原始シンボルの取得
原始シンボルとは、キャプチャデータを文節化して得られた各運動パターンを抽象化・情報圧縮したモデルである。たとえば、「歩く」運動パターンを学習したＨＭＭが「歩く」原始シンボル、「投げる」運動パターンを学習したＨＭＭが「投げる」原始シンボルと定義される。原始シンボルの取得については、［Ｅ−１−１］に記載する。特許請求の範囲においては、原始シンボルを単にシンボルと表現している。

［Ｃ］キャプチャデータ検索・再生
モーションキャプチャによって取得された運動データのデータベースについて図２に基づいて説明する。データベースは、時系列の運動データを格納したファイル群（Capture Data 1, 2, 3, …N）と、各運動パターンを抽象化・情報圧縮してなる原始シンボル群(λi,λj,λk,λl,λm,λn,…)と、を有し、各ファイルに格納されている時系列の運動データは、原始シンボル系列として認識されている。例えば、あるファイルが「歩いてから手を挙げてスクワットする」という運動データを格納している場合には、当該ファイルは、「歩く」，「手を挙げる」，「スクワットする」に対応する３個の原始シンボルの系列により認識され、「原始シンボルa, 原始シンボルf, 原始シンボルt」のようにラベル付与される。

このようなデータベースの設計は次のようにして行われる。ファイルに格納された時系列の運動データを分節化して、運動パターンごとに区切り、切り取られた運動パターンに対して原始シンボルを用いて運動認識を行う。この分節化、認識過程を通じて各ファイルに原始シンボルのインデックス系列を用いたラベル付けができる。

より詳しくは、データベースの設計は以下のようなステップで行われる。
（１）キャプチャファイルiに含まれるキャプチャデータを分節化して切り取られた時系列データＯ^ｉ _ｋ(k=1,2,…K)とする。Kは各ファイルの中のキャプチャデータを分節化して得られる運動パターンの数である。
（２）各ＨＭＭ（原始シンボル）が時系列データＯ^ｉ _ｋを出力する確率P(Ｏ^ｉ _ｋ|λ_ｊ) (j=1,2,…n)を計算する。nはＨＭＭの総数である。
（３）キャプチャデータＯ^ｉ _ｋに対して確率P(Ｏ^ｉ _ｋ|λ_ｊ)が最大となるHMMλ^ｉ _ｋをキャプチャデータＯ^ｉ _ｋの認識結果とする。
（４）認識結果に基づいて、各キャプチャファイルiに原始シンボルインデックスのラベル｛λ^ｉ _１，λ^ｉ _２，．．．，λ^ｉ _ｋ｝をつける。

原始シンボルのインデックスから、ある特定の原始シンボルの運動パターンを含むかどうか調べることによって必要とするキャプチャ運動データを検索することが可能となる。

サンプルの運動パターンに対して、原始シンボルによって確率統計的に運動パターン認識を行い、サンプル運動パターンと同じ原始シンボルを認識結果として出力するキャプチャ運動データを探索することによってサンプル運動パターンに近い運動データの検索・再生を行う。すなわち、サンプル運動パターンを、原始シンボルを用いて運動認識することよってそのキャプチャデータから原始シンボルのインデックスが出力される。その出力された原始シンボルインデックスと同じラベル名をもつファイルを探索することによって、サンプル運動パターンの運動と類似した生のキャプチャデータを求めることができる。キャプチャデータの検索は、キャプチャデータOtが与えられた場合、このOtを各HMMが生成する確率を計算し、確率が最大となるHMMλ_ｌを求める。このＨＭＭλ_ｌをラベル名に含むキャプチャファイルを検索ことによって、与えられたキャプチャデータOtに類似したキャプチャデータを見つけ出すことができる。

さらに、サンプル運動パターンに対応する原始シンボルから直接統計論に基づき運動パターンを生成することもできる。ある運動パターンデータ（マーカーの時系列データ）が入力された場合、入力データに最もマッチした原始シンボル(ＨＭＭ)を検出する。検出は、確率が最大のHMMを選択することである。この検出されたＨＭＭから確率統計論に基づいて運動パターンデータを出力することが運動パターンの生成である。確率統計に基づくデータの出力は以下の通りである。
ＨＭＭは複数のノードと各ノードの間を遷移する確率および各ノードの中の確率分布から構成される。
（１）確率的にノードの遷移を求める。
（２）（１）での遷移に基づいたノードからデータを確率的に出力する。これによりHMMからある運動データ（時系列）が出力される。
（１）（２）を繰り返して複数の運動データを出力しそれらを平均化して１つの運動データを出力する。
より具体的に説明すると以下のとおりである。
先のＨＭＭλ_ｌから運動を生成することによってOtが属する運動パターンクラスの代表的な運動を得ることができる。ＨＭＭからの運動生成は次に示す。
Step1：HMMのノード間の遷移確率に基づいたノード遷移系列Q’={q1’,q2’,…qt’}を求める。
Step2：Step1をｍ回行い各試行毎のノード遷移系列Q1’,Q2’,…Qm’を求める。
Step3：Q1’,Q2’,…Qm’を離散的に平均化して平均ノード遷移系列Q={q1,q2,…qt}を求める。
Step4：qk (k=1,2,…，t)の中に存在する正規分布に従って時系列データOg’={o1,o2,…ot}を生成する。
Step5： step４をr回行い得られたOg1,Og2,…Ogrを平均化してOg得られる。
以上より求められたOgをHMMλ_ｌから生成される運動データである。

尚、サンプル運動パターンを用いたキャプチャデータの認識・運動データの検索・再生およびシンボルからの運動生成は、モーションキャプチャシステムとリアルタイムで連動させたオンラインシステムとして実現可能である。

［Ｄ］原始シンボルの言語化
オペレータがキャプチャデータに付けた運動パターンの名称（自然言語）と前述の原始シンボルの時系列データの対を用いて、運動パターン名称と原始シンボル間の翻訳モデルを構築する。翻訳モデルを構築することによって、原始シンボルに言語的説明が付与されるため、本発明に係る装置の操作性向上が期待できる。

先述のキャプチャファイルiに付けられた原始シンボルラベル{λ^ｉ _１，λ^ｉ _２，．．．λ^ｉ _ｋ}と人の手によってファイルに保存されたキャプチャデータの説明文（運動パターン名を表す単語の系列）{motion word^ｉ _１，motion word^ｉ _２，．．，motion word^ｉ _ｋ}の対応関係を学習したのが言語モデルであり、言語モデルは原始シンボルλから単語motion word(後述する［Ｅ］ではωと記載)が生成される確率t(ω｜λ)、文長Kのシンボルラベルにおけるi番目のシンボルが文長Lの単語列におけるj番目の単語に対応する確率a(i|j,K,L)によって表現される。尚、図３のmotion wordとλの間の実線がこの対応確率a(i|j,K,L)を示している。また、シンボルλ_ｌが出現する確率はその直前のシンボルλ_ｋにのみ依存するbigramモデルによってシンボル生起モデルを学習する。上記の言語モデル、シンボル生起モデルから単語列Ωが入力されたとき、確率が最大となるシンボル系列Λを求めることによって、単語をシンボルに変換して運動を生成することができる。尚、図３下半分のmotion wordおよびλ下矢印人型キャラクタの動きの断片図が単語を入力して動きを生成することを示唆している。また、シンボルと単語の逆の対応関係を学習することによってシンボルから単語への変換も可能なため、キャプチャ運動データに対して自動的に単語のラベル付けを行うことができる。

また、ある運動パターンから他の運動パターンへ遷移するような連続する複数の動作データから構成される運動データが必要だが、キャプチャデータファイルに、要求されているような一連の運動データが存在しない場合がある。しかし、翻訳モデルにおいて自然言語文法、シンボルレベルにおけるある文法・規則が埋め込まれているために、複数の運動名を入力することによって、その入力に対して適切なシンボル系列を算出し、算出したシンボルからキャプチャ運動データもしくは統計的に原始シンボルから生成される運動を利用することによってオペレータに新しい運動を提示することができる。翻訳モデルは、「言語モデル」、「シンボル生起モデル」によって表現されている規則を備えている。「言語モデル」には、「原始シンボル」の系列が与えられた時、その系列中の各「原始シンボル」から「単語」へのマッピングを表現する確率的ルールが埋め込まれている。「シンボル生起モデル」は、ある「原始シンボル」の次にどの「原始シンボル」が出現するかを確率的に表現したルールが埋め込まれている。

［Ｅ］運動パターンデータベースの構築
本発明の一つの好ましい形態として、オペレータとのインターフェースに言語を用いる運動パターンデータベースの構築について説明する。
言語処理能力を有するデータベースを構築することは、言語入力に対応するシンボルに基づくキャプチャデータ探索、一連の運動データの生成、運動パターンの合成等による多様な運動データの抽出および新たに計測したキャプチャデータの認識・言語化を通じたクラスタリング、
データ整理等様々な利用法が期待される。

［Ｅ−１］運動表象に基づく言語の獲得
［Ｅ−１−１］自己組織的運動表象の獲得
人は、一連の行動を観察したとき、ある意味のある行動単位ごとに分節化し、切り取られた運動データに対して学習を行うことによって運動パターンの表象を獲得すると考えられる。本実施形態でのミメシスモデルも、人と同様に運動パターンの分節化、分節化した運動パターンを用いた自律的運動表象の獲得を行う。
運動データの分節化は、頻繁に出現する運動パターンは、ひとつの意味のある運動単位であるという仮定に基づき行われる。分節化された運動パターンに対して、ＨＭＭの競合学習により自己組織的に運動表象を形成する。自己組織的とは、自動的に分節化した運動データを分類しＨＭＭに学習させる過程を通じて原始シンボルが獲得できることを意味する。すなわち、分節化された運動パターンを表現する時系列データＯ_ｋに対して各ＨＭＭの尤度を計算する。最大尤度を出力するＨＭＭλ_Ｒは、運動データＯ_ｋを教師信号として最適化される。

ＨＭＭは時系列データを入力としたときに、どのカテゴリに属するかを決定する確率モデルである。ＨＭＭは、ノードの集合Ｑ＝｛１，２，．．．，ｎ｝、ノードｉからノードｊへの遷移確率ａ_ｉｊの集合Ａ＝｛ａ_ｉｊ｝、各ノードにおいてベクトルｘを出力する確率分布の集合Ｂおよび各ノードの初期状態確率π_ｉのΠ＝｛π_ｉ｝の４組の集合λ＝｛Ｑ，Ａ，Ｂ，Π｝によって表させる、また、ｑはノード遷移系列、Ｅは期待値、λ´_Ｒは最大尤度を出力するＨＭＭの最適化前のＨＭＭパラメータ集合を表す。また、ＨＭＭの最適化Baum-Welchアルゴリズムを用いる。式(１)(２)に示すように、長時間の運動データに対するＨＭＭの逐次競合学習を通じて各ＨＭＭは似た運動データを抽象化することになるため、これらＨＭＭを原始シンボルとみなす。

［Ｅ−１−２］言語モデル
人の運動をモーションキャプチャにて計測する。計測した一連の運動データＯを分節化し、原始シンボルを用いた運動認識を行うことによって、運動の時系列データを原始シンボルの系列Λに変換する。

オペレータも同様に運動時系列データを単語の時系列Ω＝｛ω_１，ω_２，．．ω_ｍ｝に変換する。運動時系列を変換した原始シンボル時系列と他者であるオペレータによる単語時系列の対応関係を、ＩＢＭ翻訳モデルを用いて求める。ＩＢＭ翻訳モデルの詳細については、P.F. Brown, S.A.D. Pietra, V.J.D. Pietra, R.L. Mercer: “The Mathematics of
Statistical Machine Translation: Parameter Estimation”, Computational
Linguistics, Vol. 19、 no.2, pp. 263-311, 1993を参照することができる。ＩＢＭ翻訳モデルは、順番に少しずつ複雑になるモデル１からモデル５まで提案されているが、本実施形態ではモデル２を採用する。翻訳モデル２は、単語ｅが単語ｆへ翻訳される確率ｔ(ｆ｜ｅ)、原言語での文長ｌの文ｅにおける位置ｉの単語が目的言語での文長ｍの文ｆにおける位置ｊの単語への接続する対応付け確率ａ(ｉ｜ｊ，ｍ，ｌ)によって構成される。ここでは、原始シンボルλから単語ωが想起される単語想起確率を翻訳確率を用いてｔ（ω｜λ）と見なすことにより、翻訳モデルを言語モデルとして適用した。言語モデルは、キャプチャ運動データの集合{Ｏ_ｉ}を観察した際、原始シンボル時系列Λ^（ｉ）＝｛λ^（ｉ） _ｊ｝の運動認識結果が得られた場合、オペレータが同じ運動データに対してΩ^（ｉ）＝｛ω^（ｉ） _ｋ｝と認識する確率を評価値Ψとして、評価値を最大化するようにパラメータ推定をおこなうことによって獲得する。最適値は、ＥＭアルゴリズムにより求めることができる。

ここで、式（７）の原始シンボルから単語への写像は、シンボルの時系列に依存して言語の単語数が決定、ｊ−１番目までの単語列ω_１ ^{（ｊ−１）}と接続先ａ_１ ^{（ｊ−１）}に基づいてj番目の単語の接続するシンボル位置ａ_ｊが決定、ｊ−１番目までの単語列ω_１ ^{（ｊ−１）}とj番目までの単語の接続先ａ_１ ^（ｊ）に基づいてj番目の単語ω_ｊが決定という考えに基づいている。

［Ｅ−１−３］言語モデルに基づく運動生成
言語入力Ωからシンボル時系列Λ（ハット）への写像に関して、Ｐ（Λ｜Ω）を最大にするシンボル列を直接求めるとシンボル間のつながりが考慮されていないため、適切でないシンボル列が出力される問題がある。そこで、シンボル間の出現規則を記述したシンボル生起モデルＰ（Λ）を導入する。シンボル生起は、そのシンボル直前Ｎ−１個の事象だけに依存するN-gramモデルによって表現する。本論文では、Ｎ＝２であるbigramを適用する。bigramモデルによるシンボル列Λ＝｛λ１，λ２，．．．，λｌ｝の生起確率は、

によって求められる。また、式(８)の右辺のシンボル生起確率は、教師データにおける相対頻度から学習される。

ここで、Ｃ（^＊）はシンボル列の出現頻度を表す。
シンボル生起モデルと言語モデルを適用することによって、言語入力Ωからシボル系列Λ（ハット）を求める。

式（１０）により、自然な順序でシンボルが出現する可能性が高くなる。

式（１０）に表現される、シンボル生起確率と言語モデル確率の積を最大にするシンボル列Λを探索する方法として、Ａ^＊サーチ法を用いる。Ａ^＊サーチ法の詳細については、伊庭斉志、探索のアルゴリズムと技法、サイエンス社、2002、を参照することができる。Ａ^＊サーチ法は、ノードとエッジから成る木構造を利用した知識（ヒューリスティック）に基づく探索方法である。すなわち、ゴールへの到達が期待されるノードを先に展開することによって最適パスの探索時間が低減される。以下に本実施形態におけるＡ^＊アルゴリズムの手順を示す。

［ステップ１］
ノードＮ個を持つことのできる集合をＯＰＥＮとする。シンボル列長ｌ、シンボル列のｌ´番目まで決まっているシンボル列をノードＮ（ｌ´，ｌ）とする。

また、各ノードの評価関数は、

とする。

［ステップ２］
シンボル列長がｌ＝１，２，．．．，Ｌの各ノードＮ（０，１）を初期状態とする。各ノードの評価値を求め、集合ＯＰＥＮに加える。集合ＯＰＥＮは、評価値が大きい順番にノードが並べられているものとする。

［ステップ３］
ＯＰＥＮから先頭のノードを取り除く。取り除かれたノードＮ（ｌ´，ｌ）に対してｌ´＋ｌ番目のシンボルの候補として全シンボルを当てはめ各々の評価値を求める。このようにシンボルを追加したノードを新たにＯＰＥＮに追加する。その後ステップ２に戻る。取り出されたノードＮ（ｌ´，ｌ）が、これ以上シンボルを追加出来ない（ｌ´＝ｌ）場合、ＯＰＥＮから取り除かず、ステップ４に進む。

［ステップ４］
ＯＰＥＮの先頭ノードのシンボル列を式（１０）を満たすシンボル列とする。

求められたシンボル列からの運動生成については、各シンボルに対応するＨＭＭを直列につなぎ合わせたＨＭＭから確率統計論に基づき運動時系列を作成する。ここで、原始シンボルＨＭＭ間でのノード遷移確率を１に設定する（図８参照）。

［Ｅ−２］運動パターンデータベース構築
人の行動を光学式モーションキャプチャ（サンプリング周期３３ｓ）にて計測する。５３７通りの人の運動データを２０自由度のキャラクタに基づく逆運動学を通じて、ボディーの並進速度、高さ、ロール、ピッチ、ヨーおよびボディローカル座標における左右肘関節、膝関節、手先、足先のデカルト座標、合計３０次元の時系列{Ｏ_ｉ：ｉ＝１，２，３，．．．，５３７}に変換する。全運動データの合計時間は、４０８８ｓである。各運動データは、オペレータにより６４の単語{ω_ｋ：ｋ＝１，２，３，．．．，６４}を用いて単語時系列に変換されているものとする。例えば、「左バッターが打って走る」という運動データに対して”left-swing-run”ラベル付けする。

まず、各運動データ{Ｏ_ｉ}をランダムな順に長時間観察をしながら競合学習をすることによって、９９の原始シンボル{λｊ：ｊ＝１，２，３，．．．９９}を獲得した。

原始シンボルを獲得した後、運動データＯ_ｉを順に観察したときの原始シンボルに基づく認識結果Λ^（ｉ）とオペレータによる単語列Ω^（ｉ）のセット｛Λ^（ｉ），Ω^（ｉ）：ｉ＝１，２，３，．．．，５３７｝から言語モデルの最適化を行う。図６は、学習回数に対する式（６）によって求められる尤度の変化を示している。ただし、最適化の精度を高めるためモデル１における最適化を行った後、モデル２の最適化手順を行うことによりパラメータ推定を行っている。図６から、尤度が学習を重ねるに従い大きくなり収束していくことが確認でき、原始シンボルと単語の対応付け関係が獲得されていると考えられる。

獲得した言語モデルおよび認識結果{Λ^（ｉ）}により求められるシンボル生起モデルから、言語入力に適応するシンボル列の導出を行った。図７は、入力left-swing runおよびhead-sliding stand-up
right-throw-pose standingに対応する原始シンボル列を探索し、その原始シンボルから生成される一連の運動を表している。入力に対して適切な運動が生成されていることから、言語モデル、シンボル生起モデルが適切に獲得されていると考えられる。また、探索アルゴリズムについてＡ^＊サーチと全探索に関する計算コストを比較した。ただし、Ａ^＊サーチにおける集合ＯＰＥＮの要素であるノードの数は１００、全探索において最大のシンボル列長をＬ＝５とした。表１から＊サーチを用いることによって平均探索時間が０．４１ｓであり、全探索の場合に比べて計算コストが低減されていることがわかる。尚、Ａ^＊サーチと全探索による求められた解の一致度は７４％であった。

モーションキャプチャにて計測した運動データを用いた自律的運動表象の獲得および人の言語使用とのインタラクションから運動パターンに基づく言語モデルを提案し、提案したモデルを適用した運動データベースの一設計法について検討した。提案したデータベースを用いて、オペレータの言語入力に対して適切な運動表象の選択、表象からの運動生成が可能であることを確認し、データベースが視覚的にわかり易いインターフェースを提供できることを示した。

本発明は、コンピュータグラフィックスのみならず、スポーツ科学、リハビリテーション、医療分野においても利用可能である。

観測データ時系列を、ＨＭＭ記号列に変換する概略図である。本発明に係るデータベース構造の概略図である。図２において、λ：ＨＭＭインデックスである。言語モデルを伴うデータベース構造の概略図である。図３において、MotionWord：オペレータがキャプチャデータに付けた運動パターンの名称である。本発明に係るデータベースシステムの概略図である。Ａ^＊サーチ手法を示す概略図である。学習回数に対する式（６）によって求められる尤度の変化を示す図である。言語入力に対して生成された２つの運動パターンを示す図である。ＨＭＭ同士の連結を示す概略図である。

Claims

時系列の運動データを格納したファイル群と、
各運動パターンを代表するシンボル群と、を有し、
各ファイルに格納されている時系列の運動データは、シンボル系列として認識されている、
データベース構造。
各ファイルにシンボルのインデックス系列を用いたラベル付けがなされている、請求項１に記載のデータベース構造。
各シンボルは、言語と対応付けられている、請求項１，２いずれかに記載のデータベース構造。
シンボルと言語の対応付けは、翻訳モデルによるものである、請求項３に記載のデータベース構造。
ファイルに含まれる時系列運動データを分節化して時系列の運動パターンデータを取得するステップと、
各運動パターンを代表する各シンボルを用いた運動認識を行うことで、前記運動パターンデータをシンボルの系列として認識するステップと、
からなるデータベース設計法。
前記シンボルはＨＭＭであり、
前記運動認識ステップは、
各ＨＭＭが、前記時系列運動パターンデータを出力する確率を算出するステップと、
前記時系列運動パターンデータに対して前記確率が最大となるＨＭＭを時系列運動パターンデータの認識結果とするステップと、
からなる請求項５に記載のデータベース設計法。
前記時系列の運動パターンデータを説明する言語と、前記シンボルの時系列とを対応付けることで、シンボル系列あるいは各シンボルに言語説明を付与するステップを含む、請求項５，６いずれかに記載のデータベース設計法。
データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、
前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、
前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報が前記出力部から出力される、
データベースシステム。
入力部には、シンボルあるいはシンボル列が入力され、
処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、
出力部は、検索されたファイルを出力する、
請求項８に記載のデータベースシステム。
入力部には、サンプル運動時系列データが入力され、
処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、
出力部は、検索されたファイルを出力する、
請求項８に記載のデータベースシステム。
前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
入力部には、シンボルあるいはシンボル列が入力され、
処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを生成し、
出力部は、生成された運動パターンを出力する、
請求項８に記載のデータベースシステム。
前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
入力部には、サンプル運動時系列データが入力され、
処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、
出力部は、生成された運動パターンを出力する、
請求項８に記載のデータベースシステム。
前記各シンボルはＨＭＭである、請求項８乃至１２いずれかに記載のデータベースシステム。
データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、
前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、
前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、
データベースシステム。
入力部には、言語が入力され、
処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、
出力部は、検索されたファイルを出力する、
請求項１４に記載のデータベースシステム。
前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
入力部には、言語が入力され、
処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、
出力部は、生成された運動パターンを出力する、
請求項１４に記載のデータベースシステム。
前記各シンボルはＨＭＭである、請求項１４乃至１６いずれかに記載のデータベースシステム。
データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、
前記データベースは、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、
前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、
データベースシステム。
前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
入力部には、言語が入力され、
処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、
出力部は、生成された運動パターンを出力する、請求項１８に記載のデータベースシステム。
入力部には、サンプル運動時系列データが入力され、
処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に対応する言語を検索し、
出力部は、検索された言語を出力する、
請求項８に記載のデータベースシステム。
前記システムは、表示部を有し、
出力が、前記表示部に表示される、請求項８乃至２０いずれかに記載のデータベースシステム。