JPWO2007138885A1 - 運動データのデータベースの構造および設計法、データベースシステム - Google Patents

運動データのデータベースの構造および設計法、データベースシステム Download PDF

Info

Publication number
JPWO2007138885A1
JPWO2007138885A1 JP2008517839A JP2008517839A JPWO2007138885A1 JP WO2007138885 A1 JPWO2007138885 A1 JP WO2007138885A1 JP 2008517839 A JP2008517839 A JP 2008517839A JP 2008517839 A JP2008517839 A JP 2008517839A JP WO2007138885 A1 JPWO2007138885 A1 JP WO2007138885A1
Authority
JP
Japan
Prior art keywords
symbol
motion
input
data
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008517839A
Other languages
English (en)
Inventor
中村 仁彦
仁彦 中村
山根 克
克 山根
渉 高野
渉 高野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Publication of JPWO2007138885A1 publication Critical patent/JPWO2007138885A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

蓄積されている運動データを簡易に再利用する。データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる。

Description

本発明は、蓄積された運動データの利用に係り、詳しくは、運動データベース構造、運動データベースの検索、生成に関するものである。
ヒューマノイドロボットやCGキャラクタにヒトと同じような自然な動きを行わせる手段としてモーションキャプチャデータは有用である。映画やゲームのためのCG製作では、多くの運動データを取得するが、それらの再利用は考えられてこなかった。
モーションキャプチャによって必要な運動データの計測を重ねるにしたがい、計測された運動データの数が膨大になる。このような膨大なキャプチャデータは、計測された日時等の情報に基づいた分類により管理されているため、必ずしもキャプチャデータの再利用に適した形でデータベース化されている訳ではない。
また、過去にモーションキャプチャにより計測された運動パターンデータを再利用する際、従来は、予め計測者がキャプチャデータの運動パターン等の説明を記載し、その説明文からキーワード検索などを用いて再利用したい運動データを探す必要があった。そのため、計測者の説明文記載ミスや説明不足などにより、運動データの説明文に表れていない運動データを見つけ出すことができない場合が生じる。さらには、運動データには存在しない運動が必要な場合は、過去のキャプチャデータは利用不可能であり、新たにキャプチャ試験を行う必要がある。
したがって、人間の運動データが蓄積されている場合に、それらを分類、検索、再生、合成できれば有益であり、蓄積されている運動データを簡易に再利用することを可能とするシステムの構築が望まれている。
本発明が採用した第1の技術手段は、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、を有し、各ファイルに格納されている時系列の運動データは、シンボル系列として認識されている、データベース構造、である。一つの好ましい態様では、各ファイルにシンボルのインデックス系列を用いたラベル付けがなされている。
一つの好ましい態様では、各シンボルは、言語と対応付けられている。シンボルと言語との対応付けには、「1シンボル−1単語」、「1シンボル−複数単語(単語列)」、「複数シンボル(シンボル系列)−1単語」、「複数シンボル(シンボル系列)−複数単語(単語列)」が含まれ得る。シンボルと言語の対応付けは、翻訳モデルにより行うことができる。
本発明が採用した第2の技術手段は、ファイルに含まれる時系列運動データを分節化して時系列の運動パターンデータを取得するステップと、各運動パターンを代表する各シンボルを用いた運動認識を行うことで、前記運動パターンデータをシンボルの系列として認識するステップと、からなるデータベース設計法、である。
一つの好ましい態様では、前記シンボルはHMMであり、前記運動認識ステップは、各HMMが、前記時系列運動パターンデータを出力する確率を算出するステップと、前記時系列運動パターンデータに対して前記確率が最大となるHMMを時系列運動パターンデータの認識結果とするステップと、からなる。また、一つの好ましい態様では、前記時系列の運動パターンデータを説明する言語と、前記シンボルの時系列とを対応付けることで、シンボル系列あるいは各シンボルに言語説明を付与するステップを含む。
本発明が採用した第3の技術手段は、データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報が前記出力部から出力される、データベースシステム、である。
一つの好ましい態様では、入力部には、シンボルあるいはシンボル列が入力され、処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、出力部は、検索されたファイルを出力する。また、一つの好ましい態様では、入力部には、サンプル運動時系列データが入力され、処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、出力部は、検索されたファイルを出力する。
一つの好ましい態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、シンボルあるいはシンボル列が入力され、処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。また、一つの態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、サンプル運動時系列データが入力され、処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。
本発明が採用した第4の技術手段は、データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、データベースシステム、である。
一つの好ましい態様では、入力部には、言語が入力され、処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、出力部は、検索されたファイルを出力する。
一つの好ましい態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、言語が入力され、処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。
本発明が採用した第5の技術手段は、データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、前記データベースは、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、データベースシステム、である。これは、第4の技術手段において、「時系列の運動データを格納したファイル群」を用いないでシステムを動作させる場合に相当する。したがって、以下の第5の技術手段の好ましい態様は、第4の技術手段にも適用することが可能である。
一つの好ましい態様では、前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、入力部には、言語が入力され、処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、出力部は、生成された運動パターンを出力する。
また、一つの好ましい態様では、入力部には、サンプル運動時系列データが入力され、処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に対応する言語を検索し、出力部は、検索された言語を出力する。
上記の技術手段において、言語を入力あるいは/および出力するものにおいては、入出力される言語は、1単語あるいは複数単語(単語列)である。
上記の技術手段において、「ファイルの出力」には、ファイル名(ファイルのインデックス)を出力するもの、ファイルに格納された運動パターンを再生するもの、が含まれる。
上記の技術手段において、一つの好ましい態様では、前記システムは、表示部を有し、出力が、前記表示部に表示される。
上記の技術手段において、一つの好ましい態様では、前記各シンボルはHMMである。また、シンボル群において、各シンボルを類似度にしたがってクラスタリンクしておけば、入力されたシンボルあるいはシンボル系列と同一のシンボルあるいはシンボル系列のみならず、それに類似したシンボルあるいはシンボル系列を探索することができる。
また、上記データベースシステムの実行は、検索したファイルを出力するものは「ファイル検索法」ないし「運動データ検索法」、運動データを生成するものは「運動データ生成法」として特定することも可能である。また、上記データベースシステムは、コンピュータから構成することができ、上記データベースシステムの実行やデータベースの設計法を、コンピュータ読み取り可能なプログラムとして特定することも可能である。
本発明では、各ファイルに格納されている時系列の運動データを、シンボル系列として認識することで、ファイルの検索を容易にする。例えば、必要な運動パターンに対応するシンボルを入力とし、入力されたシンボルと同じ運動認識結果を出力するキャプチャデータを検索・再生することができる。サンプルの運動パターンの認識を行い、その認識結果に基づき、サンプル運動データに近い運動データの検索・再生することができる。また、認識結果のシンボルから統計的に運動データを生成することが可能である。
シンボルに自然言語説明を付与するものでは、シンボルが自然言語とある関係性を持つことによって、シンボルを言語として認識でき、提案システムの容易な感覚的理解、それに伴う操作性の向上が期待される。キャプチャデータを保存したファイルにラベル付けされたシンボルの時系列と、人によってそのファイルに含まれる運動を説明した単語の系列と、から、シンボルから単語へのマッピングを確率的に表現することが可能となる。このことによって、オペレータからの入力単語に基づいてシンボルを用いたキャプチャデータの検索や、逆にキャプチャデータを説明する単語系列を、シンボルを介して出力することができ、単語による人にとって分かり易いインターフェースが可能となる。また、ファイルに存在しないような連続した複数の運動パターンから成る運動データが必要な場合、自然言語とシンボルの関係から必要とする運動データの自然言語による入力を原始シンボルの系列に変換する。出力されたシンボル系列から、このようなシンボルに対応するキャプチャデータもしくはシンボルから統計的に生成される運動データを用いて新しい運動を作成することが可能である。
本発明は、蓄積されている運動データを自動的に分類し、必要に応じた運動データの検索を助け、過去の運動データの再生と合成を可能にするものであり。多様な運動データのライブラリ化とその有効利用を可能にする。
[A]運動パターンの分節化
モーションキャプチャにて計測した運動データ(各関節の3次元座標もしくは関節角度の時系列データ)に関して、頻繁に出現する時系列データのまとまりを各運動パターンとして境界付けることによって運動データの分節化を行う。一連の連続したキャプチャ運動データに対して、自動にて運動パターンの境界を判定、運動の分節化が可能となる。
[A−1]HMMを用いた運動パターンの記号列化
人間の一連の運動時系列データOを一定の時間幅の観測データ時系列o毎に区切りO={o,o,..,o}と表現する。この観測データoに対して下位のk番目HMMの尤度P(o|λ)を計算する。ここで、HMMは,状態の集合Q={q,...q}、状態qから状態qへの遷移確率aijの集合である状態遷移確率行列A={aij}、状態qでのベクトルxを出力する確率分布の集合B、および初期状態確率の集合π={π}の4組の集合λ={Q,A,B,π}によって表される。観測データoに対して最大尤度を出力するHMMを選び出すことによって、観測データ時系列をHMMの記号列表現に変換する。図1は、観測データをHMM記号列に変換する概略図を表す。なお、最大尤度を出力するHMMは、入力となる観測データoに対してEMアルゴリズムによって逐次最適化される。
[A−2]相関学習
運動データから変換されたHMM記号列は、ある運動パターン内において統計的規則があると考えられる。本実施形態では、前後の記号列の関係に着目し、その関係性を相関学習によって獲得する。x(t)´は、下位HMMと同数の要素数を持つ列ベクトルであり、観測データoに対して第k番目のHMMが選択された場合、第k番目の要素が1、他の要素を0とする。しかし、ベクトルは時刻tの運動データ情報のみしか持たないため、過去の履歴情報も含めた記号列ベクトルx(t)を以下のように定義する。
Figure 2007138885
ここで、Tは行列の転置を表す。x(t−1)を入力パターン、x(t)を出力パターンと見なすことによって、相関行列をW=x(t)x(t−1)と表すことができる。入力パターンx(t−1)と出力パターンx(t)が直交関係をみたすならば、入力パターンから予測した出力パターンWx(t−1)が実測の出力パターンx(t)と等しくなり、相関行列により正確に次の記号列を想起できることを示唆する。また、入力パターンと出力パターンが互いに直交関係を満たさない場合においても、想起される出力パターンは実出力パターンと近い値をとることが期待される。ここでは、逐次学習を行うために以下のように相関行列w(t)を算出する。
Figure 2007138885
ただし、α、ηは、各々安定化係数、学習係数を表す。
[A−3]運動パターンの境界判定
ある運動パターン内において、現時刻の動きと次の動きの間にはある程度の相関があると考えられるので、その特定の運動パターン内おいて次の動きが、現在の動きおよび過去の履歴から予測できると思われる。しかし、ある運動パターンから他の運動パターンに遷移する場合は、過去の履歴情報から次の動きを予測することは困難である。この観点から現在のパターンベクトルx(t)と予測パターンベクトルW(t−1)x(t−1)との誤差E(t)を計算する。
Figure 2007138885
この誤差を不確実性とみなし、不確実性が大きくなるところを運動パターンの切り替わる境界と判定することによって運動パターンの分節化を行う。
このように一定時間幅の運動時系列データを下位のHMMの記号に変換、圧縮することによって運動パターンを記号列として表現する。変換された記号列から相関行列を獲得し、記号列の出現規則を学習する。獲得した規則が不明瞭な時点が運動パターンの境界と定義づけることによって行動の分節化を行う。さらに、分節化された運動データから上位のHMMを学習することで原始シンボルを取得することができる。運動パターンの文節化の詳細については、高野渉、中村仁彦、統計的相関に基づく動作パターンの分節化、人工知能学会全国大会予稿集、 3F1-02、2005、を参照することができる。
[B]原始シンボルの取得
原始シンボルとは、キャプチャデータを文節化して得られた各運動パターンを抽象化・情報圧縮したモデルである。たとえば、「歩く」運動パターンを学習したHMMが「歩く」原始シンボル、「投げる」運動パターンを学習したHMMが「投げる」原始シンボルと定義される。原始シンボルの取得については、[E−1−1]に記載する。特許請求の範囲においては、原始シンボルを単にシンボルと表現している。
[C]キャプチャデータ検索・再生
モーションキャプチャによって取得された運動データのデータベースについて図2に基づいて説明する。データベースは、時系列の運動データを格納したファイル群(Capture Data 1, 2, 3, …N)と、各運動パターンを抽象化・情報圧縮してなる原始シンボル群(λi,λj,λk,λl,λm,λn,…)と、を有し、各ファイルに格納されている時系列の運動データは、原始シンボル系列として認識されている。例えば、あるファイルが「歩いてから手を挙げてスクワットする」という運動データを格納している場合には、当該ファイルは、「歩く」,「手を挙げる」,「スクワットする」に対応する3個の原始シンボルの系列により認識され、「原始シンボルa, 原始シンボルf, 原始シンボルt」のようにラベル付与される。
このようなデータベースの設計は次のようにして行われる。ファイルに格納された時系列の運動データを分節化して、運動パターンごとに区切り、切り取られた運動パターンに対して原始シンボルを用いて運動認識を行う。この分節化、認識過程を通じて各ファイルに原始シンボルのインデックス系列を用いたラベル付けができる。
より詳しくは、データベースの設計は以下のようなステップで行われる。
(1)キャプチャファイルiに含まれるキャプチャデータを分節化して切り取られた時系列データO (k=1,2,…K)とする。Kは各ファイルの中のキャプチャデータを分節化して得られる運動パターンの数である。
(2)各HMM(原始シンボル)が時系列データO を出力する確率P(O ) (j=1,2,…n)を計算する。nはHMMの総数である。
(3)キャプチャデータO に対して確率P(O )が最大となるHMMλ をキャプチャデータO の認識結果とする。
(4)認識結果に基づいて、各キャプチャファイルiに原始シンボルインデックスのラベル{λ ,λ ,...,λ }をつける。
原始シンボルのインデックスから、ある特定の原始シンボルの運動パターンを含むかどうか調べることによって必要とするキャプチャ運動データを検索することが可能となる。
サンプルの運動パターンに対して、原始シンボルによって確率統計的に運動パターン認識を行い、サンプル運動パターンと同じ原始シンボルを認識結果として出力するキャプチャ運動データを探索することによってサンプル運動パターンに近い運動データの検索・再生を行う。すなわち、サンプル運動パターンを、原始シンボルを用いて運動認識することよってそのキャプチャデータから原始シンボルのインデックスが出力される。その出力された原始シンボルインデックスと同じラベル名をもつファイルを探索することによって、サンプル運動パターンの運動と類似した生のキャプチャデータを求めることができる。キャプチャデータの検索は、キャプチャデータOtが与えられた場合、このOtを各HMMが生成する確率を計算し、確率が最大となるHMMλを求める。このHMMλをラベル名に含むキャプチャファイルを検索ことによって、与えられたキャプチャデータOtに類似したキャプチャデータを見つけ出すことができる。
さらに、サンプル運動パターンに対応する原始シンボルから直接統計論に基づき運動パターンを生成することもできる。ある運動パターンデータ(マーカーの時系列データ)が入力された場合、入力データに最もマッチした原始シンボル(HMM)を検出する。検出は、確率が最大のHMMを選択することである。この検出されたHMMから確率統計論に基づいて運動パターンデータを出力することが運動パターンの生成である。確率統計に基づくデータの出力は以下の通りである。
HMMは複数のノードと各ノードの間を遷移する確率および各ノードの中の確率分布から構成される。
(1)確率的にノードの遷移を求める。
(2)(1)での遷移に基づいたノードからデータを確率的に出力する。これによりHMMからある運動データ(時系列)が出力される。
(1)(2)を繰り返して複数の運動データを出力しそれらを平均化して1つの運動データを出力する。
より具体的に説明すると以下のとおりである。
先のHMMλから運動を生成することによってOtが属する運動パターンクラスの代表的な運動を得ることができる。HMMからの運動生成は次に示す。
Step1:HMMのノード間の遷移確率に基づいたノード遷移系列Q’={q1’,q2’,…qt’}を求める。
Step2:Step1をm回行い各試行毎のノード遷移系列Q1’,Q2’,…Qm’を求める。
Step3:Q1’,Q2’,…Qm’を離散的に平均化して平均ノード遷移系列Q={q1,q2,…qt}を求める。
Step4:qk (k=1,2,…,t)の中に存在する正規分布に従って時系列データOg’={o1,o2,…ot}を生成する。
Step5: step4をr回行い得られたOg1,Og2,…Ogrを平均化してOg得られる。
以上より求められたOgをHMMλから生成される運動データである。
尚、サンプル運動パターンを用いたキャプチャデータの認識・運動データの検索・再生およびシンボルからの運動生成は、モーションキャプチャシステムとリアルタイムで連動させたオンラインシステムとして実現可能である。
[D]原始シンボルの言語化
オペレータがキャプチャデータに付けた運動パターンの名称(自然言語)と前述の原始シンボルの時系列データの対を用いて、運動パターン名称と原始シンボル間の翻訳モデルを構築する。翻訳モデルを構築することによって、原始シンボルに言語的説明が付与されるため、本発明に係る装置の操作性向上が期待できる。
先述のキャプチャファイルiに付けられた原始シンボルラベル{λ ,λ ,...λ }と人の手によってファイルに保存されたキャプチャデータの説明文(運動パターン名を表す単語の系列){motion word ,motion word ,..,motion word }の対応関係を学習したのが言語モデルであり、言語モデルは原始シンボルλから単語motion word(後述する[E]ではωと記載)が生成される確率t(ω|λ)、文長Kのシンボルラベルにおけるi番目のシンボルが文長Lの単語列におけるj番目の単語に対応する確率a(i|j,K,L)によって表現される。尚、図3のmotion wordとλの間の実線がこの対応確率a(i|j,K,L)を示している。また、シンボルλが出現する確率はその直前のシンボルλにのみ依存するbigramモデルによってシンボル生起モデルを学習する。上記の言語モデル、シンボル生起モデルから単語列Ωが入力されたとき、確率が最大となるシンボル系列Λを求めることによって、単語をシンボルに変換して運動を生成することができる。尚、図3下半分のmotion wordおよびλ下矢印人型キャラクタの動きの断片図が単語を入力して動きを生成することを示唆している。また、シンボルと単語の逆の対応関係を学習することによってシンボルから単語への変換も可能なため、キャプチャ運動データに対して自動的に単語のラベル付けを行うことができる。
また、ある運動パターンから他の運動パターンへ遷移するような連続する複数の動作データから構成される運動データが必要だが、キャプチャデータファイルに、要求されているような一連の運動データが存在しない場合がある。しかし、翻訳モデルにおいて自然言語文法、シンボルレベルにおけるある文法・規則が埋め込まれているために、複数の運動名を入力することによって、その入力に対して適切なシンボル系列を算出し、算出したシンボルからキャプチャ運動データもしくは統計的に原始シンボルから生成される運動を利用することによってオペレータに新しい運動を提示することができる。翻訳モデルは、「言語モデル」、「シンボル生起モデル」によって表現されている規則を備えている。「言語モデル」には、「原始シンボル」の系列が与えられた時、その系列中の各「原始シンボル」から「単語」へのマッピングを表現する確率的ルールが埋め込まれている。「シンボル生起モデル」は、ある「原始シンボル」の次にどの「原始シンボル」が出現するかを確率的に表現したルールが埋め込まれている。
[E]運動パターンデータベースの構築
本発明の一つの好ましい形態として、オペレータとのインターフェースに言語を用いる運動パターンデータベースの構築について説明する。
言語処理能力を有するデータベースを構築することは、言語入力に対応するシンボルに基づくキャプチャデータ探索、一連の運動データの生成、運動パターンの合成等による多様な運動データの抽出および新たに計測したキャプチャデータの認識・言語化を通じたクラスタリング、
データ整理等様々な利用法が期待される。
[E−1]運動表象に基づく言語の獲得
[E−1−1]自己組織的運動表象の獲得
人は、一連の行動を観察したとき、ある意味のある行動単位ごとに分節化し、切り取られた運動データに対して学習を行うことによって運動パターンの表象を獲得すると考えられる。本実施形態でのミメシスモデルも、人と同様に運動パターンの分節化、分節化した運動パターンを用いた自律的運動表象の獲得を行う。
運動データの分節化は、頻繁に出現する運動パターンは、ひとつの意味のある運動単位であるという仮定に基づき行われる。分節化された運動パターンに対して、HMMの競合学習により自己組織的に運動表象を形成する。自己組織的とは、自動的に分節化した運動データを分類しHMMに学習させる過程を通じて原始シンボルが獲得できることを意味する。すなわち、分節化された運動パターンを表現する時系列データOに対して各HMMの尤度を計算する。最大尤度を出力するHMMλは、運動データOを教師信号として最適化される。
Figure 2007138885
HMMは時系列データを入力としたときに、どのカテゴリに属するかを決定する確率モデルである。HMMは、ノードの集合Q={1,2,...,n}、ノードiからノードjへの遷移確率aijの集合A={aij}、各ノードにおいてベクトルxを出力する確率分布の集合Bおよび各ノードの初期状態確率πのΠ={π}の4組の集合λ={Q,A,B,Π}によって表させる、また、qはノード遷移系列、Eは期待値、λ´は最大尤度を出力するHMMの最適化前のHMMパラメータ集合を表す。また、HMMの最適化Baum-Welchアルゴリズムを用いる。式(1)(2)に示すように、長時間の運動データに対するHMMの逐次競合学習を通じて各HMMは似た運動データを抽象化することになるため、これらHMMを原始シンボルとみなす。
[E−1−2]言語モデル
人の運動をモーションキャプチャにて計測する。計測した一連の運動データOを分節化し、原始シンボルを用いた運動認識を行うことによって、運動の時系列データを原始シンボルの系列Λに変換する。
Figure 2007138885
オペレータも同様に運動時系列データを単語の時系列Ω={ω,ω,..ω}に変換する。運動時系列を変換した原始シンボル時系列と他者であるオペレータによる単語時系列の対応関係を、IBM翻訳モデルを用いて求める。IBM翻訳モデルの詳細については、P.F. Brown, S.A.D. Pietra, V.J.D. Pietra, R.L. Mercer: “The Mathematics of
Statistical Machine Translation: Parameter Estimation”, Computational
Linguistics, Vol. 19、 no.2, pp. 263-311, 1993を参照することができる。IBM翻訳モデルは、順番に少しずつ複雑になるモデル1からモデル5まで提案されているが、本実施形態ではモデル2を採用する。翻訳モデル2は、単語eが単語fへ翻訳される確率t(f|e)、原言語での文長lの文eにおける位置iの単語が目的言語での文長mの文fにおける位置jの単語への接続する対応付け確率a(i|j,m,l)によって構成される。ここでは、原始シンボルλから単語ωが想起される単語想起確率を翻訳確率を用いてt(ω|λ)と見なすことにより、翻訳モデルを言語モデルとして適用した。言語モデルは、キャプチャ運動データの集合{O}を観察した際、原始シンボル時系列Λ(i)={λ(i) }の運動認識結果が得られた場合、オペレータが同じ運動データに対してΩ(i)={ω(i) }と認識する確率を評価値Ψとして、評価値を最大化するようにパラメータ推定をおこなうことによって獲得する。最適値は、EMアルゴリズムにより求めることができる。
Figure 2007138885
ここで、式(7)の原始シンボルから単語への写像は、シンボルの時系列に依存して言語の単語数が決定、j−1番目までの単語列ω (j−1)と接続先a (j−1)に基づいてj番目の単語の接続するシンボル位置aが決定、j−1番目までの単語列ω (j−1)とj番目までの単語の接続先a (j)に基づいてj番目の単語ωが決定という考えに基づいている。
[E−1−3]言語モデルに基づく運動生成
言語入力Ωからシンボル時系列Λ(ハット)への写像に関して、P(Λ|Ω)を最大にするシンボル列を直接求めるとシンボル間のつながりが考慮されていないため、適切でないシンボル列が出力される問題がある。そこで、シンボル間の出現規則を記述したシンボル生起モデルP(Λ)を導入する。シンボル生起は、そのシンボル直前N−1個の事象だけに依存するN-gramモデルによって表現する。本論文では、N=2であるbigramを適用する。bigramモデルによるシンボル列Λ={λ1,λ2,...,λl}の生起確率は、
Figure 2007138885
によって求められる。また、式(8)の右辺のシンボル生起確率は、教師データにおける相対頻度から学習される。
Figure 2007138885
ここで、C()はシンボル列の出現頻度を表す。
シンボル生起モデルと言語モデルを適用することによって、言語入力Ωからシボル系列Λ(ハット)を求める。
Figure 2007138885
式(10)により、自然な順序でシンボルが出現する可能性が高くなる。
式(10)に表現される、シンボル生起確率と言語モデル確率の積を最大にするシンボル列Λを探索する方法として、Aサーチ法を用いる。Aサーチ法の詳細については、伊庭斉志、探索のアルゴリズムと技法、サイエンス社、2002、を参照することができる。Aサーチ法は、ノードとエッジから成る木構造を利用した知識(ヒューリスティック)に基づく探索方法である。すなわち、ゴールへの到達が期待されるノードを先に展開することによって最適パスの探索時間が低減される。以下に本実施形態におけるAアルゴリズムの手順を示す。
[ステップ1]
ノードN個を持つことのできる集合をOPENとする。シンボル列長l、シンボル列のl´番目まで決まっているシンボル列をノードN(l´,l)とする。
Figure 2007138885
また、各ノードの評価関数は、
Figure 2007138885
とする。
[ステップ2]
シンボル列長がl=1,2,...,Lの各ノードN(0,1)を初期状態とする。各ノードの評価値を求め、集合OPENに加える。集合OPENは、評価値が大きい順番にノードが並べられているものとする。
[ステップ3]
OPENから先頭のノードを取り除く。 取り除かれたノードN(l´,l)に対してl´+l番目のシンボルの候補として全シンボルを当てはめ各々の評価値を求める。このようにシンボルを追加したノードを新たにOPENに追加する。その後ステップ2に戻る。取り出されたノードN(l´,l)が、これ以上シンボルを追加出来ない(l´=l)場合、OPENから取り除かず、ステップ4に進む。
[ステップ4]
OPENの先頭ノードのシンボル列を式(10)を満たすシンボル列とする。
求められたシンボル列からの運動生成については、各シンボルに対応するHMMを直列につなぎ合わせたHMMから確率統計論に基づき運動時系列を作成する。ここで、原始シンボルHMM間でのノード遷移確率を1に設定する(図8参照)。
[E−2]運動パターンデータベース構築
人の行動を光学式モーションキャプチャ(サンプリング周期33s)にて計測する。537通りの人の運動データを20自由度のキャラクタに基づく逆運動学を通じて、ボディーの並進速度、高さ、ロール、ピッチ、ヨーおよびボディローカル座標における左右肘関節、膝関節、手先、足先のデカルト座標、合計30次元の時系列{O:i=1,2,3,...,537}に変換する。全運動データの合計時間は、4088sである。各運動データは、オペレータにより64の単語{ω:k=1,2,3,...,64}を用いて単語時系列に変換されているものとする。例えば、「左バッターが打って走る」という運動データに対して”left-swing-run”ラベル付けする。
まず、 各運動データ{O}をランダムな順に長時間観察をしながら競合学習をすることによって、99の原始シンボル{λj:j=1,2,3,...99}を獲得した。
原始シンボルを獲得した後、運動データOを順に観察したときの原始シンボルに基づく認識結果Λ(i)とオペレータによる単語列Ω(i)のセット{Λ(i),Ω(i):i=1,2,3,...,537}から言語モデルの最適化を行う。図6は、学習回数に対する式(6)によって求められる尤度の変化を示している。ただし、最適化の精度を高めるためモデル1における最適化を行った後、モデル2の最適化手順を行うことによりパラメータ推定を行っている。図6から、尤度が学習を重ねるに従い大きくなり収束していくことが確認でき、原始シンボルと単語の対応付け関係が獲得されていると考えられる。
獲得した言語モデルおよび認識結果{Λ(i)}により求められるシンボル生起モデルから、言語入力に適応するシンボル列の導出を行った。図7は、入力left-swing runおよびhead-sliding stand-up
right-throw-pose standingに対応する原始シンボル列を探索し、その原始シンボルから生成される一連の運動を表している。入力に対して適切な運動が生成されていることから、言語モデル、シンボル生起モデルが適切に獲得されていると考えられる。また、探索アルゴリズムについてAサーチと全探索に関する計算コストを比較した。ただし、Aサーチにおける集合OPENの要素であるノードの数は100、全探索において最大のシンボル列長をL=5とした。表1から*サーチを用いることによって平均探索時間が0.41sであり、全探索の場合に比べて計算コストが低減されていることがわかる。尚、Aサーチと全探索による求められた解の一致度は74%であった。
Figure 2007138885
モーションキャプチャにて計測した運動データを用いた自律的運動表象の獲得および人の言語使用とのインタラクションから運動パターンに基づく言語モデルを提案し、提案したモデルを適用した運動データベースの一設計法について検討した。提案したデータベースを用いて、オペレータの言語入力に対して適切な運動表象の選択、表象からの運動生成が可能であることを確認し、データベースが視覚的にわかり易いインターフェースを提供できることを示した。
本発明は、コンピュータグラフィックスのみならず、スポーツ科学、リハビリテーション、医療分野においても利用可能である。
観測データ時系列を、HMM記号列に変換する概略図である。 本発明に係るデータベース構造の概略図である。図2において、λ:HMMインデックスである。 言語モデルを伴うデータベース構造の概略図である。図3において、MotionWord:オペレータがキャプチャデータに付けた運動パターンの名称である。 本発明に係るデータベースシステムの概略図である。 サーチ手法を示す概略図である。 学習回数に対する式(6)によって求められる尤度の変化を示す図である。 言語入力に対して生成された2つの運動パターンを示す図である。 HMM同士の連結を示す概略図である。

Claims (21)

  1. 時系列の運動データを格納したファイル群と、
    各運動パターンを代表するシンボル群と、を有し、
    各ファイルに格納されている時系列の運動データは、シンボル系列として認識されている、
    データベース構造。
  2. 各ファイルにシンボルのインデックス系列を用いたラベル付けがなされている、請求項1に記載のデータベース構造。
  3. 各シンボルは、言語と対応付けられている、請求項1,2いずれかに記載のデータベース構造。
  4. シンボルと言語の対応付けは、翻訳モデルによるものである、請求項3に記載のデータベース構造。
  5. ファイルに含まれる時系列運動データを分節化して時系列の運動パターンデータを取得するステップと、
    各運動パターンを代表する各シンボルを用いた運動認識を行うことで、前記運動パターンデータをシンボルの系列として認識するステップと、
    からなるデータベース設計法。
  6. 前記シンボルはHMMであり、
    前記運動認識ステップは、
    各HMMが、前記時系列運動パターンデータを出力する確率を算出するステップと、
    前記時系列運動パターンデータに対して前記確率が最大となるHMMを時系列運動パターンデータの認識結果とするステップと、
    からなる請求項5に記載のデータベース設計法。
  7. 前記時系列の運動パターンデータを説明する言語と、前記シンボルの時系列とを対応付けることで、シンボル系列あるいは各シンボルに言語説明を付与するステップを含む、請求項5,6いずれかに記載のデータベース設計法。
  8. データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、
    前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、
    前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報が前記出力部から出力される、
    データベースシステム。
  9. 入力部には、シンボルあるいはシンボル列が入力され、
    処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、
    出力部は、検索されたファイルを出力する、
    請求項8に記載のデータベースシステム。
  10. 入力部には、サンプル運動時系列データが入力され、
    処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、
    出力部は、検索されたファイルを出力する、
    請求項8に記載のデータベースシステム。
  11. 前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
    入力部には、シンボルあるいはシンボル列が入力され、
    処理部は、入力されたシンボルあるいはシンボル列に代表される運動パターンを生成し、
    出力部は、生成された運動パターンを出力する、
    請求項8に記載のデータベースシステム。
  12. 前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
    入力部には、サンプル運動時系列データが入力され、
    処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、
    出力部は、生成された運動パターンを出力する、
    請求項8に記載のデータベースシステム。
  13. 前記各シンボルはHMMである、請求項8乃至12いずれかに記載のデータベースシステム。
  14. データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、
    前記データベースは、時系列の運動データを格納したファイル群と、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、各ファイルに格納された時系列の運動データは、シンボル系列として認識されており、
    前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、
    データベースシステム。
  15. 入力部には、言語が入力され、
    処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを含むファイルをファイル群から検索し、
    出力部は、検索されたファイルを出力する、
    請求項14に記載のデータベースシステム。
  16. 前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
    入力部には、言語が入力され、
    処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、
    出力部は、生成された運動パターンを出力する、
    請求項14に記載のデータベースシステム。
  17. 前記各シンボルはHMMである、請求項14乃至16いずれかに記載のデータベースシステム。
  18. データベースと、入力部と、出力部と、処理部と、を備えたデータベースシステムであって、
    前記データベースは、各運動パターンを代表するシンボル群と、各シンボルに対応付けられた言語と、を有し、
    前記処理部は、前記入力部から入力された情報と前記データベースに格納された情報とから所定の情報を獲得し、獲得された情報を前記出力部から出力させる、
    データベースシステム。
  19. 前記シンボル群の各シンボルは、運動パターンを確率的に生成可能であり、
    入力部には、言語が入力され、
    処理部は、入力された言語からシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に代表される運動パターンを生成し、
    出力部は、生成された運動パターンを出力する、請求項18に記載のデータベースシステム。
  20. 入力部には、サンプル運動時系列データが入力され、
    処理部は、入力されたサンプル運動時系列データからシンボルあるいはシンボル列を取得して、シンボルあるいはシンボル列に対応する言語を検索し、
    出力部は、検索された言語を出力する、
    請求項8に記載のデータベースシステム。
  21. 前記システムは、表示部を有し、
    出力が、前記表示部に表示される、請求項8乃至20いずれかに記載のデータベースシステム。
JP2008517839A 2006-05-26 2007-05-18 運動データのデータベースの構造および設計法、データベースシステム Pending JPWO2007138885A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006147490 2006-05-26
JP2006147490 2006-05-26
PCT/JP2007/060204 WO2007138885A1 (ja) 2006-05-26 2007-05-18 運動データのデータベースの構造および設計法、データベースシステム

Publications (1)

Publication Number Publication Date
JPWO2007138885A1 true JPWO2007138885A1 (ja) 2009-10-01

Family

ID=38778406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008517839A Pending JPWO2007138885A1 (ja) 2006-05-26 2007-05-18 運動データのデータベースの構造および設計法、データベースシステム

Country Status (2)

Country Link
JP (1) JPWO2007138885A1 (ja)
WO (1) WO2007138885A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4951490B2 (ja) * 2007-12-18 2012-06-13 日本電信電話株式会社 動物体追跡装置、動物体追跡方法及び動物体追跡プログラム並びに動物体追跡プログラムを記録した記録媒体
WO2009145071A1 (ja) * 2008-05-28 2009-12-03 国立大学法人 東京大学 運動データベース構造、および当該運動データベース構造のための運動データ正規化方法、並びに当該運動データベース構造を用いた検索装置及び方法
JP5055218B2 (ja) * 2008-07-25 2012-10-24 Kddi株式会社 動きデータ検索装置及びコンピュータプログラム
JP5867296B2 (ja) * 2012-05-30 2016-02-24 株式会社デンソー 運転シーン認識装置
DE102012111304A1 (de) * 2012-11-22 2014-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Rekonstruktion einer Bewegung eines Objekts
JP6834590B2 (ja) * 2017-02-27 2021-02-24 富士通株式会社 3次元データ取得装置及び方法
JP7146247B2 (ja) * 2018-09-03 2022-10-04 国立大学法人 東京大学 動作認識方法及び装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251159A (ja) * 1993-03-01 1994-09-09 Nippon Telegr & Teleph Corp <Ntt> 動作認識装置
JPH1097293A (ja) * 1996-09-19 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識用単語辞書作成装置及び連続音声認識装置
JP2001056861A (ja) * 1999-06-08 2001-02-27 Matsushita Electric Ind Co Ltd 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
WO2003038759A1 (fr) * 2001-10-29 2003-05-08 Sharp Kabushiki Kaisha Terminal cellulaire, procede de creation d'animations sur des terminaux cellulaires, et systeme de creation d'animations
JP2003132363A (ja) * 2002-09-12 2003-05-09 Mitsubishi Electric Corp アニメーション制作システム
JP2004330361A (ja) * 2003-05-08 2004-11-25 Japan Science & Technology Agency 隠れマルコフモデルによる運動データの認識・生成方法、それを用いた運動制御方法及びそのシステム
JP2005182822A (ja) * 2003-12-18 2005-07-07 Xerox Corp 機械翻訳の品質を評価するための方法および装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251159A (ja) * 1993-03-01 1994-09-09 Nippon Telegr & Teleph Corp <Ntt> 動作認識装置
JPH1097293A (ja) * 1996-09-19 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識用単語辞書作成装置及び連続音声認識装置
JP2001056861A (ja) * 1999-06-08 2001-02-27 Matsushita Electric Ind Co Ltd 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
WO2003038759A1 (fr) * 2001-10-29 2003-05-08 Sharp Kabushiki Kaisha Terminal cellulaire, procede de creation d'animations sur des terminaux cellulaires, et systeme de creation d'animations
JP2003132363A (ja) * 2002-09-12 2003-05-09 Mitsubishi Electric Corp アニメーション制作システム
JP2004330361A (ja) * 2003-05-08 2004-11-25 Japan Science & Technology Agency 隠れマルコフモデルによる運動データの認識・生成方法、それを用いた運動制御方法及びそのシステム
JP2005182822A (ja) * 2003-12-18 2005-07-07 Xerox Corp 機械翻訳の品質を評価するための方法および装置

Also Published As

Publication number Publication date
WO2007138885A1 (ja) 2007-12-06

Similar Documents

Publication Publication Date Title
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
Ji et al. Graph-based dependency parsing with graph neural networks
CN110209836B (zh) 远程监督关系抽取方法及装置
Minnen et al. Discovering characteristic actions from on-body sensor data
JPWO2007138885A1 (ja) 運動データのデータベースの構造および設計法、データベースシステム
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
Zheng et al. Using context-to-vector with graph retrofitting to improve word embeddings
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
CN117435716B (zh) 电网人机交互终端的数据处理方法及系统
Zhou et al. Learning a pose lexicon for semantic action recognition
CN112559691B (zh) 语义相似度的确定方法及确定装置、电子设备
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN111552816A (zh) 面向大数据文本挖掘的动态认知语义匹配方法
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
JP2013101679A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP4328362B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
CN116227499A (zh) 文本关系识别方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120216