JPWO2009028647A1

JPWO2009028647A1 - 非対話型学習装置及び対話型学習装置

Info

Publication number: JPWO2009028647A1
Application number: JP2009530194A
Authority: JP
Inventors: 直人岩橋; 法幸木村; 幹生中野; 孝太郎船越
Original assignee: Honda Motor Co Ltd; National Institute of Information and Communications Technology
Current assignee: Honda Motor Co Ltd; National Institute of Information and Communications Technology
Priority date: 2007-08-31
Filing date: 2008-08-29
Publication date: 2010-12-02
Anticipated expiration: 2028-08-29
Also published as: US8868410B2; WO2009028647A1; US20100250241A1; JP5386692B2

Abstract

対話対象と対話を行う対話型学習装置において、音声を入力する音声入力装置（１０）と、入力された音声を認識する音声認識部（２０）と、音声認識結果に応じて対話行動を制御する対話行動制御部（３０）と、を備え、対話行動制御部（３０）が、発話内容の記憶及びマッチングを行うトピック認識エキスパート（３４）と、モードの変更を管理するモード切換エキスパート（３５）とを有し、モード切換エキスパート（３５）が対話対象の発話に応じてモードの切換えを行い、第１のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第２のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。

Description

本発明は、例えば会話型家庭用ロボットに係り、特にロボットがユーザーとの会話を通じてロボット内の音声認識用の辞書で定義されていない用語、例えば地名や部屋の名称、人名等を学べる装置に関する。

掃除などの家事を手伝うロボットが期待されている。そのようなロボットは、主人からの会話による指示を受けるために、主人の家の中や事務所内の場所の名称を知っていなければならない。しかし、ロボットは場所の名称の完全なリストを予め持つ事はできないので、主人はロボットの作業中にそのような情報を与えなければならない。

最も負担の少ない指示方法の一つは現場での口頭指示である。すなわちロボットと共に目的地に行って会話でロボットにその場所の名称を告げる。

しかし、現状の自動会話認識機能はあらかじめ定義された言語を認識するだけである。即ち、大語彙音声認識器（Large Vocabulary Automatic Speech Recognizer：ＬＶＡＳＲ）はその辞書で予め定義した言葉（既知の言葉）を互いに連結することによって入力された会話を文章として認識するので、辞書で定義されていない言葉（以下、“未知の言葉”或いは“未知語”と言う）を認識できない。辞書は通常何千あるいは何万の言葉を持っているが、それでも日常生活で使うすべての言葉を登録することは不可能である。一般に使用者は言葉が辞書中にあるかどうかを知らないので、使用者が既知の言葉のみで話すことは期待できない。そのような未知の言葉は特に固有名称（例えば商品名とか会社名）としてしばしば現れる。これがいわゆる語彙外（out-of-vocabulary word）問題である。

さらに現状の会話認識機能の認識性能は正確さの点で騒がしい環境下、或いはより具体的には日常生活ではまだ人の性能よりはるかに劣る。例えば、使用者が既知の言葉のみで話すとしても、バックグラウンド雑音などの多くの理由から誤認識がしばしば発生する。

従って、極めて正確な会話認識結果を想定する限り、場所の名称を正確に学ぶロボットを作ることは不可能であり、これ等の問題、即ち言語外及び誤認識に対処する方法は、人とロボットとの間の相互作用にとって必要である。

また、ロボット自身が新しい単語を学習する方法も考えられるが、自動音声認識機能に学習機能を持たせるには、多くの事前学習が必要である。この場合、学習モードを実現するためにシステムが複雑化してしまう。

そこで、本発明は上記課題に鑑み、辞書で定義されていない未知の言葉が発話に含まれていても、その音声を認識できる非対話型学習装置及び対話型学習装置を提供することを目的としている。

本発明は、非対話型の学習装置又は対話対象と対話を行う対話型学習装置において、音声を入力する音声入力装置と、入力された音声を認識する音声認識部と、音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、第１のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第２のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。

本発明において、トピック認識エキスパートが第１のモードにおいてワードグラフを作成し、このワードグラフをトピックとし、好ましくは、対話対象の発話された複数の単語が音声認識部における辞書に定義されていない場合に、未知語の音声部分を辞書中で音素系列が類似した単語や複数の単語の組み合わせとしてワードグラフで表現する。

本発明で用いるワードグラフを示す図である。本発明の実施形態におけるトピック認識率と文書の数との関係図である。本発明の実施形態におけるトピック認識率と索引語率との関係図である。本発明の実施形態に係る対話型学習装置を示すブロック図である。図４の対話型学習装置における対話行動制御部を示すブロック図である。図４の対話型学習装置のフローチャートである。図６の対話行動制御部におけるモード切換エキスパートとトピック認識エキスパートの振る舞いについて説明するためのシナリオを示す図である。本発明の実施例を適用したロボットを示す。

符号の説明

１対話型学習装置
１０音声入力装置
２０音声認識部
２１小語彙音声認識器
２２大語彙音声認識器
３０対話行動制御部
３１言語理解部
３２タスク計画部
３３行動選択部
３４トピック認識エキスパート
３５モード切換エキスパート
４０対話部
５０行動部

以下、本実施形態に係る対話型学習装置（以下、ロボットと言う場合がある）の具体的な構成について説明する。先ず、構成の説明に先立ち、本発明の対話型学習装置の概要を説明する。
〔１〕対話型学習装置の概要
（１−１）基本動作について
本実施形態では、ユーザー（以下、使用者と言う場合がある）が未知の言葉（辞書に登録されていない言葉）として地名や部屋の名称等（以下、位置名称と言う）を発話した際、対話型学習装置がユーザーの発話内容から未知の位置名称を認識する場合について説明する。具体的には、本実施形態は位置名称の学習作業に関する。位置名称学習作業でロボットはその使用者に追随して動き回り、ユーザーとの会話から位置名称と座標情報の対として学ぶ。言い換えると、もしユーザーが位置Ｐで言語Ｕを喋れば、ロボットは言語Ｕから位置名称を得てそれを位置Ｐに関連づけ、関連した対を記憶に組み込む。

位置名称抽出の標準的方法は言語Ｕの自動会話認識を行なって認識した一連の言語から名詞を抽出することであるが、本実施形態では、一連の名詞の代りに位置名称として名詞に限らず言葉の出現頻度パターンを用いる。この抽出方法については後述する。

学習が終った後、実行モードにおいては、ロボットは使用者が言葉で指示する場所に移動する。ロボットは使用者の言語から位置名称を抽出し、記憶から位置名称を検索して意図された場所に移動する。位置名称の同定方法についても後述する。

（１−２）対話型学習装置における音声認識について
対話型学習装置は、対話対象であるユーザーと対話を行う装置であり、特に音声認識に当たり予め用意されている辞書では定義されていない未知の言葉をユーザーが発話した場合にはその未知の言葉を記憶する。対話型学習装置は、未知の言葉を一度記憶すると、以後、同じ言葉がユーザーより発話された際にはその言葉を認識する。例えば、地名や人名等の固有名詞は、通常、音声認識用の辞書には定義されていないが、本実施形態においてユーザーが例えば人名として『佐藤』と発話した場合には、その発話の音声を『佐藤』に対応したものと学習し、以後同様の音声が発話内容に含まれている場合には、その音声を『佐藤』と取り扱うことを特徴としている。

（１−３）音声認識に際しての条件
このような未知の言葉に対応できるように、本実施形態に係る対話型学習装置は、ユーザーとの間の相互作用として、以下の仮定（Ａ）〜（Ｆ）を条件としている。
（Ａ）ロボットと使用者間の相互作用は二つの明瞭に異なるモードからなる。即ち、学習モードと実行モードである。学習モードは未知の言葉を学習するモードであり、実行モードは学習した後に未知の言葉を認識して所定の行動を行うモードであり、対話型学習装置はこれらの二つのモードの下で動作を行うことを特徴としている。
（Ｂ）使用者は学習又は実行が始まる前に次の相互作用のモードを明確に宣言する。
（Ｃ）一旦モードが宣言されたら、ロボットと使用者とは次の宣言がモードを切り換えるまでそのモードを続ける。
（Ｄ）使用者からの各言語は一位置のみの名称情報、あるいは次のモードへの切り換えの一つだけの指令を含む。
（Ｅ）学習モードでは与えられる位置名称がロボットの現在位置を特定する。
（Ｆ）実行モードでは与えられる位置名称がロボットの行くべき位置を特定する。
そして、これらの制約の下で、対話型学習装置は所定の動作を行う。

（１−４）本実施形態における音声認識方法
本実施形態に係る対話型学習装置では、音声トピック認識方法（Bag of Words in a Graph： BWG）を利用することで、言葉や文法に何らの制限なく話される言語をトピックとして認識できることを特徴としている。
ここで、位置名称は認識結果中で目立つ言葉の出現頻度パターンとして取得される。本実施形態では、このような出現頻度パターンをトピックと呼ぶ。
特に、音声トピック認識手法は、語彙や文法を制限されること無しに自由に発声された音声、即ちトピックをロボットが理解できるようにするものである。この手法が、前述したように学習（前述の学習モードに相当）と認識（前述の実行モードに相当）の二つのフェーズからなり、学習フェーズでは、場所や人物などに関してユーザーによって話された音声を一つの発話又は複数の発話を用いてトピックとすることにより、音声とトピックの対応付けを学習する。次に、認識フェーズでは入力された音声に対して、学習フェーズで学習された複数のトピックのうちから適切なトピックを一つ選択する。

この音声トピック認識方法は、下記（ア）及び（イ）の二つの特性を持つ。
（ア）言語を最適の一つの文章候補としてではなく、多数候補を含むワードグラフ（単語グラフとも呼ばれる）として認識する。
（イ）ワードグラフを一つの文書と見なすと共にトピック認識技法を適用することによって、言語のトピックを認識する。
従って言語がただ一語であるとしても、言語のトピックは単語の集合として表される。

（１−４−１）ワードグラフを用いた音声認識について
一つのワードグラフは、認識単語を表すエッジ（ｅｄｇｅ）の集合と、時点を表す頂点（ｖｅｒｔｅｘ）の集合とからなる。ワードグラフの例を図１に示す。このようなワードグラフの中から音響的および言語的な尤度を基準として第１位からＮ位までの認識候補を選択することができる。
本実施形態では、未知語を含む音声が入力された場合、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして表現されることを特徴としている。さらに、本実施形態では、音声認識結果として第１位に選択された文ではなく、ワードグラフそのものを用いることで、情報の消失を少なくして、未知語入力や誤認識に対して、後に続く処理の頑健性を高めることができる。

（１−４−２）文書トピック認識方法におけるワードグラフの適用について
本実施形態における会話トピック認識方法はワードグラフを文書とみなし、これに統計的な文書トピック認識の手法を適用するものである。文書トピック認識の手法として、Single Random Variable with Multiple Value法を用いた。この方法は、M. Iwayama and T.Tokunaga：“A probabilistic model for categorization： Based on a single random variable with multiple values”， In proc. Of the 4th Applied Natural Language Processing Conference （ＡＮＬＰ）， pp. 119−167（1994）に開示されている。
この手法は、トピックの言語が文法や単語の出現位置や順序に関係なく単語の出現頻度パターンで定義されるbag-of-wordsモデルに基づいたものである。
ここで、テキストｄがトピックｃである確率Ｐ（ｃ｜ｄ）は以下のように表す。テキストｄからランダムに選択された索引語がｔ_iである事象を表す確率変数をＴ＝ｔ_iで表す。

学習フェーズで、Ｐ（ｃ｜Ｔ＝ｔ_i）は学習用音声サンプルの集合から得られる。一つのワードグラフでワードを数える際に、トークンの数（ワードが話された数）ではなく、タイプ別の数を用いる。即ち、一つのワードグラフにおいて、一つの言葉はたとえ二度以上出現しても一つとして数えられる。予備テストで複数のトークンを用いたとき、結果は良くならなかった。本実施形態では、音響的尤度を用いない。
認識フェーズでは、Ｐ（Ｔ＝ｔ_i｜ｄ）は入力音声から求められ、Ｐ（ｃ｜ｄ）は下記のように、テキストｄのトピックを決定するために計算される。ここで、ｃは学習フェーズで得られたトピックの集合である。

式（２）のように、Ｐ（ｃ｜ｄ）が最も大きくなるトピックｃを認識結果とする。
なお、索引語は、学習データの中に含まれる単語の内、トピックとの相互情報量が大きいものを選択する。すなわち、相互情報量としきい値に従って索引語の数は制限される。相互情報量Ｉ（Ｔ_i；ｃ）は次式で表される。

ここで、Ｔ_iは索引語ｔ_iが与えられた文書の中に存在する／存在しないかどうかを示す二値を取る。Ｈ（ｃ）は確率変数ｃのエントロピーである。ｃとＴ_iとが互いに独立ならば、Ｉ（Ｔ_i；ｃ）は０である。相互情報量を使うことによって、有益でない語を排斥することができる。

このように、本実施形態に係る対話型学習装置では、未知の言葉がユーザーによって発話された場合にはその言葉に対応した音声に基づいたワードグラフを作成して記憶し、それ以後に同じ未知の言葉が発話された場合には記憶している複数のワードグラフ、即ち複数のトピックのいずれかにユーザーの発話の言葉が対応するかを決定する。具体的には、発話された未知の言葉が、装置が記憶している複数のトピックの何れかに相応するものかマッチングを上記式（１），（２）に基づいて行う。さらに、決定したトピックの中に含まれる複数の用語、例えば複数の単語の内、トピックとの関連が高い用語を相互情報量（３）に基づいて決定する。

ロボットに入力された言葉、即ち辞書で定義されていない言葉は、音声認識結果に最適合するトピック（出現頻度パターン）として抽出されて認識される。出現頻度パターンを用いることで誤認識に対して強い。さらに語彙外(out-of-vocabulary word)問題がない。

（１−４−３）評価
会話からワードグラフを発生させるために、Advanced Telecommunication Research Institute（ＡＴＲ）で開発された携帯ＰＣにマイクが埋めこまれたＨＭＭを基礎とするＬＶＣＳＲソフトウェアを用いた。言語モデル及び語彙は旅行領域の１００万文の会話文から構築された。用語集の大きさは１０万語であった。未知の言葉がトピックを支配する状況をシミュレートし、そのような状況でのＢＷＧを評価するために、トピックとして十人の未登録人名を用いた。すなわちこれ等の名前のみが用語外である。把握と認識のために三十歳台の男性が各トピックに対して予め定義された五つの文章を発話した。これ等の文章を下記に示す。各文章のＸが十人の名前の一つと置き換えられる。学習フェーズで用いられた文章と認識フェーズで用いられた文章との間に重複はない。これ等の文章が示すように、ＢＷＧはロボットが学習していない言葉や語句を含む会話からトピックを認識する（例えば下記文章中の“Where is”や“Please call”など）。

〔学習フェーズ〕
（会話文例１）He is Mr. X.
（会話文例２）Mr. X is famous.
（会話文例３）This belongs to Mr. X.
（会話文例４）Mr. X is the manager.
（会話文例５）Do you know Mr. X?
〔認識フェーズ〕
（会話文例６）Where is Mr. X’s desk?
（会話文例７）Please call Mr. X.
（会話文例８）I’m looking for Mr. X.
（会話文例９）This is what Mr. X makes do with.
（会話文例１０）Mr. X is responsible for this.

まずワードグラフの大きさのトピック認識速度に対する効果を検討した。ワードグラフの大きさはグラフにいくつの文章候補が含まれるかによって決められる。図２に示すようにワードグラフの大きさが大きいほど、トピック認識速度は高い（最大はＮ＝５８のときである）。このようにワードグラフを用いる情報損失の低減がトピック認識速度の向上に成功したと結論できる。

次に、相互情報による索引語の数を限定する効果を検討した。全入力単語に対する索引語の比によるトピック認識速度を図３に示す。ここでワードグラフの大きさ（グラフ中の文章候補数）はN=５８に固定される。最高認識速度は３０%と５０%との間で得られる。指数項が少な過ぎても多過ぎても認識速度を低下させる。これは学習データ量とモデルの複雑さとの間の関係から理解できる。相互情報が索引語の選択に有効であると結論できた。

〔２〕対話型学習装置の構成
図４は本発明の実施形態に係る対話型学習装置１を示すブロック図である。
本実施形態に係る対話型学習装置１は、ユーザーが発話した音声を音声信号として出力する、例えばマイクロフォンで成る音声入力装置１０と、この音声入力装置１０からの音声信号をＡ／Ｄ変換すると共にＡ／Ｄ変換された音声信号から音圧などの特徴量を抽出して音声を認識する音声認識部２０と、音声認識結果に応じて対話行動を制御する対話行動制御部３０と、この対話行動制御部３０による制御の下で動作する対話部４０及び行動部５０と、を備えている。

音声認識部２０は、音声入力装置１０より供給された音声信号から特徴量を時系列的に抽出し、辞書部（図示省略）に記憶されている単語や文法部（図示省略）に記憶されている文法に基づいて、音声認識を行う。

対話行動制御部３０は、音声認識結果に応じて、即ち認識結果として見出されたコマンド（ユーザーより発せられたコマンド）である学習モード及び実行モードの何れかの動作を行う。例えば、対話行動制御部３０は、ユーザーが発話した音声を音声認識部２０で認識した結果から、ユーザーが『学習モード』を発話したかを判断する。実行モードの場合も同様である。

対話行動制御部３０は、二つのモードを切り換えて動作できるように、次のように構成されていることを特徴としている。
図５は、本発明の実施形態に係る対話行動制御部のブロック図である。対話行動制御部３０は、ＲＩＭＥ（Robot Intelligence based on Multiple Experts）に基づいている。ＲＩＭＥはエキスパートと呼ぶ複数のモジュールを用いており、各エキスパートは特定のドメインや人に対する対話に従事したり、移動などの物理的行動のタスクを遂行する。対話行動制御部３０の出力は、ＭＡＤＬ（Multi-modal Action Description Language）の形式をとり、テキスト（例えば“hello”）による会話合成指令と身体運動指令の象徴的代表（例えば“gesture hello”とか“approach join”）の一つまたは組み合わせを含む。一つのＭＡＤＬの指令は同時に行なわれる。

この対話行動制御部３０は、図５に示すように、言語理解部３１と、タスク計画部３２と、行動選択部３３と、トピック認識エキスパート３４と、モード切換エキスパート３５と、その他のエキスパート３６と、を備えている。
なお、図中の小語彙音声認識器（Small Vocabulary Automatic Speech Recognizer：ＳＶＡＳＲ）２１と大語彙音声認識器（Large Vocabulary Automatic Speech Recognizer：ＬＶＡＳＲ）２２とは前述の音声認識部２０に備えられており、小語彙音声認識器２１は言語理解部３１と各エキスパート３４〜３６とに共用されるが、大語彙音声認識器２２はエキスパート専用に設けられている。

言語理解部３１は、小語彙音声認識器２１の認識結果を各エキスパート３４〜３６に配布し、各エキスパート３４〜３６が返すスコア（理解の確信度）に基づいてタスク計画部３２に最も適切なエキスパート３４〜３６を提示する。具体的には、各エキスパート３４〜３６では、ユーザーが発話した音声の発話パターンの認識結果の解釈を行う。例えば、「学習モードにうつって」というユーザーの発話に対し、各エキスパートが発話中の「学習」部分の音声認識を行う。そして、その発話が自身のエキスパートで扱われるべきかどうかについて、確信度を０から１の間のスコアとして言語理解部３１に返す。言語理解部３１は、各エキスパート３４〜３６からの確信度の内、最もスコアが高いエキスパート３４〜３６を制御すべき対象として選択し、その旨をタスク計画部３２に出力する。
タスク計画部３２は、言語理解部３１からの出力に基づいて、実際にどのエキスパート３４〜３６をアクティベートするかを決めるものである。
行動選択部３３は、アクティベートされたエキスパート３４〜３６から次の行動を受け取り、ハードウェア制御のための行動部５０や、音声合成し出力する対話部４０に制御情報を出力する。

この対話行動制御部３０は、前述したように、内部に複数のエキスパート３４〜３６、即ちモード切換エキスパート３５とトピック認識エキスパート３４とその他のエキスパート３６とを備えている。
各エキスパート３４〜３６は特定のサブタスクを遂行する。ロボットがあるサブタスクを実行しようとするとき、そのサブタスクに対応するエキスパート３４〜３６が対話行動制御部３０の中で活動状態にあり、ロボットの次の行動を選択する。ユーザーからの発話が認識されると、言語理解部３１の結果とユーザーが発話した内容の文脈から、次に活動状態になるエキスパート３４〜３６が決まる。エキスパート３４〜３６は、オブジェクト指向言語におけるオブジェクトに相当する。各エキスパート３４〜３６は、それ自身の内部状態を持ち、言語理解結果、対話を通して得られるロボット−ユーザー間の認識の一致度合いを示す基盤化状態、各エキスパートの特定のタスクに対する行動計画である局所的な行動計画などを保持する。

ここで、各エキスパート３４〜３６のサブタスクについて例示する。
モード切換エキスパート３５のサブタスクは、主に前述の二つのコマンド、即ち、『学習モード』及び『実行モード』の二つのモードの何れかを実行させるコマンドが音声認識部での結果に含まれているかを判定することである。例えば、音声認識結果に“学習モード”の用語が含まれていれば、例えばそれまで続けていた“実行モード”を終了させて、装置全体を『学習モード』に切り換える役割を果たし、各エキスパートにその旨の信号を出力する。このような信号を受けたその他のエキスパートは内部の状態を何れかのモードに切り換える。

トピック認識エキスパート３４は、ユーザーが発話した音声に基づいて音声ファイルに対応したワードグラフ（単語グラフとも一般的には呼称されている。）を作成するものである。ユーザーが発話した１フレーズ毎に、図１に示すような一つのワードグラフが作成される。
トピック認識エキスパート３４は、例えば、大語彙音声認識器２２や図示省略する記憶部に格納された辞書や言語モデル等を用いた音声認識によって、具体的には入力音声，音響モデル，言語モデル，辞書の照合結果として、図１に示すようなネットワーク状のワードグラフを作成する。なお、本実施形態においては、例えば、特開平６−２９５１９８号公報に開示されている方法に従ってワードグラフが作成される。
作成されたワードグラフは、例えばトピック認識エキスパート３４を構成するモジュールの記憶部（図示省略）に格納される。
この種のワードグラフは、本装置における学習モードのときだけでなく、実行モードのときに、ユーザーが発したコマンド以外の音声に対して作成される。具体的には、ロボットに未知の言葉を記憶させたい場合に、学習モードにおいて覚えさせるためにワードグラフが作成される。

トピック認識エキスパート３４は、このように作成されたワードグラフに基づいて未知の言語（辞書に登録されていない言語）に対する音声認識を行う。具体的には、本装置が学習モードであるとき、ユーザーから発せられた未知の言葉を含む１または複数回の発話に関してワードグラフを作成する。作成されたワードグラフにおける各単語の出現頻度パターンを記憶する。なお、前述の（Ｅ）のように、学習モードで与えられる位置名称がロボットの現在位置を特定することになるため、出現頻度パターンとともにロボットがそのときに位置する位置情報、例えば絶対座標を記憶する。
その後、ユーザーが移動して別の場所で“ここがＤです”と発話した場合には、“ここがＤです”の入力音声に基づいたワードグラフが別途作成される。その際、位置情報も記憶される。なお、“Ｄ”は地名である。

このようにユーザーが発した未知の言語がそれぞれ個別に複数あれば、複数のワードグラフが作成される。これらの各ワードグラフが、話者が発した音声に対応するトピックに該当する。学習モードで作成された各ワードグラフのそれぞれが、前述の式（１）における“トピックｃ”に該当する。

対話型学習装置１が実行モードにあるとき、ユーザーが未知の言語を発した場合、音声入力された未知の言語が記憶部に格納されている複数のトピックｃの何れかに該当し得るか確率を計算し、確率の最も高いトピックを抽出する。このとき、式（１）及び（２）に基づいて確率が求められる。
例えば、対話型学習装置１が実行モードにあるときに、ユーザーが“Ａに行って．”と発話した場合、この“Ａに行って．”の入力音声に基づいて、図１に示すようなワードグラフ（以下、これを参考テキストｄと呼ぶ）を作成する。

そして、この参考テキストからランダムに選択される索引語ｔ_iである事象を表す確率変数Ｔ＝ｔ_iを与え、参考テキストｄがトピックｃである確率Ｐ（ｃ｜ｄ）の値が最大となるトピックｃを抽出する（式１，２参照）。この場合、トピックｃとして、“ここがＡです”の入力音声に基づいて作成されたワードグラフが選択される。ロボットには、“Ａ”の位置情報（例えば絶対座標）が登録されているので、トピック認識エキスパートは、“Ａ”の位置情報を、例えば行動計画部等へ出力するように構成されている。

対話部４０及び行動部５０は、このように構成された対話行動制御部３０により制御されて、所望の動作を行う。ここで、対話部４０は、対話行動制御部３０による制御の下、音声を合成してユーザーとの対話用の会話を作成し、図示を省略するスピーカーから出力するように構成されている。行動部５０は、例えば車輪とそれを駆動するモーターなどを備えた走行装置からなり、対話行動制御部３０による制御の下、所定の場所へ向けて走行を行う。

〔３〕対話型学習装置の動作
先ず、図６に基づいて対話型学習装置１における動作の概略を説明し、次に図７に示すシナリオ（ユーザーとロボットとの間の対話）に沿ったモード切換エキスパート３５とトピック認識エキスパート３４との動作について説明する。

図６に示すように、ステップＳ１で音声認識部２０が音声入力装置１０からの音声信号に基づいて音声認識を行う。そして、ステップＳ２で、対話行動制御部３０が音声認識した結果が『モード切換発話か』どうか判断する。ここで、例えば、音声認識結果をテキスト化して、そのテキスト中に『学習モード』の文字が含まれていれば『学習モード』への切換発話と判断する。
ここで、モード切換発話の場合には、ステップＳ３で『学習モードへの切り換え』か『実行モードへの切り換え』かを判断して、ユーザーが指示したモードへ装置を切り換える（ステップＳ４，Ｓ５）。

一方、対話行動制御部３０がステップＳ２でモード切換発話に該当しないと判断した場合には、ステップＳ６でロボットの現在の状況が『学習モード』であるか、『実行モード』であるか判断する。ここで、ロボットが学習モードにある場合には、ステップＳ７で対話行動制御部３０はユーザーの発話音声、即ち場所情報を取得し、ステップＳ８で取得した音声からワードグラフを作成し、ステップＳ９で装置に記憶している複数のワードグラフの集合、即ちトピックが集合した情報を更新する。一方、ロボットが実行モードにある場合には、ステップＳ１０で対話行動制御部３０はユーザーが発話した音声に基づいてワードグラフを作成し、ステップＳ１１では先のステップＳ１０で作成したワードグラフとステップＳ９で記憶しているトピック分類とから最尤のトピック（場所名）を決定する。このようにして、ロボットは、ユーザーが発話したトピックを把握する。

次に、図７中のシナリオに沿って、前述のモード切換エキスパート３５とトピック認識エキスパート３４の振る舞いについて説明する。

ａ）学習モード
ロボットへの教示を始めるために、まずユーザーは切換コマンドを発話する（UO）。この発話は小語彙音声認識器２１によって認識され、言語理解部３１を通じて全てのエキスパートに送られる。認識結果が十分によければ、モード切換エキスパート３５が全てのエキスパートの中で最も高いスコアを返し、次にアクティベートされるエキスパートとなる。

アクティベートされたモード切換エキスパート３５はコマンドに従いトピック認識エキスパート３４を次にアクティベートして学習モードに入るようにタスク計画部３２に指示する。そして、トピック認識エキスパート３４はまず、学習モードに入ったことをユーザーに知らせる（Ｒ１）。これ以降、他のエキスパートがアクティベートされるまでの間、トピック認識エキスパート３４は言語理解の都度、中間的なスコア（０．５）を返す。（アクティベートされていないトピック認識エキスパート３４は常に０を返す。）これにより、より高い確信度を返すことによって他のエキスパートがアクティベート状態を奪わない限り、トピック認識エキスパート３４がユーザー発話に応答する。また、トピック認識エキスパート３４がアクティベートされていて学習モードに入る時、常にロボットがユーザーの近くにいるように制御する。

トピック認識エキスパート３４がユーザー発話（U2）に反応するときは、小語彙音声認識器２１からの認識結果は無視して大語彙音声認識器２２からの認識結果を使用する。ユーザー発話を受け取ったトピック認識エキスパート３４はワードグラフから得られた単語の頻度情報とロボットの現在位置を関連づけて記憶し、名前を学習した旨をユーザーに伝える（Ｒ３）。ユーザーはその場でさらに発話を追加することができる。追加発話から得られた頻度情報によって、記憶されている頻度情報は更新される。
しばしばロボットはユーザーのコマンド発話を場所の名前とし誤学習する。このような場合、ユーザーは『取り消し』ということで直前の誤学習を取り消すことができる。

ｂ）実行モード
学習が完了したら、ユーザーはモード切換コマンド（U６）を発話する。このコマンドに対してトピック認識エキスパート３４がアクティベートされ、実行モードに入ったことをユーザーに伝える（Ｒ７）。トピック認識エキスパート３４はユーザー発話（U８）に対して、音声認識結果から頻度情報を取り出し、それと学習結果が最もよく一致するトピックを選択する。そして、応答するとともにトピックに関連した座標へ移動する（Ｒ９）。

ユーザーは場所を連続して指定することで、ロボットに移動経路を指示することができる。経路を指示するために、まず、経路指定開始コマンドを『経路指定開始』と発話する。コマンドが正しく理解されればロボットがその旨を返答するので、ユーザーは場所の名前を一つずつ発話する。最後に『経路指定終了』と経路指定終了コマンドを発話すれば、ロボットは指定された場所へ順番に移動する。これらのコマンドは、モード切換エキスパート３５によって処理される。

〔４〕対話型学習装置の実施例
図８に示す台車ロボット（全方向移動台車型ロボット）を用いて、予備的な実験を行った。大語彙音声認識器２２にはJulius（高性能音声認識ソフトウエア名）を用い、小語彙音声認識器２１にはJulianを用いた。JulianはJuliusがngram言語モデルを用いる代わりにネットワーク文法を用いるようにしたものである。
ユーザーとロボットの位置情報の取得には超音波タグを用いた。ユーザーとロボットは共に超音波タグを装備し、超音波センサーを備えた部屋の中で活動する。したがって、ロボットは自身とユーザーの位置を部屋の中の絶対座標系の上で認識する。
超音波タグによって検出される座標は、ノイズのために静止状態であっても揺らぐ。加えて、ユーザー発話を待機中のロボット自体もわずかにドリフトしてしまう。そのためロボットは二つの座標点間の距離があるしきい値以下にある場合はそれらを同一地点とみなす。このような措置は、一カ所で複数の発話によって指示を行う場合に必要となる。上記のしきい値は実験的に設定した。

〔５〕対話型学習装置の実施例の評価
（５−１）方法
実験は部屋の中で行った。部屋の大きさは７×４メートル四方である。この部屋の中の五カ所を選択し、＃１〜＃５と書かれたカードを置いた。
被験者は５枚のカードの場所に順に移動し、それぞれの場所の名前を接話マイクを用いて発話した。場所の名前は各被験者が任意に与えた。

（５−２）結果
４名の被験者が実験に参加した。学習モードでは２名の被験者（被験者＃１と＃３）が各地点において１回だけ教示したのに対して、残りの２名の被験者は各地点で３回教示を繰り返した。
表１に結果を示す。

実験に使用した音声認識機(Julius)の辞書と言語モデルはWebテキストから構築されたソフトウェアと共に配布されているものを使用した。辞書サイズは６０２４８語である。全教示発話の中に含まれた２６単語（数え）のうち、２単語だけが辞書に登録されていなかった。したがって未知語率は７．７％であった。既知語と未知語の間で、トピック認証正解率に違いはなかった。

このように、本実施形態に係る対話型学習装置では、未知の言葉がユーザーによって発話された場合にはその言葉に対応した音声に基づいたワードグラフを作成して記憶し、それ以後に同じ未知の言葉が発話された場合には記憶している複数のワードグラフ、即ち複数のトピックのいずれかにユーザーの発話の言葉が対応するかを決定する。具体的には、発話された未知の言葉が、装置が記憶している複数のトピックの何れかに相応するものかマッチングを上記式（１），（２）に基づいて行う。さらに、決定したトピックの中に含まれる複数の用語、例えば複数の単語の内、トピックとの関連が高い用語を相互情報量（式３）に基づいて決定する。

ロボットに入力された言葉、即ち辞書で定義されていない言葉は、音声認識結果に最適合するトピック（出現頻度パターン）として抽出された認識される。出現頻度パターンを用いることで、誤認識に対して強い。さらに語彙外（out-of-vocabulary word）問題がない。

以上詳述したが、本発明はその趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
上記の説明では、本発明の対話型学習装置をロボットに適用した場合を説明した。この種のロボットは、家庭用に限らず、工業的に使用されるものであってもよい。例えば、無人台車などに、本発明の対話型学習装置を走行するシステムと連動して搭載されてもよい。
上記の説明では、ロボットがユーザーに追随して動きまわり、ユーザーが学習モードの下で場所名を発話することで発話と位置情報とを対にして記憶するように構成されているが、ロボットに記憶させる場所名をそこから離れた位置でユーザーが指さすことで、ロボットがユーザーのポインティング方向を認識して場所名と位置情報とを対にして記憶するようにしてもよい。

本発明の対話型学習装置は、カーナビゲーションシステムに装備されてもよい。この場合、乗員やドライバーが走行途中或いは車両が停止しているときに、車両が現在ある場所の地名を発話する。例えば、“Ｆ”と発話する。Ｆは地名とする。対話型学習装置は“Ｆ”に基づいたワードグラフと場所“Ｆ”のＧＰＳ情報とを記憶する。そして、車両が走行して他の場所、例えば、“Ｈ（Ｈは地名とする）”を走行しているときに、カーナビゲーションシステムにおける対話型学習装置の『実行モード』をアクティベートして、ドライバーが“Ｆ”と発話すると、カーナビゲーションシステムは、場所“Ｆ”のＧＰＳ情報を読み出して、場所“Ｈ”から場所“Ｆ”までのルートを設定するように構成されている。

本発明の対話型学習装置の学習モードの時におけるトピックの切換方法は、対話型学習装置自体が場所を移動することで自動で行われるように構成してもよい。

上記説明では、場所や地名の学習に本発明の対話型学習装置を適用した場合を例示したが、本発明の対話型学習装置は、『物』の学習にも利用することができる。この場合、対話型学習装置に記憶させたい各『物』には超音波タグが付されており、対話型学習装置は、ユーザーが発話した物の名称に関連してワードグラフを作成し、このワードグラフと超音波タグにおける周波数をセットで記憶するように構成することで、本発明は『物』の学習にも利用できる。

上記説明において、対話型学習装置１が音声合成部を介してユーザーに対し発話する形態を例示したが、本発明は、音声合成部に代えてディスプレイなどの表示手段或いはランプ等の報知手段を搭載して、非対話型の学習装置として構成することもできる。

本発明では、例えば会話型家庭用ロボットが会話を通じて位置名称を学ぶことができる。把握した各名称はロボットの地図システム上の点に関連づけられる。位置名称の把握および認識には（bag-of-words-based categorization）技法を用いる。すなわち、ロボットは位置名称を言語の出現頻度パターンとして把握し、話された位置名称をパタ−ン間の類似性を計算する事で認識する。こうしてロボットは会話認識の誤りに対してだけでなく、語彙外（out-of-vocabulary word）の名称に対しても頑健になる。本発明によって位置名称を学び、指示された位置に案内する対話および行動管理サブシステムを設計して、全方向性車型ロボットにサブシステムを導入した。このロボットの予備評価の結果はこの方法に将来性があることを示している。

Claims

音声を入力する音声入力装置と、
入力された音声を認識する音声認識部と、
音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、
前記対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、
前記モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、
第１のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第２のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する、非対話型学習装置。
前記トピック認識エキスパートが前記第１のモードにおいてワードグラフを作成し、前記ワードグラフをトピックとする、請求の範囲１に記載の非対話型学習装置。
対話対象の発話された複数の単語が前記音声認識部における辞書に定義されていない場合に、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして前記ワードグラフで表現される、請求の範囲２に記載の非対話型学習装置。
対話対象と対話を行う対話型学習装置において、
音声を入力する音声入力装置と、
入力された音声を認識する音声認識部と、
音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、
前記対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、
前記モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、
第１のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第２のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する、対話型学習装置。
前記トピック認識エキスパートが前記第１のモードにおいてワードグラフを作成し、前記ワードグラフをトピックとする、請求項４に記載の対話型学習装置。
対話対象の発話された複数の単語が前記音声認識部における辞書に定義されていない場合に、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして前記ワードグラフで表現される、請求項５に記載の対話型学習装置。