JPWO2009028647A1 - 非対話型学習装置及び対話型学習装置 - Google Patents

非対話型学習装置及び対話型学習装置 Download PDF

Info

Publication number
JPWO2009028647A1
JPWO2009028647A1 JP2009530194A JP2009530194A JPWO2009028647A1 JP WO2009028647 A1 JPWO2009028647 A1 JP WO2009028647A1 JP 2009530194 A JP2009530194 A JP 2009530194A JP 2009530194 A JP2009530194 A JP 2009530194A JP WO2009028647 A1 JPWO2009028647 A1 JP WO2009028647A1
Authority
JP
Japan
Prior art keywords
topic
mode
expert
recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009530194A
Other languages
English (en)
Other versions
JP5386692B2 (ja
Inventor
直人 岩橋
直人 岩橋
法幸 木村
法幸 木村
幹生 中野
幹生 中野
孝太郎 船越
孝太郎 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
National Institute of Information and Communications Technology
Original Assignee
Honda Motor Co Ltd
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, National Institute of Information and Communications Technology filed Critical Honda Motor Co Ltd
Publication of JPWO2009028647A1 publication Critical patent/JPWO2009028647A1/ja
Application granted granted Critical
Publication of JP5386692B2 publication Critical patent/JP5386692B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Manipulator (AREA)
  • Machine Translation (AREA)

Abstract

対話対象と対話を行う対話型学習装置において、音声を入力する音声入力装置(10)と、入力された音声を認識する音声認識部(20)と、音声認識結果に応じて対話行動を制御する対話行動制御部(30)と、を備え、対話行動制御部(30)が、発話内容の記憶及びマッチングを行うトピック認識エキスパート(34)と、モードの変更を管理するモード切換エキスパート(35)とを有し、モード切換エキスパート(35)が対話対象の発話に応じてモードの切換えを行い、第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。

Description

本発明は、例えば会話型家庭用ロボットに係り、特にロボットがユーザーとの会話を通じてロボット内の音声認識用の辞書で定義されていない用語、例えば地名や部屋の名称、人名等を学べる装置に関する。
掃除などの家事を手伝うロボットが期待されている。そのようなロボットは、主人からの会話による指示を受けるために、主人の家の中や事務所内の場所の名称を知っていなければならない。しかし、ロボットは場所の名称の完全なリストを予め持つ事はできないので、主人はロボットの作業中にそのような情報を与えなければならない。
最も負担の少ない指示方法の一つは現場での口頭指示である。すなわちロボットと共に目的地に行って会話でロボットにその場所の名称を告げる。
しかし、現状の自動会話認識機能はあらかじめ定義された言語を認識するだけである。即ち、大語彙音声認識器(Large Vocabulary Automatic Speech Recognizer:LVASR)はその辞書で予め定義した言葉(既知の言葉)を互いに連結することによって入力された会話を文章として認識するので、辞書で定義されていない言葉(以下、“未知の言葉”或いは“未知語”と言う)を認識できない。辞書は通常何千あるいは何万の言葉を持っているが、それでも日常生活で使うすべての言葉を登録することは不可能である。一般に使用者は言葉が辞書中にあるかどうかを知らないので、使用者が既知の言葉のみで話すことは期待できない。そのような未知の言葉は特に固有名称(例えば商品名とか会社名)としてしばしば現れる。これがいわゆる語彙外(out-of-vocabulary word)問題である。
さらに現状の会話認識機能の認識性能は正確さの点で騒がしい環境下、或いはより具体的には日常生活ではまだ人の性能よりはるかに劣る。例えば、使用者が既知の言葉のみで話すとしても、バックグラウンド雑音などの多くの理由から誤認識がしばしば発生する。
従って、極めて正確な会話認識結果を想定する限り、場所の名称を正確に学ぶロボットを作ることは不可能であり、これ等の問題、即ち言語外及び誤認識に対処する方法は、人とロボットとの間の相互作用にとって必要である。
また、ロボット自身が新しい単語を学習する方法も考えられるが、自動音声認識機能に学習機能を持たせるには、多くの事前学習が必要である。この場合、学習モードを実現するためにシステムが複雑化してしまう。
そこで、本発明は上記課題に鑑み、辞書で定義されていない未知の言葉が発話に含まれていても、その音声を認識できる非対話型学習装置及び対話型学習装置を提供することを目的としている。
本発明は、非対話型の学習装置又は対話対象と対話を行う対話型学習装置において、音声を入力する音声入力装置と、入力された音声を認識する音声認識部と、音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する。
本発明において、トピック認識エキスパートが第1のモードにおいてワードグラフを作成し、このワードグラフをトピックとし、好ましくは、対話対象の発話された複数の単語が音声認識部における辞書に定義されていない場合に、未知語の音声部分を辞書中で音素系列が類似した単語や複数の単語の組み合わせとしてワードグラフで表現する。
本発明で用いるワードグラフを示す図である。 本発明の実施形態におけるトピック認識率と文書の数との関係図である。 本発明の実施形態におけるトピック認識率と索引語率との関係図である。 本発明の実施形態に係る対話型学習装置を示すブロック図である。 図4の対話型学習装置における対話行動制御部を示すブロック図である。 図4の対話型学習装置のフローチャートである。 図6の対話行動制御部におけるモード切換エキスパートとトピック認識エキスパートの振る舞いについて説明するためのシナリオを示す図である。 本発明の実施例を適用したロボットを示す。
符号の説明
1 対話型学習装置
10 音声入力装置
20 音声認識部
21 小語彙音声認識器
22 大語彙音声認識器
30 対話行動制御部
31 言語理解部
32 タスク計画部
33 行動選択部
34 トピック認識エキスパート
35 モード切換エキスパート
40 対話部
50 行動部
以下、本実施形態に係る対話型学習装置(以下、ロボットと言う場合がある)の具体的な構成について説明する。先ず、構成の説明に先立ち、本発明の対話型学習装置の概要を説明する。
〔1〕対話型学習装置の概要
(1−1)基本動作について
本実施形態では、ユーザー(以下、使用者と言う場合がある)が未知の言葉(辞書に登録されていない言葉)として地名や部屋の名称等(以下、位置名称と言う)を発話した際、対話型学習装置がユーザーの発話内容から未知の位置名称を認識する場合について説明する。具体的には、本実施形態は位置名称の学習作業に関する。位置名称学習作業でロボットはその使用者に追随して動き回り、ユーザーとの会話から位置名称と座標情報の対として学ぶ。言い換えると、もしユーザーが位置Pで言語Uを喋れば、ロボットは言語Uから位置名称を得てそれを位置Pに関連づけ、関連した対を記憶に組み込む。
位置名称抽出の標準的方法は言語Uの自動会話認識を行なって認識した一連の言語から名詞を抽出することであるが、本実施形態では、一連の名詞の代りに位置名称として名詞に限らず言葉の出現頻度パターンを用いる。この抽出方法については後述する。
学習が終った後、実行モードにおいては、ロボットは使用者が言葉で指示する場所に移動する。ロボットは使用者の言語から位置名称を抽出し、記憶から位置名称を検索して意図された場所に移動する。位置名称の同定方法についても後述する。
(1−2)対話型学習装置における音声認識について
対話型学習装置は、対話対象であるユーザーと対話を行う装置であり、特に音声認識に当たり予め用意されている辞書では定義されていない未知の言葉をユーザーが発話した場合にはその未知の言葉を記憶する。対話型学習装置は、未知の言葉を一度記憶すると、以後、同じ言葉がユーザーより発話された際にはその言葉を認識する。例えば、地名や人名等の固有名詞は、通常、音声認識用の辞書には定義されていないが、本実施形態においてユーザーが例えば人名として『佐藤』と発話した場合には、その発話の音声を『佐藤』に対応したものと学習し、以後同様の音声が発話内容に含まれている場合には、その音声を『佐藤』と取り扱うことを特徴としている。
(1−3)音声認識に際しての条件
このような未知の言葉に対応できるように、本実施形態に係る対話型学習装置は、ユーザーとの間の相互作用として、以下の仮定(A)〜(F)を条件としている。
(A)ロボットと使用者間の相互作用は二つの明瞭に異なるモードからなる。即ち、学習モードと実行モードである。学習モードは未知の言葉を学習するモードであり、実行モードは学習した後に未知の言葉を認識して所定の行動を行うモードであり、対話型学習装置はこれらの二つのモードの下で動作を行うことを特徴としている。
(B)使用者は学習又は実行が始まる前に次の相互作用のモードを明確に宣言する。
(C)一旦モードが宣言されたら、ロボットと使用者とは次の宣言がモードを切り換えるまでそのモードを続ける。
(D)使用者からの各言語は一位置のみの名称情報、あるいは次のモードへの切り換えの一つだけの指令を含む。
(E)学習モードでは与えられる位置名称がロボットの現在位置を特定する。
(F)実行モードでは与えられる位置名称がロボットの行くべき位置を特定する。
そして、これらの制約の下で、対話型学習装置は所定の動作を行う。
(1−4)本実施形態における音声認識方法
本実施形態に係る対話型学習装置では、音声トピック認識方法(Bag of Words in a Graph: BWG)を利用することで、言葉や文法に何らの制限なく話される言語をトピックとして認識できることを特徴としている。
ここで、位置名称は認識結果中で目立つ言葉の出現頻度パターンとして取得される。本実施形態では、このような出現頻度パターンをトピックと呼ぶ。
特に、音声トピック認識手法は、語彙や文法を制限されること無しに自由に発声された音声、即ちトピックをロボットが理解できるようにするものである。この手法が、前述したように学習(前述の学習モードに相当)と認識(前述の実行モードに相当)の二つのフェーズからなり、学習フェーズでは、場所や人物などに関してユーザーによって話された音声を一つの発話又は複数の発話を用いてトピックとすることにより、音声とトピックの対応付けを学習する。次に、認識フェーズでは入力された音声に対して、学習フェーズで学習された複数のトピックのうちから適切なトピックを一つ選択する。
この音声トピック認識方法は、下記(ア)及び(イ)の二つの特性を持つ。
(ア)言語を最適の一つの文章候補としてではなく、多数候補を含むワードグラフ(単語グラフとも呼ばれる)として認識する。
(イ)ワードグラフを一つの文書と見なすと共にトピック認識技法を適用することによって、言語のトピックを認識する。
従って言語がただ一語であるとしても、言語のトピックは単語の集合として表される。
(1−4−1)ワードグラフを用いた音声認識について
一つのワードグラフは、認識単語を表すエッジ(edge)の集合と、時点を表す頂点(vertex)の集合とからなる。ワードグラフの例を図1に示す。このようなワードグラフの中から音響的および言語的な尤度を基準として第1位からN位までの認識候補を選択することができる。
本実施形態では、未知語を含む音声が入力された場合、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして表現されることを特徴としている。さらに、本実施形態では、音声認識結果として第1位に選択された文ではなく、ワードグラフそのものを用いることで、情報の消失を少なくして、未知語入力や誤認識に対して、後に続く処理の頑健性を高めることができる。
(1−4−2)文書トピック認識方法におけるワードグラフの適用について
本実施形態における会話トピック認識方法はワードグラフを文書とみなし、これに統計的な文書トピック認識の手法を適用するものである。文書トピック認識の手法として、Single Random Variable with Multiple Value法を用いた。この方法は、M. Iwayama and T.Tokunaga:“A probabilistic model for categorization: Based on a single random variable with multiple values”, In proc. Of the 4th Applied Natural Language Processing Conference (ANLP), pp. 119−167(1994)に開示されている。
この手法は、トピックの言語が文法や単語の出現位置や順序に関係なく単語の出現頻度パターンで定義されるbag-of-wordsモデルに基づいたものである。
ここで、テキストdがトピックcである確率P(c|d)は以下のように表す。テキストdからランダムに選択された索引語がtiである事象を表す確率変数をT=tiで表す。
Figure 2009028647
学習フェーズで、P(c|T=ti)は学習用音声サンプルの集合から得られる。一つのワードグラフでワードを数える際に、トークンの数(ワードが話された数)ではなく、タイプ別の数を用いる。即ち、一つのワードグラフにおいて、一つの言葉はたとえ二度以上出現しても一つとして数えられる。予備テストで複数のトークンを用いたとき、結果は良くならなかった。本実施形態では、音響的尤度を用いない。
認識フェーズでは、P(T=ti|d)は入力音声から求められ、P(c|d)は下記のように、テキストdのトピックを決定するために計算される。ここで、cは学習フェーズで得られたトピックの集合である。
Figure 2009028647
式(2)のように、P(c|d)が最も大きくなるトピックcを認識結果とする。
なお、索引語は、学習データの中に含まれる単語の内、トピックとの相互情報量が大きいものを選択する。すなわち、相互情報量としきい値に従って索引語の数は制限される。相互情報量I(Ti;c)は次式で表される。
Figure 2009028647
ここで、Tiは索引語tiが与えられた文書の中に存在する/存在しないかどうかを示す二値を取る。H(c)は確率変数cのエントロピーである。cとTiとが互いに独立ならば、I(Ti;c)は0である。相互情報量を使うことによって、有益でない語を排斥することができる。
このように、本実施形態に係る対話型学習装置では、未知の言葉がユーザーによって発話された場合にはその言葉に対応した音声に基づいたワードグラフを作成して記憶し、それ以後に同じ未知の言葉が発話された場合には記憶している複数のワードグラフ、即ち複数のトピックのいずれかにユーザーの発話の言葉が対応するかを決定する。具体的には、発話された未知の言葉が、装置が記憶している複数のトピックの何れかに相応するものかマッチングを上記式(1),(2)に基づいて行う。さらに、決定したトピックの中に含まれる複数の用語、例えば複数の単語の内、トピックとの関連が高い用語を相互情報量(3)に基づいて決定する。
ロボットに入力された言葉、即ち辞書で定義されていない言葉は、音声認識結果に最適合するトピック(出現頻度パターン)として抽出されて認識される。出現頻度パターンを用いることで誤認識に対して強い。さらに語彙外(out-of-vocabulary word)問題がない。
(1−4−3)評価
会話からワードグラフを発生させるために、Advanced Telecommunication Research Institute(ATR)で開発された携帯PCにマイクが埋めこまれたHMMを基礎とするLVCSRソフトウェアを用いた。言語モデル及び語彙は旅行領域の100万文の会話文から構築された。用語集の大きさは10万語であった。未知の言葉がトピックを支配する状況をシミュレートし、そのような状況でのBWGを評価するために、トピックとして十人の未登録人名を用いた。すなわちこれ等の名前のみが用語外である。把握と認識のために三十歳台の男性が各トピックに対して予め定義された五つの文章を発話した。これ等の文章を下記に示す。各文章のXが十人の名前の一つと置き換えられる。学習フェーズで用いられた文章と認識フェーズで用いられた文章との間に重複はない。これ等の文章が示すように、BWGはロボットが学習していない言葉や語句を含む会話からトピックを認識する(例えば下記文章中の“Where is”や“Please call”など)。
〔学習フェーズ〕
(会話文例1)He is Mr. X.
(会話文例2)Mr. X is famous.
(会話文例3)This belongs to Mr. X.
(会話文例4)Mr. X is the manager.
(会話文例5)Do you know Mr. X?
〔認識フェーズ〕
(会話文例6)Where is Mr. X’s desk?
(会話文例7)Please call Mr. X.
(会話文例8)I’m looking for Mr. X.
(会話文例9)This is what Mr. X makes do with.
(会話文例10)Mr. X is responsible for this.
まずワードグラフの大きさのトピック認識速度に対する効果を検討した。ワードグラフの大きさはグラフにいくつの文章候補が含まれるかによって決められる。図2に示すようにワードグラフの大きさが大きいほど、トピック認識速度は高い(最大はN=58のときである)。このようにワードグラフを用いる情報損失の低減がトピック認識速度の向上に成功したと結論できる。
次に、相互情報による索引語の数を限定する効果を検討した。全入力単語に対する索引語の比によるトピック認識速度を図3に示す。ここでワードグラフの大きさ(グラフ中の文章候補数)はN=58に固定される。最高認識速度は30%と50%との間で得られる。指数項が少な過ぎても多過ぎても認識速度を低下させる。これは学習データ量とモデルの複雑さとの間の関係から理解できる。相互情報が索引語の選択に有効であると結論できた。
〔2〕対話型学習装置の構成
図4は本発明の実施形態に係る対話型学習装置1を示すブロック図である。
本実施形態に係る対話型学習装置1は、ユーザーが発話した音声を音声信号として出力する、例えばマイクロフォンで成る音声入力装置10と、この音声入力装置10からの音声信号をA/D変換すると共にA/D変換された音声信号から音圧などの特徴量を抽出して音声を認識する音声認識部20と、音声認識結果に応じて対話行動を制御する対話行動制御部30と、この対話行動制御部30による制御の下で動作する対話部40及び行動部50と、を備えている。
音声認識部20は、音声入力装置10より供給された音声信号から特徴量を時系列的に抽出し、辞書部(図示省略)に記憶されている単語や文法部(図示省略)に記憶されている文法に基づいて、音声認識を行う。
対話行動制御部30は、音声認識結果に応じて、即ち認識結果として見出されたコマンド(ユーザーより発せられたコマンド)である学習モード及び実行モードの何れかの動作を行う。例えば、対話行動制御部30は、ユーザーが発話した音声を音声認識部20で認識した結果から、ユーザーが『学習モード』を発話したかを判断する。実行モードの場合も同様である。
対話行動制御部30は、二つのモードを切り換えて動作できるように、次のように構成されていることを特徴としている。
図5は、本発明の実施形態に係る対話行動制御部のブロック図である。対話行動制御部30は、RIME(Robot Intelligence based on Multiple Experts)に基づいている。RIMEはエキスパートと呼ぶ複数のモジュールを用いており、各エキスパートは特定のドメインや人に対する対話に従事したり、移動などの物理的行動のタスクを遂行する。対話行動制御部30の出力は、MADL(Multi-modal Action Description Language)の形式をとり、テキスト(例えば“hello”)による会話合成指令と身体運動指令の象徴的代表(例えば“gesture hello”とか“approach join”)の一つまたは組み合わせを含む。一つのMADLの指令は同時に行なわれる。
この対話行動制御部30は、図5に示すように、言語理解部31と、タスク計画部32と、行動選択部33と、トピック認識エキスパート34と、モード切換エキスパート35と、その他のエキスパート36と、を備えている。
なお、図中の小語彙音声認識器(Small Vocabulary Automatic Speech Recognizer:SVASR)21と大語彙音声認識器(Large Vocabulary Automatic Speech Recognizer:LVASR)22とは前述の音声認識部20に備えられており、小語彙音声認識器21は言語理解部31と各エキスパート34〜36とに共用されるが、大語彙音声認識器22はエキスパート専用に設けられている。
言語理解部31は、小語彙音声認識器21の認識結果を各エキスパート34〜36に配布し、各エキスパート34〜36が返すスコア(理解の確信度)に基づいてタスク計画部32に最も適切なエキスパート34〜36を提示する。具体的には、各エキスパート34〜36では、ユーザーが発話した音声の発話パターンの認識結果の解釈を行う。例えば、「学習モードにうつって」というユーザーの発話に対し、各エキスパートが発話中の「学習」部分の音声認識を行う。そして、その発話が自身のエキスパートで扱われるべきかどうかについて、確信度を0から1の間のスコアとして言語理解部31に返す。言語理解部31は、各エキスパート34〜36からの確信度の内、最もスコアが高いエキスパート34〜36を制御すべき対象として選択し、その旨をタスク計画部32に出力する。
タスク計画部32は、言語理解部31からの出力に基づいて、実際にどのエキスパート34〜36をアクティベートするかを決めるものである。
行動選択部33は、アクティベートされたエキスパート34〜36から次の行動を受け取り、ハードウェア制御のための行動部50や、音声合成し出力する対話部40に制御情報を出力する。
この対話行動制御部30は、前述したように、内部に複数のエキスパート34〜36、即ちモード切換エキスパート35とトピック認識エキスパート34とその他のエキスパート36とを備えている。
各エキスパート34〜36は特定のサブタスクを遂行する。ロボットがあるサブタスクを実行しようとするとき、そのサブタスクに対応するエキスパート34〜36が対話行動制御部30の中で活動状態にあり、ロボットの次の行動を選択する。ユーザーからの発話が認識されると、言語理解部31の結果とユーザーが発話した内容の文脈から、次に活動状態になるエキスパート34〜36が決まる。エキスパート34〜36は、オブジェクト指向言語におけるオブジェクトに相当する。各エキスパート34〜36は、それ自身の内部状態を持ち、言語理解結果、対話を通して得られるロボット−ユーザー間の認識の一致度合いを示す基盤化状態、各エキスパートの特定のタスクに対する行動計画である局所的な行動計画などを保持する。
ここで、各エキスパート34〜36のサブタスクについて例示する。
モード切換エキスパート35のサブタスクは、主に前述の二つのコマンド、即ち、『学習モード』及び『実行モード』の二つのモードの何れかを実行させるコマンドが音声認識部での結果に含まれているかを判定することである。例えば、音声認識結果に“学習モード”の用語が含まれていれば、例えばそれまで続けていた“実行モード”を終了させて、装置全体を『学習モード』に切り換える役割を果たし、各エキスパートにその旨の信号を出力する。このような信号を受けたその他のエキスパートは内部の状態を何れかのモードに切り換える。
トピック認識エキスパート34は、ユーザーが発話した音声に基づいて音声ファイルに対応したワードグラフ(単語グラフとも一般的には呼称されている。)を作成するものである。ユーザーが発話した1フレーズ毎に、図1に示すような一つのワードグラフが作成される。
トピック認識エキスパート34は、例えば、大語彙音声認識器22や図示省略する記憶部に格納された辞書や言語モデル等を用いた音声認識によって、具体的には入力音声,音響モデル,言語モデル,辞書の照合結果として、図1に示すようなネットワーク状のワードグラフを作成する。なお、本実施形態においては、例えば、特開平6−295198号公報に開示されている方法に従ってワードグラフが作成される。
作成されたワードグラフは、例えばトピック認識エキスパート34を構成するモジュールの記憶部(図示省略)に格納される。
この種のワードグラフは、本装置における学習モードのときだけでなく、実行モードのときに、ユーザーが発したコマンド以外の音声に対して作成される。具体的には、ロボットに未知の言葉を記憶させたい場合に、学習モードにおいて覚えさせるためにワードグラフが作成される。
トピック認識エキスパート34は、このように作成されたワードグラフに基づいて未知の言語(辞書に登録されていない言語)に対する音声認識を行う。具体的には、本装置が学習モードであるとき、ユーザーから発せられた未知の言葉を含む1または複数回の発話に関してワードグラフを作成する。作成されたワードグラフにおける各単語の出現頻度パターンを記憶する。なお、前述の(E)のように、学習モードで与えられる位置名称がロボットの現在位置を特定することになるため、出現頻度パターンとともにロボットがそのときに位置する位置情報、例えば絶対座標を記憶する。
その後、ユーザーが移動して別の場所で“ここがDです”と発話した場合には、“ここがDです”の入力音声に基づいたワードグラフが別途作成される。その際、位置情報も記憶される。なお、“D”は地名である。
このようにユーザーが発した未知の言語がそれぞれ個別に複数あれば、複数のワードグラフが作成される。これらの各ワードグラフが、話者が発した音声に対応するトピックに該当する。学習モードで作成された各ワードグラフのそれぞれが、前述の式(1)における“トピックc”に該当する。
対話型学習装置1が実行モードにあるとき、ユーザーが未知の言語を発した場合、音声入力された未知の言語が記憶部に格納されている複数のトピックcの何れかに該当し得るか確率を計算し、確率の最も高いトピックを抽出する。このとき、式(1)及び(2)に基づいて確率が求められる。
例えば、対話型学習装置1が実行モードにあるときに、ユーザーが“Aに行って.”と発話した場合、この“Aに行って.”の入力音声に基づいて、図1に示すようなワードグラフ(以下、これを参考テキストdと呼ぶ)を作成する。
そして、この参考テキストからランダムに選択される索引語tiである事象を表す確率変数T=tiを与え、参考テキストdがトピックcである確率P(c|d)の値が最大となるトピックcを抽出する(式1,2参照)。この場合、トピックcとして、“ここがAです”の入力音声に基づいて作成されたワードグラフが選択される。ロボットには、“A”の位置情報(例えば絶対座標)が登録されているので、トピック認識エキスパートは、“A”の位置情報を、例えば行動計画部等へ出力するように構成されている。
対話部40及び行動部50は、このように構成された対話行動制御部30により制御されて、所望の動作を行う。ここで、対話部40は、対話行動制御部30による制御の下、音声を合成してユーザーとの対話用の会話を作成し、図示を省略するスピーカーから出力するように構成されている。行動部50は、例えば車輪とそれを駆動するモーターなどを備えた走行装置からなり、対話行動制御部30による制御の下、所定の場所へ向けて走行を行う。
〔3〕対話型学習装置の動作
先ず、図6に基づいて対話型学習装置1における動作の概略を説明し、次に図7に示すシナリオ(ユーザーとロボットとの間の対話)に沿ったモード切換エキスパート35とトピック認識エキスパート34との動作について説明する。
図6に示すように、ステップS1で音声認識部20が音声入力装置10からの音声信号に基づいて音声認識を行う。そして、ステップS2で、対話行動制御部30が音声認識した結果が『モード切換発話か』どうか判断する。ここで、例えば、音声認識結果をテキスト化して、そのテキスト中に『学習モード』の文字が含まれていれば『学習モード』への切換発話と判断する。
ここで、モード切換発話の場合には、ステップS3で『学習モードへの切り換え』か『実行モードへの切り換え』かを判断して、ユーザーが指示したモードへ装置を切り換える(ステップS4,S5)。
一方、対話行動制御部30がステップS2でモード切換発話に該当しないと判断した場合には、ステップS6でロボットの現在の状況が『学習モード』であるか、『実行モード』であるか判断する。ここで、ロボットが学習モードにある場合には、ステップS7で対話行動制御部30はユーザーの発話音声、即ち場所情報を取得し、ステップS8で取得した音声からワードグラフを作成し、ステップS9で装置に記憶している複数のワードグラフの集合、即ちトピックが集合した情報を更新する。一方、ロボットが実行モードにある場合には、ステップS10で対話行動制御部30はユーザーが発話した音声に基づいてワードグラフを作成し、ステップS11では先のステップS10で作成したワードグラフとステップS9で記憶しているトピック分類とから最尤のトピック(場所名)を決定する。このようにして、ロボットは、ユーザーが発話したトピックを把握する。
次に、図7中のシナリオに沿って、前述のモード切換エキスパート35とトピック認識エキスパート34の振る舞いについて説明する。
a)学習モード
ロボットへの教示を始めるために、まずユーザーは切換コマンドを発話する(UO)。この発話は小語彙音声認識器21によって認識され、言語理解部31を通じて全てのエキスパートに送られる。認識結果が十分によければ、モード切換エキスパート35が全てのエキスパートの中で最も高いスコアを返し、次にアクティベートされるエキスパートとなる。
アクティベートされたモード切換エキスパート35はコマンドに従いトピック認識エキスパート34を次にアクティベートして学習モードに入るようにタスク計画部32に指示する。そして、トピック認識エキスパート34はまず、学習モードに入ったことをユーザーに知らせる(R1)。これ以降、他のエキスパートがアクティベートされるまでの間、トピック認識エキスパート34は言語理解の都度、中間的なスコア(0.5)を返す。(アクティベートされていないトピック認識エキスパート34は常に0を返す。)これにより、より高い確信度を返すことによって他のエキスパートがアクティベート状態を奪わない限り、トピック認識エキスパート34がユーザー発話に応答する。また、トピック認識エキスパート34がアクティベートされていて学習モードに入る時、常にロボットがユーザーの近くにいるように制御する。
トピック認識エキスパート34がユーザー発話(U2)に反応するときは、小語彙音声認識器21からの認識結果は無視して大語彙音声認識器22からの認識結果を使用する。ユーザー発話を受け取ったトピック認識エキスパート34はワードグラフから得られた単語の頻度情報とロボットの現在位置を関連づけて記憶し、名前を学習した旨をユーザーに伝える(R3)。ユーザーはその場でさらに発話を追加することができる。追加発話から得られた頻度情報によって、記憶されている頻度情報は更新される。
しばしばロボットはユーザーのコマンド発話を場所の名前とし誤学習する。このような場合、ユーザーは『取り消し』ということで直前の誤学習を取り消すことができる。
b)実行モード
学習が完了したら、ユーザーはモード切換コマンド(U6)を発話する。このコマンドに対してトピック認識エキスパート34がアクティベートされ、実行モードに入ったことをユーザーに伝える(R7)。トピック認識エキスパート34はユーザー発話(U8)に対して、音声認識結果から頻度情報を取り出し、それと学習結果が最もよく一致するトピックを選択する。そして、応答するとともにトピックに関連した座標へ移動する(R9)。
ユーザーは場所を連続して指定することで、ロボットに移動経路を指示することができる。経路を指示するために、まず、経路指定開始コマンドを『経路指定開始』と発話する。コマンドが正しく理解されればロボットがその旨を返答するので、ユーザーは場所の名前を一つずつ発話する。最後に『経路指定終了』と経路指定終了コマンドを発話すれば、ロボットは指定された場所へ順番に移動する。これらのコマンドは、モード切換エキスパート35によって処理される。
〔4〕対話型学習装置の実施例
図8に示す台車ロボット(全方向移動台車型ロボット)を用いて、予備的な実験を行った。大語彙音声認識器22にはJulius(高性能音声認識ソフトウエア名)を用い、小語彙音声認識器21にはJulianを用いた。JulianはJuliusがngram言語モデルを用いる代わりにネットワーク文法を用いるようにしたものである。
ユーザーとロボットの位置情報の取得には超音波タグを用いた。ユーザーとロボットは共に超音波タグを装備し、超音波センサーを備えた部屋の中で活動する。したがって、ロボットは自身とユーザーの位置を部屋の中の絶対座標系の上で認識する。
超音波タグによって検出される座標は、ノイズのために静止状態であっても揺らぐ。加えて、ユーザー発話を待機中のロボット自体もわずかにドリフトしてしまう。そのためロボットは二つの座標点間の距離があるしきい値以下にある場合はそれらを同一地点とみなす。このような措置は、一カ所で複数の発話によって指示を行う場合に必要となる。上記のしきい値は実験的に設定した。
〔5〕対話型学習装置の実施例の評価
(5−1)方法
実験は部屋の中で行った。部屋の大きさは7×4メートル四方である。この部屋の中の五カ所を選択し、#1〜#5と書かれたカードを置いた。
被験者は5枚のカードの場所に順に移動し、それぞれの場所の名前を接話マイクを用いて発話した。場所の名前は各被験者が任意に与えた。
(5−2)結果
4名の被験者が実験に参加した。学習モードでは2名の被験者(被験者#1と#3)が各地点において1回だけ教示したのに対して、残りの2名の被験者は各地点で3回教示を繰り返した。
表1に結果を示す。
Figure 2009028647
実験に使用した音声認識機(Julius)の辞書と言語モデルはWebテキストから構築されたソフトウェアと共に配布されているものを使用した。辞書サイズは60248語である。全教示発話の中に含まれた26単語(数え)のうち、2単語だけが辞書に登録されていなかった。したがって未知語率は7.7%であった。既知語と未知語の間で、トピック認証正解率に違いはなかった。
このように、本実施形態に係る対話型学習装置では、未知の言葉がユーザーによって発話された場合にはその言葉に対応した音声に基づいたワードグラフを作成して記憶し、それ以後に同じ未知の言葉が発話された場合には記憶している複数のワードグラフ、即ち複数のトピックのいずれかにユーザーの発話の言葉が対応するかを決定する。具体的には、発話された未知の言葉が、装置が記憶している複数のトピックの何れかに相応するものかマッチングを上記式(1),(2)に基づいて行う。さらに、決定したトピックの中に含まれる複数の用語、例えば複数の単語の内、トピックとの関連が高い用語を相互情報量(式3)に基づいて決定する。
ロボットに入力された言葉、即ち辞書で定義されていない言葉は、音声認識結果に最適合するトピック(出現頻度パターン)として抽出された認識される。出現頻度パターンを用いることで、誤認識に対して強い。さらに語彙外(out-of-vocabulary word)問題がない。
以上詳述したが、本発明はその趣旨を逸脱しない範囲において様々な形態で実施をすることができる。
上記の説明では、本発明の対話型学習装置をロボットに適用した場合を説明した。この種のロボットは、家庭用に限らず、工業的に使用されるものであってもよい。例えば、無人台車などに、本発明の対話型学習装置を走行するシステムと連動して搭載されてもよい。
上記の説明では、ロボットがユーザーに追随して動きまわり、ユーザーが学習モードの下で場所名を発話することで発話と位置情報とを対にして記憶するように構成されているが、ロボットに記憶させる場所名をそこから離れた位置でユーザーが指さすことで、ロボットがユーザーのポインティング方向を認識して場所名と位置情報とを対にして記憶するようにしてもよい。
本発明の対話型学習装置は、カーナビゲーションシステムに装備されてもよい。この場合、乗員やドライバーが走行途中或いは車両が停止しているときに、車両が現在ある場所の地名を発話する。例えば、“F”と発話する。Fは地名とする。対話型学習装置は“F”に基づいたワードグラフと場所“F”のGPS情報とを記憶する。そして、車両が走行して他の場所、例えば、“H(Hは地名とする)”を走行しているときに、カーナビゲーションシステムにおける対話型学習装置の『実行モード』をアクティベートして、ドライバーが“F”と発話すると、カーナビゲーションシステムは、場所“F”のGPS情報を読み出して、場所“H”から場所“F”までのルートを設定するように構成されている。
本発明の対話型学習装置の学習モードの時におけるトピックの切換方法は、対話型学習装置自体が場所を移動することで自動で行われるように構成してもよい。
上記説明では、場所や地名の学習に本発明の対話型学習装置を適用した場合を例示したが、本発明の対話型学習装置は、『物』の学習にも利用することができる。この場合、対話型学習装置に記憶させたい各『物』には超音波タグが付されており、対話型学習装置は、ユーザーが発話した物の名称に関連してワードグラフを作成し、このワードグラフと超音波タグにおける周波数をセットで記憶するように構成することで、本発明は『物』の学習にも利用できる。
上記説明において、対話型学習装置1が音声合成部を介してユーザーに対し発話する形態を例示したが、本発明は、音声合成部に代えてディスプレイなどの表示手段或いはランプ等の報知手段を搭載して、非対話型の学習装置として構成することもできる。
本発明では、例えば会話型家庭用ロボットが会話を通じて位置名称を学ぶことができる。把握した各名称はロボットの地図システム上の点に関連づけられる。位置名称の把握および認識には(bag-of-words-based categorization)技法を用いる。すなわち、ロボットは位置名称を言語の出現頻度パターンとして把握し、話された位置名称をパタ−ン間の類似性を計算する事で認識する。こうしてロボットは会話認識の誤りに対してだけでなく、語彙外(out-of-vocabulary word)の名称に対しても頑健になる。本発明によって位置名称を学び、指示された位置に案内する対話および行動管理サブシステムを設計して、全方向性車型ロボットにサブシステムを導入した。このロボットの予備評価の結果はこの方法に将来性があることを示している。

Claims (6)

  1. 音声を入力する音声入力装置と、
    入力された音声を認識する音声認識部と、
    音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、
    前記対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、
    前記モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、
    第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する、非対話型学習装置。
  2. 前記トピック認識エキスパートが前記第1のモードにおいてワードグラフを作成し、前記ワードグラフをトピックとする、請求の範囲1に記載の非対話型学習装置。
  3. 対話対象の発話された複数の単語が前記音声認識部における辞書に定義されていない場合に、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして前記ワードグラフで表現される、請求の範囲2に記載の非対話型学習装置。
  4. 対話対象と対話を行う対話型学習装置において、
    音声を入力する音声入力装置と、
    入力された音声を認識する音声認識部と、
    音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、
    前記対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、
    前記モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、
    第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する、対話型学習装置。
  5. 前記トピック認識エキスパートが前記第1のモードにおいてワードグラフを作成し、前記ワードグラフをトピックとする、請求項4に記載の対話型学習装置。
  6. 対話対象の発話された複数の単語が前記音声認識部における辞書に定義されていない場合に、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして前記ワードグラフで表現される、請求項5に記載の対話型学習装置。
JP2009530194A 2007-08-31 2008-08-29 対話型学習装置 Expired - Fee Related JP5386692B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US96960207P 2007-08-31 2007-08-31
US60/969602 2007-08-31
PCT/JP2008/065498 WO2009028647A1 (ja) 2007-08-31 2008-08-29 非対話型学習装置及び対話型学習装置

Publications (2)

Publication Number Publication Date
JPWO2009028647A1 true JPWO2009028647A1 (ja) 2010-12-02
JP5386692B2 JP5386692B2 (ja) 2014-01-15

Family

ID=40387358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009530194A Expired - Fee Related JP5386692B2 (ja) 2007-08-31 2008-08-29 対話型学習装置

Country Status (3)

Country Link
US (1) US8868410B2 (ja)
JP (1) JP5386692B2 (ja)
WO (1) WO2009028647A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282199A (ja) * 2009-06-02 2010-12-16 Honda Motor Co Ltd 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
JP5715526B2 (ja) * 2010-08-12 2015-05-07 本田技研工業株式会社 対話処理装置、対話処理方法、及び対話処理プログラム
JPWO2012132388A1 (ja) * 2011-03-28 2014-07-24 日本電気株式会社 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム
US9026446B2 (en) * 2011-06-10 2015-05-05 Morgan Fiumi System for generating captions for live video broadcasts
US20130257753A1 (en) * 2012-04-03 2013-10-03 Anirudh Sharma Modeling Actions Based on Speech and Touch Inputs
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
JP6643468B2 (ja) * 2016-05-18 2020-02-12 シャープ株式会社 応答制御装置、制御プログラム、情報処理方法、および通信システム
US10964323B2 (en) * 2016-05-20 2021-03-30 Nippon Telegraph And Telephone Corporation Acquisition method, generation method, system therefor and program for enabling a dialog between a computer and a human using natural language
JP6738436B2 (ja) * 2016-12-20 2020-08-12 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
CN108108652B (zh) * 2017-03-29 2021-11-26 广东工业大学 一种基于字典学习的跨视角人体行为识别方法及装置
CN108235697B (zh) * 2017-09-12 2020-03-31 深圳前海达闼云端智能科技有限公司 一种机器人动态学习方法、系统、机器人以及云端服务器
US20190129591A1 (en) * 2017-10-26 2019-05-02 International Business Machines Corporation Dynamic system and method for content and topic based synchronization during presentations
CN107908801A (zh) * 2017-12-25 2018-04-13 广东小天才科技有限公司 一种基于语音的题目搜索方法及电子设备
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
EP4131057A4 (en) * 2020-03-25 2023-09-20 Sony Group Corporation INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPH03123257A (ja) * 1989-10-06 1991-05-27 Nec Corp 留守番電話機
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JPH11224265A (ja) * 1998-02-06 1999-08-17 Pioneer Electron Corp 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
JP2002281145A (ja) * 2001-03-15 2002-09-27 Denso Corp 電話番号入力装置
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
EP1505571A4 (en) * 2002-04-12 2007-02-21 Mitsubishi Electric Corp AUTONAVIGATION SYSTEM AND VOICE RECOGNITION DEVICE FOR THIS
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
JP4631251B2 (ja) * 2003-05-06 2011-02-16 日本電気株式会社 メディア検索装置およびメディア検索プログラム
JP2004334591A (ja) * 2003-05-08 2004-11-25 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2005257917A (ja) * 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 音声解釈方法、音声解釈装置、音声解釈プログラム
US20060069564A1 (en) * 2004-09-10 2006-03-30 Rightnow Technologies, Inc. Method of weighting speech recognition grammar responses using knowledge base usage data
JP4738847B2 (ja) * 2005-03-07 2011-08-03 キヤノン株式会社 データ検索装置および方法
JP2007013931A (ja) * 2005-05-30 2007-01-18 Denso Corp 車載通信装置および車載通信装置用プログラム
US7538667B2 (en) * 2006-10-24 2009-05-26 Webtech Wireless Inc. Dynamically configurable wireless device

Also Published As

Publication number Publication date
US8868410B2 (en) 2014-10-21
WO2009028647A1 (ja) 2009-03-05
US20100250241A1 (en) 2010-09-30
JP5386692B2 (ja) 2014-01-15

Similar Documents

Publication Publication Date Title
JP5386692B2 (ja) 対話型学習装置
US11996097B2 (en) Multilingual wakeword detection
US10453117B1 (en) Determining domains for natural language understanding
US8566097B2 (en) Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US9159319B1 (en) Keyword spotting with competitor models
WO2015118645A1 (ja) 音声検索装置および音声検索方法
Woellmer et al. Keyword spotting exploiting long short-term memory
JP2001005488A (ja) 音声対話システム
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
Komatani et al. Multi-domain spoken dialogue system with extensibility and robustness against speech recognition errors
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
Wang et al. Sequence teacher-student training of acoustic models for automatic free speaking language assessment
US11615787B2 (en) Dialogue system and method of controlling the same
Vimala et al. Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP2009116075A (ja) 音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Tasnia et al. An overview of bengali speech recognition: Methods, challenges, and future direction
JP4236502B2 (ja) 音声認識装置
Barbosa et al. Voice commanded system for navigation of mobile robots
Funakoshi et al. Robust acquisition and recognition of spoken location names by domestic robots
JP3936827B2 (ja) 音声認識装置および方法
JP2000305590A (ja) 音声認識方法
Djuraev et al. An In-Depth Analysis of Automatic Speech Recognition System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130705

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees