JPWO2009028647A1 - 非対話型学習装置及び対話型学習装置 - Google Patents
非対話型学習装置及び対話型学習装置 Download PDFInfo
- Publication number
- JPWO2009028647A1 JPWO2009028647A1 JP2009530194A JP2009530194A JPWO2009028647A1 JP WO2009028647 A1 JPWO2009028647 A1 JP WO2009028647A1 JP 2009530194 A JP2009530194 A JP 2009530194A JP 2009530194 A JP2009530194 A JP 2009530194A JP WO2009028647 A1 JPWO2009028647 A1 JP WO2009028647A1
- Authority
- JP
- Japan
- Prior art keywords
- topic
- mode
- expert
- recognition
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 61
- 230000006399 behavior Effects 0.000 claims abstract description 26
- 230000008859 change Effects 0.000 abstract description 2
- 230000009471 action Effects 0.000 description 22
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000010391 action planning Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Manipulator (AREA)
- Machine Translation (AREA)
Abstract
Description
10 音声入力装置
20 音声認識部
21 小語彙音声認識器
22 大語彙音声認識器
30 対話行動制御部
31 言語理解部
32 タスク計画部
33 行動選択部
34 トピック認識エキスパート
35 モード切換エキスパート
40 対話部
50 行動部
〔1〕対話型学習装置の概要
(1−1)基本動作について
本実施形態では、ユーザー(以下、使用者と言う場合がある)が未知の言葉(辞書に登録されていない言葉)として地名や部屋の名称等(以下、位置名称と言う)を発話した際、対話型学習装置がユーザーの発話内容から未知の位置名称を認識する場合について説明する。具体的には、本実施形態は位置名称の学習作業に関する。位置名称学習作業でロボットはその使用者に追随して動き回り、ユーザーとの会話から位置名称と座標情報の対として学ぶ。言い換えると、もしユーザーが位置Pで言語Uを喋れば、ロボットは言語Uから位置名称を得てそれを位置Pに関連づけ、関連した対を記憶に組み込む。
対話型学習装置は、対話対象であるユーザーと対話を行う装置であり、特に音声認識に当たり予め用意されている辞書では定義されていない未知の言葉をユーザーが発話した場合にはその未知の言葉を記憶する。対話型学習装置は、未知の言葉を一度記憶すると、以後、同じ言葉がユーザーより発話された際にはその言葉を認識する。例えば、地名や人名等の固有名詞は、通常、音声認識用の辞書には定義されていないが、本実施形態においてユーザーが例えば人名として『佐藤』と発話した場合には、その発話の音声を『佐藤』に対応したものと学習し、以後同様の音声が発話内容に含まれている場合には、その音声を『佐藤』と取り扱うことを特徴としている。
このような未知の言葉に対応できるように、本実施形態に係る対話型学習装置は、ユーザーとの間の相互作用として、以下の仮定(A)〜(F)を条件としている。
(A)ロボットと使用者間の相互作用は二つの明瞭に異なるモードからなる。即ち、学習モードと実行モードである。学習モードは未知の言葉を学習するモードであり、実行モードは学習した後に未知の言葉を認識して所定の行動を行うモードであり、対話型学習装置はこれらの二つのモードの下で動作を行うことを特徴としている。
(B)使用者は学習又は実行が始まる前に次の相互作用のモードを明確に宣言する。
(C)一旦モードが宣言されたら、ロボットと使用者とは次の宣言がモードを切り換えるまでそのモードを続ける。
(D)使用者からの各言語は一位置のみの名称情報、あるいは次のモードへの切り換えの一つだけの指令を含む。
(E)学習モードでは与えられる位置名称がロボットの現在位置を特定する。
(F)実行モードでは与えられる位置名称がロボットの行くべき位置を特定する。
そして、これらの制約の下で、対話型学習装置は所定の動作を行う。
本実施形態に係る対話型学習装置では、音声トピック認識方法(Bag of Words in a Graph: BWG)を利用することで、言葉や文法に何らの制限なく話される言語をトピックとして認識できることを特徴としている。
ここで、位置名称は認識結果中で目立つ言葉の出現頻度パターンとして取得される。本実施形態では、このような出現頻度パターンをトピックと呼ぶ。
特に、音声トピック認識手法は、語彙や文法を制限されること無しに自由に発声された音声、即ちトピックをロボットが理解できるようにするものである。この手法が、前述したように学習(前述の学習モードに相当)と認識(前述の実行モードに相当)の二つのフェーズからなり、学習フェーズでは、場所や人物などに関してユーザーによって話された音声を一つの発話又は複数の発話を用いてトピックとすることにより、音声とトピックの対応付けを学習する。次に、認識フェーズでは入力された音声に対して、学習フェーズで学習された複数のトピックのうちから適切なトピックを一つ選択する。
(ア)言語を最適の一つの文章候補としてではなく、多数候補を含むワードグラフ(単語グラフとも呼ばれる)として認識する。
(イ)ワードグラフを一つの文書と見なすと共にトピック認識技法を適用することによって、言語のトピックを認識する。
従って言語がただ一語であるとしても、言語のトピックは単語の集合として表される。
一つのワードグラフは、認識単語を表すエッジ(edge)の集合と、時点を表す頂点(vertex)の集合とからなる。ワードグラフの例を図1に示す。このようなワードグラフの中から音響的および言語的な尤度を基準として第1位からN位までの認識候補を選択することができる。
本実施形態では、未知語を含む音声が入力された場合、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして表現されることを特徴としている。さらに、本実施形態では、音声認識結果として第1位に選択された文ではなく、ワードグラフそのものを用いることで、情報の消失を少なくして、未知語入力や誤認識に対して、後に続く処理の頑健性を高めることができる。
本実施形態における会話トピック認識方法はワードグラフを文書とみなし、これに統計的な文書トピック認識の手法を適用するものである。文書トピック認識の手法として、Single Random Variable with Multiple Value法を用いた。この方法は、M. Iwayama and T.Tokunaga:“A probabilistic model for categorization: Based on a single random variable with multiple values”, In proc. Of the 4th Applied Natural Language Processing Conference (ANLP), pp. 119−167(1994)に開示されている。
この手法は、トピックの言語が文法や単語の出現位置や順序に関係なく単語の出現頻度パターンで定義されるbag-of-wordsモデルに基づいたものである。
ここで、テキストdがトピックcである確率P(c|d)は以下のように表す。テキストdからランダムに選択された索引語がtiである事象を表す確率変数をT=tiで表す。
認識フェーズでは、P(T=ti|d)は入力音声から求められ、P(c|d)は下記のように、テキストdのトピックを決定するために計算される。ここで、cは学習フェーズで得られたトピックの集合である。
なお、索引語は、学習データの中に含まれる単語の内、トピックとの相互情報量が大きいものを選択する。すなわち、相互情報量としきい値に従って索引語の数は制限される。相互情報量I(Ti;c)は次式で表される。
会話からワードグラフを発生させるために、Advanced Telecommunication Research Institute(ATR)で開発された携帯PCにマイクが埋めこまれたHMMを基礎とするLVCSRソフトウェアを用いた。言語モデル及び語彙は旅行領域の100万文の会話文から構築された。用語集の大きさは10万語であった。未知の言葉がトピックを支配する状況をシミュレートし、そのような状況でのBWGを評価するために、トピックとして十人の未登録人名を用いた。すなわちこれ等の名前のみが用語外である。把握と認識のために三十歳台の男性が各トピックに対して予め定義された五つの文章を発話した。これ等の文章を下記に示す。各文章のXが十人の名前の一つと置き換えられる。学習フェーズで用いられた文章と認識フェーズで用いられた文章との間に重複はない。これ等の文章が示すように、BWGはロボットが学習していない言葉や語句を含む会話からトピックを認識する(例えば下記文章中の“Where is”や“Please call”など)。
(会話文例1)He is Mr. X.
(会話文例2)Mr. X is famous.
(会話文例3)This belongs to Mr. X.
(会話文例4)Mr. X is the manager.
(会話文例5)Do you know Mr. X?
〔認識フェーズ〕
(会話文例6)Where is Mr. X’s desk?
(会話文例7)Please call Mr. X.
(会話文例8)I’m looking for Mr. X.
(会話文例9)This is what Mr. X makes do with.
(会話文例10)Mr. X is responsible for this.
図4は本発明の実施形態に係る対話型学習装置1を示すブロック図である。
本実施形態に係る対話型学習装置1は、ユーザーが発話した音声を音声信号として出力する、例えばマイクロフォンで成る音声入力装置10と、この音声入力装置10からの音声信号をA/D変換すると共にA/D変換された音声信号から音圧などの特徴量を抽出して音声を認識する音声認識部20と、音声認識結果に応じて対話行動を制御する対話行動制御部30と、この対話行動制御部30による制御の下で動作する対話部40及び行動部50と、を備えている。
図5は、本発明の実施形態に係る対話行動制御部のブロック図である。対話行動制御部30は、RIME(Robot Intelligence based on Multiple Experts)に基づいている。RIMEはエキスパートと呼ぶ複数のモジュールを用いており、各エキスパートは特定のドメインや人に対する対話に従事したり、移動などの物理的行動のタスクを遂行する。対話行動制御部30の出力は、MADL(Multi-modal Action Description Language)の形式をとり、テキスト(例えば“hello”)による会話合成指令と身体運動指令の象徴的代表(例えば“gesture hello”とか“approach join”)の一つまたは組み合わせを含む。一つのMADLの指令は同時に行なわれる。
なお、図中の小語彙音声認識器(Small Vocabulary Automatic Speech Recognizer:SVASR)21と大語彙音声認識器(Large Vocabulary Automatic Speech Recognizer:LVASR)22とは前述の音声認識部20に備えられており、小語彙音声認識器21は言語理解部31と各エキスパート34〜36とに共用されるが、大語彙音声認識器22はエキスパート専用に設けられている。
タスク計画部32は、言語理解部31からの出力に基づいて、実際にどのエキスパート34〜36をアクティベートするかを決めるものである。
行動選択部33は、アクティベートされたエキスパート34〜36から次の行動を受け取り、ハードウェア制御のための行動部50や、音声合成し出力する対話部40に制御情報を出力する。
各エキスパート34〜36は特定のサブタスクを遂行する。ロボットがあるサブタスクを実行しようとするとき、そのサブタスクに対応するエキスパート34〜36が対話行動制御部30の中で活動状態にあり、ロボットの次の行動を選択する。ユーザーからの発話が認識されると、言語理解部31の結果とユーザーが発話した内容の文脈から、次に活動状態になるエキスパート34〜36が決まる。エキスパート34〜36は、オブジェクト指向言語におけるオブジェクトに相当する。各エキスパート34〜36は、それ自身の内部状態を持ち、言語理解結果、対話を通して得られるロボット−ユーザー間の認識の一致度合いを示す基盤化状態、各エキスパートの特定のタスクに対する行動計画である局所的な行動計画などを保持する。
モード切換エキスパート35のサブタスクは、主に前述の二つのコマンド、即ち、『学習モード』及び『実行モード』の二つのモードの何れかを実行させるコマンドが音声認識部での結果に含まれているかを判定することである。例えば、音声認識結果に“学習モード”の用語が含まれていれば、例えばそれまで続けていた“実行モード”を終了させて、装置全体を『学習モード』に切り換える役割を果たし、各エキスパートにその旨の信号を出力する。このような信号を受けたその他のエキスパートは内部の状態を何れかのモードに切り換える。
トピック認識エキスパート34は、例えば、大語彙音声認識器22や図示省略する記憶部に格納された辞書や言語モデル等を用いた音声認識によって、具体的には入力音声,音響モデル,言語モデル,辞書の照合結果として、図1に示すようなネットワーク状のワードグラフを作成する。なお、本実施形態においては、例えば、特開平6−295198号公報に開示されている方法に従ってワードグラフが作成される。
作成されたワードグラフは、例えばトピック認識エキスパート34を構成するモジュールの記憶部(図示省略)に格納される。
この種のワードグラフは、本装置における学習モードのときだけでなく、実行モードのときに、ユーザーが発したコマンド以外の音声に対して作成される。具体的には、ロボットに未知の言葉を記憶させたい場合に、学習モードにおいて覚えさせるためにワードグラフが作成される。
その後、ユーザーが移動して別の場所で“ここがDです”と発話した場合には、“ここがDです”の入力音声に基づいたワードグラフが別途作成される。その際、位置情報も記憶される。なお、“D”は地名である。
例えば、対話型学習装置1が実行モードにあるときに、ユーザーが“Aに行って.”と発話した場合、この“Aに行って.”の入力音声に基づいて、図1に示すようなワードグラフ(以下、これを参考テキストdと呼ぶ)を作成する。
先ず、図6に基づいて対話型学習装置1における動作の概略を説明し、次に図7に示すシナリオ(ユーザーとロボットとの間の対話)に沿ったモード切換エキスパート35とトピック認識エキスパート34との動作について説明する。
ここで、モード切換発話の場合には、ステップS3で『学習モードへの切り換え』か『実行モードへの切り換え』かを判断して、ユーザーが指示したモードへ装置を切り換える(ステップS4,S5)。
ロボットへの教示を始めるために、まずユーザーは切換コマンドを発話する(UO)。この発話は小語彙音声認識器21によって認識され、言語理解部31を通じて全てのエキスパートに送られる。認識結果が十分によければ、モード切換エキスパート35が全てのエキスパートの中で最も高いスコアを返し、次にアクティベートされるエキスパートとなる。
しばしばロボットはユーザーのコマンド発話を場所の名前とし誤学習する。このような場合、ユーザーは『取り消し』ということで直前の誤学習を取り消すことができる。
学習が完了したら、ユーザーはモード切換コマンド(U6)を発話する。このコマンドに対してトピック認識エキスパート34がアクティベートされ、実行モードに入ったことをユーザーに伝える(R7)。トピック認識エキスパート34はユーザー発話(U8)に対して、音声認識結果から頻度情報を取り出し、それと学習結果が最もよく一致するトピックを選択する。そして、応答するとともにトピックに関連した座標へ移動する(R9)。
図8に示す台車ロボット(全方向移動台車型ロボット)を用いて、予備的な実験を行った。大語彙音声認識器22にはJulius(高性能音声認識ソフトウエア名)を用い、小語彙音声認識器21にはJulianを用いた。JulianはJuliusがngram言語モデルを用いる代わりにネットワーク文法を用いるようにしたものである。
ユーザーとロボットの位置情報の取得には超音波タグを用いた。ユーザーとロボットは共に超音波タグを装備し、超音波センサーを備えた部屋の中で活動する。したがって、ロボットは自身とユーザーの位置を部屋の中の絶対座標系の上で認識する。
超音波タグによって検出される座標は、ノイズのために静止状態であっても揺らぐ。加えて、ユーザー発話を待機中のロボット自体もわずかにドリフトしてしまう。そのためロボットは二つの座標点間の距離があるしきい値以下にある場合はそれらを同一地点とみなす。このような措置は、一カ所で複数の発話によって指示を行う場合に必要となる。上記のしきい値は実験的に設定した。
(5−1)方法
実験は部屋の中で行った。部屋の大きさは7×4メートル四方である。この部屋の中の五カ所を選択し、#1〜#5と書かれたカードを置いた。
被験者は5枚のカードの場所に順に移動し、それぞれの場所の名前を接話マイクを用いて発話した。場所の名前は各被験者が任意に与えた。
4名の被験者が実験に参加した。学習モードでは2名の被験者(被験者#1と#3)が各地点において1回だけ教示したのに対して、残りの2名の被験者は各地点で3回教示を繰り返した。
表1に結果を示す。
上記の説明では、本発明の対話型学習装置をロボットに適用した場合を説明した。この種のロボットは、家庭用に限らず、工業的に使用されるものであってもよい。例えば、無人台車などに、本発明の対話型学習装置を走行するシステムと連動して搭載されてもよい。
上記の説明では、ロボットがユーザーに追随して動きまわり、ユーザーが学習モードの下で場所名を発話することで発話と位置情報とを対にして記憶するように構成されているが、ロボットに記憶させる場所名をそこから離れた位置でユーザーが指さすことで、ロボットがユーザーのポインティング方向を認識して場所名と位置情報とを対にして記憶するようにしてもよい。
Claims (6)
- 音声を入力する音声入力装置と、
入力された音声を認識する音声認識部と、
音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、
前記対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、
前記モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、
第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する、非対話型学習装置。 - 前記トピック認識エキスパートが前記第1のモードにおいてワードグラフを作成し、前記ワードグラフをトピックとする、請求の範囲1に記載の非対話型学習装置。
- 対話対象の発話された複数の単語が前記音声認識部における辞書に定義されていない場合に、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして前記ワードグラフで表現される、請求の範囲2に記載の非対話型学習装置。
- 対話対象と対話を行う対話型学習装置において、
音声を入力する音声入力装置と、
入力された音声を認識する音声認識部と、
音声認識結果に応じて対話行動を制御する対話行動制御部と、を備え、
前記対話行動制御部が、発話内容の記憶及びマッチングを行うトピック認識エキスパートと、モードの変更を管理するモード切換エキスパートとを有し、
前記モード切換エキスパートが対話対象の発話に応じてモードの切換えを行い、
第1のモードでは発話された複数の単語をトピックとして記録するとともに、記録された複数のトピックに対して、第2のモードで発話された内容をマッチングして、最も尤度の高いトピックを選択する、対話型学習装置。 - 前記トピック認識エキスパートが前記第1のモードにおいてワードグラフを作成し、前記ワードグラフをトピックとする、請求項4に記載の対話型学習装置。
- 対話対象の発話された複数の単語が前記音声認識部における辞書に定義されていない場合に、未知語の音声部分は辞書中で音素系列が類似した単語や複数の単語の組み合わせとして前記ワードグラフで表現される、請求項5に記載の対話型学習装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US96960207P | 2007-08-31 | 2007-08-31 | |
US60/969602 | 2007-08-31 | ||
PCT/JP2008/065498 WO2009028647A1 (ja) | 2007-08-31 | 2008-08-29 | 非対話型学習装置及び対話型学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009028647A1 true JPWO2009028647A1 (ja) | 2010-12-02 |
JP5386692B2 JP5386692B2 (ja) | 2014-01-15 |
Family
ID=40387358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009530194A Expired - Fee Related JP5386692B2 (ja) | 2007-08-31 | 2008-08-29 | 対話型学習装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8868410B2 (ja) |
JP (1) | JP5386692B2 (ja) |
WO (1) | WO2009028647A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010282199A (ja) * | 2009-06-02 | 2010-12-16 | Honda Motor Co Ltd | 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム |
FR2962048A1 (fr) * | 2010-07-02 | 2012-01-06 | Aldebaran Robotics S A | Robot humanoide joueur, methode et systeme d'utilisation dudit robot |
JP5715526B2 (ja) * | 2010-08-12 | 2015-05-07 | 本田技研工業株式会社 | 対話処理装置、対話処理方法、及び対話処理プログラム |
JPWO2012132388A1 (ja) * | 2011-03-28 | 2014-07-24 | 日本電気株式会社 | テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム |
US9026446B2 (en) * | 2011-06-10 | 2015-05-05 | Morgan Fiumi | System for generating captions for live video broadcasts |
US20130257753A1 (en) * | 2012-04-03 | 2013-10-03 | Anirudh Sharma | Modeling Actions Based on Speech and Touch Inputs |
CN103065630B (zh) * | 2012-12-28 | 2015-01-07 | 科大讯飞股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN103077165A (zh) * | 2012-12-31 | 2013-05-01 | 威盛电子股份有限公司 | 自然语言对话方法及其系统 |
US20150058006A1 (en) * | 2013-08-23 | 2015-02-26 | Xerox Corporation | Phonetic alignment for user-agent dialogue recognition |
TWI536366B (zh) * | 2014-03-18 | 2016-06-01 | 財團法人工業技術研究院 | 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體 |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
JP6643468B2 (ja) * | 2016-05-18 | 2020-02-12 | シャープ株式会社 | 応答制御装置、制御プログラム、情報処理方法、および通信システム |
US10964323B2 (en) * | 2016-05-20 | 2021-03-30 | Nippon Telegraph And Telephone Corporation | Acquisition method, generation method, system therefor and program for enabling a dialog between a computer and a human using natural language |
JP6738436B2 (ja) * | 2016-12-20 | 2020-08-12 | 日本電信電話株式会社 | 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム |
CN108108652B (zh) * | 2017-03-29 | 2021-11-26 | 广东工业大学 | 一种基于字典学习的跨视角人体行为识别方法及装置 |
CN108235697B (zh) * | 2017-09-12 | 2020-03-31 | 深圳前海达闼云端智能科技有限公司 | 一种机器人动态学习方法、系统、机器人以及云端服务器 |
US20190129591A1 (en) * | 2017-10-26 | 2019-05-02 | International Business Machines Corporation | Dynamic system and method for content and topic based synchronization during presentations |
CN107908801A (zh) * | 2017-12-25 | 2018-04-13 | 广东小天才科技有限公司 | 一种基于语音的题目搜索方法及电子设备 |
KR102228866B1 (ko) * | 2018-10-18 | 2021-03-17 | 엘지전자 주식회사 | 로봇 및 그의 제어 방법 |
EP4131057A4 (en) * | 2020-03-25 | 2023-09-20 | Sony Group Corporation | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
JPH03123257A (ja) * | 1989-10-06 | 1991-05-27 | Nec Corp | 留守番電話機 |
US5454062A (en) * | 1991-03-27 | 1995-09-26 | Audio Navigation Systems, Inc. | Method for recognizing spoken words |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
JPH11224265A (ja) * | 1998-02-06 | 1999-08-17 | Pioneer Electron Corp | 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体 |
US6965863B1 (en) * | 1998-11-12 | 2005-11-15 | Microsoft Corporation | Speech recognition user interface |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
JP2002281145A (ja) * | 2001-03-15 | 2002-09-27 | Denso Corp | 電話番号入力装置 |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
EP1505571A4 (en) * | 2002-04-12 | 2007-02-21 | Mitsubishi Electric Corp | AUTONAVIGATION SYSTEM AND VOICE RECOGNITION DEVICE FOR THIS |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
JP4631251B2 (ja) * | 2003-05-06 | 2011-02-16 | 日本電気株式会社 | メディア検索装置およびメディア検索プログラム |
JP2004334591A (ja) * | 2003-05-08 | 2004-11-25 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2005257917A (ja) * | 2004-03-10 | 2005-09-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声解釈方法、音声解釈装置、音声解釈プログラム |
US20060069564A1 (en) * | 2004-09-10 | 2006-03-30 | Rightnow Technologies, Inc. | Method of weighting speech recognition grammar responses using knowledge base usage data |
JP4738847B2 (ja) * | 2005-03-07 | 2011-08-03 | キヤノン株式会社 | データ検索装置および方法 |
JP2007013931A (ja) * | 2005-05-30 | 2007-01-18 | Denso Corp | 車載通信装置および車載通信装置用プログラム |
US7538667B2 (en) * | 2006-10-24 | 2009-05-26 | Webtech Wireless Inc. | Dynamically configurable wireless device |
-
2008
- 2008-08-29 WO PCT/JP2008/065498 patent/WO2009028647A1/ja active Application Filing
- 2008-08-29 JP JP2009530194A patent/JP5386692B2/ja not_active Expired - Fee Related
- 2008-08-29 US US12/675,381 patent/US8868410B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8868410B2 (en) | 2014-10-21 |
WO2009028647A1 (ja) | 2009-03-05 |
US20100250241A1 (en) | 2010-09-30 |
JP5386692B2 (ja) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5386692B2 (ja) | 対話型学習装置 | |
US11996097B2 (en) | Multilingual wakeword detection | |
US10453117B1 (en) | Determining domains for natural language understanding | |
US8566097B2 (en) | Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program | |
US11830485B2 (en) | Multiple speech processing system with synthesized speech styles | |
US9159319B1 (en) | Keyword spotting with competitor models | |
WO2015118645A1 (ja) | 音声検索装置および音声検索方法 | |
Woellmer et al. | Keyword spotting exploiting long short-term memory | |
JP2001005488A (ja) | 音声対話システム | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
Komatani et al. | Multi-domain spoken dialogue system with extensibility and robustness against speech recognition errors | |
Zhang et al. | Wake-up-word spotting using end-to-end deep neural network system | |
Wang et al. | Sequence teacher-student training of acoustic models for automatic free speaking language assessment | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
Vimala et al. | Isolated speech recognition system for Tamil language using statistical pattern matching and machine learning techniques | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
JP2009116075A (ja) | 音声認識装置 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
Tasnia et al. | An overview of bengali speech recognition: Methods, challenges, and future direction | |
JP4236502B2 (ja) | 音声認識装置 | |
Barbosa et al. | Voice commanded system for navigation of mobile robots | |
Funakoshi et al. | Robust acquisition and recognition of spoken location names by domestic robots | |
JP3936827B2 (ja) | 音声認識装置および方法 | |
JP2000305590A (ja) | 音声認識方法 | |
Djuraev et al. | An In-Depth Analysis of Automatic Speech Recognition System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130312 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130705 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130906 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |