JPWO2015151157A1 - 意図理解装置および方法 - Google Patents
意図理解装置および方法 Download PDFInfo
- Publication number
- JPWO2015151157A1 JPWO2015151157A1 JP2016511184A JP2016511184A JPWO2015151157A1 JP WO2015151157 A1 JPWO2015151157 A1 JP WO2015151157A1 JP 2016511184 A JP2016511184 A JP 2016511184A JP 2016511184 A JP2016511184 A JP 2016511184A JP WO2015151157 A1 JPWO2015151157 A1 JP WO2015151157A1
- Authority
- JP
- Japan
- Prior art keywords
- intention
- understanding
- result
- unit
- intention understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 54
- 238000012937 correction Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 20
- 238000012790 confirmation Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 16
- 230000000877 morphologic effect Effects 0.000 description 15
- 238000012217 deletion Methods 0.000 description 11
- 230000037430 deletion Effects 0.000 description 11
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 101000911772 Homo sapiens Hsc70-interacting protein Proteins 0.000 description 6
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 5
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 5
- 108090000237 interleukin-24 Proteins 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 101000585359 Homo sapiens Suppressor of tumorigenicity 20 protein Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 125000004079 stearyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
音声認識部3は一の入力音声2から複数の音声認識結果を生成する。意図理解部7は音声認識結果ごとに意図を推定して一以上の意図理解結果とスコアとを出力する。重み計算部11は、制御対象機器の設定情報9を用いて待ち受け重みを計算する。意図理解補正部12は、待ち受け重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアに基づいて意図理解結果候補の中から意図理解結果13を選択する。
Description
この発明は、音声認識結果からユーザの意図を推定する意図理解装置およびその方法に関するものである。
近年、人間が喋った言葉の音声認識結果を用いて、装置の操作を実行する技術が注目されている。この技術は、携帯電話、ナビゲーション装置などの音声インタフェースとして利用されている。従来の基本的な方法として、例えば装置が、予め想定される音声認識結果と操作との対応関係を記憶しておき、ユーザが発話した音声の認識結果が想定されたものの場合にその認識結果に対応する操作を実行するという方法がある。
この方法は、ユーザが手動で操作する場合と比べると、音声の発話によって直接操作ができるため、ショートカット機能として有効に働く。一方で、ユーザは操作を実行するために、装置が待ち受けている言葉を発話する必要があり、装置が扱う機能が増えていくとユーザが覚えておかなくてはならない言葉が増えていく。また一般には、取り扱い説明書を十分に理解した上で装置を使用するユーザは少なく、理解していないユーザは操作のために何をどう言えばいいのかが分からないので、実際には覚えている機能のコマンド以外、音声で操作できないという問題があった。
この方法は、ユーザが手動で操作する場合と比べると、音声の発話によって直接操作ができるため、ショートカット機能として有効に働く。一方で、ユーザは操作を実行するために、装置が待ち受けている言葉を発話する必要があり、装置が扱う機能が増えていくとユーザが覚えておかなくてはならない言葉が増えていく。また一般には、取り扱い説明書を十分に理解した上で装置を使用するユーザは少なく、理解していないユーザは操作のために何をどう言えばいいのかが分からないので、実際には覚えている機能のコマンド以外、音声で操作できないという問題があった。
そこで、上記の問題を改良した技術として、ユーザが目的を達成するためのコマンドを覚えていなくても、対話によって装置がユーザを誘導して目的を達成に導く方法が提案されている。その実現の方法の一つの重要な技術として、ユーザの発話から正しくそのユーザの意図を推定する技術が、例えば特許文献1に開示されている。
特許文献1の音声処理装置は、複数の意図のそれぞれを示す複数の意図情報ごとに、言語的な辞書データベースおよび文法データベースを持ち、さらには、それまでに実行されたコマンドの情報を事前スコアとして保持する。この音声処理装置は、ユーザの発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアとして、複数の意図情報ごとに音響スコア、言語スコア、および事前スコアを算出し、これらのスコアを総合して得られる総合スコアが最大となる意図情報を選択する。さらに、音声処理装置が総合スコアに基づき、選択した意図情報を実行、ユーザに確認後実行、または棄却することについて開示されている。
ただし、特許文献1では、定義される意図が「天気を教えてください」、「時間を教えてください」のような形の一意に決定される意図であって、例えばナビゲーション装置の目的地設定で必要となる多用な施設名を含むような意図を想定した処理については言及されていない。
上記特許文献1に係る音声処理装置では音声認識結果が意図ごとに設計されるため、複数の異なる意図の中からの選択と、最終的に選択された意図情報の実行と棄却の判定が行われるだけで、音声認識結果の次候補を扱わない。
例えば、ユーザが音楽を聴いている状態で「音楽を聴かない」といった発話をした場合に、「音楽を聴きたい」という第1候補と、「音楽を聴かない」という第2候補の意図が結果として求まったときには、第1候補の「音楽を聴きたい」が選択される。
さらに、ナビゲーション装置の目的地に既に「○○センター」が設定されている状態で、ユーザが経由地を追加するために「○×センターに立ち寄る」といった発話をした結果、「○○センターに立ち寄る」が第1候補、「○×センターに立ち寄る」が第2候補の意図であった場合にも、第1候補の「○○センターに立ち寄る」が選択される。
例えば、ユーザが音楽を聴いている状態で「音楽を聴かない」といった発話をした場合に、「音楽を聴きたい」という第1候補と、「音楽を聴かない」という第2候補の意図が結果として求まったときには、第1候補の「音楽を聴きたい」が選択される。
さらに、ナビゲーション装置の目的地に既に「○○センター」が設定されている状態で、ユーザが経由地を追加するために「○×センターに立ち寄る」といった発話をした結果、「○○センターに立ち寄る」が第1候補、「○×センターに立ち寄る」が第2候補の意図であった場合にも、第1候補の「○○センターに立ち寄る」が選択される。
このように、従来の装置は次候補を扱わないのでユーザの意図を正しく理解することが難しいという課題があった。その結果として、ユーザが選択された第1候補をキャンセルして、再度発話しなければならなかった。
この発明は、上記のような課題を解決するためになされたもので、入力音声を用いて、ユーザの意図を正しく理解する意図理解装置および方法を提供することを目的とする。
この発明に係る意図理解装置は、ユーザが自然言語で発話した一の音声を認識して複数の音声認識結果を生成する音声認識部と、音声認識結果それぞれを形態素列に変換する形態素解析部と、形態素列に基づいてユーザの発話の意図を推定し、一の形態素列から一以上の意図理解結果候補と尤もらしさの度合いを表すスコアとを出力する意図理解部と、意図理解結果候補ごとの重みを計算する重み計算部と、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアに基づいて意図理解結果候補の中から意図理解結果を選択する意図理解補正部とを備えるものである。
この発明に係る意図理解方法は、ユーザが自然言語で発話した一の音声を認識して複数の音声認識結果を生成する音声認識ステップと、音声認識結果それぞれを形態素列に変換する形態素解析ステップと、形態素列に基づいてユーザの発話の意図を推定し、一の形態素列から一以上の意図理解結果候補と尤もらしさの度合いを表すスコアとを出力する意図理解ステップと、意図理解結果候補ごとの重みを計算する重み計算ステップと、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアに基づいて意図理解結果候補の中から意図理解結果を選択する意図理解補正ステップとを備えるものである。
この発明によれば、一の音声から複数の音声認識結果を生成し、音声認識結果のそれぞれから意図理解結果候補を生成し、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアに基づいて複数の意図理解結果候補の中から意図理解結果を選択するようにしたので、入力音声に対する音声認識結果の第1候補だけでなく次候補も含めた中から最終的な意図理解結果を選択することができる。従って、ユーザの意図を正しく理解可能な意図理解装置を提供することができる。
この発明によれば、一の音声から複数の音声認識結果を生成し、音声認識結果のそれぞれから意図理解結果候補を生成し、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアに基づいて複数の意図理解結果候補の中から意図理解結果を選択するようにしたので、入力音声に対する音声認識結果の第1候補だけでなく次候補も含めた中から最終的な意図理解結果を選択することができる。従って、ユーザの意図を正しく理解可能な意図理解方法を提供することができる。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1に示すように、本発明の実施の形態1に係る意図理解装置1は、ユーザが発話した入力音声2を音声認識してテキストに変換する音声認識部3と、音声認識部3が音声認識に用いる音声認識辞書4と、音声認識結果を形態素に分解する形態素解析部5と、形態素解析部5が形態素解析に用いる形態素解析辞書6と、形態素解析結果から意図理解結果の候補を生成する意図理解部7と、意図理解部7がユーザの意図を推定するために用いる意図理解モデル8と、制御対象機器の設定情報9を記憶する設定情報記憶部10と、設定情報記憶部10の設定情報9を用いて重みを計算する重み計算部11と、重みを用いて意図理解結果の候補を補正しその中から最終的な意図理解結果13を選択して出力する意図理解補正部12とを備えている。
実施の形態1.
図1に示すように、本発明の実施の形態1に係る意図理解装置1は、ユーザが発話した入力音声2を音声認識してテキストに変換する音声認識部3と、音声認識部3が音声認識に用いる音声認識辞書4と、音声認識結果を形態素に分解する形態素解析部5と、形態素解析部5が形態素解析に用いる形態素解析辞書6と、形態素解析結果から意図理解結果の候補を生成する意図理解部7と、意図理解部7がユーザの意図を推定するために用いる意図理解モデル8と、制御対象機器の設定情報9を記憶する設定情報記憶部10と、設定情報記憶部10の設定情報9を用いて重みを計算する重み計算部11と、重みを用いて意図理解結果の候補を補正しその中から最終的な意図理解結果13を選択して出力する意図理解補正部12とを備えている。
意図理解装置1は、不図示のCPU(Central Processing Unit)で構成されており、このCPUが内部メモリに格納されたプログラムを実行することによって、音声認識部3、形態素解析部5、意図理解部7、重み計算部11、および意図理解補正部12としての機能を実現する。
音声認識辞書4、形態素解析辞書6、意図理解モデル8、および設定情報記憶部10は、HDD(Hard Disk Drive)、DVD(Digital Versatile Disc)、メモリ等によって構成されている。
音声認識辞書4、形態素解析辞書6、意図理解モデル8、および設定情報記憶部10は、HDD(Hard Disk Drive)、DVD(Digital Versatile Disc)、メモリ等によって構成されている。
図2は、意図理解装置1を音声インタフェースとして組み込んだナビゲーション装置100の構成を示すブロック図である。このナビゲーション装置100が、音声による制御対象である。音声入力部101は、マイクロフォン等から構成され、ユーザが発話した音声を信号に変換し、入力音声2として意図理解装置1に出力する。ナビ制御部102は、CPU等から構成され、現在地から目的地までの経路の探索および誘導などの機能を実行する。目的地などの設定情報9は、ナビ制御部102から意図理解装置1に出力される。また、このナビ制御部102は、意図理解装置1から意図理解結果13を受け付けて、意図理解結果13が示す操作を実行したり、意図理解結果13に関する音声信号を音声出力部103に出力したりする。音声出力部103は、スピーカ等から構成され、ナビ制御部102から入力された音声信号を再生する。
なお、意図理解装置1とナビ制御部102を、別々のCPUを用いて構成してもよいし、1個のCPUを用いて構成してもよい。
なお、意図理解装置1とナビ制御部102を、別々のCPUを用いて構成してもよいし、1個のCPUを用いて構成してもよい。
意図は、例えば、『<主意図>[<スロット名>=<スロット値>,・・・]』のような形で表現される。具体的には、『目的地設定[施設=?]』、および『目的地設定[施設=$施設$(=○○店)]』のように表現される。『目的地設定[施設=?]』は、ユーザが目的地を設定したいけれど、具体的な施設名が決定していない状態を示す。『目的地設定[施設=$施設$(=○○店)]』は、ユーザが「○○店」という具体的な施設を目的地に設定した状態を示す。
意図理解部7が行う意図理解方法として、例えば、最大エントロピ法などの方法が利用できる。具体的には、意図理解モデル8は、「目的地、設定」という自立語単語(以下、素性と呼ぶ)と、『目的地設定[施設=?]』のような正解意図との組を、大量に保持している。意図理解部7は、例えば「目的地を設定したい」という入力音声2の形態素解析結果から、「目的地、設定」という素性を抽出し、統計的手法によって意図理解モデル8の中から、どの意図がどれだけ尤もらしいかを推定する。意図理解部7は、意図理解結果の候補として、意図とその意図の尤もらしさを表すスコアとの組のリストを出力する。
以下では、意図理解部7が最大エントロピ法を利用した意図理解方法を実行するものとして説明する。
以下では、意図理解部7が最大エントロピ法を利用した意図理解方法を実行するものとして説明する。
図3(a)は、実施の形態1における設定情報9の例、図3(b)は対話の例である。
音声による制御対象がナビゲーション装置100の場合、設定情報9には、目的地および経由地の設定の有無、設定されている場合にはその目的地または経由地の名前、その外にも、表示している地図のタイプなどの情報が含まれる。意図理解装置1の設定情報記憶部10は、ナビゲーション装置100のナビ制御部102が出力した設定情報9を記憶する。図3(a)の例では、設定情報9に、「目的地:△△」と「経由地:○○」の情報が含まれている。
音声による制御対象がナビゲーション装置100の場合、設定情報9には、目的地および経由地の設定の有無、設定されている場合にはその目的地または経由地の名前、その外にも、表示している地図のタイプなどの情報が含まれる。意図理解装置1の設定情報記憶部10は、ナビゲーション装置100のナビ制御部102が出力した設定情報9を記憶する。図3(a)の例では、設定情報9に、「目的地:△△」と「経由地:○○」の情報が含まれている。
図3(b)は、ナビゲーション装置100とユーザとの間で、上から順番に対話が進んでいることを示している。対話内容の中で、各行の行頭の「U:」はユーザが発話した入力音声2を表し、「S:」はナビゲーション装置100からの応答を表している。
図4は、意図理解装置1の各部の出力結果の例である。
図4(a)は、音声認識部3が出力する音声認識結果の例を示す。音声認識結果は、「○○は行き先で」といった音声認識結果と、その音声認識結果の尤もらしさを表す尤度との組のリストであり、尤度が高い順に並んでいる。
図4(a)は、音声認識部3が出力する音声認識結果の例を示す。音声認識結果は、「○○は行き先で」といった音声認識結果と、その音声認識結果の尤もらしさを表す尤度との組のリストであり、尤度が高い順に並んでいる。
図4(b)は、図4(a)の音声認識結果のうち、1位の音声認識結果「○○は行き先で」に対する意図理解結果候補、スコア、待ち受け重み、および最終スコア、図4(c)は2位の音声認識結果「○○は行かないで」に対するもの、図4(d)は3位の音声認識結果「○△探して」対するものである。意図理解部7は、『経由地設定[施設=$施設$]』といった意図とスコアとの組のリストを、意図理解結果の候補として出力する。これらの意図理解結果候補はスコアが高い順に並んでいる。重み計算部11は、意図理解部7が出力する意図理解結果候補ごとに、待ち受け重みを計算する。意図理解補正部12は、意図理解部7が出力する意図理解結果候補ごとに、待ち受け重みを用いて最終スコアを計算する。
図5は、制約条件と待ち受け重みとの対応関係を定義したテーブルである。
例えば、ナビゲーション装置100の目的地が既に「△△」に設定されている場合、ユーザが次の発話でもう一回「目的地を△△に設定する」という意図の発話をする可能性は低いと考えられる。よって、この制約条件に対して、意図『目的地設定[施設=$施設$(=△△)]』の待ち受け重みが「0.0」に設定されている。一方、ユーザが目的地を「?」(△△以外の場所)に変更する可能性があるので、意図『目的地設定[施設=施設=$施設$(=?)]』の待ち受け重みは「1.0」に設定されている。また、ユーザが目的地と同じ「○○」を経由地に設定する意図の発話をする可能性は低いので、意図『経由地設定[施設=$施設$(=○○)]』の待ち受け重みは「0.0」に設定されている。さらに、既に設定済みの経由地「○○」をユーザが削除する場合があるため、意図『経由地削除[施設=$施設$(=○○)]』の待ち受け重みは「1.0」に設定されている。
重み計算部11は、上記のように意図の発生可能性から事前に定義された待ち受け重みの情報を保持しており、設定情報9に基づいて意図に対応する待ち受け重みを選択する。
例えば、ナビゲーション装置100の目的地が既に「△△」に設定されている場合、ユーザが次の発話でもう一回「目的地を△△に設定する」という意図の発話をする可能性は低いと考えられる。よって、この制約条件に対して、意図『目的地設定[施設=$施設$(=△△)]』の待ち受け重みが「0.0」に設定されている。一方、ユーザが目的地を「?」(△△以外の場所)に変更する可能性があるので、意図『目的地設定[施設=施設=$施設$(=?)]』の待ち受け重みは「1.0」に設定されている。また、ユーザが目的地と同じ「○○」を経由地に設定する意図の発話をする可能性は低いので、意図『経由地設定[施設=$施設$(=○○)]』の待ち受け重みは「0.0」に設定されている。さらに、既に設定済みの経由地「○○」をユーザが削除する場合があるため、意図『経由地削除[施設=$施設$(=○○)]』の待ち受け重みは「1.0」に設定されている。
重み計算部11は、上記のように意図の発生可能性から事前に定義された待ち受け重みの情報を保持しており、設定情報9に基づいて意図に対応する待ち受け重みを選択する。
意図理解補正部12は、下記の式(1)を用いて、意図理解部7の意図理解結果の候補を補正する。具体的には、意図理解補正部12が、音声認識部3から得た音声認識結果の尤度と意図理解部7から得た意図理解結果候補の意図理解スコアとを掛け算してスコアを計算し(図4(b)等に示す「スコア」に相当する)、このスコアと重み計算部11から得た待ち受け重みとを掛け算して最終スコア(図4(b)等に示す「最終スコア」に相当する)を得る。本実施の形態1では、式(1)のように掛け算を利用した意図理解補正を行うが、この方法に限定されるものではない。
(尤度)×(意図理解スコア)=(スコア)
(スコア)×(待ち受け重み)=(最終スコア)
・・・(1)
(スコア)×(待ち受け重み)=(最終スコア)
・・・(1)
次に、図6のフローチャートを参照して、意図理解装置1の動作を説明する。
ここで、意図理解装置1は、制御対象であるナビゲーション装置100に組み込まれており、明示しない対話開始ボタンをユーザが押下すると、対話が開始されるものとする。また、設定情報記憶部10には、図3(a)に示した設定情報9が記憶されているものとして、図3(b)の対話内容について意図理解過程の詳しい説明をする。
ここで、意図理解装置1は、制御対象であるナビゲーション装置100に組み込まれており、明示しない対話開始ボタンをユーザが押下すると、対話が開始されるものとする。また、設定情報記憶部10には、図3(a)に示した設定情報9が記憶されているものとして、図3(b)の対話内容について意図理解過程の詳しい説明をする。
ナビ制御部102は、ユーザがナビゲーション装置100の対話開始ボタンを押下したことを検知すると、対話開始を促す応答「ピッと鳴ったらお話ください」を音声出力部103から音声出力させ、続けてビープ音を鳴らさせる。また、意図理解装置1は、音声認識部3を認識可能状態にして、ユーザの発話待ち状態になる。
続いて図3(b)のように、ユーザが「○○は行かないで」と発話したとすると、音声入力部101がこの発話を音声データに変換し、意図理解装置1の音声認識部3に出力する。意図理解装置1の音声認識部3は、音声認識辞書4を用いて入力音声2をテキストに変換すると共に尤度を算出して、形態素解析部5に出力する(ステップST11)。
続いて、形態素解析部5が、形態素解析辞書6を用いて、音声認識結果を形態素解析して、意図理解部7に出力する(ステップST12)。例えば、音声認識結果「○○は行き先で」の形態素解析結果は、「○○/名詞、は/助詞、行き先/名詞、で/助詞」のようになる。
続いて、意図理解部7が、意図理解モデル8を用いて、形態素解析結果から意図を推定すると共にスコアを算出して、意図理解結果候補として意図理解補正部12に出力する(ステップST13)。このとき、意図理解部7は、形態素解析結果から意図理解に使う素性を抽出し、その素性を意図理解モデル8と照合して意図を推定する。図4(a)の音声認識結果「○○は行き先で」の形態素解析結果からは、「○○、行き先」という素性のリストが抽出され、図4(b)の意図理解結果候補『経由地設定[施設=$施設$(=○○)]』とそのスコア「0.623」、および意図理解結果候補『施設検索[施設=$施設$(=○○)]』とそのスコア「0.286」が得られる。
続いて、重み計算部11が、設定情報記憶部10から設定情報9を読み込み、この設定情報9と図5に示したようなテーブルとに基づいて意図ごとの待ち受け重みを選択し、意図理解補正部12に出力する(ステップST14)。
続いて、意図理解補正部12は、音声認識部3が計算した音声認識結果の尤度と、意図理解部7が計算した意図理解結果候補のスコアと、重み計算部11が選択した待ち受け重みとを用いて、上式(1)より意図理解結果候補の最終スコアを算出する(ステップST15)。このとき、意図理解補正部12は、音声認識結果の尤度が上位のものから順番に、かつ、同一音声認識結果の中の意図理解結果候補のスコアが上位のものから順番に、最終スコアを計算していき、計算の都度、その最終スコアを評価する。意図理解補正部12は、例えば最終スコアX=0.5以上のものが見つかった時点で、その意図理解結果候補を最終的な意図理解結果13にする。
図4の例では、入力音声2「○○は行かないで」に対する1位の音声認識結果「○○は行き先で」について、図4(b)の意図理解結果候補1位『経由地設定[施設=$施設$(=○○)]』の最終スコアが「0.0」、2位『施設検索[施設=$施設$(=○○)]』の最終スコアが「0.286」となり、いずれの意図理解結果候補も最終スコアがX以上の条件を満足しない(ステップST16“NO”)。
そのため、意図理解装置1は、2位の音声認識結果「○○は行かないで」に対して、ステップST12〜ST15の処理を繰り返し、その結果として、図4(c)の意図理解結果候補1位『経由地削除[施設=$施設$(=○○)]』の最終スコア「0.589」と、2位『施設検索[施設=$施設$(=○○)]』の最終スコア「0.232」を得ることとなる。音声認識結果2位かつ意図理解結果候補1位の『経由地削除[施設=$施設$(=○○)]』の最終スコア「0.589」がX以上を満足するので(ステップST16“YES”)、この時点で、意図理解補正部12は、『経由地削除[施設=$施設$(=○○)]』を最終的な意図理解結果13としてナビ制御部102に返して、処理を終了する。
ナビ制御部102は、意図理解結果13の『経由地削除[施設=$施設$(=○○)]』を意図理解装置1から受け取ると、音声出力部103に指示して、図3(b)のように「経由地○○を削除します。よろしいですか」と音声出力させる。それに対してユーザが「はい」と発話した場合、意図理解装置1は、音声入力部101を通じてその発話の入力音声2を受け付け、正しく音声認識および意図理解したと判断する。また、意図理解装置1は、「はい」の入力音声2に対して音声認識および意図理解を行い、意図理解結果13をナビ制御部102に出力する。ナビ制御部102は、この意図理解結果13に従って、経由地「○○」を削除する操作を実行する。
これにより、ナビ制御部102において、音声認識結果の最大の尤度および意図理解結果の最大のスコアをもつ『経由地設定[施設=$施設$(=○○)]』ではなく、『経由地削除[施設=$施設$(=○○)]』が実行されることになり、誤認識の影響を排除できる。
以上より、実施の形態1によれば、意図理解装置1は、ユーザが自然言語で発話した一の入力音声2を認識して複数の音声認識結果を生成する音声認識部3と、音声認識結果それぞれを形態素列に変換する形態素解析部5と、形態素列に基づいてユーザの発話の意図を推定し一の形態素列から一以上の意図理解結果候補とスコアとを出力する意図理解部7と、意図理解結果候補ごとの待ち受け重みを計算する重み計算部11と、待ち受け重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し当該最終スコアに基づいて意図理解結果候補の中から意図理解結果13を選択する意図理解補正部12とを備える構成にした。このため、入力音声2に対する1位の音声認識結果だけでなく2位以降の音声認識結果も含めた中から最終的な意図理解結果13を選択することができる。従って、ユーザの意図を正しく理解可能な意図理解装置1を提供することができる。
また、実施の形態1によれば、意図理解部7は、複数の音声認識結果のうちの尤もらしいものから順番に意図理解結果候補を生成していき、意図理解補正部12は、意図理解部7が意図理解結果候補を生成するつど最終スコアを算出していき当該最終スコアが予め設定された条件Xを満足した意図理解結果候補を意図理解結果13として選択するように構成した。このため、意図理解装置1の演算量を抑えることができる。
また、実施の形態1によれば、重み計算部11は、意図理解補正部12が選択した意図理解結果13に基づいて動作する制御対象機器(例えば、ナビゲーション装置100)の設定情報9を用いて、待ち受け重みを計算するように構成した。具体的には、重み計算部11が、制約条件と当該制約条件を満足した場合の待ち受け重みとを定義した図5のようなテーブルを有し、設定情報9に基づいて制約条件を満足するか否かを判断して待ち受け重みを選択するように構成した。このため、制御対象機器の状況に応じた適切な意図を推定可能である。
実施の形態2.
図7は、実施の形態2に係る意図理解装置20の構成を示すブロック図である。図7において図1と同一または相当の部分については同一の符号を付し説明を省略する。この意図理解装置20は、意図を階層的に表現した階層木21と、階層木21の意図のうちの活性化している意図に基づいて待ち受け重みを計算する重み計算部22とを備える。
図7は、実施の形態2に係る意図理解装置20の構成を示すブロック図である。図7において図1と同一または相当の部分については同一の符号を付し説明を省略する。この意図理解装置20は、意図を階層的に表現した階層木21と、階層木21の意図のうちの活性化している意図に基づいて待ち受け重みを計算する重み計算部22とを備える。
図8は、実施の形態2における対話の例である。図3(b)と同様に、行頭の「U:」はユーザ発話、「S:」は制御対象の装置(例えば、図2に示すナビゲーション装置100)からの応答を表している。
図9は、意図理解装置1の各部の出力結果の例である。図9(a)は、音声認識部3が出力する音声認識結果とその尤度である。図9(b)〜図9(d)は、意図理解部7が出力する意図理解結果の候補とそのスコア、重み計算部22が出力する待ち受け重み、および意図理解補正部12が出力する最終スコアである。図9(a)の1位の音声認識結果「○○を行かないって」の意図理解結果候補を図9(b)に、2位の音声認識結果「○○を経由して」の意図理解結果候補を図9(c)に、3位の音声認識結果「○○を行き先にして」の意図理解結果候補を図9(d)に示す。
図10および図11は、階層木21の例である。図10に示すように、階層木21は、意図を表すノードが階層構造になっており、根(上の階層)に行くほど抽象的な意図を表すノードになり、葉(下の階層)に行くほど具体的な意図を表すノードになる。例えば第3階層のノード#9の『目的地設定[施設=?]』と、第4階層のノード#16の『目的設定[施設=$施設$(=○○店)]』の2つの意図を見比べると、上位の階層により抽象的な意図を表すノード#9が存在し、その下に具体的なスロット値(例えば、○○店)が埋まった意図を表すノード#16が位置付けられている。
第1階層に位置付けられているノード#1の意図『ナビ』は、ナビ制御部102のナビゲーション機能のまとまりを表す抽象的なノードであり、その下の第2階層に、個別のナビゲーション機能を表すノード#2〜#5が位置付けられている。例えばノード#4の意図『目的地設定[]』は、ユーザが目的地を設定したいが具体的な場所については決まっていない状態を表している。目的地が設定された状態になると、ノード#4からノード#9またはノード#16へ遷移することとなる。図10の例では、図8に示した「行き先を設定する」というユーザの発話に従って、ノード#4が活性化している状態を示している。
階層木21は、ナビゲーション装置100が出力した情報に応じて、意図ノードを活性化させる。
第1階層に位置付けられているノード#1の意図『ナビ』は、ナビ制御部102のナビゲーション機能のまとまりを表す抽象的なノードであり、その下の第2階層に、個別のナビゲーション機能を表すノード#2〜#5が位置付けられている。例えばノード#4の意図『目的地設定[]』は、ユーザが目的地を設定したいが具体的な場所については決まっていない状態を表している。目的地が設定された状態になると、ノード#4からノード#9またはノード#16へ遷移することとなる。図10の例では、図8に示した「行き先を設定する」というユーザの発話に従って、ノード#4が活性化している状態を示している。
階層木21は、ナビゲーション装置100が出力した情報に応じて、意図ノードを活性化させる。
図12は、重み計算部22が計算した待ち受け重みの例である。
「行き先を設定する」というユーザ発話によって、階層木21のノード#4の意図『目的地設定[]』が活性化したため、ノード#4の枝葉方向のノード#9,#10の意図の待ち受け重みが1.0になり、他の意図ノードの待ち受け重みが0.5になっている。
重み計算部22による待ち受け重みの計算方法は後述する。
「行き先を設定する」というユーザ発話によって、階層木21のノード#4の意図『目的地設定[]』が活性化したため、ノード#4の枝葉方向のノード#9,#10の意図の待ち受け重みが1.0になり、他の意図ノードの待ち受け重みが0.5になっている。
重み計算部22による待ち受け重みの計算方法は後述する。
図13は、意図理解装置20の動作を示すフローチャートである。図13のステップST11〜ST13,ST15,ST16は、図6のステップST11〜ST13,ST15,ST16の処理と同じである。
ステップST20では、重み計算部22が階層木21を参照して、意図理解部7の意図理解結果候補の待ち受け重みを計算し、意図理解補正部12に出力する。
ステップST20では、重み計算部22が階層木21を参照して、意図理解部7の意図理解結果候補の待ち受け重みを計算し、意図理解補正部12に出力する。
図14は、図13のステップST20の具体的な動作を示すフローチャートである。ステップST21では、重み計算部22が、意図理解部7の意図理解結果候補と、階層木21の活性化された意図とを比較する。意図理解部7の意図理解結果候補が、階層木21の活性化された意図の枝葉方向に位置する場合(ステップST22“YES”)、重み計算部22は待ち受け重みを第1の重みaにする(ステップST23)。一方、意図理解部7の意図理解結果候補が、階層木21の活性化された意図の枝葉方向以外に位置する場合(ステップST22“NO”)、重み計算部22は待ち受け重みを第2の重みbにする(ステップST24)。本実施の形態2では、a=1,0、b=0.5とする。また、活性化された意図ノードが存在しない場合、待ち受け重みを1.0にする。
次に、意図理解装置20の動作を説明する。
意図理解装置20の動作の基本は、上記実施の形態1の意図理解装置1の動作と同じである。本実施の形態2と上記実施の形態1との違いは、待ち受け重みの計算方法である。
意図理解装置20の動作の基本は、上記実施の形態1の意図理解装置1の動作と同じである。本実施の形態2と上記実施の形態1との違いは、待ち受け重みの計算方法である。
以下では、図8に示した対話内容について意図理解過程を詳しく説明する。上記実施の形態1と同様に、制御対象であるナビゲーション装置100(図2に示す)の中に意図理解装置20が組み込まれている場合を想定する。また、不図示の発話開始ボタンがユーザにより押下されると、対話が開始されるものとする。図8の最初のユーザ発話「行き先を設定する」の時点では、ナビゲーション装置100がユーザからの情報を何も取得していないので、意図理解装置20の階層木21には活性化した意図ノードが無い状態である。
なお、階層木21は、意図理解補正部12が出力した意図理解結果13に基づいて意図ノードを活性化している。
なお、階層木21は、意図理解補正部12が出力した意図理解結果13に基づいて意図ノードを活性化している。
対話開始後、ユーザが「行き先を設定する」と発話したとすると、その発話の入力音声2が意図理解装置20に入力される。この入力音声2が、音声認識部3で認識され(ステップST11)、形態素解析部5で形態素に分解され(ステップST12)、意図理解部7で意図理解結果候補が算出される(ステップST13)。ここでは、ユーザ発話「行き先を設定する」が誤認識無く正しく認識され、その意図が正しく理解されたものとして、意図理解補正部12が『目的地設定[]』の意図理解結果13を得る。ナビ制御部102は、目的地に設定する施設を具体的にするために、音声出力部103に指示して「目的地を設定します。場所をお話ください」と音声出力させる。また、階層木21は、意図理解結果13の『目的地設定[]』に該当するノード#4を活性化する。
ナビゲーション装置100が次の発話を促す応答をしたので、ユーザとの対話が継続し、図8のようにユーザが「○○を行き先にして」と発話したとする。意図理解装置20は、そのユーザ発話「○○を行き先にして」に対してステップST11,ST12の処理を行う。その結果、図9(a)の音声認識結果「○○を行かないって」、「○○を経由して」、「○○を行き先にして」のそれぞれの形態素解析結果が得られたとする。続いて、意図理解部7が、形態素解析結果から意図を推定する(ステップST13)。ここで、意図理解結果の候補が、図9(b)の『経由地削除[施設=$施設$(=○○)]』と『目的地設定[施設=$施設$(=○○)]』になったこととする。
続いて、重み計算部22が、階層木21を参照して待ち受け重みを計算する(ステップST20)。この時点では、階層木21のノード#4が活性化状態であり、この状態に応じて重み計算部22で重みが計算される。
まずステップST21で、活性化したノード#4の情報が階層木21から重み計算部22に渡されると共に、意図理解結果候補『経由地削除[施設=$施設$(=○○)]』と『目的地設定[施設=$施設$(=○○)]』が意図理解部7から重み計算部22に渡される。重み計算部22は、活性化したノード#4の意図と意図理解結果候補とを比較し、意図理解結果候補が活性化ノード#4の枝葉方向に位置する(つまり、ノード#9およびノード#10)の場合(ステップST22“YES”)、待ち受け重みを第1の重みaにする(ステップST23)。一方、意図理解結果候補が活性化ノード#4の枝葉方向以外に位置する場合(ステップST22“NO”)、重み計算部22は、待ち受け重みを第2の重みbにする(ステップST24)。
第1の重みaは、第2の重みbより大きい値とする。例えばa=1.0、b=0.5とした場合、待ち受け重みは図9(b)に示すとおりになる。
まずステップST21で、活性化したノード#4の情報が階層木21から重み計算部22に渡されると共に、意図理解結果候補『経由地削除[施設=$施設$(=○○)]』と『目的地設定[施設=$施設$(=○○)]』が意図理解部7から重み計算部22に渡される。重み計算部22は、活性化したノード#4の意図と意図理解結果候補とを比較し、意図理解結果候補が活性化ノード#4の枝葉方向に位置する(つまり、ノード#9およびノード#10)の場合(ステップST22“YES”)、待ち受け重みを第1の重みaにする(ステップST23)。一方、意図理解結果候補が活性化ノード#4の枝葉方向以外に位置する場合(ステップST22“NO”)、重み計算部22は、待ち受け重みを第2の重みbにする(ステップST24)。
第1の重みaは、第2の重みbより大きい値とする。例えばa=1.0、b=0.5とした場合、待ち受け重みは図9(b)に示すとおりになる。
続いて、意図理解補正部12は、音声認識部3が計算した音声認識結果の尤度と、意図理解部7が計算した意図理解結果候補のスコアと、重み計算部22が計算した待ち受け重みとを用いて、上式(1)より意図理解結果候補の最終スコアを算出する(ステップST15)。最終スコアは、図9(b)に示すとおりである。
続いて、意図理解補正部12は、上記実施の形態1と同様に、最終スコアが条件X以上を満足するかどうかを判定する(ステップST16)。ここでもX=0.5を条件とすると、音声認識結果1位「○○を行かないって」に対する図9(b)の意図理解結果候補『経由地削除[施設=$施設$(=○○)]』の最終スコア「0.314」と『目的地設定[施設=$施設$(=○○)]』の最終スコア「0.127」は、どちらも条件を満足しない。
そのため、意図理解装置20は、音声認識結果2位の「○○を経由して」に対して、ステップST12〜ST14,ST20,ST15の処理を繰り返す。その結果として、図9(c)のように意図理解結果候補『経由地削除[施設=$施設$(=○○)]』の最終スコア「0.295」と、『施設検索[施設=$施設$(=○○)]』の最終スコア「0.116」が求まるが、これらもX以上の条件を満足しない。
そのため、意図理解装置20は、音声認識結果3位の「○○を行き先にして」に対して、ステップST12,ST13,ST20,ST15の処理を繰り返し、その結果として、図9(d)のように意図理解結果候補『目的地設定[施設=$施設$(=○○)]』の最終スコア「0.538」が求まる。この最終スコアはX以上の条件を満足するので、意図理解補正部12は、『目的地設定[施設=$施設$(=○○)]』を最終的な意図理解結果13として出力する。階層木21は、意図理解結果13に基づいてノード#16を活性化する。
ナビ制御部102は、意図理解結果13の『目的地設定[施設=$施設$(=○○)]』を意図理解装置20から受け取ると、音声出力部103に指示して、図8のように「○○を目的地に設定します。よろしいですか」と音声出力させる。それに対してユーザが「はい」と発話した場合、意図理解装置20は、音声入力部101を通じてその発話の入力音声2を受け付け、正しく音声認識および意図理解したと判断する。また、意図理解装置20は、「はい」の入力音声2に対して音声認識および意図理解を行い、意図理解結果13をナビ制御部102に出力する。ナビ制御部102は、この意図理解結果13に従って「○○」を目的地に設定して、音声出力部103から「○○を目的地にしました」と音声出力させ、ユーザに目的地設定がなされたことを通知する。
以上より、実施の形態2によれば、重み計算部22は、ユーザとの対話の流れから期待される意図に該当する意図理解結果候補が意図理解補正部12において選択されやすくなるよう重み付けする構成にした。このため、ユーザと制御対象機器との対話の状況に応じた適切な意図を推定可能である。
また、実施の形態2によれば、意図理解装置20は、ユーザの意図を根に行くほど抽象的な意図、葉に行くほど具体的な意図になる木構造で表現した階層木21を備え、重み計算部22は、階層木21に基づいて、直前に選択された意図理解結果13に該当する意図から枝葉の方向に位置する意図理解結果候補が選択されやすくなるよう重み付けする構成にした。このように、意図の階層性を利用してユーザ発話に対する意図を補正することで、適切な音声認識結果および意図理解結果を元に制御対象機器を動作させることが可能となる。
実施の形態3.
図15は、実施の形態3に係る意図理解装置30の構成を示すブロック図である。図15において図1および図5と同一または相当の部分については同一の符号を付し説明を省略する。この意図理解装置30は、意図と対応するキーワードを記憶しているキーワードテーブル31と、形態素解析結果に対応する意図をキーワードテーブル31から検索するキーワード検索部32と、キーワードに対応する意図を階層木21の活性化した意図と比較して待ち受け重みを計算する重み計算部33とを備える。
図15は、実施の形態3に係る意図理解装置30の構成を示すブロック図である。図15において図1および図5と同一または相当の部分については同一の符号を付し説明を省略する。この意図理解装置30は、意図と対応するキーワードを記憶しているキーワードテーブル31と、形態素解析結果に対応する意図をキーワードテーブル31から検索するキーワード検索部32と、キーワードに対応する意図を階層木21の活性化した意図と比較して待ち受け重みを計算する重み計算部33とを備える。
図16は、キーワードテーブル31の一例である。キーワードテーブル31は、意図とキーワードの組を記憶している。例えば、意図『目的地設定[]』に対して、「行き先」、「行く」、「目的地」など、意図の特徴的な表現となるキーワードが付与されている。キーワードは、階層木21の第1階層のノード#1を除く、第2階層以下の各ノードの意図に対して付与されている。
以下では、キーワードに対応する意図をキーワード対応意図と呼ぶ。また、階層木21の活性化した意図ノードに対応する意図を階層木対応意図と呼ぶ。
以下では、キーワードに対応する意図をキーワード対応意図と呼ぶ。また、階層木21の活性化した意図ノードに対応する意図を階層木対応意図と呼ぶ。
図17は、音声認識部3が出力する音声認識結果、音声認識結果に含まれるキーワード、キーワード検索部32が検索したキーワード対応意図の例である。音声認識結果「○○を行かないって」のキーワード「行かない」に対応するキーワード対応意図は『経由地削除[]』、音声認識結果「○○を経由して」のキーワード「経由」に対応するキーワード対応意図は『経由地設定[]』、音声認識結果「○○を行き先にして」のキーワード「行き先」に対応するキーワード対応意図は『目的地設定[]』となる。
図18(a)は、音声認識部3が出力する音声認識結果とその尤度の例である。図18(b)〜図18(d)は、意図理解部7が出力する意図理解結果候補とそのスコア、重み計算部33が出力する待ち受け重み、および意図理解補正部12が出力する最終スコアである。図18(a)の1位の音声認識結果「○○を行かないって」の意図理解結果候補を図18(b)に、2位の音声認識結果「○○を経由して」の意図理解結果候補を図18(c)に、3位の音声認識結果「○○を行き先にして」の意図理解結果候補を図18(d)に示す。
図19は、意図理解装置30の動作を示すフローチャートである。図19のステップST11〜ST13,ST15,ST16は、図6のステップST11〜ST13,ST15,ST16の処理と同じである。
ステップST30では、キーワード検索部32が形態素解析結果に該当するキーワードをキーワードテーブル31の中から検索し、検索したキーワードに対応付けられたキーワード対応意図を取得する。キーワード検索部32は、取得したキーワード対応意図を重み計算部33へ出力する。
ステップST30では、キーワード検索部32が形態素解析結果に該当するキーワードをキーワードテーブル31の中から検索し、検索したキーワードに対応付けられたキーワード対応意図を取得する。キーワード検索部32は、取得したキーワード対応意図を重み計算部33へ出力する。
図20は、図19のステップST31の具体的な動作を示すフローチャートである。ステップST32では、重み計算部33が、意図理解部7の意図理解結果候補と、階層木21の活性化された階層木対応意図と、キーワード検索部32のキーワード対応意図とを比較する。意図理解結果候補が、キーワード対応意図と階層木対応意図のどちらとも一致しない場合(ステップST32“NO”)、重み計算部33は待ち受け重みを第3の重みcにする。
意図理解結果候補が階層木対応意図に一致する場合(ステップST32“YES”かつステップST34“YES”)、重み計算部33は待ち受け重みを第4の重みdにする(ステップST35)。なお、ステップST34“YES”では意図理解結果候補が階層木対応意図とキーワード対応意図の両方に一致している場合も有り得る。
意図理解結果候補が階層木対応意図に一致せずキーワード対応意図のみに一致する場合(ステップST34“NO”)、重み計算部33は待ち受け重みを第5の重みeにする(ステップST36)。
意図理解結果候補が階層木対応意図に一致する場合(ステップST32“YES”かつステップST34“YES”)、重み計算部33は待ち受け重みを第4の重みdにする(ステップST35)。なお、ステップST34“YES”では意図理解結果候補が階層木対応意図とキーワード対応意図の両方に一致している場合も有り得る。
意図理解結果候補が階層木対応意図に一致せずキーワード対応意図のみに一致する場合(ステップST34“NO”)、重み計算部33は待ち受け重みを第5の重みeにする(ステップST36)。
本実施の形態3では、c=0.0、d=1.0、e=0.5とする。つまり、意図理解結果候補が階層木対応意図に一致するなら待ち受け重みは1.0になり、階層木対応意図に一致せずキーワード対応意図に一致するなら0.5になり、階層木対応意図にもキーワード対応意図にも一致しないなら0.0になる。
次に、意図理解装置30の動作を説明する。
意図理解装置30の動作の基本は、上記実施の形態1,2の意図理解装置1,20の動作と同じである。本実施の形態3と上記実施の形態1,2との違いは、待ち受け重みの計算方法である。
意図理解装置30の動作の基本は、上記実施の形態1,2の意図理解装置1,20の動作と同じである。本実施の形態3と上記実施の形態1,2との違いは、待ち受け重みの計算方法である。
以下では、図8に示した対話内容のうち、ユーザ発話「○○を行き先にして」の意図理解過程を詳しく説明する。上記実施の形態1,2と同様に、制御対象であるナビゲーション装置100(図2に示す)の中に意図理解装置30が組み込まれている場合を想定する。
また、階層木21は、図10および図11を援用する。
また、階層木21は、図10および図11を援用する。
ユーザ発話「○○を行き先にして」の入力音声2は、音声認識部3で認識され(ステップST11)、形態素解析部5で形態素に分解され(ステップST12)、意図理解部7で意図理解結果の候補が算出される(ステップST13)。そして、図18(b)のような意図理解結果候補『経由地削除[施設=$施設$(=○○)]』とそのスコア「0.623」、および『目的地設定[施設=$施設$(=○○)]』とそのスコア「0.127」が得られる。
続いて、キーワード検索部32は、形態素解析部5の形態素解析結果に該当するキーワードをキーワードテーブル31の中から検索し、検索したキーワードに対応するキーワード対応意図を取得する。「○○を行かないって」の形態素解析結果には、図16の「行かない」というキーワードが存在するため、キーワード対応意図は『経由地削除[]』となる。
続いて、重み計算部33が、待ち受け重みを計算する(ステップST31)。この時点では、階層木21のノード#4が活性化状態であり、ノード#4の階層木対応意図は『目的地設定[]』である。
まずステップST32で、階層木21が重み計算部33に対して、活性化したノード#4の階層木対応意図『目的地設定[]』を出力する。また、意図理解部7が重み計算部33に対して、ユーザ発話「○○を行かないって」の意図理解結果候補1位『経由地削除[施設=$施設$(=○○)]』を出力する。さらに、キーワード検索部32が重み計算部33に対して、キーワード対応意図『経由地削除[]』を出力する。
まずステップST32で、階層木21が重み計算部33に対して、活性化したノード#4の階層木対応意図『目的地設定[]』を出力する。また、意図理解部7が重み計算部33に対して、ユーザ発話「○○を行かないって」の意図理解結果候補1位『経由地削除[施設=$施設$(=○○)]』を出力する。さらに、キーワード検索部32が重み計算部33に対して、キーワード対応意図『経由地削除[]』を出力する。
意図理解結果候補1位『経由地削除[施設=$施設$(=○○)]』は、キーワード対応意図『経由地削除[]』と一致しているので(ステップST32“YES”かつステップST34“NO”)、重み計算部33は、意図理解結果候補1位の待ち受け重みを第5の重みe(=0.5)にする(ステップST35)。
ここでは、重み計算部33が階層木21の親子関係も含めて一致を判断しており、『経由地削除[施設=$施設$(=○○)]』は『経由地削除[]』の子供なので一致と判断される。
ここでは、重み計算部33が階層木21の親子関係も含めて一致を判断しており、『経由地削除[施設=$施設$(=○○)]』は『経由地削除[]』の子供なので一致と判断される。
一方、意図理解結果候補2位『目的地設定[施設=$施設$(=○○)]』は、階層木対応意図『目的地設定[]』と一致するので(ステップST32“YES”かつステップST34“YES”)、重み計算部33は、意図理解結果候補2位の待ち受け重みを第4の重みd(=1.0)にする(ステップST36)。
最終的に、図18(b)のように、1位の音声認識結果「○○を行かないって」に対する1位の意図理解結果候補『経由地削除[施設=$施設$(=○○)]』の最終スコア「0.312」、2位の意図理解結果候補『目的地設定[施設=$施設$(=○○)]』の最終スコア「0.127」が求まる。1位、2位ともに最終スコアがX以上の条件を満足しないので、意図理解装置30は、2位の音声認識結果「○○を経由して」に対してステップST12,ST13,ST30,ST31,ST15の処理を行う。
その結果、図18(c)のように、「○○を経由して」の意図理解結果候補1位『経由地削除[施設=$施設$(=○○)]』および2位『施設検索[施設=$施設$(=○○)]』はそれぞれ待ち受け重み「0.0」(=c)が設定され、最終スコアはそれぞれ「0.0」となり、ここでもX以上の条件を満足しない。
そのため、処理対象が3位の音声認識結果「○○を行き先にして」に移り、図18(d)のように、意図理解結果候補1位『目的地設定[施設=$施設$(=○○)]』の最終スコアがX以上の条件を満足するので意図理解結果13として出力される。よって、上記実施の形態2と同様に「○○」が目的地に設定される。
その結果、図18(c)のように、「○○を経由して」の意図理解結果候補1位『経由地削除[施設=$施設$(=○○)]』および2位『施設検索[施設=$施設$(=○○)]』はそれぞれ待ち受け重み「0.0」(=c)が設定され、最終スコアはそれぞれ「0.0」となり、ここでもX以上の条件を満足しない。
そのため、処理対象が3位の音声認識結果「○○を行き先にして」に移り、図18(d)のように、意図理解結果候補1位『目的地設定[施設=$施設$(=○○)]』の最終スコアがX以上の条件を満足するので意図理解結果13として出力される。よって、上記実施の形態2と同様に「○○」が目的地に設定される。
以上より、実施の形態3によれば、意図理解装置30は、意図とキーワードとの対応関係が定義されたキーワードテーブル31の中から形態素列に一致するキーワードを検索し、当該検索したキーワードに対応するキーワード対応意図を取得するキーワード検索部32を備え、重み計算部33は、階層木対応意図とキーワード対応意図とを用いて待ち受け重みを計算するように構成した。このため、意図の階層性と意図の特徴的な表現となるキーワードとを利用してユーザ発話に対する意図を補正でき、適切な音声認識結果および意図理解結果を元に制御対象機器を動作させることが可能となる。
なお、上記実施の形態1〜3では、日本語の例を説明したが、意図理解に関する素性抽出方法をそれぞれの言語ごとに変更することで、英語、ドイツ語、および中国語など様々な言語に対して適用することが可能である。
また、単語が特定のシンボル(例えば、スペース)で区切られる言語の場合に、言語的な構造を解析することが難しければ、入力音声2の自然言語テキストに対してパターンマッチのような方法で「$施設$」、「$住所$」などのスロット値を抽出したあと、直接意図理解処理を実行することも可能である。
さらに、上記実施の形態1〜3では、音声認識結果のテキストを形態素解析部5で解析することで意図理解処理の準備をしたが、音声認識部3の認識方法によっては音声認識結果自体が形態素解析結果を含む場合があり、その場合は形態素解析部5と形態素解析辞書6を省略して、音声認識処理のあと直接意図理解処理を実行することが可能である。
また、上記実施の形態1〜3では意図理解の方法として、最大エントロピ法による学習モデルを想定した例で説明したが、意図理解の方法を限定するものではない。
加えて、上記実施の形態3では、重み計算部33が階層木対応意図とキーワード対応意図とを使用して待ち受け重みを計算する構成にしたが、階層木21を使用せずに、形態素解析結果の中にキーワードテーブル31のキーワードが出現する回数に応じて意図理解結果候補のスコアを変更することによっても、待ち受け重みを計算することが可能である。
例えば「行かない」、「経由」といった意図を特定するのに重要な単語がユーザ発話に現われた場合、意図理解部7は通常はユーザ発話「○○へは行かない」に対して「○○、行かない」という素性を使って意図理解処理を行う。これに代えて、「○○、行かない、行かない」という風にキーワードテーブル31にあるキーワードを重ねることにより、意図理解部7が意図を推定する際に「行かない」の個数に応じて重み付けしたスコアを算出することが可能となる。
例えば「行かない」、「経由」といった意図を特定するのに重要な単語がユーザ発話に現われた場合、意図理解部7は通常はユーザ発話「○○へは行かない」に対して「○○、行かない」という素性を使って意図理解処理を行う。これに代えて、「○○、行かない、行かない」という風にキーワードテーブル31にあるキーワードを重ねることにより、意図理解部7が意図を推定する際に「行かない」の個数に応じて重み付けしたスコアを算出することが可能となる。
また、上記実施の形態1〜3では、複数の音声認識結果のうちの尤度が高いものから順番に意図理解処理を行っていき、最終スコアがX以上の条件を満足する意図理解結果候補が見つかった時点で処理を終了したが、意図理解装置の演算処理に余裕がある場合は、全ての音声認識結果に対して意図理解処理を行って意図理解結果13を選択する方法も可能である。
さらに、上記実施の形態1〜3では、意図理解結果13に対応する操作を実行する前にユーザに実行してよいか確認していたが(例えば、図3(b)の「経由地○○を削除します。よろしいですか」)、意図理解結果13の最終スコアに応じて確認するかしないかを変更することも可能である。
また例えば、音声認識結果1位の意図理解結果候補が意図理解結果13として選択された場合には確認せず、2位以降の意図理解結果候補が意図理解結果13として選択された場合には確認するなど、順位に応じて確認するかしないかを変更することも可能である。
また例えば、待ち受け重みで補正する前のスコアが最も高い意図理解結果候補が意図理解結果13として選択された場合には確認せず、それより低いスコアの意図理解結果候補が意図理解結果13として選択された場合には確認するなど、スコアの大小に応じて確認するかしないかを変更することも可能である。
また例えば、音声認識結果1位の意図理解結果候補が意図理解結果13として選択された場合には確認せず、2位以降の意図理解結果候補が意図理解結果13として選択された場合には確認するなど、順位に応じて確認するかしないかを変更することも可能である。
また例えば、待ち受け重みで補正する前のスコアが最も高い意図理解結果候補が意図理解結果13として選択された場合には確認せず、それより低いスコアの意図理解結果候補が意図理解結果13として選択された場合には確認するなど、スコアの大小に応じて確認するかしないかを変更することも可能である。
ここで、図21に意図理解装置40の変形例を示す。意図理解装置40は、ユーザが発話した音声を信号に変換して入力音声として取得する音声入力部41と、意図理解補正部12が最も尤もらしい意図理解結果候補(つまり、待ち受け重みで補正する前のスコアが大きい意図理解結果候補)を排除しそれ以外の意図理解結果候補を意図理解結果13として選択した場合に当該意図理解結果13を採用するか否かをユーザに確認して採用可否を決定する意図確認処理部42と、意図確認処理部42が生成した意図理解結果確認用の音声信号を出力する音声出力部43とを備える。これら音声入力部41、意図確認処理部42、および音声出力部43は、図2に示した音声入力部101、ナビ制御部102、および音声出力部103と同じ役割を果たし、例えば図3(b)のような「経由地○○を削除します。よろしいですか」という音声出力により、意図理解結果13の採用可否をユーザに確認する。
なお、ユーザへの確認方法は音声出力の他、画面表示などでもよい。
なお、ユーザへの確認方法は音声出力の他、画面表示などでもよい。
加えて、上記実施の形態2,3では、意図の階層性を階層木21の木構造で表現したが、必ずしも完全な木構造である必要は無く、ループ構造を含まないグラフ構造であれば同様の処理が可能である。
さらに、上記実施の形態2,3では、意図理解処理に今回のユーザ発話のみを利用しているが、階層木21の階層遷移途中での発話の場合には、今回より前のユーザ発話を含めた複数の発話から抽出した素性を使用して意図理解処理を行ってもよい。これにより、複数の部分発話によって得られた部分的な情報からは推定することが難しい意図を推定することができる。
ここで、図22に示す対話内容を例に用いて説明する。
上記実施の形態2の場合、最初のユーザ発話「行き先を設定する」からは「行き先、設定」が素性として抽出される。また、2番目の発話「○○」からは「$施設$(=○○)」が素性として抽出される。結果として、通常は2番目の発話では「$施設$(=○○)」だけを使用して意図理解処理が行われることになる(図13のステップST13)。
一方、階層遷移途中か否かを考慮した場合、最初の発話「行き先を設定する」が階層木21のノード#4であり、2番目の発話はノード#4と親子関係になる可能性が高いので、2番目の発話に対して「行き先、設定、$施設$(=○○)」の3素性を使用して意図理解処理を行うことで、より適切な意図理解結果が得られるようになる。
上記実施の形態2の場合、最初のユーザ発話「行き先を設定する」からは「行き先、設定」が素性として抽出される。また、2番目の発話「○○」からは「$施設$(=○○)」が素性として抽出される。結果として、通常は2番目の発話では「$施設$(=○○)」だけを使用して意図理解処理が行われることになる(図13のステップST13)。
一方、階層遷移途中か否かを考慮した場合、最初の発話「行き先を設定する」が階層木21のノード#4であり、2番目の発話はノード#4と親子関係になる可能性が高いので、2番目の発話に対して「行き先、設定、$施設$(=○○)」の3素性を使用して意図理解処理を行うことで、より適切な意図理解結果が得られるようになる。
また、上記実施の形態1〜3では、意図理解装置の制御対象機器として図2のナビゲーション装置100を例に挙げたが、ナビゲーション装置に限定されるものではない。また、図2では意図理解装置が制御対象機器に内蔵されているが、外付けでもよい。
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る意図理解装置は、入力音声を使用してユーザの意図を推定するようにしたので、手動で操作しにくいカーナビゲーション装置などの音声インタフェースに用いるのに適している。
1,20,30,40 意図理解装置、2 入力音声、3 音声認識部、4 音声認識辞書、5 形態素解析部、6 形態素解析辞書、7 意図理解部、8 意図理解モデル、9 設定情報、10 設定情報記憶部、11,22,33 重み計算部、12 意図理解補正部、13 意図理解結果、21 階層木、31 キーワードテーブル、32 キーワード検索部、41,101 音声入力部、43,103 音声出力部、42 意図確認処理部、100 ナビゲーション装置、102 ナビ制御部。
この発明に係る意図理解装置は、ユーザが自然言語で発話した一の音声を認識して、認識スコアの高い上位の複数の音声認識結果を生成する音声認識部と、音声認識結果それぞれを形態素列に変換する形態素解析部と、形態素列に基づいてユーザの発話の意図を推定し、一の形態素列から一以上の意図理解結果候補と尤もらしさの度合いを表すスコアとを出力し、複数の音声認識結果のうちの尤もらしいものから順番に意図理解結果候補を生成する意図理解部と、意図理解結果候補ごとの重みを計算する重み計算部と、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアが予め設定された条件を最初に満足した前記意図理解結果候補を前記意図理解結果として選択する意図理解補正部とを備えるものである。
この発明に係る意図理解方法は、ユーザが自然言語で発話した一の音声を認識して、認識スコアの高い上位の複数の音声認識結果を生成する音声認識ステップと、音声認識結果それぞれを形態素列に変換する形態素解析ステップと、形態素列に基づいてユーザの発話の意図を推定し、一の形態素列から一以上の意図理解結果候補と尤もらしさの度合いを表すスコアとを出力し、複数の音声認識結果のうちの尤もらしいものから順番に意図理解結果候補を生成する意図理解ステップと、意図理解結果候補ごとの重みを計算する重み計算ステップと、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアが予め設定された条件を最初に満足した意図理解結果候補を意図理解結果として選択する意図理解補正ステップとを備えるものである。
この発明によれば、一の音声から認識スコアの高い上位の複数の音声認識結果を生成し、複数の音声認識結果のうちの尤もらしいものから順番に意図理解結果候補を生成し、重みを用いて意図理解結果候補のスコアを補正して最終スコアを算出し、当該最終スコアが予め設定された条件を最初に満足した意図理解結果候補を意図理解結果として選択するようにしたので、入力音声に対する音声認識結果の第1候補だけでなく次候補も含めた中から最終的な意図理解結果を選択することができる。従って、ユーザの意図を正しく理解可能な意図理解装置を提供することができる。
Claims (10)
- ユーザが自然言語で発話した一の音声を認識して複数の音声認識結果を生成する音声認識部と、
前記音声認識結果それぞれを形態素列に変換する形態素解析部と、
前記形態素列に基づいて前記ユーザの発話の意図を推定し、一の前記形態素列から一以上の意図理解結果候補と尤もらしさの度合いを表すスコアとを出力する意図理解部と、
前記意図理解結果候補ごとの重みを計算する重み計算部と、
前記重みを用いて前記意図理解結果候補の前記スコアを補正して最終スコアを算出し、当該最終スコアに基づいて前記意図理解結果候補の中から意図理解結果を選択する意図理解補正部とを備える意図理解装置。 - 前記意図理解部は、前記複数の音声認識結果のうちの尤もらしいものから順番に前記意図理解結果候補を生成していき、
前記意図理解補正部は、前記意図理解部が前記意図理解結果候補を生成するつど前記最終スコアを算出していき、当該最終スコアが予め設定された条件を最初に満足した前記意図理解結果候補を前記意図理解結果として選択することを特徴とする請求項1記載の意図理解装置。 - 前記重み計算部は、前記意図理解補正部が選択した前記意図理解結果に基づいて動作する制御対象機器の設定情報を用いて、前記重みを計算することを特徴とする請求項2記載の意図理解装置。
- 前記重み計算部は、制約条件と当該制約条件を満足した場合の前記重みとを定義した情報を有し、前記制御対象機器の設定情報に基づいて前記制約条件を満足するか否かを判断して前記重みを選択することを特徴とする請求項3記載の意図理解装置。
- 前記重み計算部は、前記ユーザとの対話の流れから期待される意図に該当する前記意図理解結果候補が前記意図理解補正部において選択されやすくなるよう重み付けすることを特徴とする請求項2記載の意図理解装置。
- 前記ユーザの意図を、根に行くほど抽象的な意図、葉に行くほど具体的な意図になる木構造で表現した階層木を備え、
前記重み計算部は、前記階層木に基づいて、直前に選択された前記意図理解結果に該当する意図から枝葉の方向に位置する前記意図理解結果候補が選択されやすくなるよう重み付けすることを特徴とする請求項5記載の意図理解装置。 - 前記意図理解部は、今回の発話から生成された前記形態素列に加えて、今回より前の発話から生成された前記形態素列も用いて前記ユーザの意図を推定することを特徴とする請求項6記載の意図理解装置。
- 意図とキーワードとの対応関係が定義されたキーワードテーブルの中から、前記形態素列に一致するキーワードを検索し、当該検索したキーワードに対応する前記意図を取得するキーワード検索部を備え、
前記重み計算部は、前記階層木と前記キーワード検索部が取得した前記意図とを用いて前記重みを計算することを特徴とする請求項6の意図理解装置。 - 前記意図理解補正部が最も尤もらしい前記意図理解結果候補を排除しそれ以外の前記意図理解結果候補を前記意図理解結果として選択した場合に、当該意図理解結果を採用するか否かを前記ユーザに確認して採用可否を決定する意図確認処理部を備えることを特徴とする請求項1記載の意図理解装置。
- ユーザが自然言語で発話した一の音声を認識して複数の音声認識結果を生成する音声認識ステップと、
前記音声認識結果それぞれを形態素列に変換する形態素解析ステップと、
前記形態素列に基づいて前記ユーザの発話の意図を推定し、一の前記形態素列から一以上の意図理解結果候補と尤もらしさの度合いを表すスコアとを出力する意図理解ステップと、
前記意図理解結果候補ごとの重みを計算する重み計算ステップと、
前記重みを用いて前記意図理解結果候補の前記スコアを補正して最終スコアを算出し、当該最終スコアに基づいて前記意図理解結果候補の中から意図理解結果を選択する意図理解補正ステップとを備える意図理解方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/059445 WO2015151157A1 (ja) | 2014-03-31 | 2014-03-31 | 意図理解装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2015151157A1 true JPWO2015151157A1 (ja) | 2017-04-13 |
Family
ID=54239528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016511184A Pending JPWO2015151157A1 (ja) | 2014-03-31 | 2014-03-31 | 意図理解装置および方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10037758B2 (ja) |
JP (1) | JPWO2015151157A1 (ja) |
CN (1) | CN106663424B (ja) |
DE (1) | DE112014006542B4 (ja) |
WO (1) | WO2015151157A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022161353A (ja) * | 2021-04-08 | 2022-10-21 | トヨタ自動車株式会社 | 情報出力システム、サーバ装置および情報出力方法 |
Families Citing this family (132)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
DE102015205044A1 (de) * | 2015-03-20 | 2016-09-22 | Bayerische Motoren Werke Aktiengesellschaft | Eingabe von Navigationszieldaten in ein Navigationssystem |
US10546001B1 (en) * | 2015-04-15 | 2020-01-28 | Arimo, LLC | Natural language queries based on user defined attributes |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10831996B2 (en) * | 2015-07-13 | 2020-11-10 | Teijin Limited | Information processing apparatus, information processing method and computer program |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102267561B1 (ko) * | 2016-01-28 | 2021-06-22 | 한국전자통신연구원 | 음성 언어 이해 장치 및 방법 |
DE112016006512T5 (de) * | 2016-03-30 | 2018-11-22 | Mitsubishi Electric Corporation | Absichtseinschätzungsvorrichtung und Absichtseinschätzungsverfahren |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CN106251869B (zh) | 2016-09-22 | 2020-07-24 | 浙江吉利控股集团有限公司 | 语音处理方法及装置 |
US10216832B2 (en) | 2016-12-19 | 2019-02-26 | Interactions Llc | Underspecification of intents in a natural language processing system |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) * | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107170446A (zh) * | 2017-05-19 | 2017-09-15 | 深圳市优必选科技有限公司 | 语义处理服务器及用于语义处理的方法 |
CN107240398B (zh) * | 2017-07-04 | 2020-11-17 | 科大讯飞股份有限公司 | 智能语音交互方法及装置 |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US10455322B2 (en) | 2017-08-18 | 2019-10-22 | Roku, Inc. | Remote control with presence sensor |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US10777197B2 (en) * | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
KR102288249B1 (ko) * | 2017-10-31 | 2021-08-09 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 |
US10733375B2 (en) * | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11379706B2 (en) * | 2018-04-13 | 2022-07-05 | International Business Machines Corporation | Dispersed batch interaction with a question answering system |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11704533B2 (en) * | 2018-05-23 | 2023-07-18 | Ford Global Technologies, Llc | Always listening and active voice assistant and vehicle operation |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109634692A (zh) * | 2018-10-23 | 2019-04-16 | 蔚来汽车有限公司 | 车载对话系统及用于其的处理方法和系统 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200072907A (ko) * | 2018-12-13 | 2020-06-23 | 현대자동차주식회사 | 대화 시스템이 구비된 차량 및 그 제어 방법 |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11715467B2 (en) * | 2019-04-17 | 2023-08-01 | Tempus Labs, Inc. | Collaborative artificial intelligence method and system |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110472030A (zh) * | 2019-08-08 | 2019-11-19 | 网易(杭州)网络有限公司 | 人机交互方法、装置和电子设备 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
KR20210081103A (ko) * | 2019-12-23 | 2021-07-01 | 엘지전자 주식회사 | 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법 |
CN113516491B (zh) * | 2020-04-09 | 2024-04-30 | 百度在线网络技术(北京)有限公司 | 推广信息展示方法、装置、电子设备及存储介质 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111696558A (zh) * | 2020-06-24 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能外呼方法、装置、计算机设备及存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112002321B (zh) * | 2020-08-11 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
JP2022050011A (ja) * | 2020-09-17 | 2022-03-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN113763947B (zh) * | 2021-01-15 | 2024-04-05 | 北京沃东天骏信息技术有限公司 | 一种语音意图识别方法、装置、电子设备及存储介质 |
CN112417712A (zh) * | 2021-01-21 | 2021-02-26 | 深圳市友杰智新科技有限公司 | 目标设备的确定方法、装置、计算机设备和存储介质 |
US11947548B2 (en) * | 2021-11-29 | 2024-04-02 | Walmart Apollo, Llc | Systems and methods for providing search results based on a primary intent |
CN113870842B (zh) * | 2021-12-02 | 2022-03-15 | 深圳市北科瑞声科技股份有限公司 | 基于权重调节的语音控制方法、装置、设备及介质 |
CN114254622B (zh) * | 2021-12-10 | 2024-06-14 | 马上消费金融股份有限公司 | 一种意图识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203559A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 対話装置及び方法 |
JP2010145930A (ja) * | 2008-12-22 | 2010-07-01 | Nissan Motor Co Ltd | 音声認識装置及び方法 |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7286984B1 (en) | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US20020198714A1 (en) * | 2001-06-26 | 2002-12-26 | Guojun Zhou | Statistical spoken dialog system |
US7228275B1 (en) | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US7751551B2 (en) * | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
US8265939B2 (en) | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
US20070094022A1 (en) * | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
WO2007069372A1 (ja) * | 2005-12-14 | 2007-06-21 | Mitsubishi Electric Corporation | 音声認識装置 |
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP4791984B2 (ja) * | 2007-02-27 | 2011-10-12 | 株式会社東芝 | 入力された音声を処理する装置、方法およびプログラム |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
KR101522837B1 (ko) * | 2010-12-16 | 2015-05-26 | 한국전자통신연구원 | 대화 방법 및 이를 위한 시스템 |
JP5710317B2 (ja) * | 2011-03-03 | 2015-04-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、自然言語解析方法、プログラムおよび記録媒体 |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
CA3023918C (en) | 2011-09-30 | 2022-11-29 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
KR101359718B1 (ko) * | 2012-05-17 | 2014-02-13 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
US8983840B2 (en) * | 2012-06-19 | 2015-03-17 | International Business Machines Corporation | Intent discovery in audio or text-based conversation |
US9053708B2 (en) | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
JP5921716B2 (ja) | 2012-11-30 | 2016-05-24 | 三菱電機株式会社 | 意図推定装置および意図推定方法 |
CN103021403A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 基于语音识别的选择方法及其移动终端装置及信息系统 |
KR102261552B1 (ko) * | 2014-06-30 | 2021-06-07 | 삼성전자주식회사 | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 |
-
2014
- 2014-03-31 WO PCT/JP2014/059445 patent/WO2015151157A1/ja active Application Filing
- 2014-03-31 US US15/120,539 patent/US10037758B2/en active Active
- 2014-03-31 CN CN201480077480.XA patent/CN106663424B/zh active Active
- 2014-03-31 JP JP2016511184A patent/JPWO2015151157A1/ja active Pending
- 2014-03-31 DE DE112014006542.0T patent/DE112014006542B4/de active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203559A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 対話装置及び方法 |
JP2010145930A (ja) * | 2008-12-22 | 2010-07-01 | Nissan Motor Co Ltd | 音声認識装置及び方法 |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
Non-Patent Citations (1)
Title |
---|
由浅 裕規,外5名: "状況と文脈を利用した音声対話型車載インターフェースの構築と評価", 電子情報通信学会技術研究報告, vol. 103, no. 517, JPN6014016132, 11 December 2003 (2003-12-11), JP, pages 199 - 204, ISSN: 0003710780 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022161353A (ja) * | 2021-04-08 | 2022-10-21 | トヨタ自動車株式会社 | 情報出力システム、サーバ装置および情報出力方法 |
Also Published As
Publication number | Publication date |
---|---|
DE112014006542T5 (de) | 2016-12-15 |
US10037758B2 (en) | 2018-07-31 |
US20170011742A1 (en) | 2017-01-12 |
CN106663424A (zh) | 2017-05-10 |
DE112014006542B4 (de) | 2024-02-08 |
CN106663424B (zh) | 2021-03-05 |
WO2015151157A1 (ja) | 2015-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015151157A1 (ja) | 意図理解装置および方法 | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US10446141B2 (en) | Automatic speech recognition based on user feedback | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US10713289B1 (en) | Question answering system | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
US20170345426A1 (en) | System and methods for robust voice-based human-iot communication | |
JP2010048953A (ja) | 対話文生成装置 | |
KR20230150377A (ko) | 대화 동안 텍스트 음성 변환에서의 즉각적인 학습 | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
US20170337922A1 (en) | System and methods for modifying user pronunciation to achieve better recognition results | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
JP5493537B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
JP2009116075A (ja) | 音声認識装置 | |
US11328713B1 (en) | On-device contextual understanding | |
JP2012255867A (ja) | 音声認識装置 | |
JP4930014B2 (ja) | 音声認識装置、および音声認識方法 | |
US11393451B1 (en) | Linked content in voice user interface | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2007264229A (ja) | 対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170721 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180109 |