JPWO2019098038A1 - 情報処理装置、及び情報処理方法 - Google Patents
情報処理装置、及び情報処理方法 Download PDFInfo
- Publication number
- JPWO2019098038A1 JPWO2019098038A1 JP2019527257A JP2019527257A JPWO2019098038A1 JP WO2019098038 A1 JPWO2019098038 A1 JP WO2019098038A1 JP 2019527257 A JP2019527257 A JP 2019527257A JP 2019527257 A JP2019527257 A JP 2019527257A JP WO2019098038 A1 JPWO2019098038 A1 JP WO2019098038A1
- Authority
- JP
- Japan
- Prior art keywords
- response
- result
- semantic analysis
- user
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Abstract
Description
2.本技術の実施の形態
3.変形例
4.コンピュータの構成
図3は、本技術を適用した音声対話システムの構成の例を示すブロック図である。
図4は、本技術を適用した音声対話システムの機能的構成例を示すブロック図である。
次に、図5のフローチャートを参照して、音声対話システム1により実行される音声対話処理の流れを説明する。
次に、逐次意味解析制御部121によって実行される逐次意味解析制御処理の詳細な内容について説明する。
(B)信頼度スコアが一定の閾値を超えたとき
(C)依頼や質問を示す述語の文節を検出したとき
(D)テキストの文末に特定の言い回し文言を検出したとき
(E)発話韻律で疑問を示すイントネーションを検出したとき
(F)ユーザの顔が機器に向いたとき、又は機器からそれたとき
(G)ユーザの視線が機器を見たとき、又は機器からそれたとき
ここで、上述の(A)に示した第1の条件を用いた場合には、「発話の微小な間(ま)の時間が一定の時間を超えたとき」に、意味解析処理への投入を検出するが、その具体例を、図6に示している。
上述の(B)の第2の条件を用いる場合には、例えば、音声認識部104による音声認識の結果に基づき、ASR途中結果に付随する信頼度スコアが、一定の閾値を超えたとき(すなわち、ASR途中結果が信頼できる内容であるとき)、逐次意味解析制御部121は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。
上述の(C)の第3の条件を用いる場合には、ASR途中結果を自然言語処理に投入して得られる自然言語の結果に基づき、ASR途中結果(テキスト)に含まれる依頼や質問を示す述語の文節を検出したとき、逐次意味解析制御部121は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。
上述の(D)の第4の条件を用いる場合には、ASR途中結果(テキスト)の文末に特定の言い回し文言(例えば、「です」、「します」、「どうぞ」など)を検出したとき、逐次意味解析制御部121は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。
上述の(E)の第5の条件を用いる場合には、例えば、音声認識部104による音声認識の結果に基づき、発話韻律で疑問を示すイントネーション(例えば、語尾が上がるなど)を検出したとき、逐次意味解析制御部121は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。
上述の(F)の第6の条件を用いる場合には、例えば、画像認識部105による画像認識の結果に基づき、ユーザ2の発話中に、ユーザ2の顔が端末装置10に向いたことを検出したとき、又は端末装置10からそれたことを検出したとき、逐次意味解析制御部121は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。
上述の(G)の第7の条件を用いる場合には、例えば、画像認識部105による画像認識の結果に基づき、ユーザ2の発話中に、ユーザ2の視線が端末装置10を見たことを検出したとき、又は端末装置10からそれたことを検出したとき、逐次意味解析制御部121は、ASR途中結果の投入タイミングであると判定し、ASR途中結果を、意味解析処理に投入する。
なお、上述した(A)乃至(G)以外の他の条件としては、例えば、次に示すような認識の結果が得られたときに、音声対話システム1は、その認識の結果に基づき、ASR途中結果の投入タイミングを判定するようにしてもよい。
次に、応答有無判定部123によって実行される応答有無判定処理の詳細な内容について説明する。
図7は、応答有無判定の第1の例を示している。ただし、この第1の例において、音声対話システム1は、その機能の1つとして、ユーザのスケジュールを管理するスケジュール機能を有しているものとする。
図8は、応答有無判定の第2の例を示す図である。ただし、この第2の例において、音声対話システム1は、その機能の1つとして、電子メールの送受信や転送などを制御する電子メール処理機能を有しているものとする。
図9は、応答有無判定の第3の例を示す図である。
図10は、応答有無判定の第4の例を示す図である。
なお、上述した応答有無判定の例では、スケジュール機能(例えば予定の登録)、電子メール処理機能(例えば電子メールの転送)、及び天気確認機能を例に挙げて、音声対話システム1の機能として受けられる依頼であるとして説明したが、音声対話システム1の機能としては、それらの機能に限らず、他の機能が含まれるようにしてもよい。
ところで、音声対話システム1においては、サーバ20側で、あらかじめユーザの個人属性に応じた学習処理を行っておくことで、その学習の結果を用いた適応処理を行うことができる。
ところで、音声対話システム1において、ローカル側の端末装置10が、視覚や聴覚などの複数のコミュニケーションモードを利用することが可能な場合に、このマルチモーダル・インターフェースを利用して、ユーザ2の発話中であっても、応答発話以外に提示可能な情報を、先行して提示するようにしてもよい。例えば、先行して提示可能な情報を、応答発話よりも前に画面に表示することで、発話中のユーザ2に対し、迅速にシステム応答を提示することができる。
次に、図12のフローチャートを参照して、音声対話システム1により実行される応答有無判定処理の流れを説明する。
ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する処理部を備える
情報処理装置。
(2)
前記処理部は、
前記ユーザの発話中に得られる認識の結果に基づいて、前記音声認識の途中結果を逐次、意味解析処理に投入する意味解析制御部と、
前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、前記応答の有無を判定する応答有無判定部と
を有する
前記(1)に記載の情報処理装置。
(3)
前記意味解析制御部は、前記ユーザの発話の音声データの認識の結果、前記ユーザを撮像して得られる画像データの認識の結果、前記ユーザ又はその周辺をセンシングして得られるセンサデータの認識の結果、及び前記音声認識の途中結果を自然言語処理して得られる自然言語認識の結果のうち、少なくとも1つの認識の結果を含む
前記(2)に記載の情報処理装置。
(4)
前記意味解析制御部は、前記認識の結果から得られる前記ユーザの発話の状況に基づいて、前記音声認識の途中結果を、前記意味解析処理に投入するタイミングを判定する
前記(2)又は(3)に記載の情報処理装置。
(5)
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果として、システムが、前記ユーザとの対話に即した機能を実行可能な意味解析の結果が得られた時点で、前記応答を行うと判定する
前記(2)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、システムの機能として実行可能な意図が得られたとき、前記応答を行うと判定する
前記(2)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記応答有無判定部は、
ある時点で得られた第1の意味解析の結果に基づき、前記ユーザのコンテキスト情報を記録し、
その後に得られた第2の意味解析の結果が、記録した前記コンテキスト情報の内容に合致している場合に、前記第2の意味解析の結果に基づいた応答を行うと判定する
前記(6)に記載の情報処理装置。
(8)
前記応答有無判定部は、判定の対象となる第2の応答に対し、第1の応答が先行して行われている場合に、前記第1の応答が、前記コンテキスト情報に基づいたものであるとき、前記第1の応答が完了してから、前記第2の応答を行うと判定する
前記(7)に記載の情報処理装置。
(9)
前記応答有無判定部は、判定の対象となる第2の応答に対し、第1の応答が先行して行われている場合に、前記第1の応答が、前記コンテキスト情報に基づいたものではないとき、前記第1の応答を中断し、前記第2の応答を即時に行うと判定する
前記(7)又は(8)に記載の情報処理装置。
(10)
前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる意図(Intent)及び実体情報(Entity)に基づいて、前記応答の有無を判定する
前記(2)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記処理部は、前記ユーザごとの使用状況に応じた学習の結果に基づいて、前記応答の有無を判定する
前記(2)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記処理部は、
前記ユーザの発話が完了する際の前記意味解析処理への投入判定要因、又は前記意味解析処理を逐次行うことで得られる意図(Intent)を、時間軸で統計的に学習し、
次回以降の処理で、前記ユーザのデモグラフィック属性に基づいて、学習の結果に適応した処理を行う
前記(11)に記載の情報処理装置。
(13)
前記処理部は、第1の応答が音声により提示される場合に、前記第1の応答に先行した第2の応答が提示可能となるとき、前記第1の応答に先行して、前記第2の応答が音声以外の方法により提示されるようにする
前記(2)に記載の情報処理装置。
(14)
前記意味解析制御部は、前記音声データの認識の結果に基づいて、前記ユーザの発話の間の時間が一定の時間を超えたとき、前記音声認識の途中結果に付随する信頼度スコアが一定の閾値を超えたとき、前記音声認識の途中結果のテキストの文末に特定の言い回し文言を検出したとき、又は発話韻律で疑問を示すイントネーションを検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記(3)又は(4)に記載の情報処理装置。
(15)
前記意味解析制御部は、前記画像データの認識の結果に基づいて、前記ユーザの顔が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記(3)又は(4)に記載の情報処理装置。
(16)
前記意味解析制御部は、前記センサデータの認識の結果に基づいて、前記ユーザの視線が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記(3)又は(4)に記載の情報処理装置。
(17)
前記意味解析制御部は、前記自然言語認識の結果に基づいて、依頼又は質問を示す述語の文節を検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
前記(3)又は(4)に記載の情報処理装置。
(18)
前記応答有無判定部による前記応答の有無判定の結果に基づいて、システム応答を生成する応答生成部をさらに備える
前記(2)乃至(17)のいずれかに記載の情報処理装置。
(19)
前記ユーザの発話から前記音声認識の途中結果を得るための音声認識処理を行う音声認識部と、
前記意味解析処理を行う意味解析部と
をさらに備える前記(2)乃至(18)のいずれかに記載の情報処理装置。
(20)
情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する
情報処理方法。
Claims (20)
- ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する処理部を備える
情報処理装置。 - 前記処理部は、
前記ユーザの発話中に得られる認識の結果に基づいて、前記音声認識の途中結果を逐次、意味解析処理に投入する意味解析制御部と、
前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、前記応答の有無を判定する応答有無判定部と
を有する
請求項1に記載の情報処理装置。 - 前記意味解析制御部は、前記ユーザの発話の音声データの認識の結果、前記ユーザを撮像して得られる画像データの認識の結果、前記ユーザ又はその周辺をセンシングして得られるセンサデータの認識の結果、及び前記音声認識の途中結果を自然言語処理して得られる自然言語認識の結果のうち、少なくとも1つの認識の結果を含む
請求項2に記載の情報処理装置。 - 前記意味解析制御部は、前記認識の結果から得られる前記ユーザの発話の状況に基づいて、前記音声認識の途中結果を、前記意味解析処理に投入するタイミングを判定する
請求項3に記載の情報処理装置。 - 前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果として、システムが、前記ユーザとの対話に即した機能を実行可能な意味解析の結果が得られた時点で、前記応答を行うと判定する
請求項2に記載の情報処理装置。 - 前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる前記意味解析の結果に基づいて、システムの機能として実行可能な意図が得られたとき、前記応答を行うと判定する
請求項5に記載の情報処理装置。 - 前記応答有無判定部は、
ある時点で得られた第1の意味解析の結果に基づき、前記ユーザのコンテキスト情報を記録し、
その後に得られた第2の意味解析の結果が、記録した前記コンテキスト情報の内容に合致している場合に、前記第2の意味解析の結果に基づいた応答を行うと判定する
請求項6に記載の情報処理装置。 - 前記応答有無判定部は、判定の対象となる第2の応答に対し、第1の応答が先行して行われている場合に、前記第1の応答が、前記コンテキスト情報に基づいたものであるとき、前記第1の応答が完了してから、前記第2の応答を行うと判定する
請求項7に記載の情報処理装置。 - 前記応答有無判定部は、判定の対象となる第2の応答に対し、第1の応答が先行して行われている場合に、前記第1の応答が、前記コンテキスト情報に基づいたものではないとき、前記第1の応答を中断し、前記第2の応答を即時に行うと判定する
請求項7に記載の情報処理装置。 - 前記応答有無判定部は、前記意味解析処理を逐次行うことで得られる意図(Intent)及び実体情報(Entity)に基づいて、前記応答の有無を判定する
請求項2に記載の情報処理装置。 - 前記処理部は、前記ユーザごとの使用状況に応じた学習の結果に基づいて、前記応答の有無を判定する
請求項2に記載の情報処理装置。 - 前記処理部は、
前記ユーザの発話が完了する際の前記意味解析処理への投入判定要因、又は前記意味解析処理を逐次行うことで得られる意図(Intent)を、時間軸で統計的に学習し、
次回以降の処理で、前記ユーザのデモグラフィック属性に基づいて、学習の結果に適応した処理を行う
請求項11に記載の情報処理装置。 - 前記処理部は、第1の応答が音声により提示される場合に、前記第1の応答に先行した第2の応答が提示可能となるとき、前記第1の応答に先行して、前記第2の応答が音声以外の方法により提示されるようにする
請求項2に記載の情報処理装置。 - 前記意味解析制御部は、前記音声データの認識の結果に基づいて、前記ユーザの発話の間の時間が一定の時間を超えたとき、前記音声認識の途中結果に付随する信頼度スコアが一定の閾値を超えたとき、前記音声認識の途中結果のテキストの文末に特定の言い回し文言を検出したとき、又は発話韻律で疑問を示すイントネーションを検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項4に記載の情報処理装置。 - 前記意味解析制御部は、前記画像データの認識の結果に基づいて、前記ユーザの顔が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項4に記載の情報処理装置。 - 前記意味解析制御部は、前記センサデータの認識の結果に基づいて、前記ユーザの視線が所定の対象に向いたとき、又は所定の対象からそれたとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項4に記載の情報処理装置。 - 前記意味解析制御部は、前記自然言語認識の結果に基づいて、依頼又は質問を示す述語の文節を検出したとき、前記音声認識の途中結果を、前記意味解析処理に投入する
請求項4に記載の情報処理装置。 - 前記応答有無判定部による前記応答の有無判定の結果に基づいて、システム応答を生成する応答生成部をさらに備える
請求項2に記載の情報処理装置。 - 前記ユーザの発話から前記音声認識の途中結果を得るための音声認識処理を行う音声認識部と、
前記意味解析処理を行う意味解析部と
をさらに備える請求項18に記載の情報処理装置。 - 情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの発話の音声認識の途中結果から得られる意味解析の結果に基づいて、前記ユーザの発話に対する応答の有無を判定する
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219683 | 2017-11-15 | ||
JP2017219683 | 2017-11-15 | ||
PCT/JP2018/040663 WO2019098038A1 (ja) | 2017-11-15 | 2018-11-01 | 情報処理装置、及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019098038A1 true JPWO2019098038A1 (ja) | 2020-10-01 |
JP7243625B2 JP7243625B2 (ja) | 2023-03-22 |
Family
ID=66540240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019527257A Active JP7243625B2 (ja) | 2017-11-15 | 2018-11-01 | 情報処理装置、及び情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11217230B2 (ja) |
EP (1) | EP3567585A4 (ja) |
JP (1) | JP7243625B2 (ja) |
WO (1) | WO2019098038A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11322141B2 (en) * | 2017-08-17 | 2022-05-03 | Sony Corporation | Information processing device and information processing method |
KR102170088B1 (ko) * | 2019-07-24 | 2020-10-26 | 네이버 주식회사 | 인공지능 기반 자동 응답 방법 및 시스템 |
KR102342343B1 (ko) * | 2019-10-10 | 2021-12-22 | 한국전자기술연구원 | 적응형 대화를 위한 장치 |
CN111261159B (zh) * | 2020-01-19 | 2022-12-13 | 百度在线网络技术(北京)有限公司 | 信息指示的方法及装置 |
JP7436804B2 (ja) * | 2020-01-23 | 2024-02-22 | 株式会社Mixi | 情報処理装置、及びプログラム |
JP2021117372A (ja) * | 2020-01-27 | 2021-08-10 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム |
TWI801718B (zh) * | 2020-02-25 | 2023-05-11 | 瑞軒科技股份有限公司 | 智慧型互動顯示裝置、智慧型互動顯示系統及其互動顯示方法 |
US11615239B2 (en) * | 2020-03-31 | 2023-03-28 | Adobe Inc. | Accuracy of natural language input classification utilizing response delay |
US11556707B2 (en) | 2020-06-18 | 2023-01-17 | Google Llc | Fulfillment of actionable requests ahead of a user selecting a particular autocomplete suggestion for completing a current user input |
JP6898685B1 (ja) * | 2020-12-14 | 2021-07-07 | シンメトリー・ディメンションズ・インク | 業務支援装置、業務支援システム、及び、業務支援方法 |
US11605375B2 (en) * | 2021-03-05 | 2023-03-14 | Capital One Services, Llc | Systems and methods for dynamically updating machine learning models that provide conversational responses |
CN115171727A (zh) * | 2022-09-08 | 2022-10-11 | 北京亮亮视野科技有限公司 | 一种量化沟通效率的方法及装置 |
CN115410579B (zh) * | 2022-10-28 | 2023-03-31 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002024212A (ja) * | 2000-07-12 | 2002-01-25 | Mitsubishi Electric Corp | 音声対話システム |
JP2012226068A (ja) * | 2011-04-19 | 2012-11-15 | Honda Motor Co Ltd | 対話装置 |
JP2016004270A (ja) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017156854A (ja) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3277579B2 (ja) | 1992-12-28 | 2002-04-22 | ソニー株式会社 | 音声認識方法および装置 |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
EP1575031A3 (en) * | 2002-05-15 | 2010-08-11 | Pioneer Corporation | Voice recognition apparatus |
US7640164B2 (en) * | 2002-07-04 | 2009-12-29 | Denso Corporation | System for performing interactive dialog |
CA2593324A1 (en) * | 2004-12-21 | 2006-06-29 | Linda H. Kunz | Multicultural and multimedia data collection and documentation computer system, apparatus and method |
US7518631B2 (en) * | 2005-06-28 | 2009-04-14 | Microsoft Corporation | Audio-visual control system |
JP4087400B2 (ja) * | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
US7818166B2 (en) * | 2007-01-31 | 2010-10-19 | Motorola, Inc. | Method and apparatus for intention based communications for mobile communication devices |
US7809664B2 (en) * | 2007-12-21 | 2010-10-05 | Yahoo! Inc. | Automated learning from a question and answering network of humans |
KR101622111B1 (ko) * | 2009-12-11 | 2016-05-18 | 삼성전자 주식회사 | 대화 시스템 및 그의 대화 방법 |
US20120131041A1 (en) * | 2010-11-24 | 2012-05-24 | Meography Incorporated | Interactive story compilation |
US9997069B2 (en) * | 2012-06-05 | 2018-06-12 | Apple Inc. | Context-aware voice guidance |
US9674331B2 (en) * | 2012-06-08 | 2017-06-06 | Apple Inc. | Transmitting data from an automated assistant to an accessory |
US10199051B2 (en) * | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10122479B2 (en) * | 2017-01-23 | 2018-11-06 | DGS Global Systems, Inc. | Systems, methods, and devices for automatic signal detection with temporal feature extraction within a spectrum |
US9727821B2 (en) * | 2013-08-16 | 2017-08-08 | International Business Machines Corporation | Sequential anomaly detection |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
CN104978750B (zh) * | 2014-04-04 | 2018-02-06 | 诺基亚技术有限公司 | 用于处理视频文件的方法和装置 |
EP3591577A1 (en) * | 2014-05-22 | 2020-01-08 | Sony Corporation | Information processing apparatus, information processing method, and program |
CN107112013B (zh) * | 2014-09-14 | 2020-10-23 | 谷歌有限责任公司 | 用于创建可定制对话系统引擎的平台 |
EP3026668A1 (en) * | 2014-11-27 | 2016-06-01 | Thomson Licensing | Apparatus and method for generating visual content from an audio signal |
US9720917B2 (en) * | 2015-02-17 | 2017-08-01 | International Business Machines Corporation | Electronic meeting question management |
US10430859B2 (en) * | 2015-03-30 | 2019-10-01 | NetSuite Inc. | System and method of generating a recommendation of a product or service based on inferring a demographic characteristic of a customer |
CN105094315B (zh) * | 2015-06-25 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机智能聊天的方法和装置 |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US20170031896A1 (en) * | 2015-07-28 | 2017-02-02 | Xerox Corporation | Robust reversible finite-state approach to contextual generation and semantic parsing |
US9886958B2 (en) * | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US11449785B2 (en) * | 2016-02-24 | 2022-09-20 | Line Corporation | Method and system for artificial intelligence learning using messaging service and method and system for relaying answer using artificial intelligence |
US10140988B2 (en) * | 2016-03-01 | 2018-11-27 | Microsoft Technology Licensing, Llc | Speech recognition |
US20180052664A1 (en) * | 2016-08-16 | 2018-02-22 | Rulai, Inc. | Method and system for developing, training, and deploying effective intelligent virtual agent |
US10216732B2 (en) * | 2016-09-07 | 2019-02-26 | Panasonic Intellectual Property Management Co., Ltd. | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system |
US11093307B2 (en) * | 2016-12-08 | 2021-08-17 | Accenture Global Solutions Limited | Platform for supporting multiple virtual agent applications |
US20180189273A1 (en) * | 2016-12-23 | 2018-07-05 | OneMarket Network LLC | Maintaining context in transaction conversations |
KR101957277B1 (ko) * | 2017-02-14 | 2019-03-12 | 윤종식 | 음성 인식을 이용한 코딩시스템 및 코딩방법 |
US10089981B1 (en) * | 2017-03-09 | 2018-10-02 | Amazon Technologies, Inc. | Messaging account disambiguation |
US10585739B2 (en) * | 2017-04-28 | 2020-03-10 | International Business Machines Corporation | Input data correction |
US10366690B1 (en) * | 2017-05-15 | 2019-07-30 | Amazon Technologies, Inc. | Speech recognition entity resolution |
US10529323B2 (en) * | 2017-05-19 | 2020-01-07 | UBTECH Robotics Corp. | Semantic processing method of robot and semantic processing device |
US10171662B1 (en) * | 2017-09-22 | 2019-01-01 | International Business Machines Corporation | Intervention in conversation between virtual agent and user |
CN109767774A (zh) * | 2017-11-08 | 2019-05-17 | 阿里巴巴集团控股有限公司 | 一种交互方法和设备 |
CN109637519B (zh) * | 2018-11-13 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
-
2018
- 2018-11-01 WO PCT/JP2018/040663 patent/WO2019098038A1/ja unknown
- 2018-11-01 EP EP18879800.3A patent/EP3567585A4/en not_active Withdrawn
- 2018-11-01 JP JP2019527257A patent/JP7243625B2/ja active Active
- 2018-11-01 US US16/472,544 patent/US11217230B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002024212A (ja) * | 2000-07-12 | 2002-01-25 | Mitsubishi Electric Corp | 音声対話システム |
JP2012226068A (ja) * | 2011-04-19 | 2012-11-15 | Honda Motor Co Ltd | 対話装置 |
JP2016004270A (ja) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
JP2017156854A (ja) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019098038A1 (ja) | 2019-05-23 |
US11217230B2 (en) | 2022-01-04 |
JP7243625B2 (ja) | 2023-03-22 |
US20210134278A1 (en) | 2021-05-06 |
EP3567585A1 (en) | 2019-11-13 |
EP3567585A4 (en) | 2020-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7243625B2 (ja) | 情報処理装置、及び情報処理方法 | |
US11727219B2 (en) | System and method for inferring user intent from speech inputs | |
AU2018241137B2 (en) | Dynamic thresholds for always listening speech trigger | |
US11810554B2 (en) | Audio message extraction | |
EP3485489B1 (en) | Contextual hotwords | |
US9633674B2 (en) | System and method for detecting errors in interactions with a voice-based digital assistant | |
US20150193379A1 (en) | System and method for cognizant time-based reminders | |
CN108337380B (zh) | 自动调整用户界面以用于免提交互 | |
WO2019087811A1 (ja) | 情報処理装置、及び情報処理方法 | |
US20160203002A1 (en) | Headless task completion within digital personal assistants | |
KR20190113927A (ko) | 장치에 대한 다중 사용자 인증 | |
US10672379B1 (en) | Systems and methods for selecting a recipient device for communications | |
WO2019107145A1 (ja) | 情報処理装置、及び情報処理方法 | |
KR20190060015A (ko) | 제3자 서비스를 디지털 어시스턴트와 통합하기 위한 시스템 및 방법 | |
US20230176813A1 (en) | Graphical interface for speech-enabled processing | |
WO2019026617A1 (ja) | 情報処理装置、及び情報処理方法 | |
US20200402498A1 (en) | Information processing apparatus, information processing method, and program | |
CN111556999A (zh) | 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
US20200342870A1 (en) | Information processing device and information processing method | |
US10841411B1 (en) | Systems and methods for establishing a communications session | |
JP2021047507A (ja) | 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230220 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7243625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |