JPWO2021050159A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2021050159A5
JPWO2021050159A5 JP2022516212A JP2022516212A JPWO2021050159A5 JP WO2021050159 A5 JPWO2021050159 A5 JP WO2021050159A5 JP 2022516212 A JP2022516212 A JP 2022516212A JP 2022516212 A JP2022516212 A JP 2022516212A JP WO2021050159 A5 JPWO2021050159 A5 JP WO2021050159A5
Authority
JP
Japan
Prior art keywords
stopping condition
voice input
determining
interactive session
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022516212A
Other languages
Japanese (ja)
Other versions
JP2022548064A (en
Publication date
Priority claimed from US16/923,483 external-priority patent/US11551665B2/en
Application filed filed Critical
Publication of JP2022548064A publication Critical patent/JP2022548064A/en
Publication of JPWO2021050159A5 publication Critical patent/JPWO2021050159A5/ja
Pending legal-status Critical Current

Links

Claims (13)

コンピュータによって実行される方法であって、
対話システムが、対話セッションを開始するステップと、
前記対話システムが、第1の音声入力を受信するステップと、
前記対話システムが、第1の口頭発話の完了を示す前記第1の音声入力における休止を検出するステップと、
前記対話システムが、前記第1の口頭発話に基づいて、前記対話セッションのための停止条件を判断するステップとを含み、前記停止条件は、前記対話セッションを延長する第1の時間値を示し、前記方法はさらに、
前記対話システムが、前記対話セッションのための前記停止条件が満たされていないことを判断するステップと、
前記停止条件が満たされていないと判断したことに応答して、少なくとも前記停止条件によって示される前記第1の時間値だけ前記対話セッションを延長するステップとを含む、方法。
A computer-implemented method comprising:
an interactive system initiating an interactive session;
the dialog system receiving a first voice input;
said dialogue system detecting a pause in said first speech input indicating completion of a first spoken utterance;
determining a stopping condition for the interactive session based on the first spoken utterance, the stopping condition indicating a first time value for extending the interactive session; The method further comprises:
the dialog system determining that the stopping condition for the dialog session has not been met;
and responsive to determining that the stopping condition is not met, extending the interactive session by at least the first time value indicated by the stopping condition.
前記対話システムが、前記対話セッションが複数の構成された状態のうちの特定の状態にあることを判断するステップをさらに含み、
前記対話システムは、前記判断された状態に基づいて、前記対話セッションのための前記停止条件を判断する、請求項1に記載の方法。
further comprising the interaction system determining that the interaction session is in a particular state among a plurality of configured states;
2. The method of claim 1, wherein the dialog system determines the stopping condition for the dialog session based on the determined state.
前記対話システムが、前記第1の音声入力に基づいて応答を生成するステップと、
前記対話システムが、前記応答を出力するステップとをさらに含む、請求項1または2に記載の方法。
said dialog system generating a response based on said first voice input;
3. A method according to claim 1 or 2, further comprising the step of said dialogue system outputting said response.
前記応答を生成するステップおよび前記応答を出力するステップは、前記停止条件が満たされていないことを判断するステップの前に実行される、請求項3に記載の方法。 4. The method of claim 3, wherein generating the response and outputting the response are performed before determining that the stopping condition is not met. 前記対話システムが、第2の音声入力を受信するステップと、
前記対話システムが、第2の口頭発話の完了を示す前記第2の音声入力における第2の休止を検出するステップと、
前記対話システムが、前記第2の口頭発話に基づいて、前記対話セッションのための第2の停止条件を判断するステップとをさらに含み、前記第2の停止条件は、前記対話セッションを延長する第2の時間値を示す、請求項1~4のいずれか1項に記載の方法。
the dialog system receiving a second voice input;
said dialogue system detecting a second pause in said second speech input indicating completion of a second spoken utterance;
determining, based on the second spoken utterance, a second stopping condition for the interactive session, the second stopping condition extending the interactive session; A method according to any one of claims 1 to 4 , exhibiting two time values.
前記対話システムが、前記第1の音声入力および前記第2の音声入力に基づいて意図を識別するステップをさらに含む、請求項5に記載の方法。 6. The method of claim 5, wherein the dialog system further comprises identifying intent based on the first voice input and the second voice input. 前記対話システムが、前記第1の音声入力または前記第2の音声入力のうちの1つまたは複数に基づいて応答を生成するステップと、
前記対話システムが、前記応答を出力するステップとをさらに含む、請求項5または6に記載の方法。
said dialog system generating a response based on one or more of said first voice input or said second voice input;
7. A method according to claim 5 or 6, further comprising the step of said dialog system outputting said response.
前記対話システムが、前記応答を出力するステップの後に、前記第2の停止条件が満たされていることを判断するステップと、
前記対話システムが、前記対話セッションを終了させるステップとをさらに含む、請求項7に記載の方法。
determining, after the step of outputting the response, that the second stopping condition is met;
8. The method of claim 7, further comprising: said interactive system terminating said interactive session.
前記対話システムは、前記休止の長さ、前記第1の音声入力または前記第2の音声入力のうちの1つまたは複数に基づいて前記第2の停止条件を判断する、請求項5~8のいずれか1項に記載の方法。 of claims 5-8, wherein the dialog system determines the second stopping condition based on one or more of the length of the pause, the first voice input or the second voice input. A method according to any one of paragraphs. 前記対話セッションを開始するステップは、
ウェイクワードを検出するステップ、または
開始ボタンとのインタラクションを検出するステップ、のうちの1つまたは複数を含む、請求項1~9のいずれか1項に記載の方法。
Initiating the interactive session comprises:
A method according to any preceding claim, comprising one or more of: detecting a wake word; or detecting interaction with a start button.
前記対話システムが、第3の音声入力を受信するステップと、
前記対話システムが、前記第3の音声入力および前記第1の音声入力に基づいて、前記第3の音声入力が前記第1の音声入力に関連していないことを判断するステップと、
前記対話システムが、前記第3の音声入力を無視するステップとをさらに含む、請求項1~10のいずれか1項に記載の方法。
the dialog system receiving a third voice input;
determining, based on the third voice input and the first voice input, that the third voice input is not related to the first voice input;
The method of any one of claims 1-10 , further comprising the step of said dialog system ignoring said third voice input.
請求項1~11のいずれか1項に記載の方法を1つまたは複数のプロセッサによって実行させるためのコンピュータ読取可能プログラムA computer readable program for executing the method of any one of claims 1-11 by one or more processors. システムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサに結合されたメモリとを備え、前記メモリは、前記1つまたは複数のプロセッサによって実行可能な複数の命令を格納しており、前記複数の命令は、前記1つまたは複数のプロセッサによって実行されると前記1つまたは複数のプロセッサに処理を実行させる命令を備え、前記処理は、
対話セッションを開始するステップと、
第1の音声入力を受信するステップと、
第1の口頭発話の完了を示す前記第1の音声入力における休止を検出するステップと、
前記第1の口頭発話に基づいて、前記対話セッションのための停止条件を判断するステップとを含み、前記停止条件は、前記対話セッションを延長する第1の時間値を示し、前記処理はさらに、
前記対話セッションのための前記停止条件が満たされていないことを判断するステップと、
前記停止条件が満たされていないと判断したことに応答して、少なくとも前記停止条件によって示される前記第1の時間値だけ前記対話セッションを延長するステップとを含む、システム。
a system,
one or more processors;
a memory coupled to the one or more processors, the memory storing a plurality of instructions executable by the one or more processors, the plurality of instructions comprising the one or more comprising instructions that, when executed by a plurality of processors, cause said one or more processors to perform a process, said process comprising:
initiating an interactive session;
receiving a first audio input;
detecting a pause in the first speech input indicating completion of a first spoken utterance;
determining a stopping condition for the interactive session based on the first spoken utterance, the stopping condition indicating a first time value for extending the interactive session, the process further comprising:
determining that the stopping condition for the interactive session has not been met;
and, in response to determining that the stopping condition has not been met, extending the interactive session by at least the first time value indicated by the stopping condition.
JP2022516212A 2019-09-12 2020-07-09 Dynamic contextual interactive session extension Pending JP2022548064A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962899645P 2019-09-12 2019-09-12
US62/899,645 2019-09-12
US16/923,483 2020-07-08
US16/923,483 US11551665B2 (en) 2019-09-12 2020-07-08 Dynamic contextual dialog session extension
PCT/US2020/041460 WO2021050159A1 (en) 2019-09-12 2020-07-09 Dynamic contextual dialog session extension

Publications (2)

Publication Number Publication Date
JP2022548064A JP2022548064A (en) 2022-11-16
JPWO2021050159A5 true JPWO2021050159A5 (en) 2023-02-17

Family

ID=71948749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022516212A Pending JP2022548064A (en) 2019-09-12 2020-07-09 Dynamic contextual interactive session extension

Country Status (5)

Country Link
US (1) US11551665B2 (en)
EP (1) EP4029011A1 (en)
JP (1) JP2022548064A (en)
CN (1) CN114365215B (en)
WO (1) WO2021050159A1 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210034276A (en) * 2019-09-20 2021-03-30 현대자동차주식회사 Dialogue system, dialogue processing method and electronic apparatus
US11393477B2 (en) * 2019-09-24 2022-07-19 Amazon Technologies, Inc. Multi-assistant natural language input processing to determine a voice model for synthesized speech
US11120790B2 (en) 2019-09-24 2021-09-14 Amazon Technologies, Inc. Multi-assistant natural language input processing
KR20210044985A (en) * 2019-10-16 2021-04-26 엘지전자 주식회사 Speech processing method and apparatus therefor
US20210211422A1 (en) * 2020-01-06 2021-07-08 Vmware, Inc. Voice skill session lifetime management
CN113362828B (en) * 2020-03-04 2022-07-05 阿波罗智联(北京)科技有限公司 Method and apparatus for recognizing speech
US11960790B2 (en) * 2021-05-27 2024-04-16 Microsoft Technology Licensing, Llc Spatial attention model enhanced voice engagement system
CN113282708B (en) * 2021-05-31 2023-04-07 平安国际智慧城市科技股份有限公司 Method and device for replying to robot dialog, computer equipment and storage medium
US11887584B2 (en) * 2021-06-18 2024-01-30 Stmicroelectronics S.R.L. Vocal command recognition
US20230008868A1 (en) * 2021-07-08 2023-01-12 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program
US11922938B1 (en) 2021-11-22 2024-03-05 Amazon Technologies, Inc. Access to multiple virtual assistants

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001245447A1 (en) * 2000-03-06 2001-09-17 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
GB0113583D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech system barge-in control
EP1376999A1 (en) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
EP2825983A1 (en) * 2012-03-15 2015-01-21 Vibrant Media, Inc. Systems and methods for delivery techniques of contextualized services on mobile devices
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
KR101942521B1 (en) * 2015-10-19 2019-01-28 구글 엘엘씨 Speech endpointing
WO2018034169A1 (en) * 2016-08-17 2018-02-22 ソニー株式会社 Dialogue control device and method
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
US20190034554A1 (en) * 2017-07-28 2019-01-31 Lenovo (Singapore) Pte. Ltd. Extend conversational session waiting time
US11397888B2 (en) * 2018-06-14 2022-07-26 Accenture Global Solutions Limited Virtual agent with a dialogue management system and method of training a dialogue management system

Similar Documents

Publication Publication Date Title
US9437186B1 (en) Enhanced endpoint detection for speech recognition
TWI659412B (en) Method and device for speech activation detection
JP6541630B2 (en) Speech end pointing
JP5195405B2 (en) Response generating apparatus and program
Aleksic et al. Bringing contextual information to google speech recognition.
US9064495B1 (en) Measurement of user perceived latency in a cloud based speech application
JPWO2021050159A5 (en)
US20020123892A1 (en) Detecting speech recognition errors in an embedded speech recognition system
WO2015151157A1 (en) Device and method for understanding user intent
US20130060570A1 (en) System and method for advanced turn-taking for interactive spoken dialog systems
JP2017515147A5 (en)
US10672395B2 (en) Voice control system and method for voice selection, and smart robot using the same
JP2007041319A5 (en)
CN111429899A (en) Speech response processing method, device, equipment and medium based on artificial intelligence
US8781825B2 (en) Reducing false positives in speech recognition systems
US10832005B1 (en) Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
CN115552516A (en) Correcting speech misrecognition of spoken utterances
CN116153294A (en) Speech recognition method, device, system, equipment and medium
JP5375423B2 (en) Speech recognition system, speech recognition method, and speech recognition program
WO2015199731A1 (en) System and method for allowing user intervention in a speech recognition process
JP2007233149A (en) Voice recognition device and voice recognition program
JP2008003517A (en) Speech interaction system, speech interaction method, and program
WO2020085323A1 (en) Speech processing method, speech processing device, and speech processing program
JP2011175304A (en) Voice interactive device and method
JP5342629B2 (en) Male and female voice identification method, male and female voice identification device, and program