RU2530267C2 - Способ коммуникации пользователя с информационной диалоговой системой - Google Patents
Способ коммуникации пользователя с информационной диалоговой системой Download PDFInfo
- Publication number
- RU2530267C2 RU2530267C2 RU2012150996/08A RU2012150996A RU2530267C2 RU 2530267 C2 RU2530267 C2 RU 2530267C2 RU 2012150996/08 A RU2012150996/08 A RU 2012150996/08A RU 2012150996 A RU2012150996 A RU 2012150996A RU 2530267 C2 RU2530267 C2 RU 2530267C2
- Authority
- RU
- Russia
- Prior art keywords
- user
- response
- user input
- request
- input subsystem
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004891 communication Methods 0.000 title abstract description 16
- 230000004044 response Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000007420 reactivation Effects 0.000 claims abstract 4
- 230000004913 activation Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000003213 activating effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000009471 action Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004040 coloring Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка. Технический результат - возможность взаимодействия с системой посредством ввода текста и использования естественного языка. Способ коммуникации пользователя с информационной диалоговой системой включает в себя: активацию подсистемы пользовательского ввода, получение подсистемой запроса пользователя и преобразование его в текст, обработку диалоговым модулем полученного текста и ответа на запрос, отображение и/или воспроизведение сформированного ответа, причем по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняется автоматическая повторная активация подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса. 15 з.п. ф-лы, 1 ил.
Description
Заявляемое изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка.
На сегодняшний день информационные диалоговые системы получили широкое распространение и используются в различных областях общественной жизни, например для организации автоматической проверки знаний, автоматизированной службы поддержки пользователей, для диагностики заболеваний и прочее. Однако существующие информационные диалоговые системы предназначены для решения задач узкого профиля, то есть они способны поддерживать только диалог на заданную тему. Кроме того, большинство из них не имеет возможности формировать ответ на естественном языке, придавать эмоциональную окраску формируемому ответу, выполнять какие-либо дополнительные действия, в том числе взаимодействовать с другими информационными системами и подсистемами. Наличие таких возможностей позволило бы выполнять не только двухсторонний обмен информацией, инструкциями и командами между пользователем и системой, но и вести полноценный диалог, создавая у пользователя впечатление общения с живым собеседником, а также решать поставленные пользователем задачи гораздо эффективнее. Поэтому на данный момент остается актуальной разработка такого способа коммуникации пользователя с информационной диалоговой системой, который расширил бы возможности взаимодействия пользователя с информационной диалоговой системой.
Ближайшим аналогом заявляемого изобретения является адаптивный естественно-языковой интерфейс и способ получения, интерпретации и выполнения пользовательского ввода на естественном языке, описанные в патенте США № 7216080 (опубл. 08.05.2007). Способ включает ввод пользователем запроса, прием и преобразование запроса пользователя в текст, обработку текста и формирование ответа в виде выходной команды, преобразование выходной команды в исполнительную, выведение исполнительной команды в дополнительную систему и/или подсистемы для исполнения.
К недостаткам описанного решения можно отнести то, что пользователь может вводить запрос только на естественном языке, при этом, в случае возникновения необходимости, у него нет возможности вводить текст с помощью вспомогательных устройств, например клавиатуры. Помимо этого голосовая реплика на запрос пользователя не содержит эмоциональную окраску, отображающую эмоциональное состояние информационной диалоговой системы.
В основу изобретения положена задача разработать способ коммуникации пользователя с информационной диалоговой системой, реализация которого обеспечит возможность упрощения взаимодействия пользователя с информационной диалоговой системой, уменьшение количества необходимых для выполнения коммуникации действий, а также обеспечит возможность взаимодействия с указанной системой не только посредством ввода текста, но и с использованием естественного языка.
Поставленная задача решается тем, что разработанный способ коммуникации пользователя с информационной диалоговой системой включает активацию пользователем подсистемы пользовательского ввода, ввод пользователем запроса, прием и преобразование запроса пользователя в текст подсистемой пользовательского ввода, передачу текста, полученного в результате преобразования запроса диалоговому модулю, обработку диалоговым модулем полученного текста, формирование диалоговым модулем ответа на запрос, передачу ответа пользователю, отображение и/или воспроизведение сформированного ответа, при этом после отображения и/или воспроизведения сформированного ответа выполняют автоматическую активацию подсистемы пользовательского ввода, после чего пользователь выполняет ввод нового или уточняющего запроса.
Информационной диалоговой системой в контексте данной заявки является система, оснащенная подсистемой пользовательского ввода, подсистемой генерации и распознавания голоса, дисплеем и клавиатурой пользовательского устройства, дополнительными кнопками, диалоговым модулем, дополнительными системами и/или подсистемами, профилем пользователя, клиентской памятью и т.п. При этом подсистемой пользовательского ввода является подсистема, содержащая по меньшей мере два компонента, с помощью которых могут быть выполнены прием и преобразование пользовательского ввода. Указанными компонентами являются компонент записи и распознавания голоса, клавиатура, а также подобные указанным устройства, компоненты и средства, сопровождаемые соответствующим программным обеспечением, если таковое необходимо.
Под пользовательским устройством подразумеваются мобильные устройства, такие как ноутбук, нетбук, планшет, мобильные телефоны, смартфоны и подобные устройства, а также стационарные электронные устройства, такие как компьютер и подобные ему устройства.
Под дополнительными кнопками понимаются физические кнопки пользовательского устройства и программные кнопки диалоговой информационной системы. Например, выполнение пользователем нажатия программной кнопки «Микрофон» запускает/отключает компонент записи и распознавания голоса, программной кнопки «Отмена» - отменит выполнение текущей операции, которую выполняют посредством информационной диалоговой системы и т.п. Предполагается наличие других дополнительных функциональных кнопок, которые могут быть реализованы в рамках заявляемого изобретения.
Дополнительными системами и/или подсистемами в контексте данной заявки являются системы работы с функциями устройств пользователя, например система глобального позиционирования.
Профиль пользователя - учетная запись, содержащая настройки, предпочтения, инструкции, информацию пользователя.
Клиентская память хранит информацию о пользователе, взаимодействующем с информационной диалоговой системой.
Под запросом пользователя понимается подаваемая им голосовая команда или вводимый с клавиатуры текст.
При реализации заявляемого способа коммуникации пользователя с информационной диалоговой системой пользователю предоставляется возможность отключения компонента записи и распознавания голоса. Таким образом, пользователь может взаимодействовать с информационной диалоговой системой посредством ввода запросов с клавиатуры.
Предпочтительна реализация способа, при которой автоматическую активацию подсистемы пользовательского ввода факультативно выполняют по истечении заранее заданного диалоговым модулем интервала времени после отображения и/или воспроизведения сформированного ответа.
В случае если ответ, сформированный информационной диалоговой системой, содержит дополнительные результаты, требующие дополнительного времени для прочтения и ознакомления с ними, целесообразно активировать подсистему пользовательского ввода, в частности компонента записи и распознавания голоса по истечении некоторого промежутка времени, при этом деактивация этого компонента может выполняться как пользователем самостоятельно, так и в соответствии с инструкциями, содержащимися в ответе диалогового модуля на запрос. Согласно указанным инструкциям активация компонента записи и распознавания голоса может производиться по истечении заранее заданного диалоговым модулем интервала времени или не производиться вовсе. Кроме того, диалоговым модулем может быть задано значение, насколько долго компонент записи и распознавания голоса должен ожидать ввод пользователем запроса.
Целесообразна такая реализация изобретения, при которой ввод пользователем запроса выполняют посредством голосовой команды и/или с использованием клавиатуры. Таким образом, в ходе ведения диалога с информационной диалоговой системой пользователь имеет возможность осуществления ввода как с помощью голосовой команды, так и путем ввода текста запроса с клавиатуры.
Предпочтительна реализация способа, при которой формирование диалоговым модулем ответа выполняют в виде текста, при этом воспроизведение сформированного ответа дополнительно выполняют посредством подсистемы генерации и воспроизведения голоса, отображение и/или воспроизведение сформированного ответа выполняют посредством голосовой реплики и/или отображения текста на дисплее. Таким образом, после передачи ответа пользователю выполняют отображение текста ответа на дисплее и/или воспроизведение этого текста посредством подсистемы генерации и воспроизведения голоса в виде голосовой реплики.
Целесообразна такая реализация изобретения, при которой обработку диалоговым модулем полученного текста выполняют с использованием дополнительных систем и/или подсистем. В зависимости от содержания запроса, вводимого пользователем для формирования достоверного ответа, может возникнуть необходимость в использовании функций дополнительных систем и/или подсистем, таких как система глобального позиционирования и прочие. Таким образом, обеспечивается формирование точного исчерпывающего ответа на запрос пользователя.
Предпочтительна реализация способа, при которой в формируемый диалоговым модулем ответ на запрос включают дополнительные метаданные, при этом в дополнительные метаданные включают инструкции, направляемые дополнительным системам и/или подсистемам. Указанные дополнительные метаданные являются дополнением к ответу, сформированному диалоговым модулем. Указанные метаданные могут содержать информацию об эмоциональной окраске формируемого ответа информационной диалоговой системы, которую отображают на дисплее и/или воспроизводят посредством подсистемы генерации и воспроизведения голоса, инструкции, направляемые дополнительным системам и/или подсистемам. Таким образом, присутствие каких-либо эмоций в ответе создает у пользователя впечатление общения с живым собеседником, тем самым повышая удобство взаимодействия с информационной диалоговой системой. Кроме того, указанные метаданные могут дополнительно содержать расширения ответов, специфичные для реализации конкретной диалоговой подсистемы.
Формируемый диалоговым модулем ответ также может быть рассмотрен как уточняющий запрос, направленный пользователю, выполняющему взаимодействие с информационной диалоговой системой, или как действие информационной диалоговой системы, сопровождаемое текстом, отображаемым на дисплее, и/или голосовой репликой. Например, пользователь ввел запрос, содержащий команду отправки СМС сообщения. Ответом системы будет выполнение отправки СМС сообщения и текстовое и/или голосовое подтверждение выполнения запроса. Заявляемый способ коммуникации может выполняться циклично, при этом цикл реализации способа завершают по инициативе пользователя. Таким образом, реализуется диалог пользователя с информационной диалоговой системой, то есть каждый раз после получения ответа пользователь вводит новый или уточняющий запрос.
Заявляемое изобретение поясняется при помощи чертежа, где представлена обобщенная блок-схема реализации способа коммуникации пользователя с информационной диалоговой системой.
На чертеже изображена обобщенная блок-схема реализации способа коммуникации пользователя с информационной диалоговой системой, содержащая обязательные для выполнения и опциональные этапы способа коммуникации пользователя с информационной диалоговой системой, такие как:
1 - активация пользователем подсистемы пользовательского ввода и ввод пользователем запроса, при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода;
2 - передача текста, полученного в результате преобразования, диалоговому модулю, после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос;
3 - передача ответа пользователю;
4 - отображение сформированного ответа в виде текста на дисплее;
5 - воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса, после чего выполняют автоматическую активацию подсистемы пользовательского ввода;
6 - нажатие пользователем дополнительных кнопок (например, отключение компонента записи и распознавания голоса);
7 - выполнение соответствующих дополнительным кнопкам действий;
8 - взаимодействие с дополнительными системами и/или подсистемами (отправка диалоговым модулем запроса дополнительной системе и/или подсистеме, обработка системой и/или подсистемой полученного запроса, передача результата диалоговому модулю);
9 - взаимодействие с профилем пользователя (отправка диалоговым модулем запроса, получение информации из профиля пользователя);
10 - взаимодействие с клиентской памятью.
Этапы 6, 7, 8, 9, 10 являются факультативными.
Далее описаны примеры осуществления способа коммуникации пользователя с информационной диалоговой системой.
А) Автоматический запуск компонента записи и распознавания после выполнения отображения и/или воспроизведения сформированного ответа
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом пользователь имеет возможность отключить компонент записи и распознавания голоса. В случае, если ввод следующего запроса пользователь выполняет с помощью клавиатуры, компонент записи и распознавания автоматически деактивируют.
Б) Отключение компонента записи и распознавания голоса
Б 1) Как упоминалось ранее, ответ, формируемый диалоговым модулем, может содержать дополнительные метаданные, на ознакомление с которыми необходимо дополнительное время, следовательно, целесообразно не активировать подсистему пользовательского ввода, в частности компонент записи и распознавания голоса.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом автоматическую активацию компонента записи и распознавания голоса не выполняют.
Б 2) Как упоминалось ранее, в ответ информационной диалоговой системы могут включать дополнительные метаданные, а в них - инструкции, направляемые дополнительным системам и/или подсистемам. В таком случае целесообразно не активировать компонент записи и распознавания голоса.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5), при этом автоматическую активацию компонента записи и распознавания голоса не выполняют.
В) Автоматическая активация компонента записи и распознавания голоса по истечении заданного промежутка времени
Как упоминалось ранее, ответ, формируемый диалоговым модулем, может содержать дополнительные метаданные, на ознакомление с которыми необходимо дополнительное время, следовательно, целесообразно активировать подсистему пользовательского ввода, в частности компонента записи и распознавания голоса по истечении некоторого промежутка времени.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом автоматическую активацию компонента записи и распознавания голоса выполняют по истечении заранее заданного диалоговым модулем интервала времени.
Г) Отключение подсистемы генерации и воспроизведения голоса
Как упоминалось ранее, ответ, формируемый диалоговым модулем, может быть отображен и/или воспроизведен. В случае если пользователю достаточно, чтобы ответ был отображен на дисплее в виде текста, воспроизведение ответа не выполняют, и, следовательно, активацию подсистемы генерации и воспроизведения голоса не выполняют.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4), при этом не выполняют активацию компонента записи и распознавания голоса.
Таким образом, реализация способа коммуникации пользователя с информационной диалоговой системой обеспечивает упрощение взаимодействия пользователя с информационной диалоговой системой, уменьшение количества необходимых для выполнения коммуникации действий, а также обеспечивает возможность взаимодействия с указанной системой не только посредством ввода текста, но и с использованием естественного языка.
Claims (16)
1. Способ функционирования информационной диалоговой системы, включающий этапы:
активации подсистемы пользовательского ввода,
получения подсистемой пользовательского ввода запроса пользователя и преобразования запроса пользователя в текст,
обработки диалоговым модулем полученного текста,
формирования диалоговым модулем ответа на запрос,
отображения и/или воспроизведения сформированного ответа, отличающийся тем, что после отображения и/или воспроизведения сформированного ответа по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняют автоматическую повторную активацию подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса от пользователя.
активации подсистемы пользовательского ввода,
получения подсистемой пользовательского ввода запроса пользователя и преобразования запроса пользователя в текст,
обработки диалоговым модулем полученного текста,
формирования диалоговым модулем ответа на запрос,
отображения и/или воспроизведения сформированного ответа, отличающийся тем, что после отображения и/или воспроизведения сформированного ответа по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняют автоматическую повторную активацию подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса от пользователя.
2. Способ по п.1, отличающийся тем, что упомянутый интервал времени заранее задан диалоговым модулем.
3. Способ по п.1, отличающийся тем, что информационная диалоговая система выполнена с возможностью приема запроса пользователя, представленного в виде голосовой команды и/или с использованием клавиатуры.
4. Способ по п.1, отличающийся тем, что формирование диалоговым модулем ответа выполняют в виде текста.
5. Способ по п.1, отличающийся тем, что воспроизведение сформированного ответа дополнительно выполняют посредством подсистемы генерации и воспроизведения голоса.
6. Способ по п.1, отличающийся тем, что отображение и/или воспроизведение сформированного ответа выполняют посредством обеспечения звукового сообщения и/или отображения текста на дисплее.
7. Способ по п.1, отличающийся тем, что в формируемый диалоговым модулем ответ на запрос включают дополнительные метаданные.
8. Способ по п.7, отличающийся тем, что в дополнительные метаданные включают инструкции, направляемые дополнительным системам и/или подсистемам.
9. Способ по п.1, отличающийся тем, что этапы способа выполняют циклично.
10. Способ по п.1, отличающийся тем, что активация подсистемы пользовательского ввода осуществляется пользователем при нажатии программной кнопки.
11. Способ по п.1, отличающийся тем, что автоматическую повторную активацию подсистемы пользовательского ввода осуществляют на заранее предопределенный период времени.
12. Способ по п.1, отличающийся тем, что дополнительно содержит этап, на котором деактивируют подсистемы пользовательского ввода после ее автоматической повторной активации.
13. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода и диалоговый модуль выполнены в мобильном телефоне.
14. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода и диалоговый модуль выполнены в портативном или стационарном компьютере.
15. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода содержит компонент записи и распознавания голоса.
16. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода содержит клавиатуру.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2012150996/08A RU2530267C2 (ru) | 2012-11-28 | 2012-11-28 | Способ коммуникации пользователя с информационной диалоговой системой |
PCT/IB2012/056955 WO2014083389A1 (ru) | 2012-11-28 | 2012-12-04 | Способ коммуникации пользователя с информационной диалоговой системой |
US14/721,012 US9564149B2 (en) | 2012-11-28 | 2015-05-26 | Method for user communication with information dialogue system |
US15/395,476 US10102854B2 (en) | 2012-11-28 | 2016-12-30 | Dialog system with automatic reactivation of speech acquiring mode |
US15/720,854 USRE47974E1 (en) | 2012-11-28 | 2017-09-29 | Dialog system with automatic reactivation of speech acquiring mode |
US16/137,069 US10748537B2 (en) | 2012-11-28 | 2018-09-20 | Dialog system with automatic reactivation of speech acquiring mode |
US16/990,525 US11355117B2 (en) | 2012-11-28 | 2020-08-11 | Dialog system with automatic reactivation of speech acquiring mode |
US17/747,707 US20220277745A1 (en) | 2012-11-28 | 2022-05-18 | Dialog system with automatic reactivation of speech acquiring mode |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2012150996/08A RU2530267C2 (ru) | 2012-11-28 | 2012-11-28 | Способ коммуникации пользователя с информационной диалоговой системой |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2012150996A RU2012150996A (ru) | 2014-06-27 |
RU2530267C2 true RU2530267C2 (ru) | 2014-10-10 |
Family
ID=50827238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2012150996/08A RU2530267C2 (ru) | 2012-11-28 | 2012-11-28 | Способ коммуникации пользователя с информационной диалоговой системой |
Country Status (3)
Country | Link |
---|---|
US (1) | US9564149B2 (ru) |
RU (1) | RU2530267C2 (ru) |
WO (1) | WO2014083389A1 (ru) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2705465C2 (ru) * | 2014-12-04 | 2019-11-07 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Классификация типа эмоции для интерактивной диалоговой системы |
RU2737598C1 (ru) * | 2020-02-04 | 2020-12-01 | Павел Андреевич Морозов | Способ формирования оперативной информации на основе формализованной концептуальной модели предметной области |
RU2741622C2 (ru) * | 2016-04-28 | 2021-01-29 | Масуд АМРИ | Система голосового управления |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646611B2 (en) | 2014-11-06 | 2017-05-09 | Microsoft Technology Licensing, Llc | Context-based actions |
US9922098B2 (en) | 2014-11-06 | 2018-03-20 | Microsoft Technology Licensing, Llc | Context-based search and relevancy generation |
US10203933B2 (en) | 2014-11-06 | 2019-02-12 | Microsoft Technology Licensing, Llc | Context-based command surfacing |
US11722598B2 (en) * | 2015-01-06 | 2023-08-08 | Cyara Solutions Pty Ltd | System and methods for an automated chatbot testing platform |
JP6943237B2 (ja) * | 2016-04-12 | 2021-09-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10810371B2 (en) | 2017-04-06 | 2020-10-20 | AIBrain Corporation | Adaptive, interactive, and cognitive reasoner of an autonomous robotic system |
US11151992B2 (en) | 2017-04-06 | 2021-10-19 | AIBrain Corporation | Context aware interactive robot |
US10929759B2 (en) | 2017-04-06 | 2021-02-23 | AIBrain Corporation | Intelligent robot software platform |
US10839017B2 (en) | 2017-04-06 | 2020-11-17 | AIBrain Corporation | Adaptive, interactive, and cognitive reasoner of an autonomous robotic system utilizing an advanced memory graph structure |
US10963493B1 (en) | 2017-04-06 | 2021-03-30 | AIBrain Corporation | Interactive game with robot system |
CN110019848A (zh) * | 2017-12-22 | 2019-07-16 | 深圳市优必选科技有限公司 | 对话交互方法、装置及机器人 |
CN109086368A (zh) * | 2018-07-20 | 2018-12-25 | 吴怡 | 一种基于人工智能云平台的法律咨询机器人 |
US11715467B2 (en) | 2019-04-17 | 2023-08-01 | Tempus Labs, Inc. | Collaborative artificial intelligence method and system |
CN112507103A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 任务型对话及模型训练方法、装置、设备和存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0028810D0 (en) * | 2000-11-25 | 2001-01-10 | Hewlett Packard Co | Voice communication concerning a local entity |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US8055713B2 (en) * | 2003-11-17 | 2011-11-08 | Hewlett-Packard Development Company, L.P. | Email application with user voice interface |
DE602004017955D1 (de) * | 2004-01-29 | 2009-01-08 | Daimler Ag | Verfahren und System zur Sprachdialogschnittstelle |
TWI277948B (en) * | 2005-09-02 | 2007-04-01 | Delta Electronics Inc | Method and system for template inquiry dialogue system |
JP5025353B2 (ja) * | 2007-07-03 | 2012-09-12 | ニュアンス コミュニケーションズ,インコーポレイテッド | 対話処理装置、対話処理方法及びコンピュータ・プログラム |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US20120121077A1 (en) * | 2009-07-05 | 2012-05-17 | Delegate Communications Ltd. | System and method for brokering communication dependent tasks |
KR101649911B1 (ko) * | 2010-01-04 | 2016-08-22 | 삼성전자 주식회사 | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 |
JP6078964B2 (ja) * | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
-
2012
- 2012-11-28 RU RU2012150996/08A patent/RU2530267C2/ru not_active IP Right Cessation
- 2012-12-04 WO PCT/IB2012/056955 patent/WO2014083389A1/ru active Application Filing
-
2015
- 2015-05-26 US US14/721,012 patent/US9564149B2/en active Active
Non-Patent Citations (1)
Title |
---|
А.В. Фролов и др., "Синтез и распознавание речи. Современные решения", 14.10.2012, [он-лайн, 08.07.2013], Найдено в Интернет: URL. Ryosuke ISOTANI ey al, " Speech-to-Speech Translation Software on PDAs for Travel Conversation", april 2003, [он-лайн, 08.07.2013], Найдено в Интернет: URL. " Настройка голосовых команд", 1995-2010, [он-лайн, 15.07.2013], Найдено в Интернет: URL. "Использование голосового управления", 1995-2010, [он-лайн, 15.07.2013], Найдено в Интернет: URL * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2705465C2 (ru) * | 2014-12-04 | 2019-11-07 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Классификация типа эмоции для интерактивной диалоговой системы |
US10515655B2 (en) | 2014-12-04 | 2019-12-24 | Microsoft Technology Licensing, Llc | Emotion type classification for interactive dialog system |
RU2741622C2 (ru) * | 2016-04-28 | 2021-01-29 | Масуд АМРИ | Система голосового управления |
RU2737598C1 (ru) * | 2020-02-04 | 2020-12-01 | Павел Андреевич Морозов | Способ формирования оперативной информации на основе формализованной концептуальной модели предметной области |
Also Published As
Publication number | Publication date |
---|---|
US9564149B2 (en) | 2017-02-07 |
US20150255089A1 (en) | 2015-09-10 |
RU2012150996A (ru) | 2014-06-27 |
WO2014083389A1 (ru) | 2014-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2530267C2 (ru) | Способ коммуникации пользователя с информационной диалоговой системой | |
US10489112B1 (en) | Method for user training of information dialogue system | |
US11470022B2 (en) | Automated assistants with conference capabilities | |
KR102419513B1 (ko) | 캡처된 이미지들과 관련된 메타 데이터 저장 | |
US20170046124A1 (en) | Responding to Human Spoken Audio Based on User Input | |
US20210193146A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
US8701020B1 (en) | Text chat overlay for video chat | |
JP2023015054A (ja) | 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード | |
CN110050303B (zh) | 基于第三方代理内容的语音到文本转换 | |
KR20210008521A (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
US20190341040A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
KR20190139966A (ko) | 선택가능한 그래픽 엘리먼트를 통해 자동화된 에이전트로 대화를 초기화하기 | |
JP7297797B2 (ja) | 保留を管理するための方法および装置 | |
US20240169989A1 (en) | Multimodal responses | |
US20240329919A1 (en) | Speech message playback | |
JP2023017791A (ja) | アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択 | |
US10997963B1 (en) | Voice based interaction based on context-based directives | |
CN117540805A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US20230343336A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
Omyonga et al. | The application of real-time voice recognition to control critical mobile device operations | |
CN104765686B (zh) | 测试应用程序的方法及装置 | |
US20200075002A1 (en) | Multimodal responses | |
US9213695B2 (en) | Bridge from machine language interpretation to human language interpretation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD4A | Correction of name of patent owner | ||
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20170417 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20191129 |