RU2705465C2 - Классификация типа эмоции для интерактивной диалоговой системы - Google Patents
Классификация типа эмоции для интерактивной диалоговой системы Download PDFInfo
- Publication number
- RU2705465C2 RU2705465C2 RU2017119007A RU2017119007A RU2705465C2 RU 2705465 C2 RU2705465 C2 RU 2705465C2 RU 2017119007 A RU2017119007 A RU 2017119007A RU 2017119007 A RU2017119007 A RU 2017119007A RU 2705465 C2 RU2705465 C2 RU 2705465C2
- Authority
- RU
- Russia
- Prior art keywords
- emotion
- user
- fact
- speech
- type code
- Prior art date
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 141
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 30
- 230000002996 emotional effect Effects 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 39
- 238000010295 mobile communication Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000006855 networking Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 8
- 239000000126 substance Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 11
- 238000007635 classification algorithm Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 235000021178 picnic Nutrition 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Изобретение относится к средствам для классификации типа эмоции для интерактивной диалоговой системы. Технический результат заключается в обеспечении возможности генерировать синтезированную речь с эмоциональными характеристиками для повышения эффективности взаимодействия с пользователем. Выбирают, на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции. Генерируют речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. 3 н. и 6 з.п. ф-лы, 12 ил.
Description
ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ
[0001] Искусственные интерактивные диалоговые системы становятся все более распространенным признаком в современных устройствах потребительской электроники. Например, современные беспроводные интеллектуальные телефоны включают программное обеспечение распознавания речи, интерактивного диалога, и синтеза речи, чтобы участвовать в интерактивной беседе в режиме реального времени с пользователем, чтобы доставлять такие услуги как информация и новости, конфигурирование и программирование дистанционных устройств, и т.д.
[0002] Для обеспечения пользователю восприятия более естественной и прозрачной беседы с диалоговой системой, желательно генерировать речь или другой вывод с эмоциональным содержимым в дополнение к семантическому содержимому. Например, при доставке новостей, задач планирования, или иного взаимодействия с пользователем, было бы желательным придавать эмоциональные характеристики синтезированной речи и/или другому выводу, чтобы более эффективно вовлекать пользователя в беседу.
[0003] Соответственно, желательно предоставить методики для определения пригодных эмоций для придания семантическому содержимому, которое доставляется интерактивной диалоговой системой, и классифицируя такие определенные эмоции в соответствии с одним из множества предварительно определенных типов эмоции.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0004] Данная Сущность Изобретения предоставляется, чтобы представить выбор концепций в упрощенной форме, которые дополнительно описываются ниже в Подробном Описании. Данная Сущность Изобретения как не предназначена для того, чтобы идентифицировать ключевые признаки или неотъемлемые признаки заявленного предмета изобретения, так и не предназначена для того, чтобы быть использованной для ограничения объема заявленного предмета изобретения.
[0005] Кратко, разнообразные аспекты предмета изобретения, описываемого в данном документе, направлены в отношении методик для предоставления устройства для интерактивной диалоговой системы. В аспекте, вводы факта или профиля, доступные для устройства мобильной связи, могут быть объединены с предыдущим или текущим вводом пользователя, чтобы выбирать соответствующий код типа эмоции, чтобы ассоциировать с высказыванием вывода, генерируемым посредством интерактивной диалоговой системы. Вводы факта или профиля могут быть извлечены из некоторых аспектов использования устройства, например, онлайновой активности пользователя, связи пользователя, функций календаря и планирования, и т.д. Алгоритмы для выбора кода типа эмоции могут быть основанными на правилах, или предварительно сконфигурированными, используя методики машинного обучения. Код типа эмоции может быть объединен с высказыванием вывода, чтобы генерировать синтезированную речь с эмоциональными характеристиками для улучшенного восприятия пользователя.
[0006] Другие преимущества могут стать очевидными из нижеследующего подробного описания и чертежей.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0007] Фиг. 1 иллюстрирует сценарий использования устройства мобильной связи, в котором могут быть применены методики настоящего раскрытия.
[0008] Фиг. 2 иллюстрирует примерный вариант осуществления обработки, которая может быть выполнена посредством процессора или других элементов устройства.
[0009] Фиг. 3 иллюстрирует примерный вариант осуществления обработки, выполняемой посредством диалоговой машины.
[0010] Фиг. 4 иллюстрирует примерный вариант осуществления блока классификации типа эмоции в соответствии с настоящим раскрытием.
[0011] Фиг. 5 иллюстрирует примерный вариант осуществления алгоритма гибридной классификации типа эмоции.
[0012] Фиг. 6 иллюстрирует примерный вариант осуществления основанного на правилах алгоритма.
[0013] Фиг. 7 иллюстрирует альтернативный вариант осуществления основанного на правилах алгоритма.
[0014] Фиг. 8 иллюстрирует примерный вариант осуществления обучающей схемы для извлечения обучаемого алгоритма для выбора типа эмоции.
[0015] Фиг. 9 иллюстрирует примерный вариант осуществления способа в соответствии с настоящим раскрытием.
[0016] Фиг. 10 схематично показывает неограничивающую вычислительную систему, которая может выполнять один или более из описанных выше способов и процессов.
[0017] Фиг. 11 иллюстрирует примерный вариант осуществления устройства в соответствии с настоящим раскрытием.
[0018] Фиг. 12 иллюстрирует примерный вариант осуществления, в котором методики настоящего раскрытия включены в диалоговую систему с эмоциональным содержимым, которое придается отображаемому тексту, вместо или в дополнение к слышимой речи.
ПОДРОБНОЕ ОПИСАНИЕ
[0019] Разнообразные аспекты технологии, описываемой в данном документе, в целом направлены на технологию для выбора кода типа эмоции, ассоциированного с выражением вывода в электронной интерактивной диалоговой системе. Подробное описание, излагаемое ниже в связи с прилагаемыми чертежами, предназначено в качестве описания примерных аспектов изобретения и не предназначено для того, чтобы представить только примерные аспекты, в которых изобретение может быть реализовано на практике. Понятие «примерный», используемое на всем протяжении данного описания, означает «служащий в качестве примера, экземпляра, или иллюстрации», и не обязательно должно толковаться в качестве предпочтительного или преимущественного над другими примерными аспектами. Подробное описание включает в себя конкретные подробности в целях обеспечения исчерпывающего понимания примерных аспектов изобретения. Специалистам в соответствующей области техники будет очевидно, что примерные аспекты изобретения могут быть реализованы на практике без этих конкретных подробностей. В некоторых примерах, хорошо известные структуры и устройства показаны в форме структурной схемы для того, чтобы избежать затенения новизны примерных аспектов, представленных в данном документе.
[0020] Фиг. 1 иллюстрирует сценарий использования устройства 120 мобильной связи, в котором могут быть применены методики настоящего раскрытия. Отметим, что Фиг. 1 показана лишь в целях иллюстрации, и не означает, что ограничивает объем настоящего раскрытия только приложениями настоящего раскрытия к устройствам мобильной связи. Например, методики, описываемые в данном документе, могут быть легко применены в других устройствах и системах, например, в системах интерфейса «человек-машина» ноутбука или настольных компьютеров, автомобильных навигационных системах, и т.д. Такие альтернативные приложения рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0021] На Фиг. 1 пользователь 110 осуществляет связь с устройством 120 мобильной связи, например, переносным интеллектуальным телефоном. Интеллектуальный телефон можно понимать как включающий в себя любое мобильное устройство, интегрирующее функции связи, такой как голосовой вызов и доступ к Интернет, с относительно сложным микропроцессором для реализации разнообразной массы вычислительных задач. Пользователь 110 может предоставлять ввод 122 речи в микрофон 124 в устройстве 120. Один или более процессоры 125 внутри устройства 120, и/или процессоры (не показано) доступные через сеть (например, реализующие схему облачных вычислений), могут обрабатывать сигнал речи, принятый посредством микрофона 124, например, выполняя функции, как дополнительно описывается со ссылкой на Фиг. 2 ниже. Отметим, что не требуется, чтобы процессор 125 имел любую конкретную форму, очертание, или функциональное разбиение, такое как описанное в данном документе лишь в примерных целях, и такие процессоры могут, в целом, быть реализованы, используя разнообразные методики известные в области техники.
[0022] На основании обработки, выполняемой посредством процессора 125, устройство 120 может генерировать вывод 126 речи, отвечающий на ввод 122 речи, используя аудио громкоговоритель 128. В некоторых сценариях, устройство 120 также может генерировать вывод 126 речи независимо от ввода 122 речи, например, устройство 120 может автономно предоставлять предупреждения или ретранслировать сообщения от других пользователей (не показано) к пользователю 110 в форме вывода 126 речи. В примерном варианте осуществления, вывод, отвечающий на ввод 122 речи, также может быть отображен на дисплее 129 устройства 120, например, в качестве текста, графики, анимации, и т.д.
[0023] Фиг. 2 иллюстрирует примерный вариант осуществления интерактивной диалоговой системы 200, которая может быть реализована посредством процессора 125 и других элементов устройства 120. Отметим, что обработка, показанная на Фиг. 2, служит лишь в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любой конкретной последовательностью или набором операций, показанных на Фиг. 2. Например, в альтернативных примерных вариантах осуществления, некоторые методики, раскрываемые в данном документе для выбора кода типа эмоции, могут быть применены независимо от обработки, показанной на Фиг. 2. Кроме того, один или более блоки, показанные на Фиг. 2, могут быть объединены или опущены в зависимости от конкретного функционального разбиения в системе, и, вследствие этого, Фиг. 2 не предполагает любой функциональной зависимости или независимости показанных блоков. Такие альтернативные примерные варианты осуществления считаются находящимися в рамках объема настоящего раскрытия.
[0024] На Фиг. 2, в блоке 210, принимается ввод речи. Ввод 210 речи может соответствовать представлению в форме волны акустического сигнала, извлекаемого из, например, микрофона 124 в устройстве 120. Вывод 210a ввода 210 речи может соответствовать оцифрованной версии акустической формы волны, содержащей содержимое речи.
[0025] В блоке 220, распознавание речи выполняется над выводом 210a. В примерном варианте осуществления, распознавание речи 220 переводит речь, такую как присутствующую в выводе 210a, в текст. Вывод 220a распознавания 220 речи может соответственно соответствовать текстовому представлению речи, присутствующей в оцифрованном акустическом в форме волны выводе 210a. Например, если вывод 210a включает в себя аудио в форме волны представление фрагмента речи человека такой, как «Какая погода будет завтра?», например, как собранная посредством микрофона 124, тогда распознавание 220 речи может выводить текст ASCII (или другое представление текста), соответствующий тексту «Какая погода будет завтра?» на основании его возможностей распознавания речи. Распознавание речи, как выполняемое посредством блока 220, может быть выполнено, используя методики акустического моделирования и языкового моделирования, включающие в себя, например, Скрытые Марковские Модели (HMM), нейронные сети, и т.д.
[0026] В блоке 230, понимание языка выполняется над выводом 220a распознавания 220 речи, на основании знаний ожидаемого естественного языка у вывода 210a. В примерном варианте осуществления, методики понимания естественного языка, такие как синтаксический анализ и грамматический анализ, могут быть выполнены, используя знание, например, морфологии и синтаксиса, для извлечения предполагаемого смысла текста в выводе 220a. Вывод 230a понимания 230 языка, может включать в себя формальное представление семантического и/или эмоционального содержимого речи, присутствующей в выводе 220a.
[0027] В блоке 240, диалоговая машина генерирует пригодный ответ на речь, как определенный из вывода 230a. Например, если понимание 230 языка определяет, что ввод речи пользователя соответствует запросу о погоде применительно к конкретной географии, тогда диалоговая машина 240 может получать и компоновать требуемую информацию о погоде из источников, например, услуги или базы данных прогноза погоды. Например, извлекаемая информация о погоде может соответствовать коду времени/даты для прогноза погоды, коду типа погоды, соответствующему «солнечной» погоде, и температурному полю, указывающему среднюю температуру в 72 градуса.
[0028] В примерном варианте осуществления, диалоговая машина 240 может дополнительно «упаковывать» извлеченную информацию так, что она может быть представлена для свободного понимания пользователем. Соответственно, вывод 240a семантического содержимого диалоговой машины 240 может соответствовать представлению семантического содержимого, такого как «солнечная погода сегодня; температура 72 градуса».
[0029] В дополнение к семантическому содержимому 240a, диалоговая машина может дополнительно генерировать код 240b типа эмоции, ассоциированный с семантическим содержимым 240a. Код 240b типа эмоции может указывать конкретный тип эмоционального содержимого, чтобы придавать семантическому содержимому 240a, при доставке пользователю в качестве речи вывода. Например, если пользователь планирует пикник на некоторый день, тогда солнечный прогноз погоды может быть одновременно доставлен с помощью эмоционально приподнятого тона голоса. В данном случае, код 240b тип эмоции может относиться к типу эмоционального содержимого, соответствующему «умеренное счастье». Методики для генерирования кода 240b типа эмоции по данным, фактам, и вводам, доступным для интерактивной диалоговой системы 200, будут дополнительно описаны ниже, например, со ссылкой на Фиг. 3.
[0030] В блоке 250, генерирование языка выполняется по выводам 240a, 240b диалоговой машины 240. Генерирование языка представляет вывод диалоговой машины 240 в формате естественного языка, например, в качестве предложений на целевом языке, подчиняющихся лексическим и грамматическим правилам, для свободного понимания пользователем-человеком. Например, на основании семантического содержимого 240a, генерирование 250 языка может генерировать следующее высказывание: «Сегодня погода будет 72 градуса и солнечной».
[0031] В примерном варианте осуществления, блок 250 может дополнительно осуществлять принятие ввода 255a от блока 255 индивидуальности системы. Блок 255 индивидуальности системы может указывать параметры 255a по умолчанию для диалоговой машины в соответствии с предварительно выбранной «индивидуальностью» для интерактивной диалоговой системы. Например, если индивидуальность системы выбрана, чтобы соответствовать «мужскому полу» или «женскому полу», или «веселому» или «задумчивому», тогда блок 255 может указывать параметры, соответствующие индивидуальности системы в качестве опорного ввода 255a. Отметим, что в некоторых примерных вариантах осуществления, блок 255 может быть опущен, или его функциональность может быть включена в другие блоки, например, диалоговую машину 240 или блок 250 генерирования языка, и такие альтернативные примерные варианты осуществления рассматриваются, как находящиеся в рамках объема настоящего раскрытия.
[0032] В примерном варианте осуществления, блок 250 генерирования языка может объединять семантическое содержимое 240a, код 240b типа эмоции, и эмоциональные параметры 255a по умолчанию, чтобы синтезировать высказывание 250a вывода. Например, код 240b типа эмоции, соответствующий «умеренному счастью», может предписывать блоку 250 генерировать предложение естественного языка (например, Английского), такое как «Хорошие новости - сегодня погода будет 72 градуса и солнечной!» Высказывание 250a вывода блока 250 генерирования языка предоставляется последующему блоку 260 текста-в-речь, чтобы генерировать аудио речь, соответствующую высказыванию 250a вывода.
[0033] Отметим, что в некоторых примерных вариантах осуществления, некоторая функциональность блока 250 генерирования языка, описанная выше, может быть опущена. Например, блоку 250 генерирования языка не требуется в частности учитывать код 240b типа эмоция при генерировании высказывания 250a вывода, и вместо этого на блок 260 текст-в-речь (который также имеет доступ к коду 240b типа эмоции) может быть возложено предоставление полного эмоционального содержимого синтезированного вывода речи. Кроме того, в некоторых случаях, где информация, извлекаемая посредством диалоговой машины, уже присутствует в формате естественного языка, тогда можно эффективно обходить блок 250 генерирования языка. Например, услуга погоды Интернет, к которой осуществляется доступ посредством диалоговой машины 240, может предоставлять обновления погоды непосредственно на естественном языке, таком как Английский, так что генерированию 250 языка может не требоваться выполнять любую существенную пост-обработку над сематическим содержимым 240a. Такие альтернативные примерные варианты осуществления рассматриваются, как находящиеся в рамках объема настоящего раскрытия.
[0034] В блоке 260, преобразование текст-в-речь выполняется над выводом 250a генерирования 250 языка. В примерном варианте осуществления, код 240b типа эмоции также предоставляется блоку 260 TTS, чтобы синтезировать речь с текстовым содержимым, соответствующим 250a, и эмоциональным содержимым, соответствующим коду 240b типа эмоции. Выводом преобразования 260 текст-в-речь может быть аудио в форме волны.
[0035] В блоке 270, акустический вывод генерируется из вывода преобразования 260 текст-в-речь. Вывод речи может быть предоставлен слушателю, например, пользователю 110 на Фиг. 1, посредством громкоговорителя 128 устройства 120.
[0036] Поскольку интерактивные диалоговые системы становятся все более сложными, было бы желательным предоставить методики для эффективного выбора пригодных кодов типа эмоции для речи и других типов вывода, генерируемого посредством таких систем. Например, как предлагается посредством предоставления кода 240b типа эмоции наряду с семантическим содержимым 240a, в некоторых приложениях применительно к выводу 270 речи желательно, чтобы он генерировался не только в качестве эмоционально нейтрального рендеринга речи, но также, чтобы он включал предварительно указанное эмоциональное содержимое при доставке слушателю. Таким образом, высказывание 250a вывода может быть ассоциировано с пригодным кодом 240b типа эмоции так, что пользователь 110 будет воспринимать соответствующее эмоциональное содержимое, которое должно присутствовать в выводе 270 речи.
[0037] Например, если диалоговая машина 240 указывает, что семантическое содержимое 240a соответствует информации о том, что некоторая бейсбольная команда выиграла Мировую Серию, и пользователь 110 дополнительно является поклонником той бейсбольной команды, тогда выбор кода 240b типа эмоции, чтобы представлять «возбужденный» (в противоположность, например, нейтральному или несчастливому), чтобы совпадать с эмоциональным состоянием пользователя, вероятно приведет к более удовлетворяющему интерактивному восприятию для пользователя 110.
[0038] Фиг. 3 иллюстрирует примерный вариант осуществления 240.1 обработки, выполняемой посредством диалоговой машины 240, чтобы генерировать соответствующее семантическое содержимое, как впрочем, и ассоциированный код типа эмоции. Отметим, что Фиг. 3 показана лишь в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным приложением методик, описываемых в данном документе.
[0039] На Фиг. 3, диалоговая машина 240.1 включает в себя блок 310 генерирования семантического содержимого и блок 320 классификации типа эмоции, также именуемый в данном документе «блоком классификации». Как блоку 310, так и блоку 320 предоставляется ввод 230a диалога пользователя, который может включать в себя вывод понимания 230 языка, выполненного над одним или более высказываниями или запросами посредством пользователя 110 в текущем или любом предыдущем диалоговом сеансе. В частности, блок 310 генерирования семантического содержимого генерирует семантическое содержимое 240.1a, соответствующее информации, которая должна быть доставлена пользователю, в то время как блок 320 классификации типа эмоции генерирует соответствующий тип эмоции, представленный посредством кода 240.1b типа эмоции, который должен быть придан семантическому содержимому 240.1a. Отметим, что ввод 230a диалога пользователя может быть понят, как включающий в себя любые или все из вводов пользователя из текущего или предыдущего диалоговых сеансов, например, как хранящиеся в файлах истории на локальном устройстве памяти, и т.д.
[0040] В дополнение к вводу 230a диалога пользователя, блоку 320 дополнительно предоставляются вводы 301 «факта или профиля», которые могут включать в себя параметры, извлеченные из использования устройства, на котором реализуется диалоговая машина 240.1. Блок 320 классификации типа эмоции может генерировать соответствующий код 240.1b типа эмоции на основании сочетания вводов 301 факта и профиля и ввода 230a диалога пользователя в соответствии с одним или более алгоритмами, например, с параметрами, полученных посредством обучения в режиме офлайн в соответствии с методиками машинного обучения, которые дополнительно раскрываются ниже. В примерном варианте осуществления, код 240.1 типа эмоции может включать в себя спецификацию как эмоции (например, «счастливый», и т.д.), так впрочем и индикатор степени, указывающий степень, в которой демонстрируется та эмоция (например, число от 1-5, с 5, указывающим «очень счастливый»). В примерном варианте осуществления, код 240.1b типа эмоции может быть выражен в формате, таком как указанный на Языке Разметки Эмоции (EmotionML) для указания одного из множества предварительно определенных типов эмоции, который может быть придан речи вывода.
[0041] Отмечается, что текущая тенденция современных потребительских устройств, таких как интеллектуальные телефоны, состоит в том, что они все чаще берут на себя роль незаменимых персональных помощников, интегрирующих разнообразный набор функций в едином мобильном устройстве, которое пользователь носит часто, и частенько постоянно. Повторное использование такого устройства одним пользователем для широкого многообразия целей (например, голосовых связей, доступа к Интернету, планирования расписания, отдыха, и т.д.) обеспечивает потенциальный доступ посредством интерактивной диалоговой системы 200 к большому количеству существенных данных для выбора кода 240.1b типа эмоции. Например, если услуги местоположения доступны для интеллектуального телефона, тогда данные, касающиеся географического места действия пользователя с периодом времени, могут быть использованы, чтобы подразумевать некоторые географические предпочтения пользователя, например, который является поклонником местной спортивной команды, или склонности к посещению новых ресторанов в некоторой зоне, и т.д. Другие примеры сценариев использования, генерирующих существенные данные, включают в себя, но не ограничиваются, осуществление доступа к Интернету, используя интеллектуальный телефон, чтобы выполнять поиски темы или ключевого слова, планирование дат или встреч календаря, установку профилей пользователя во время инициализации устройства, и т.д. Такие данные могут совокупно использоваться диалоговой системой, чтобы осуществлять доступ к соответствующему коду 240.1b типа эмоции, чтобы придавать его семантическому содержимому 240.1a во время интерактивного диалогового сеанса с пользователем 110. С учетом таких сценариев использования, в частности преимущественным является извлечение, по меньшей мере, одного или даже нескольких вводов 301 факта или профиля из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.
[0042] Фиг. 4 иллюстрирует примерный вариант осуществления 320.1 блока классификации типа эмоции в соответствии с настоящим раскрытием. На Фиг. 4, примерные вводы 301.1 факта или профиля, которые могут быть получены посредством устройства 120, включают в себя множество параметров 402-422 факта или профиля, выбираемых проектировщиком системы в качестве существенных для задачи классификации типа эмоции. Отметим, что примерные вводы 301.1 факта или профиля приводятся лишь в иллюстративных целях. В альтернативных примерных вариантах осуществления, любые из индивидуальных параметров вводов 301.1 факта или профиля могут быть опущены, и/или могут быть добавлены другие параметры, не показанные на Фиг. 4. Не требуется, чтобы параметры 402-422 описывали непересекающиеся классы параметров, т.е. один тип ввода, используемого блоком 320.1 классификации типов эмоции, может одновременно попадать в две или более категории вводов 402-422. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0043] Конфигурация 402 пользователя включает в себя информацию, которая непосредственно вводится пользователем 110 в устройство 120, которая способствует классификации типа эмоции. В примерном варианте осуществления, во время настройки устройства 120, или, как правило, во время работы устройства 120, у пользователя 110 может быть запрошено ответить на ряд вопросов профиля. Например, пользователю 110 может быть предоставлен запрос касательно возраста и пола, увлечений, интересов, любимых фильмов, видов спорта, черт характера, и т.д. В некоторых случаях, информацию касательно черт характера пользователя (например, экстраверт или интроверт, доминирующий или покорный, и т.д.) можно предположить, задав вопросы из анкеты опроса о личности. Информация из конфигурации 402 пользователя может быть сохранена для дальнейшего использования блоком 320.1 классификации типа эмоции для выбора кода 240.1 типа эмоции.
[0044] Онлайновая активность 404 пользователя включает в себя статистику использования Интернет и/или содержимое данных, передаваемых к и из Интернет или других сетей через устройство 120. В примерном варианте осуществления, онлайновая активность 404 может включать в себя поисковые запросы пользователя, например, как подаваемые веб-поисковой машине через устройство 120. Может отмечаться содержимое поисковых запросов пользователя, как, впрочем, и другая статистика, такая как частота и/или хронометрах сходных запросов и т.д. В примерном варианте осуществления, онлайновая активность 404 может дополнительно включать в себя идентификационные данные часто посещаемых веб-сайтов, содержимое сообщения электронной почты, размещение сообщений на веб-сайтах социальных сетей, и т.д.
[0045] Связь 406 пользователя включает в себя текстовую или голосовую связь, которая проводится, используя устройство 120. Такая связь может включать в себя, например, текстовые сообщения, отправленные через услугу коротких сообщений (SMS), голосовые вызовы через беспроводную сеть, и т.д. Связь 406 пользователя также может включать в себя обмен сообщениями в собственных или сторонних социальных сетях, например, веб-сайтах Интернет, доступ к которым осуществляет пользователь 110, используя устройство 120, или приложения мгновенного обмена сообщениями или чата.
[0046] Местоположение 408 пользователя может включать в себя записи местоположения пользователя, доступные устройству 120, например, через беспроводную связь с помощью одной или более сотовых базовых станций, или основанные на Интернет услуги местоположения, если такие услуги задействованы. Местоположение 408 пользователя может дополнительно указывать контекст местоположения пользователя, например, если пользователь находится дома или на работе, в автомобиле, в переполненной среде, на собрании, и т.д.
[0047] Календарь/функции планирования/локальная дата и время 410 могут включать в себя информацию о времени в качестве существенной для классификации эмоции на основании расписания активностей пользователя. Например, такая информация может базироваться на использовании устройства 120 пользователем 110 в качестве персонального средства организации планирования. В примерном варианте осуществления, тот факт, является ли сегмент времени в календаре пользователя доступным или недоступным, может быть существенным для классификации типа эмоции. Кроме того, природа предстоящей встречи, например, запланированных каникул или важного делового собрания, также может быть существенным.
[0048] Календарь/функции планирования/локальная дата и время 410 могут дополнительно включать информацию, такую как пересекается ли определенное время с рабочими часами пользователя, или соответствует ли текущая дата выходным дням, и т.д.
[0049] Эмоциональное состояние 412 пользователя включает в себя данные, которые относятся к определению эмоциональному состоянию пользователя в режиме реального время. Такие данные могут включать в себя содержимое фрагментов речи пользователя для диалоговой системы, как впрочем и параметры голоса, психологические сигналы, и т.д. Технология распознавания эмоции может дополнительно быть использована, чтобы подразумевать эмоции пользователя посредством регистрации, например, речи пользователя, выражения лица, последних текстовых сообщений, которые были сообщены к и от устройства 120, физиологические знаки, включая температуру тела и частоту сердцебиения, и т.д., как регистрируемые посредством разнообразных датчиков (например, вводов 420 физического датчика) на устройстве 120.
[0050] Статистика 414 использования устройства включает в себя информацию касательно того, насколько часто пользователь 110 использует устройство 120, насколько долго пользователь использовал устройство 120, для каких целей, и т.д. В примерном варианте осуществления, количество раз и частота взаимодействий пользователя с устройством 120 на протяжении дня могут быть записаны, как, впрочем, и использованные приложения, или посещенные веб-сайты, во время этих взаимодействий.
[0051] Онлайновые информационные ресурсы 416 могут включать в себя новости или события, которые относятся к интересам пользователя, как полученные из онлайновых информационных источников. Например, на основании определения того, что пользователь 110 является поклонником спортивной команды, тогда онлайновые информационные ресурсы 416 могут включать в себя новости о том, что та спортивная команда недавно выиграла игру. В качестве альтернативы, если пользователь 110 определяется как имеющий предпочтение в отношении некоторого типа кухни, например, тогда онлайновые информационные ресурсы 416 могут включать в себя новости о том, что новый ресторан того типа только что открылся рядом с домом пользователя.
[0052] Индивидуальность 418 цифрового помощника (DA) может указывать профиль индивидуальности для диалоговой системы так, что взаимодействие с диалоговой системой посредством пользователя более точно имитирует взаимодействие с помощником-человеком. Профиль индивидуальности DA может указывать, например, является ли DA экстравертом или интровертом, доминирующим или покорным, или пол DA. Например, индивидуальность 418 DA может указывать профиль, соответствующий женской, веселой индивидуальности, для цифрового помощника. Отметим, что данное свойство может быть предоставлено альтернативно, или в связи с, блоком 255 индивидуальности системы, как описано выше со ссылкой на Фиг. 2.
[0053] Вводы 420 физического датчика могут включать в себя сигналы, извлекаемые из датчиков на устройстве 120 для регистрации физических параметров устройства 120. Например, вводы 420 физического датчика могут включать в себя сигналы датчика от акселерометров и/или гироскопов в устройстве 120, например, для определения, идет ли в настоящий момент пользователь 110 или находится в автомобиле, и т.д. Знание текущей ситуации мобильности пользователя может предоставлять информацию для блока 320.1 классификации типа эмоции, содействующую генерированию должного эмоционального ответа. Вводы 420 физического датчика также могут включать в себя сигналы датчика от микрофонов или других акустических записывающих устройств в устройстве 120, например, чтобы подразумевать характеристики среды на основании фонового шума, и т.д.
[0054] История 422 беседы может включать в себя любые записи настоящей и прошлой бесед между пользователем и цифровым помощником.
[0055] Вводы 301.1 факта или профиля, наряду с вводом 230a диалога пользователя, могут быть предоставлены в качестве ввода в алгоритм 450 классификации типа эмоции блока 320.1 классификации типа эмоции. Алгоритм 450 классификации типа эмоции может соотносить многомерный вектор, указываемый посредством конкретных вводов 301.1 факта или профиля и ввод 230a диалога пользователя, с конкретным определением вывода кода 240.1b типа эмоции, например, указывая должный тип эмоции и соответствующую степень той эмоции.
[0056] Фиг. 5 иллюстрирует примерный вариант осуществления 450.1 гибридного алгоритма классификации типа эмоции. Отметим, что Фиг. 5 показана только для иллюстративных целей, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным типом показанного алгоритма.
[0057] На Фиг. 5, алгоритм 450.1 классификации типа эмоции включает в себя блок 510 выбора алгоритма для выбора, по меньшей мере, одного алгоритма, который должен быть использован для выбора типа эмоции. В примерном варианте осуществления, по меньшей мере, один алгоритм включает в себя основанные на правилах алгоритмы 512 и обучаемые алгоритмы 514. Основанные на правилах алгоритмы 512 могут соответствовать алгоритмам, указанным проектировщиками диалоговой системы, и могут, как правило, быть основаны на фундаментальных обоснованиях, которые выявляются проектировщиками для назначения заданного типа эмоции конкретным сценариям, фактам, профилям, и/или вводам диалога пользователя. Обучаемые алгоритмы 514, с другой стороны, могут соответствовать алгоритмам, параметры и функциональные соотнесения которых извлекаются, например, офлайн, из больших наборов обучающих данных. Следует иметь в виду, что взаимосвязи между входами и выходами в обучаемых алгоритмах 514 могут быть менее прозрачны для проектировщика системы, чем в основанных на правилах алгоритмах 512, и обучаемые алгоритмы 514 могут, как правило, захватывать более сложные взаимные зависимости среди переменных, как определяется из обучения алгоритма.
[0058] Как видно на Фиг. 5, как основанные на правилах алгоритмы 512, так и обучаемые алгоритмы 514 могут осуществлять принятие в качестве вводов вводов 301.1 факта или профиля и ввода 230a диалога пользователя. Блок 510 выбора алгоритма может выбирать должный один из алгоритмов 512 или 514, чтобы использовать для выбора кода 240.1b типа эмоции в любом случае. Например, в ответ на вводы 301.1 факта или профиля и/или ввод 230a диалога пользователя, соответствующие предварительно определенному набору значений, блок 510 выбора может выбирать реализацию конкретного основанного на правилах алгоритма 512 вместо обучаемого алгоритма 514, или наоборот. В примерном варианте осуществления основанные на правилах алгоритмы 512 могут быть предпочтительными в некоторых случаях над обучаемыми алгоритмами 514, например, если их исполнение, основанное на фундаментальных обоснованиях, может приводить к более точной классификации типа эмоции в некоторых случаях. Основанные на правилах алгоритмы 512 также могут быть предпочтительными в некоторых сценариях, в которых, например, отсутствуют достаточные обучающие данные, доступные для исполнения некоторого типа обучаемого алгоритма 514. В примерном варианте осуществления основанные на правилах алгоритмы 512 могут быть выбраны, когда для проектировщика является относительно простым извлечение ожидаемого ответа на основании конкретного набора вводов.
[0059] Фиг. 6 иллюстрирует примерный вариант осуществления 600 основанного на правилах алгоритма. Отметим, что Фиг. 6 показана только для иллюстративных целей, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия основанными на правилах алгоритмами, любой конкретной реализацией основанных на правилах алгоритмов, или любым конкретным форматом или содержимым для показанных вводов 301.1 факта и профиля или типов 240b эмоции.
[0060] На Фиг. 6, в блоке 610 принятия решения, определяется, является ли эмоциональное состояние 412 пользователя «Счастливым». Если нет, алгоритм переходит к блоку 612, который устанавливает код 240b типа эмоции в «Нейтральный». Если да, алгоритм переходит к блоку 620 принятия решения.
[0061] В блоке 620 принятия решения, дополнительно определяется, является ли параметр 402.1 индивидуальности конфигурации 402 пользователя «Экстравертом». Если нет, тогда алгоритм переходит к блоку 622, который устанавливает код 240b типа эмоции в «Заинтересованный(1)», обозначающий тип эмоции «Заинтересованный» со степенью 1. Если да, алгоритм переходит к блоку 630, который устанавливает код 240b типа эмоции в «Счастливый(3)».
[0062] Следует иметь в виду, что основанный на правилах алгоритм 600 выборочно устанавливает код 240b типа эмоции на основании индивидуальности пользователя, в предположении, что экстровертированный пользователь будет больше привлечен диалоговой системой, демонстрирующей более приподнятый или «более счастливый» тип эмоции. Основанный на правилах алгоритм 600 дополнительно устанавливает код 240b типа эмоции на основании текущего эмоционального состояния пользователя, в предположении, что в настоящий момент счастливый пользователь будет реагировать более позитивно на систему с типом эмоции, который также счастливый. В альтернативных примерных вариантах осуществления, другие основанные на правилах алгоритмы, в явной форме не описанные в данном документе, могут легко быть исполнены, чтобы связывать код 240b типа эмоции с другими параметрами и значениями вводов 301.1 факта или профиля.
[0063] Как иллюстрируется посредством алгоритма 600, определению кода 240b типа эмоции не требуется всегда использовать все доступные параметры в вводах 301.1 факта или профиля и вводе 230a диалога пользователя. В частности, алгоритм 600 использует только эмоциональное состояние 412 пользователя и конфигурацию 402 пользователя. Такие примерные варианты осуществления алгоритмов, использующие любое подмножество доступных параметров, как, впрочем, и альтернативные примерные варианты осуществления алгоритмов, использующих параметры, которые явным образом не описаны в данном документе, рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0064] Фиг. 7 иллюстрирует альтернативный примерный вариант 700 осуществления основанного на правилах алгоритма. На Фиг. 7, в блоке 710 принятия решения, определяется, соответствует ли ввод 230a диалога пользователя запросу пользователя в отношении обновленных новостей. Если да, тогда алгоритм переходит к блоку 720 принятия решения.
[0065] В блоке 720 принятия решения определяется, является ли эмоциональное состояние 412 пользователя «Счастливым», и дополнительно, указывают ли онлайновые информационные ресурсы 416, что любимая спортивная команда пользователя, только что выиграла игру. В примерном варианте осуществления, сама по себе любимая спортивная команда пользователя может быть извлечена из других параметров вводов 301.1 факта или профиля, например, из конфигурации 402 пользователя, онлайновой активности 404 пользователя, календаря/функций 410 планирования, и т.д. Если выводом блока 720 принятия решения является да, тогда алгоритм переходит к блоку 730, где код 240b типа эмоции устанавливается в «Возбужденный(3)».
[0066] В дополнение к основанным на правилах алгоритмам для выбора кода 240b типа эмоции, алгоритм 450.1 классификации типа эмоции может в качестве альтернативы или совместно использовать обучаемые алгоритмы. Фиг. 8 иллюстрирует примерный вариант осуществления 800 обучающей схемы для извлечения обучаемого алгоритма для выбора типа эмоции. Отметим, что Фиг. 8 показана только в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любыми конкретными методиками для обучения алгоритмов для выбора типа эмоции.
[0067] На Фиг. 8, во время фазы 801 обучения, блоку 810 обучения алгоритма предоставляются вводы, включающие в себя ряд или множество опорных вводов 301.1* факта или профиля, соответствующие ряду опорных предшествующих вводов 230* пользователя, и соответствующий ряд опорных кодов 240.1b* типа эмоции. Отметим, что параметр x, заключенный в фигурные скобки {x}, обозначает в данном документе множество или ряд объектов x. В частности, каждый опорный ввод 301.1* факта или профиля соответствует конкретной комбинации установок для вводов 301.1 факта или профиля.
[0068] Например, один примерный опорный ввод 301.1* факта или профиля может указывать на то, что конфигурация 402 пользователя включает в себя «экстровертированный» тип индивидуальности, онлайновая активность 404 пользователя включает в себя несколько экземпляров онлайновых поисков фразы «Морские Ястребы», местоположение 408 пользователя соответствует «Сиэтл» в качестве города проживания, и т.д. Соответствуя данному опорному вводу 301.1* факта или профиля, опорный ввод 230a* диалога пользователя может включать в себя запрос пользователя касательно последних новостей спорта. В альтернативном случае, опорным вводом 230a* диалога пользователя, соответствующим данному опорному вводу 301.1* факта или профиля, может быть пустая (NULL) строка, указывающая отсутствующий предыдущий ввод пользователя. На основании данной примерной комбинации опорного ввода 301.1* факта или профиля и соответствующего опорного ввода 230a* диалога пользователя, опорный код 240.1b* типа эмоции может быть указан блоку 810 обучения алгоритма во время фазы 801 обучения.
[0069] В примерном варианте осуществления, должный опорный код 240.1b* типа эмоции для конкретных установок опорного ввода 301.1* факта или профиля и ввода 230a* диалога пользователя может быть предоставлен людьми-комментаторами или людьми-экспертами. Этим людям-комментаторам могут быть представлены индивидуальные комбинации опорных вводов факта или профиля и опорных вводов пользователя во время фазы 801 обучения, и они могут комментировать каждую комбинацию пригодным типом эмоции, отвечающим ситуации. Данный процесс может повторяться, используя много людей-комментаторов и много комбинаций опорных вводов факта или профиля и предыдущих вводов пользователя, так что большой объем данных обучения становится доступен блоку 810 обучения алгоритма. На основании обучающих данных и опорных комментариев типа эмоции, оптимальный набор параметров 810a обучаемого алгоритма может быть извлечен для обучаемого алгоритма, который наиболее точно соотносит заданную комбинацию опорных вводов с опорным выводом.
[0070] В примерном варианте осуществления, человек-комментатор может обладать некоторыми характеристиками, которые сходны или идентичны соответствующим характеристикам индивидуальности цифрового помощника. Например, человек-комментатор может иметь тот же самый пол или тип индивидуальности как и сконфигурированные характеристики цифрового помощника, как обозначено, например, индивидуальностью 255 системы и/или индивидуальностью 418 цифрового помощника.
[0071] Блок 810 обучения алгоритма выполнен с возможностью, в ответ на несколько поставляемых экземпляров опорного ввода 301.1* факта или профиля, ввода 230a* диалога пользователя, и опорного кода 240.1b* типа эмоции, извлечения набора параметров алгоритма, например, весовых коэффициентов, структур, коэффициентов, и т.д., которые оптимально соотносят каждую комбинацию вводов с подаваемым опорным типом эмоции. В примерном варианте осуществления, могут быть использованы методики из машинного обучения, например, контролируемое обучение, которое оптимально извлекает общее правило для соотнесения вводов с выводами. Блок 810 обучения алгоритма соответственно генерирует оптимальный набор параметров 810a обучаемого алгоритма, который предоставляется примерному варианту осуществления 514.1 блока 514 обучаемого алгоритма, такого как показанный на Фиг. 5. В частности, блок 514.1 выбирает тип 240.1b эмоции во время операции 802 в режиме реального времени в соответствии с параметрами 810a обучаемого алгоритма.
[0072] Дополнительно ниже предоставляется иллюстративное описание примерного приложения методик настоящего раскрытия. Отметим, что пример приведен только в иллюстративных целях, и не предназначен для того, чтобы ограничивать объем настоящего раскрытия любыми конкретными наборами или типами вводов факта или профиля, ответов системы, или сценариев.
[0073] Марк является поклонником футбола. Он всегда обращает внимание на новости касательно Национальной Футбольной Лиги (NFL). Будучи жителем Сиэтла, его любимой командой являются Сиэтлские Морские Ястребы. Каждое Воскресенье, Марк смотрит матчи по футболу онлайн при помощи своего интеллектуального телефона, и обсуждает игроков и команды со своими друзьями через онлайновые приложения чата. Он также делится своими активностями и интересами в приложениях социальных сетей. Несколько месяцев назад, когда Морские Ястребы победили Людей 49-ого в овертайме, он был очень возбужден и широко обсуждал победу на своей странице профиля в социальной сети.
[0074] В данный Понедельник, Морские Ястребы играют с Людьми 49-ого в Сан-Франциско в Ночном Футболе по Понедельникам. К сожалению, у Марка был ужин с клиентом, и он пропустил игру. Ужин был важной встречей для Марка, так как он собирался закрыть сделку. Оказалось, что встреча прошла очень хорошо, и предложение Марка было принято клиентом. После ужина, когда Марк вел автомобиль к своему дому, он активировал интерактивную диалоговую систему (или цифрового помощника DA) на своем интеллектуальном телефоне для участия в голосовой беседе в режиме реального времени.
[0075] Марк: «Эй, это был отличный ужин! Я скрепил сделку. Думаю, Дону (начальник Марка) это понравится.»
[0076] Цифровой Помощник (приподнятым тоном голоса»: «Отлично! Приятно слышать!». (Ответ 1 DA).
[0077] Марк: «Итак, как насчет Морских Ястребов? Расскажи мне!»
[0078] Цифровой Помощник (возбужденным тоном голоса): «Угадай, твои Морские Ястребы победили! Они обыграли Людей 49-ого 30 на 25. Рассел Вилсон отдал два пасса с тачдауном в четвертой четверти». (Ответ 2 DA).
[0079] Марк: «Ух ты, здорово. Мне жаль, что я пропустил эту игру. Я думаю, что они вновь выйдут в плей-офф в этом году!»
[0080] Цифровой Помощник (продолжая возбужденным тоном голоса, чуть более сдержано): «Да! Я должен просто заблокировать Ваш календарь на время плей-офф! Я не думаю, что вы хотели бы пропустить это!» (Ответ 3 DA).
[0081] Предшествующий результат иллюстрирует несколько аспектов методик настоящего раскрытия. В частности, интерактивная диалоговая система знает, что Марк является поклонником футбола, и также поклонником Морских Ястребов. Он получает данную информацию из, например, явных установок, сконфигурированных Марком в своем цифровом помощнике, указывающих, что Марк желает отслеживать футбольные новости, и также что его любимой командой являются Морские Ястребы. Из онлайновых информационных источников, DA также осведомлен о том, что Морские Ястребы играли этой ночью против их команды-соперника, Людей 49-го из Сан-Франциско, и что в результате Морские Ястребы их победили. Это позволяет DA выбирать тип эмоции, соответствующий возбужденному тону голоса (Ответ 2 DA) при представлении Марку отчета о новости, что Морские Ястребы победили. Кроме того, на основании знания предпочтений Марка и его предшествующего ввода, DA выбирает возбужденный тон голоса, предлагая заблокировать время для Марка в его календаре (Ответ 3 DA).
[0082] Диалоговая система дополнительно обладает информацией касательно индивидуальности Марка, как извлеченной из, например, шаблона использования Марком его интеллектуального телефона (например, частота использования, время использования, и т.д.), персональных интересов и увлечений, как указанных Марком во время настройки его интеллектуального телефона, как, впрочем, и обновлений статуса его социальной сети. В данном примере, диалоговая система может определять, что Марк является экстравертом и добросовестным человеком на основании алгоритмов машинного обучения, разработанных для работы с большим количеством статистики, сгенерированной посредством шаблона использования Марком его телефона, чтобы подразумевать индивидуальность Марка.
[0083] Дополнительная информация извлекается из того факта, что Марк активировал систему DA около двух месяцев назад, и что он с того момента использует DA регулярно и с нарастающей частотой. В последнюю неделю, Марк взаимодействовал с DA в среднем 5 раз в день. В примерном варианте осуществления, некоторый алгоритм классификации типа эмоции может подразумевать растущую близость между Марком и DA из-за такой частоты взаимодействия.
[0084] DA дополнительно определяет текущее эмоциональное состояние Марка как счастливое по его голосу. По его использованию календаря/функции планирования на устройстве, DA знает, что сейчас нерабочие часы, и что Марк только что закончил встречу с его клиентом. Во время взаимодействия, DA идентифицирует, что Марк находится в его автомобиле, например, по созданию беспроводного соединения Bluetooth с электроникой автомобиля, по интервалам неподвижности, следующим за интервалами ходьбы, как определяемые акселерометром, по более низкому уровню фонового шума внутри автомобиля, по измеренной скорости перемещения, и т.д. Кроме того, по прошлым данным, таким как история данных местоположения, сопоставленных со статистикой времени дня, и т.д., предполагается, что Марк ведет автомобиль домой после ужина. Соответственно, посредством алгоритма классификации, такого как описанный со ссылкой на блок 450.1 на Фиг. 4, DA выбирает тип эмоции, соответствующий приподнятому тону голоса (Ответ 1 DA).
[0085] Фиг. 9 иллюстрирует примерный вариант осуществления способа 900 в соответствии с настоящим раскрытием. Отметим, что Фиг. 9 показана только в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным показанным способом.
[0086] На Фиг. 9, в блоке 910, способ включает в себя выбор, на основании, по меньшей мере, одного ввода факта или профиля, кода типа эмоции, ассоциированного с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции.
[0087] В блоке 920, способ включает в себя генерирование речи, соответствующей высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.
[0088] Фиг. 10 схематично показывает не ограничивающую вычислительную систему 1000, которая может выполнять один или более из описанных выше способов и процессов. Вычислительная система 1000 показана в упрощенной форме. Следует понимать, что виртуально любая компьютерная архитектура может быть использована, не отступая от объема данного раскрытия. В разных вариантах осуществления, вычислительная система 1000 может принимать форму компьютера класса мэйнфрейм, серверного компьютера, системы облачных вычислений, настольного компьютера, компьютера класса лэптоп, планшетного компьютера, домашнего развлекательного компьютера, сетевого вычислительного устройства, мобильного вычислительного устройства, устройства мобильной связи, интеллектуального телефона, игрового устройства, и т.д.
[0089] Вычислительная система 1000 включает в себя процессор 1010 и память 1020. Вычислительная система 1000 может опционально включать в себя подсистему дисплея, подсистему связи, подсистему датчика, подсистему камеры, и/или другие компоненты, не показанные на Фиг. 10. Вычислительная система 100 также может опционально включать в себя устройства ввода пользователя, такие как клавиатуры, мыши, игровые контроллеры, камеры, микрофоны, и/или сенсорные экраны, например.
[0090] Процессор 1010 может выключать в себя одно или более физические устройства, выполненные с возможностью исполнения одной или более инструкций. Например, процессор может быть выполнен с возможностью исполнения одной или более инструкций, которые являются частью одного или более приложений, услуг, программ, подпрограмм, библиотек, объектов, компонентов, структур данных, или других логических конструкций. Такие инструкции могут быть реализованы, чтобы выполнять задачу, реализовывать тип данных, преобразовывать состояние одного или более устройств, или иным образом достигать желаемого результата.
[0091] Процессор может включать в себя один или более процессоры, которые выполнены с возможностью исполнения инструкций программного обеспечения. Дополнительно или в качестве альтернативы, процессор может включать в себя одну или более машины аппаратной или встроенной программной логики, выполненные с возможностью исполнения аппаратных или встроенных программных инструкций. Процессоры у процессора могут быть одноядерными или многоядерными, и программы, исполняемые на них, могут быть сконфигурированы для параллельной или распределенной обработки. Процессор может опционально включать в себя индивидуальные компоненты, которые распределены по двум или более устройствам, которые могут удаленно располагаться и/или конфигурироваться для скоординированной обработки. Один или более аспекты процессора могут быть виртуализированы и исполняться посредством удаленно доступных сетевых вычислительных устройств, сконфигурированных в конфигурации облачных вычислений.
[0092] Память 1020 может включать в себя одно или более физические устройства, выполненные с возможностью удержания данных и/или инструкций, исполняемых посредством процессора, чтобы реализовывать способы и процессы, описываемые в данном документе. При реализации таких способов и процессов, может быть трансформировано состояние памяти 1020 (например, чтобы удерживать другие данные).
[0093] Память 1020 может включать в себя съемные носители информации и/или встроенные устройства. Память 1020 может включать в себя оптические устройства памяти (например, CD, DVD, HD-DVD, Blu-Ray Диск, и т.д.) полупроводниковые устройства памяти (например, RAM, EPROM, EEPROM, и т.д.), и/или магнитные устройства памяти (например, накопитель на жестком диске, накопитель на гибком диске, накопитель на ленте, MRAM, и т.д.), среди прочего. Память 1020 может включать в себя устройства с одной или более из следующих характеристик: энергозависимое, энергонезависимое, динамическое, статическое, чтения/записи, только чтения, произвольного доступа, последовательного доступа, с адресацией по ячейке, с адресацией по файлу, и с адресацией по контенту. В некоторых вариантах осуществления, процессор 1010 и память 1020 могут быть интегрированы в одном или более общих устройствах, таких как проблемно-ориентированная интегральная микросхема или система на кристалле.
[0094] Память 1020 также может принимать форму съемных машиночитаемых запоминающих носителей информации, которые могут быть использованы, чтобы хранить и/или переносить данные и/или инструкции, исполняемые чтобы реализовывать описываемые в данном документе способы и процессы. Память 1020 может принимать форму CD, DVD, HD-DVD, Blu-Ray Дисков, EEPROM, и/или гибких дисков, среди прочего.
[0095] Следует иметь в виду, что память 102 включает в себя одно или более физические устройства, которые хранят информацию. Понятия «модуль», «программа», и «машина» могут быть использованы, чтобы описывать аспект вычислительной системы 1000, который реализуется, чтобы выполнять одну или более конкретные функции. В некоторых случаях, такой модуль, программа, или машина, может быть создан через процессор 1010, исполняющий инструкции, удерживаемые памятью 1020. Следует понимать, что разные модули, программы, и/или машины могут быть созданы из одного и того же приложения, услуги, блока кода, объекта, библиотеки, подпрограммы, API, функции, и т.д. Подобным образом, один и тот же модуль, программа, и/или машина может быть создан посредством разных приложения, услуг, блоков кода, объектов, подпрограмм, API, функций, и т.д. Понятия «модуль», «программа», и «машина» должны охватывать индивидуальные или группы исполняемых файлов, файлов данных, библиотек, драйверов, сценариев, записей базы данных, и т.д.
[0096] В аспекте, вычислительная система 1000 может соответствовать вычислительному устройству, включающему в себя память 1020, удерживающую инструкции, исполняемые посредством процессора 1010, чтобы выбирать, на основании, по меньшей мере, одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Инструкции дополнительно являются исполняемыми посредством процессор 1010, чтобы генерировать речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему. Отметим, что будет пониматься, что такое вычислительное устройство соответствует процессу, машине, изделию, или композиции предмета.
[0097] Фиг. 11 иллюстрирует примерный вариант осуществления устройства 110 в соответствии с настоящим раскрытием. Отметим, что устройство 110 показано только в иллюстративных целях, и не предназначено для того, чтобы ограничивать объем настоящего раскрытия любым показанным конкурентным устройством.
[0098] На Фиг. 11, блок 120 классификации выполнен с возможностью выбора, на основании, по меньшей мере, одного ввода 1120b факта или профиля, кода 1120a типа эмоции, ассоциированного с высказыванием 1110a вывода. Код 1120a типа эмоции указывает один из множества предварительно определенных типов эмоции. Блок 1130 текста-в-речь выполнен с возможностью генерирования речи 1130a, соответствующей высказыванию 1110a вывод и предварительно определенному типу эмоции, указанному посредством кода 1120 типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод 1120b факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.
[0099] Отметим, что методики настоящего раскрытия не обязательно ограничиваются вариантами осуществления, включающими устройство мобильной связи. В альтернативных примерных вариантах осуществления, настоящие методики также могут быть включены в не-мобильные устройства, например, настольные компьютеры, домашние игровые системы, и т.д. Кроме того, устройства мобильной связи, включающие настоящие методики, не обязательно ограничиваются интеллектуальными телефонами, и также могут включать в себя носимые устройства, такие как компьютеризированные наручные часы, очки, и т.д. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0100] Фиг. 12 иллюстрирует примерный вариант осуществления 1200, в котором методики настоящего раскрытия включены в диалоговую систему с эмоциональным содержимым, которое придается отображаемому тексту, вместо или в дополнение к слышимой речи. Отметим, что блоки, показанные на Фиг. 12, соответствуют сходным образом помеченным блокам на Фиг. 2, и некоторые блоки, показанные на Фиг. 2, опущены на Фиг. 12 для простоты иллюстрации.
[0101] На Фиг. 12, вывод 250a блока 250 генерирования языка объединяется с кодом 240b типа эмоции, генерируемым посредством диалоговой машины 240, и выводится в блок 1260 текста в речь и/или текст для отображения. В аспекте текста в речь, блок 1260 генерирует речь с семантическим содержимым 240a и кодом 240b типа эмоции. В аспекте текста для отображения, блок 1260 в качестве альтернативы или дополнительно генерирует текст для отображения с семантическим содержимым 240a и кодом 240b типа эмоции. Следует иметь в виду, что код 240b типа эмоции может придавать эмоцию отображаемому тексту, используя такие методики, как, например, регулирование размера или шрифта символов отображаемого текста, предоставление эмотиконов (например, смайликов или других картинок), соответствующих коду 240b типа эмоции, и т.д. В примерном варианте осуществления, блок 1260 в качестве альтернативы или в дополнение генерирует основанную на эмоции анимацию или графические модификации для одного или более аватаров, представляющих DA или пользователя на дисплее. Например, если код 240b типа эмоции соответствует «грусти», тогда предварительно выбранный аватар, представляющий DA, может быть сгенерирован с предварительно сконфигурированным «грустным» выражением лица, или иным образом анимирован, чтобы выражать грусть через движение, например, плачущие действия. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0102] В данном техническом описании и в формуле изобретения, следует понимать, что когда элемент упоминается как «соединенный с» ил «связанный с» другим элементом, он может быть непосредственно соединен или связан с другим элементом или могут присутствовать промежуточные элементы. В противоположность, когда элемент упоминается как «непосредственно соединенный с» или «непосредственно связанный с» другим элементом, то отсутствуют промежуточные элементы. Кроме того, когда элемент упоминается как «электрически связанный» с другим элементом, это обозначает, что путь низкого сопротивления присутствует между такими элементами, в то время когда элемент именуется как просто «связанный» с другим элементом, может быть или может не быть путь низкого сопротивления между такими элементами.
[0103] Функциональность, описанная в данном документе, может быть выполнена, по меньшей мере, частично посредством одного или более компонентов аппаратной и/или программной логики. Например, и без ограничения, иллюстрируемые типы компонентов аппаратной логики, которые могут быть использованы, включают в себя Программируемые Вентильные Матрицы (FPGA), Проблемно-ориентированные Интегральные Микросхемы (ASIC), Проблемно-ориентированные Стандартные Изделия (ASSP), системы вида Система-на-кристалле (SOC), Сложные Устройства с Программируемой Логикой (CPLD), и т.д.
[0104] Несмотря на то, что изобретение допускает разнообразные модификации или альтернативные конструкции, некоторые иллюстративные его варианты осуществления показаны на чертежах и были подробно описаны выше. Следует понимать, тем не менее, что отсутствует намерение ограничить изобретение конкретными раскрытыми формами, а наоборот, намерение состоит в том, чтобы охватить все модификации, альтернативные конструкции, и эквиваленты, лежащие в рамках сущности и объема изобретения.
Claims (21)
1. Устройство для интерактивной диалоговой системы (200), при этом устройство содержит:
блок (320) классификации, выполненный с возможностью выбора (910), на основании по меньшей мере одного ввода факта или профиля, кода типа эмоции, ассоциированного с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;
блок (250) генерирования языка, выполненный с возможностью генерирования высказывания вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и
блок (260) текста-в-речь, выполненный с возможностью генерирования (920) речи, соответствующей высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;
при этом упомянутый по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200) и выполненного с возможностью предоставления услуг голосового вызова и доступа к Интернету.
2. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля содержит по меньшей мере один параметр конфигурации пользователя, конфигурируемый пользователем, причем по меньшей мере один параметр конфигурации пользователя содержит по меньшей мере одно из следующего: увлечения, интересы, черты характера, любимые фильмы, любимые виды спорта и любимые типы кухни.
3. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере один параметр, извлеченный из онлайновой активности пользователя, используя устройство, причем по меньшей мере один параметр, извлеченный из онлайновой активности пользователя, содержит по меньшей мере одно из следующего: поисковые запросы в Интернет, посещенные веб-сайты Интернет, содержимое сообщений электронной почты и размещения сообщений на онлайновых веб-сайтах социальных сетей.
4. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере одно из следующего: местоположение пользователя, содержимое текстовой или голосовой связи пользователя и по меньшей мере одно событие, запланированное пользователем, используя функцию планирования календаря устройства.
5. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере одно из следующего: текущее эмоциональное состояние пользователя, статистику использования устройства, онлайновые информационные ресурсы и индивидуальность цифрового помощника.
6. Устройство по п. 1, в котором блок классификации выполнен с возможностью выбора кода типа эмоции, используя алгоритм, содержащий по меньшей мере одно функциональное соотнесение между множеством опорных вводов факта или профиля и соответствующим множеством опорных типов эмоции, причем по меньшей мере одно функциональное соотнесение извлекается по методикам машинного обучения.
7. Вычислительное устройство, включающее в себя процессор и память, удерживающую инструкции, исполняемые посредством процессора, чтобы:
выбирать (910), на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;
генерировать высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и
генерировать (920) речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;
при этом по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200).
8. Способ генерирования речи, содержащий этапы, на которых:
выбирают (910), на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;
генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и
генерируют (920) речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;
при этом по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200).
9. Способ по п.8, в котором упомянутый по меньшей мере один ввод факта или профиля содержит по меньшей мере одно из следующего: местоположение пользователя, параметр конфигурации пользователя, конфигурируемый пользователем, онлайновую активность пользователя, местоположение пользователя, содержимое текстовой или голосовой связи пользователя и по меньшей мере одно событие, запланированное пользователем, используя функцию планирования календаря.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/561,190 | 2014-12-04 | ||
US14/561,190 US9786299B2 (en) | 2014-12-04 | 2014-12-04 | Emotion type classification for interactive dialog system |
PCT/US2015/063301 WO2016089929A1 (en) | 2014-12-04 | 2015-12-02 | Emotion type classification for interactive dialog system |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2017119007A RU2017119007A (ru) | 2018-12-03 |
RU2017119007A3 RU2017119007A3 (ru) | 2019-06-19 |
RU2705465C2 true RU2705465C2 (ru) | 2019-11-07 |
Family
ID=55025379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017119007A RU2705465C2 (ru) | 2014-12-04 | 2015-12-02 | Классификация типа эмоции для интерактивной диалоговой системы |
Country Status (11)
Country | Link |
---|---|
US (2) | US9786299B2 (ru) |
EP (1) | EP3227885A1 (ru) |
JP (1) | JP6803333B2 (ru) |
KR (2) | KR102457486B1 (ru) |
CN (1) | CN107003997A (ru) |
AU (2) | AU2015355097B2 (ru) |
BR (1) | BR112017010047B1 (ru) |
CA (1) | CA2967976C (ru) |
MX (1) | MX2017007317A (ru) |
RU (1) | RU2705465C2 (ru) |
WO (1) | WO2016089929A1 (ru) |
Families Citing this family (85)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786299B2 (en) * | 2014-12-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Emotion type classification for interactive dialog system |
US9722965B2 (en) * | 2015-01-29 | 2017-08-01 | International Business Machines Corporation | Smartphone indicator for conversation nonproductivity |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
WO2017108138A1 (en) * | 2015-12-23 | 2017-06-29 | Intel Corporation | Biometric information for dialog system |
US10489509B2 (en) * | 2016-03-14 | 2019-11-26 | International Business Machines Corporation | Personality based sentiment analysis of textual information written in natural language |
US10567312B2 (en) | 2016-04-11 | 2020-02-18 | Facebook, Inc. | Techniques for messaging bot controls based on machine-learning user intent detection |
US10831802B2 (en) * | 2016-04-11 | 2020-11-10 | Facebook, Inc. | Techniques to respond to user requests using natural-language machine learning based on example conversations |
JP6791669B2 (ja) * | 2016-07-12 | 2020-11-25 | Supership株式会社 | 情報処理装置及びプログラム |
US10356029B2 (en) | 2016-09-21 | 2019-07-16 | Facebook, Inc. | Methods and systems for presenting modules in an inbox interface |
US11233760B2 (en) | 2016-09-21 | 2022-01-25 | Facebook, Inc. | Module ranking for a modular inbox |
WO2018060993A1 (en) * | 2016-09-27 | 2018-04-05 | Faception Ltd. | Method and system for personality-weighted emotion analysis |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
CN106503805B (zh) * | 2016-11-14 | 2019-01-29 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析方法 |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
US11016719B2 (en) | 2016-12-30 | 2021-05-25 | DISH Technologies L.L.C. | Systems and methods for aggregating content |
US10373278B2 (en) | 2017-02-15 | 2019-08-06 | International Business Machines Corporation | Annotation of legal documents with case citations |
US10452780B2 (en) | 2017-02-15 | 2019-10-22 | International Business Machines Corporation | Tone analysis of legal documents |
US10318799B2 (en) * | 2017-02-16 | 2019-06-11 | Wipro Limited | Method of predicting an interest of a user and a system thereof |
US10558757B2 (en) * | 2017-03-11 | 2020-02-11 | International Business Machines Corporation | Symbol management |
JP2018167339A (ja) * | 2017-03-29 | 2018-11-01 | 富士通株式会社 | 発話制御プログラム、情報処理装置及び発話制御方法 |
US10535344B2 (en) * | 2017-06-08 | 2020-01-14 | Microsoft Technology Licensing, Llc | Conversational system user experience |
CN109146450A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
US11188809B2 (en) * | 2017-06-27 | 2021-11-30 | International Business Machines Corporation | Optimizing personality traits of virtual agents |
CN107516533A (zh) * | 2017-07-10 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种会话信息处理方法、装置、电子设备 |
US20190065458A1 (en) * | 2017-08-22 | 2019-02-28 | Linkedin Corporation | Determination of languages spoken by a member of a social network |
CN107657017B (zh) * | 2017-09-26 | 2020-11-13 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
US11487986B2 (en) * | 2017-10-13 | 2022-11-01 | Microsoft Technology Licensing, Llc | Providing a response in a session |
CN107945848A (zh) * | 2017-11-16 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 一种健身指导实现方法、装置、设备和介质 |
WO2019100319A1 (en) * | 2017-11-24 | 2019-05-31 | Microsoft Technology Licensing, Llc | Providing a response in a session |
CN109857352A (zh) * | 2017-11-30 | 2019-06-07 | 富泰华工业(深圳)有限公司 | 动画显示方法及人机交互装置 |
US10636419B2 (en) * | 2017-12-06 | 2020-04-28 | Sony Interactive Entertainment Inc. | Automatic dialogue design |
US10783329B2 (en) * | 2017-12-07 | 2020-09-22 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method, device and computer readable storage medium for presenting emotion |
US10372825B2 (en) | 2017-12-18 | 2019-08-06 | International Business Machines Corporation | Emotion detection and expression integration in dialog systems |
CN108091324B (zh) | 2017-12-22 | 2021-08-17 | 北京百度网讯科技有限公司 | 语气识别方法、装置、电子设备和计算机可读存储介质 |
CN110019848A (zh) * | 2017-12-22 | 2019-07-16 | 深圳市优必选科技有限公司 | 对话交互方法、装置及机器人 |
CN108009287A (zh) * | 2017-12-25 | 2018-05-08 | 北京中关村科金技术有限公司 | 一种基于对话系统的回答数据生成方法以及相关装置 |
CN108154888A (zh) * | 2017-12-26 | 2018-06-12 | 四川沐迪圣科技有限公司 | 一种基于语音特征的可穿戴设备监测心理健康方法 |
AU2019212839B2 (en) * | 2018-01-29 | 2023-11-09 | EmergeX, LLC | System and method for facilitating affective-state-based artificial intelligence |
CA3089720A1 (en) * | 2018-02-06 | 2019-08-15 | Vi Labs Ltd | Digital personal assistant |
US10522143B2 (en) * | 2018-02-27 | 2019-12-31 | Microsoft Technology Licensing, Llc | Empathetic personal virtual digital assistant |
CN108597509A (zh) * | 2018-03-30 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 智能语音交互实现方法、装置、计算机设备及存储介质 |
US10621983B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US10622007B2 (en) * | 2018-04-20 | 2020-04-14 | Spotify Ab | Systems and methods for enhancing responsiveness to utterances having detectable emotion |
US20190325866A1 (en) * | 2018-04-20 | 2019-10-24 | Spotify Ab | Systems and Methods for Enhancing Responsiveness to Utterances Having Detectable Emotion |
JP6944594B2 (ja) * | 2018-06-08 | 2021-10-06 | 株式会社Nttドコモ | 対話装置 |
JP2021529382A (ja) | 2018-06-19 | 2021-10-28 | エリプシス・ヘルス・インコーポレイテッド | 精神的健康評価のためのシステム及び方法 |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US11132681B2 (en) | 2018-07-06 | 2021-09-28 | At&T Intellectual Property I, L.P. | Services for entity trust conveyances |
US10802872B2 (en) | 2018-09-12 | 2020-10-13 | At&T Intellectual Property I, L.P. | Task delegation and cooperation for automated assistants |
US11354507B2 (en) | 2018-09-13 | 2022-06-07 | International Business Machines Corporation | Compared sentiment queues |
WO2020060151A1 (en) | 2018-09-19 | 2020-03-26 | Samsung Electronics Co., Ltd. | System and method for providing voice assistant service |
US20200099634A1 (en) * | 2018-09-20 | 2020-03-26 | XRSpace CO., LTD. | Interactive Responding Method and Computer System Using the Same |
CN111226194A (zh) * | 2018-09-27 | 2020-06-02 | 三星电子株式会社 | 提供交互界面的方法和系统 |
CN109359181B (zh) * | 2018-09-27 | 2021-11-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
CN111048062B (zh) * | 2018-10-10 | 2022-10-04 | 华为技术有限公司 | 语音合成方法及设备 |
US11481186B2 (en) | 2018-10-25 | 2022-10-25 | At&T Intellectual Property I, L.P. | Automated assistant context and protocol |
CN109352666A (zh) * | 2018-10-26 | 2019-02-19 | 广州华见智能科技有限公司 | 一种基于机器语音对话的情感发泄方法及系统 |
CN109493885A (zh) * | 2018-11-13 | 2019-03-19 | 平安科技(深圳)有限公司 | 心理状态评估及调节方法、装置及存储介质、服务器 |
FR3089324A1 (fr) * | 2018-11-29 | 2020-06-05 | Orange | Procédé de détermination d’un agent conversationnel sur un terminal |
DK3664470T3 (da) | 2018-12-05 | 2021-04-19 | Sonova Ag | Fremskaffelse af feedback om lydstyrken af egen stemme for en bruger af et høreapparat |
US11222631B2 (en) * | 2018-12-11 | 2022-01-11 | International Business Machines Corporation | Performance evaluation using audio and structured feedback |
CN111475206B (zh) * | 2019-01-04 | 2023-04-11 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
US11854538B1 (en) * | 2019-02-15 | 2023-12-26 | Amazon Technologies, Inc. | Sentiment detection in audio data |
KR20200113105A (ko) | 2019-03-22 | 2020-10-06 | 삼성전자주식회사 | 응답을 제공하는 전자 장치와 이의 동작 방법 |
CN109977215B (zh) * | 2019-03-29 | 2021-06-18 | 百度在线网络技术(北京)有限公司 | 基于关联兴趣点的语句推荐方法和装置 |
WO2020209647A1 (ko) * | 2019-04-09 | 2020-10-15 | 네오사피엔스 주식회사 | 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템 |
RU2720359C1 (ru) * | 2019-04-16 | 2020-04-29 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и оборудование распознавания эмоций в речи |
TWI751560B (zh) * | 2019-05-20 | 2022-01-01 | 仁寶電腦工業股份有限公司 | 語音轉文字裝置以及語音轉文字方法 |
WO2020235712A1 (ko) * | 2019-05-21 | 2020-11-26 | 엘지전자 주식회사 | 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법 |
CN110287323B (zh) * | 2019-06-27 | 2020-10-23 | 成都冰鉴信息科技有限公司 | 一种面向目标的情感分类方法 |
CN110413788B (zh) * | 2019-07-30 | 2023-01-31 | 携程计算机技术(上海)有限公司 | 会话文本的场景类别的预测方法、系统、设备和存储介质 |
KR20210020656A (ko) * | 2019-08-16 | 2021-02-24 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 인식 방법 및 그 장치 |
CN110705584A (zh) * | 2019-08-21 | 2020-01-17 | 深圳壹账通智能科技有限公司 | 情绪识别方法、装置、计算机装置及存储介质 |
US11587561B2 (en) * | 2019-10-25 | 2023-02-21 | Mary Lee Weir | Communication system and method of extracting emotion data during translations |
US20210209289A1 (en) * | 2020-01-07 | 2021-07-08 | Samsung Electronics Co., Ltd. | Method and apparatus for generating customized content based on user intent |
JP7248615B2 (ja) * | 2020-03-19 | 2023-03-29 | ヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
US11735206B2 (en) * | 2020-03-27 | 2023-08-22 | Harman International Industries, Incorporated | Emotionally responsive virtual personal assistant |
CN112883145B (zh) * | 2020-12-24 | 2022-10-11 | 浙江万里学院 | 一种面向中文评论的情感多倾向分类方法 |
CN112396185B (zh) * | 2021-01-21 | 2021-05-11 | 中国人民解放军国防科技大学 | 一种事实验证方法、系统、计算机设备和存储介质 |
WO2022214616A1 (en) * | 2021-04-09 | 2022-10-13 | Interdigital Ce Patent Holdings, Sas | Personalizing audio-visual content based on user's interest |
CN112989822B (zh) * | 2021-04-16 | 2021-08-27 | 北京世纪好未来教育科技有限公司 | 识别对话中句子类别的方法、装置、电子设备和存储介质 |
CN113791690B (zh) * | 2021-09-22 | 2024-03-29 | 入微智能科技(南京)有限公司 | 一种带有实时情绪识别功能的人机交互公共设备 |
US20230169990A1 (en) * | 2021-12-01 | 2023-06-01 | Verizon Patent And Licensing Inc. | Emotionally-aware voice response generation method and apparatus |
KR20230116605A (ko) * | 2022-01-28 | 2023-08-04 | 주식회사 마블러스 | 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램 |
CN116030811B (zh) * | 2023-03-22 | 2023-06-30 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030167167A1 (en) * | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
EP1038291B1 (en) * | 1997-12-16 | 2007-02-14 | Amir Liberman | Apparatus and methods for detecting emotions |
US7340393B2 (en) * | 2000-09-13 | 2008-03-04 | Advanced Generation Interface, Inc. | Emotion recognizing method, sensibility creating method, device, and software |
US20080096533A1 (en) * | 2006-10-24 | 2008-04-24 | Kallideas Spa | Virtual Assistant With Real-Time Emotions |
CN103198827A (zh) * | 2013-03-26 | 2013-07-10 | 合肥工业大学 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
RU2012137028A (ru) * | 2012-08-29 | 2014-03-10 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") | Способ выявления эмоционального состояния человека по голосу |
WO2014113889A1 (en) * | 2013-01-23 | 2014-07-31 | Persuasive Labs Inc. | Method and apparatus for adapting customer interaction based on assessed personality |
RU2530267C2 (ru) * | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ коммуникации пользователя с информационной диалоговой системой |
US20140343947A1 (en) * | 2013-05-15 | 2014-11-20 | GM Global Technology Operations LLC | Methods and systems for managing dialog of speech systems |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3799134B2 (ja) * | 1997-05-28 | 2006-07-19 | ソニー株式会社 | システムおよび通知方法 |
US6246672B1 (en) * | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
US6144938A (en) | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
JP4465730B2 (ja) * | 1999-01-20 | 2010-05-19 | 日本ビクター株式会社 | 対話装置 |
US7222075B2 (en) | 1999-08-31 | 2007-05-22 | Accenture Llp | Detecting emotions using voice signal analysis |
US6151571A (en) | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6598020B1 (en) * | 1999-09-10 | 2003-07-22 | International Business Machines Corporation | Adaptive emotion and initiative generator for conversational systems |
US6757362B1 (en) | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
CN1283428C (zh) | 2000-03-31 | 2006-11-08 | 索尼公司 | 机器人设备、控制机器人设备动作的方法 |
JP3561211B2 (ja) | 2000-06-27 | 2004-09-02 | 株式会社東芝 | 情報処理装置および不揮発性記憶装置の書き換え制御方法 |
US20020029203A1 (en) * | 2000-09-01 | 2002-03-07 | Pelland David M. | Electronic personal assistant with personality adaptation |
WO2002067194A2 (en) | 2001-02-20 | 2002-08-29 | I & A Research Inc. | System for modeling and simulating emotion states |
JP2002304188A (ja) | 2001-04-05 | 2002-10-18 | Sony Corp | 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体 |
EP1256937B1 (en) * | 2001-05-11 | 2006-11-02 | Sony France S.A. | Emotion recognition method and device |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
CN100339885C (zh) * | 2002-02-26 | 2007-09-26 | Sap股份公司 | 智能个人助理 |
KR20050015584A (ko) * | 2003-08-06 | 2005-02-21 | 삼성전자주식회사 | 감정 표현이 가능한 통신 장치 및 방법 |
KR100680191B1 (ko) * | 2003-09-05 | 2007-02-08 | 삼성전자주식회사 | 감정 있는 에이전트를 갖는 사전 행동적 사용자 인터페이스 시스템 |
US7944448B2 (en) | 2005-06-14 | 2011-05-17 | Omron Corporation | Apparatus and method for socially intelligent virtual entity |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
JP4965322B2 (ja) * | 2007-04-17 | 2012-07-04 | 日本電信電話株式会社 | ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム |
CN101474481B (zh) | 2009-01-12 | 2010-07-21 | 北京科技大学 | 情感机器人系统 |
KR101594057B1 (ko) * | 2009-08-19 | 2016-02-15 | 삼성전자주식회사 | 텍스트 데이터의 처리 방법 및 장치 |
US8719277B2 (en) * | 2011-08-08 | 2014-05-06 | Google Inc. | Sentimental information associated with an object within a media |
KR101504699B1 (ko) * | 2013-04-09 | 2015-03-20 | 얄리주식회사 | 유무선 통신 네트워크를 이용한 음성대화방법 및 장치 |
US8971183B1 (en) * | 2013-09-08 | 2015-03-03 | Divyahans Gupta | Control signal traffic profile based mobile application access management |
US9514748B2 (en) * | 2014-01-15 | 2016-12-06 | Microsoft Technology Licensing, Llc | Digital personal assistant interaction with impersonations and rich multimedia in responses |
US10803850B2 (en) * | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
US9786299B2 (en) * | 2014-12-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Emotion type classification for interactive dialog system |
US9641563B1 (en) * | 2015-11-10 | 2017-05-02 | Ricoh Company, Ltd. | Electronic meeting intelligence |
-
2014
- 2014-12-04 US US14/561,190 patent/US9786299B2/en active Active
-
2015
- 2015-12-02 AU AU2015355097A patent/AU2015355097B2/en active Active
- 2015-12-02 WO PCT/US2015/063301 patent/WO2016089929A1/en active Application Filing
- 2015-12-02 JP JP2017528786A patent/JP6803333B2/ja active Active
- 2015-12-02 KR KR1020177017702A patent/KR102457486B1/ko active IP Right Grant
- 2015-12-02 BR BR112017010047-9A patent/BR112017010047B1/pt active IP Right Grant
- 2015-12-02 CN CN201580065944.XA patent/CN107003997A/zh active Pending
- 2015-12-02 MX MX2017007317A patent/MX2017007317A/es unknown
- 2015-12-02 KR KR1020227036149A patent/KR102632775B1/ko active IP Right Grant
- 2015-12-02 CA CA2967976A patent/CA2967976C/en active Active
- 2015-12-02 RU RU2017119007A patent/RU2705465C2/ru active
- 2015-12-02 EP EP15816976.3A patent/EP3227885A1/en not_active Withdrawn
-
2017
- 2017-09-04 US US15/694,863 patent/US10515655B2/en active Active
-
2020
- 2020-09-23 AU AU2020239704A patent/AU2020239704B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1038291B1 (en) * | 1997-12-16 | 2007-02-14 | Amir Liberman | Apparatus and methods for detecting emotions |
US7340393B2 (en) * | 2000-09-13 | 2008-03-04 | Advanced Generation Interface, Inc. | Emotion recognizing method, sensibility creating method, device, and software |
US20030167167A1 (en) * | 2002-02-26 | 2003-09-04 | Li Gong | Intelligent personal assistants |
US20080096533A1 (en) * | 2006-10-24 | 2008-04-24 | Kallideas Spa | Virtual Assistant With Real-Time Emotions |
RU2012137028A (ru) * | 2012-08-29 | 2014-03-10 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") | Способ выявления эмоционального состояния человека по голосу |
RU2530267C2 (ru) * | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ коммуникации пользователя с информационной диалоговой системой |
WO2014113889A1 (en) * | 2013-01-23 | 2014-07-31 | Persuasive Labs Inc. | Method and apparatus for adapting customer interaction based on assessed personality |
CN103198827A (zh) * | 2013-03-26 | 2013-07-10 | 合肥工业大学 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
US20140343947A1 (en) * | 2013-05-15 | 2014-11-20 | GM Global Technology Operations LLC | Methods and systems for managing dialog of speech systems |
Also Published As
Publication number | Publication date |
---|---|
BR112017010047B1 (pt) | 2023-03-14 |
AU2015355097A1 (en) | 2017-05-25 |
MX2017007317A (es) | 2017-08-25 |
US10515655B2 (en) | 2019-12-24 |
JP6803333B2 (ja) | 2020-12-23 |
CA2967976A1 (en) | 2016-06-09 |
AU2020239704A1 (en) | 2020-10-15 |
CN107003997A (zh) | 2017-08-01 |
KR102457486B1 (ko) | 2022-10-20 |
RU2017119007A (ru) | 2018-12-03 |
AU2015355097B2 (en) | 2020-06-25 |
JP2018503894A (ja) | 2018-02-08 |
AU2020239704B2 (en) | 2021-12-16 |
CA2967976C (en) | 2022-08-09 |
US20180005646A1 (en) | 2018-01-04 |
US9786299B2 (en) | 2017-10-10 |
KR20170092603A (ko) | 2017-08-11 |
US20160163332A1 (en) | 2016-06-09 |
RU2017119007A3 (ru) | 2019-06-19 |
EP3227885A1 (en) | 2017-10-11 |
KR20220147150A (ko) | 2022-11-02 |
WO2016089929A1 (en) | 2016-06-09 |
BR112017010047A2 (pt) | 2018-01-02 |
KR102632775B1 (ko) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2705465C2 (ru) | Классификация типа эмоции для интерактивной диалоговой системы | |
US20240037343A1 (en) | Virtual assistant for generating personalized responses within a communication session | |
US10809876B2 (en) | Virtual assistant conversations | |
US10536402B2 (en) | Context-sensitive generation of conversational responses | |
CN110998725B (zh) | 在对话中生成响应 | |
US20170277993A1 (en) | Virtual assistant escalation | |
KR102541523B1 (ko) | 인간 대 컴퓨터 다이얼로그들에 요청되지 않은 콘텐츠의 사전 통합 | |
CN111201566A (zh) | 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法 | |
JP2021012660A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
Zoghaib | Voice Marketing | |
US20240095491A1 (en) | Method and system for personalized multimodal response generation through virtual agents | |
CN117959715A (zh) | 交互方法、装置、介质及电子设备 |