RU2705465C2 - Классификация типа эмоции для интерактивной диалоговой системы - Google Patents

Классификация типа эмоции для интерактивной диалоговой системы Download PDF

Info

Publication number
RU2705465C2
RU2705465C2 RU2017119007A RU2017119007A RU2705465C2 RU 2705465 C2 RU2705465 C2 RU 2705465C2 RU 2017119007 A RU2017119007 A RU 2017119007A RU 2017119007 A RU2017119007 A RU 2017119007A RU 2705465 C2 RU2705465 C2 RU 2705465C2
Authority
RU
Russia
Prior art keywords
emotion
user
fact
speech
type code
Prior art date
Application number
RU2017119007A
Other languages
English (en)
Other versions
RU2017119007A (ru
RU2017119007A3 (ru
Inventor
Макс ЛЕУНГ
Эдвард УН
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2017119007A publication Critical patent/RU2017119007A/ru
Publication of RU2017119007A3 publication Critical patent/RU2017119007A3/ru
Application granted granted Critical
Publication of RU2705465C2 publication Critical patent/RU2705465C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Изобретение относится к средствам для классификации типа эмоции для интерактивной диалоговой системы. Технический результат заключается в обеспечении возможности генерировать синтезированную речь с эмоциональными характеристиками для повышения эффективности взаимодействия с пользователем. Выбирают, на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции. Генерируют речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. 3 н. и 6 з.п. ф-лы, 12 ил.

Description

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ
[0001] Искусственные интерактивные диалоговые системы становятся все более распространенным признаком в современных устройствах потребительской электроники. Например, современные беспроводные интеллектуальные телефоны включают программное обеспечение распознавания речи, интерактивного диалога, и синтеза речи, чтобы участвовать в интерактивной беседе в режиме реального времени с пользователем, чтобы доставлять такие услуги как информация и новости, конфигурирование и программирование дистанционных устройств, и т.д.
[0002] Для обеспечения пользователю восприятия более естественной и прозрачной беседы с диалоговой системой, желательно генерировать речь или другой вывод с эмоциональным содержимым в дополнение к семантическому содержимому. Например, при доставке новостей, задач планирования, или иного взаимодействия с пользователем, было бы желательным придавать эмоциональные характеристики синтезированной речи и/или другому выводу, чтобы более эффективно вовлекать пользователя в беседу.
[0003] Соответственно, желательно предоставить методики для определения пригодных эмоций для придания семантическому содержимому, которое доставляется интерактивной диалоговой системой, и классифицируя такие определенные эмоции в соответствии с одним из множества предварительно определенных типов эмоции.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0004] Данная Сущность Изобретения предоставляется, чтобы представить выбор концепций в упрощенной форме, которые дополнительно описываются ниже в Подробном Описании. Данная Сущность Изобретения как не предназначена для того, чтобы идентифицировать ключевые признаки или неотъемлемые признаки заявленного предмета изобретения, так и не предназначена для того, чтобы быть использованной для ограничения объема заявленного предмета изобретения.
[0005] Кратко, разнообразные аспекты предмета изобретения, описываемого в данном документе, направлены в отношении методик для предоставления устройства для интерактивной диалоговой системы. В аспекте, вводы факта или профиля, доступные для устройства мобильной связи, могут быть объединены с предыдущим или текущим вводом пользователя, чтобы выбирать соответствующий код типа эмоции, чтобы ассоциировать с высказыванием вывода, генерируемым посредством интерактивной диалоговой системы. Вводы факта или профиля могут быть извлечены из некоторых аспектов использования устройства, например, онлайновой активности пользователя, связи пользователя, функций календаря и планирования, и т.д. Алгоритмы для выбора кода типа эмоции могут быть основанными на правилах, или предварительно сконфигурированными, используя методики машинного обучения. Код типа эмоции может быть объединен с высказыванием вывода, чтобы генерировать синтезированную речь с эмоциональными характеристиками для улучшенного восприятия пользователя.
[0006] Другие преимущества могут стать очевидными из нижеследующего подробного описания и чертежей.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0007] Фиг. 1 иллюстрирует сценарий использования устройства мобильной связи, в котором могут быть применены методики настоящего раскрытия.
[0008] Фиг. 2 иллюстрирует примерный вариант осуществления обработки, которая может быть выполнена посредством процессора или других элементов устройства.
[0009] Фиг. 3 иллюстрирует примерный вариант осуществления обработки, выполняемой посредством диалоговой машины.
[0010] Фиг. 4 иллюстрирует примерный вариант осуществления блока классификации типа эмоции в соответствии с настоящим раскрытием.
[0011] Фиг. 5 иллюстрирует примерный вариант осуществления алгоритма гибридной классификации типа эмоции.
[0012] Фиг. 6 иллюстрирует примерный вариант осуществления основанного на правилах алгоритма.
[0013] Фиг. 7 иллюстрирует альтернативный вариант осуществления основанного на правилах алгоритма.
[0014] Фиг. 8 иллюстрирует примерный вариант осуществления обучающей схемы для извлечения обучаемого алгоритма для выбора типа эмоции.
[0015] Фиг. 9 иллюстрирует примерный вариант осуществления способа в соответствии с настоящим раскрытием.
[0016] Фиг. 10 схематично показывает неограничивающую вычислительную систему, которая может выполнять один или более из описанных выше способов и процессов.
[0017] Фиг. 11 иллюстрирует примерный вариант осуществления устройства в соответствии с настоящим раскрытием.
[0018] Фиг. 12 иллюстрирует примерный вариант осуществления, в котором методики настоящего раскрытия включены в диалоговую систему с эмоциональным содержимым, которое придается отображаемому тексту, вместо или в дополнение к слышимой речи.
ПОДРОБНОЕ ОПИСАНИЕ
[0019] Разнообразные аспекты технологии, описываемой в данном документе, в целом направлены на технологию для выбора кода типа эмоции, ассоциированного с выражением вывода в электронной интерактивной диалоговой системе. Подробное описание, излагаемое ниже в связи с прилагаемыми чертежами, предназначено в качестве описания примерных аспектов изобретения и не предназначено для того, чтобы представить только примерные аспекты, в которых изобретение может быть реализовано на практике. Понятие «примерный», используемое на всем протяжении данного описания, означает «служащий в качестве примера, экземпляра, или иллюстрации», и не обязательно должно толковаться в качестве предпочтительного или преимущественного над другими примерными аспектами. Подробное описание включает в себя конкретные подробности в целях обеспечения исчерпывающего понимания примерных аспектов изобретения. Специалистам в соответствующей области техники будет очевидно, что примерные аспекты изобретения могут быть реализованы на практике без этих конкретных подробностей. В некоторых примерах, хорошо известные структуры и устройства показаны в форме структурной схемы для того, чтобы избежать затенения новизны примерных аспектов, представленных в данном документе.
[0020] Фиг. 1 иллюстрирует сценарий использования устройства 120 мобильной связи, в котором могут быть применены методики настоящего раскрытия. Отметим, что Фиг. 1 показана лишь в целях иллюстрации, и не означает, что ограничивает объем настоящего раскрытия только приложениями настоящего раскрытия к устройствам мобильной связи. Например, методики, описываемые в данном документе, могут быть легко применены в других устройствах и системах, например, в системах интерфейса «человек-машина» ноутбука или настольных компьютеров, автомобильных навигационных системах, и т.д. Такие альтернативные приложения рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0021] На Фиг. 1 пользователь 110 осуществляет связь с устройством 120 мобильной связи, например, переносным интеллектуальным телефоном. Интеллектуальный телефон можно понимать как включающий в себя любое мобильное устройство, интегрирующее функции связи, такой как голосовой вызов и доступ к Интернет, с относительно сложным микропроцессором для реализации разнообразной массы вычислительных задач. Пользователь 110 может предоставлять ввод 122 речи в микрофон 124 в устройстве 120. Один или более процессоры 125 внутри устройства 120, и/или процессоры (не показано) доступные через сеть (например, реализующие схему облачных вычислений), могут обрабатывать сигнал речи, принятый посредством микрофона 124, например, выполняя функции, как дополнительно описывается со ссылкой на Фиг. 2 ниже. Отметим, что не требуется, чтобы процессор 125 имел любую конкретную форму, очертание, или функциональное разбиение, такое как описанное в данном документе лишь в примерных целях, и такие процессоры могут, в целом, быть реализованы, используя разнообразные методики известные в области техники.
[0022] На основании обработки, выполняемой посредством процессора 125, устройство 120 может генерировать вывод 126 речи, отвечающий на ввод 122 речи, используя аудио громкоговоритель 128. В некоторых сценариях, устройство 120 также может генерировать вывод 126 речи независимо от ввода 122 речи, например, устройство 120 может автономно предоставлять предупреждения или ретранслировать сообщения от других пользователей (не показано) к пользователю 110 в форме вывода 126 речи. В примерном варианте осуществления, вывод, отвечающий на ввод 122 речи, также может быть отображен на дисплее 129 устройства 120, например, в качестве текста, графики, анимации, и т.д.
[0023] Фиг. 2 иллюстрирует примерный вариант осуществления интерактивной диалоговой системы 200, которая может быть реализована посредством процессора 125 и других элементов устройства 120. Отметим, что обработка, показанная на Фиг. 2, служит лишь в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любой конкретной последовательностью или набором операций, показанных на Фиг. 2. Например, в альтернативных примерных вариантах осуществления, некоторые методики, раскрываемые в данном документе для выбора кода типа эмоции, могут быть применены независимо от обработки, показанной на Фиг. 2. Кроме того, один или более блоки, показанные на Фиг. 2, могут быть объединены или опущены в зависимости от конкретного функционального разбиения в системе, и, вследствие этого, Фиг. 2 не предполагает любой функциональной зависимости или независимости показанных блоков. Такие альтернативные примерные варианты осуществления считаются находящимися в рамках объема настоящего раскрытия.
[0024] На Фиг. 2, в блоке 210, принимается ввод речи. Ввод 210 речи может соответствовать представлению в форме волны акустического сигнала, извлекаемого из, например, микрофона 124 в устройстве 120. Вывод 210a ввода 210 речи может соответствовать оцифрованной версии акустической формы волны, содержащей содержимое речи.
[0025] В блоке 220, распознавание речи выполняется над выводом 210a. В примерном варианте осуществления, распознавание речи 220 переводит речь, такую как присутствующую в выводе 210a, в текст. Вывод 220a распознавания 220 речи может соответственно соответствовать текстовому представлению речи, присутствующей в оцифрованном акустическом в форме волны выводе 210a. Например, если вывод 210a включает в себя аудио в форме волны представление фрагмента речи человека такой, как «Какая погода будет завтра?», например, как собранная посредством микрофона 124, тогда распознавание 220 речи может выводить текст ASCII (или другое представление текста), соответствующий тексту «Какая погода будет завтра?» на основании его возможностей распознавания речи. Распознавание речи, как выполняемое посредством блока 220, может быть выполнено, используя методики акустического моделирования и языкового моделирования, включающие в себя, например, Скрытые Марковские Модели (HMM), нейронные сети, и т.д.
[0026] В блоке 230, понимание языка выполняется над выводом 220a распознавания 220 речи, на основании знаний ожидаемого естественного языка у вывода 210a. В примерном варианте осуществления, методики понимания естественного языка, такие как синтаксический анализ и грамматический анализ, могут быть выполнены, используя знание, например, морфологии и синтаксиса, для извлечения предполагаемого смысла текста в выводе 220a. Вывод 230a понимания 230 языка, может включать в себя формальное представление семантического и/или эмоционального содержимого речи, присутствующей в выводе 220a.
[0027] В блоке 240, диалоговая машина генерирует пригодный ответ на речь, как определенный из вывода 230a. Например, если понимание 230 языка определяет, что ввод речи пользователя соответствует запросу о погоде применительно к конкретной географии, тогда диалоговая машина 240 может получать и компоновать требуемую информацию о погоде из источников, например, услуги или базы данных прогноза погоды. Например, извлекаемая информация о погоде может соответствовать коду времени/даты для прогноза погоды, коду типа погоды, соответствующему «солнечной» погоде, и температурному полю, указывающему среднюю температуру в 72 градуса.
[0028] В примерном варианте осуществления, диалоговая машина 240 может дополнительно «упаковывать» извлеченную информацию так, что она может быть представлена для свободного понимания пользователем. Соответственно, вывод 240a семантического содержимого диалоговой машины 240 может соответствовать представлению семантического содержимого, такого как «солнечная погода сегодня; температура 72 градуса».
[0029] В дополнение к семантическому содержимому 240a, диалоговая машина может дополнительно генерировать код 240b типа эмоции, ассоциированный с семантическим содержимым 240a. Код 240b типа эмоции может указывать конкретный тип эмоционального содержимого, чтобы придавать семантическому содержимому 240a, при доставке пользователю в качестве речи вывода. Например, если пользователь планирует пикник на некоторый день, тогда солнечный прогноз погоды может быть одновременно доставлен с помощью эмоционально приподнятого тона голоса. В данном случае, код 240b тип эмоции может относиться к типу эмоционального содержимого, соответствующему «умеренное счастье». Методики для генерирования кода 240b типа эмоции по данным, фактам, и вводам, доступным для интерактивной диалоговой системы 200, будут дополнительно описаны ниже, например, со ссылкой на Фиг. 3.
[0030] В блоке 250, генерирование языка выполняется по выводам 240a, 240b диалоговой машины 240. Генерирование языка представляет вывод диалоговой машины 240 в формате естественного языка, например, в качестве предложений на целевом языке, подчиняющихся лексическим и грамматическим правилам, для свободного понимания пользователем-человеком. Например, на основании семантического содержимого 240a, генерирование 250 языка может генерировать следующее высказывание: «Сегодня погода будет 72 градуса и солнечной».
[0031] В примерном варианте осуществления, блок 250 может дополнительно осуществлять принятие ввода 255a от блока 255 индивидуальности системы. Блок 255 индивидуальности системы может указывать параметры 255a по умолчанию для диалоговой машины в соответствии с предварительно выбранной «индивидуальностью» для интерактивной диалоговой системы. Например, если индивидуальность системы выбрана, чтобы соответствовать «мужскому полу» или «женскому полу», или «веселому» или «задумчивому», тогда блок 255 может указывать параметры, соответствующие индивидуальности системы в качестве опорного ввода 255a. Отметим, что в некоторых примерных вариантах осуществления, блок 255 может быть опущен, или его функциональность может быть включена в другие блоки, например, диалоговую машину 240 или блок 250 генерирования языка, и такие альтернативные примерные варианты осуществления рассматриваются, как находящиеся в рамках объема настоящего раскрытия.
[0032] В примерном варианте осуществления, блок 250 генерирования языка может объединять семантическое содержимое 240a, код 240b типа эмоции, и эмоциональные параметры 255a по умолчанию, чтобы синтезировать высказывание 250a вывода. Например, код 240b типа эмоции, соответствующий «умеренному счастью», может предписывать блоку 250 генерировать предложение естественного языка (например, Английского), такое как «Хорошие новости - сегодня погода будет 72 градуса и солнечной!» Высказывание 250a вывода блока 250 генерирования языка предоставляется последующему блоку 260 текста-в-речь, чтобы генерировать аудио речь, соответствующую высказыванию 250a вывода.
[0033] Отметим, что в некоторых примерных вариантах осуществления, некоторая функциональность блока 250 генерирования языка, описанная выше, может быть опущена. Например, блоку 250 генерирования языка не требуется в частности учитывать код 240b типа эмоция при генерировании высказывания 250a вывода, и вместо этого на блок 260 текст-в-речь (который также имеет доступ к коду 240b типа эмоции) может быть возложено предоставление полного эмоционального содержимого синтезированного вывода речи. Кроме того, в некоторых случаях, где информация, извлекаемая посредством диалоговой машины, уже присутствует в формате естественного языка, тогда можно эффективно обходить блок 250 генерирования языка. Например, услуга погоды Интернет, к которой осуществляется доступ посредством диалоговой машины 240, может предоставлять обновления погоды непосредственно на естественном языке, таком как Английский, так что генерированию 250 языка может не требоваться выполнять любую существенную пост-обработку над сематическим содержимым 240a. Такие альтернативные примерные варианты осуществления рассматриваются, как находящиеся в рамках объема настоящего раскрытия.
[0034] В блоке 260, преобразование текст-в-речь выполняется над выводом 250a генерирования 250 языка. В примерном варианте осуществления, код 240b типа эмоции также предоставляется блоку 260 TTS, чтобы синтезировать речь с текстовым содержимым, соответствующим 250a, и эмоциональным содержимым, соответствующим коду 240b типа эмоции. Выводом преобразования 260 текст-в-речь может быть аудио в форме волны.
[0035] В блоке 270, акустический вывод генерируется из вывода преобразования 260 текст-в-речь. Вывод речи может быть предоставлен слушателю, например, пользователю 110 на Фиг. 1, посредством громкоговорителя 128 устройства 120.
[0036] Поскольку интерактивные диалоговые системы становятся все более сложными, было бы желательным предоставить методики для эффективного выбора пригодных кодов типа эмоции для речи и других типов вывода, генерируемого посредством таких систем. Например, как предлагается посредством предоставления кода 240b типа эмоции наряду с семантическим содержимым 240a, в некоторых приложениях применительно к выводу 270 речи желательно, чтобы он генерировался не только в качестве эмоционально нейтрального рендеринга речи, но также, чтобы он включал предварительно указанное эмоциональное содержимое при доставке слушателю. Таким образом, высказывание 250a вывода может быть ассоциировано с пригодным кодом 240b типа эмоции так, что пользователь 110 будет воспринимать соответствующее эмоциональное содержимое, которое должно присутствовать в выводе 270 речи.
[0037] Например, если диалоговая машина 240 указывает, что семантическое содержимое 240a соответствует информации о том, что некоторая бейсбольная команда выиграла Мировую Серию, и пользователь 110 дополнительно является поклонником той бейсбольной команды, тогда выбор кода 240b типа эмоции, чтобы представлять «возбужденный» (в противоположность, например, нейтральному или несчастливому), чтобы совпадать с эмоциональным состоянием пользователя, вероятно приведет к более удовлетворяющему интерактивному восприятию для пользователя 110.
[0038] Фиг. 3 иллюстрирует примерный вариант осуществления 240.1 обработки, выполняемой посредством диалоговой машины 240, чтобы генерировать соответствующее семантическое содержимое, как впрочем, и ассоциированный код типа эмоции. Отметим, что Фиг. 3 показана лишь в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным приложением методик, описываемых в данном документе.
[0039] На Фиг. 3, диалоговая машина 240.1 включает в себя блок 310 генерирования семантического содержимого и блок 320 классификации типа эмоции, также именуемый в данном документе «блоком классификации». Как блоку 310, так и блоку 320 предоставляется ввод 230a диалога пользователя, который может включать в себя вывод понимания 230 языка, выполненного над одним или более высказываниями или запросами посредством пользователя 110 в текущем или любом предыдущем диалоговом сеансе. В частности, блок 310 генерирования семантического содержимого генерирует семантическое содержимое 240.1a, соответствующее информации, которая должна быть доставлена пользователю, в то время как блок 320 классификации типа эмоции генерирует соответствующий тип эмоции, представленный посредством кода 240.1b типа эмоции, который должен быть придан семантическому содержимому 240.1a. Отметим, что ввод 230a диалога пользователя может быть понят, как включающий в себя любые или все из вводов пользователя из текущего или предыдущего диалоговых сеансов, например, как хранящиеся в файлах истории на локальном устройстве памяти, и т.д.
[0040] В дополнение к вводу 230a диалога пользователя, блоку 320 дополнительно предоставляются вводы 301 «факта или профиля», которые могут включать в себя параметры, извлеченные из использования устройства, на котором реализуется диалоговая машина 240.1. Блок 320 классификации типа эмоции может генерировать соответствующий код 240.1b типа эмоции на основании сочетания вводов 301 факта и профиля и ввода 230a диалога пользователя в соответствии с одним или более алгоритмами, например, с параметрами, полученных посредством обучения в режиме офлайн в соответствии с методиками машинного обучения, которые дополнительно раскрываются ниже. В примерном варианте осуществления, код 240.1 типа эмоции может включать в себя спецификацию как эмоции (например, «счастливый», и т.д.), так впрочем и индикатор степени, указывающий степень, в которой демонстрируется та эмоция (например, число от 1-5, с 5, указывающим «очень счастливый»). В примерном варианте осуществления, код 240.1b типа эмоции может быть выражен в формате, таком как указанный на Языке Разметки Эмоции (EmotionML) для указания одного из множества предварительно определенных типов эмоции, который может быть придан речи вывода.
[0041] Отмечается, что текущая тенденция современных потребительских устройств, таких как интеллектуальные телефоны, состоит в том, что они все чаще берут на себя роль незаменимых персональных помощников, интегрирующих разнообразный набор функций в едином мобильном устройстве, которое пользователь носит часто, и частенько постоянно. Повторное использование такого устройства одним пользователем для широкого многообразия целей (например, голосовых связей, доступа к Интернету, планирования расписания, отдыха, и т.д.) обеспечивает потенциальный доступ посредством интерактивной диалоговой системы 200 к большому количеству существенных данных для выбора кода 240.1b типа эмоции. Например, если услуги местоположения доступны для интеллектуального телефона, тогда данные, касающиеся географического места действия пользователя с периодом времени, могут быть использованы, чтобы подразумевать некоторые географические предпочтения пользователя, например, который является поклонником местной спортивной команды, или склонности к посещению новых ресторанов в некоторой зоне, и т.д. Другие примеры сценариев использования, генерирующих существенные данные, включают в себя, но не ограничиваются, осуществление доступа к Интернету, используя интеллектуальный телефон, чтобы выполнять поиски темы или ключевого слова, планирование дат или встреч календаря, установку профилей пользователя во время инициализации устройства, и т.д. Такие данные могут совокупно использоваться диалоговой системой, чтобы осуществлять доступ к соответствующему коду 240.1b типа эмоции, чтобы придавать его семантическому содержимому 240.1a во время интерактивного диалогового сеанса с пользователем 110. С учетом таких сценариев использования, в частности преимущественным является извлечение, по меньшей мере, одного или даже нескольких вводов 301 факта или профиля из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.
[0042] Фиг. 4 иллюстрирует примерный вариант осуществления 320.1 блока классификации типа эмоции в соответствии с настоящим раскрытием. На Фиг. 4, примерные вводы 301.1 факта или профиля, которые могут быть получены посредством устройства 120, включают в себя множество параметров 402-422 факта или профиля, выбираемых проектировщиком системы в качестве существенных для задачи классификации типа эмоции. Отметим, что примерные вводы 301.1 факта или профиля приводятся лишь в иллюстративных целях. В альтернативных примерных вариантах осуществления, любые из индивидуальных параметров вводов 301.1 факта или профиля могут быть опущены, и/или могут быть добавлены другие параметры, не показанные на Фиг. 4. Не требуется, чтобы параметры 402-422 описывали непересекающиеся классы параметров, т.е. один тип ввода, используемого блоком 320.1 классификации типов эмоции, может одновременно попадать в две или более категории вводов 402-422. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0043] Конфигурация 402 пользователя включает в себя информацию, которая непосредственно вводится пользователем 110 в устройство 120, которая способствует классификации типа эмоции. В примерном варианте осуществления, во время настройки устройства 120, или, как правило, во время работы устройства 120, у пользователя 110 может быть запрошено ответить на ряд вопросов профиля. Например, пользователю 110 может быть предоставлен запрос касательно возраста и пола, увлечений, интересов, любимых фильмов, видов спорта, черт характера, и т.д. В некоторых случаях, информацию касательно черт характера пользователя (например, экстраверт или интроверт, доминирующий или покорный, и т.д.) можно предположить, задав вопросы из анкеты опроса о личности. Информация из конфигурации 402 пользователя может быть сохранена для дальнейшего использования блоком 320.1 классификации типа эмоции для выбора кода 240.1 типа эмоции.
[0044] Онлайновая активность 404 пользователя включает в себя статистику использования Интернет и/или содержимое данных, передаваемых к и из Интернет или других сетей через устройство 120. В примерном варианте осуществления, онлайновая активность 404 может включать в себя поисковые запросы пользователя, например, как подаваемые веб-поисковой машине через устройство 120. Может отмечаться содержимое поисковых запросов пользователя, как, впрочем, и другая статистика, такая как частота и/или хронометрах сходных запросов и т.д. В примерном варианте осуществления, онлайновая активность 404 может дополнительно включать в себя идентификационные данные часто посещаемых веб-сайтов, содержимое сообщения электронной почты, размещение сообщений на веб-сайтах социальных сетей, и т.д.
[0045] Связь 406 пользователя включает в себя текстовую или голосовую связь, которая проводится, используя устройство 120. Такая связь может включать в себя, например, текстовые сообщения, отправленные через услугу коротких сообщений (SMS), голосовые вызовы через беспроводную сеть, и т.д. Связь 406 пользователя также может включать в себя обмен сообщениями в собственных или сторонних социальных сетях, например, веб-сайтах Интернет, доступ к которым осуществляет пользователь 110, используя устройство 120, или приложения мгновенного обмена сообщениями или чата.
[0046] Местоположение 408 пользователя может включать в себя записи местоположения пользователя, доступные устройству 120, например, через беспроводную связь с помощью одной или более сотовых базовых станций, или основанные на Интернет услуги местоположения, если такие услуги задействованы. Местоположение 408 пользователя может дополнительно указывать контекст местоположения пользователя, например, если пользователь находится дома или на работе, в автомобиле, в переполненной среде, на собрании, и т.д.
[0047] Календарь/функции планирования/локальная дата и время 410 могут включать в себя информацию о времени в качестве существенной для классификации эмоции на основании расписания активностей пользователя. Например, такая информация может базироваться на использовании устройства 120 пользователем 110 в качестве персонального средства организации планирования. В примерном варианте осуществления, тот факт, является ли сегмент времени в календаре пользователя доступным или недоступным, может быть существенным для классификации типа эмоции. Кроме того, природа предстоящей встречи, например, запланированных каникул или важного делового собрания, также может быть существенным.
[0048] Календарь/функции планирования/локальная дата и время 410 могут дополнительно включать информацию, такую как пересекается ли определенное время с рабочими часами пользователя, или соответствует ли текущая дата выходным дням, и т.д.
[0049] Эмоциональное состояние 412 пользователя включает в себя данные, которые относятся к определению эмоциональному состоянию пользователя в режиме реального время. Такие данные могут включать в себя содержимое фрагментов речи пользователя для диалоговой системы, как впрочем и параметры голоса, психологические сигналы, и т.д. Технология распознавания эмоции может дополнительно быть использована, чтобы подразумевать эмоции пользователя посредством регистрации, например, речи пользователя, выражения лица, последних текстовых сообщений, которые были сообщены к и от устройства 120, физиологические знаки, включая температуру тела и частоту сердцебиения, и т.д., как регистрируемые посредством разнообразных датчиков (например, вводов 420 физического датчика) на устройстве 120.
[0050] Статистика 414 использования устройства включает в себя информацию касательно того, насколько часто пользователь 110 использует устройство 120, насколько долго пользователь использовал устройство 120, для каких целей, и т.д. В примерном варианте осуществления, количество раз и частота взаимодействий пользователя с устройством 120 на протяжении дня могут быть записаны, как, впрочем, и использованные приложения, или посещенные веб-сайты, во время этих взаимодействий.
[0051] Онлайновые информационные ресурсы 416 могут включать в себя новости или события, которые относятся к интересам пользователя, как полученные из онлайновых информационных источников. Например, на основании определения того, что пользователь 110 является поклонником спортивной команды, тогда онлайновые информационные ресурсы 416 могут включать в себя новости о том, что та спортивная команда недавно выиграла игру. В качестве альтернативы, если пользователь 110 определяется как имеющий предпочтение в отношении некоторого типа кухни, например, тогда онлайновые информационные ресурсы 416 могут включать в себя новости о том, что новый ресторан того типа только что открылся рядом с домом пользователя.
[0052] Индивидуальность 418 цифрового помощника (DA) может указывать профиль индивидуальности для диалоговой системы так, что взаимодействие с диалоговой системой посредством пользователя более точно имитирует взаимодействие с помощником-человеком. Профиль индивидуальности DA может указывать, например, является ли DA экстравертом или интровертом, доминирующим или покорным, или пол DA. Например, индивидуальность 418 DA может указывать профиль, соответствующий женской, веселой индивидуальности, для цифрового помощника. Отметим, что данное свойство может быть предоставлено альтернативно, или в связи с, блоком 255 индивидуальности системы, как описано выше со ссылкой на Фиг. 2.
[0053] Вводы 420 физического датчика могут включать в себя сигналы, извлекаемые из датчиков на устройстве 120 для регистрации физических параметров устройства 120. Например, вводы 420 физического датчика могут включать в себя сигналы датчика от акселерометров и/или гироскопов в устройстве 120, например, для определения, идет ли в настоящий момент пользователь 110 или находится в автомобиле, и т.д. Знание текущей ситуации мобильности пользователя может предоставлять информацию для блока 320.1 классификации типа эмоции, содействующую генерированию должного эмоционального ответа. Вводы 420 физического датчика также могут включать в себя сигналы датчика от микрофонов или других акустических записывающих устройств в устройстве 120, например, чтобы подразумевать характеристики среды на основании фонового шума, и т.д.
[0054] История 422 беседы может включать в себя любые записи настоящей и прошлой бесед между пользователем и цифровым помощником.
[0055] Вводы 301.1 факта или профиля, наряду с вводом 230a диалога пользователя, могут быть предоставлены в качестве ввода в алгоритм 450 классификации типа эмоции блока 320.1 классификации типа эмоции. Алгоритм 450 классификации типа эмоции может соотносить многомерный вектор, указываемый посредством конкретных вводов 301.1 факта или профиля и ввод 230a диалога пользователя, с конкретным определением вывода кода 240.1b типа эмоции, например, указывая должный тип эмоции и соответствующую степень той эмоции.
[0056] Фиг. 5 иллюстрирует примерный вариант осуществления 450.1 гибридного алгоритма классификации типа эмоции. Отметим, что Фиг. 5 показана только для иллюстративных целей, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным типом показанного алгоритма.
[0057] На Фиг. 5, алгоритм 450.1 классификации типа эмоции включает в себя блок 510 выбора алгоритма для выбора, по меньшей мере, одного алгоритма, который должен быть использован для выбора типа эмоции. В примерном варианте осуществления, по меньшей мере, один алгоритм включает в себя основанные на правилах алгоритмы 512 и обучаемые алгоритмы 514. Основанные на правилах алгоритмы 512 могут соответствовать алгоритмам, указанным проектировщиками диалоговой системы, и могут, как правило, быть основаны на фундаментальных обоснованиях, которые выявляются проектировщиками для назначения заданного типа эмоции конкретным сценариям, фактам, профилям, и/или вводам диалога пользователя. Обучаемые алгоритмы 514, с другой стороны, могут соответствовать алгоритмам, параметры и функциональные соотнесения которых извлекаются, например, офлайн, из больших наборов обучающих данных. Следует иметь в виду, что взаимосвязи между входами и выходами в обучаемых алгоритмах 514 могут быть менее прозрачны для проектировщика системы, чем в основанных на правилах алгоритмах 512, и обучаемые алгоритмы 514 могут, как правило, захватывать более сложные взаимные зависимости среди переменных, как определяется из обучения алгоритма.
[0058] Как видно на Фиг. 5, как основанные на правилах алгоритмы 512, так и обучаемые алгоритмы 514 могут осуществлять принятие в качестве вводов вводов 301.1 факта или профиля и ввода 230a диалога пользователя. Блок 510 выбора алгоритма может выбирать должный один из алгоритмов 512 или 514, чтобы использовать для выбора кода 240.1b типа эмоции в любом случае. Например, в ответ на вводы 301.1 факта или профиля и/или ввод 230a диалога пользователя, соответствующие предварительно определенному набору значений, блок 510 выбора может выбирать реализацию конкретного основанного на правилах алгоритма 512 вместо обучаемого алгоритма 514, или наоборот. В примерном варианте осуществления основанные на правилах алгоритмы 512 могут быть предпочтительными в некоторых случаях над обучаемыми алгоритмами 514, например, если их исполнение, основанное на фундаментальных обоснованиях, может приводить к более точной классификации типа эмоции в некоторых случаях. Основанные на правилах алгоритмы 512 также могут быть предпочтительными в некоторых сценариях, в которых, например, отсутствуют достаточные обучающие данные, доступные для исполнения некоторого типа обучаемого алгоритма 514. В примерном варианте осуществления основанные на правилах алгоритмы 512 могут быть выбраны, когда для проектировщика является относительно простым извлечение ожидаемого ответа на основании конкретного набора вводов.
[0059] Фиг. 6 иллюстрирует примерный вариант осуществления 600 основанного на правилах алгоритма. Отметим, что Фиг. 6 показана только для иллюстративных целей, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия основанными на правилах алгоритмами, любой конкретной реализацией основанных на правилах алгоритмов, или любым конкретным форматом или содержимым для показанных вводов 301.1 факта и профиля или типов 240b эмоции.
[0060] На Фиг. 6, в блоке 610 принятия решения, определяется, является ли эмоциональное состояние 412 пользователя «Счастливым». Если нет, алгоритм переходит к блоку 612, который устанавливает код 240b типа эмоции в «Нейтральный». Если да, алгоритм переходит к блоку 620 принятия решения.
[0061] В блоке 620 принятия решения, дополнительно определяется, является ли параметр 402.1 индивидуальности конфигурации 402 пользователя «Экстравертом». Если нет, тогда алгоритм переходит к блоку 622, который устанавливает код 240b типа эмоции в «Заинтересованный(1)», обозначающий тип эмоции «Заинтересованный» со степенью 1. Если да, алгоритм переходит к блоку 630, который устанавливает код 240b типа эмоции в «Счастливый(3)».
[0062] Следует иметь в виду, что основанный на правилах алгоритм 600 выборочно устанавливает код 240b типа эмоции на основании индивидуальности пользователя, в предположении, что экстровертированный пользователь будет больше привлечен диалоговой системой, демонстрирующей более приподнятый или «более счастливый» тип эмоции. Основанный на правилах алгоритм 600 дополнительно устанавливает код 240b типа эмоции на основании текущего эмоционального состояния пользователя, в предположении, что в настоящий момент счастливый пользователь будет реагировать более позитивно на систему с типом эмоции, который также счастливый. В альтернативных примерных вариантах осуществления, другие основанные на правилах алгоритмы, в явной форме не описанные в данном документе, могут легко быть исполнены, чтобы связывать код 240b типа эмоции с другими параметрами и значениями вводов 301.1 факта или профиля.
[0063] Как иллюстрируется посредством алгоритма 600, определению кода 240b типа эмоции не требуется всегда использовать все доступные параметры в вводах 301.1 факта или профиля и вводе 230a диалога пользователя. В частности, алгоритм 600 использует только эмоциональное состояние 412 пользователя и конфигурацию 402 пользователя. Такие примерные варианты осуществления алгоритмов, использующие любое подмножество доступных параметров, как, впрочем, и альтернативные примерные варианты осуществления алгоритмов, использующих параметры, которые явным образом не описаны в данном документе, рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0064] Фиг. 7 иллюстрирует альтернативный примерный вариант 700 осуществления основанного на правилах алгоритма. На Фиг. 7, в блоке 710 принятия решения, определяется, соответствует ли ввод 230a диалога пользователя запросу пользователя в отношении обновленных новостей. Если да, тогда алгоритм переходит к блоку 720 принятия решения.
[0065] В блоке 720 принятия решения определяется, является ли эмоциональное состояние 412 пользователя «Счастливым», и дополнительно, указывают ли онлайновые информационные ресурсы 416, что любимая спортивная команда пользователя, только что выиграла игру. В примерном варианте осуществления, сама по себе любимая спортивная команда пользователя может быть извлечена из других параметров вводов 301.1 факта или профиля, например, из конфигурации 402 пользователя, онлайновой активности 404 пользователя, календаря/функций 410 планирования, и т.д. Если выводом блока 720 принятия решения является да, тогда алгоритм переходит к блоку 730, где код 240b типа эмоции устанавливается в «Возбужденный(3)».
[0066] В дополнение к основанным на правилах алгоритмам для выбора кода 240b типа эмоции, алгоритм 450.1 классификации типа эмоции может в качестве альтернативы или совместно использовать обучаемые алгоритмы. Фиг. 8 иллюстрирует примерный вариант осуществления 800 обучающей схемы для извлечения обучаемого алгоритма для выбора типа эмоции. Отметим, что Фиг. 8 показана только в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любыми конкретными методиками для обучения алгоритмов для выбора типа эмоции.
[0067] На Фиг. 8, во время фазы 801 обучения, блоку 810 обучения алгоритма предоставляются вводы, включающие в себя ряд или множество опорных вводов 301.1* факта или профиля, соответствующие ряду опорных предшествующих вводов 230* пользователя, и соответствующий ряд опорных кодов 240.1b* типа эмоции. Отметим, что параметр x, заключенный в фигурные скобки {x}, обозначает в данном документе множество или ряд объектов x. В частности, каждый опорный ввод 301.1* факта или профиля соответствует конкретной комбинации установок для вводов 301.1 факта или профиля.
[0068] Например, один примерный опорный ввод 301.1* факта или профиля может указывать на то, что конфигурация 402 пользователя включает в себя «экстровертированный» тип индивидуальности, онлайновая активность 404 пользователя включает в себя несколько экземпляров онлайновых поисков фразы «Морские Ястребы», местоположение 408 пользователя соответствует «Сиэтл» в качестве города проживания, и т.д. Соответствуя данному опорному вводу 301.1* факта или профиля, опорный ввод 230a* диалога пользователя может включать в себя запрос пользователя касательно последних новостей спорта. В альтернативном случае, опорным вводом 230a* диалога пользователя, соответствующим данному опорному вводу 301.1* факта или профиля, может быть пустая (NULL) строка, указывающая отсутствующий предыдущий ввод пользователя. На основании данной примерной комбинации опорного ввода 301.1* факта или профиля и соответствующего опорного ввода 230a* диалога пользователя, опорный код 240.1b* типа эмоции может быть указан блоку 810 обучения алгоритма во время фазы 801 обучения.
[0069] В примерном варианте осуществления, должный опорный код 240.1b* типа эмоции для конкретных установок опорного ввода 301.1* факта или профиля и ввода 230a* диалога пользователя может быть предоставлен людьми-комментаторами или людьми-экспертами. Этим людям-комментаторам могут быть представлены индивидуальные комбинации опорных вводов факта или профиля и опорных вводов пользователя во время фазы 801 обучения, и они могут комментировать каждую комбинацию пригодным типом эмоции, отвечающим ситуации. Данный процесс может повторяться, используя много людей-комментаторов и много комбинаций опорных вводов факта или профиля и предыдущих вводов пользователя, так что большой объем данных обучения становится доступен блоку 810 обучения алгоритма. На основании обучающих данных и опорных комментариев типа эмоции, оптимальный набор параметров 810a обучаемого алгоритма может быть извлечен для обучаемого алгоритма, который наиболее точно соотносит заданную комбинацию опорных вводов с опорным выводом.
[0070] В примерном варианте осуществления, человек-комментатор может обладать некоторыми характеристиками, которые сходны или идентичны соответствующим характеристикам индивидуальности цифрового помощника. Например, человек-комментатор может иметь тот же самый пол или тип индивидуальности как и сконфигурированные характеристики цифрового помощника, как обозначено, например, индивидуальностью 255 системы и/или индивидуальностью 418 цифрового помощника.
[0071] Блок 810 обучения алгоритма выполнен с возможностью, в ответ на несколько поставляемых экземпляров опорного ввода 301.1* факта или профиля, ввода 230a* диалога пользователя, и опорного кода 240.1b* типа эмоции, извлечения набора параметров алгоритма, например, весовых коэффициентов, структур, коэффициентов, и т.д., которые оптимально соотносят каждую комбинацию вводов с подаваемым опорным типом эмоции. В примерном варианте осуществления, могут быть использованы методики из машинного обучения, например, контролируемое обучение, которое оптимально извлекает общее правило для соотнесения вводов с выводами. Блок 810 обучения алгоритма соответственно генерирует оптимальный набор параметров 810a обучаемого алгоритма, который предоставляется примерному варианту осуществления 514.1 блока 514 обучаемого алгоритма, такого как показанный на Фиг. 5. В частности, блок 514.1 выбирает тип 240.1b эмоции во время операции 802 в режиме реального времени в соответствии с параметрами 810a обучаемого алгоритма.
[0072] Дополнительно ниже предоставляется иллюстративное описание примерного приложения методик настоящего раскрытия. Отметим, что пример приведен только в иллюстративных целях, и не предназначен для того, чтобы ограничивать объем настоящего раскрытия любыми конкретными наборами или типами вводов факта или профиля, ответов системы, или сценариев.
[0073] Марк является поклонником футбола. Он всегда обращает внимание на новости касательно Национальной Футбольной Лиги (NFL). Будучи жителем Сиэтла, его любимой командой являются Сиэтлские Морские Ястребы. Каждое Воскресенье, Марк смотрит матчи по футболу онлайн при помощи своего интеллектуального телефона, и обсуждает игроков и команды со своими друзьями через онлайновые приложения чата. Он также делится своими активностями и интересами в приложениях социальных сетей. Несколько месяцев назад, когда Морские Ястребы победили Людей 49-ого в овертайме, он был очень возбужден и широко обсуждал победу на своей странице профиля в социальной сети.
[0074] В данный Понедельник, Морские Ястребы играют с Людьми 49-ого в Сан-Франциско в Ночном Футболе по Понедельникам. К сожалению, у Марка был ужин с клиентом, и он пропустил игру. Ужин был важной встречей для Марка, так как он собирался закрыть сделку. Оказалось, что встреча прошла очень хорошо, и предложение Марка было принято клиентом. После ужина, когда Марк вел автомобиль к своему дому, он активировал интерактивную диалоговую систему (или цифрового помощника DA) на своем интеллектуальном телефоне для участия в голосовой беседе в режиме реального времени.
[0075] Марк: «Эй, это был отличный ужин! Я скрепил сделку. Думаю, Дону (начальник Марка) это понравится.»
[0076] Цифровой Помощник (приподнятым тоном голоса»: «Отлично! Приятно слышать!». (Ответ 1 DA).
[0077] Марк: «Итак, как насчет Морских Ястребов? Расскажи мне!»
[0078] Цифровой Помощник (возбужденным тоном голоса): «Угадай, твои Морские Ястребы победили! Они обыграли Людей 49-ого 30 на 25. Рассел Вилсон отдал два пасса с тачдауном в четвертой четверти». (Ответ 2 DA).
[0079] Марк: «Ух ты, здорово. Мне жаль, что я пропустил эту игру. Я думаю, что они вновь выйдут в плей-офф в этом году!»
[0080] Цифровой Помощник (продолжая возбужденным тоном голоса, чуть более сдержано): «Да! Я должен просто заблокировать Ваш календарь на время плей-офф! Я не думаю, что вы хотели бы пропустить это!» (Ответ 3 DA).
[0081] Предшествующий результат иллюстрирует несколько аспектов методик настоящего раскрытия. В частности, интерактивная диалоговая система знает, что Марк является поклонником футбола, и также поклонником Морских Ястребов. Он получает данную информацию из, например, явных установок, сконфигурированных Марком в своем цифровом помощнике, указывающих, что Марк желает отслеживать футбольные новости, и также что его любимой командой являются Морские Ястребы. Из онлайновых информационных источников, DA также осведомлен о том, что Морские Ястребы играли этой ночью против их команды-соперника, Людей 49-го из Сан-Франциско, и что в результате Морские Ястребы их победили. Это позволяет DA выбирать тип эмоции, соответствующий возбужденному тону голоса (Ответ 2 DA) при представлении Марку отчета о новости, что Морские Ястребы победили. Кроме того, на основании знания предпочтений Марка и его предшествующего ввода, DA выбирает возбужденный тон голоса, предлагая заблокировать время для Марка в его календаре (Ответ 3 DA).
[0082] Диалоговая система дополнительно обладает информацией касательно индивидуальности Марка, как извлеченной из, например, шаблона использования Марком его интеллектуального телефона (например, частота использования, время использования, и т.д.), персональных интересов и увлечений, как указанных Марком во время настройки его интеллектуального телефона, как, впрочем, и обновлений статуса его социальной сети. В данном примере, диалоговая система может определять, что Марк является экстравертом и добросовестным человеком на основании алгоритмов машинного обучения, разработанных для работы с большим количеством статистики, сгенерированной посредством шаблона использования Марком его телефона, чтобы подразумевать индивидуальность Марка.
[0083] Дополнительная информация извлекается из того факта, что Марк активировал систему DA около двух месяцев назад, и что он с того момента использует DA регулярно и с нарастающей частотой. В последнюю неделю, Марк взаимодействовал с DA в среднем 5 раз в день. В примерном варианте осуществления, некоторый алгоритм классификации типа эмоции может подразумевать растущую близость между Марком и DA из-за такой частоты взаимодействия.
[0084] DA дополнительно определяет текущее эмоциональное состояние Марка как счастливое по его голосу. По его использованию календаря/функции планирования на устройстве, DA знает, что сейчас нерабочие часы, и что Марк только что закончил встречу с его клиентом. Во время взаимодействия, DA идентифицирует, что Марк находится в его автомобиле, например, по созданию беспроводного соединения Bluetooth с электроникой автомобиля, по интервалам неподвижности, следующим за интервалами ходьбы, как определяемые акселерометром, по более низкому уровню фонового шума внутри автомобиля, по измеренной скорости перемещения, и т.д. Кроме того, по прошлым данным, таким как история данных местоположения, сопоставленных со статистикой времени дня, и т.д., предполагается, что Марк ведет автомобиль домой после ужина. Соответственно, посредством алгоритма классификации, такого как описанный со ссылкой на блок 450.1 на Фиг. 4, DA выбирает тип эмоции, соответствующий приподнятому тону голоса (Ответ 1 DA).
[0085] Фиг. 9 иллюстрирует примерный вариант осуществления способа 900 в соответствии с настоящим раскрытием. Отметим, что Фиг. 9 показана только в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным показанным способом.
[0086] На Фиг. 9, в блоке 910, способ включает в себя выбор, на основании, по меньшей мере, одного ввода факта или профиля, кода типа эмоции, ассоциированного с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции.
[0087] В блоке 920, способ включает в себя генерирование речи, соответствующей высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.
[0088] Фиг. 10 схематично показывает не ограничивающую вычислительную систему 1000, которая может выполнять один или более из описанных выше способов и процессов. Вычислительная система 1000 показана в упрощенной форме. Следует понимать, что виртуально любая компьютерная архитектура может быть использована, не отступая от объема данного раскрытия. В разных вариантах осуществления, вычислительная система 1000 может принимать форму компьютера класса мэйнфрейм, серверного компьютера, системы облачных вычислений, настольного компьютера, компьютера класса лэптоп, планшетного компьютера, домашнего развлекательного компьютера, сетевого вычислительного устройства, мобильного вычислительного устройства, устройства мобильной связи, интеллектуального телефона, игрового устройства, и т.д.
[0089] Вычислительная система 1000 включает в себя процессор 1010 и память 1020. Вычислительная система 1000 может опционально включать в себя подсистему дисплея, подсистему связи, подсистему датчика, подсистему камеры, и/или другие компоненты, не показанные на Фиг. 10. Вычислительная система 100 также может опционально включать в себя устройства ввода пользователя, такие как клавиатуры, мыши, игровые контроллеры, камеры, микрофоны, и/или сенсорные экраны, например.
[0090] Процессор 1010 может выключать в себя одно или более физические устройства, выполненные с возможностью исполнения одной или более инструкций. Например, процессор может быть выполнен с возможностью исполнения одной или более инструкций, которые являются частью одного или более приложений, услуг, программ, подпрограмм, библиотек, объектов, компонентов, структур данных, или других логических конструкций. Такие инструкции могут быть реализованы, чтобы выполнять задачу, реализовывать тип данных, преобразовывать состояние одного или более устройств, или иным образом достигать желаемого результата.
[0091] Процессор может включать в себя один или более процессоры, которые выполнены с возможностью исполнения инструкций программного обеспечения. Дополнительно или в качестве альтернативы, процессор может включать в себя одну или более машины аппаратной или встроенной программной логики, выполненные с возможностью исполнения аппаратных или встроенных программных инструкций. Процессоры у процессора могут быть одноядерными или многоядерными, и программы, исполняемые на них, могут быть сконфигурированы для параллельной или распределенной обработки. Процессор может опционально включать в себя индивидуальные компоненты, которые распределены по двум или более устройствам, которые могут удаленно располагаться и/или конфигурироваться для скоординированной обработки. Один или более аспекты процессора могут быть виртуализированы и исполняться посредством удаленно доступных сетевых вычислительных устройств, сконфигурированных в конфигурации облачных вычислений.
[0092] Память 1020 может включать в себя одно или более физические устройства, выполненные с возможностью удержания данных и/или инструкций, исполняемых посредством процессора, чтобы реализовывать способы и процессы, описываемые в данном документе. При реализации таких способов и процессов, может быть трансформировано состояние памяти 1020 (например, чтобы удерживать другие данные).
[0093] Память 1020 может включать в себя съемные носители информации и/или встроенные устройства. Память 1020 может включать в себя оптические устройства памяти (например, CD, DVD, HD-DVD, Blu-Ray Диск, и т.д.) полупроводниковые устройства памяти (например, RAM, EPROM, EEPROM, и т.д.), и/или магнитные устройства памяти (например, накопитель на жестком диске, накопитель на гибком диске, накопитель на ленте, MRAM, и т.д.), среди прочего. Память 1020 может включать в себя устройства с одной или более из следующих характеристик: энергозависимое, энергонезависимое, динамическое, статическое, чтения/записи, только чтения, произвольного доступа, последовательного доступа, с адресацией по ячейке, с адресацией по файлу, и с адресацией по контенту. В некоторых вариантах осуществления, процессор 1010 и память 1020 могут быть интегрированы в одном или более общих устройствах, таких как проблемно-ориентированная интегральная микросхема или система на кристалле.
[0094] Память 1020 также может принимать форму съемных машиночитаемых запоминающих носителей информации, которые могут быть использованы, чтобы хранить и/или переносить данные и/или инструкции, исполняемые чтобы реализовывать описываемые в данном документе способы и процессы. Память 1020 может принимать форму CD, DVD, HD-DVD, Blu-Ray Дисков, EEPROM, и/или гибких дисков, среди прочего.
[0095] Следует иметь в виду, что память 102 включает в себя одно или более физические устройства, которые хранят информацию. Понятия «модуль», «программа», и «машина» могут быть использованы, чтобы описывать аспект вычислительной системы 1000, который реализуется, чтобы выполнять одну или более конкретные функции. В некоторых случаях, такой модуль, программа, или машина, может быть создан через процессор 1010, исполняющий инструкции, удерживаемые памятью 1020. Следует понимать, что разные модули, программы, и/или машины могут быть созданы из одного и того же приложения, услуги, блока кода, объекта, библиотеки, подпрограммы, API, функции, и т.д. Подобным образом, один и тот же модуль, программа, и/или машина может быть создан посредством разных приложения, услуг, блоков кода, объектов, подпрограмм, API, функций, и т.д. Понятия «модуль», «программа», и «машина» должны охватывать индивидуальные или группы исполняемых файлов, файлов данных, библиотек, драйверов, сценариев, записей базы данных, и т.д.
[0096] В аспекте, вычислительная система 1000 может соответствовать вычислительному устройству, включающему в себя память 1020, удерживающую инструкции, исполняемые посредством процессора 1010, чтобы выбирать, на основании, по меньшей мере, одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Инструкции дополнительно являются исполняемыми посредством процессор 1010, чтобы генерировать речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему. Отметим, что будет пониматься, что такое вычислительное устройство соответствует процессу, машине, изделию, или композиции предмета.
[0097] Фиг. 11 иллюстрирует примерный вариант осуществления устройства 110 в соответствии с настоящим раскрытием. Отметим, что устройство 110 показано только в иллюстративных целях, и не предназначено для того, чтобы ограничивать объем настоящего раскрытия любым показанным конкурентным устройством.
[0098] На Фиг. 11, блок 120 классификации выполнен с возможностью выбора, на основании, по меньшей мере, одного ввода 1120b факта или профиля, кода 1120a типа эмоции, ассоциированного с высказыванием 1110a вывода. Код 1120a типа эмоции указывает один из множества предварительно определенных типов эмоции. Блок 1130 текста-в-речь выполнен с возможностью генерирования речи 1130a, соответствующей высказыванию 1110a вывод и предварительно определенному типу эмоции, указанному посредством кода 1120 типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод 1120b факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.
[0099] Отметим, что методики настоящего раскрытия не обязательно ограничиваются вариантами осуществления, включающими устройство мобильной связи. В альтернативных примерных вариантах осуществления, настоящие методики также могут быть включены в не-мобильные устройства, например, настольные компьютеры, домашние игровые системы, и т.д. Кроме того, устройства мобильной связи, включающие настоящие методики, не обязательно ограничиваются интеллектуальными телефонами, и также могут включать в себя носимые устройства, такие как компьютеризированные наручные часы, очки, и т.д. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0100] Фиг. 12 иллюстрирует примерный вариант осуществления 1200, в котором методики настоящего раскрытия включены в диалоговую систему с эмоциональным содержимым, которое придается отображаемому тексту, вместо или в дополнение к слышимой речи. Отметим, что блоки, показанные на Фиг. 12, соответствуют сходным образом помеченным блокам на Фиг. 2, и некоторые блоки, показанные на Фиг. 2, опущены на Фиг. 12 для простоты иллюстрации.
[0101] На Фиг. 12, вывод 250a блока 250 генерирования языка объединяется с кодом 240b типа эмоции, генерируемым посредством диалоговой машины 240, и выводится в блок 1260 текста в речь и/или текст для отображения. В аспекте текста в речь, блок 1260 генерирует речь с семантическим содержимым 240a и кодом 240b типа эмоции. В аспекте текста для отображения, блок 1260 в качестве альтернативы или дополнительно генерирует текст для отображения с семантическим содержимым 240a и кодом 240b типа эмоции. Следует иметь в виду, что код 240b типа эмоции может придавать эмоцию отображаемому тексту, используя такие методики, как, например, регулирование размера или шрифта символов отображаемого текста, предоставление эмотиконов (например, смайликов или других картинок), соответствующих коду 240b типа эмоции, и т.д. В примерном варианте осуществления, блок 1260 в качестве альтернативы или в дополнение генерирует основанную на эмоции анимацию или графические модификации для одного или более аватаров, представляющих DA или пользователя на дисплее. Например, если код 240b типа эмоции соответствует «грусти», тогда предварительно выбранный аватар, представляющий DA, может быть сгенерирован с предварительно сконфигурированным «грустным» выражением лица, или иным образом анимирован, чтобы выражать грусть через движение, например, плачущие действия. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.
[0102] В данном техническом описании и в формуле изобретения, следует понимать, что когда элемент упоминается как «соединенный с» ил «связанный с» другим элементом, он может быть непосредственно соединен или связан с другим элементом или могут присутствовать промежуточные элементы. В противоположность, когда элемент упоминается как «непосредственно соединенный с» или «непосредственно связанный с» другим элементом, то отсутствуют промежуточные элементы. Кроме того, когда элемент упоминается как «электрически связанный» с другим элементом, это обозначает, что путь низкого сопротивления присутствует между такими элементами, в то время когда элемент именуется как просто «связанный» с другим элементом, может быть или может не быть путь низкого сопротивления между такими элементами.
[0103] Функциональность, описанная в данном документе, может быть выполнена, по меньшей мере, частично посредством одного или более компонентов аппаратной и/или программной логики. Например, и без ограничения, иллюстрируемые типы компонентов аппаратной логики, которые могут быть использованы, включают в себя Программируемые Вентильные Матрицы (FPGA), Проблемно-ориентированные Интегральные Микросхемы (ASIC), Проблемно-ориентированные Стандартные Изделия (ASSP), системы вида Система-на-кристалле (SOC), Сложные Устройства с Программируемой Логикой (CPLD), и т.д.
[0104] Несмотря на то, что изобретение допускает разнообразные модификации или альтернативные конструкции, некоторые иллюстративные его варианты осуществления показаны на чертежах и были подробно описаны выше. Следует понимать, тем не менее, что отсутствует намерение ограничить изобретение конкретными раскрытыми формами, а наоборот, намерение состоит в том, чтобы охватить все модификации, альтернативные конструкции, и эквиваленты, лежащие в рамках сущности и объема изобретения.

Claims (21)

1. Устройство для интерактивной диалоговой системы (200), при этом устройство содержит:
блок (320) классификации, выполненный с возможностью выбора (910), на основании по меньшей мере одного ввода факта или профиля, кода типа эмоции, ассоциированного с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;
блок (250) генерирования языка, выполненный с возможностью генерирования высказывания вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и
блок (260) текста-в-речь, выполненный с возможностью генерирования (920) речи, соответствующей высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;
при этом упомянутый по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200) и выполненного с возможностью предоставления услуг голосового вызова и доступа к Интернету.
2. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля содержит по меньшей мере один параметр конфигурации пользователя, конфигурируемый пользователем, причем по меньшей мере один параметр конфигурации пользователя содержит по меньшей мере одно из следующего: увлечения, интересы, черты характера, любимые фильмы, любимые виды спорта и любимые типы кухни.
3. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере один параметр, извлеченный из онлайновой активности пользователя, используя устройство, причем по меньшей мере один параметр, извлеченный из онлайновой активности пользователя, содержит по меньшей мере одно из следующего: поисковые запросы в Интернет, посещенные веб-сайты Интернет, содержимое сообщений электронной почты и размещения сообщений на онлайновых веб-сайтах социальных сетей.
4. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере одно из следующего: местоположение пользователя, содержимое текстовой или голосовой связи пользователя и по меньшей мере одно событие, запланированное пользователем, используя функцию планирования календаря устройства.
5. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере одно из следующего: текущее эмоциональное состояние пользователя, статистику использования устройства, онлайновые информационные ресурсы и индивидуальность цифрового помощника.
6. Устройство по п. 1, в котором блок классификации выполнен с возможностью выбора кода типа эмоции, используя алгоритм, содержащий по меньшей мере одно функциональное соотнесение между множеством опорных вводов факта или профиля и соответствующим множеством опорных типов эмоции, причем по меньшей мере одно функциональное соотнесение извлекается по методикам машинного обучения.
7. Вычислительное устройство, включающее в себя процессор и память, удерживающую инструкции, исполняемые посредством процессора, чтобы:
выбирать (910), на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;
генерировать высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и
генерировать (920) речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;
при этом по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200).
8. Способ генерирования речи, содержащий этапы, на которых:
выбирают (910), на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;
генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и
генерируют (920) речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;
при этом по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200).
9. Способ по п.8, в котором упомянутый по меньшей мере один ввод факта или профиля содержит по меньшей мере одно из следующего: местоположение пользователя, параметр конфигурации пользователя, конфигурируемый пользователем, онлайновую активность пользователя, местоположение пользователя, содержимое текстовой или голосовой связи пользователя и по меньшей мере одно событие, запланированное пользователем, используя функцию планирования календаря.
RU2017119007A 2014-12-04 2015-12-02 Классификация типа эмоции для интерактивной диалоговой системы RU2705465C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/561,190 2014-12-04
US14/561,190 US9786299B2 (en) 2014-12-04 2014-12-04 Emotion type classification for interactive dialog system
PCT/US2015/063301 WO2016089929A1 (en) 2014-12-04 2015-12-02 Emotion type classification for interactive dialog system

Publications (3)

Publication Number Publication Date
RU2017119007A RU2017119007A (ru) 2018-12-03
RU2017119007A3 RU2017119007A3 (ru) 2019-06-19
RU2705465C2 true RU2705465C2 (ru) 2019-11-07

Family

ID=55025379

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017119007A RU2705465C2 (ru) 2014-12-04 2015-12-02 Классификация типа эмоции для интерактивной диалоговой системы

Country Status (11)

Country Link
US (2) US9786299B2 (ru)
EP (1) EP3227885A1 (ru)
JP (1) JP6803333B2 (ru)
KR (2) KR102457486B1 (ru)
CN (1) CN107003997A (ru)
AU (2) AU2015355097B2 (ru)
BR (1) BR112017010047B1 (ru)
CA (1) CA2967976C (ru)
MX (1) MX2017007317A (ru)
RU (1) RU2705465C2 (ru)
WO (1) WO2016089929A1 (ru)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US9722965B2 (en) * 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
WO2017108138A1 (en) * 2015-12-23 2017-06-29 Intel Corporation Biometric information for dialog system
US10489509B2 (en) * 2016-03-14 2019-11-26 International Business Machines Corporation Personality based sentiment analysis of textual information written in natural language
US10567312B2 (en) 2016-04-11 2020-02-18 Facebook, Inc. Techniques for messaging bot controls based on machine-learning user intent detection
US10831802B2 (en) * 2016-04-11 2020-11-10 Facebook, Inc. Techniques to respond to user requests using natural-language machine learning based on example conversations
JP6791669B2 (ja) * 2016-07-12 2020-11-25 Supership株式会社 情報処理装置及びプログラム
US10356029B2 (en) 2016-09-21 2019-07-16 Facebook, Inc. Methods and systems for presenting modules in an inbox interface
US11233760B2 (en) 2016-09-21 2022-01-25 Facebook, Inc. Module ranking for a modular inbox
WO2018060993A1 (en) * 2016-09-27 2018-04-05 Faception Ltd. Method and system for personality-weighted emotion analysis
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
CN106503805B (zh) * 2016-11-14 2019-01-29 合肥工业大学 一种基于机器学习的双模态人人对话情感分析方法
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US11016719B2 (en) 2016-12-30 2021-05-25 DISH Technologies L.L.C. Systems and methods for aggregating content
US10373278B2 (en) 2017-02-15 2019-08-06 International Business Machines Corporation Annotation of legal documents with case citations
US10452780B2 (en) 2017-02-15 2019-10-22 International Business Machines Corporation Tone analysis of legal documents
US10318799B2 (en) * 2017-02-16 2019-06-11 Wipro Limited Method of predicting an interest of a user and a system thereof
US10558757B2 (en) * 2017-03-11 2020-02-11 International Business Machines Corporation Symbol management
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法
US10535344B2 (en) * 2017-06-08 2020-01-14 Microsoft Technology Licensing, Llc Conversational system user experience
CN109146450A (zh) 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
US11188809B2 (en) * 2017-06-27 2021-11-30 International Business Machines Corporation Optimizing personality traits of virtual agents
CN107516533A (zh) * 2017-07-10 2017-12-26 阿里巴巴集团控股有限公司 一种会话信息处理方法、装置、电子设备
US20190065458A1 (en) * 2017-08-22 2019-02-28 Linkedin Corporation Determination of languages spoken by a member of a social network
CN107657017B (zh) * 2017-09-26 2020-11-13 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
US11487986B2 (en) * 2017-10-13 2022-11-01 Microsoft Technology Licensing, Llc Providing a response in a session
CN107945848A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 一种健身指导实现方法、装置、设备和介质
WO2019100319A1 (en) * 2017-11-24 2019-05-31 Microsoft Technology Licensing, Llc Providing a response in a session
CN109857352A (zh) * 2017-11-30 2019-06-07 富泰华工业(深圳)有限公司 动画显示方法及人机交互装置
US10636419B2 (en) * 2017-12-06 2020-04-28 Sony Interactive Entertainment Inc. Automatic dialogue design
US10783329B2 (en) * 2017-12-07 2020-09-22 Shanghai Xiaoi Robot Technology Co., Ltd. Method, device and computer readable storage medium for presenting emotion
US10372825B2 (en) 2017-12-18 2019-08-06 International Business Machines Corporation Emotion detection and expression integration in dialog systems
CN108091324B (zh) 2017-12-22 2021-08-17 北京百度网讯科技有限公司 语气识别方法、装置、电子设备和计算机可读存储介质
CN110019848A (zh) * 2017-12-22 2019-07-16 深圳市优必选科技有限公司 对话交互方法、装置及机器人
CN108009287A (zh) * 2017-12-25 2018-05-08 北京中关村科金技术有限公司 一种基于对话系统的回答数据生成方法以及相关装置
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
AU2019212839B2 (en) * 2018-01-29 2023-11-09 EmergeX, LLC System and method for facilitating affective-state-based artificial intelligence
CA3089720A1 (en) * 2018-02-06 2019-08-15 Vi Labs Ltd Digital personal assistant
US10522143B2 (en) * 2018-02-27 2019-12-31 Microsoft Technology Licensing, Llc Empathetic personal virtual digital assistant
CN108597509A (zh) * 2018-03-30 2018-09-28 百度在线网络技术(北京)有限公司 智能语音交互实现方法、装置、计算机设备及存储介质
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US20190325866A1 (en) * 2018-04-20 2019-10-24 Spotify Ab Systems and Methods for Enhancing Responsiveness to Utterances Having Detectable Emotion
JP6944594B2 (ja) * 2018-06-08 2021-10-06 株式会社Nttドコモ 対話装置
JP2021529382A (ja) 2018-06-19 2021-10-28 エリプシス・ヘルス・インコーポレイテッド 精神的健康評価のためのシステム及び方法
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11132681B2 (en) 2018-07-06 2021-09-28 At&T Intellectual Property I, L.P. Services for entity trust conveyances
US10802872B2 (en) 2018-09-12 2020-10-13 At&T Intellectual Property I, L.P. Task delegation and cooperation for automated assistants
US11354507B2 (en) 2018-09-13 2022-06-07 International Business Machines Corporation Compared sentiment queues
WO2020060151A1 (en) 2018-09-19 2020-03-26 Samsung Electronics Co., Ltd. System and method for providing voice assistant service
US20200099634A1 (en) * 2018-09-20 2020-03-26 XRSpace CO., LTD. Interactive Responding Method and Computer System Using the Same
CN111226194A (zh) * 2018-09-27 2020-06-02 三星电子株式会社 提供交互界面的方法和系统
CN109359181B (zh) * 2018-09-27 2021-11-19 深圳前海微众银行股份有限公司 负面情绪原因识别方法、设备及计算机可读存储介质
CN111048062B (zh) * 2018-10-10 2022-10-04 华为技术有限公司 语音合成方法及设备
US11481186B2 (en) 2018-10-25 2022-10-25 At&T Intellectual Property I, L.P. Automated assistant context and protocol
CN109352666A (zh) * 2018-10-26 2019-02-19 广州华见智能科技有限公司 一种基于机器语音对话的情感发泄方法及系统
CN109493885A (zh) * 2018-11-13 2019-03-19 平安科技(深圳)有限公司 心理状态评估及调节方法、装置及存储介质、服务器
FR3089324A1 (fr) * 2018-11-29 2020-06-05 Orange Procédé de détermination d’un agent conversationnel sur un terminal
DK3664470T3 (da) 2018-12-05 2021-04-19 Sonova Ag Fremskaffelse af feedback om lydstyrken af egen stemme for en bruger af et høreapparat
US11222631B2 (en) * 2018-12-11 2022-01-11 International Business Machines Corporation Performance evaluation using audio and structured feedback
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
US11854538B1 (en) * 2019-02-15 2023-12-26 Amazon Technologies, Inc. Sentiment detection in audio data
KR20200113105A (ko) 2019-03-22 2020-10-06 삼성전자주식회사 응답을 제공하는 전자 장치와 이의 동작 방법
CN109977215B (zh) * 2019-03-29 2021-06-18 百度在线网络技术(北京)有限公司 基于关联兴趣点的语句推荐方法和装置
WO2020209647A1 (ko) * 2019-04-09 2020-10-15 네오사피엔스 주식회사 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
TWI751560B (zh) * 2019-05-20 2022-01-01 仁寶電腦工業股份有限公司 語音轉文字裝置以及語音轉文字方法
WO2020235712A1 (ko) * 2019-05-21 2020-11-26 엘지전자 주식회사 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
CN110287323B (zh) * 2019-06-27 2020-10-23 成都冰鉴信息科技有限公司 一种面向目标的情感分类方法
CN110413788B (zh) * 2019-07-30 2023-01-31 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质
KR20210020656A (ko) * 2019-08-16 2021-02-24 엘지전자 주식회사 인공 지능을 이용한 음성 인식 방법 및 그 장치
CN110705584A (zh) * 2019-08-21 2020-01-17 深圳壹账通智能科技有限公司 情绪识别方法、装置、计算机装置及存储介质
US11587561B2 (en) * 2019-10-25 2023-02-21 Mary Lee Weir Communication system and method of extracting emotion data during translations
US20210209289A1 (en) * 2020-01-07 2021-07-08 Samsung Electronics Co., Ltd. Method and apparatus for generating customized content based on user intent
JP7248615B2 (ja) * 2020-03-19 2023-03-29 ヤフー株式会社 出力装置、出力方法及び出力プログラム
US11735206B2 (en) * 2020-03-27 2023-08-22 Harman International Industries, Incorporated Emotionally responsive virtual personal assistant
CN112883145B (zh) * 2020-12-24 2022-10-11 浙江万里学院 一种面向中文评论的情感多倾向分类方法
CN112396185B (zh) * 2021-01-21 2021-05-11 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
WO2022214616A1 (en) * 2021-04-09 2022-10-13 Interdigital Ce Patent Holdings, Sas Personalizing audio-visual content based on user's interest
CN112989822B (zh) * 2021-04-16 2021-08-27 北京世纪好未来教育科技有限公司 识别对话中句子类别的方法、装置、电子设备和存储介质
CN113791690B (zh) * 2021-09-22 2024-03-29 入微智能科技(南京)有限公司 一种带有实时情绪识别功能的人机交互公共设备
US20230169990A1 (en) * 2021-12-01 2023-06-01 Verizon Patent And Licensing Inc. Emotionally-aware voice response generation method and apparatus
KR20230116605A (ko) * 2022-01-28 2023-08-04 주식회사 마블러스 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
CN116030811B (zh) * 2023-03-22 2023-06-30 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
EP1038291B1 (en) * 1997-12-16 2007-02-14 Amir Liberman Apparatus and methods for detecting emotions
US7340393B2 (en) * 2000-09-13 2008-03-04 Advanced Generation Interface, Inc. Emotion recognizing method, sensibility creating method, device, and software
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
RU2012137028A (ru) * 2012-08-29 2014-03-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ выявления эмоционального состояния человека по голосу
WO2014113889A1 (en) * 2013-01-23 2014-07-31 Persuasive Labs Inc. Method and apparatus for adapting customer interaction based on assessed personality
RU2530267C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ коммуникации пользователя с информационной диалоговой системой
US20140343947A1 (en) * 2013-05-15 2014-11-20 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3799134B2 (ja) * 1997-05-28 2006-07-19 ソニー株式会社 システムおよび通知方法
US6246672B1 (en) * 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
US6144938A (en) 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
JP4465730B2 (ja) * 1999-01-20 2010-05-19 日本ビクター株式会社 対話装置
US7222075B2 (en) 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6598020B1 (en) * 1999-09-10 2003-07-22 International Business Machines Corporation Adaptive emotion and initiative generator for conversational systems
US6757362B1 (en) 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
CN1283428C (zh) 2000-03-31 2006-11-08 索尼公司 机器人设备、控制机器人设备动作的方法
JP3561211B2 (ja) 2000-06-27 2004-09-02 株式会社東芝 情報処理装置および不揮発性記憶装置の書き換え制御方法
US20020029203A1 (en) * 2000-09-01 2002-03-07 Pelland David M. Electronic personal assistant with personality adaptation
WO2002067194A2 (en) 2001-02-20 2002-08-29 I & A Research Inc. System for modeling and simulating emotion states
JP2002304188A (ja) 2001-04-05 2002-10-18 Sony Corp 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
CN100339885C (zh) * 2002-02-26 2007-09-26 Sap股份公司 智能个人助理
KR20050015584A (ko) * 2003-08-06 2005-02-21 삼성전자주식회사 감정 표현이 가능한 통신 장치 및 방법
KR100680191B1 (ko) * 2003-09-05 2007-02-08 삼성전자주식회사 감정 있는 에이전트를 갖는 사전 행동적 사용자 인터페이스 시스템
US7944448B2 (en) 2005-06-14 2011-05-17 Omron Corporation Apparatus and method for socially intelligent virtual entity
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP4965322B2 (ja) * 2007-04-17 2012-07-04 日本電信電話株式会社 ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
CN101474481B (zh) 2009-01-12 2010-07-21 北京科技大学 情感机器人系统
KR101594057B1 (ko) * 2009-08-19 2016-02-15 삼성전자주식회사 텍스트 데이터의 처리 방법 및 장치
US8719277B2 (en) * 2011-08-08 2014-05-06 Google Inc. Sentimental information associated with an object within a media
KR101504699B1 (ko) * 2013-04-09 2015-03-20 얄리주식회사 유무선 통신 네트워크를 이용한 음성대화방법 및 장치
US8971183B1 (en) * 2013-09-08 2015-03-03 Divyahans Gupta Control signal traffic profile based mobile application access management
US9514748B2 (en) * 2014-01-15 2016-12-06 Microsoft Technology Licensing, Llc Digital personal assistant interaction with impersonations and rich multimedia in responses
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
US9641563B1 (en) * 2015-11-10 2017-05-02 Ricoh Company, Ltd. Electronic meeting intelligence

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1038291B1 (en) * 1997-12-16 2007-02-14 Amir Liberman Apparatus and methods for detecting emotions
US7340393B2 (en) * 2000-09-13 2008-03-04 Advanced Generation Interface, Inc. Emotion recognizing method, sensibility creating method, device, and software
US20030167167A1 (en) * 2002-02-26 2003-09-04 Li Gong Intelligent personal assistants
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
RU2012137028A (ru) * 2012-08-29 2014-03-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ выявления эмоционального состояния человека по голосу
RU2530267C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ коммуникации пользователя с информационной диалоговой системой
WO2014113889A1 (en) * 2013-01-23 2014-07-31 Persuasive Labs Inc. Method and apparatus for adapting customer interaction based on assessed personality
CN103198827A (zh) * 2013-03-26 2013-07-10 合肥工业大学 基于韵律特征参数和情感参数关联性的语音情感修正方法
US20140343947A1 (en) * 2013-05-15 2014-11-20 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems

Also Published As

Publication number Publication date
BR112017010047B1 (pt) 2023-03-14
AU2015355097A1 (en) 2017-05-25
MX2017007317A (es) 2017-08-25
US10515655B2 (en) 2019-12-24
JP6803333B2 (ja) 2020-12-23
CA2967976A1 (en) 2016-06-09
AU2020239704A1 (en) 2020-10-15
CN107003997A (zh) 2017-08-01
KR102457486B1 (ko) 2022-10-20
RU2017119007A (ru) 2018-12-03
AU2015355097B2 (en) 2020-06-25
JP2018503894A (ja) 2018-02-08
AU2020239704B2 (en) 2021-12-16
CA2967976C (en) 2022-08-09
US20180005646A1 (en) 2018-01-04
US9786299B2 (en) 2017-10-10
KR20170092603A (ko) 2017-08-11
US20160163332A1 (en) 2016-06-09
RU2017119007A3 (ru) 2019-06-19
EP3227885A1 (en) 2017-10-11
KR20220147150A (ko) 2022-11-02
WO2016089929A1 (en) 2016-06-09
BR112017010047A2 (pt) 2018-01-02
KR102632775B1 (ko) 2024-02-01

Similar Documents

Publication Publication Date Title
RU2705465C2 (ru) Классификация типа эмоции для интерактивной диалоговой системы
US20240037343A1 (en) Virtual assistant for generating personalized responses within a communication session
US10809876B2 (en) Virtual assistant conversations
US10536402B2 (en) Context-sensitive generation of conversational responses
CN110998725B (zh) 在对话中生成响应
US20170277993A1 (en) Virtual assistant escalation
KR102541523B1 (ko) 인간 대 컴퓨터 다이얼로그들에 요청되지 않은 콘텐츠의 사전 통합
CN111201566A (zh) 用于处理数据和输出用户反馈的口语通信设备和计算体系架构以及相关方法
JP2021012660A (ja) 情報処理装置、情報処理方法および情報処理プログラム
Zoghaib Voice Marketing
US20240095491A1 (en) Method and system for personalized multimodal response generation through virtual agents
CN117959715A (zh) 交互方法、装置、介质及电子设备