WO2021075996A1 - Система генерации изображений в чате - Google Patents

Система генерации изображений в чате Download PDF

Info

Publication number
WO2021075996A1
WO2021075996A1 PCT/RU2019/000742 RU2019000742W WO2021075996A1 WO 2021075996 A1 WO2021075996 A1 WO 2021075996A1 RU 2019000742 W RU2019000742 W RU 2019000742W WO 2021075996 A1 WO2021075996 A1 WO 2021075996A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
context
dialogue
module
image
Prior art date
Application number
PCT/RU2019/000742
Other languages
English (en)
French (fr)
Inventor
Владимир Александрович СУВОРОВ
Михаил Сергеевич БУРЦЕВ
Original Assignee
федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)" filed Critical федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)"
Priority to PCT/RU2019/000742 priority Critical patent/WO2021075996A1/ru
Publication of WO2021075996A1 publication Critical patent/WO2021075996A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units

Definitions

  • the present technical solution relates to the field of computing, in particular, to a system for generating images in a chat.
  • Pandorabots, Inc. https://www.pandorabots.com/mitsuku/6oT
  • this bot responds to some of the user's statements with its own statement, illustrated with a picture. This decision is based on the selection of a picture that is relevant to the answer.
  • this bot does not take into account the variations in the emotional state of the response and uses neutral images directly associated with the response word. For example, for the query “Do you like cats”, the response is generated “Yes I love them. They seem a lot more independent than dogs ”and inserts a picture of a cat.
  • the Microsoft social chatbot launched in China, and which communicates almost humanly.
  • the Xiaolce bot can operate in "full duplex” mode, that is, communicate in both directions at the same time, like during a phone call. This is what makes it different from the "half-duplex" chatbots, which are more like talking on a walkie-talkie, when you can only talk one by one.
  • This bot features a new update that Microsoft calls "full duplex voice sense", which improves Xiaolce's ability to predict what the other person will say next. This helps you make decisions about how and when to respond to the other person's phrases.
  • this bot is able to take part in a dialogue with the user, but during the dialogue it does not generate a personalized image with text for the user based on his emotional state.
  • the technical problem to be solved by the claimed technical solution is the creation of a system for generating images in chat, which is described in an independent claim.
  • the technical result consists in the ability to automatically generate personalized images with text based on the analyzed emotional state of the user and to include the result in a natural way in the dialogue.
  • a system for generating images in a chat is declared containing interconnected: a module for generating a dialogue context, which receives and transforms a message from a user in a natural language into a dialogue context, while this module accepts a replica as an input string from the user and converts it into j son is an object that includes this information and supplements the context with the history of messages from this user; an emotion classification module that analyzes the context of the dialogue and determines the user's emotional state; a dialog state classification module that detects classes of states in a dialog with a user; an image generation module that selects a ranked list of images from the generated database, estimated by the proximity of the context and the sentiment of the user's replica, and creates a personalized image based on the analyzed emotional state of the user; a context proximity assessment module evaluating the context proximity with the generated personalized image;
  • phrase generator that creates a phrase that is checked for relevance as the most appropriate response text for a dialogue with a user and performs overlaying the response text on the selected image resulting in a personalized image with text.
  • FIG. 1 illustrates a block diagram of a system
  • FIG. 2 illustrates a generated dialog based image
  • FIG. 3 illustrates a block diagram of the claimed solution
  • FIG. 4 illustrates an example of a general arrangement of a computing device.
  • the present invention is directed to providing a chat image generating system.
  • the claimed system for generating images in chat (100), consists of the following interconnected modules: v 'module for generating a dialogue context (101).
  • This module (101) receives and transforms a message from a user in a natural language into a dialogue context, while this module receives a replica as an input string from the user and converts it into a json object, includes this information and supplements the context with the history of messages from this user; the emotion classification module (102).
  • This module (102) analyzes the context of the dialogue and determines the emotional state of the user; a dialog state classification module (103).
  • This module (103) detects classes of states in a dialogue with the user; an image generation module (104).
  • This module (104) selects a ranked list of images from the generated database, estimated by the proximity of the context and the sentiment of the user's replica, and creates a personalized image based on the analyzed emotional state of the user; a context proximity assessment module (105).
  • This module (105) evaluates the proximity of the context with the generated personalized image; phrase generator (106).
  • the generator (106) creates a phrase that is checked for relevance as the most appropriate response text for a dialogue with the user and overlays the response text on the selected image, resulting in a personalized image with text.
  • a personalized image with text is a personalized meme created for the user during a dialogue.
  • Mem (English teshe) is a unit of information that is significant for culture.
  • a meme is information in one form or another (a media object, that is, an object created by electronic means of communication, a phrase, concept or lesson), as a rule, witty and ironic, spontaneously gaining popularity, spreading on the Internet in various ways (through social networks, forums, blogs, instant messengers, etc.). Also denotes the phenomenon of spontaneous dissemination of such information or phrase.
  • memes Both words and images can be considered memes. In other words, these are any statements, pictures, videos or sound sequences that have meaning and are steadily distributed on the World Wide Web.
  • the essence of the claimed solution is to create a solution that allows end-to-end generation of images (memes), namely, image + text entities with meme properties, such as:
  • Selection from the generated database of a ranked list of images is used regardless of the selection of the text, while the image is selected to create the desired emotional experience (target emotion), and the text is generated based on the state of the dialogue, the emotion of the context, the target emotion, the state of the dialogue and the context model (and not context itself).
  • the stated solution does not respond to the user's context, but tries to create the desired experience regarding the context model using the personality of the bot.
  • Bot personality “I'm 20 years old. I love animals. I go in for sports"
  • Context matching occurs only at the last stage by choosing the most relevant meme with the help of a ranking model.
  • the system Upon receiving a message from the user, the system forms the context of the dialogue. Contextual information, including the user's last remark, is sent to the emotion classifier (sentiment analysis), the result of the sentiment analysis is further used by the image generator to create personalized images. Also, the context of the dialogue passes through the classifier of the dialogue state to detect classes of states in which a reaction in the form of a personalized image with text (meme) (text-visual response) is allowed. After analysis by the dialog classifier, the information passes through a ranking system, which evaluates the proximity of the context to possible personalized images with text (response memes) from the generated database of images (memes). When the response is analyzed by the ranking system and a subset of candidate responses has been selected, the system begins the phase of generating a personalized response, when image and phrase generators generate an adapted response to the user based on the selected meme response.
  • the emotion classifier sent to the emotion classifier (sentiment analysis)
  • the result of the sentiment analysis is further used by the
  • the results of the generators are parameterized using the configuration of the target emotion, which is a component of the bot's personality and allows the bot not only to select images (meme) for the context, but also to push the user to the desired emotion (for example, the emotion of joy to deduce the user from the emotion of grief (see the list of classes in the classifier of emotions)).
  • the system has no information about the user. As the conversation with the user accumulates, the system accumulates information about the user's sentiments around various topics.
  • Dialogue context json file with the markup of the phrases "person” - “bot” and the marked previous remarks regarding: states of the dialogue, sentiment (emotions)
  • Dialog state classifier CNN classifier model.
  • the implementation of the classifier is well known in the art (e.g. https://github.com/ajinkyaT/CNN_Intent_Classification).
  • the classification is carried out based on the last replica of the user and the context of the conversation, which includes the history of the conversation with the user.
  • the classifier determines emotion by characteristic keywords and phrases reflecting the emotional coloring of some phenomenon in the dialogue (for example, "I hate pancakes” - antagonism is detected thanks to the phrases "I hate”)
  • Bot Identity A textual description of the bot's identity. It is presented as a list of sentences in natural language listing facts that characterize the individual characteristics of the bot (what he likes, dislikes, what interests him and other affilations).
  • Personalized context model - search using the ODQA Open domain question answering
  • ODQA Open domain question answering
  • Emotion detector an emotion classification module that analyzes the context of the dialogue and determines the user's emotional state
  • the classes are presented below in table 1.
  • the emotion detector is implemented with an open source solution for classifying sentiment on convolutional neural networks, for example, https://keras.io/examples/imdb_cnn_lstm/.
  • the meme classifier does not evaluate the context of the meme.
  • Phrase generator + image generation module + generated image database GAN model generator.
  • GAN Genetic adversarial network, abbreviated as GAN
  • GAN is an unsupervised machine learning algorithm built on a combination of two neural networks, one of which (network G) generates samples (see Generative model [en]), and the other (network D) tries to distinguish correct ("genuine") samples from incorrect)
  • the ranking model is realized through the estimation of the distance from the embedding (text + image description) of the meme to the embedding of the dialogue context according to the b2-norm.
  • a component that converts text into embedding BERT, open source implementations of which available from the prior art: http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html#bert.
  • a dialog context generating module (101), which receives and transforms a message from a user into a dialog context.
  • Module (101) accepts a replica as an input string from some user and transforms it into a j son-object that includes this information and supplements the context with the history of messages from this user.
  • Emotions classification module (102), which analyzes the context of the dialogue and determines the user's emotional state.
  • a dialog state classification module (103) detects classes of states in a dialog with a user.
  • Image generation module (104) which selects a ranked list of images from the generated database, estimated by the proximity of the context and sentiment of the user's replica, and creates a personalized image based on the analyzed user's emotional state
  • the context proximity estimation module (105) which evaluates the context proximity with the generated personalized image.
  • a phrase generator (106) that creates a phrase that is checked for relevance as the most appropriate response text for a dialogue with a user and overlays the response text on the selected image, resulting in a personalized image with text
  • FIG. 4 a general diagram of a computing device (400) that provides data processing necessary for the implementation of the claimed solution will be presented below.
  • the device (400) contains components such as: one or more processors (401), at least one memory (402), data storage means (403), input / output interfaces (404), I / O means ( 405), networking tools (406).
  • processors 401
  • memory 402
  • data storage means 403
  • input / output interfaces 403
  • I / O means 405
  • networking tools 406
  • the processor (401) of the device performs the basic computational operations necessary for the operation of the device (400) or the functionality of one or more of its components.
  • the processor (401) executes the necessary machine-readable instructions contained in the main memory (402).
  • Memory (402) is made in the form of RAM and contains the necessary program logic that provides the required functionality.
  • the data storage medium (403) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc.
  • the means (403) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.
  • Interfaces (404) are standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.
  • interfaces (404) depends on the specific implementation of the device (400), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
  • a keyboard should be used.
  • the hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a stand-alone device connected to a desktop computer, server or other computer device.
  • the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports.
  • I / O data can also include: joystick, display (touchscreen display), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
  • Networking means (406) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
  • the means (405) provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.
  • the components of the device (400) are interconnected via a common data bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Заявлена система генерации изображений в чате, содержащая: модуль формирования контекста диалога, осуществляющий прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует ее в json-объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя; модуль классификации эмоций, осуществляющий анализ контекст диалога и определяющий эмоциональное состояние пользователя; модуль классификации состояния диалога осуществляющий детектирование классов состояний в диалоге с пользователем; модуль генерации изображения, осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста осуществляющий оценку близости контекста с сформированным персонализированным изображением; генератор фраз, осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.

Description

СИСТЕМА ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ В ЧАТЕ
ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к области вычислительной техники, в частности, к системе генерации изображений в чате.
УРОВЕНЬ ТЕХНИКИ
В настоящее время известна компания Pandorabots, Inc. (https://www.pandorabots.com/mitsuku/6oT), которая разработала бота Mitsuku, это многонациональный чат-бот, призванный развлекать пользователей чата и поддерживать с ними разговор. При этом, данный бот на некоторые высказывания пользователя отвечает своим высказыванием, иллюстрированным картинкой. Данное решение основано на подборе картинки релевантной ответу.
Однако данный бот не принимает во внимание вариации эмоционального состояния ответа и использует нейтральные картинки, непосредственно связанные со словом ответа. Например, на запрос «Do you like cats» генерируется ответ «Yes I love them. They seem a lot more independent than dogs» и вставляет картинку кота.
Также из уровня техники известен социальный чат-бот Microsoft, запущенный в Китае, и который общается почти по-человечески. Бот Xiaolce может работать в «полнодуплексном» режиме, то есть общаться в обоих направлениях одновременно, как во время телефонного звонка. Этим он отличается от чат-ботов «полудуплексного» режима, который больше похож на разговор по рации, когда говорить можно только по очереди. В данном боте реализовано новое обновление, которое Microsoft называет «полнодуплексной речью» (full duplex voice sense), что улучшает способность Xiaolce предсказывать, что собеседник скажет дальше. Это помогает принимать решения о том, как и когда реагировать на фразы собеседника.
Однако данный бот умеет принимать участие в диалоге с пользователем, но во время диалога не генерирует персонализированное изображение с текстом для пользователя на основе его эмоционального состояния.
Из уровня техники широко известны решения, в которых используют бота во время диалога в чате с пользователем, в части такие решения описаны в заявках: WO2019177485A1, опубл. 19.09.2019; US20180329993 А1, опубл. 15.11.2018; US20180183735A1, опубл. 28.06.2018; KR101980727В 1, опубл. 21.05.2019. Однако в данных решениях боты имеют ограниченную функциональность, они умеют принимать участие в диалоге с пользователем, но во время диалога не генерируют персонализированные изображения с текстом для пользователей на основе их эмоционального состояния.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Технической проблемой, на решение которой направлено заявленное техническое решение, является создание системы генерации изображений в чате, которая охарактеризована в независимом пункте формулы.
Технический результат заключается в возможности автоматически генерировать персонализированные изображения с текстом на основе проанализированного эмоционального состояния пользователя и включать результат естественным образом в диалог.
В предпочтительном варианте реализации заявлена система генерации изображений в чате содержащая взаимосвязанные между собой: модуль формирования контекста диалога, осуществляющий прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует её в j son- объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя; модуль классификации эмоций, осуществляющий анализ контекст диалога и определяющий эмоциональное состояние пользователя; модуль классификации состояния диалога осуществляющий детектирование классов состояний в диалоге с пользователем; модуль генерации изображения, осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста осуществляющий оценку близости контекста с сформированным персонализированным изображением;
- генератор фраз, осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:
Фиг. 1 иллюстрирует блок схему системы;
Фиг. 2 иллюстрирует сгенерированное изображение на основе диалога;
Фиг. 3 иллюстрирует блок схему заявленного решения;
Фиг. 4 иллюстрирует пример общей схемы вычислительного устройства.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Настоящее изобретение направлено на обеспечение системы генерации изображений в чате.
Как представлено на Фиг. 1, заявленная система генерации изображений в чате (100), состоит из следующих взаимосвязанных между собой модулей: v' модуля формирования контекста диалога (101). Данный модуль (101) осуществляет прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует её в json-объект, включает эту информацию и дополняет контекст историей сообщений от данного пользователя; модуля классификации эмоций (102). Данный модуль (102) осуществляет анализ контекст диалога и определяет эмоциональное состояние пользователя; модуль классификации состояния диалога (103). Данный модуль (103) осуществляет детектирование классов состояний в диалоге с пользователем; модуль генерации изображения (104). Данный модуль (104) осуществляет подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создает персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста ( 105). Данный модуль ( 105) осуществляет оценку близости контекста с сформированным персонализированным изображением; генератор фраз (106). Генератор (106) осуществляет создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляет наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
Персонализированное изображение с текстом - это созданный для пользователя во время диалога персонализированный мем.
Мем (англ теше) — единица значимой для культуры информации.
Мем — информация в той или иной форме (медиаобъект, то есть объект, создаваемый электронными средствами коммуникации, фраза, концепция или занятие), как правило, остроумная и ироническая, спонтанно приобретающая популярность, распространяясь в Интернете разнообразными способами (посредством социальных сетей, форумов, блогов, мессенджеров и пр.). Обозначает также явление спонтанного распространения такой информации или фразы.
Мемами могут считаться как слова, так и изображения. Иначе говоря, это любые высказывания, картинки, видео или звукоряд, которые имеют значение и устойчиво распространяются во Всемирной паутине.
Сущность заявленного решения состоит в создании решения позволяющего end-to-end генерировать изображения (мемы), а именно сущности изображение + текст, обладающие свойствами мема, такими как:
1) Законченность идеи; 2) Узнаваемость и создание душевного переживания.
А также использовать это решение для целей ведения диалога и создания у собеседника впечатления ведения диалога человеком, а не ботом.
Для этой задачи не подходят существующие подходы в основном основанные на подборе изображения в том числе с помощью машинного обучения для матчинга с текстом, поскольку изображения (мемы) призваны создавать душевное переживание, а не просто являются иллюстрацией текста.
Также стоит более сложная задача чем просто генерация персонализированного изображения с текстом (мема), а создание персонализированного изображения с текстом (мема), вызывающего душевное переживание нужного формата и находящегося в контексте.
Используется подбор из сформированной базы данных ранжированного списка изображений независимо от подбора текста, при этом изображение подбирается для создания нужного душевного переживания (целевой эмоции), а текст генерируется на основании состояния диалога, эмоции контекста, целевой эмоции, состояния диалога и модели контекста (а не самого контекста).
Заявленное решение не отвечает на контекст пользователя, а пытается создать нужное переживание относительно модели контекста используя личность бота.
Например: Фраза пользователя (контекст) = «Ты любишь кошек?»
Модель эмоций = «Консерватизм»
Модель состояния = «вопрос о личности»
Личность бота - «Мне 20 лет. Я люблю животных. Я занимаюсь спортом»
Персональная модель контекста - матчим личность и контекст - «Я люблю животных» Модель целевая эмоций = «радость»
Как представлено на фиг. 2, на основе диалога сгенерировано изображение (животные и положительно)
Кошка, радость Хомячок, инопланетяне, радость Генератор фраз осуществляет создание фразы (Я люблю животных, нейтрально, вопрос, положительно) - «Мяу» «Хозяин я буду с тобой всегда».
Использование из сформированной базы данных (БД) изображений, размеченных относительно эмоций и объектов, позволяет поддерживать актуализированное состояние узнаваемости. То есть, не использовать старые мемы и изображения, что неизбежно случается при прямом подходе для машинного обучения на БД изображений и подборе персонажа обученной модели на старых мемах.
То есть система пытается понять «мемность» и использовать определение мемности вместо генерации похожих на существующие мемы или просто подбора картинки к фразе по контексту.
Матчинг контекста происходит только на последнем этапе путем выбора с помощью ранжирующей модели максимально релевантого контексту мема.
Описание процесса анализа и принятия решений
При получении сообщения от пользователя система формирует контекст диалога. Контекстная информация, включая последнюю реплику пользователя, отправляется в классификатор эмоций (анализ сентимента), результат сентимент анализа в дальнейшем исопльзуется генератором изображений для создания персонализированных изображений. Также контекст диалога проходит через классификатор состояния диалога для детектирования классов состояний в которых допустима реакция в виде персонализированного изображения с текстом (мема) (тексто-визуальный ответ). После анализа классификатором диалога информация проходит через ранжирующую систему, которая оценивает близость контекста к возможным персонализированным изображениям с текстом (мемам-ответам) из сформированной базы данных изображений (мемов). Когда ответ проанализирован ранжирующей системой и отобрано подмножество кандидатов ответов, система начинает фазу генерации персонализированного ответа, когда генераторы изображений и фраз формируют адаптированный ответ пользователю на базе подобранного ответа-мема.
Результаты генераторов параметризуются с помощью конфигурации целевой эмоции, которая является компонентом личности бота и позволяют боту не просто подбирать изображения (мем) под контекст, но и подталкивать пользователя к нужной эмоции (например, эмоции радости для вывода пользователя из эмоции горя (см. перечень классов в классификаторе эмоций)). В начале беседы с новым пользователем у системы нет никакой информации о пользователе. По мере накопления беседы с пользователем у системы накапливается информация о сентиментах пользователя вокруг различных тем.
Контекст диалога = json файл с разметкой фраз «человек» - «бот» и размеченными предыдущими репликами относительно: состояний диалога, сентимента(эмоций)
Классификатор состояния диалога: Классификатор CNN модель. Реализация классификатора широко известна из уровня техники (например, https://github.com/ajinkyaT/CNN_Intent_Classification).
«Вопрос о личности» «Утверждение о личности» «Приветствие» «Прощание» «Извинение» «Подтверждение предыдущего высказывания» «Отрицание предыдущего высказывания» «Вопрос о факте» «Вопрос о суждении» «Суждение».
Классификация осуществляется на основе последней реплики пользователя и контекста диалога, включающего историю беседы с пользователем. В целом классификатор определяет эмоцию по характерным ключевым словам и фразам, отражающим эмоциональную окрашенность какого-то феномена в диалоге (например, «я ненавижу блины» - антагонизм детектируется благодаря фраз «ненавижу»)
Личность бота — Текстовое описание личности бота. Представляется как список предложений на естественном языке перечисляющих факты-характеризующие индивидуальные особенности бота (что он любит, не любит, что его интересует и прочие афилляции).
Персонализированная модель контекста - поиск с помощью модели ODQA (Open domain question answering) в базе Текстовое описание личности бота + Значимые фразы из диалога с пользователем.
Детектор эмоций (модуль классификации эмоций, осуществляющий анализ контекста диалога и определение эмоционального состояния пользователя) — мультилейбловый классификатор на основе технологии CNN. Классы представлены ниже в таблице 1.
Детектор эмоций реализуется с помощью открытого решения для классификации сентимента на конволюционных нейронных сетях, например, https://keras.io/examples/imdb_cnn_lstm/. Таблица 1
Figure imgf000010_0001
Классификатор изображений (мемности) - дискриминатор GAN модели. Классификатор мемности не оценивает контекст мема.
Генератор фраз + модуль генерации изображения + сформированная БД изображений = генератор GAN модели. (Генеративно-состязательная сеть (англ. Generative adversarial network, сокращённо GAN) — алгоритм машинного обучения без учителя, построенный на комбинации из двух нейронных сетей, одна из которых (сеть G) генерирует образцы (см. Генеративная модель[еп]), а другая (сеть D) старается отличить правильные («подлинные») образцы от неправильных)
Ранжирующая модель реализуется через оценку расстояния от эмбеддинга (текст + описание изображения) мема до эмбеддинга контекста диалога по Ь2-норме. Компонент осуществляющий преобразование текста в эмбединг: BERT, открытые реализации которого доступны из уровня техники: http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html#bert.
Модуль формирования контекста диалога (101), осуществляющий прием и преобразование сообщения от пользователя в контекст диалога.
Модуль (101) принимает реплику как строку на входе от некоторого пользователя и преобразует ее в j son-объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя.
Модуль классификации эмоций (102), осуществляющий анализ контекста диалога и определение эмоционального состояния пользователя.
Модуль классификации состояния диалога (103) осуществляющий детектирование классов состояний в диалоге с пользователем.
Модуль генерации изображения (104), осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя
Модуль оценки близости контекста (105), осуществляющий оценку близости контекста с сформированным персонализированным изображением.
Генератор фраз (106), осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом
На Фиг. 4 далее будет представлена общая схема вычислительного устройства (400), обеспечивающего обработку данных, необходимую для реализации заявленного решения.
В общем случае устройство (400) содержит такие компоненты, как: один или более процессоров (401), по меньшей мере одну память (402), средство хранения данных (403), интерфейсы ввода/вывода (404), средство В/В (405), средства сетевого взаимодействия (406).
Процессор (401) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (400) или функциональности одного или более его компонентов. Процессор (401) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (402). Память (402), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных (403) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (403) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.
Интерфейсы (404) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.
Выбор интерфейсов (404) зависит от конкретного исполнения устройства (400), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (405) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия (406) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (405) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM. Компоненты устройства (400) сопряжены посредством общей шины передачи данных
(410).
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

Формула
1. Система генерации изображений в чате содержащая взаимосвязанные между собой модули: модуль формирования контекста диалога, осуществляющий прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует её в j son- объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя; модуль классификации эмоций, осуществляющий анализ контекст диалога и определяющий эмоциональное состояние пользователя; модуль классификации состояния диалога осуществляющий детектирование классов состояний в диалоге с пользователем; модуль генерации изображения, осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста осуществляющий оценку близости контекста с сформированным персонализированным изображением;
- генератор фраз, осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
PCT/RU2019/000742 2019-10-16 2019-10-16 Система генерации изображений в чате WO2021075996A1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000742 WO2021075996A1 (ru) 2019-10-16 2019-10-16 Система генерации изображений в чате

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000742 WO2021075996A1 (ru) 2019-10-16 2019-10-16 Система генерации изображений в чате

Publications (1)

Publication Number Publication Date
WO2021075996A1 true WO2021075996A1 (ru) 2021-04-22

Family

ID=75538571

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000742 WO2021075996A1 (ru) 2019-10-16 2019-10-16 Система генерации изображений в чате

Country Status (1)

Country Link
WO (1) WO2021075996A1 (ru)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015084286A1 (ru) * 2013-12-03 2015-06-11 Вячэслав Викторовыч СТОЯНОВ Способ создания и передачи эмограммы пользователя
US20190005021A1 (en) * 2017-06-29 2019-01-03 Microsoft Technology Licensing, Llc Virtual assistant for generating personalized responses within a communication session
WO2019038573A1 (en) * 2017-08-25 2019-02-28 Leong David Tuk Wai APPARATUS FOR RECOGNIZING SOUNDS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015084286A1 (ru) * 2013-12-03 2015-06-11 Вячэслав Викторовыч СТОЯНОВ Способ создания и передачи эмограммы пользователя
US20190005021A1 (en) * 2017-06-29 2019-01-03 Microsoft Technology Licensing, Llc Virtual assistant for generating personalized responses within a communication session
WO2019038573A1 (en) * 2017-08-25 2019-02-28 Leong David Tuk Wai APPARATUS FOR RECOGNIZING SOUNDS

Similar Documents

Publication Publication Date Title
US11704900B2 (en) Predictive injection of conversation fillers for assistant systems
CN110869969B (zh) 用于在通信会话内生成个性化响应的虚拟助手
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
US11849256B2 (en) Systems and methods for dynamically concealing sensitive information
US11593566B2 (en) Determining topics and action items from conversations
US11307880B2 (en) Assisting users with personalized and contextual communication content
US20180341903A1 (en) Identifying task and personality traits
EP3557505A1 (en) Contextual auto-completion for assistant systems
EP3557502A1 (en) Aggregating semantic information for improved understanding of users
Shen et al. Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords
US10770072B2 (en) Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
EP3557504A1 (en) Intent identification for agent matching by assistant systems
EP3557501A1 (en) Assisting users with personalized and contextual communication content
US11886473B2 (en) Intent identification for agent matching by assistant systems
US11580961B1 (en) Tracking specialized concepts, topics, and activities in conversations
RU2810678C1 (ru) Система генерации изображений в чате
WO2021075996A1 (ru) Система генерации изображений в чате
RU2814657C1 (ru) Конвейерный накапливающий сумматор по модулю
Niraula et al. A machine learning approach to pronominal anaphora resolution in dialogue based intelligent tutoring systems
RU2818036C1 (ru) Способ и система управления диалоговым агентом в канале взаимодействия с пользователем
US20230334249A1 (en) Using machine learning for individual classification
Hasan et al. Mutual Context Based Word Prediction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19949276

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2022107947

Country of ref document: RU

122 Ep: pct application non-entry in european phase

Ref document number: 19949276

Country of ref document: EP

Kind code of ref document: A1