WO2021075996A1 - Система генерации изображений в чате - Google Patents
Система генерации изображений в чате Download PDFInfo
- Publication number
- WO2021075996A1 WO2021075996A1 PCT/RU2019/000742 RU2019000742W WO2021075996A1 WO 2021075996 A1 WO2021075996 A1 WO 2021075996A1 RU 2019000742 W RU2019000742 W RU 2019000742W WO 2021075996 A1 WO2021075996 A1 WO 2021075996A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- context
- dialogue
- module
- image
- Prior art date
Links
- 230000008451 emotion Effects 0.000 claims abstract description 22
- 230000002996 emotional effect Effects 0.000 claims abstract description 19
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000009118 appropriate response Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 241001465754 Metazoa Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000699800 Cricetinae Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 235000012771 pancakes Nutrition 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
Definitions
- the present technical solution relates to the field of computing, in particular, to a system for generating images in a chat.
- Pandorabots, Inc. https://www.pandorabots.com/mitsuku/6oT
- this bot responds to some of the user's statements with its own statement, illustrated with a picture. This decision is based on the selection of a picture that is relevant to the answer.
- this bot does not take into account the variations in the emotional state of the response and uses neutral images directly associated with the response word. For example, for the query “Do you like cats”, the response is generated “Yes I love them. They seem a lot more independent than dogs ”and inserts a picture of a cat.
- the Microsoft social chatbot launched in China, and which communicates almost humanly.
- the Xiaolce bot can operate in "full duplex” mode, that is, communicate in both directions at the same time, like during a phone call. This is what makes it different from the "half-duplex" chatbots, which are more like talking on a walkie-talkie, when you can only talk one by one.
- This bot features a new update that Microsoft calls "full duplex voice sense", which improves Xiaolce's ability to predict what the other person will say next. This helps you make decisions about how and when to respond to the other person's phrases.
- this bot is able to take part in a dialogue with the user, but during the dialogue it does not generate a personalized image with text for the user based on his emotional state.
- the technical problem to be solved by the claimed technical solution is the creation of a system for generating images in chat, which is described in an independent claim.
- the technical result consists in the ability to automatically generate personalized images with text based on the analyzed emotional state of the user and to include the result in a natural way in the dialogue.
- a system for generating images in a chat is declared containing interconnected: a module for generating a dialogue context, which receives and transforms a message from a user in a natural language into a dialogue context, while this module accepts a replica as an input string from the user and converts it into j son is an object that includes this information and supplements the context with the history of messages from this user; an emotion classification module that analyzes the context of the dialogue and determines the user's emotional state; a dialog state classification module that detects classes of states in a dialog with a user; an image generation module that selects a ranked list of images from the generated database, estimated by the proximity of the context and the sentiment of the user's replica, and creates a personalized image based on the analyzed emotional state of the user; a context proximity assessment module evaluating the context proximity with the generated personalized image;
- phrase generator that creates a phrase that is checked for relevance as the most appropriate response text for a dialogue with a user and performs overlaying the response text on the selected image resulting in a personalized image with text.
- FIG. 1 illustrates a block diagram of a system
- FIG. 2 illustrates a generated dialog based image
- FIG. 3 illustrates a block diagram of the claimed solution
- FIG. 4 illustrates an example of a general arrangement of a computing device.
- the present invention is directed to providing a chat image generating system.
- the claimed system for generating images in chat (100), consists of the following interconnected modules: v 'module for generating a dialogue context (101).
- This module (101) receives and transforms a message from a user in a natural language into a dialogue context, while this module receives a replica as an input string from the user and converts it into a json object, includes this information and supplements the context with the history of messages from this user; the emotion classification module (102).
- This module (102) analyzes the context of the dialogue and determines the emotional state of the user; a dialog state classification module (103).
- This module (103) detects classes of states in a dialogue with the user; an image generation module (104).
- This module (104) selects a ranked list of images from the generated database, estimated by the proximity of the context and the sentiment of the user's replica, and creates a personalized image based on the analyzed emotional state of the user; a context proximity assessment module (105).
- This module (105) evaluates the proximity of the context with the generated personalized image; phrase generator (106).
- the generator (106) creates a phrase that is checked for relevance as the most appropriate response text for a dialogue with the user and overlays the response text on the selected image, resulting in a personalized image with text.
- a personalized image with text is a personalized meme created for the user during a dialogue.
- Mem (English teshe) is a unit of information that is significant for culture.
- a meme is information in one form or another (a media object, that is, an object created by electronic means of communication, a phrase, concept or lesson), as a rule, witty and ironic, spontaneously gaining popularity, spreading on the Internet in various ways (through social networks, forums, blogs, instant messengers, etc.). Also denotes the phenomenon of spontaneous dissemination of such information or phrase.
- memes Both words and images can be considered memes. In other words, these are any statements, pictures, videos or sound sequences that have meaning and are steadily distributed on the World Wide Web.
- the essence of the claimed solution is to create a solution that allows end-to-end generation of images (memes), namely, image + text entities with meme properties, such as:
- Selection from the generated database of a ranked list of images is used regardless of the selection of the text, while the image is selected to create the desired emotional experience (target emotion), and the text is generated based on the state of the dialogue, the emotion of the context, the target emotion, the state of the dialogue and the context model (and not context itself).
- the stated solution does not respond to the user's context, but tries to create the desired experience regarding the context model using the personality of the bot.
- Bot personality “I'm 20 years old. I love animals. I go in for sports"
- Context matching occurs only at the last stage by choosing the most relevant meme with the help of a ranking model.
- the system Upon receiving a message from the user, the system forms the context of the dialogue. Contextual information, including the user's last remark, is sent to the emotion classifier (sentiment analysis), the result of the sentiment analysis is further used by the image generator to create personalized images. Also, the context of the dialogue passes through the classifier of the dialogue state to detect classes of states in which a reaction in the form of a personalized image with text (meme) (text-visual response) is allowed. After analysis by the dialog classifier, the information passes through a ranking system, which evaluates the proximity of the context to possible personalized images with text (response memes) from the generated database of images (memes). When the response is analyzed by the ranking system and a subset of candidate responses has been selected, the system begins the phase of generating a personalized response, when image and phrase generators generate an adapted response to the user based on the selected meme response.
- the emotion classifier sent to the emotion classifier (sentiment analysis)
- the result of the sentiment analysis is further used by the
- the results of the generators are parameterized using the configuration of the target emotion, which is a component of the bot's personality and allows the bot not only to select images (meme) for the context, but also to push the user to the desired emotion (for example, the emotion of joy to deduce the user from the emotion of grief (see the list of classes in the classifier of emotions)).
- the system has no information about the user. As the conversation with the user accumulates, the system accumulates information about the user's sentiments around various topics.
- Dialogue context json file with the markup of the phrases "person” - “bot” and the marked previous remarks regarding: states of the dialogue, sentiment (emotions)
- Dialog state classifier CNN classifier model.
- the implementation of the classifier is well known in the art (e.g. https://github.com/ajinkyaT/CNN_Intent_Classification).
- the classification is carried out based on the last replica of the user and the context of the conversation, which includes the history of the conversation with the user.
- the classifier determines emotion by characteristic keywords and phrases reflecting the emotional coloring of some phenomenon in the dialogue (for example, "I hate pancakes” - antagonism is detected thanks to the phrases "I hate”)
- Bot Identity A textual description of the bot's identity. It is presented as a list of sentences in natural language listing facts that characterize the individual characteristics of the bot (what he likes, dislikes, what interests him and other affilations).
- Personalized context model - search using the ODQA Open domain question answering
- ODQA Open domain question answering
- Emotion detector an emotion classification module that analyzes the context of the dialogue and determines the user's emotional state
- the classes are presented below in table 1.
- the emotion detector is implemented with an open source solution for classifying sentiment on convolutional neural networks, for example, https://keras.io/examples/imdb_cnn_lstm/.
- the meme classifier does not evaluate the context of the meme.
- Phrase generator + image generation module + generated image database GAN model generator.
- GAN Genetic adversarial network, abbreviated as GAN
- GAN is an unsupervised machine learning algorithm built on a combination of two neural networks, one of which (network G) generates samples (see Generative model [en]), and the other (network D) tries to distinguish correct ("genuine") samples from incorrect)
- the ranking model is realized through the estimation of the distance from the embedding (text + image description) of the meme to the embedding of the dialogue context according to the b2-norm.
- a component that converts text into embedding BERT, open source implementations of which available from the prior art: http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html#bert.
- a dialog context generating module (101), which receives and transforms a message from a user into a dialog context.
- Module (101) accepts a replica as an input string from some user and transforms it into a j son-object that includes this information and supplements the context with the history of messages from this user.
- Emotions classification module (102), which analyzes the context of the dialogue and determines the user's emotional state.
- a dialog state classification module (103) detects classes of states in a dialog with a user.
- Image generation module (104) which selects a ranked list of images from the generated database, estimated by the proximity of the context and sentiment of the user's replica, and creates a personalized image based on the analyzed user's emotional state
- the context proximity estimation module (105) which evaluates the context proximity with the generated personalized image.
- a phrase generator (106) that creates a phrase that is checked for relevance as the most appropriate response text for a dialogue with a user and overlays the response text on the selected image, resulting in a personalized image with text
- FIG. 4 a general diagram of a computing device (400) that provides data processing necessary for the implementation of the claimed solution will be presented below.
- the device (400) contains components such as: one or more processors (401), at least one memory (402), data storage means (403), input / output interfaces (404), I / O means ( 405), networking tools (406).
- processors 401
- memory 402
- data storage means 403
- input / output interfaces 403
- I / O means 405
- networking tools 406
- the processor (401) of the device performs the basic computational operations necessary for the operation of the device (400) or the functionality of one or more of its components.
- the processor (401) executes the necessary machine-readable instructions contained in the main memory (402).
- Memory (402) is made in the form of RAM and contains the necessary program logic that provides the required functionality.
- the data storage medium (403) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc.
- the means (403) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.
- Interfaces (404) are standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.
- interfaces (404) depends on the specific implementation of the device (400), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
- a keyboard should be used.
- the hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a stand-alone device connected to a desktop computer, server or other computer device.
- the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports.
- I / O data can also include: joystick, display (touchscreen display), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
- Networking means (406) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
- the means (405) provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.
- the components of the device (400) are interconnected via a common data bus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Заявлена система генерации изображений в чате, содержащая: модуль формирования контекста диалога, осуществляющий прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует ее в json-объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя; модуль классификации эмоций, осуществляющий анализ контекст диалога и определяющий эмоциональное состояние пользователя; модуль классификации состояния диалога осуществляющий детектирование классов состояний в диалоге с пользователем; модуль генерации изображения, осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста осуществляющий оценку близости контекста с сформированным персонализированным изображением; генератор фраз, осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
Description
СИСТЕМА ГЕНЕРАЦИИ ИЗОБРАЖЕНИЙ В ЧАТЕ
ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к области вычислительной техники, в частности, к системе генерации изображений в чате.
УРОВЕНЬ ТЕХНИКИ
В настоящее время известна компания Pandorabots, Inc. (https://www.pandorabots.com/mitsuku/6oT), которая разработала бота Mitsuku, это многонациональный чат-бот, призванный развлекать пользователей чата и поддерживать с ними разговор. При этом, данный бот на некоторые высказывания пользователя отвечает своим высказыванием, иллюстрированным картинкой. Данное решение основано на подборе картинки релевантной ответу.
Однако данный бот не принимает во внимание вариации эмоционального состояния ответа и использует нейтральные картинки, непосредственно связанные со словом ответа. Например, на запрос «Do you like cats» генерируется ответ «Yes I love them. They seem a lot more independent than dogs» и вставляет картинку кота.
Также из уровня техники известен социальный чат-бот Microsoft, запущенный в Китае, и который общается почти по-человечески. Бот Xiaolce может работать в «полнодуплексном» режиме, то есть общаться в обоих направлениях одновременно, как во время телефонного звонка. Этим он отличается от чат-ботов «полудуплексного» режима, который больше похож на разговор по рации, когда говорить можно только по очереди. В данном боте реализовано новое обновление, которое Microsoft называет «полнодуплексной речью» (full duplex voice sense), что улучшает способность Xiaolce предсказывать, что собеседник скажет дальше. Это помогает принимать решения о том, как и когда реагировать на фразы собеседника.
Однако данный бот умеет принимать участие в диалоге с пользователем, но во время диалога не генерирует персонализированное изображение с текстом для пользователя на основе его эмоционального состояния.
Из уровня техники широко известны решения, в которых используют бота во время диалога в чате с пользователем, в части такие решения описаны в заявках: WO2019177485A1, опубл. 19.09.2019; US20180329993 А1, опубл. 15.11.2018; US20180183735A1, опубл. 28.06.2018; KR101980727В 1, опубл. 21.05.2019.
Однако в данных решениях боты имеют ограниченную функциональность, они умеют принимать участие в диалоге с пользователем, но во время диалога не генерируют персонализированные изображения с текстом для пользователей на основе их эмоционального состояния.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Технической проблемой, на решение которой направлено заявленное техническое решение, является создание системы генерации изображений в чате, которая охарактеризована в независимом пункте формулы.
Технический результат заключается в возможности автоматически генерировать персонализированные изображения с текстом на основе проанализированного эмоционального состояния пользователя и включать результат естественным образом в диалог.
В предпочтительном варианте реализации заявлена система генерации изображений в чате содержащая взаимосвязанные между собой: модуль формирования контекста диалога, осуществляющий прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует её в j son- объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя; модуль классификации эмоций, осуществляющий анализ контекст диалога и определяющий эмоциональное состояние пользователя; модуль классификации состояния диалога осуществляющий детектирование классов состояний в диалоге с пользователем; модуль генерации изображения, осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста осуществляющий оценку близости контекста с сформированным персонализированным изображением;
- генератор фраз, осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий
наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:
Фиг. 1 иллюстрирует блок схему системы;
Фиг. 2 иллюстрирует сгенерированное изображение на основе диалога;
Фиг. 3 иллюстрирует блок схему заявленного решения;
Фиг. 4 иллюстрирует пример общей схемы вычислительного устройства.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Настоящее изобретение направлено на обеспечение системы генерации изображений в чате.
Как представлено на Фиг. 1, заявленная система генерации изображений в чате (100), состоит из следующих взаимосвязанных между собой модулей: v' модуля формирования контекста диалога (101). Данный модуль (101) осуществляет прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и
преобразует её в json-объект, включает эту информацию и дополняет контекст историей сообщений от данного пользователя; модуля классификации эмоций (102). Данный модуль (102) осуществляет анализ контекст диалога и определяет эмоциональное состояние пользователя; модуль классификации состояния диалога (103). Данный модуль (103) осуществляет детектирование классов состояний в диалоге с пользователем; модуль генерации изображения (104). Данный модуль (104) осуществляет подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создает персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста ( 105). Данный модуль ( 105) осуществляет оценку близости контекста с сформированным персонализированным изображением; генератор фраз (106). Генератор (106) осуществляет создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляет наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
Персонализированное изображение с текстом - это созданный для пользователя во время диалога персонализированный мем.
Мем (англ теше) — единица значимой для культуры информации.
Мем — информация в той или иной форме (медиаобъект, то есть объект, создаваемый электронными средствами коммуникации, фраза, концепция или занятие), как правило, остроумная и ироническая, спонтанно приобретающая популярность, распространяясь в Интернете разнообразными способами (посредством социальных сетей, форумов, блогов, мессенджеров и пр.). Обозначает также явление спонтанного распространения такой информации или фразы.
Мемами могут считаться как слова, так и изображения. Иначе говоря, это любые высказывания, картинки, видео или звукоряд, которые имеют значение и устойчиво распространяются во Всемирной паутине.
Сущность заявленного решения состоит в создании решения позволяющего end-to-end генерировать изображения (мемы), а именно сущности изображение + текст, обладающие свойствами мема, такими как:
1) Законченность идеи;
2) Узнаваемость и создание душевного переживания.
А также использовать это решение для целей ведения диалога и создания у собеседника впечатления ведения диалога человеком, а не ботом.
Для этой задачи не подходят существующие подходы в основном основанные на подборе изображения в том числе с помощью машинного обучения для матчинга с текстом, поскольку изображения (мемы) призваны создавать душевное переживание, а не просто являются иллюстрацией текста.
Также стоит более сложная задача чем просто генерация персонализированного изображения с текстом (мема), а создание персонализированного изображения с текстом (мема), вызывающего душевное переживание нужного формата и находящегося в контексте.
Используется подбор из сформированной базы данных ранжированного списка изображений независимо от подбора текста, при этом изображение подбирается для создания нужного душевного переживания (целевой эмоции), а текст генерируется на основании состояния диалога, эмоции контекста, целевой эмоции, состояния диалога и модели контекста (а не самого контекста).
Заявленное решение не отвечает на контекст пользователя, а пытается создать нужное переживание относительно модели контекста используя личность бота.
Например: Фраза пользователя (контекст) = «Ты любишь кошек?»
Модель эмоций = «Консерватизм»
Модель состояния = «вопрос о личности»
Личность бота - «Мне 20 лет. Я люблю животных. Я занимаюсь спортом»
Персональная модель контекста - матчим личность и контекст - «Я люблю животных» Модель целевая эмоций = «радость»
Как представлено на фиг. 2, на основе диалога сгенерировано изображение (животные и положительно)
Кошка, радость Хомячок, инопланетяне, радость
Генератор фраз осуществляет создание фразы (Я люблю животных, нейтрально, вопрос, положительно) - «Мяу» «Хозяин я буду с тобой всегда».
Использование из сформированной базы данных (БД) изображений, размеченных относительно эмоций и объектов, позволяет поддерживать актуализированное состояние узнаваемости. То есть, не использовать старые мемы и изображения, что неизбежно случается при прямом подходе для машинного обучения на БД изображений и подборе персонажа обученной модели на старых мемах.
То есть система пытается понять «мемность» и использовать определение мемности вместо генерации похожих на существующие мемы или просто подбора картинки к фразе по контексту.
Матчинг контекста происходит только на последнем этапе путем выбора с помощью ранжирующей модели максимально релевантого контексту мема.
Описание процесса анализа и принятия решений
При получении сообщения от пользователя система формирует контекст диалога. Контекстная информация, включая последнюю реплику пользователя, отправляется в классификатор эмоций (анализ сентимента), результат сентимент анализа в дальнейшем исопльзуется генератором изображений для создания персонализированных изображений. Также контекст диалога проходит через классификатор состояния диалога для детектирования классов состояний в которых допустима реакция в виде персонализированного изображения с текстом (мема) (тексто-визуальный ответ). После анализа классификатором диалога информация проходит через ранжирующую систему, которая оценивает близость контекста к возможным персонализированным изображениям с текстом (мемам-ответам) из сформированной базы данных изображений (мемов). Когда ответ проанализирован ранжирующей системой и отобрано подмножество кандидатов ответов, система начинает фазу генерации персонализированного ответа, когда генераторы изображений и фраз формируют адаптированный ответ пользователю на базе подобранного ответа-мема.
Результаты генераторов параметризуются с помощью конфигурации целевой эмоции, которая является компонентом личности бота и позволяют боту не просто подбирать изображения (мем) под контекст, но и подталкивать пользователя к нужной эмоции (например, эмоции радости для вывода пользователя из эмоции горя (см. перечень классов в классификаторе эмоций)).
В начале беседы с новым пользователем у системы нет никакой информации о пользователе. По мере накопления беседы с пользователем у системы накапливается информация о сентиментах пользователя вокруг различных тем.
Контекст диалога = json файл с разметкой фраз «человек» - «бот» и размеченными предыдущими репликами относительно: состояний диалога, сентимента(эмоций)
Классификатор состояния диалога: Классификатор CNN модель. Реализация классификатора широко известна из уровня техники (например, https://github.com/ajinkyaT/CNN_Intent_Classification).
«Вопрос о личности» «Утверждение о личности» «Приветствие» «Прощание» «Извинение» «Подтверждение предыдущего высказывания» «Отрицание предыдущего высказывания» «Вопрос о факте» «Вопрос о суждении» «Суждение».
Классификация осуществляется на основе последней реплики пользователя и контекста диалога, включающего историю беседы с пользователем. В целом классификатор определяет эмоцию по характерным ключевым словам и фразам, отражающим эмоциональную окрашенность какого-то феномена в диалоге (например, «я ненавижу блины» - антагонизм детектируется благодаря фраз «ненавижу»)
Личность бота — Текстовое описание личности бота. Представляется как список предложений на естественном языке перечисляющих факты-характеризующие индивидуальные особенности бота (что он любит, не любит, что его интересует и прочие афилляции).
Персонализированная модель контекста - поиск с помощью модели ODQA (Open domain question answering) в базе Текстовое описание личности бота + Значимые фразы из диалога с пользователем.
Детектор эмоций (модуль классификации эмоций, осуществляющий анализ контекста диалога и определение эмоционального состояния пользователя) — мультилейбловый классификатор на основе технологии CNN. Классы представлены ниже в таблице 1.
Детектор эмоций реализуется с помощью открытого решения для классификации сентимента на конволюционных нейронных сетях, например, https://keras.io/examples/imdb_cnn_lstm/.
Таблица 1
Классификатор изображений (мемности) - дискриминатор GAN модели. Классификатор мемности не оценивает контекст мема.
Генератор фраз + модуль генерации изображения + сформированная БД изображений = генератор GAN модели. (Генеративно-состязательная сеть (англ. Generative adversarial network, сокращённо GAN) — алгоритм машинного обучения без учителя, построенный на комбинации из двух нейронных сетей, одна из которых (сеть G) генерирует образцы (см. Генеративная модель[еп]), а другая (сеть D) старается отличить правильные («подлинные») образцы от неправильных)
Ранжирующая модель реализуется через оценку расстояния от эмбеддинга (текст + описание изображения) мема до эмбеддинга контекста диалога по Ь2-норме. Компонент осуществляющий преобразование текста в эмбединг: BERT, открытые реализации которого
доступны из уровня техники: http://docs.deeppavlov.ai/en/master/features/pretrained_vectors.html#bert.
Модуль формирования контекста диалога (101), осуществляющий прием и преобразование сообщения от пользователя в контекст диалога.
Модуль (101) принимает реплику как строку на входе от некоторого пользователя и преобразует ее в j son-объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя.
Модуль классификации эмоций (102), осуществляющий анализ контекста диалога и определение эмоционального состояния пользователя.
Модуль классификации состояния диалога (103) осуществляющий детектирование классов состояний в диалоге с пользователем.
Модуль генерации изображения (104), осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя
Модуль оценки близости контекста (105), осуществляющий оценку близости контекста с сформированным персонализированным изображением.
Генератор фраз (106), осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом
На Фиг. 4 далее будет представлена общая схема вычислительного устройства (400), обеспечивающего обработку данных, необходимую для реализации заявленного решения.
В общем случае устройство (400) содержит такие компоненты, как: один или более процессоров (401), по меньшей мере одну память (402), средство хранения данных (403), интерфейсы ввода/вывода (404), средство В/В (405), средства сетевого взаимодействия (406).
Процессор (401) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (400) или функциональности одного или более его компонентов. Процессор (401) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (402).
Память (402), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных (403) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (403) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.
Интерфейсы (404) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.
Выбор интерфейсов (404) зависит от конкретного исполнения устройства (400), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (405) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия (406) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (405) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.
Компоненты устройства (400) сопряжены посредством общей шины передачи данных
(410).
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
Claims
1. Система генерации изображений в чате содержащая взаимосвязанные между собой модули: модуль формирования контекста диалога, осуществляющий прием и преобразование сообщения от пользователя на естественном языке в контекст диалог, при этом данный модуль принимает реплику как строку на входе от пользователя и преобразует её в j son- объект, включающий эту информацию и дополняющий контекст историей сообщений от данного пользователя; модуль классификации эмоций, осуществляющий анализ контекст диалога и определяющий эмоциональное состояние пользователя; модуль классификации состояния диалога осуществляющий детектирование классов состояний в диалоге с пользователем; модуль генерации изображения, осуществляющий подбор из сформированной базы данных ранжированный список изображений, оцененных по близости контекста и сентимента реплики пользователя, и создающий персонализированное изображение на основе проанализированного эмоционального состояния пользователя; модуль оценки близости контекста осуществляющий оценку близости контекста с сформированным персонализированным изображением;
- генератор фраз, осуществляющий создание фразы, которая проверяется на релевантность как наиболее подходящий текст ответа для диалога с пользователем и осуществляющий наложение текста ответа на подобранное изображение в результате чего получается персонализированное изображение с текстом.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/RU2019/000742 WO2021075996A1 (ru) | 2019-10-16 | 2019-10-16 | Система генерации изображений в чате |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/RU2019/000742 WO2021075996A1 (ru) | 2019-10-16 | 2019-10-16 | Система генерации изображений в чате |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021075996A1 true WO2021075996A1 (ru) | 2021-04-22 |
Family
ID=75538571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/RU2019/000742 WO2021075996A1 (ru) | 2019-10-16 | 2019-10-16 | Система генерации изображений в чате |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2021075996A1 (ru) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015084286A1 (ru) * | 2013-12-03 | 2015-06-11 | Вячэслав Викторовыч СТОЯНОВ | Способ создания и передачи эмограммы пользователя |
US20190005021A1 (en) * | 2017-06-29 | 2019-01-03 | Microsoft Technology Licensing, Llc | Virtual assistant for generating personalized responses within a communication session |
WO2019038573A1 (en) * | 2017-08-25 | 2019-02-28 | Leong David Tuk Wai | APPARATUS FOR RECOGNIZING SOUNDS |
-
2019
- 2019-10-16 WO PCT/RU2019/000742 patent/WO2021075996A1/ru active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015084286A1 (ru) * | 2013-12-03 | 2015-06-11 | Вячэслав Викторовыч СТОЯНОВ | Способ создания и передачи эмограммы пользователя |
US20190005021A1 (en) * | 2017-06-29 | 2019-01-03 | Microsoft Technology Licensing, Llc | Virtual assistant for generating personalized responses within a communication session |
WO2019038573A1 (en) * | 2017-08-25 | 2019-02-28 | Leong David Tuk Wai | APPARATUS FOR RECOGNIZING SOUNDS |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11704900B2 (en) | Predictive injection of conversation fillers for assistant systems | |
CN110869969B (zh) | 用于在通信会话内生成个性化响应的虚拟助手 | |
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
US11849256B2 (en) | Systems and methods for dynamically concealing sensitive information | |
US11593566B2 (en) | Determining topics and action items from conversations | |
US11307880B2 (en) | Assisting users with personalized and contextual communication content | |
US20180341903A1 (en) | Identifying task and personality traits | |
EP3557505A1 (en) | Contextual auto-completion for assistant systems | |
EP3557502A1 (en) | Aggregating semantic information for improved understanding of users | |
Shen et al. | Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords | |
US10770072B2 (en) | Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning | |
WO2021063089A1 (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
EP3557504A1 (en) | Intent identification for agent matching by assistant systems | |
EP3557501A1 (en) | Assisting users with personalized and contextual communication content | |
US11886473B2 (en) | Intent identification for agent matching by assistant systems | |
US11580961B1 (en) | Tracking specialized concepts, topics, and activities in conversations | |
RU2810678C1 (ru) | Система генерации изображений в чате | |
WO2021075996A1 (ru) | Система генерации изображений в чате | |
RU2814657C1 (ru) | Конвейерный накапливающий сумматор по модулю | |
Niraula et al. | A machine learning approach to pronominal anaphora resolution in dialogue based intelligent tutoring systems | |
RU2818036C1 (ru) | Способ и система управления диалоговым агентом в канале взаимодействия с пользователем | |
US20230334249A1 (en) | Using machine learning for individual classification | |
Hasan et al. | Mutual Context Based Word Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19949276 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2022107947 Country of ref document: RU |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19949276 Country of ref document: EP Kind code of ref document: A1 |