WO2023249419A1 - 대화 제공 방법 및 대화 처리 시스템 - Google Patents

대화 제공 방법 및 대화 처리 시스템 Download PDF

Info

Publication number
WO2023249419A1
WO2023249419A1 PCT/KR2023/008640 KR2023008640W WO2023249419A1 WO 2023249419 A1 WO2023249419 A1 WO 2023249419A1 KR 2023008640 W KR2023008640 W KR 2023008640W WO 2023249419 A1 WO2023249419 A1 WO 2023249419A1
Authority
WO
WIPO (PCT)
Prior art keywords
conversation
user
memory
session
agent
Prior art date
Application number
PCT/KR2023/008640
Other languages
English (en)
French (fr)
Inventor
김혜리
정유인
곽동현
배상환
강소영
안준호
정현훈
유주원
이민영
박현정
심상진
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220117106A external-priority patent/KR20230174678A/ko
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Publication of WO2023249419A1 publication Critical patent/WO2023249419A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to a conversation providing method and a conversation processing method and system for conducting a conversation based on user information.
  • the dictionary meaning of artificial intelligence is a technology that realizes human learning ability, reasoning ability, perception ability, and natural language understanding ability through computer programs. Artificial intelligence has made rapid progress thanks to deep learning.
  • agents providing conversation functions are being used to actively provide services to users in various fields such as shopping, search, healthcare, and counselor services.
  • these agents they only consider the content of conversations with the user in the current conversation session, and there is a limit to considering the content of conversations between the agent and the user in the past. Accordingly, the user must take active actions such as providing his or her information in duplicate for each different conversation session with the agent or correcting the content the agent utters without considering the user's situation, which causes inconvenience to the user. I'm going through something.
  • the purpose of the present invention is to provide a conversation providing method and a conversation processing system that reflects the user's information and allows an appropriate conversation to be performed between the user and the agent.
  • the present invention is intended to provide a conversation providing method and a conversation processing system in which an agent can lead a conversation appropriate to the user's status or situation using the user's history information.
  • the present invention is intended to provide a conversation providing method and a conversation processing system that can remember important information about a user and conduct a conversation with the user using the stored important information.
  • the present invention is intended to provide a conversation analysis method and system that can systematically manage the user's status by using the contents of past conversations between a user and an agent, and a user monitoring method and system using the same.
  • the method for providing a conversation includes the steps of forming a conversation session between an agent and a user, using user history related to a previous conversation session formed before the conversation session, It may include generating an utterance of an agent and performing a conversation with the user by providing the utterance of the agent to the user.
  • the conversation processing system includes a memory that stores user history related to past conversation sessions, receives user utterances in the current conversation session formed between the agent and the user, and converts at least part of the user utterances into sentences. It may include a summarizer that summarizes the information in a form and a memory operator that specifies an operation on the memory using the summary information summarized in the summary section and the user history.
  • the program which is executed by one or more processes on an electronic device and stored on a computer-readable recording medium, includes steps for forming a conversation session between an agent and a user, and stored in connection with the user's account, prior to the conversation session. performing a conversation with the user by generating an utterance of the agent and providing the utterance of the agent to the user using the user's history related to a previous conversation session formed in May contain commands.
  • the conversation providing method and conversation processing system can provide a user-customized conversation by conducting a conversation with the user using the user history stored in the memory.
  • the conversation providing method and conversation processing system stores the user's utterances in the previous conversation session as user history and uses them to conduct a conversation with the user, based on the latest information according to the user history. This allows you to have a natural conversation with the user.
  • the user's situation or status according to the user history can be monitored or checked.
  • the conversation providing method and conversation processing system can summarize user utterances using a summary unit learned to summarize only important user utterances among user utterances in a conversation session between a user and an agent. Through this, it is possible to prevent indiscriminate consumption of memory resources and provide a new conversation session with the user based on important information related to the user.
  • Figures 1, 2a, 2b, 2c, and 3 are conceptual diagrams for explaining a conversation processing method and conversation processing system according to the present invention.
  • Figure 4 is a conceptual diagram illustrating a method of processing a conversation in the summary section of the conversation processing system according to the present invention.
  • 5 to 9 are conceptual diagrams for explaining a method of processing a conversation in the memory operator of the conversation processing system according to the present invention.
  • Figures 10 and 11 are conceptual diagrams for explaining a method of generating a dialogue in the creation unit of the dialogue processing system according to the present invention.
  • Figure 12 is a conceptual diagram explaining the user monitoring system 1200 according to the present invention.
  • the purpose of the present invention is to provide a conversation providing method and a conversation processing system that reflects the user's information and allows an appropriate conversation to be performed between the user and the agent.
  • the present invention is intended to provide a conversation providing method and a conversation processing system in which an agent can lead a conversation appropriate to the user's status or situation using the user's history information.
  • an agent is included as a function of various types of electronic devices 20, or provides various services such as conversation services, care services, or counseling services that enable conversations between users and agents. It may be included as a function of a provided website, application, or software.
  • the format of the conversation 30 between a user and an agent may vary.
  • the conversation may take place in the form of voice or chat.
  • voice or text (ex. chat) format we do not distinguish between voice or text (ex. chat) format.
  • a conversation generated by the user will be expressed as a user speech or a user's speech
  • a dialogue generated from the agent will be expressed as an agent's speech or an agent's speech, etc.
  • an agent that carries out a conversation with a user may also be called a “bot” or “chatbot.”
  • the conversation processing system 100 is a conversation system based on memory management that can be used in long-term conversations, that is, when conversations occur multiple times with a time gap between a user and an agent.
  • FIGS. 2A, 2B, and 2C when multiple conversation sessions (ex: Session 1, Session 2, Session 3) are formed between the user and the agent, the conversation contents of the previously formed conversation sessions are used, Provides a way to configure the conversation of the current conversation session.
  • the conversation processing system 100 can perform a series of processes to receive a conversation between a user and an agent and store information about the content of the conversation in the memory 130.
  • information about existing conversation contents stored in the memory 130 can be expressed as “user history.”
  • the first conversation session (ex: Session 1, Figure 2a), the second conversation session (ex: Session2, Figure 2b), and the third conversation session (ex: Session 3, Figure 2c) start from the first conversation session.
  • it is a conversation session that takes place sequentially.
  • the user history (221, 222) based on the conversations (201, 202) between the user and the agent in the first conversation session (ex: Session 1, Figure 2a) conducted in the past is used in the second conversation. It can be used in the session agent's speech (204). Furthermore, if a conversation session corresponding to the third conversation session is in progress, the user history 221 based on the conversation 201, 202, 203, 204 between the user and the agent corresponding to at least one of the first and second conversation sessions. 222, 223, 224) may be used in the utterance 206 of the third conversation session agent.
  • content related to at least some of the user's utterances 201 in the first conversation session may be stored in the memory 130 as user history 221 and 222.
  • the conversation processing system 100 may use the user history stored in the memory 130 to generate the agent's utterance 204 in a second conversation session formed between the user and the agent after the first conversation session.
  • the conversation processing system 100 may store content related to at least part of the conversation of the first conversation session in the memory 130 in the form of sentences. And, if a second conversation session is conducted between the user and the agent after the first conversation session, the conversation processing system 100 can use any one of the sentences corresponding to the user history to generate an utterance of the agent related to it. there is.
  • the agent checks the user's status or situation for the user history “sore throat with cold” (221) remembered from the previous conversation session (or past conversation sessions), such as “Teacher, I have a sore throat.” You can produce the utterance “How do you feel?” (204a).
  • the agent's utterance (204b) can be generated.
  • the conversation processing system 100 may store information about at least part of the content of the conversation conducted in the second conversation session as user history 223 and 224 in the memory 130. . Additionally, the user history stored in the memory 130 can be used in a third conversation session that follows the second conversation session.
  • the conversation processing system 100 manages and uses the contents of conversations made in a plurality of conversation sessions between a user and an agent in memory, thereby managing various states (ex: health, sleep, etc.) or situations of the user. It enables continuous monitoring and management of (ex: housing situation, employment situation, etc.) and enables more natural and appropriate conversations with users.
  • the memory 130 can be updated so that the user's latest information is maintained for the same topic or category. That is, user history stored based on past conversation sessions may be updated based on conversations in the current conversation session.
  • the content (or sentence, It does not have to be in the form of )) is stored.
  • the user's neck condition has improved from the conversation conducted in the second conversation session, the user no longer has a sore throat, so the sentence “Sore throat due to a cold” (221) is deleted, thereby memory ( 130) can be updated.
  • the content “planned to visit the hospital” (222) is stored as user history. At this time, if it is analyzed that the user has visited the hospital from the conversation (203b) conducted in the second conversation session, the content “planned to go to the hospital” (222) does not need to be stored in the user history anymore, so this sentence It may be deleted.
  • the conversation processing system can store memorable information related to the user as user history in the memory during a conversation session between a user and an agent, or delete unnecessary information. And, in the next conversation session, by using the user history to create an agent's utterance, a natural conversation can be conducted based on the user's latest situation or status.
  • the conversation processing system 100 may include a summary unit (Summarizer, 110), a memory operator (120), a memory (130), and a generator (140). . Furthermore, the conversation processing system 100 may be configured to further include a retriever 150.
  • the summary unit 110 may receive the conversation content (D) of a conversation session between an agent and a user and generate a summary 115.
  • the conversation of the Nth conversation session may be transmitted to and processed in the summary unit 110 after the Nth conversation session ends.
  • the entity that transmits the conversation to the summary unit 110 may be a service server that provides a conversation service, and the present invention does not specifically limit this.
  • a conversation (D) including the agent's utterance and the user's utterance, respectively, is input to the summary unit 110, and the summary unit 110 can generate a summary 115 based on the conversation (D). there is.
  • the summary unit 110 can summarize memorable information related to the user in the conversation content in the form of natural language sentences.
  • the summary unit 110 may be composed of a language model learned to summarize memorable information related to the user during a conversation (D) in the form of a natural language sentence. For example, using a language model that tunes a pre-trained language model that has already learned a variety of information with a conversation session and a learning data SET consisting of key information worth remembering from the conversation session, conversation
  • summary content e.g., a summary sentence (hereinafter, for convenience of explanation, the term “summary sentence” will be used, but it does not necessarily have to be in the form of a summary sentence)
  • the language model can be trained to generate summary sentences using newline as a delimiter.
  • the summary unit 110 may be trained to generate summary sentences only for preset categories (or topics).
  • the preset category may be a category for various states or situations of the user.
  • preset categories may be related to health, sleep, exercise, meals, employment, etc.
  • the summary unit 110 says, “My neck is fine, but my head hurts a little.” You can create summary information such as “condition” (311) or “neck hurt but feeling better, head hurt.”
  • the summary unit 110 can generate summary information such as “I have a reservation at the hospital” (312).
  • the summary unit 110 provides a summary of “I can’t sleep well” (313). Information can be generated.
  • the summary unit 110 is trained to generate summary sentences only for content corresponding to a preset category among the user's utterances included in the conversation of the conversation session, and as a result, the summary unit 110 is trained to generate summary sentences only for content corresponding to a preset category among the user's utterances.
  • a summary sentence may not be created for the content.
  • the summary unit 110 contains user utterances related to health, sleep, exercise, eating, or employment corresponding to preset categories during a conversation in a conversation session (Session 1 or Session 2, etc.).
  • summary sentences (421, 422, 431, 432, 433) can be generated.
  • summary sentences will not be generated. You can.
  • the summary unit 110 may use a summary model to generate summary sentences of sentences corresponding to user utterances and agent utterances that make up the conversation for a preset category.
  • the summary model may be a language model that receives conversation and category information (ex. “health”, “sleep”, etc.) as input and is learned to generate summary information related to the category from the conversation content.
  • the summary sentence summarized in the summary unit 110 may have matching information regarding which category the summary sentence corresponds to.
  • summary sentences may be stored for each preset category.
  • the summary unit 110 may first classify the sentences into categories before performing summary on the sentences, and as a result, may generate summary sentences only for sentences classified into preset categories. Therefore, data resources can be saved by not generating summary sentences for sentences that do not require summary.
  • the memory operator (Memory Operator) 120 can control the operation of the memory (130) so that the user history (or user information) stored in the memory (130) can maintain the latest information about the user. .
  • the memory 130 may be located at least one of the inside and outside of the conversation processing system 100 (e.g., an external server, cloud server, or cloud storage, etc.). As shown in FIG. 3, the memory operator 120 uses the summary sentence (or summary information, 311, 312, 313) summarized in the summary unit 110 and the user history (specifically, the user history) previously stored in the memory 130. The operation of the memory 130 can be specified using the sentences 321, 322, and 323 constituting the history.
  • the user history stored in the memory 130 may be configured according to the conversation contents of previous conversation sessions formed between the user and the agent before the Nth conversation session is formed.
  • the user history stored in the memory 130 may be composed of summary sentences 321, 322, and 323 in which the summary unit 110 summarizes at least some of the conversations of previous conversation sessions.
  • the user's history may include content related to the user's status or situation.
  • the memory 130 may be updated according to an operation specified by the memory operator 120. Depending on the specified operation, the memory 130 may i) store at least part of the summary information in the memory 130, or ii) delete at least part of the stored user history.
  • the memory operator 120 may control to perform any one of different operations on the memory for a summary sentence summarized from a conversation in a conversation session and a pair of summary sentences included in the user history stored in the memory. .
  • the user history stored in the memory 130 may be updated to reflect the content of the conversation of the Nth conversation session.
  • the first operation may mean an operation (PASS) that maintains storing m in the memory 130, but does not store s in the memory 130.
  • the first operation may be when the content of the two sentences is the same or similar, or when the content of s is included in the content of m. In this way, the first operation can be performed when there is no need to update the memory.
  • the memory operator 120 may ensure that the user history stored in the memory 130 is maintained as is.
  • the second operation may mean an operation (APPEND) of storing s in the memory 130 while maintaining the storage of m in the memory 130 .
  • the second operation may correspond to a case where the contents of m and the contents of s are not related to each other or are additional information.
  • the memory operator 120 can control the operation of the memory 130 so that the summary sentence “state of not sleeping well” 313 of the conversation session is newly added to the memory 130. .
  • the third operation may refer to an operation (REPLACE) of deleting m from the memory 130 and storing s in the memory 130. That is, m in the memory 130 can be replaced with s.
  • the third operation is when the contents of the two sentences do not match or contradict each other, and the memory operator 120 deletes the information stored in the conventional memory 130 in order to maintain the user history with the user's latest information. For example, as shown in FIG.
  • the fourth operation may mean an operation (DELETE) that deletes m from the memory 130 and does not store s in the memory 130 either.
  • the case corresponding to the fourth operation may be a case where the contents of the sentences no longer reflect the user's state or situation. For example, in the user history, if there is a summary sentence “I took cold medicine” and a summary sentence “I got better from a cold” in the Nth conversation session, the user has completely cured the cold and does not need cold medicine anymore. not. In this case, the memory 130 no longer needs to remember information about the user related to the cold.
  • the memory operator 120 may specify a memory operation according to any one of the first to fourth operations with respect to the summary sentences summarized in the conversation session and the user history stored in the memory.
  • the first conversation session (Session 1) is the first (original or initial) conversation session with respect to the user, there may be no user history in the memory (Memory 1).
  • the operation result of the memory operator 120 for the first conversation session (Session 1) and the user history may be “APPEND,” which is the second operation.
  • the summary sentences (Summary 1) summarized in the first conversation session (Session 1) may be stored as is in the memory (Memory 2).
  • the summary unit 110 receives the conversation of the second conversation session and provides a summary sentence for the conversation of the second conversation session.
  • (Summary 2) can be created.
  • the memory operator 120 may update the memory 130 using the user history (Memory 2) and summary sentences for the second conversation session (Summary 2) stored in the memory 130.
  • the user history (Memory 2) reflecting the second conversation session (Session 2) 3) can be configured.
  • Figure 6 briefly shows the memory update algorithm in the memory operator 120.
  • the memory update process of the present invention can maintain the user's latest information by combining existing information and new information using the operators described above.
  • Sentence pair A method of classifying relationships can be used.
  • the memory operator 120 is The first to fourth operations discussed above are Determine one of the values.
  • the memory update unit may update the memory to M'. Meanwhile, according to one embodiment of the present invention, instead of comparing all pairs between user history and summary sentences, the memory operation can be specified only for sentences corresponding to the same category.
  • summary sentences may be classified and stored into corresponding categories. Accordingly, the memory operator 120 can specify the operation of the memory 130 only for summary sentences between the same categories.
  • the memory operator 120 can compare sentences corresponding to each category as a pair.
  • the memory operator 120 may specify one of the first to fourth operations (PASS, APPEND, REPLACE, DELETE) discussed above for sentences input as a pair for each category.
  • the user history stored in the memory 130 may be updated.
  • summary sentences may exist as user history for each preset category. This is to maintain only information about the user's latest situation or status for each category.
  • the memory operator 120 uses a classification model learned to predict or specify the operation of the memory 130 corresponding to any one of the first to fourth operations for a pair of sentences. It can be configured as follows.
  • the data set for learning the model is, as shown in Figures 8 and 9, a pair of sentences corresponding to m (or premise sentence) and s (or hypothesis sentence), and
  • the pair of sentences may be composed of a label indicating which operation among the first to fourth operations (PASS, APPEND, REPLACE, DELETE) corresponds.
  • the memory operator 120 labels any one of the pair of sentences and the first to fourth operations corresponding to the pair of sentences (e.g., mapping each to a single token corresponding to the numbers 0 to 3). Based on this, it can be learned.
  • the memory operator 120 is able to predict or specify the operation of the memory 130 corresponding to one of the first to fourth operations for a pair of sentences.
  • the generator 140 is configured to generate an agent's speech using the user history stored in the memory 130.
  • a conversation session is formed between the agent and the user (S1010). Then, the process of generating an agent's speech can proceed using the user history (S1020). As seen in the previous description, user history may be constructed based on information extracted from previous conversation sessions formed between the agent and the user.
  • the generator 140 may generate an agent's utterance by referring to the user history stored in connection with the user account of the user currently conducting the conversation.
  • the generator 140 may generate an agent's speech using at least a portion of the user history stored in the memory 130 and the conversation history in the current session.
  • the conversation history Dt at time step t can be expressed as follows (c is the agent's utterance, u is the user's utterance).
  • conditional probability of the next target response (i.e., the next agent's utterance, C t+1 ) expressed as follows can be expressed as a product of the conditional probability sequence as in Equation 1 below.
  • the generation unit 140 consists of a language model that fine-tunes a large language model that has already been pre-trained on various information using “maximum likelihood estimation (MLE).” It can be. This model is trained to minimize Equation 2 below.
  • the generator 140 is a user history, and when there are a plurality of summary sentences corresponding to a plurality of different categories related to the user's status or situation (see reference numerals 1111, 1112, 1113, and 1114 in FIG. 11), Based on the conversation context of the currently ongoing conversation session, the agent's speech can be generated using one summary sentence among a plurality of summary sentences. As shown in FIG. 11, when a conversation session D2 is started between a user and an agent, the generator 140 generates a plurality of summary sentences 1111 and 1112 corresponding to the user's user history stored in the memory 130. , 1113, 1114) may be transmitted in whole or in part and used to create an utterance of the agent in the currently ongoing conversation session.
  • the search unit 150 may select some of the plurality of summary sentences stored in the memory 130 and transmit them to the generation unit 140. In some cases, the configuration of the search unit 150 may be omitted and all of the plurality of summary sentences stored in the memory may be transmitted to the generation unit 140.
  • the generator 140 uses the plurality of summary sentences to generate an utterance of the agent. It may not be used for. In other words, even if there is a user history, the generator 140 may not use content unrelated to the context of the conversation in the agent's speech. As such, in the present invention, the process of carrying out a conversation with the user can proceed by providing the user with the agent's utterance generated based on the user history (S1030).
  • the present invention by storing the user's utterances in the previous conversation session as user history and using them to conduct a conversation with the user, a natural conversation can be performed with the user based on the latest information according to the user history. . Furthermore, in the present invention, by conducting a conversation with the user based on the user history, the user's situation or status according to the user history can be monitored or checked.
  • the user monitoring system 1200 includes at least one of a call processing system 1210, a management system 1220, a conversation analysis system 1230, and a storage unit 1240. It can be. Each component can be operated independently, and conceptually, the functions exerted by their combination can be expressed as being executed by a user monitoring method or user monitoring system.
  • the conversation analysis system 1230 can analyze the user's status or situation using the acquired conversation. User monitoring can be performed by providing the analyzed results to the administrator through the management system 1220.
  • the call processing system 1210 sends calls to users, performs a conversation with users through calls connected to the users, and carries out a policy set in the management system 1220 (ex: call management policy or According to the call origination policy, calls can be made to users and conversations can be obtained.
  • a policy set in the management system 1220 ex: call management policy or According to the call origination policy, calls can be made to users and conversations can be obtained.
  • the call processing system 1210 may include a conversation processing unit 1211, a call connection unit 1212, a voice synthesis unit 1213, and a voice recognition unit 1214.
  • the conversation processing unit 1211 provides a conversation function with the user to whom the call is connected.
  • the conversation processing unit 1211 can conduct a conversation with the user by generating an appropriate response to the user's utterance based on a language model that has been learned for various information.
  • various user utterances can be collected through open, unstructured conversations using a language generation model, and the user's status can be confirmed by analyzing them.
  • the specific method of generating a dialogue in the dialogue processing unit 1211 according to the present invention is the same as previously described in the generating unit 140 of the dialogue processing system 100, and at this time, another configuration of the dialogue processing system 100 is user monitoring. It can correspond to other configurations of the system 1200 (e.g. storage unit 1240, memory model 1233, etc.).
  • the conversation processing unit 1211 can set the agent's persona to give the user the feeling of talking to a real person who empathizes with and worries about the user's story. Additionally, the language model can be trained to utter utterances according to scenarios designed to correspond to the set persona. Additionally, the conversation processing unit 1211 may be designed to ask a follow-up question at an appropriate level to the user's answer or the listening method used in conversation in order to express that the agent is listening to the user's words.
  • the call connection unit 1212 can be configured to send calls to users.
  • the call connection unit 1212 can send calls to users based on a policy related to call origination.
  • a call origination policy can be set through the management system 1220.
  • the voice synthesis unit 1213 may perform the role of converting text into voice so that the agent's utterance generated in the dialogue processing unit is output as voice.
  • the voice synthesis unit 1213 uses voice processing technology (e.g., hybrid use of Natural End-to-end Speech Synthesis (NES) and High-quality DNN Text-to-Speech (HDTs) technology) to create a natural voice. can be expressed.
  • the voice synthesis unit 1213 can learn the counselor's voice according to various call situations. For example, it can be learned to be a bright, lively voice as the default voice, or it can be learned to utter a voice that sympathizes with and worries about the user's situation depending on the situation.
  • the voice recognition unit 1214 may recognize the user's voice utterance and convert it into text.
  • the voice recognition unit 1214 can use voice recognition technology that utilizes an advanced big language model learned with a large amount of diverse and large-scale data. Furthermore, by considering user characteristics, it can be trained to show good performance in terms of age characteristics and regional characteristics of users.
  • the voice recognition unit 1214 may recognize the user's voice using one of voice recognition models specialized for different characteristics (e.g. characteristics defined by criteria such as region or age group). For example, the user's voice can be better recognized by using one of various voice recognition models specialized for the dialect of a specific region, incorrect pronunciation of the elderly, etc. Meanwhile, which of the plurality of models to use may be specified based on the administrator's selection in the management system 1220 or the sending target user.
  • Conversations obtained from the call processing system 1210 may be delivered to at least one of the management system 1220, the conversation analysis system 1230, and the storage unit 1240.
  • the management system 1220 may set a policy for calls to be made to the user and provide information about the status of the call made to the user or the user's status.
  • the management system 1220 may acquire information on matters to be checked (ex: health, sleep, meals, exercise, outing, etc.) to determine the user's status, and provide the obtained information to the manager.
  • the management system 1220 receives the analyzed information from the conversation analysis system 1230 and provides it to the manager. If any unusual information (e.g., health abnormality signal) that needs to be checked or monitored is detected, the management system 1220 provides it to the manager or guardian. Notifications can be provided.
  • the management system 1220 monitors users who need management based on conversations between users and agents, identifies abnormal situations, emergency situations, etc., and quickly takes action (ex: an elderly person is waiting for 119). We may provide functions such as confirming information and contacting you separately, confirming information that a lunch box has not been received and taking related action, etc.
  • the management system 1220 may include a management policy setting unit 1221, an analysis model setting unit 1222, and a screen processing unit 1223.
  • the management policy setting unit 1221 can manage policies (or “call sending policies”) for calls sent to users.
  • the management policy setting unit 1221 may set a policy for at least one of the user who is the target of the call origination, call origination time, and origination cycle.
  • a policy is an execution unit of call transmission, and one policy may include one or more users (recipients), call settings (ex: call time, call frequency, call cycle, etc.), reporting target, etc. Additionally, you can set up to manage users by adding one or more groups to one policy (ex: sending group by day of the week).
  • the management policy setting unit 1221 can set a plurality of policies, and for each policy, at least one user can be specified to apply the policy.
  • Policies can be set according to various criteria (e.g. specific regional scope) based on the administrator's selection. For example, a policy may be set based on “Magok-dong, Gangseo-gu, Seoul” and users residing here may be set to apply the policy. Additionally, for a specific policy, there may be multiple groups that are further divided based on this policy. (ex. For policies based on “Gangseo-gu”, “Magok-dong” group, “Balsan-dong” group, etc. divided based on multiple regions included in Gangseo-gu)
  • the analysis model setting unit 1222 may perform the role of setting an analysis model to analyze the conversation obtained from the call processing system 1210.
  • information on the set analysis model may be transmitted to the conversation analysis system 1230.
  • the conversation analysis system 1230 can analyze the conversation using an analysis model according to the received information, and transmit the analysis results to the management system 1220.
  • the screen processing unit 1223 may provide various information related to the call and the user based on information received from the call processing system 1210 and the conversation analysis system 1230. For example, status information or statistical information on outgoing calls (e.g., total number of outgoing calls, number of completed calls, number of answered calls, number of unanswered calls, etc.) and status information for users can be provided visually. . Additionally, user history generated from the remember model 1233 may be provided.
  • status information or statistical information on outgoing calls e.g., total number of outgoing calls, number of completed calls, number of answered calls, number of unanswered calls, etc.
  • status information for users can be provided visually.
  • user history generated from the remember model 1233 may be provided.
  • settings based on administrator selection are possible, such as policy settings, group settings, and analysis model settings discussed earlier.
  • the conversation analysis system 1230 may include various types of functions for analyzing conversations, such as a USER STATE model 1231, an emergency notification model 1232, and a memory model 1233.
  • the conversation analysis system 1230 can obtain conversation analysis results by inputting conversations into each model.
  • the call processing system 1210 may transmit the conversation obtained from the terminated conversation session to the conversation analysis system 1230 and analyze it in the conversation analysis system 1230.
  • the user state model 1231 can analyze (determine or detect) the user's state from the contents of the conversation.
  • the user status model 1231 may be composed of a classification model learned to determine the user's status for a specific category. For example, the user state model 1231 determines the user's state as positive, negative, or unknown (or irrelevant) for each category, such as health, eating, sleep, exercise, and going out. ) is learned to classify.
  • the category subject to status judgment (or classification) may be set based on the administrator's selection in the management system 1220.
  • the emergency notification model 1232 is designed to identify the user's emergency situation (or abnormal situation) from the conversation.
  • the emergency notification model 1232 can be configured to extract major abnormal signals, such as emergency situations that require monitoring by an administrator.
  • the emergency notification model 1232 uses a deep learning model learned to classify predefined emergency situations (e.g. health-related risk utterances) or provides summary information (or summary sentences) about the user's utterances in a slot. It can be implemented by processing (slot) and extracting it.
  • Information about the emergency situation determined in the emergency notification model 1232 may be transmitted to the management system 1220 and provided to the manager.
  • the remembering model 1233 ensures that memorable information about the user is stored as user history in conversations between the user and the agent.
  • User history may be used when generating an agent's utterance in the call processing system 1210. Through this, the agent reduces the repetition of the same questions to the user in each conversation session and conducts the conversation based on the user's information, further increasing intimacy with the user.
  • the memory model 1233 can update the user history based on the latest conversation session between the user and the agent to ensure that the user's latest information is maintained for the same topic or category.
  • the method of using user history to create a conversation in the conversation processing system 100 described above can be used.
  • the present invention discussed above can be implemented as a program that is executed by one or more processes on a computer and can be stored in a medium (or recording medium) that can be read by such a computer.
  • the present invention discussed above can be implemented as computer-readable codes or instructions on a program-recorded medium. That is, the present invention may be provided in the form of a program.
  • computer-readable media includes all types of recording devices that store data that can be read by a computer system.
  • Examples of computer-readable media include HDD (Hard Disk Drive), SSD (Solid State Disk), SDD (Silicon Disk Drive), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. There is.
  • the computer-readable medium may be a server or cloud storage that includes storage and can be accessed by electronic devices through communication.
  • the computer can download the program according to the present invention from a server or cloud storage through wired or wireless communication.
  • the computer described above is an electronic device equipped with a processor, that is, a CPU (Central Processing Unit), and there is no particular limitation on its type.
  • a processor that is, a CPU (Central Processing Unit)
  • CPU Central Processing Unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Engineering & Computer Science (AREA)
  • Emergency Management (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 사용자의 정보를 기초로 대화를 수행하는 대화 제공 방법 및 대화 처리 방법 및 시스템에 관한 것이다. 본 발명에 따른 대화 제공 방법은, 에이전트와 사용자 간에 대화 세션이 형성되는 단계, 상기 대화 세션 이전에 형성되었던 이전(previous) 대화 세션과 관련된 사용자의 히스토리를 이용하여, 상기 에이전트의 발화를 생성하는 단계 및 상기 에이전트의 발화를 상기 사용자에게 제공함으로써, 상기 사용자와 대화를 수행하는 단계를 포함할 수 있다.

Description

대화 제공 방법 및 대화 처리 시스템
본 발명은 사용자의 정보를 기초로 대화를 수행하는 대화 제공 방법 및 대화 처리 방법 및 시스템에 관한 것이다.
인공지능의 사전적 의미는, 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술이라 할 수 있다. 이러한 인공지능은 딥러닝으로 인하여 비약적인 발전을 이루었다.
특히, 인공지능의 발달에 힘입어, 다양한 언어모델(Language Model)이 개발되었으며, 이러한 언어모델은 텍스트를 인지하고, 그 의미를 이해할 뿐만 아니라 문서 등 방대한 텍스트가 포함된 데이터로부터 정보를 추출하고, 분류하며, 나아가 직접 텍스트를 생성하는 수준에 이르렀다.
이러한 언어모델은 다양한 분야에 적극적으로 활용되고 있으며, 예를 들어, 검색 서비스, 문서 작성(ex: 이력서 작성, 보고서 작성, 게시물 작성 등), 다양한 카테고리에 대한 자유 대화, 주어진 텍스트에서의 데이터 파싱(ex: 데이터 요약, 분류 등), 전문 지식 제공, 프로그래밍, 주어진 문장을 적절한 스타일의 문장으로 변환 등과 같이, 텍스트를 기반으로 수행될 수 있는 다양한 분야가 존재한다.
근래에는 대화 기능을 제공하는 에이전트(agent)를 이용하여, 쇼핑, 검색, 헬스케어, 상담원 서비스 등 다양한 분야에서 사용자에게 활발하게 서비스를 제공하고 있다. 그러나, 이러한 에이전트의 경우, 현재 대화 세션에서 이루어지는 사용자와의 대화 내용만 고려하고 있을 뿐, 과거 에이전트와 사용자 간의 대화 내용을 고려하는 데에는 한계가 있다. 이에, 사용자는 에이전트와의 서로 다른 대화 세션 마다 중복하여 자신의 정보를 알려주거나, 에이전트가 사용자의 상황을 고려함 없이 발화하는 내용에 대하여 정정을 하는 등의 적극적인 액션을 취해야 하며, 이로 인하여 사용자는 불편함을 겪고 있다.
본 발명은 사용자의 정보를 반영하여, 사용자와 에이전트 간 적절한 대화가 수행될 수 있도록 하는 대화 제공 방법 및 대화 처리 시스템을 제공하기 위한 것이다.
구체적으로, 본 발명은, 사용자의 히스토리 정보를 이용하여, 에이전트가 사용자의 상태 또는 상황에 적절한 대화를 이끌어 갈 수 있는 대화 제공 방법 및 대화 처리 시스템을 제공하기 위한 것이다.
나아가, 본 발명은, 사용자에 대한 중요한 정보를 기억하고, 기억한 중요한 정보를 이용하여, 사용자와 대화를 수행할 수 있는 대화 제공 방법 및 대화 처리 시스템을 제공하기 위한 것이다.
나아가, 본 발명은 사용자와 에이전트간 수행된 과거 대화 내용을 이용하여, 사용자의 상태를 체계적으로 관리할 수 있는 대화 분석 방법 및 시스템, 그리고 이를 이용한 사용자 모니터링 방법 및 시스템을 제공하기 위한 것이다.
위에서 살펴본 과제를 해결하기 위하여, 본 발명에 따른 대화 제공 방법은, 에이전트와 사용자 간에 대화 세션이 형성되는 단계, 상기 대화 세션 이전에 형성되었던 이전(previous) 대화 세션과 관련된 사용자 히스토리를 이용하여, 상기 에이전트의 발화를 생성하는 단계 및 상기 에이전트의 발화를 상기 사용자에게 제공함으로써, 상기 사용자와 대화를 수행하는 단계를 포함할 수 있다.
나아가, 본 발명에 따른 대화 처리 시스템은, 과거 대화 세션과 관련된 사용자 히스토리를 저장하는 메모리(Memory), 에이전트와 사용자 간에 형성된 현재 대화 세션에서의 사용자 발화를 수신하여, 상기 사용자 발화의 적어도 일부를 문장 형태로 요약하는 요약부(Summarizer) 및 상기 요약부에서 요약된 요약 정보와 상기 사용자 히스토리를 이용하여, 상기 메모리에 대한 동작을 특정하는 메모리 오퍼레이터(Memory Operator)를 포함할 수 있다.
나아가, 전자기기에서 하나 이상의 프로세스에 의하여 실행되며, 컴퓨터로 판독될 수 있는 기록매체에 저장된 프로그램은, 에이전트와 사용자 간에 대화 세션이 형성되는 단계, 상기 사용자의 계정에 연계되어 저장된, 상기 대화 세션 이전에 형성되었던 이전(previous) 대화 세션과 관련된 사용자의 히스토리를 이용하여, 상기 에이전트의 발화를 생성하는 단계 및 상기 에이전트의 발화를 상기 사용자에게 제공함으로써, 상기 사용자와 대화를 수행하는 단계를 수행하도록 하는 명령어들을 포함할 수 있다.
위에서 살펴본 것과 같이, 본 발명에 따른 대화 제공 방법 및 대화 처리 시스템은, 메모리에 저장된 사용자 히스토리를 이용하여, 사용자와 대화를 수행함으로써, 사용자 맞춤형 대화를 제공할 수 있다.
보다 구체적으로, 본 발명에 따른 대화 제공 방법 및 대화 처리 시스템은, 이전 대화 세션에서의 사용자의 발화를 사용자 히스토리로서 저장하고, 이를 이용하여 사용자와 대화를 수행함으로써, 사용자 히스토리에 따른 최신 정보를 기반으로 사용자와 자연스러운 대화를 수행할 수 있다.
나아가, 본 발명에서는 사용자 히스토리에 기반하여 사용자와 대화를 수행함으로써, 사용자 히스토리에 따른 사용자의 상황 또는 상태를 모니터링하거나, 체크할 수 있다.
한편, 본 발명에 따른 대화 제공 방법 및 대화 처리 시스템은, 사용자와 에이전트 간의 대화 세션에서의 사용자의 발화 중 중요한 사용자 발화에 대해서만 요약하도록 학습된 요약부를 이용하여, 사용자의 발화를 요약할 수 있다. 이를 통하여, 무분별하게 메모리 자원을 소비하는 것을 막을 수 있으며, 사용자와 관련된 중요 정보를 기반으로, 사용자와의 새로운 대화세션을 제공할 수 있다.
도 1, 도 2a, 도 2b, 도 2c 및 도 3은 본 발명에 따른 대화 처리 방법 및 대화 처리 시스템을 설명하기 위한 개념도들이다.
도 4는 본 발명에 따른 대화 처리 시스템의 요약부에서 대화를 처리하는 방법을 설명하기 위한 개념도이다.
도 5 내지 도 9는 본 발명에 따른 대화 처리 시스템의 메모리 오퍼레이터에서 대화를 처리하는 방법을 설명하기 위한 개념도들이다.
도 10 및 도 11은 본 발명에 따른 대화 처리 시스템의 생성부에서 대화를 생성하는 방법을 설명하기 위한 개념도들이다.
도 12는 본 발명에 따른 사용자 모니터링 시스템(1200)을 설명하기 위한 개념도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소에는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 “모듈” 및 “부”는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, “포함한다” 또는 “가지다” 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명은 사용자의 정보를 반영하여, 사용자와 에이전트 간 적절한 대화가 수행될 수 있도록 하는 대화 제공 방법 및 대화 처리 시스템을 제공하기 위한 것이다. 구체적으로, 본 발명은 사용자의 히스토리 정보를 이용하여, 에이전트가 사용자의 상태 또는 상황에 적절한 대화를 이끌어 갈 수 있는 대화 제공 방법 및 대화 처리 시스템을 제공하기 위한 것이다.
도 1에 도시된 것과 같이, 에이전트(agent)는 다양한 종류의 전자기기(20)의 일 기능으로서 포함되거나, 대화 서비스, 케어 서비스 또는 상담 서비스와 같이 사용자와 에이전트 간 대화가 이루어질 수 있는 다양한 서비스를 제공하는 웹사이트, 애플리케이션(application) 또는 소프트웨어(software)의 일 기능으로서 포함될 수 있다.
사용자(User)와 에이전트 간에 이루어지는 대화(30)의 형식은 다양할 수 있으며, 예를 들어, 음성 또는 채팅의 형식으로 대화가 이루어질 수 있다. 설명의 편의를 위하여, 대화의 형식이 음성 또는 텍스트(ex. 채팅)인 것을 구분하지 않기로 한다. 나아가, 대화의 형식에 관계없이, 사용자로부터 생성된 대화는 사용자 발화 또는 사용자의 발화 등으로 표현하고, 에이전트 측에서 생성된 대화는 에이전트 발화 또는 에이전트의 발화 등으로 표현하기로 한다. 한편, 사용자와 대화를 수행하는 에이전트는 “봇(bot)” 또는 “챗봇(chatbot)”이라고도 명명될 수 있다.
본 발명에 따른 대화 처리 시스템(100)은 사용자와 에이전트 간에 시간 차를 두고 여러번 대화가 이루어지는 경우, 즉 long-term 대화에서 이용할 수 있는 메모리 관리를 기반으로 한 대화 시스템이다. 도 2a, 도 2b 및 도 2c에 도시된 것과 같이, 사용자와 에이전트 간에 다수의 대화 세션(ex: Session 1, Session2, Session 3)이 형성되는 경우, 이전에 형성된 대화 세션의 대화 내용을 이용하여, 현재 대화 세션의 대화를 구성할 수 있는 방법을 제공한다.
본 발명에 따른 대화 처리 시스템(100)은 사용자와 에이전트 간에 이루어진 대화를 수신하여, 대화의 내용에 대한 정보를 메모리(130)에 저장하는 일련의 과정을 수행할 수 있다. 본 발명에서는, 메모리(130)에 저장된 기존 대화 내용에 대한 정보를 “사용자 히스토리”라고 표현할 수 있다.
예를 들어, 제1 대화 세션(ex: Session 1, 도 2a), 제2 대화 세션(ex: Session2, 도 2b), 제3 대화 세션(ex: Session 3, 도 2c)이 제1 대화 세션부터 순차적으로 일어난 대화 세션이라고 가정하자.
제2 대화 세션이 진행중인 경우에는, 과거에 진행된 제1 대화 세션(ex: Session 1, 도 2a)에서의 사용자와 에이전트 간의 대화(201, 202)에 기반한 사용자 히스토리(221, 222)가 제2 대화 세션 에이전트의 발화(204)에 이용될 수 있다. 나아가, 제3 대화 세션에 해당하는 대화 세션이 진행 중인 경우, 제1 및 제2 대화 세션 중 적어도 하나에 해당하는 사용자와 에이전트 간의 대화(201, 202, 203, 204)에 기반한 사용자 히스토리(221, 222, 223, 224)가 제3 대화 세션 에이전트의 발화(206)에 이용될 수 있다.
도시와 같이, 제1 대화 세션에서 사용자의 발화(201) 중 적어도 일부와 관련된 내용은 사용자 히스토리(221, 222)로서, 메모리(130)에 저장될 수 있다. 나아가, 대화 처리 시스템(100)은 메모리(130)에 저장된 사용자 히스토리를 이용하여, 제1 대화 세션이후에 사용자와 에이전트 간에 형성되는 제2 대화 세션에서 에이전트의 발화(204)를 생성할 수 있다.
제1 대화 세션이 종료되면, 대화 처리 시스템(100)은 제1 대화 세션의 대화 중 적어도 일부와 관련된 내용을 문장 형태로 메모리(130)에 저장할 수 있다. 그리고, 제1 대화 세션 이후, 사용자와 에이전트 간에 제2 대화 세션이 진행되는 경우, 대화 처리 시스템(100)은 사용자 히스토리에 해당하는 문장 중 어느 하나를 이용하여, 이와 관련된 에이전트의 발화를 생성할 수 있다.
예를 들어, 에이전트는, 이전(previous) 대화 세션(또는 과거 대화 세션)에서 기억되었던 사용자 히스토리 “감기로 목이 아픈 상태”(221)에 대한 사용자의 상태 또는 상황을 체크하는, “선생님, 목감기는 좀 어떠세요?”(204a)라는 발화를 생성할 수 있다.
다른 예로, “병원에 다녀올 예정”에 해당하는 사용자 히스토리(222)에 대응해서는, 사용자가 병원을 다녀왔는지를 체크하는 “병원에서는 뭐라고 하던가요?” 라는 에이전트의 발화(204b)를 생성할 수 있다.
마찬가지로, 제2 대화 세션이 종료되면, 대화 처리 시스템(100)은, 제2 대화 세션에서 이루어진 대화의 내용 중 적어도 일부에 대한 정보를 사용자 히스토리(223, 224)로서 메모리(130)에 저장할 수 있다. 그리고, 메모리(130)에 저장된 사용자 히스토리는, 제2 대화 세션 이후에 진행되는 제3 대화 세션에서 활용될 수 있다.
이와 같이, 본 발명에 따른 대화 처리 시스템(100)는 사용자와 에이전트 간에 이루어지는 복수의 대화 세션에서 이루어진 대화의 내용을 메모리에 관리하여 이용함으로써, 사용자의 다양한 상태(ex: 건강, 수면 등) 또는 상황(ex: 주거 상황, 취업 상황 등)에 대한 지속적인 모니터링 및 관리를 가능하게 하고, 사용자와 보다 자연스럽고 적절한 대화를 하도록 할 수 있다.
한편, 본 발명에 따른 대화 처리 시스템(100)에서는, 동일 주제 또는 카테고리에 대하여, 사용자의 최신 정보가 유지되도록, 메모리(130)를 업데이트할 수 있다. 즉, 과거 대화 세션에 기반하여 저장된 사용자 히스토리는, 현재 대화 세션의 대화에 기반하여 업데이트될 수 있다.
예를 들어, 제1 대화 세션에서, 사용자 히스토리로서 “감기로 목이 아픈 상태”(221)라는 내용(또는 문장, (이하, 설명의 편의를 위하여, “문장”이라는 용어를 사용하도록 하나, 반드시 문장의 형태는 아니어도 무방하다))이 저장되어 있다. 이때, 제2 대화 세션에서 진행된 대화로부터 사용자의 목 상태가 괜찮아진 것으로 분석된 경우, 사용자는 더 이상 목이 아픈 상태가 아니므로 “감기로 목이 아픈 상태”(221)라는 문장은 삭제됨으로써, 메모리(130)가 업데이트될 수 있다.
유사한 예로서, 사용자 히스토리로서, “병원에 다녀올 예정”(222)이라는 내용이 저장되어 있다. 이때, 제2 대화 세션에서 진행된 대화(203b)로부터, 사용자가 병원에 다녀온 것으로 분석된 경우, 사용자 히스토리에는, 더 이상 “병원에 다녀올 예정”(222)이라는 내용이 저장될 필요가 없으므로 이 문장은 삭제될 수 있다.
위에서 살펴본 것과 같이, 본 발명에 따른 대화 처리 시스템은, 사용자와 에이전트 간의 대화 세션의 대화 중 사용자와 관련하여 기억할 만한 정보는 사용자 히스토리로서 메모리에 저장하거나 불필요한 정보는 삭제 할 수 있다. 그리고, 다음 대화 세션에서, 사용자 히스토리를 이용하여 에이전트의 발화를 생성함으로써, 사용자의 최신의 상황 또는 상태에 기반한 자연스러운 대화를 진행할 수 있다.
이를 위해, 본 발명에 따른 대화 처리 시스템(100)은 요약부(Summarizer, 110), 메모리 오퍼레이터(Memory Operator, 120), 메모리(Memory, 130) 및 생성부(Generator, 140)를 포함할 수 있다. 나아가, 대화 처리 시스템(100)은 검색부(retriever, 150)를 더 포함하도록 구성될 수 있다.
도 3 및 도 4에 도시된 것과 같이, 요약부(110)는 에이전트와 사용자 간에 이루어진 대화 세션의 대화 내용(D)을 수신하여 요약(115)을 생성할 수 있다. N번째 대화 세션의 대화는, N번째 대화 세션이 종료된 이후, 요약부(110)에 전달되어 처리 될 수 있다. 요약부(110)에 대화를 전달하는 주체는 대화 서비스를 제공하는 서비스 서버일 수 있으며, 본 발명에서는 이에 대한 특별한 한정을 하지 않는다.
도시와 같이, 요약부(110)에는 에이전트의 발화 및 사용자의 발화를 각각 포함하는 대화(D)가 입력되며, 요약부(110)는 대화(D)에 기반하여 요약(115)을 생성할 수 있다.
보다 구체적으로 요약부(110)는 대화 내용 중 사용자와 관련하여 기억할 만한 정보를 자연어 문장 형태로 요약할 수 있다.
요약부(110)는 대화(D) 중 사용자와 관련하여 기억할 만한 정보를 자연어 문장 형태로 요약하도록 학습된 언어 모델로 구성 될 수 있다. 예를 들어, 이미 다양한 정보에 대하여 학습이 이루어진 기 학습 언어 모델(Pre-trained Language Model)을 대화 세션 및 해당 대화 세션에서 기억할만한 주요 정보로 구성된 학습 데이터 SET으로 튜닝한 언어 모델을 사용하여, 대화가 입력되면 요약 내용(예를 들어, 요약 문장(이하, 설명의 편의를 위하여, “요약 문장”이라는 용어를 사용하도록 하나, 반드시 요약 문장의 형태는 아니어도 무방하다))을 생성하도록 할 수 있다. 바람직하게는 언어 모델이 구획문자(delimiter)로 newline을 이용하여 요약 문장을 생성하도록 학습시킬 수 있다.
구체적으로, 대화 기록 D에 대해 기억할만한 유저 정보를 다양한 자연어 문장 S = {S1, S2, …, Sk} 로 요약하는 요약 모델은 정답 문장(gold summary sentence
Figure PCTKR2023008640-appb-img-000001
)에 대해 다음 Loss를 최소화하도록 매개변수(parameter) Φ를 학습할 수 있다.
Figure PCTKR2023008640-appb-img-000002
요약부(110)는 기 설정된 카테고리(category, 또는 주제(topic))에 대해서만 요약 문장을 생성하도록 학습될 수 있다. 예를 들어, 기 설정된 카테고리는, 사용자의 다양한 상태 또는 상황에 대한 카테고리일 수 있다. 일 예로서, 기 설정된 카테고리는 건강, 수면, 운동, 식사, 취업 등과 관련된 것일 수 있다.
이 경우, 대화(D) 중 건강의 카테고리와 관련된 “지금은 목이 아픈 건 괜찮은데, 머리가 좀 아파요”(301) 등의 대화 내용에 기반하여, 요약부(110)는 “목은 괜찮고 머리가 아픈 상태” (311) 또는 “목이 아팠으나 괜찮아짐, 머리가 아픈 상태”라는 요약 정보를 생성할 수 있다.
나아가, 대화(D) 중 “좀 더 지켜보래요. 다음주에 또 병원이 예약되어 있어요”(302) 등의 대화 내용에 기반하여, 요약부(110)는 “병원이 예약되어 있는 상태” (312)라는 요약 정보를 생성할 수 있다.
그리고, 대화(D) 중 수면의 카테고리와 관련된 “요즘 통 잠을 못자겠어요”(303) 등의 대화 내용에 기반하여, 요약부(110)는 “잠을 잘 못자는 상태” (313)라는 요약 정보를 생성할 수 있다.
한편, 요약부(110)는 대화 세션의 대화에 포함된 사용자의 발화 중 기 설정된 카테고리에 해당하는 내용에 대해서만 요약 문장을 생성하도록 학습된 결과, 사용자의 발화 중 기 설정된 카테고리와 다른 카테고리에 해당하는 내용에 대해서는 요약 문장을 생성하지 않을 수 있다. 예를 들어, 도 4에 도시된 것과 같이, 요약부(110)는 대화 세션(Session 1 또는 Session 2 등)의 대화 중 기 설정된 카테고리에 해당하는 건강, 수면, 운동, 식사 또는 취업과 관련된 사용자 발화(401, 402, 411, 412, 413)에 대해서는 요약 문장(421, 422, 431, 432, 433)을 생성할 수 있다. 그리고, 기 설정된 카테고리가 아닌, 다른 카테고리 예를 들어, “날씨”에 대한 카테고리의 대화(403, “요즘 날씨가 너무 더워서 큰일이에요, 저는 더위가 정말 싫어요”)에 대해서는, 요약 문장을 생성하지 않을 수 있다.
한편, 요약부(110)는 대화가 수신되는 경우, 요약 모델을 이용해서 기 설정된 카테고리에 대하여 대화를 구성하는 사용자 발화 및 에이전트 발화에 해당하는 문장들의 요약 문장을 생성할 수 있다. 구체적으로, 요약 모델은 대화 및 카테고리 정보(ex. “건강”, “수면” 등)를 입력으로 받아, 대화 내용 중에서 해당 카테고리와 관련된 요약 정보를 생성하도록 학습된 언어 모델일 수 있다. 따라서, 요약부(110)에서 요약된 요약 문장은, 해당 요약 문장이 어느 카테고리에 해당하는 내용인지에 대한 정보가 매칭되어 존재할 수 있다. 요약 문장이 저장되는 메모리에는, 기 설정된 카테고리 별로, 요약 문장이 저장되어 존재할 수 있다. 요약부(110)에서는 문장들에 대하여 요약을 수행하기 전에, 문장들에 대한 카테고리를 먼저 분류할 수 있으며, 그 결과 기 설정된 카테고리로 분류된 문장들에 대해서만 요약 문장을 생성할 수 있다. 따라서, 요약이 불필요한 문장에 대해서는 요약 문장을 생성하지 않음으로써, 데이터 자원을 절약할 수 있다.
다음으로, 메모리 오퍼레이터(Memory Operator, 120)는 메모리(Memory, 130)에 저장된 사용자 히스토리(또는 사용자 정보)가 사용자에 대한 최신의 정보를 유지할 수 있도록, 메모리(130)의 동작을 제어할 수 있다.
메모리(130)는, 대화 처리 시스템(100)의 내부 및 외부(ex: 외부 서버, 클라우드 서버 또는 클라우드 저장소 등) 중 적어도 하나에 위치할 수 있다. 도 3에 도시된 것과 같이, 메모리 오퍼레이터(120)는 요약부(110)에서 요약된 요약 문장(또는 요약 정보, 311, 312, 313)와 메모리(130)에 기 저장된 사용자 히스토리(구체적으로, 사용자 히스토리를 구성하는 문장(321, 322, 323))을 이용하여, 메모리(130)에 대한 동작을 특정할 수 있다.
도 3에 도시된 것과 같이, 메모리(130)에 저장된 사용자 히스토리는 N번째 대화 세션이 형성되기 이전에, 사용자와 에이전트 간에 형성된 이전 대화 세션들의 대화 내용에 따라 구성될 수 있다. 메모리(130)에 저장된 사용자 히스토리는, 이전 대화 세션들의 대화 중 적어도 일부를 요약부(110)가 요약한 요약 문장들(321, 322, 323)으로 구성될 수 있다. 사용자의 히스토리는, 상기 사용자의 상태 또는 상황과 관련된 내용을 포함할 수 있다.
메모리(130)는, 메모리 오퍼레이터(120)에 의해 특정된 동작에 따라 갱신(update)될 수 있다. 메모리(130)는 특정된 동작에 따라, i)요약 정보 중 적어도 일부를 메모리(130)에 저장하거나, ii)저장되어 있는 사용자 히스토리 중 적어도 일부를 삭제할 수 있다.
메모리 오퍼레이터(120)는 대화 세션의 대화로부터 요약된 요약 문장과, 메모리에 저장된 사용자 히스토리에 포함된 요약 문장 쌍에 대하여 메모리에 대한 서로 다른 동작 중 어느 하나에 해당하는 동작을 수행하도록 제어할 수 있다. N번째 대화 세션의 대화에 대한 요약 문장에 대한 동작이 수행되면, 메모리(130)에 저장된 사용자 히스토리는 N번째 대화 세션의 대화의 내용을 반영하도록 업데이트될 수 있다.
메모리에 저장된 사용자 히스토리에 포함된 요약 문장(m) 및 새로운 대화 세션에 대한 요약 문장(s)에 대하여, 본 발명에서 정의하는 메모리(130)에 대한 서로 다른 동작(operation)에 대하여 살펴본다.
제1 동작은, m을 메모리(130)에 저장하는 것을 유지하되, s는 메모리(130)에 저장하지 않는 동작(PASS)을 의미할 수 있다. 제1 동작은, 두 문장의 내용이 동일 또는 유사한 경우이거나, s의 내용이 m의 내용에 포함되는 경우일 수 있다. 이와 같이 메모리를 업데이트 할 필요가 없을 때 제1 동작을 수행할 수 있다.
예를 들어, 도 3에 도시된 것과 같이, 메모리(130)에 저장된 사용자 히스토리에 해당하는 요약 문장 “병원에 다녀올 예정” (322)과 현재 대화 세션의 요약 문장인 “병원 예약된 상태”(312)에 대해, 메모리 오퍼레이터(120)는 메모리(130)에 저장된 사용자 히스토리가 그대로 유지되도록 할 수 있다.
제2 동작은, m을 메모리(130)에 저장하는 것을 유지하면서, s도 메모리(130)에 저장하는 동작(APPEND)을 의미할 수 있다. 제2 동작은, m의 내용과 s의 내용이 서로 관련이 없거나 추가적인 정보가 되는 경우에 해당할 수 있다.
예를 들어, 도 3에 도시된 것과 같이, 메모리(130)에 저장된 사용자 히스토리에 해당하는 요약 문장 “조깅을 했음” (323)와 현재 대화 세션의 요약 문장인 “잠을 잘 못자는 상태” (313) 간에는 서로 관련성이 없으므로 메모리 오퍼레이터(120)는 대화 세션의 요약 문장 “잠을 잘 못자는 상태” (313)가 메모리(130)에 새롭게 추가되도록, 메모리(130)의 동작을 제어할 수 있다.
제3 동작은, m을 메모리(130)로부터 삭제하고, s를 메모리(130)에 저장하는 동작(REPLACE)을 의미할 수 있다. 즉, 메모리(130)의 m을 s로 교체할 수 있다. 제3 동작은, 두 문장의 내용이 서로 일치하지 않거나 모순되는 경우로서, 메모리 오퍼레이터(120)는 사용자 히스토리를 사용자의 최신의 정보로 유지하기 위하여, 종래 메모리(130)에 저장된 정보를 삭제한다. 예를 들어, 도 3에 도시된 것과 같이, 메모리(130)에 저장된 사용자 히스토리에 해당하는 요약 문장 “감기로 목이 아픈 상태” (321)와 대화 세션의 요약 문장인 “목은 괜찮고 머리가 아픈 상태” (311)에 대해, N번째 대화 세션에서 대화의 내용상 사용자는 목이 더 이상 아프지 않고, 머리가 아픈 상태로 전환되었으므로, 메모리 오퍼레이터(120)는 “감기로 목이 아픈 상태” (321) 대신, “목은 괜찮고 머리가 아픈 상태” (311)가 메모리(130)에 저장되도록 메모리(130)의 동작을 제어할 수 있다.
제4 동작은 m을 메모리(130)로부터 삭제하고, s도 메모리(130)에 저장하지 않는 동작(DELETE)을 의미할 수 있다. 제4 동작에 해당하는 경우는, 문장들의 내용이 더 이상 사용자의 상태 또는 상황을 반영하지 않는 경우일 수 있다. 예를 들어, 사용자 히스토리로서, “감기약을 먹음”이라는 요약 문장과, N번째 대화 세션에서 “감기가 나음” 이라는 요약 문장이 존재하는 경우, 사용자는 감기가 다 나았으므로, 더 이상 감기약이 필요하지 않다. 이 경우, 메모리(130)에는 더 이상 감기와 관련하여 사용자에 대한 정보를 기억할 필요가 없다.
도 5에 도시된 것과 같이, 메모리 오퍼레이터(120)는 대화 세션에서 요약된 요약 문장들과 메모리에 저장된 사용자 히스토리에 대하여, 제1 내지 제4 동작 중 어느 하나에 따른 메모리 동작을 특정할 수 있다.
제1 대화 세션(Session 1)이, 사용자와 관련하여 제1 번째(최초 또는 처음)의 대화 세션인 경우, 메모리(Memory 1)에는 사용자 히스토리가 존재하지 않을 수 있다. 이 경우, 제1 대화 세션(Session 1)과 사용자 히스토리에 대한 메모리 오퍼레이터(120)의 동작 결과는, 모두 제2 동작인 “APPEND”일 수 있다. 따라서, 메모리(Memory 2)에는, 제1 대화 세션(Session 1)에서 요약된 요약 문장들(Summary 1)이 그대로 저장될 수 있다.
한편, 제1 대화 세션(Session 1) 이후에 제2 대화 세션(Session 2)이 이루어지는 경우, 요약부(110)는 제2 대화 세션의 대화를 수신하여, 제2 대화 세션의 대화에 대한 요약 문장들(Summary 2)을 생성할 수 있다. 그리고, 메모리 오퍼레이터(120)는 메모리(130)에 저장된 사용자 히스토리(Memory 2)와 제2 대화 세션에 대한 요약 문장들(Summary 2)을 이용하여, 메모리(130)를 업데이트할 수 있다. 사용자 히스토리(Memory 2)와 제2 대화 세션에 따른 대화에 대한 요약 문장들(Summary 2)에 대하여 특정된 메모리(130)의 동작에 따라, 제2 대화 세션(Session 2)을 반영한 사용자 히스토리(Memory 3)가 구성될 수 있다.
도 6은 메모리 오퍼레이터(120)에서의 메모리 갱신(update) 알고리즘을 간략하게 나타낸 것이다. 본 발명의 메모리 갱신 프로세스는 기존 정보와 새로운 정보를 앞서 설명한 동작(operator)들를 이용하여 결합함으로써 사용자의 최신 정보를 유지할 수 있다.
메모리 M에 저장된 n개의 기억 문장들
Figure PCTKR2023008640-appb-img-000003
과, 새로운 k개의 요약 문장들
Figure PCTKR2023008640-appb-img-000004
가 주어졌을 때, 메모리 오퍼레이터(120)는 이들을 이용하여 정보의 손실 없고, 일관되고, 중복 없는 문장 셋(set)인
Figure PCTKR2023008640-appb-img-000005
을 찾아낼 수 있다.
M'을 찾아 내기 위해서
Figure PCTKR2023008640-appb-img-000006
,
Figure PCTKR2023008640-appb-img-000007
인 문장 쌍
Figure PCTKR2023008640-appb-img-000008
의 관계를 분류하는 방법을 이용할 수 있다. 메모리 오퍼레이터(120)는
Figure PCTKR2023008640-appb-img-000009
에 대하여 앞서 살펴본 제1 내지 제4 동작인
Figure PCTKR2023008640-appb-img-000010
중 하나의 값을 결정한다.
메모리 갱신부는 메모리를 M'으로 갱신할 수 있다. 한편, 본 발명의 일실시예에 따르면, 사용자 히스토리 및 요약 문장 간의 모든 쌍에 대해서 비교를 하는 대신에, 서로 동일한 카테고리에 해당하는 문장들에 대해서만, 메모리의 동작을 특정하도록 이루어질 수 있다.
메모리(130)에는 요약 문장들이, 각각에 대응되는 카테고리 별로 분류되어 저장될 수 있다. 따라서, 메모리 오퍼레이터(120)는 서로 동일한 카테고리들 간의 요약 문장들에 대해서만 메모리(130)의 동작을 특정할 수 있다.
도 7에 도시된 것과 같이, 기 설정된 제1 내지 제4 카테고리가 존재하는 경우, 메모리 오퍼레이터(120)는, 각각의 카테고리에 해당하는 문장들을 한쌍으로서 비교할 수 있다. 메모리 오퍼레이터(120)는 카테고리 별로, 한 쌍으로 입력된 문장들에 대하여, 앞서 살펴본 제1 내지 제4 동작(PASS, APPEND, REPLACE, DELETE) 중 어느 하나의 동작을 특정할 수 있다. 그 결과, 각각의 카테고리에 대하여, 메모리(130)에 저장된 사용자 히스토리가 업데이트될 수 있다.
한편, 메모리(130)에는, 기 설정된 카테고리 별로, 요약 문장이 사용자 히스토리로서 존재할 수 있다. 이는, 각 카테고리 별로, 사용자의 최신의 상황 또는 상태에 대한 정보만을 유지하기 위함이다.
메모리 오퍼레이터(120)는 위에서 설명한 것과 같이, 한 쌍의 문장들에 대하여, 제1 내지 제4 동작 중 어느 하나에 해당하는 메모리(130)의 동작을 예측 또는 특정할 수 있도록 학습된 분류 모델을 이용하여 구성 될 수 있다. 모델의 학습을 위한 데이터 셋은, 도 8 및 도 9에 도시된 것과 같이, m(또는 전제 문장(premise sentence)) 및 s(또는 가설 문장(hypothesis sentence))에 해당하는 한 쌍의 문장, 그리고 상기 한 쌍의 문장들이 제1 내지 제4 동작(PASS, APPEND, REPLACE, DELETE) 중 어느 동작에 해당하는지를 나타내는 레이블(label)로 구성될 수 있다.
메모리 오퍼레이터(120)는 한 쌍의 문장들 및 한 쌍의 문장들에 대응되는 제1 내지 제4 동작 중 어느 하나의 레이블(예를 들어, 각각 숫자 0 내지 3에 해당하는 단일 토큰에 매핑)에 근거하여, 학습될 수 있다.
메모리 오퍼레이터(120)는 위에서 살펴본 방법으로 학습된 결과, 한 쌍의 문장들에 대하여, 제1 내지 제4 동작 중 어느 하나에 해당하는 메모리(130)의 동작을 예측 또는 특정할 수 있게 된다.
생성부(Generator, 140)는 메모리(130)에 저장된 사용자 히스토리를 이용하여, 에이전트의 발화를 생성하도록 이루어진다.
보다 구체적으로, 도 10에 도시된 것과 같이, 본 발명에서는 에이전트와 사용자 간에 대화 세션이 형성되는 과정(S1010)이 진행될 수 있다. 그리고, 사용자 히스토리를 이용하여, 에이전트의 발화를 생성하는 과정이 진행될 수 있다(S1020). 앞선 설명에서 살펴본 것과 같이, 사용자 히스토리는 상기 에이전트와 상기 사용자 간에 형성되었던 이전(previous) 대화 세션으로부터 추출된 정보에 기반하여 구성될 수 있다.
한편, 메모리(130)에는 사용자 계정 별로, 각각 대응되는 사용자 히스토리가 존재할 수 있다. 생성부(140)는 현재 대화를 수행하고 있는 사용자의 사용자 계정에 연계되어 저장된 사용자 히스토리를 참조하여, 에이전트의 발화를 생성할 수 있다.
생성부(140)는 메모리(130)에 저장된 사용자 히스토리 중 적어도 일부와, 현재 세션에서의 대화 이력을 이용하여 에이전트의 발화를 생성할 수 있다. time step t 에서의 대화 이력 Dt는 다음과 같이 표현될 수 있다(c는 에이전트의 발화, u는 사용자의 발화).
Figure PCTKR2023008640-appb-img-000011
사용자 히스토리 중 적어도 일부와 대화 이력 Dt가 주어졌을 때,
Figure PCTKR2023008640-appb-img-000012
와 같이 표현되는 다음 대상 응답(즉, 다음 에이전트의 발화, Ct+1)의 조건부 확률은, 아래의 수학식 1과 같은 조건부 확률 시퀀스의 곱으로 나타낼 수 있다.
Figure PCTKR2023008640-appb-img-000013
여기에서, wi는 시퀀스의 i번째 토큰이고 θ는 모델의 학습 가능한 매개변수(parameter)이다. 생성부(140)는 이미 다양한 정보에 대하여 학습이 이루어진(pre-trained) 대형 언어 모델(Language Model)을 “maximum likelihood estimation(MLE)”을 사용하여 미세 조정(fine-tuning) 한 언어 모델로 구성 될 수 있다. 이 모델은 다음 수학식 2를 최소화 하도록 학습된다.
Figure PCTKR2023008640-appb-img-000014
생성부(140)는 사용자 히스토리로서, 사용자의 상태 또는 상황과 관련된 서로 다른 복수의 카테고리에 각각 대응되는 복수의 요약 문장이 존재하는 경우(도 11의 도면부호 1111, 1112, 1113, 1114 참조), 현재 진행되고 있는 대화 세션의 대화의 문맥에 근거하여, 복수의 요약 문장 중 어느 하나의 요약 문장을 이용하여, 상기 에이전트의 발화를 생성할 수 있다. 도 11에 도시된 것과 같이, 사용자와 에이전트 간에 대화 세션(D2)이 시작되면, 생성부(140)에는 메모리(130)에 저장된 상기 사용자의 사용자 히스토리에 해당하는 복수의 요약 문장들(1111, 1112, 1113, 1114) 전부 또는 일부가 전달되어, 현재 진행되고 있는 대화 세션에서 에이전트의 발화를 생성하는데 이용될 수 있다.
검색부(150)는 메모리(130)에 저장된 상기 복수의 요약 문장들 중 일부를 선택하여 생성부(140)에 전달할 수 있다. 경우에 따라, 검색부(150)의 구성은 생략되고 메모리에 저장된 복수의 요약 문장들 모두를 생성부(140)에 전달할 수 있다.
생성부(140)는 사용자 히스토리를 구성하는 복수의 요약 문장 중 현재 진행되고 있는 대화 세션의 대화의 문맥에 대응되는 요약 문장이 존재하지 않는 경우, 상기 복수의 요약 문장을 상기 에이전트의 발화를 생성하는 데에 이용하지 않을 수 있다. 즉, 사용자 히스토리가 존재하더라도, 생성부(140)는 대화의 문맥 상 관련 없는 내용들은 에이전트의 발화에 이용하지 않을 수 있다. 이와 같이, 본 발명에서는 사용자 히스토리에 기반하여 생성된 에이전트의 발화를 사용자에게 제공함으로써, 사용자와 대화를 수행하는 과정이 진행될 수 있다(S1030).
이와 같이, 본 발명에 따르면 이전 대화 세션에서의 사용자의 발화를 사용자 히스토리로서 저장하고, 이를 이용하여 사용자와 대화를 수행함으로써, 사용자 히스토리에 따른 최신 정보를 기반으로 사용자와 자연스러운 대화를 수행할 수 있다. 나아가, 본 발명에서는 사용자 히스토리에 기반하여 사용자와 대화를 수행함으로써, 사용자 히스토리에 따른 사용자의 상황 또는 상태를 모니터링하거나, 체크할 수 있다.
본 발명의 일 실시예에 따르면, 특정 사용자와 콜 연결 등을 통해 주기적으로 대화를 수행하여, 사용자의 상태를 관리하는 사용자 모니터링 방법 및 시스템을 제공할 수 있다. 도 12를 참조하면, 본 발명에 따른 사용자 모니터링 시스템(1200)은, 콜 처리 시스템(1210), 관리 시스템(1220), 대화 분석 시스템(1230) 및 저장부(1240) 중 적어도 하나를 포함하여 구성될 수 있다. 각 구성은 모두 독립적으로 운용될 수 있으며, 개념상 이들의 조합에 의하여 발휘되는 기능을 사용자 모니터링 방법 또는 사용자 모니터링 시스템에 의해 실행된다고 표현할 수 있다.
대화 분석 시스템(1230)은 획득된 대화를 이용하여 사용자의 상태 또는 상황을 분석할 수 있다. 분석된 결과는 관리 시스템(1220)을 통해 관리자에게 제공함으로써, 사용자 모니터링이 수행될 수 있다.
콜 처리 시스템(1210)은 사용자들에게 콜(call)을 발신하고, 사용자들과 연결된 콜을 통해, 사용자와 대화하는 역할을 수행하며, 관리 시스템(1220)에서 설정된 정책(ex: 콜 관리 정책 또는 콜 발신 정책)에 따라, 사용자들에게 콜을 발신하고, 대화를 획득할 수 있다.
콜 처리 시스템(1210)은 대화 처리부(1211), 콜 연결부(1212), 음성 합성부(1213), 음성 인식부(1214)을 포함하여 구성될 수 있다.
대화 처리부(1211)는 콜이 연결된 사용자와 대화 기능을 제공한다. 대화처리부(1211)는 다양한 정보에 대하여 학습이 이루어진 언어 모델(Language Model)에 기반하여, 사용자의 발화에 대한 적절한 응답을 생성하여 사용자와 대화를 수행할 수 있다. 본 발명에서는 언어 생성 모델을 활용한 정형화되지 않은 개방형 대화를 통해 다양한 사용자 발화를 수집하고, 이를 분석하여 사용자의 상태를 확인할 수 있다.
본 발명에 따른 대화처리부(1211)에서 대화를 생성하는 구체적인 방법은 앞서 대화 처리 시스템(100)의 생성부(140)에서 설명한 바와 같으며, 이 때 대화처리 시스템(100)의 다른 구성은 사용자 모니터링 시스템(1200)의 다른 구성(ex. 저장부(1240), 기억하기 모델(1233) 등)에 대응할 수 있다.
나아가, 대화 처리부(1211)는 사용자가 자신의 이야기에 공감하고 걱정하는 실제 사람과 대화하는 느낌을 주도록 에이전트의 페르소나를 설정할 수 있다. 그리고, 설정된 페르소나에 대응되도록 설계된 시나리오에 따라 발화되도록 언어 모델을 학습시킬 수 있다. 또한 대화처리부(1211)는 에이전트가 사용자의 말에 경청하고 있음을 표현하기 위해, 대화에서 활용되는 경청화법이나 사용자의 답변에 적절한 수준의 꼬리 질문을 할 수 있도록 설계될 수 있다.
콜 연결부(1212)는 사용자들에게 콜을 발신하도록 이루어질 수 있다. 콜 연결부(1212)는 콜 발신 관련 정책에 근거하여, 사용자들에게 콜을 발신할 수 있다. 콜 발신 정책은 관리 시스템(1220)을 통하여 설정될 수 있다.
음성 합성부(1213)는 대화처리부에서 생성된 에이전트의 발화가 음성으로서 출력되도록 텍스트를 음성으로 변환하는 역할을 수행할 수 있다. 음성 합성부 (1213)는 음성 처리 기술(예를 들어, NES(Natural End-to-end Speech Synthesis) 및 HDTs(High-quality DNN Text-to-Speech) 기술을 하이브리드로 활용)을 이용하여 자연스러운 목소리를 표현할 수 있다. 음성 합성부(1213)는 다양한 콜 상황에 따른 상담원의 목소리를 학습할 수 있다. 예를 들어, 기본 목소리로서 밝고, 활기찬 목소리로 학습되거나 상황에 따라 사용자의 상황에 공감하고 걱정하는 목소리로 발화할 수 있도록 학습될 수 있다.
음성 인식부(1214)은 사용자의 음성 발화를 인식하여 텍스트로 변환하도록 이루어질 수 있다. 예를 들어, 음성 인식부(1214)로는 다양하고 규모가 큰 대량의 데이터로 학습된 고도화된 빅 언어 모델을 활용한 음성 인식 기술을 이용 할 수 있다. 나아가 사용자의 특성을 고려하여, 사용자들의 연령적인 특성, 지역적인 특성에 좋은 성능을 보이도록 학습시킬 수 있다.
음성 인식부(1214)는 서로 다른 특성(ex. 지역, 연령대와 같은 기준에 의하여 정의되는 특성)에 특화된 음성 인식 모델 중 하나를 이용하여, 사용자의 음성을 인식할 수 있다. 예를 들면, 특정 지역의 사투리, 노인들의 부정확한 발음 등에 특화된 다양한 음성 인식 모델 중 어느 하나를 이용하여, 사용자의 음성을 보다 잘 인식할 수 있다. 한편, 복수의 모델 중 어느 모델을 이용할지는 관리 시스템(1220)에서의 관리자의 선택 내지는 발신 대상 사용자에 근거하여 특정될 수 있다.
콜 처리 시스템(1210)에서 획득된 대화는, 관리 시스템(1220), 대화 분석 시스템(1230) 및 저장부(1240) 중 적어도 하나에 전달될 수 있다.
관리 시스템(1220)은 사용자에게 발신할 콜에 대한 정책을 설정하고, 사용자에게 발신된 콜에 대한 현황 내지는 사용자의 상태에 대한 정보를 제공할 수 있다. 관리 시스템(1220)은 사용자의 상태를 파악하기 위하여 체크되어야 할 사항(ex: 건강, 수면, 식사, 운동 외출 등)에 대한 정보를 획득하고, 획득된 정보를 관리자에게 제공할 수 있다. 관리 시스템(1220)은 대화 분석 시스템(1230)으로부터 분석된 정보를 전달받아 관리자에게 제공하며, 체크 또는 모니터링이 필요하다고 판단되는 특이사항(ex: 건강 이상 신호)이 감지되는 경우 관리자 또는 보호자 등에게 알림을 제공할 수 있다. 예를 들어, 관리 시스템(1220)은 사용자와 에이전트 간에 이루어지는 대화에 기반하여, 관리가 필요한 사용자들을 모니터링하고, 이상 상황, 긴급상황 등을 파악하여, 신속하게 조치(ex: 어르신이 119를 기다리고 있다는 정보를 확인하고 별도로 연락을 드리거나, 도시락을 받지 못했다는 정보를 확인하고 관련 조치를 취하는 등)하는 기능을 제공할 수 있다.
관리 시스템(1220)은 관리 정책 설정부(1221), 분석 모델 설정부(1222) 및 화면 처리부(1223)를 포함할 수 있다.
관리 정책 설정부(1221)는 사용자에게 발신되는 콜에 대한 정책(또는 “콜 발신 정책”)을 관리할 수 있다. 관리 정책 설정부(1221)는 콜 발신의 대상이 되는 사용자, 콜 발신 시간 및 발신 주기 등 적어도 하나에 대한 정책을 설정할 수 있다. 본 발명에서 정책이란 콜 발신의 실행 단위로써, 하나의 정책에는 하나 이상의 사용자(수신인), 발신 설정(ex: 발신 시간, 발신 빈도, 발신 주기 등), 리포팅 대상자 등을 포함할 수 있다. 추가적으로, 하나의 정책에 대하여 하나 이상의 그룹을 추가(ex: 요일별 발신 그룹)하여 사용자를 나누어 관리하도록 설정할 수 있다.
관리 정책 설정부(1221)는 복수의 정책을 설정할 수 있으며, 각각의 정책에는, 적어도 한 명의 사용자가, 해당 정책을 적용 받도록 특정될 수 있다. 정책은 관리자의 선택에 근거하여, 다양한 기준(ex. 특정 지역 범위)에 따라 설정될 수 있다. 예를 들어, “서울시 강서구 마곡동”을 기준으로 정책이 설정되고, 여기에 거주하는 사용자가 정책을 적용 받도록 설정될 수 있다. 또한, 특정 정책에는 이를 기준으로 추가로 구분된 복수의 그룹이 존재할 수 있다. (ex. “강서구”를 기준으로 하는 정책에는, 강서구에 포함된 복수의 지역을 기준으로 구분된 “마곡동” 그룹, “발산동” 그룹 등)
분석 모델 설정부(1222)는 콜 처리 시스템(1210)으로부터 획득된 대화를 분석할 분석 모델을 설정하는 역할을 수행할 수 있다. 분석 모델 설정부(1222)에 의해 분석 모델이 설정되면, 설정된 분석 모델의 정보가 대화 분석 시스템(1230)으로 전달될 수 있다. 대화 분석 시스템(1230)에서는, 수신된 정보에 따른 분석 모델을 이용하여, 대화를 분석하고, 분석 결과를 관리 시스템(1220)으로 전달할 수 있다.
화면 처리부(1223)는 콜 처리 시스템(1210) 및 대화 분석 시스템(1230)으로부터 수신되는 정보에 기반하여, 콜 및 사용자와 관련된 다양한 정보를 제공할 수 있다. 예를 들면, 발신된 콜의 현황 정보 또는 통계 정보(ex: 전체 발신 콜 수, 통화 완료 콜 수, 응답 콜 수, 미응답 콜 수 등) 및 사용자들에 대한 상태 정보를 시각적으로 제공할 수 있다. 또한, 기억하기 모델(1233)에서 생성된 사용자 히스토리가 제공될 수 있다.
나아가, 관리 페이지에서는, 앞서 살펴본 정책 설정, 그룹 설정, 그리고 분석 모델의 설정과 같은, 관리자 선택에 근거한 설정이 가능하다.
대화 분석 시스템(1230)은, 사용자 상태(USER STATE) 모델(1231), 긴급알림 모델(1232) 및 기억하기 모델(1233) 등 대화를 분석하기 위한 다양한 형태의 기능들을 포함할 수 있다. 대화 분석 시스템(1230)은, 대화를 각각의 모델에 입력하여 대화 분석 결과를 획득할 수 있다. 콜 처리 시스템(1210)은 사용자와 에이전트 간의 대화 세션이 종료되면, 종료된 대화 세션에서 획득된 대화를 대화 분석 시스템(1230)에 전달하고, 대화 분석 시스템(1230)에서 이를 분석할 수 있다.
사용자 상태 모델(1231)은, 대화의 내용으로부터 사용자의 상태를 분석(판단 또는 감지)할 수 있다. 사용자 상태 모델(1231)은 특정 카테고리에 대한 사용자의 상태를 판단하도록 학습된 분류 모델로 구성될 수 있다. 예를 들어, 사용자 상태 모델(1231)은 건강, 식사, 수면, 운동, 외출 등의 각 카테고리 마다, 사용자의 상태를 긍정적(positive), 부정적(negative) 또는 알 수 없음(또는 관련없음(irrelevant))으로 분류하도록 학습된다. 상태 판단(또는 분류)의 대상이 되는 카테고리는, 관리 시스템(1220)에서의 관리자의 선택에 근거하여, 설정될 수 있다.
긴급알림 모델(1232)은 대화로부터, 사용자의 긴급상황(또는 이상 상황)을 파악하도록 이루어진다. 긴급알림 모델(1232)은 관리자의 모니터링이 필요한 긴급상황과 같은 주요 이상 신호를 추출하도록 이루어질 수 있다. 예를 들어, 긴급알림 모델(1232)은 기 정의된 긴급상황(ex: 건강관련 위험 발화)을 분류하도록 학습된 딥러닝 모델을 이용하거나, 사용자의 발화에 대한 요약정보(또는 요약 문장)를 슬롯(slot) 처리해서 추출하는 방법 등으로 구현될 수 있다. 긴급알림 모델(1232)에서 판단된 긴급상황에 대한 정보는 관리 시스템(1220)으로 전달되어, 관리자에게 제공될 수 있다.
기억하기 모델(1233)은 사용자와 에이전트 간에 이루어지는 대화에서, 사용자에 대하여 기억할 만한 정보를 사용자 히스토리로서 저장되도록 한다. 사용자 히스토리는, 콜 처리 시스템(1210)에서 에이전트의 발화를 생성할 때 이용될 수 있다. 이를 통해, 에이전트는 사용자에게 대화 세션마다 동일한 질문이 반복하여 진행되는 것을 줄이고, 사용자의 정보를 기반으로 대화를 진행함으로써, 사용자와의 친밀감이 더욱 높아지도록 한다. 기억하기 모델(1233)은 동일 주제 또는 카테고리에 대하여, 사용자의 최신 정보가 유지되도록, 사용자와 에이전트 간의 최신 대화 세션에 근거하여, 사용자 히스토리를 업데이트할 수 있다.
기억하기 모델(1233)의 구체적인 일 실시예로써 앞서 설명한 대화처리시스템(100)에서 사용자 히스토리를 이용하여 대화를 생성하는데 이용하는 방법을 이용할 수 있다.
한편, 위에서 살펴본 본 발명은, 컴퓨터에서 하나 이상의 프로세스에 의하여 실행되며, 이러한 컴퓨터로 판독될 수 있는 매체(또는 기록 매체)에 저장 가능한 프로그램으로서 구현될 수 있다.
나아가, 위에서 살펴본 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드 또는 명령어로서 구현하는 것이 가능하다. 즉, 본 발명은 프로그램의 형태로 제공될 수 있다.
한편, 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.
나아가, 컴퓨터가 읽을 수 있는 매체는, 저장소를 포함하며 전자기기가 통신을 통하여 접근할 수 있는 서버 또는 클라우드 저장소일 수 있다. 이 경우, 컴퓨터는 유선 또는 무선 통신을 통하여, 서버 또는 클라우드 저장소로부터 본 발명에 따른 프로그램을 다운로드 받을 수 있다.
나아가, 본 발명에서는 위에서 설명한 컴퓨터는 프로세서, 즉 CPU(Central Processing Unit, 중앙처리장치)가 탑재된 전자기기로서, 그 종류에 대하여 특별한 한정을 두지 않는다.
한편, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (14)

  1. 에이전트와 사용자 간에 대화 세션이 형성되는 단계;
    상기 대화 세션 이전에 형성되었던 이전(previous) 대화 세션과 관련된 사용자 히스토리를 이용하여, 상기 에이전트의 발화를 생성하는 단계; 및
    상기 에이전트의 발화를 상기 사용자에게 제공함으로써, 상기 사용자와 대화를 수행하는 단계를 포함하는 대화 제공 방법.
  2. 제1항에 있어서, 상기 사용자 히스토리는,
    상기 대화 세션 이전에, 상기 에이전트와 상기 사용자 간에 형성되었던 상기 이전 대화 세션 중 상기 사용자의 발화를 요약한 요약 내용으로 구성되고,
    상기 요약 내용은, 상기 사용자의 상태 또는 상황과 관련된 내용을 포함하는 것을 특징으로 하는 대화 제공 방법.
  3. 제2항에 있어서,
    상기 사용자 히스토리에,
    상기 사용자의 상태 또는 상황과 관련된 서로 다른 복수의 카테고리에 각각 대응되는 복수의 요약 내용이 존재하는 경우,
    상기 에이전트의 발화를 생성하는 단계에서는,
    상기 대화 세션의 대화의 문맥에 근거하여, 상기 복수의 요약 내용 중 상기 대화 세션의 대화의 문맥에 대응되는 어느 하나의 요약 내용을 이용하여, 상기 에이전트의 발화를 생성하는 것을 특징으로 하는 대화 제공 방법.
  4. 제1항에 있어서,
    상기 사용자 히스토리는,
    서로 다른 복수의 카테고리 별로, 요약 내용이 존재하는 것을 특징으로 하는 대화 제공 방법.
  5. 제1항에 있어서,
    상기 대화 세션이 종료되면, 상기 대화 세션의 대화가 요약부(Summarizer)로 전달되는 단계; 및
    상기 요약부에서 상기 대화 세션의 대화에 포함된 상기 사용자의 발화 중 기 설정된 카테고리에 해당하는 특정 발화를 문장 형태로 요약하는 단계를 더 포함하는 것을 특징으로 하는 대화 제공 방법.
  6. 제5항에 있어서,
    상기 요약부는,
    상기 대화 세션의 대화에 포함된 상기 사용자의 발화 중 상기 기 설정된 카테고리에 해당하는 내용에 대해서만 요약 내용을 생성하도록 학습된 것을 특징으로 하는 대화 제공 방법.
  7. 제6항에 있어서,
    상기 대화 세션의 대화로부터 요약된 요약 내용과, 메모리에 저장된 상기 사용자 히스토리에 포함된 요약 내용 쌍에 대하여, 상기 메모리에 대한 서로 다른 동작 중 어느 하나에 해당하는 특정 동작에 대응되는 출력 값을 획득하는 단계; 및
    상기 출력 값에 따라 상기 메모리에 저장된 상기 사용자 히스토리를 업데이트하는 단계를 더 포함하는 것을 특징으로 하는 대화 제공 방법.
  8. 제7항에 있어서,
    상기 서로 다른 동작 중 제1동작은,
    상기 한 쌍의 요약 내용 중 상기 사용자 히스토리에 해당하는 요약 내용을 상기 메모리에 저장하는 것을 유지하되, 상기 대화 세션의 대화로부터 요약된 요약 내용은 상기 메모리에 저장하지 않는 동작이고,
    상기 서로 다른 동작 중 제2동작은,
    상기 한 쌍의 요약 내용 중 상기 사용자 히스토리에 해당하는 요약 내용을 상기 메모리에 저장하는 것을 유지하면서, 상기 대화 세션의 대화로부터 요약된 요약 내용도 상기 메모리에 저장하는 동작이며,
    상기 서로 다른 동작 중 제3동작은,
    상기 한 쌍의 요약 내용 중 상기 사용자 히스토리에 해당하는 요약 내용을 상기 메모리로부터 삭제하고, 상기 대화 세션의 대화로부터 요약된 요약 내용을 상기 메모리에 저장하는 동작이고,
    상기 서로 다른 동작 중 제4동작은,
    상기 한 쌍의 요약 내용 중 상기 사용자 히스토리에 해당하는 요약 내용을 상기 메모리로부터 삭제하고, 상기 대화 세션의 대화로부터 요약된 요약 내용도 상기 메모리에 저장하지 않는 동작인 것을 특징으로 하는 대화 제공 방법.
  9. 과거 대화 세션과 관련된 사용자 히스토리를 저장하는 메모리(Memory);
    에이전트와 사용자 간에 형성된 현재 대화 세션의 대화를 수신하여, 상기 대화에 포함된 사용자 발화의 적어도 일부를 문장 형태로 요약하는 요약부(Summarizer) 및
    상기 요약부에서 요약된 요약 정보와 상기 사용자 히스토리를 이용하여, 상기 메모리에 대한 동작을 특정하는 메모리 오퍼레이터(Memory Operator)를 포함하는 대화 처리 시스템.
  10. 제9항에 있어서,
    상기 요약 정보 및 상기 사용자 히스토리는, 상기 요약부를 통해 요약된 내용들을 포함하고,
    상기 메모리 오퍼레이터에서는,
    상기 요약 정보에 포함된 특정 내용 및 상기 사용자 히스토리에 포함된 특정 내용 쌍을 이용하여, 메모리에 대한 동작을 특정하는 것을 특징으로 하는 대화 처리 시스템.
  11. 제10항에 있어서,
    상기 내용 쌍들은, 서로 동일한 카테고리에 해당하는 내용인 것을 특징으로 하는 대화 처리 시스템.
  12. 제11항에 있어서,
    상기 메모리에 대한 동작에 기반하여, 상기 메모리는, 상기 사용자 히스토리가 상기 현재 대화 세션의 대화를 반영하도록 업데이트되는 것을 특징으로 하는 대화 처리 시스템.
  13. 제12항에 있어서,
    상기 에이전트의 발화를 생성하는 생성부(Generator)를 더 포함하고,
    상기 생성부는,
    상기 현재 대화 세션이 종료된 이후, 상기 에이전트와 상기 사용자 간에 새로 형성되는 대화 세션에서, 업데이트된 상기 사용자 히스토리를 이용하여, 상기 에이전트의 발화를 생성하는 것을 특징으로 하는 대화 처리 시스템.
  14. 전자기기에서 하나 이상의 프로세스에 의하여 실행되며, 컴퓨터로 판독될 수 있는 기록매체에 저장된 프로그램으로서,
    상기 프로그램은,
    에이전트와 사용자 간에 대화 세션이 형성되는 단계;
    상기 대화 세션 이전에 형성되었던 이전(previous) 대화 세션과 관련된 사용자 히스토리를 이용하여, 상기 에이전트의 발화를 생성하는 단계; 및
    상기 에이전트의 발화를 상기 사용자에게 제공함으로써, 상기 사용자와 대화를 수행하는 단계를 수행하도록 하는 명령어들을 포함하는 특징으로 하는 컴퓨터로 판독될 수 있는 기록매체에 저장된 프로그램.
PCT/KR2023/008640 2022-06-21 2023-06-21 대화 제공 방법 및 대화 처리 시스템 WO2023249419A1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2022-0075459 2022-06-21
KR20220075459 2022-06-21
KR1020220117106A KR20230174678A (ko) 2022-06-21 2022-09-16 대화 제공 방법 및 대화 처리 시스템
KR10-2022-0117106 2022-09-16
KR10-2022-0118408 2022-09-20
KR1020220118408A KR20230174680A (ko) 2022-06-21 2022-09-20 대화 분석 방법 및 시스템, 그리고 이를 이용한 사용자 모니터링 방법 및 시스템

Publications (1)

Publication Number Publication Date
WO2023249419A1 true WO2023249419A1 (ko) 2023-12-28

Family

ID=89380273

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/008640 WO2023249419A1 (ko) 2022-06-21 2023-06-21 대화 제공 방법 및 대화 처리 시스템

Country Status (1)

Country Link
WO (1) WO2023249419A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003158579A (ja) * 2001-11-20 2003-05-30 Fujitsu Ltd 電話応答支援装置及び方法
KR20190096304A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 대화 내용에 대한 요약문 생성 장치 및 방법
KR20200072315A (ko) * 2018-12-12 2020-06-22 주식회사 마인즈랩 상담 정보 제공 방법
JP2020118842A (ja) * 2019-01-23 2020-08-06 株式会社日立製作所 対話装置及び対話方法
JP6882975B2 (ja) * 2017-11-30 2021-06-02 Kddi株式会社 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003158579A (ja) * 2001-11-20 2003-05-30 Fujitsu Ltd 電話応答支援装置及び方法
JP6882975B2 (ja) * 2017-11-30 2021-06-02 Kddi株式会社 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法
KR20200072315A (ko) * 2018-12-12 2020-06-22 주식회사 마인즈랩 상담 정보 제공 방법
JP2020118842A (ja) * 2019-01-23 2020-08-06 株式会社日立製作所 対話装置及び対話方法
KR20190096304A (ko) * 2019-07-29 2019-08-19 엘지전자 주식회사 대화 내용에 대한 요약문 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
US10424319B2 (en) Assessing the structural quality of conversations
US10585901B2 (en) Tailoring question answer results to personality traits
US10812424B1 (en) System and method for quantifying mental health within a group chat application
CN107845422A (zh) 一种基于多模态线索融合的远程会诊会话理解与摘要方法
US11934969B2 (en) Bias identification in cognitive computing systems
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US10885080B2 (en) Cognitive ranking of terms used during a conversation
WO2024090713A1 (ko) 공감 심리학 기반의 챗봇 서비스를 통한 유저 심리 관리 시스템
CN110047481A (zh) 用于语音识别的方法和装置
WO2023096254A1 (ko) 인공지능 기반 직업 매칭 시스템
WO2020055071A1 (en) System and method for dynamic trend clustering
CN114341864A (zh) 在人工智能对话系统中对主体值的自主学习
US20210022688A1 (en) Methods and systems for generating a diagnosis via a digital health application
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2024090712A1 (ko) 공감대 형성을 통한 심리 치료용 인공지능 대화 시스템
WO2021107208A1 (ko) 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법
WO2023249419A1 (ko) 대화 제공 방법 및 대화 처리 시스템
US20220329556A1 (en) Detect and alert user when sending message to incorrect recipient or sending inappropriate content to a recipient
CN116955573B (zh) 问题搜索方法、装置、设备及存储介质
WO2016204391A1 (ko) 검색 서비스 제공 장치, 방법, 및 컴퓨터 프로그램
US11165905B2 (en) Automatic identification of medical information pertinent to a natural language conversation
US20210057055A1 (en) Medical Information Release Mechanism
WO2022014898A1 (ko) Api 접근 인터페이스 서버를 통해 확장된 교육 콘텐츠에 대해 인공지능 예측 결과를 제공하는 확장 서비스 제공 시스템 및 방법
US11947872B1 (en) Natural language processing platform for automated event analysis, translation, and transcription verification
JP2024514471A (ja) 画像ベースのノイズを有する内容を使用した電子メッセージング方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23827529

Country of ref document: EP

Kind code of ref document: A1