WO2019142976A1 - Display control method, computer-readable recording medium, and computer device for displaying conversation response candidate for user speech input - Google Patents

Display control method, computer-readable recording medium, and computer device for displaying conversation response candidate for user speech input Download PDF

Info

Publication number
WO2019142976A1
WO2019142976A1 PCT/KR2018/005937 KR2018005937W WO2019142976A1 WO 2019142976 A1 WO2019142976 A1 WO 2019142976A1 KR 2018005937 W KR2018005937 W KR 2018005937W WO 2019142976 A1 WO2019142976 A1 WO 2019142976A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
user terminal
present disclosure
display
information
Prior art date
Application number
PCT/KR2018/005937
Other languages
French (fr)
Korean (ko)
Inventor
설재호
임보훈
손보경
장세영
Original Assignee
주식회사 머니브레인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 머니브레인 filed Critical 주식회사 머니브레인
Publication of WO2019142976A1 publication Critical patent/WO2019142976A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Definitions

  • This disclosure relates to the analysis of user utterances by the AI system of conversation understanding, and more particularly to a method of visualizing and presenting the results of analysis of user utterance by the AI system of conversation understanding.
  • the AI system may be used as a conversation partner for the user, but it may also be used to intervene in the conversation between human users to help smooth the progress of the conversation.
  • a call-to-call between a first user terminal and a second user terminal comprises transmitting and receiving voice information between the first and second user terminals, To control a predetermined display associated with a second user terminal.
  • the method of the present disclosure is characterized in that, during a call, the display causes the display to display a textual representation of a tent being a user determined by natural processing of the user utterance input entered by the first user on the first user terminal, ; And displaying each textual representation of the one or more dialog response candidates that may be provided as an interactive response to the user utterance input, determined based on the user intent.
  • a method is characterized in that, during a call, the emotion information-emotion information of the first user obtained by analysis of the user's utterance input causes the display to display the emotion state of the first user So that the display can be displayed.
  • the emotion information includes value information assigned for each of a plurality of emotion types, based on an analysis of a user utterance input, wherein the plurality of emotion types includes at least one of emotion, happiness, joy, And may include at least one emotional type of anxiety, anxiety, anger, sadness, surprise, frustration, emptiness, hate, and restraint.
  • a predetermined display associated with a second user terminal comprises one of a display for a second user performing a call on the second user terminal and a manager display remotely located with the second user terminal .
  • the method further comprises: during a call, displaying a first user's profile information-profile information estimated by analysis of a user utterance input, based on the sex, age, Language information including at least one of the information of the language.
  • the step of displaying each textual representation of one or more dialog response candidates includes displaying each textual representation of one or more dialog response candidates with respective corresponding probabilistic reliability can do.
  • the method may further comprise, during a call, causing the display to display a textual representation of the user utterance input.
  • the method may further comprise, during a call, causing the display to display a probabilistic indicator of whether or not an interactive response to the user utterance input is to be provided.
  • a computer-readable medium having stored thereon one or more instructions that, when executed, cause the computer device to perform any one of the methods described above, A possible recording medium is provided.
  • a call-to-call communication between a first user terminal and a second user terminal comprises transmitting and receiving voice information between the first and second user terminals,
  • a computer apparatus configured to control a predetermined display associated with two user terminals is provided.
  • the computer device of the present disclosure includes a receiving module configured to receive a user utterance input from a first user terminal;
  • the dialogue understanding module - dialogue understanding module for analyzing the received user speech input comprises a predetermined knowledge base model and processes the received user speech input in a natural language according to a predetermined knowledge base model, Determine an intent and determine one or more dialog response candidates that match the determined user ' s tent;
  • a communication module configured to transmit information of the determined user intent and one or more conversation response candidates to the display.
  • the method and apparatus according to the present disclosure are used for telephone consultation between a consulting staff of a customer consulting center and a customer, it is possible to provide a response direction of a consulting staff for each situation. Therefore, Not only the consultation can be performed, but also the emotional labor fatigue of the person consulting staff can be mitigated.
  • the method and apparatus of the present disclosure can also be applied to wired and wireless voice calls between people so that the conversation person can read the feelings of the conversation partner and thus provide a delicate response accordingly.
  • FIG. 1 is a diagram schematically illustrating a system environment in which a conversation understanding AI system may be implemented, in accordance with one embodiment of the present disclosure.
  • FIG. 2 is a functional block diagram that schematically illustrates the functional configuration of the conversation understanding service server 104 of FIG. 1, according to one embodiment of the present disclosure.
  • FIG. 3 is a functional block diagram that schematically illustrates the functional configuration of the dialogue understanding unit 204 of FIG. 2, according to one embodiment of the present disclosure.
  • FIG. 4 is a functional block diagram that schematically illustrates the functional configuration of the responding user terminal 108 of FIG. 1, in accordance with one embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an example of a screen configuration that may be presented on a screen display of response user terminal 108 of FIG. 1, in accordance with one embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating an example of a screen configuration that may be presented on the display of the responding user terminal 102 of FIG. 1, in accordance with another embodiment of the present disclosure.
  • 'module' or 'sub-module' means a functional part that performs at least one function or operation, and may be implemented in hardware or software, or a combination of hardware and software. Also, a plurality of "modules” or “sub-modules” may be integrated into at least one software module and implemented by at least one processor, except for "module” or "sub-module” have.
  • the " conversation understanding AI system &quot is a system in which a natural language input (e.g., a command from a user in natural language, a statement, Requests, questions, and so on) to determine the intent of the user and to provide the necessary actions based on the found user's intent, i.e., any information processing System, and is not limited to any particular form.
  • a natural language input e.g., a command from a user in natural language, a statement, Requests, questions, and so on
  • FIG. 1 is a schematic diagram of a system environment 100 in which a conversation understanding AI system may be implemented, in accordance with one embodiment of the present disclosure.
  • the system environment 100 includes a plurality of requesting user terminals 102a-102n, a conversation understanding service server 104, a communication network 106 and a plurality of responding user terminals 108a-108m.
  • a plurality of requesting user terminals 102a-102n may be any user device having a wired or wireless form of telephone capability.
  • Each of the requesting user terminals 102a-102n may be a variety of wired or wireless telephony terminals, including, for example, a wired and wireless telephone, a smartphone, a tablet PC, a smart speaker, a desktop, a laptop, a PDA, a digital TV, a set- But not limited to, the < / RTI >
  • each of the plurality of requesting user terminals 102a-102n may be a PSTN, VoIP, GSM, CDMA, TDMA, OFDM, Enhanced Data GSM Environment (EDGE) , LAN, WAN, or any of a variety of wired or wireless communication protocols.
  • each of the plurality of requesting user terminals 102a-102n may contact the conversation understanding
  • each of the requesting user terminals 102a-102n may receive voice input from a user on the terminal, as well as other various types of user input, such as text and / And can transmit the received user input signal to the conversation understanding service server 104 according to a predetermined communication method.
  • each of the requesting user terminals 102a-102n can receive not only a voice response signal according to a predetermined communication method from the conversation understanding service server 104, / RTI > and / or other various types of response signals, such as a tactile shape.
  • the conversation understanding service server 104 may communicate with the requesting user terminals 102a-102n in accordance with any wired or wireless communication scheme.
  • the conversation understanding service server 104 may receive a voice telephone call (voice information including voice information from the requesting user terminals 102a-102n, including other types of information such as video and text, (Including various types of telephone calls) and establish a call (communication session) between the requesting user terminal 102a-102n and one of the responding user terminals 108a-108m described below.
  • the conversation understanding service server 104 receives user utterances (and voice and text utterances including voice and speech input, etc.) from the requesting user terminals 102a-102n via the established call calls Various types of information including other types of information).
  • the conversation understanding service server 104 may process the received user utterance input based on previously prepared knowledge base models to determine the intent of the user. According to one embodiment of the present disclosure, the conversation understanding service server 104 may determine an indicator (e.g., a probabilistic indicator) that indicates the turn to provide the user with an answer in consideration of the determined user ' s tent and context . According to one embodiment of the present disclosure, the conversation understanding service server 104 also analyzes the received user utterances, etc. and generates analysis results regarding information about the user, e.g., a user profile, acoustic characteristics and / can do.
  • an indicator e.g., a probabilistic indicator
  • the conversation understanding service server 104 also analyzes the received user utterances, etc. and generates analysis results regarding information about the user, e.g., a user profile, acoustic characteristics and / can do.
  • the conversation understanding service server 104 may generate one or more conversation response candidates (suggestions) that match, for example, a user ' s tent.
  • the conversation understanding service server 104 receives one or more conversation response candidates matching the user ' s intent, taking into account, for example, analysis results regarding the above user profile, voice acoustic features and / Can be generated.
  • the conversation understanding service server 104 receives a user utterance input received via a call call as a result of analyzing and processing the received user utterance input, Context information), an index indicating whether the answer is to be provided, one or more dialog response candidates matching the user intent, and analysis result information such as other user profile features, voice acoustic features, and emotion characteristics, ) To one of the corresponding responding user terminals 108a-108m.
  • the conversation understanding service server 104 may be various customer center servers in various fields such as finance, medical care, law, shopping, etc., but the present disclosure is not limited thereto.
  • the conversation understanding service server 104 has an independent form (for example, a function of acquiring and providing a user's intent and other various analysis results by analysis and processing of the user's voice described above)
  • the present disclosure is not limited thereto.
  • the conversation understanding service server 104 may acquire the necessary conversation understanding function through communication with a separate external conversation understanding server, instead of having the conversation understanding function inside You should know.
  • the communication network 106 may include any wired or wireless communication network, e.g., a TCP / IP communication network.
  • the communication network 106 may include, for example, a Wi-Fi network, a LAN network, a WAN network, an Internet network, and the like, and the present disclosure is not limited thereto.
  • the communication network 106 may be implemented using any of a variety of wired or wireless communication protocols such as, for example, Ethernet, GSM, EDGE, CDMA, TDMA, OFDM, Bluetooth, VoIP, Wi-MAX, Wibro, .
  • each of the responding user terminals 108a-108m may receive, from the conversation understanding service server 104 via the communication network 106, the users received from the requesting user terminals 102a-102n, (And context) information, an indicator indicating whether the answer is to be provided, one or more dialog response candidates matching the user intent, and other user profile features Voice acoustic features, emotional characteristics, and the like.
  • the answering user terminals 108a-108m receive the user utterance input, various analysis results, and the like via the voice output unit and the screen output unit (display) -108m) to the responding user (e.g., consulting staff).
  • the responding user terminals 108a-108m also receive voice (and other types of) input from responding users on the terminal and communicate it via the communication network 106 to the conversation understanding service server 104 ).
  • voice and other types of input from responding users on the terminal and communicate it via the communication network 106 to the conversation understanding service server 104 .
  • FIG. 2 is a functional block diagram that schematically illustrates the functional configuration of the conversation understanding service server 104 of FIG. 1, according to one embodiment of the present disclosure.
  • the conversation understanding service server 104 includes a telephone call establishing / relaying unit 202, a conversation understanding unit 204, and a communication unit 206.
  • the telephone call establishing / relaying unit 202 establishes a telephone call between one of the requesting user terminals 102a-102n and one of the responding user terminals 108a-108m, (I.e., transmission and reception of voice, etc.) through the established call.
  • the telephone call establishing / relaying unit 202 receives user's utterance voice input or the like incoming from the requesting user terminal 102a-102n according to a predetermined communication protocol, To the corresponding requesting user terminal 102a-102n, voice input from the responding user transmitted from one of the requesting user terminals 108a-108m.
  • the conversation understanding section 204 receives the user speech input received from the requesting user terminal 102a-102n via the telephone call establishing / relaying section 202 and receives the received speech input Can be converted into text. According to one embodiment of the present disclosure, the conversation understanding section 204 may also determine a user intent corresponding to the received user speech input based on previously prepared knowledge base models. According to one embodiment of the present disclosure, the conversation understanding service server 104 may also analyze the received user speech input to obtain information about the user, such as user profile information, voice acoustic feature information, and emotional information. In accordance with one embodiment of the present disclosure, the conversation understanding section 204 may also determine, based on previously prepared knowledge base models, information about the analyzed users, and the like, one or more conversation response candidates Lt; / RTI >
  • the communication unit 206 allows the conversation understanding service server 104 to communicate with each of the responding user terminals 108a-108m through the communication network 106 of Fig.
  • the communication unit 206 is configured to communicate with the user's utterance input signal or the like received from the requesting user terminals 102a-102n via the telephone call establishing / relaying unit 202, One or more dialog response candidates matching the user tent, and various analysis results generated by the dialogue understanding unit 204 can be transmitted to one of the response user terminals 108a-108m according to a predetermined protocol.
  • FIG. 3 is a functional block diagram that schematically illustrates the functional configuration of the dialogue understanding unit 204 of FIG. 2, according to one embodiment of the present disclosure.
  • the dialogue understanding unit 204 includes a Speech-To-Text (STT) module 302, an acoustic feature analysis module 304, a Natural Language Understanding (NLU) module 306, a dialog understanding knowledge base 308, a user profile analysis module 310, a dialogue management module 312, an emotion analysis module 314, and a dialogue generation module 316.
  • STT Speech-To-Text
  • NLU Natural Language Understanding
  • the STT module 302 receives the call input of the telephone call requesting user, received via the telephone call establishing / relaying unit 202 of FIG. 2, And can be converted into text data based on matching and the like.
  • the STT module 302 may extract a feature from a speech call requesting user's telephone input to generate a feature vector sequence.
  • the STT module 302 may be implemented as a dynamic time warping (DTW) method, a HMM model (Hidden Markov Model), a GMM model (Gaussian-Mixture Mode), a deep neural network model, For example, a sequence of words, based on various statistical models of the speech recognition results.
  • DTW dynamic time warping
  • the acoustic feature analysis module 304 can receive the user utterance input received via the telephone call establishing / relaying section 202 of Figure 2 .
  • the acoustic feature analysis module 304 may measure and / or extract acoustic feature information of speech from the received user speech input.
  • the acoustic feature analysis module 304 may measure and / or extract, for example, the volume, pitch, velocity, and other acoustic information of the user audio input.
  • the NLU module 306 may receive text input from the STT module 302.
  • the textual input received at the NLU module 306 is received from the user utterance input received via the telephone call establishing / relaying unit 202 of FIG. 2, for example, A text recognition result, e.g., a sequence of words.
  • the NLU module 306 may map the received text input to one or more user-defined intents based on a dialog understanding knowledge base 308, described below. Where the user intent may be associated with a series of operations (s) that can be understood and performed by the conversation understanding service server 104 in accordance with the user ' s tent.
  • the conversation understanding knowledge base 308 may include, for example, a predefined ontology model.
  • an ontology model can be represented, for example, in a hierarchical structure between nodes, each node having an "intent” node corresponding to the user's intent or a &Quot; Attributes “ node that is linked directly to an " Attributes “node or a " Attributes” node of an "Attributes”
  • the " intent "node and the" attribute "nodes directly or indirectly linked to the" intent "node can constitute one domain and the ontology comprises a set of such domains .
  • the conversation understanding knowledge base 308 may include, for example, domains that correspond to all of the intents that the conversation understanding service server 104 can understand and perform corresponding actions Lt; / RTI > It should be noted that, according to one embodiment of the present disclosure, the ontology model can be dynamically changed by addition or deletion of nodes, or modification of relations between nodes.
  • the intent nodes and attribute nodes of each domain in the ontology model may be associated with words and / or phrases associated with the corresponding user's tent or attributes, respectively.
  • the conversation understanding knowledge base 308 includes an ontology model 308, which may comprise an ontology model, for example, a hierarchy of nodes, , And the NLU module 306 may determine the user intent based on the ontology model implemented in the lexical dictionary form.
  • the NLU module 306 upon receipt of a text input or a sequence of words, can determine which nodes in a domain in the ontology model each word in the sequence is associated with, Based on such a determination, it is possible to determine the corresponding domain, i. E. The user tent.
  • the user profile analysis module 310 may analyze the speech input of the telephone call requesting user received via the telephone call establishing / relaying 202 to estimate information about the user profile have.
  • the user profile analysis module 310 is configured to analyze the user input of the telephone call requesting user input via the telephone call establishing / relaying unit 202, (E.g., volume, pitch, velocity, and other acoustic information of the user's voice input) obtained by the above-described acoustic feature analysis module 304, one or more intents acquired by the NLU module 306, And estimate information about the user profile.
  • the user profile analysis module 310 may estimate or obtain, for example, the user's gender, age range, language of use, and the like, and provide the obtained information.
  • the dialogue management module 312 is based on a tent of the user determined by the NLU module 306 and, in accordance with a predetermined dialogue management knowledge base model, Lt; / RTI >
  • the conversation management module 312 is configured to determine, based on a predetermined dialogue management knowledge base model, any action, e.g., any conversation response, in response to a tent received from the NLU module 306 , And generate a corresponding detailed operation flow.
  • the emotion analysis module 314 analyzes the speech input of the telephone call requesting user received via the telephone call establishing / relaying unit 202 to estimate information about the current emotion of the user can do.
  • the emotion analysis module 314 is configured to determine whether the speech input of the telephone call requesting user received through the telephone call establishing / relaying unit 202, (E.g., volume, pitch, velocity, other acoustic information, etc.) obtained by a user acoustic feature analysis module 304, one or more intents acquired by the NLU module 306, and /
  • the information on the current emotion of the user can be estimated by comprehensively analyzing the user profile information (for example, user's sex, age group, language, etc.) acquired by the profile analysis module 310.
  • the emotional analysis module 312 classifies a person's emotional type into a predetermined plurality of types (e.g., heat, happiness, joy, comfort, anxiety, anger, sadness, Frustration, void, hate, restraint, etc.), a value is assigned to each emotion type according to a comprehensive analysis of the above information, and the current emotion state of the user can be indicated through the assigned value.
  • a predetermined plurality of types e.g., heat, happiness, joy, comfort, anxiety, anger, sadness, Frustration, void, hate, restraint, etc.
  • the dialog creator 316 may generate one or more suitable candidates as the dialog response to be presented to the user based on the conversation flow generated by the dialog management module 312.
  • the dialogue generation unit 316 generates the dialogue generation unit 316 in consideration of a value assigned to each emotion type (i.e., the current emotion state information of the user) by the emotion analysis module 314, It is possible to generate one or a plurality of dialog response candidates deemed appropriate.
  • the conversation generation unit 316 generates not only the information on the emotion state of the user but also the above-described processing and analysis results related to the above-described user voice input, (E.g., volume, pitch, speed, and other acoustic information of the user voice input) acquired by the NLU module 304, and / or one or more intents acquired by the NLU module 306 and / (E.g., user's gender, age range, language, etc.) acquired by the user, and may generate one or more suitable candidates as the dialog response to be provided to the user.
  • the above-described processing and analysis results related to the above-described user voice input (E.g., volume, pitch, speed, and other acoustic information of the user voice input) acquired by the NLU module 304, and / or one or more intents acquired by the NLU module 306 and / (E.g., user's gender, age range, language, etc.) acquired by the user, and may generate one or more suitable candidates as the dialog response to be provided
  • FIG. 4 is a functional block diagram that schematically illustrates the functional configuration of the responding user terminal 108 of FIG. 1, in accordance with one embodiment of the present disclosure.
  • the response user terminal 108 includes a communication unit 402, a response user input receiving unit 404, an information visualization / screen output unit 406 and an audio output unit 408. [
  • the communication unit 402 enables the answering user terminal 108 to communicate with the conversation understanding service server 104 via the communication network 106.
  • the communication unit 402 is configured to allow the signal obtained on the response user input receiving module 404 to be transmitted to the conversation understanding service server 104 via the communication network 106 in accordance with a predetermined protocol can do.
  • the communication unit 402 is configured to receive various kinds of signals received from the conversation understanding service server 104 via the communication network 106, such as a user voice input signal, User intent, one or more dialog response candidates matching the user intent, various analysis results, and the like, and perform appropriate processing according to a predetermined protocol.
  • the responding user input receiving unit 404 may receive a natural-language input in the form of a voice from a responding user (e.g., a consulting employee) on the responding user terminal 108.
  • the response user input receiving section 404 includes, for example, a microphone and an audio circuit, and can acquire a user voice input signal through a microphone and convert the obtained signal into audio data.
  • the natural language input from the responding user may include a natural language input received from the conversation understanding service server 104 via, for example, one or more of the conversation response candidates, i.e., the communication network 106 and the communication unit 402, May correspond to that selected by the responding user on the responding user terminal 108 as one of the one or more conversation response candidates matching the intent.
  • the responding user input receiving unit 404 may also include various types of input devices such as various pointing devices such as a mouse, joystick, trackball, keyboard, touch panel, touch screen, And can acquire text input and / or touch input signals input from the response user via these input devices.
  • the information visualization / screen output unit 406 is a user who is generated from various signals received from the conversation understanding service server 104 via the communication network 106, for example, (E.g., information obtained by the user acoustic feature analysis module 304 of FIG. 3 described above, the user profile analysis module 310 of FIG. 3), the tent, User emotion information determined by the emotion analysis module 312 in FIG. 3, and the like) as time information, and display the time information.
  • the information visualization / screen output unit 406 includes various display devices such as a touch screen based on a technology such as an LCD, LED, OLED, QLED, etc.,
  • a visual response corresponding to the input such as text, symbols, video, images, hyperlinks, animations, various notices, etc., can be presented to the user.
  • the audio output unit 408 receives a user audio input signal from the user terminal 102, which has been transmitted through the communication network 106 and the communication unit 402, And reproduce and output it on the terminal 108.
  • the voice output unit 408 includes, for example, a speaker or a headset, and can provide the above-described user voice input signal to the responding user via a speaker or headset.
  • the present invention is not limited thereto, although it has been described with reference to the case where the conversation understanding AI system is mainly used for a customer consultation center or the like. It should be noted that, according to another embodiment of the present disclosure, the AI understanding system of conversation can be applied to various types of user-to-user voice calls via the conversation understanding service server in addition to the customer consultation center. 1 to 4, when the time information of the information analyzed by the conversation understanding service server 104 is presented through the screen output unit on the response user terminal 108, The present disclosure is not limited thereto. According to another embodiment of the present disclosure, the time information of the information analyzed by the conversation understanding service server 104 may be presented on an administrator terminal (not shown) managing a plurality of responding user terminals 108 You should know.
  • the responding user terminal 108 only provides the user I / And other conversation understanding are all described as being implemented based on the so-called "thin client-server model " delegated to the conversation understanding service server 104, but this disclosure is not so limited.
  • the above-described functions may be implemented distributed among the conversation understanding service server 104 and the response user terminal 108, or all functions may be implemented in a stand- It should be noted that this may be implemented as an application.
  • FIG 5 is a diagram illustrating an example of a screen configuration that may be presented on the screen output of the responding user terminal 108, in accordance with one embodiment of the present disclosure.
  • the illustrated example relates to a call between the user who called the shopping mall customer center and the consultant.
  • a user's utterance sentence is converted into text and displayed.
  • each word of a user utterance sentence converted into text i.e., "hi, do you have a moto drill?"
  • a tent representing the user obtained by processing the above-mentioned user spoken sentence is displayed in a sentence expression in the left middle box 504 of the screen (i.e., The corresponding intent is indicated in the form of, for example, "Do I really have to buy this?").
  • a method of easily recognizing the user on the terminal for example, a visually remarkable color, highlight, And the like.
  • a turning taking item indicating a probable state of whether or not a response time is reached is indicated by 1, indicating that the user has finished utterance and has been provided with a response.
  • a result of synthesizing the above-mentioned user's utterance sentence and various other analysis results it is possible to provide a user with a single candidate response
  • a user on the terminal can easily (E.g., in various ways, including visually striking colors, highlights, or boldface formatting).
  • FIG. 6 is a diagram illustrating an example of a screen configuration that may be presented on the display of the responding user terminal 102, in accordance with another embodiment of the present disclosure.
  • the illustrated example may be, for example, a telephone conversation between couples.
  • a speech sentence from the user is converted into text and displayed.
  • each word of a user spoken sentence i.e., "Sarah posted photos of the newly built hotel restaurant.” That is converted to text is shown with each part of speech indication, but the present invention is not limited thereto.
  • a tent representing the user obtained by processing the above user spoken sentence is expressed in a sentence expression (i.e., The corresponding intent is displayed in the form of, for example, "Make a reservation. I want to go there.”).
  • a turning taking item informing the probability of a response time is indicated as 0.7.
  • profile information of the sex, age, and language of the utterance user is displayed in the upper middle box 608 of the screen.
  • the current emotional state of the user, obtained and analyzed, is displayed as a probability for each emotional marker. As can be seen, the emotional state of the current utterance user is most dominant in the neutral state.
  • analysis results such as volume, pitch, speed and the like of the user utterance sentence are displayed.
  • a single candidate response (hereinafter referred to as " In other words, "I already made a reservation for our one-year anniversary" is marked with a probabilistic indication of its reliability.
  • the present invention is not limited to the examples described in this disclosure, but may be variously modified, rearranged and replaced within the scope of the present disclosure. It should be understood that the various techniques described herein may be implemented in hardware or software, or a combination of hardware and software.
  • a computer program according to an embodiment of the present disclosure may be stored in a storage medium readable by a computer processor or the like, for example, a non-volatile memory such as an EPROM, EEPROM, or flash memory device, a magnetic disk such as an internal hard disk and a removable disk, CDROM disks, and the like. Also, the program code (s) may be implemented in assembly language or machine language. All such modifications and variations that fall within the true spirit and scope of this disclosure are intended to be embraced by the following claims.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Provided is a method, performed by a computer, for intervening in a call between a first user terminal and a second user terminal, which are remotely placed from each other, so as to control a predetermined display associated with the second user terminal. The call includes transmission/reception of sound information between the first user terminal and the second user terminal. The method comprises the steps of: during the call, allowing the display to show a textual expression of user intent determined by natural language-processing of a user speech input, which is made by a first user on the first user terminal, according to a predetermined knowledge base model; and allowing the display to show textual expressions of one or more conversation response candidates, respectively, which can be provided as conversation responses to the user speech input, the textual expressions having been determined on the basis of the user intent.

Description

사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치A display control method for displaying a dialog response candidate for a user utterance input, a computer readable recording medium, and a computer apparatus
본 개시는, 대화 이해 AI 시스템에 의한 사용자 발화의 분석에 관한 것이며, 보다 구체적으로는 대화 이해 AI 시스템에 의한 사용자 발화의 분석의 결과를 시각화하여 제시하는 방법 등에 관한 것이다.This disclosure relates to the analysis of user utterances by the AI system of conversation understanding, and more particularly to a method of visualizing and presenting the results of analysis of user utterance by the AI system of conversation understanding.
근래, 인공지능 분야, 특히 자연어 이해 분야의 기술 발전에 따라, 전통적인 기계 중심의 명령 입출력 방식에 따른 기계 조작에서 벗어나, 사용자로 하여금, 보다 사람 친화적인 방식, 예컨대 음성 및/또는 텍스트 형태의 자연어를 매개로 한 대화 방식으로 기계를 조작하고 기계로부터 원하는 서비스를 얻을 수 있도록 하는 대화 이해 AI 시스템(예컨대, 챗봇)의 개발 및 활용이 점차 늘어나고 있다. 그에 따라, 고객 상담 센터나 온라인 쇼핑몰 등을 비롯한 (그러나 이에 한정되지 않은 더 많은) 다양한 분야에서, 대화 이해 AI 시스템을 채택하여 각 사용자로 하여금 대화 이해 AI 시스템과의 자연어 대화를 통해 원하는 정보나 서비스를 편리하고 신속하게 획득할 수 있게 하려는 시도가 늘고 있다.Description of the Related Art [0002] In recent years, with the development of artificial intelligence fields, especially natural language understanding fields, it has become possible to move away from the machine operation according to the conventional machine-centered command input / output method and to allow users to use natural language in a more human-friendly manner such as voice and / The development and use of a conversation understanding AI system (e.g., chatbot) that allows the machine to operate in an interactive manner and obtain the desired service from the machine is increasing. Accordingly, adoption of the AI system of conversation understanding in various fields including (but not limited to) a customer consultation center or an online shopping mall enables each user to understand the conversation through natural language conversation with the AI system, Is getting more convenient and quicker.
대화 이해 AI 시스템은, 사용자를 상대로 스스로 대화 당사자로 나서서 대화를 주도하기도 하지만, 사람 사용자 간의 대화에 개입하여 대화 진행이 원활해지도록 돕는 방향으로 활용될 수도 있다.Understanding the conversation The AI system may be used as a conversation partner for the user, but it may also be used to intervene in the conversation between human users to help smooth the progress of the conversation.
본 개시의 일 특징에 의하면, 서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 통화는, 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 - 중에, 통화에 개입하여 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하는, 컴퓨터에 의해 수행되는 방법이 제공된다. 본 개시의 방법은, 통화 수행 중에, 디스플레이로 하여금, 제1 사용자 단말 상에서 제1 사용자에 의해 입력된 사용자 발화 입력이, 소정의 지식베이스 모델에 따라 자연어 처리됨에 의해 결정된 사용자 인텐트의 텍스트 표현을 표시하도록 하는 단계; 및 사용자 인텐트에 기초하여 결정된, 사용자 발화 입력에 대한 대화 응답으로서 제공될 수 있는 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계를 포함한다. According to one aspect of the disclosure, a call-to-call between a first user terminal and a second user terminal, remotely located from each other, comprises transmitting and receiving voice information between the first and second user terminals, To control a predetermined display associated with a second user terminal. The method of the present disclosure is characterized in that, during a call, the display causes the display to display a textual representation of a tent being a user determined by natural processing of the user utterance input entered by the first user on the first user terminal, ; And displaying each textual representation of the one or more dialog response candidates that may be provided as an interactive response to the user utterance input, determined based on the user intent.
본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 분석에 의하여 획득된 제1 사용자의 감정 정보- 감정 정보는, 제1 사용자의 감정 상태를 나타내는 정보를 표시하도록 하는 단계를 더 포함할 수 있다. According to one embodiment of the present disclosure, a method is characterized in that, during a call, the emotion information-emotion information of the first user obtained by analysis of the user's utterance input causes the display to display the emotion state of the first user So that the display can be displayed.
본 개시의 일 실시예에 의하면, 감정 정보는, 사용자 발화 입력의 분석에 기초하여, 복수의 감정 유형 각각에 대해 할당된 값 정보를 포함하고, 복수의 감정 유형은 열의, 행복, 기쁨, 안도감, 걱정, 분노, 슬픔, 놀람, 좌절, 공허, 증오, 자제함 중 적어도 하나의 감정 유형을 포함할 수 있다.According to one embodiment of the present disclosure, the emotion information includes value information assigned for each of a plurality of emotion types, based on an analysis of a user utterance input, wherein the plurality of emotion types includes at least one of emotion, happiness, joy, And may include at least one emotional type of anxiety, anxiety, anger, sadness, surprise, frustration, emptiness, hate, and restraint.
본 개시의 일 실시예에 의하면, 제2 사용자 단말에 연관된 소정의 디스플레이는, 제2 사용자 단말 상에서 통화를 수행하는 제2 사용자를 위한 디스플레이 및 제2 사용자 단말과 원격으로 배치된 관리자 디스플레이 중 하나를 포함할 수 있다.According to one embodiment of the present disclosure, a predetermined display associated with a second user terminal comprises one of a display for a second user performing a call on the second user terminal and a manager display remotely located with the second user terminal .
본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 분석에 의하여 추정된 제1 사용자의 프로필 정보- 프로필 정보는, 제1 사용자의 성별, 연령대, 및 사용 언어의 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함할 수 있다.According to one embodiment of the present disclosure, the method further comprises: during a call, displaying a first user's profile information-profile information estimated by analysis of a user utterance input, based on the sex, age, Language information including at least one of the information of the language.
본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 분석에 의하여 획득된 음성 음향 정보- 음성 음향 정보는, 사용자 발화 입력의, 볼륨, 피치 및 속도 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함할 수 있다. According to one embodiment of the present disclosure, a method is characterized in that during a call, the display causes the display to acquire voice acoustic information-voice acoustic information obtained by analysis of the user utterance input, of volume, pitch and velocity information Including at least one < RTI ID = 0.0 > of: < / RTI >
본 개시의 일 실시예에 의하면, 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계는, 하나 이상의 대화 응답 후보의 각 텍스트 표현을 각각의 대응하는 확률적 신뢰도와 함께 표시하도록 하는 단계를 포함할 수 있다.According to one embodiment of the present disclosure, the step of displaying each textual representation of one or more dialog response candidates includes displaying each textual representation of one or more dialog response candidates with respective corresponding probabilistic reliability can do.
본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력의 텍스트 표현을 표시하도록 하는 단계를 더 포함할 수 있다.According to one embodiment of the present disclosure, the method may further comprise, during a call, causing the display to display a textual representation of the user utterance input.
본 개시의 일 실시예에 의하면, 방법은, 통화 수행 중에, 디스플레이로 하여금, 사용자 발화 입력에 대한 대화 응답이 제공되어야 할 시점인지 여부의 확률적 표시자를 표시하도록 하는 단계를 더 포함할 수 있다.According to one embodiment of the present disclosure, the method may further comprise, during a call, causing the display to display a probabilistic indicator of whether or not an interactive response to the user utterance input is to be provided.
본 개시의 다른 특징에 의하면, 하나 이상의 명령어를 수록한 컴퓨터 판독가능 기록 매체로서, 하나 이상의 명령어는, 실행될 경우, 컴퓨터 장치로 하여금, 전술한 방법들 중 어느 하나의 방법을 수행하도록 하는, 컴퓨터 판독가능 기록 매체가 제공된다.According to another aspect of the present disclosure there is provided a computer-readable medium having stored thereon one or more instructions that, when executed, cause the computer device to perform any one of the methods described above, A possible recording medium is provided.
본 개시의 또 다른 특징에 의하면, 서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 통화는, 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 -에 개입하여 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하도록 구성된 컴퓨터 장치가 제공된다. 본 개시의 컴퓨터 장치는, 제1 사용자 단말로부터 사용자 발화 입력을 수신하도록 구성된 수신 모듈; 수신된 사용자 발화 입력을 분석하는 대화 이해 모듈- 대화 이해 모듈은, 소정의 지식베이스 모델을 포함하고, 소정의 지식베이스 모델에 따라, 수신된 사용자 발화 입력을 자연어 처리하여 사용자 발화 입력에 부합하는 사용자 인텐트를 결정하고, 결정된 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 결정하도록 구성됨 -; 및 결정된 사용자 인텐트 및 하나 이상의 대화 응답 후보의 정보를 디스플레이로 전송하도록 구성된 통신 모듈을 포함한다. According to another aspect of the present disclosure, a call-to-call communication between a first user terminal and a second user terminal, which is remotely located from each other, comprises transmitting and receiving voice information between the first and second user terminals, A computer apparatus configured to control a predetermined display associated with two user terminals is provided. The computer device of the present disclosure includes a receiving module configured to receive a user utterance input from a first user terminal; The dialogue understanding module - dialogue understanding module for analyzing the received user speech input comprises a predetermined knowledge base model and processes the received user speech input in a natural language according to a predetermined knowledge base model, Determine an intent and determine one or more dialog response candidates that match the determined user ' s tent; And a communication module configured to transmit information of the determined user intent and one or more conversation response candidates to the display.
본 개시에 의한 방법 및 장치는, 고객 상담 센터의 상담 직원과 고객 간의 전화 상담에 활용될 경우, 각 상황별로 사람 상담 직원의 응답 방향을 제시해줄 수 있기 때문에, 미숙한 상담 직원을 보조하여 원활한 고객 상담이 이루어질 수 있도록 할 뿐 아니라, 사람 상담 직원의 감정 노동 피로도를 완화하는 효과를 가져올 수 있다. 본 개시에 의한 방법 및 장치는, 또한 사람들 간의 유무선 음성 통화에도 적용되어 대화자로 하여금 대화 상대방의 감정을 읽고 그에 따라 섬세한 응답을 할 수 있도록 도울 수 있다.When the method and apparatus according to the present disclosure are used for telephone consultation between a consulting staff of a customer consulting center and a customer, it is possible to provide a response direction of a consulting staff for each situation. Therefore, Not only the consultation can be performed, but also the emotional labor fatigue of the person consulting staff can be mitigated. The method and apparatus of the present disclosure can also be applied to wired and wireless voice calls between people so that the conversation person can read the feelings of the conversation partner and thus provide a delicate response accordingly.
도 1은, 본 개시의 일 실시예에 따라, 대화 이해 AI 시스템이 구현될 수 있는 시스템 환경을 개략적으로 도시한 도면이다.1 is a diagram schematically illustrating a system environment in which a conversation understanding AI system may be implemented, in accordance with one embodiment of the present disclosure.
도 2는, 본 개시의 일 실시예에 따른, 도 1의 대화 이해 서비스 서버(104)의 기능적 구성을 개략적으로 도시한 기능 블록도이다.FIG. 2 is a functional block diagram that schematically illustrates the functional configuration of the conversation understanding service server 104 of FIG. 1, according to one embodiment of the present disclosure.
도 3은, 본 개시의 일 실시예에 따른, 도 2의 대화 이해부(204)의 기능적 구성을 개략적으로 도시한 기능 블록도이다.FIG. 3 is a functional block diagram that schematically illustrates the functional configuration of the dialogue understanding unit 204 of FIG. 2, according to one embodiment of the present disclosure.
도 4는, 본 개시의 일 실시예에 따른, 도 1의 응답 사용자 단말(108)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. FIG. 4 is a functional block diagram that schematically illustrates the functional configuration of the responding user terminal 108 of FIG. 1, in accordance with one embodiment of the present disclosure.
도 5는, 본 개시의 일 실시예에 따라, 도 1의 응답 사용자 단말(108)의 화면 표시부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다. FIG. 5 is a diagram illustrating an example of a screen configuration that may be presented on a screen display of response user terminal 108 of FIG. 1, in accordance with one embodiment of the present disclosure.
도 6은, 본 개시의 다른 실시예에 따라, 도 1의 응답 사용자 단말(102)의 표시부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다.FIG. 6 is a diagram illustrating an example of a screen configuration that may be presented on the display of the responding user terminal 102 of FIG. 1, in accordance with another embodiment of the present disclosure.
이하, 첨부 도면을 참조하여 본 개시의 실시예에 관하여 상세히 설명한다. 이하에서는, 본 개시의 요지를 불필요하게 흐릴 우려가 있다고 판단되는 경우, 이미 공지된 기능 및 구성에 관한 구체적인 설명을 생략한다. 또한, 이하에서 설명하는 내용은 어디까지나 본 개시의 일 실시예에 관한 것일 뿐 본 개시가 이로써 제한되는 것은 아님을 알아야 한다.Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. Hereinafter, when it is judged that there is a possibility that the gist of the present disclosure may be unnecessarily blurred, a detailed description of known functions and configurations will be omitted. It is also to be understood that the following description is only an example of the present disclosure, and the present disclosure is not limited thereto.
본 개시에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로 본 개시를 한정하려는 의도에서 사용된 것이 아니다. 예를 들면, 단수로 표현된 구성요소는 문맥상 명백하게 단수만을 의미하지 않는다면 복수의 구성요소를 포함하는 개념으로 이해되어야 한다. 본 개시에서 사용되는 "및/또는"이라는 용어는, 열거되는 항목들 중 하나 이상의 항목에 의한 임의의 가능한 모든 조합들을 포괄하는 것임이 이해되어야 한다. 본 개시에서 사용되는 '포함하다' 또는 '가지다' 등의 용어는 본 개시 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐이고, 이러한 용어의 사용에 의해 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하려는 것은 아니다.The terminology used in this disclosure is used only to describe a specific embodiment and is not used to limit the present disclosure. For example, an element expressed in singular < Desc / Clms Page number 5 > terms should be understood as including a plurality of elements unless the context clearly dictates a singular value. It is to be understood that the term "and / or" as used in this disclosure encompasses any and all possible combinations of one or more of the listed items. It should be understood that the terms " comprises " or " having ", etc. used in the present disclosure are intended to specify that there exist features, numbers, steps, operations, elements, It is not intended to exclude the presence or addition of one or more other features, numbers, steps, operations, components, parts, or combinations thereof, by use.
본 개시의 실시예에 있어서 '모듈' 또는 '부'는 적어도 하나의 기능이나 동작을 수행하는 기능적 부분을 의미하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 또는 '부'는, 특정한 하드웨어로 구현될 필요가 있는 '모듈' 또는 '부'를 제외하고는, 적어도 하나의 소프트웨어 모듈로 일체화되어 적어도 하나의 프로세서에 의해 구현될 수 있다.In the embodiments of the present disclosure, 'module' or 'sub-module' means a functional part that performs at least one function or operation, and may be implemented in hardware or software, or a combination of hardware and software. Also, a plurality of "modules" or "sub-modules" may be integrated into at least one software module and implemented by at least one processor, except for "module" or "sub-module" have.
본 개시의 실시예에 있어서 '대화 이해 AI 시스템'은, 사용자로부터 음성 형태의 자연어를 매개로 한 대화형 인터랙션을 통해, 사용자로부터 입력되는 자연어 입력(예컨대, 자연어로 된 사용자로부터의 명령, 진술, 요청, 질문 등)을 수신 및 해석하여 사용자의 인텐트(intent)를 알아내고 그 알아낸 사용자의 인텐트에 기초하여 필요한 동작, 즉 적절한 대화 응답 및/또는 태스크를 제공할 수 있는 임의의 정보 처리 시스템을 지칭할 수 있으며, 특정 형태로 제한되는 것은 아니다.In the embodiment of the present disclosure, the " conversation understanding AI system " is a system in which a natural language input (e.g., a command from a user in natural language, a statement, Requests, questions, and so on) to determine the intent of the user and to provide the necessary actions based on the found user's intent, i.e., any information processing System, and is not limited to any particular form.
덧붙여, 달리 정의되지 않는 한 기술적 또는 과학적인 용어를 포함하여, 본 개시에서 사용되는 모든 용어들은 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의된 용어들은, 관련 기술의 문맥상 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 개시에서 명백하게 달리 정의하지 않는 한 과도하게 제한 또는 확장하여 해석되지 않는다는 점을 알아야 한다.In addition, all terms used in the present disclosure, including technical or scientific terms, unless otherwise defined, have the same meaning as commonly understood by one of ordinary skill in the art to which this disclosure belongs. It should be understood that commonly used predefined terms are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are not to be interpreted excessively or extensively unless explicitly defined otherwise in this disclosure .
이하, 첨부된 도면을 참조하여, 본 개시의 실시예에 대해 구체적으로 설명하기로 한다.Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings.
도 1은, 본 개시의 일 실시예에 따라, 대화 이해 AI 시스템이 구현될 수 있는 시스템 환경(100)을 개략적으로 도시한 도면이다. 도시된 바에 의하면, 시스템 환경(100)은, 복수의 요청 사용자 단말(102a-102n), 대화 이해 서비스 서버(104), 통신망(106) 및 복수의 응답 사용자 단말(108a-108m)을 포함한다.Figure 1 is a schematic diagram of a system environment 100 in which a conversation understanding AI system may be implemented, in accordance with one embodiment of the present disclosure. The system environment 100 includes a plurality of requesting user terminals 102a-102n, a conversation understanding service server 104, a communication network 106 and a plurality of responding user terminals 108a-108m.
본 개시의 일 실시예에 의하면, 복수의 요청 사용자 단말(102a-102n)은 유선 또는 무선 형태의 전화 기능을 구비한 임의의 사용자 장치일 수 있다. 요청 사용자 단말(102a-102n) 각각은, 예컨대 유무선 전화기, 스마트 폰, 태블릿 PC, 스마트 스피커, 데스크탑, 랩탑, PDA, 디지털 TV, 셋탑박스 등을 포함한 다양한 유선 또는 무선 전화 통신 단말일 수 있으며, 특정 형태로 제한되지 않음을 알아야 한다. 본 개시의 일 실시예에 의하면, 복수의 요청 사용자 단말(102a-102n) 각각은, 예컨대 PSTN, VoIP, GSM, CDMA, TDMA, OFDM, EDGE(Enhanced Data GSM Environment), TCP/IP, Wi-Fi, LAN, WAN, 기타 임의의 다양한 유선 또는 무선 통신 프로토콜을 이용하여 대화 이해 서비스 서버(104)에 접속할 수 있다. 본 개시의 일 실시예에 의하면, 복수의 요청 사용자 단말(102a-102n) 각각은 대화 이해 서비스 서버(104)에 접속하여 원하는 서비스를 요청할 수 있다.According to one embodiment of the present disclosure, a plurality of requesting user terminals 102a-102n may be any user device having a wired or wireless form of telephone capability. Each of the requesting user terminals 102a-102n may be a variety of wired or wireless telephony terminals, including, for example, a wired and wireless telephone, a smartphone, a tablet PC, a smart speaker, a desktop, a laptop, a PDA, a digital TV, a set- But not limited to, the < / RTI > In accordance with one embodiment of the present disclosure, each of the plurality of requesting user terminals 102a-102n may be a PSTN, VoIP, GSM, CDMA, TDMA, OFDM, Enhanced Data GSM Environment (EDGE) , LAN, WAN, or any of a variety of wired or wireless communication protocols. According to one embodiment of the present disclosure, each of the plurality of requesting user terminals 102a-102n may contact the conversation understanding service server 104 to request the desired service.
본 개시의 일 실시예에 의하면, 요청 사용자 단말(102a-102n) 각각은, 해당 단말 상의 사용자로부터 음성 입력을 수신할 수 있을 뿐 아니라, 텍스트 및/또는 터치 형태 등 기타 다른 다양한 형태의 사용자 입력을 수신할 수 있고, 수신된 사용자 입력 신호를, 소정의 통신 방식에 따라, 대화 이해 서비스 서버(104)로 송신할 수 있다. 본 개시의 일 실시예에 의하면, 요청 사용자 단말(102a-102n) 각각은, 대화 이해 서비스 서버(104)로부터 소정의 통신 방식에 따라 음성 형태의 응답 신호를 수신할 수 있을 뿐 아니라, 기타 시각 및/또는 촉각 형태 등 기타 다른 다양한 형태의 응답 신호를 수신할 수도 있다. According to one embodiment of the present disclosure, each of the requesting user terminals 102a-102n may receive voice input from a user on the terminal, as well as other various types of user input, such as text and / And can transmit the received user input signal to the conversation understanding service server 104 according to a predetermined communication method. According to one embodiment of the present disclosure, each of the requesting user terminals 102a-102n can receive not only a voice response signal according to a predetermined communication method from the conversation understanding service server 104, / RTI > and / or other various types of response signals, such as a tactile shape.
본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 소정의 유선 또는 무선 통신 방식에 따라, 요청 사용자 단말(102a-102n)과 통신할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 요청 사용자 단말(102a-102n)로부터 들어오는 음성 전화 호출(음성 정보가 포함된, 영상 및 텍스트 등 기타 다른 형태의 정보를 포함하는 다양한 형태의 전화 호출을 포함함)을 수신하고, 요청 사용자 단말(102a-102n)과 후술하는 응답 사용자 단말(108a-108m) 중 하나 사이에 통화 호(통신 세션)를 수립할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 수립된 통화 호를 통하여, 요청 사용자 단말(102a-102n)로부터 사용자 발화(및 음성 발화 입력이 포함된, 영상 및 텍스트 등 기타 다른 형태의 정보를 포함한 다양한 형태의) 입력을 수신할 수 있다.According to one embodiment of the present disclosure, the conversation understanding service server 104 may communicate with the requesting user terminals 102a-102n in accordance with any wired or wireless communication scheme. In accordance with one embodiment of the present disclosure, the conversation understanding service server 104 may receive a voice telephone call (voice information including voice information from the requesting user terminals 102a-102n, including other types of information such as video and text, (Including various types of telephone calls) and establish a call (communication session) between the requesting user terminal 102a-102n and one of the responding user terminals 108a-108m described below. In accordance with one embodiment of the present disclosure, the conversation understanding service server 104 receives user utterances (and voice and text utterances including voice and speech input, etc.) from the requesting user terminals 102a-102n via the established call calls Various types of information including other types of information).
본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 미리 준비된 지식베이스 모델들에 기초해서 위 수신된 사용자 발화 입력을 처리하여 사용자의 인텐트(intent)를 결정할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 결정된 사용자 인텐트 및 문맥을 고려하여 사용자에게 답변을 제공할 차례인지를 나타내는 지표(예컨대, 확률적 표시자)를 결정할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는 또한 수신된 사용자 발화 등을 분석하여 사용자에 관한 정보, 예컨대 사용자 프로필, 사용자 음성의 음향 특징 및/또는 감정 등에 관한 분석 결과를 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 예컨대 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보(제안)를 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 예컨대 위 사용자 프로필, 음성 음향 특징 및/또는 감정 등에 관한 분석 결과를 고려하여, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 생성할 수 있다. According to one embodiment of the present disclosure, the conversation understanding service server 104 may process the received user utterance input based on previously prepared knowledge base models to determine the intent of the user. According to one embodiment of the present disclosure, the conversation understanding service server 104 may determine an indicator (e.g., a probabilistic indicator) that indicates the turn to provide the user with an answer in consideration of the determined user ' s tent and context . According to one embodiment of the present disclosure, the conversation understanding service server 104 also analyzes the received user utterances, etc. and generates analysis results regarding information about the user, e.g., a user profile, acoustic characteristics and / can do. According to one embodiment of the present disclosure, the conversation understanding service server 104 may generate one or more conversation response candidates (suggestions) that match, for example, a user ' s tent. According to one embodiment of the present disclosure, the conversation understanding service server 104 receives one or more conversation response candidates matching the user ' s intent, taking into account, for example, analysis results regarding the above user profile, voice acoustic features and / Can be generated.
본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 통화 호를 통하여 수신된 사용자 발화 입력을, 그 수신된 사용자 발화 입력을 분석 및 처리하여 획득한 결과, 예컨대 사용자 인텐트(및 문맥) 정보, 답변을 제공할 차례인지 나타내는 지표, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 기타 사용자 프로필 특징, 음성 음향 특징 및 감정 특징 등의 분석 결과 정보 등과 함께, 후술하는 통신망(106)을 통해, 대응하는 응답 사용자 단말(108a-108m) 중 하나로 전송할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는, 금융, 의료, 법률, 쇼핑 등 다양한 분야의 각종 고객 센터 서버일 수 있으나, 본 개시가 이로써 제한되는 것은 아니다. In accordance with one embodiment of the present disclosure, the conversation understanding service server 104 receives a user utterance input received via a call call as a result of analyzing and processing the received user utterance input, Context information), an index indicating whether the answer is to be provided, one or more dialog response candidates matching the user intent, and analysis result information such as other user profile features, voice acoustic features, and emotion characteristics, ) To one of the corresponding responding user terminals 108a-108m. According to one embodiment of the present disclosure, the conversation understanding service server 104 may be various customer center servers in various fields such as finance, medical care, law, shopping, etc., but the present disclosure is not limited thereto.
본 도면에서는, 대화 이해 서비스 서버(104)가 대화 이해 기능(예컨대, 전술한 사용자 음성의 분석 및 처리에 의한 사용자 인텐트 및 기타 다양한 분석 결과의 획득 및 제공 기능 등)을 내부에 구비한 독립적 형태의 서버로 도시되어 있으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 대화 이해 서비스 서버(104)는, 대화 이해 기능을 내부에 구비하는 대신에, 별도의 외부 대화 이해 서버와의 통신을 통해 필요한 대화 이해 기능을 획득할 수도 있음을 알아야 한다.In the figure, the conversation understanding service server 104 has an independent form (for example, a function of acquiring and providing a user's intent and other various analysis results by analysis and processing of the user's voice described above) The present disclosure is not limited thereto. According to another embodiment of the present disclosure, the conversation understanding service server 104 may acquire the necessary conversation understanding function through communication with a separate external conversation understanding server, instead of having the conversation understanding function inside You should know.
본 개시의 일 실시예에 의하면, 통신망(106)은, 임의의 유선 또는 무선 통신망, 예컨대 TCP/IP 통신망을 포함할 수 있다. 본 개시의 일 실시예에 의하면, 통신망(106)은, 예컨대 Wi-Fi망, LAN망, WAN망, 인터넷망 등을 포함할 수 있으며, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 일 실시예에 의하면, 통신망(106)은, 예컨대 이더넷, GSM, EDGE, CDMA, TDMA, OFDM, 블루투스, VoIP, Wi-MAX, Wibro 기타 임의의 다양한 유선 또는 무선 통신 프로토콜을 이용하여 구현될 수 있다.According to one embodiment of the present disclosure, the communication network 106 may include any wired or wireless communication network, e.g., a TCP / IP communication network. According to one embodiment of the present disclosure, the communication network 106 may include, for example, a Wi-Fi network, a LAN network, a WAN network, an Internet network, and the like, and the present disclosure is not limited thereto. In accordance with one embodiment of the present disclosure, the communication network 106 may be implemented using any of a variety of wired or wireless communication protocols such as, for example, Ethernet, GSM, EDGE, CDMA, TDMA, OFDM, Bluetooth, VoIP, Wi-MAX, Wibro, .
본 개시의 일 실시예에 의하면, 응답 사용자 단말(108a-108m) 각각은, 통신망(106)을 통하여, 대화 이해 서비스 서버(104)로부터, 전술한 요청 사용자 단말(102a-102n)에서 수신된 사용자 발화 입력과, 그 사용자 발화 입력의 분석 및 처리 결과, 예컨대 사용자 인텐트(및 문맥) 정보, 답변을 제공할 차례인지 나타내는 지표, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 기타 사용자 프로필 특징, 음성 음향 특징 및 감정 특징 등에 관한 분석 결과 등을 수신할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 단말(108a-108m)은, 수신된 사용자 발화 입력과, 각종 분석 결과 등을 각각 음성 출력부 및 화면 출력부(디스플레이)를 통해 해당 응답 사용자 단말(108a-108m) 상의 응답 사용자(예컨대, 상담 직원)에게 제시할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 단말(108a-108m)은 또한 해당 단말 상의 응답 사용자로부터 음성(및 기타 다양한 형태의) 입력을 수신하고 이를 통신망(106)을 통하여 대화 이해 서비스 서버(104)로 전달할 수 있다. According to one embodiment of the present disclosure, each of the responding user terminals 108a-108m may receive, from the conversation understanding service server 104 via the communication network 106, the users received from the requesting user terminals 102a-102n, (And context) information, an indicator indicating whether the answer is to be provided, one or more dialog response candidates matching the user intent, and other user profile features Voice acoustic features, emotional characteristics, and the like. According to one embodiment of the present disclosure, the answering user terminals 108a-108m receive the user utterance input, various analysis results, and the like via the voice output unit and the screen output unit (display) -108m) to the responding user (e.g., consulting staff). In accordance with one embodiment of the present disclosure, the responding user terminals 108a-108m also receive voice (and other types of) input from responding users on the terminal and communicate it via the communication network 106 to the conversation understanding service server 104 ). ≪ / RTI >
도 2는, 본 개시의 일 실시예에 따른, 도 1의 대화 이해 서비스 서버(104)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. 도시된 바에 의하면, 대화 이해 서비스 서버(104)는, 전화 호 수립/중계부(202), 대화 이해부(204), 및 통신부(206)를 포함한다.FIG. 2 is a functional block diagram that schematically illustrates the functional configuration of the conversation understanding service server 104 of FIG. 1, according to one embodiment of the present disclosure. As shown, the conversation understanding service server 104 includes a telephone call establishing / relaying unit 202, a conversation understanding unit 204, and a communication unit 206.
본 개시의 일 실시예에 의하면, 전화 호 수립/중계부(202)는, 요청 사용자 단말(102a-102n) 중 하나와, 응답 사용자 단말(108a-108m) 중 하나 사이에 통화 호를 수립하고, 수립된 통화 호를 통해 양자간 전화 통화(즉, 음성 등의 송수신)가 이루어지도록 동작할 수 있다. 본 개시의 일 실시예에 의하면, 전화 호 수립/중계부(202)는, 소정의 통신 프로토콜에 따라, 요청 사용자 단말(102a-102n)로부터 들어오는 사용자 발화 음성 입력 등을 수신하고, 또한 응답 사용자 단말(108a-108m) 중 하나로부터 전송되어 온 응답 사용자로부터의 음성 입력 등을, 대응하는 요청 사용자 단말(102a-102n)로 전송할 수 있다.According to one embodiment of the present disclosure, the telephone call establishing / relaying unit 202 establishes a telephone call between one of the requesting user terminals 102a-102n and one of the responding user terminals 108a-108m, (I.e., transmission and reception of voice, etc.) through the established call. According to one embodiment of the present disclosure, the telephone call establishing / relaying unit 202 receives user's utterance voice input or the like incoming from the requesting user terminal 102a-102n according to a predetermined communication protocol, To the corresponding requesting user terminal 102a-102n, voice input from the responding user transmitted from one of the requesting user terminals 108a-108m.
본 개시의 일 실시예에 의하면, 대화 이해부(204)는, 전화 호 수립/중계부(202)를 통하여, 요청 사용자 단말(102a-102n)로부터 수신된 사용자 발화 입력을 수신하고 수신된 발화 입력을 텍스트로 변환할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해부(204)는 또한 미리 준비된 지식베이스 모델들에 기초해서 수신된 사용자 발화 입력에 대응하는 사용자 인텐트(intent)를 결정할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 서비스 서버(104)는 또한 수신된 사용자 발화 입력을 분석하여 사용자에 관한 정보, 예컨대 사용자 프로필 정보, 음성 음향 특징 정보 및 감정 정보 등을 획득할 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해부(204)는 또한, 미리 준비된 지식베이스 모델들과, 위 분석된 사용자에 관한 정보 등에 기초하여, 앞서 결정된 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 생성할 수 있다. According to one embodiment of the present disclosure, the conversation understanding section 204 receives the user speech input received from the requesting user terminal 102a-102n via the telephone call establishing / relaying section 202 and receives the received speech input Can be converted into text. According to one embodiment of the present disclosure, the conversation understanding section 204 may also determine a user intent corresponding to the received user speech input based on previously prepared knowledge base models. According to one embodiment of the present disclosure, the conversation understanding service server 104 may also analyze the received user speech input to obtain information about the user, such as user profile information, voice acoustic feature information, and emotional information. In accordance with one embodiment of the present disclosure, the conversation understanding section 204 may also determine, based on previously prepared knowledge base models, information about the analyzed users, and the like, one or more conversation response candidates Lt; / RTI >
본 개시의 일 실시예에 의하면, 통신부(206)는, 대화 이해 서비스 서버(104)가, 도 1의 통신망(106)을 통하여, 응답 사용자 단말(108a-108m) 각각과 통신할 수 있게 한다. 본 개시의 일 실시예에 의하면, 통신부(206)는, 전화 호 수립/중계부(202)를 통해 요청 사용자 단말(102a-102n)로부터 수신된 사용자 발화 입력 신호 등과, 그 사용자 발화 입력 신호 등으로부터 대화 이해부(204)에서 생성된 사용자 인텐트, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 각종 분석 결과를, 소정의 프로토콜에 따라 응답 사용자 단말(108a-108m) 중 하나로 전송할 수 있다.According to one embodiment of the present disclosure, the communication unit 206 allows the conversation understanding service server 104 to communicate with each of the responding user terminals 108a-108m through the communication network 106 of Fig. According to one embodiment of the present disclosure, the communication unit 206 is configured to communicate with the user's utterance input signal or the like received from the requesting user terminals 102a-102n via the telephone call establishing / relaying unit 202, One or more dialog response candidates matching the user tent, and various analysis results generated by the dialogue understanding unit 204 can be transmitted to one of the response user terminals 108a-108m according to a predetermined protocol.
도 3은, 본 개시의 일 실시예에 따른, 도 2의 대화 이해부(204)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. 도시된 바에 의하면, 대화 이해부(204)는, 음성-텍스트 변환(Speech-To-Text; STT) 모듈(302), 음향 특징 분석 모듈(304), 자연어 이해(Natural Language Understanding; NLU) 모듈(306), 대화 이해 지식베이스(308), 사용자 프로필 분석 모듈(310), 대화 관리 모듈(312), 감정 분석 모듈(314), 및 대화 생성 모듈(316)을 포함한다.FIG. 3 is a functional block diagram that schematically illustrates the functional configuration of the dialogue understanding unit 204 of FIG. 2, according to one embodiment of the present disclosure. The dialogue understanding unit 204 includes a Speech-To-Text (STT) module 302, an acoustic feature analysis module 304, a Natural Language Understanding (NLU) module 306, a dialog understanding knowledge base 308, a user profile analysis module 310, a dialogue management module 312, an emotion analysis module 314, and a dialogue generation module 316.
본 개시의 일 실시예에 의하면, STT 모듈(302)은, 도 2의 전화 호 수립/중계부(202)를 통해 수신된, 전화 호 요청 사용자의 발화 입력을 수신하고, 수신된 발화 입력을 패턴 매칭 등에 기초하여 텍스트 데이터로 변환할 수 있다. 본 개시의 일 실시예에 의하면, STT 모듈(302)은, 전화 호 요청 사용자의 발화 입력으로부터 특징을 추출하여 특징 벡터열을 생성할 수 있다. 본 개시의 일 실시예에 의하면, STT 모듈(302)은, DTW(Dynamic Time Warping) 방식이나 HMM 모델(Hidden Markov Model), GMM 모델(Gaussian-Mixture Mode), 딥 신경망 모델, n-gram 모델 등의 다양한 통계적 모델에 기초하여, 텍스트 인식 결과, 예컨대 단어들의 시퀀스를 생성할 수 있다. According to one embodiment of the present disclosure, the STT module 302 receives the call input of the telephone call requesting user, received via the telephone call establishing / relaying unit 202 of FIG. 2, And can be converted into text data based on matching and the like. According to one embodiment of the present disclosure, the STT module 302 may extract a feature from a speech call requesting user's telephone input to generate a feature vector sequence. According to one embodiment of the present disclosure, the STT module 302 may be implemented as a dynamic time warping (DTW) method, a HMM model (Hidden Markov Model), a GMM model (Gaussian-Mixture Mode), a deep neural network model, For example, a sequence of words, based on various statistical models of the speech recognition results.
본 개시의 일 실시예에 의하면, 음향 특징 분석 모듈(304)은, STT 모듈(302)와 마찬가지로, 도 2의 전화 호 수립/중계부(202)를 통해 수신된 사용자 발화 입력을 수신할 수 있다. 본 개시의 일 실시예에 의하면, 음향 특징 분석 모듈(304)은, 수신된 사용자 발화 입력으로부터 음성의 음향 특징 정보들을 측정 및/또는 추출할 수 있다. 본 개시의 일 실시예에 의하면, 음향 특징 분석 모듈(304)은, 예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등을 측정 및/또는 추출할 수 있다.According to one embodiment of the present disclosure, the acoustic feature analysis module 304, like the STT module 302, can receive the user utterance input received via the telephone call establishing / relaying section 202 of Figure 2 . According to one embodiment of the present disclosure, the acoustic feature analysis module 304 may measure and / or extract acoustic feature information of speech from the received user speech input. According to one embodiment of the present disclosure, the acoustic feature analysis module 304 may measure and / or extract, for example, the volume, pitch, velocity, and other acoustic information of the user audio input.
본 개시의 일 실시예에 의하면, NLU 모듈(306)은, STT 모듈(302)로부터 텍스트 입력을 수신할 수 있다. 본 개시의 일 실시예에 의하면, NLU 모듈(306)에서 수신되는 텍스트 입력은, 예컨대 도 2의 전화 호 수립/중계부(202)를 통해 수신된 사용자 발화 입력으로부터 STT 모듈(302)에서 생성된 텍스트 인식 결과, 예컨대 단어들의 시퀀스일 수 있다. 본 개시의 일 실시예에 의하면, NLU 모듈(306)은, 후술하는 대화 이해 지식베이스(308)에 기초하여, 위 수신된 텍스트 입력을 하나 이상의 사용자 인텐트(intent)에 대응시킬 수 있다. 여기서 사용자 인텐트는, 그 사용자 인텐트에 따라 대화 이해 서비스 서버(104)에 의해 이해되고 수행될 수 있는 일련의 동작(들)과 연관될 수 있다.According to one embodiment of the present disclosure, the NLU module 306 may receive text input from the STT module 302. In accordance with one embodiment of the present disclosure, the textual input received at the NLU module 306 is received from the user utterance input received via the telephone call establishing / relaying unit 202 of FIG. 2, for example, A text recognition result, e.g., a sequence of words. According to one embodiment of the present disclosure, the NLU module 306 may map the received text input to one or more user-defined intents based on a dialog understanding knowledge base 308, described below. Where the user intent may be associated with a series of operations (s) that can be understood and performed by the conversation understanding service server 104 in accordance with the user ' s tent.
본 개시의 일 실시예에 의하면, 대화 이해 지식베이스(308)는, 예컨대 미리 정의된 온톨로지 모델을 포함할 수 있다. 본 개시의 일 실시예에 의하면, 온톨로지 모델은, 예컨대 노드들 간의 계층 구조로 표현될 수 있는데, 각 노드는 사용자의 인텐트에 대응한 "인텐트" 노드 또는 "인텐트" 노드에 링크된 하위 "속성" 노드("인텐트" 노드에 직접 링크되거나 "인텐트" 노드의 "속성" 노드에 다시 링크된 하위 "속성" 노드) 중 하나일 수 있다. 본 개시의 일 실시예에 의하면, "인텐트" 노드와 그 "인텐트" 노드에 직접 또는 간접 링크된 "속성" 노드들은 하나의 도메인을 구성할 수 있고, 온톨로지는 이러한 도메인들의 집합으로 구성될 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 지식베이스(308)는, 예컨대 대화 이해 서비스 서버(104)가 이해하고 그에 대응한 동작을 수행할 수 있는 모든 인텐트들에 각각 대응하는 도메인들을 포함하도록 구성될 수 있다. 본 개시의 일 실시예에 의하면, 온톨로지 모델은, 노드의 추가나 삭제, 또는 노드 간의 관계의 수정 등에 의해 동적으로 변경될 수 있음을 알아야 한다.According to one embodiment of the present disclosure, the conversation understanding knowledge base 308 may include, for example, a predefined ontology model. According to one embodiment of the present disclosure, an ontology model can be represented, for example, in a hierarchical structure between nodes, each node having an "intent" node corresponding to the user's intent or a &Quot; Attributes " node that is linked directly to an " Attributes "node or a " Attributes" node of an "Attributes" According to one embodiment of the present disclosure, the " intent "node and the" attribute "nodes directly or indirectly linked to the" intent "node can constitute one domain and the ontology comprises a set of such domains . In accordance with one embodiment of the present disclosure, the conversation understanding knowledge base 308 may include, for example, domains that correspond to all of the intents that the conversation understanding service server 104 can understand and perform corresponding actions Lt; / RTI > It should be noted that, according to one embodiment of the present disclosure, the ontology model can be dynamically changed by addition or deletion of nodes, or modification of relations between nodes.
본 개시의 일 실시예에 의하면, 온톨로지 모델 내의 각 도메인의 인텐트 노드 및 속성 노드들은, 그에 대응하는 사용자 인텐트 또는 속성들에 관련된 단어들 및/또는 구절들과 각각 연관될 수 있다. 본 개시의 일 실시예에 의하면, 대화 이해 지식베이스(308)는, 온톨로지 모델을, 계층 구조의 노드들과, 각 노드 별로 연관된 단어들 및/또는 구절들의 집합으로 구성된, 예컨대 어휘 사전 형태(구체적으로 도시되지 않음)로 구현할 수 있고, NLU 모듈(306)은 이와 같이 어휘 사전 형태로 구현된 온톨로지 모델에 기초하여 사용자 인텐트를 결정할 수 있다. 예컨대, 본 개시의 일 실시예에 의하면, NLU 모듈(306)은, 텍스트 입력 또는 단어들의 시퀀스를 수신하면, 그 시퀀스 내의 각 단어들이 온톨로지 모델 내의 어떤 도메인의 어떤 노드들에 연관되는지 결정할 수 있고, 그러한 결정에 기초하여 대응하는 도메인, 즉 사용자 인텐트를 결정할 수 있다. According to one embodiment of the present disclosure, the intent nodes and attribute nodes of each domain in the ontology model may be associated with words and / or phrases associated with the corresponding user's tent or attributes, respectively. According to one embodiment of the present disclosure, the conversation understanding knowledge base 308 includes an ontology model 308, which may comprise an ontology model, for example, a hierarchy of nodes, , And the NLU module 306 may determine the user intent based on the ontology model implemented in the lexical dictionary form. For example, according to one embodiment of the present disclosure, the NLU module 306, upon receipt of a text input or a sequence of words, can determine which nodes in a domain in the ontology model each word in the sequence is associated with, Based on such a determination, it is possible to determine the corresponding domain, i. E. The user tent.
본 개시의 일 실시예에 의하면, 사용자 프로필 분석 모듈(310)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력을 분석하여 사용자 프로필에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 사용자 프로필 분석 모듈(310)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력과, 그 발화 입력에 관한 처리 및 분석 결과, 예컨대 전술한 음향 특징 분석 모듈(304)에 의해 획득된 정보(예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등), NLU 모듈(306)에 의해 획득된 하나 이상의 인텐트 등을 종합적으로 분석하여, 사용자 프로필에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 사용자 프로필 분석 모듈(310)은, 예컨대 사용자의 성별, 연령대, 사용 언어 등을 추정 또는 획득하고, 획득된 정보를 제공할 수 있다.According to one embodiment of the present disclosure, the user profile analysis module 310 may analyze the speech input of the telephone call requesting user received via the telephone call establishing / relaying 202 to estimate information about the user profile have. According to one embodiment of the present disclosure, the user profile analysis module 310 is configured to analyze the user input of the telephone call requesting user input via the telephone call establishing / relaying unit 202, (E.g., volume, pitch, velocity, and other acoustic information of the user's voice input) obtained by the above-described acoustic feature analysis module 304, one or more intents acquired by the NLU module 306, And estimate information about the user profile. According to one embodiment of the present disclosure, the user profile analysis module 310 may estimate or obtain, for example, the user's gender, age range, language of use, and the like, and provide the obtained information.
본 개시의 일 실시예에 의하면, 대화 관리 모듈(312)은, NLU 모듈(306)에 의해 결정된 사용자 인텐트에 기초하고, 소정의 대화 관리 지식베이스 모델에 따라, 위 사용자 인텐트에 대응하는 일련의 동작 흐름을 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 관리 모듈(312)은, 소정의 대화 관리 지식베이스 모델에 기초하여, 예컨대 NLU 모듈(306)로부터 수신된 사용자 인텐트에 대응하여 어떠한 동작, 예컨대 어떠한 대화 응답을 행하여야 할지를 결정하고, 그에 따른 세부 동작 흐름을 생성할 수 있다. According to one embodiment of the present disclosure, the dialogue management module 312 is based on a tent of the user determined by the NLU module 306 and, in accordance with a predetermined dialogue management knowledge base model, Lt; / RTI > In accordance with one embodiment of the present disclosure, the conversation management module 312 is configured to determine, based on a predetermined dialogue management knowledge base model, any action, e.g., any conversation response, in response to a tent received from the NLU module 306 , And generate a corresponding detailed operation flow.
본 개시의 일 실시예에 의하면, 감정 분석 모듈(314)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력을 분석하여, 사용자의 현재 감정에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 감정 분석 모듈(314)은, 전화 호 수립/중계부(202)를 통해 수신된 전화 호 요청 사용자의 발화 입력, 그 발화 입력에 관한 처리 및 분석 결과, 예컨대 전술한 사용자 음향 특징 분석 모듈(304)에 의해 획득된 정보(예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등), NLU 모듈(306)에 의해 획득된 하나 이상의 인텐트, 및/또는 사용자 프로필 분석 모듈(310)에 의해 획득된 사용자 프로필 정보(예컨대, 사용자의 성별, 연령대, 사용 언어 등) 등을 종합적으로 분석하여, 사용자의 현재 감정에 관한 정보를 추정할 수 있다. 본 개시의 일 실시예에 의하면, 감정 분석 모듈(312)은, 사람의 감정 유형을 소정의 복수 개수의 유형으로 분류하고(예컨대, 열의, 행복, 기쁨, 안도감, 걱정, 분노, 슬픔, 놀람, 좌절, 공허, 증오, 자제함 등), 위 정보들의 종합적 분석에 따라 각 감정 유형별로 값을 할당하여, 그 할당된 값을 통해 사용자의 현재 감정 상태를 나타낼 수 있다. According to one embodiment of the present disclosure, the emotion analysis module 314 analyzes the speech input of the telephone call requesting user received via the telephone call establishing / relaying unit 202 to estimate information about the current emotion of the user can do. According to one embodiment of the present disclosure, the emotion analysis module 314 is configured to determine whether the speech input of the telephone call requesting user received through the telephone call establishing / relaying unit 202, (E.g., volume, pitch, velocity, other acoustic information, etc.) obtained by a user acoustic feature analysis module 304, one or more intents acquired by the NLU module 306, and / The information on the current emotion of the user can be estimated by comprehensively analyzing the user profile information (for example, user's sex, age group, language, etc.) acquired by the profile analysis module 310. According to one embodiment of the present disclosure, the emotional analysis module 312 classifies a person's emotional type into a predetermined plurality of types (e.g., heat, happiness, joy, comfort, anxiety, anger, sadness, Frustration, void, hate, restraint, etc.), a value is assigned to each emotion type according to a comprehensive analysis of the above information, and the current emotion state of the user can be indicated through the assigned value.
본 개시의 일 실시예에 의하면, 대화 생성부(316)는, 대화 관리 모듈(312) 에 의하여 생성된 대화 흐름에 기초하여 사용자에게 제공될 대화 응답으로서 적절한 후보를 하나 이상 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 생성부(316)는, 전술한 감정 분석 모듈(314)에 의하여 각 감정 유형별로 할당된 값(즉, 사용자의 현재 감정 상태 정보)을 고려하여 현재 대화에서 적절하다고 판단되는 대화 응답 후보를 하나 또는 복수 개 생성할 수 있다. 본 개시의 일 실시예에 의하면, 대화 생성부(316)는, 사용자의 감정 상태에 관한 정보 뿐만 아니라, 전술한 사용자 음성 입력에 관한 전술한 처리 및 분석 결과, 예컨대 전술한 사용자 음향 특징 분석 모듈(304)에 의해 획득된 정보(예컨대 사용자 음성 입력의 볼륨, 피치, 속도, 기타 음향 정보 등), NLU 모듈(306)에 의해 획득된 하나 이상의 인텐트, 및/또는 사용자 프로필 분석 모듈(310)에 의해 획득된 사용자 프로필 정보(예컨대, 사용자의 성별, 연령대, 사용 언어 등) 등을 참조하여, 사용자에게 제공될 대화 응답으로서 적절한 후보를 하나 이상 생성할 수 있다.In accordance with one embodiment of the present disclosure, the dialog creator 316 may generate one or more suitable candidates as the dialog response to be presented to the user based on the conversation flow generated by the dialog management module 312. [ According to one embodiment of the present disclosure, the dialogue generation unit 316 generates the dialogue generation unit 316 in consideration of a value assigned to each emotion type (i.e., the current emotion state information of the user) by the emotion analysis module 314, It is possible to generate one or a plurality of dialog response candidates deemed appropriate. According to one embodiment of the present disclosure, the conversation generation unit 316 generates not only the information on the emotion state of the user but also the above-described processing and analysis results related to the above-described user voice input, (E.g., volume, pitch, speed, and other acoustic information of the user voice input) acquired by the NLU module 304, and / or one or more intents acquired by the NLU module 306 and / (E.g., user's gender, age range, language, etc.) acquired by the user, and may generate one or more suitable candidates as the dialog response to be provided to the user.
도 4는, 본 개시의 일 실시예에 따른, 도 1의 응답 사용자 단말(108)의 기능적 구성을 개략적으로 도시한 기능 블록도이다. 도시된 바에 의하면, 응답 사용자 단말(108)은, 통신부(402), 응답 사용자 입력 수신부(404), 정보 시각화/화면 출력부(406) 및 음성 출력부(408)를 포함한다.FIG. 4 is a functional block diagram that schematically illustrates the functional configuration of the responding user terminal 108 of FIG. 1, in accordance with one embodiment of the present disclosure. The response user terminal 108 includes a communication unit 402, a response user input receiving unit 404, an information visualization / screen output unit 406 and an audio output unit 408. [
본 개시의 일 실시예에 의하면, 통신부(402)는, 응답 사용자 단말(108)이 통신망(106)을 통하여, 대화 이해 서비스 서버(104)와 통신할 수 있게 한다. 본 개시의 일 실시예에 의하면, 통신부(402)는, 예컨대 응답 사용자 입력 수신 모듈(404) 상에서 획득된 신호가 소정의 프로토콜에 따라 통신망(106)을 통하여 대화 이해 서비스 서버(104)로 전송되도록 할 수 있다. 본 개시의 일 실시예에 의하면, 통신부(402)는, 예컨대 통신망(106)을 통하여 대화 이해 서비스 서버(104)로부터 수신된 각종 신호, 예컨대 사용자 음성 입력 신호, 그 사용자 음성 입력 신호 등으로부터 생성된 사용자 인텐트, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 각종 분석 결과 등을 수신하고, 소정의 프로토콜에 따라 적절한 처리를 수행할 수 있다. According to one embodiment of the present disclosure, the communication unit 402 enables the answering user terminal 108 to communicate with the conversation understanding service server 104 via the communication network 106. [ According to one embodiment of the present disclosure, the communication unit 402 is configured to allow the signal obtained on the response user input receiving module 404 to be transmitted to the conversation understanding service server 104 via the communication network 106 in accordance with a predetermined protocol can do. According to one embodiment of the present disclosure, the communication unit 402 is configured to receive various kinds of signals received from the conversation understanding service server 104 via the communication network 106, such as a user voice input signal, User intent, one or more dialog response candidates matching the user intent, various analysis results, and the like, and perform appropriate processing according to a predetermined protocol.
본 개시의 일 실시예에 의하면, 응답 사용자 입력 수신부(404)는, 응답 사용자 단말(108) 상의 응답 사용자(예컨대, 상담 직원)로부터 음성 형태의 자연어 입력을 수신할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 입력 수신부(404)는, 예컨대 마이크로폰 및 오디오 회로를 포함하며, 마이크로폰을 통해 사용자 음성 입력 신호를 획득하고 획득된 신호를 오디오 데이터로 변환할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자로부터의 자연어 입력은, 예컨대 전술한 하나 이상의 대화 응답 후보, 즉 통신망(106) 및 통신부(402)를 통하여 대화 이해 서비스 서버(104)로부터 수신된, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보 중 하나로서 응답 사용자 단말(108) 상의 응답 사용자에 의해 선택된 것에 대응할 수 있다. 본 개시의 일 실시예에 의하면, 응답 사용자 입력 수신부(404)는, 또한, 예컨대 마우스, 조이스틱, 트랙볼 등의 각종 포인팅 장치, 키보드, 터치패널, 터치스크린, 스타일러스 등 다양한 형태의 입력 장치를 포함할 수 있고, 이들 입력 장치를 통해 응답 사용자로부터 입력된 텍스트 입력 및/또는 터치 입력 신호를 획득할 수 있다. According to one embodiment of the present disclosure, the responding user input receiving unit 404 may receive a natural-language input in the form of a voice from a responding user (e.g., a consulting employee) on the responding user terminal 108. [ According to one embodiment of the present disclosure, the response user input receiving section 404 includes, for example, a microphone and an audio circuit, and can acquire a user voice input signal through a microphone and convert the obtained signal into audio data. In accordance with one embodiment of the present disclosure, the natural language input from the responding user may include a natural language input received from the conversation understanding service server 104 via, for example, one or more of the conversation response candidates, i.e., the communication network 106 and the communication unit 402, May correspond to that selected by the responding user on the responding user terminal 108 as one of the one or more conversation response candidates matching the intent. According to one embodiment of the present disclosure, the responding user input receiving unit 404 may also include various types of input devices such as various pointing devices such as a mouse, joystick, trackball, keyboard, touch panel, touch screen, And can acquire text input and / or touch input signals input from the response user via these input devices.
본 개시의 일 실시예에 의하면, 정보 시각화/화면 출력부(406)는, 통신망(106)을 통하여 대화 이해 서비스 서버(104)로부터 수신된 각종 신호, 예컨대 사용자 음성 입력 신호 등으로부터 생성된 사용자 인텐트, 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보, 및 각종 분석 결과(예컨대, 전술한 도 3의 사용자 음향 특징 분석 모듈(304)에 의해 획득된 정보, 도 3의 사용자 프로필 분석 모듈(310)에 의해 획득된 사용자 프로필 정보, 도 3의 감정 분석 모듈(312)에 의해 결정된 사용자 감정 정보 등)을 시각 정보로서 변환하고, 이를 표시할 수 있다. 본 개시의 일 실시예에 의하면, 정보 시각화/화면 출력부(406)는, 예컨대 LCD, LED, OLED, QLED 등의 기술에 기초한 터치 스크린 등의 각종 디스플레이 장치를 포함하고, 이들 디스플레이 장치를 통해 사용자 입력에 대응하는 시각적 응답, 예컨대 텍스트, 기호, 비디오, 이미지, 하이퍼링크, 애니메이션, 각종 노티스 등을 사용자에게 제시할 수 있다. According to one embodiment of the present disclosure, the information visualization / screen output unit 406 is a user who is generated from various signals received from the conversation understanding service server 104 via the communication network 106, for example, (E.g., information obtained by the user acoustic feature analysis module 304 of FIG. 3 described above, the user profile analysis module 310 of FIG. 3), the tent, User emotion information determined by the emotion analysis module 312 in FIG. 3, and the like) as time information, and display the time information. According to one embodiment of the present disclosure, the information visualization / screen output unit 406 includes various display devices such as a touch screen based on a technology such as an LCD, LED, OLED, QLED, etc., A visual response corresponding to the input, such as text, symbols, video, images, hyperlinks, animations, various notices, etc., can be presented to the user.
본 개시의 일 실시예에 의하면, 음성 출력부(408)는, 통신망(106) 및 통신부(402)를 통하여 전송되어 온, 사용자 단말(102)로부터의 사용자 음성 입력 신호를 수신하고, 이를 응답 사용자 단말(108) 상에서 재생 및 출력할 수 있다. 본 개시의 일 실시예에 의하면, 음성 출력부(408)는, 예컨대 스피커 또는 헤드셋을 포함하고, 전술한 사용자 음성 입력 신호를 스피커 또는 헤드셋을 통해 응답 사용자에게 제공할 수 있다. According to one embodiment of the present disclosure, the audio output unit 408 receives a user audio input signal from the user terminal 102, which has been transmitted through the communication network 106 and the communication unit 402, And reproduce and output it on the terminal 108. [ According to one embodiment of the present disclosure, the voice output unit 408 includes, for example, a speaker or a headset, and can provide the above-described user voice input signal to the responding user via a speaker or headset.
도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 대화 이해 AI 시스템이 주로 고객 상담 센터 등에 활용되는 경우를 중심으로 설명되었으나 본 개시가 이로써 제한되는 것은 아님을 알아야 한다. 본 개시의 다른 실시예에 의하면, 대화 이해 AI 시스템은, 고객 상담 센터 이외에도 대화 이해 서비스 서버를 경유한 다양한 형태의 사용자간 음성 통화에도 적용될 수 있음을 알아야 한다. 또한, 도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 대화 이해 서비스 서버(104)에 의하여 분석된 정보의 시각 정보를 응답 사용자 단말(108) 상의 화면 출력부를 통해 제시되는 경우를 중심으로 설명되었으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 대화 이해 서비스 서버(104)에 의하여 분석된 정보의 시각 정보가 복수의 응답 사용자 단말(108)을 관리하는 관리자 단말(도시되지 않음) 상에 제시될 수도 있음을 알아야 한다.In the embodiments of the present disclosure described above with reference to Figs. 1-4, it is to be understood that the present invention is not limited thereto, although it has been described with reference to the case where the conversation understanding AI system is mainly used for a customer consultation center or the like. It should be noted that, according to another embodiment of the present disclosure, the AI understanding system of conversation can be applied to various types of user-to-user voice calls via the conversation understanding service server in addition to the customer consultation center. 1 to 4, when the time information of the information analyzed by the conversation understanding service server 104 is presented through the screen output unit on the response user terminal 108, The present disclosure is not limited thereto. According to another embodiment of the present disclosure, the time information of the information analyzed by the conversation understanding service server 104 may be presented on an administrator terminal (not shown) managing a plurality of responding user terminals 108 You should know.
도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 또한 대화 이해 서비스 서버(104)와 응답 사용자 단말(108) 간 기능에 있어서, 응답 사용자 단말(108)은 오로지 사용자 입출력 기능만을 제공하고 그 외 대화 이해 등 모든 기능들이 대화 이해 서비스 서버(104)에 위임된, 소위 "씬 클라이언트-서버 모델"에 기초하여 구현된 것과 같이 설명되어 있으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 전술한 기능들이 대화 이해 서비스 서버(104)와 응답 사용자 단말(108) 사이에 분배되어 구현될 수도 있고, 또는 모든 기능들이 응답 사용자 단말(108) 상에 설치된 독립형 애플리케이션으로 구현될 수도 있음을 알아야 한다. 또한, 본 개시의 일 실시예에 따라 전술한 대화 이해 기능 등의 각 기능들을 대화 이해 서비스 서버(104)와 응답 사용자 단말(108) 사이에 분배하여 구현하는 경우, 각 기능의 분배는 실시예마다 달리 구현될 수 있음을 알아야 한다. 또한, 도 1 내지 4를 참조하여 전술한 본 개시의 실시예에서는, 편의상 특정 모듈이 소정의 동작들을 수행하는 것처럼 설명되었으나, 본 개시가 이로써 제한되는 것은 아니다. 본 개시의 다른 실시예에 의하면, 위 설명에서 어느 특정 모듈에 의해 수행되는 것과 같이 설명된 동작들이, 그와 다른 별개의 모듈에 의해 각각 수행될 수 있음을 알아야 한다.In the embodiment of the present disclosure described above with reference to Figures 1-4, and also between the conversation understanding service server 104 and the responding user terminal 108, the responding user terminal 108 only provides the user I / And other conversation understanding are all described as being implemented based on the so-called "thin client-server model " delegated to the conversation understanding service server 104, but this disclosure is not so limited. According to another embodiment of the present disclosure, the above-described functions may be implemented distributed among the conversation understanding service server 104 and the response user terminal 108, or all functions may be implemented in a stand- It should be noted that this may be implemented as an application. Further, in the case of implementing each function such as the above-described conversation understanding function according to an embodiment of the present disclosure distributed between the conversation understanding service server 104 and the response user terminal 108, It should be understood that the invention may be otherwise embodied. In addition, although in the embodiments of the present disclosure described above with reference to Figures 1-4, a particular module has been described as if it were performing certain operations for convenience, the present disclosure is not so limited. It should be noted that, in accordance with another embodiment of the present disclosure, the operations described above as performed by any particular module in the above description can be performed by separate and distinct modules, respectively.
도 5는, 본 개시의 일 실시예에 따라, 응답 사용자 단말(108)의 화면 출력부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다. 도시된 예는, 예컨대, 쇼핑몰 고객 센터에 전화를 한 사용자와 상담 직원 간의 통화에 관한 것이라 할 수 있다.5 is a diagram illustrating an example of a screen configuration that may be presented on the screen output of the responding user terminal 108, in accordance with one embodiment of the present disclosure. For example, the illustrated example relates to a call between the user who called the shopping mall customer center and the consultant.
도시된 바에 의하면, 화면 좌측 상단 박스(502)에는 사용자로부터의 발화 문장이 텍스트로 변환되어 표시되어 있다. 도시된 바에 의하면, 텍스트로 변환된 사용자 발화 문장(즉, "hi, do you have a moto drill?")의 각 단어가 각 품사 표시와 함께 표시되어 있는데, 본 발명이 이로써 제한되는 것은 아니다. 도 5에 도시된 바에 의하면, 또한, 화면 좌측 중간 박스(504)에는, 위 사용자 발화 문장을 처리하여 획득된 사용자 인텐트가 문장 표현으로 나타나 있다(즉, 위 사용자 발화 문장을 말한 사용자의 속마음에 해당하는 인텐트가, 예컨대 "Do I really have to buy this?"의 형태로 표시되어 있다). 본 개시의 일 실시예에 의하면, 사용자 발화 문장의 인텐트의 문장 표현이 화면 상에 표현될 때 해당 단말 상의 사용자가 쉽게 인지할 수 있게 하는 방식(예컨대, 시각적으로 현저한 색깔, 하이라이트 또는 볼드체 형식 등을 비롯한 다양한 방식)으로 표현될 수 있음을 알아야 한다. 그리고, 화면 좌측 하단 박스(506)에는, 응답 시기인지가 되었는지 확률적 상태를 알리는 turn taking 항목이 1로 표시되어, 사용자의 발화가 끝났고 응답을 제공할 시기가 되었음이 표시되어 있다. In the upper left box 502 of the screen, a user's utterance sentence is converted into text and displayed. As shown, each word of a user utterance sentence converted into text (i.e., "hi, do you have a moto drill?") Is displayed together with each part of speech, but the present invention is not limited thereto. 5, a tent representing the user obtained by processing the above-mentioned user spoken sentence is displayed in a sentence expression in the left middle box 504 of the screen (i.e., The corresponding intent is indicated in the form of, for example, "Do I really have to buy this?"). According to an embodiment of the present disclosure, when a sentence expression of an intent of a user utterance sentence is displayed on the screen, a method of easily recognizing the user on the terminal (for example, a visually remarkable color, highlight, And the like). In the lower left box 506 of the screen, a turning taking item indicating a probable state of whether or not a response time is reached is indicated by 1, indicating that the user has finished utterance and has been provided with a response.
도 5를 참조하면, 또한, 화면 중간 상단 박스(508)에는, 발화 사용자의 성별, 나이, 및 사용 언어의 프로필 정보가 표시되어 있고, 화면 우측 상단 박스(510)에는, 사용자에 의한 발화 문장 등으로부터 획득 및 분석된, 사용자의 현재 감정 상태를 각 감정 표지별로 확률로서 표시한 것을 알 수 있다. 도시된 바에 의하면, 현재 발화 사용자의 감정 상태는 중립(neutral)의 상태가 가장 우세함을 알 수 있다. 도시된 바에 의하면, 도 5의 화면 우측 중간 박스(512)에는, 사용자 발화 문장의 음성 음향 특징, 예컨대 볼륨, 피치, 및 속도 등의 분석 결과가 표시되어 있다. 또한, 도 5에 도시된 바에 의하면, 화면의 중간 하단 박스(514)에는, 위 사용자 발화 문장 및 기타 다양한 분석 결과 등을 종합한 결과로서, 사용자에게 현재 단계에서 제공될 수 있는 하나의 후보 응답(즉, "Where do you want to use this for?)가 그 신뢰도에 관한 확률적 표시와 함께 표시되어 있다. 본 개시의 일 실시예에 의하면, 화면 상에 후보 응답을 표현할 때 해당 단말 상의 사용자가 쉽게 인지할 수 있게 하는 가시성 높은 방식(예컨대, 시각적으로 현저한 색깔, 하이라이트 또는 볼드체 형식 등을 비롯한 다양한 방식)으로 표현될 수 있음을 알아야 한다.5, profile information of the spoken user's gender, age, and language of use is displayed in the upper middle box 508. In the upper right box 510 of the screen, spoken sentences The current emotional state of the user, obtained and analyzed, is displayed as a probability for each emotional marker. As can be seen, the emotional state of the current utterance user is most dominant in the neutral state. 5, analysis results such as volume, pitch, and speed are displayed in the middle box 512 on the right side of the screen in Fig. 5, in the middle lower box 514 of the screen, a result of synthesizing the above-mentioned user's utterance sentence and various other analysis results, it is possible to provide a user with a single candidate response According to one embodiment of the present disclosure, when a candidate response is expressed on a screen, a user on the terminal can easily (E.g., in various ways, including visually striking colors, highlights, or boldface formatting).
도 6은, 본 개시의 다른 실시예에 따라, 응답 사용자 단말(102)의 표시부 상에 제시될 수 있는 화면 구성의 일 예를 도시한 도면이다. 도시된 예는, 예컨대 커플 간의 전화 통화에 관한 것이라 할 수 있다.6 is a diagram illustrating an example of a screen configuration that may be presented on the display of the responding user terminal 102, in accordance with another embodiment of the present disclosure. The illustrated example may be, for example, a telephone conversation between couples.
도시된 바에 의하면, 화면 좌측 상단 박스(602)에는 사용자로부터의 발화 문장이 텍스트로 변환되어 표시되어 있다. 도시된 바에 의하면, 텍스트로 변환된 사용자 발화 문장(즉, "Sarah posted photos of the newly built Hotel restaurant.")의 각 단어가 각 품사 표시와 함께 표시되어 있는데, 본 발명이 이로써 제한되는 것은 아니다. 도 6에 도시된 바에 의하면, 또한, 화면 좌측 중간 박스(604)에는, 위 사용자 발화 문장을 처리하여 획득된 사용자 인텐트가 문장 표현으로 나타나 있다(즉, 위 사용자 발화 문장을 말한 사용자의 속마음에 해당하는 인텐트가, 예컨대 "Make a reservation. I want to go there."의 형태로 표시되어 있다). 그리고, 화면 좌측 하단 박스(606)에는, 응답 시기인지가 되었는지 확률적 상태를 알리는 turn taking 항목이 0.7로 표시되어 있다. In the left upper box 602 of the screen, a speech sentence from the user is converted into text and displayed. As shown, each word of a user spoken sentence (i.e., "Sarah posted photos of the newly built hotel restaurant.") That is converted to text is shown with each part of speech indication, but the present invention is not limited thereto. 6, in the left middle box 604 of the screen, a tent representing the user obtained by processing the above user spoken sentence is expressed in a sentence expression (i.e., The corresponding intent is displayed in the form of, for example, "Make a reservation. I want to go there."). In the lower left box 606 of the screen, a turning taking item informing the probability of a response time is indicated as 0.7.
도 6을 참조하면, 또한, 화면 중간 상단 박스(608)에는, 발화 사용자의 성별, 나이, 및 사용 언어의 프로필 정보가 표시되어 있고, 화면 우측 상단 박스(610)에는, 사용자에 의한 발화 문장 등으로부터 획득 및 분석된, 사용자의 현재 감정 상태를 각 감정 표지별로 확률로서 표시한 것을 알 수 있다. 도시된 바에 의하면, 현재 발화 사용자의 감정 상태는 중립(neutral)의 상태가 가장 우세함을 알 수 있다. 도시된 바에 의하면, 도 6의 화면 우측 중간 박스(612)에는, 사용자 발화 문장의 음성 음향 특징, 예컨대 볼륨, 피치, 및 속도 등의 분석 결과가 표시되어 있다. 또한, 도 6에 도시된 바에 의하면, 화면의 중간 하단 박스(614)에는, 위 사용자 발화 문장 및 기타 다양한 분석 결과 등을 종합한 결과로서, 사용자에게 현재 단계에서 제공될 수 있는 하나의 후보 응답(즉, "I already made a reservation for our one-year anniversary.)가 그 신뢰도에 관한 확률적 표시와 함께 표시되어 있다.6, profile information of the sex, age, and language of the utterance user is displayed in the upper middle box 608 of the screen. In the upper right box 610 of the screen, The current emotional state of the user, obtained and analyzed, is displayed as a probability for each emotional marker. As can be seen, the emotional state of the current utterance user is most dominant in the neutral state. In the middle box 612 on the right side of the screen in FIG. 6, analysis results such as volume, pitch, speed and the like of the user utterance sentence are displayed. 6, in the lower middle box 614 of the screen, a result of synthesizing the above-mentioned user's utterance sentence and various other analysis results, a single candidate response (hereinafter referred to as " In other words, "I already made a reservation for our one-year anniversary" is marked with a probabilistic indication of its reliability.
당업자라면 알 수 있듯이, 본 발명이 본 개시에 기술된 예시에 한정되는 것이 아니라 본 개시의 범주를 벗어나지 않는 범위 내에서 다양하게 변형, 재구성 및 대체될 수 있다. 본 명세서에 기술된 다양한 기술들은 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 조합에 의해 구현될 수 있음을 알아야 한다.As will be appreciated by those skilled in the art, the present invention is not limited to the examples described in this disclosure, but may be variously modified, rearranged and replaced within the scope of the present disclosure. It should be understood that the various techniques described herein may be implemented in hardware or software, or a combination of hardware and software.
본 개시의 일 실시예에 따른 컴퓨터 프로그램은, 컴퓨터 프로세서 등에 의해 판독 가능한 저장 매체, 예컨대 EPROM, EEPROM, 플래시 메모리장치와 같은 비휘발성 메모리, 내장형 하드 디스크와 착탈식 디스크 같은 자기 디스크, 광자기 디스크, 및 CDROM 디스크 등을 포함한 다양한 유형의 저장 매체에 저장된 형태로 구현될 수 있다. 또한, 프로그램 코드(들)는 어셈블리어나 기계어로 구현될 수 있다. 본 개시의 진정한 사상 및 범주에 속하는 모든 변형 및 변경을 이하의 특허청구범위에 의해 모두 포괄하고자 한다.A computer program according to an embodiment of the present disclosure may be stored in a storage medium readable by a computer processor or the like, for example, a non-volatile memory such as an EPROM, EEPROM, or flash memory device, a magnetic disk such as an internal hard disk and a removable disk, CDROM disks, and the like. Also, the program code (s) may be implemented in assembly language or machine language. All such modifications and variations that fall within the true spirit and scope of this disclosure are intended to be embraced by the following claims.

Claims (11)

  1. 서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 상기 통화는, 상기 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 - 중에, 상기 통화에 개입하여 상기 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하는, 컴퓨터에 의해 수행되는 방법으로서, Wherein the second user terminal comprises a first user terminal and a second user terminal, the second user terminal being located remotely from the first user terminal, the second user terminal being located remotely from the first user terminal, A method performed by a computer for controlling a predetermined display associated with a terminal,
    상기 통화 수행 중에, 상기 디스플레이로 하여금,During the execution of the call,
    상기 제1 사용자 단말 상에서 제1 사용자에 의해 입력된 사용자 발화 입력이, 소정의 지식베이스 모델에 따라 자연어 처리됨에 의해 결정된 사용자 인텐트의 텍스트 표현을 표시하도록 하는 단계; 및Causing a user utterance input entered by a first user on the first user terminal to display a textual representation of a user intent determined by natural language processing according to a predetermined knowledge base model; And
    상기 사용자 인텐트에 기초하여 결정된, 상기 사용자 발화 입력에 대한 대화 응답으로서 제공될 수 있는 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계를 포함하는,And displaying each textual representation of the one or more dialog response candidates that may be provided as an interactive response to the user utterance input, determined based on the user intent.
    디스플레이 제어 방법.Display control method.
  2. 제1항에 있어서, The method according to claim 1,
    상기 통화 수행 중에, 상기 디스플레이로 하여금,During the execution of the call,
    상기 사용자 발화 입력의 분석에 의하여 획득된 상기 제1 사용자의 감정 정보- 상기 감정 정보는, 상기 제1 사용자의 감정 상태를 나타내는 정보를 표시하도록 하는 단계를 더 포함하는, 디스플레이 제어 방법. Wherein the emotion information of the first user obtained by analysis of the user utterance input further comprises the step of causing the emotion information of the first user to display information indicating the emotion state of the first user.
  3. 제2항에 있어서, 3. The method of claim 2,
    상기 감정 정보는, 상기 사용자 발화 입력의 분석에 기초하여, 복수의 감정 유형 각각에 대해 할당된 값 정보를 포함하고, 상기 복수의 감정 유형은 열의, 행복, 기쁨, 안도감, 걱정, 분노, 슬픔, 놀람, 좌절, 공허, 증오, 자제함 중 적어도 하나의 감정 유형을 포함하는, 디스플레이 제어 방법.Wherein the emotion information includes value information assigned for each of a plurality of emotional types based on an analysis of the user utterance input and wherein the plurality of emotional types includes at least one of emotion, happiness, joy, comfort, anxiety, anger, The emotional type of at least one of surprise, frustration, emptiness, hate, restraint.
  4. 제1항에 있어서, The method according to claim 1,
    상기 제2 사용자 단말에 연관된 상기 소정의 디스플레이는, 상기 제2 사용자 단말 상에서 상기 통화를 수행하는 제2 사용자를 위한 디스플레이 및 상기 제2 사용자 단말과 원격으로 배치된 관리자 디스플레이 중 하나를 포함하는, 디스플레이 제어 방법.Wherein the predetermined display associated with the second user terminal comprises one of a display for a second user performing the call on the second user terminal and an administrator display remotely located with the second user terminal, Control method.
  5. 제1항에 있어서, The method according to claim 1,
    상기 통화 수행 중에, 상기 디스플레이로 하여금,During the execution of the call,
    상기 사용자 발화 입력의 분석에 의하여 추정된 상기 제1 사용자의 프로필 정보- 상기 프로필 정보는, 상기 제1 사용자의 성별, 연령대, 및 사용 언어의 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함하는,Displaying profile information of the first user estimated by analysis of the user utterance input, wherein the profile information includes at least one of sex, age, and language of the first user; Further included,
    디스플레이 제어 방법. Display control method.
  6. 제1항에 있어서,The method according to claim 1,
    상기 통화 수행 중에, 상기 디스플레이로 하여금,During the execution of the call,
    상기 사용자 발화 입력의 분석에 의하여 획득된 음성 음향 정보- 상기 음성 음향 정보는, 상기 사용자 발화 입력의, 볼륨, 피치 및 속도 정보 중 적어도 하나를 포함함 -를 표시하도록 하는 단계를 더 포함하는,Further comprising: displaying voice acoustic information obtained by analysis of the user utterance input, wherein the voice acoustic information includes at least one of volume, pitch and velocity information of the user utterance input.
    디스플레이 제어 방법. Display control method.
  7. 제1항에 있어서, The method according to claim 1,
    상기 하나 이상의 대화 응답 후보의 각 텍스트 표현을 표시하도록 하는 단계는, 상기 하나 이상의 대화 응답 후보의 각 텍스트 표현을 각각의 대응하는 확률적 신뢰도와 함께 표시하도록 하는 단계를 포함하는, 디스플레이 제어 방법.Wherein causing the display of each textual representation of the one or more dialog response candidates comprises displaying each textual representation of the one or more dialog response candidates with respective corresponding probabilistic reliability.
  8. 제1항에 있어서,The method according to claim 1,
    상기 통화 수행 중에, 상기 디스플레이로 하여금,During the execution of the call,
    상기 사용자 발화 입력의 텍스트 표현을 표시하도록 하는 단계를 더 포함하는, 디스플레이 제어 방법.Further comprising: displaying a textual representation of the user utterance input.
  9. 제1항에 있어서, The method according to claim 1,
    상기 통화 수행 중에, 상기 디스플레이로 하여금,During the execution of the call,
    상기 사용자 발화 입력에 대한 대화 응답이 제공되어야 할 시점인지 여부의 확률적 표시자를 표시하도록 하는 단계를 더 포함하는, 디스플레이 제어 방법.Further comprising: displaying a probabilistic indicator of whether or not an interactive response to the user utterance input is to be provided.
  10. 하나 이상의 명령어를 수록한 컴퓨터 판독가능 기록 매체로서,A computer-readable recording medium storing one or more instructions,
    상기 하나 이상의 명령어는, 실행될 경우, 컴퓨터 장치로 하여금, 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 하는, 컴퓨터 판독가능 기록 매체.Wherein the one or more instructions, when executed, cause the computer device to perform the method of any one of claims 1 to 9.
  11. 서로 원격으로 배치된, 제1 사용자 단말과 제2 사용자 단말 간의 통화 - 상기 통화는, 상기 제1 및 제2 사용자 단말 간의 음성 정보의 송수신을 포함함 -에 개입하여 상기 제2 사용자 단말에 연관된 소정의 디스플레이를 제어하도록 구성된 컴퓨터 장치로서, A first user terminal and a second user terminal, wherein the first user terminal and the second user terminal are located remotely from each other, the call including transmission and reception of voice information between the first and second user terminals, The computer device being configured to control the display of the computer,
    상기 제1 사용자 단말로부터 사용자 발화 입력을 수신하도록 구성된 수신 모듈; A receiving module configured to receive a user utterance input from the first user terminal;
    상기 수신된 사용자 발화 입력을 분석하는 대화 이해 모듈- 상기 대화 이해 모듈은, 소정의 지식베이스 모델을 포함하고, 상기 소정의 지식베이스 모델에 따라, 상기 수신된 사용자 발화 입력을 자연어 처리하여 상기 사용자 발화 입력에 부합하는 사용자 인텐트를 결정하고, 상기 결정된 사용자 인텐트에 부합하는 하나 이상의 대화 응답 후보를 결정하도록 구성됨 -; 및A dialogue understanding module for analyzing the received user speech input, wherein the dialogue understanding module comprises a predetermined knowledge base model and processes the received user speech input in a natural language according to the predetermined knowledge base model, Determine a tent being a user that matches the input, and determine one or more dialog response candidates matching the determined user tent; And
    상기 결정된 사용자 인텐트 및 상기 하나 이상의 대화 응답 후보의 정보를 상기 디스플레이로 전송하도록 구성된 통신 모듈을 포함하는,And a communication module configured to transmit the determined user tent and information of the one or more conversation response candidates to the display.
    컴퓨터 장치. Computer device.
PCT/KR2018/005937 2018-01-16 2018-05-25 Display control method, computer-readable recording medium, and computer device for displaying conversation response candidate for user speech input WO2019142976A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180005342A KR101891495B1 (en) 2018-01-16 2018-01-16 Method and computer device for controlling a display to display conversational response candidates to a user utterance input, and computer readable recording medium
KR10-2018-0005342 2018-01-16

Publications (1)

Publication Number Publication Date
WO2019142976A1 true WO2019142976A1 (en) 2019-07-25

Family

ID=63455203

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/005937 WO2019142976A1 (en) 2018-01-16 2018-05-25 Display control method, computer-readable recording medium, and computer device for displaying conversation response candidate for user speech input

Country Status (2)

Country Link
KR (1) KR101891495B1 (en)
WO (1) WO2019142976A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077790A (en) * 2019-12-17 2021-07-06 阿里巴巴集团控股有限公司 Multi-language configuration method, multi-language interaction method and device and electronic equipment
WO2022073508A1 (en) * 2020-10-09 2022-04-14 深圳壹账通智能科技有限公司 Method and device for voice information entry, electronic device, and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070090642A (en) * 2006-03-03 2007-09-06 삼성전자주식회사 Apparatus for providing voice dialogue service and method for operating the apparatus
KR20080095052A (en) * 2007-04-23 2008-10-28 주식회사 케이티프리텔 Method and device for displaying emotion of telephonee in video communication
KR20080109322A (en) * 2007-06-12 2008-12-17 엘지전자 주식회사 Method and apparatus for providing services by comprehended user's intuited intension
KR20130122300A (en) * 2012-04-30 2013-11-07 (주)티아이스퀘어 Method and apparatus for providing emotion analysis service during telephone conversation
KR20160084748A (en) * 2015-01-06 2016-07-14 포항공과대학교 산학협력단 Dialogue system and dialogue method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4016177A1 (en) 1990-05-19 1991-11-21 Henkel Kgaa OXIDATION AGENT FOR KERATIN FIBERS
KR101140084B1 (en) * 2010-05-19 2012-04-30 텔코웨어 주식회사 Method for transmitting/receiving call intent and System for providing thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070090642A (en) * 2006-03-03 2007-09-06 삼성전자주식회사 Apparatus for providing voice dialogue service and method for operating the apparatus
KR20080095052A (en) * 2007-04-23 2008-10-28 주식회사 케이티프리텔 Method and device for displaying emotion of telephonee in video communication
KR20080109322A (en) * 2007-06-12 2008-12-17 엘지전자 주식회사 Method and apparatus for providing services by comprehended user's intuited intension
KR20130122300A (en) * 2012-04-30 2013-11-07 (주)티아이스퀘어 Method and apparatus for providing emotion analysis service during telephone conversation
KR20160084748A (en) * 2015-01-06 2016-07-14 포항공과대학교 산학협력단 Dialogue system and dialogue method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077790A (en) * 2019-12-17 2021-07-06 阿里巴巴集团控股有限公司 Multi-language configuration method, multi-language interaction method and device and electronic equipment
CN113077790B (en) * 2019-12-17 2023-05-26 阿里巴巴集团控股有限公司 Multi-language configuration method, multi-language interaction method, device and electronic equipment
WO2022073508A1 (en) * 2020-10-09 2022-04-14 深圳壹账通智能科技有限公司 Method and device for voice information entry, electronic device, and storage medium

Also Published As

Publication number Publication date
KR101891495B1 (en) 2018-08-27

Similar Documents

Publication Publication Date Title
US11380327B2 (en) Speech communication system and method with human-machine coordination
WO2019088384A1 (en) Method for providing rich-expression natural language conversation by modifying reply, computer device and computer-readable recording medium
CN107818798A (en) Customer service quality evaluating method, device, equipment and storage medium
WO2019124647A1 (en) Method and computer apparatus for automatically building or updating hierarchical conversation flow management model for interactive ai agent system, and computer-readable recording medium
KR101615848B1 (en) Method and computer program of recommending dialogue sticker based on similar situation detection
WO2019132135A1 (en) Interactive ai agent system and method for actively monitoring and intervening in dialogue session between users, and computer readable recording medium
JP2017016566A (en) Information processing device, information processing method and program
WO2019156536A1 (en) Method and computer device for constructing or updating knowledge base model for interactive ai agent system by labeling identifiable, yet non-learnable, data from among learning data, and computer-readable recording medium
JP2014232258A (en) Coordination business supporting device, method and program
WO2019142976A1 (en) Display control method, computer-readable recording medium, and computer device for displaying conversation response candidate for user speech input
WO2019156537A1 (en) Interactive ai agent system and method for actively providing service related to security and like through dialogue session or separate session on basis of monitoring of dialogue session between users, and computer-readable recording medium
WO2019143170A1 (en) Method for generating conversation template for conversation-understanding ai service system having predetermined goal, and computer readable recording medium
CN111556999B (en) Method, computer device and computer readable storage medium for providing natural language dialogue by providing substantive answer in real time
WO2019168235A1 (en) Method and interactive ai agent system for providing intent determination on basis of analysis of same type of multiple pieces of entity information, and computer-readable recording medium
WO2019088383A1 (en) Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium
CN108538292B (en) Voice recognition method, device, equipment and readable storage medium
WO2023090380A1 (en) Program, information processing system, and information processing method
EP4006903A1 (en) System with post-conversation representation, electronic device, and related methods
WO2019103569A1 (en) Method for improving performance of voice recognition on basis of context, computer apparatus, and computer-readable recording medium
JP7169031B1 (en) Program, information processing device, information processing system, information processing method, information processing terminal
WO2022239053A1 (en) Information processing device, information processing method, and information processing program
WO2019066132A1 (en) User context-based authentication method having enhanced security, interactive ai agent system, and computer-readable recording medium
US11902466B2 (en) Captioned telephone service system having text-to-speech and answer assistance functions
JP7168262B1 (en) Program, information processing system and information processing method
WO2022270603A1 (en) A system and method for delivering domain or use-case switch suggestion for an ongoing conversation

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18900820

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 02.02.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18900820

Country of ref document: EP

Kind code of ref document: A1