WO2020180001A1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
WO2020180001A1
WO2020180001A1 PCT/KR2020/000261 KR2020000261W WO2020180001A1 WO 2020180001 A1 WO2020180001 A1 WO 2020180001A1 KR 2020000261 W KR2020000261 W KR 2020000261W WO 2020180001 A1 WO2020180001 A1 WO 2020180001A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
electronic device
voice
input
Prior art date
Application number
PCT/KR2020/000261
Other languages
English (en)
French (fr)
Inventor
이재훈
이윤수
황태호
이현석
정미래
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/299,061 priority Critical patent/US20220059088A1/en
Publication of WO2020180001A1 publication Critical patent/WO2020180001A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device that provides a response to a user inquiry using context information, and a control method thereof.
  • artificial intelligence systems have been used in various fields. Unlike existing rule-based smart systems, artificial intelligence systems are systems in which machines learn, judge, and become smarter. As the artificial intelligence system is used, the recognition rate improves and the user's taste can be understood more accurately, and the existing rule-based smart system is gradually being replaced by a deep learning-based artificial intelligence system.
  • Machine learning for example, deep learning
  • component technologies using machine learning.
  • Machine learning is an algorithm technology that classifies/learns the features of input data by itself
  • element technology is a technology that simulates functions such as cognition and judgment of the human brain using machine learning algorithms such as deep learning. It consists of technical fields such as understanding, reasoning/prediction, knowledge expression, and motion control.
  • Linguistic understanding is a technology that recognizes and applies/processes human language/text, and includes natural language processing, machine translation, dialogue systems, question and answer, and speech recognition/synthesis.
  • Visual understanding is a technology that recognizes and processes objects like human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement.
  • Inference prediction is a technique that logically infers and predicts information by judging information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data creation/classification), knowledge management (data utilization), and the like.
  • Motion control is a technology that controls autonomous driving of a vehicle and movement of a robot, and includes movement control (navigation, collision, driving), operation control (behavior control), and the like.
  • the present disclosure was devised to solve the above-described problems, and the object of the present disclosure is to establish a knowledge database using context information and provide a response to user inquiries using the knowledge database, thereby allowing a natural conversation with an artificial intelligence agent. It is to provide an electronic device capable of providing a and a control method thereof.
  • An electronic device includes a microphone, a memory including at least one command, and a processor connected to the microphone and the memory to control the electronic device, wherein the processor comprises: the at least one By executing a command, when a user voice is input through the microphone, a keyword is extracted from the input user voice, context information at the time when the user voice is input is obtained, and based on the extracted keyword and context information An object related to the user's voice and knowledge information on the object are acquired, and a knowledge database stored in the memory is updated based on the object and knowledge information on the object.
  • the knowledge database may store a relationship between knowledge information in the form of an ontology.
  • the processor determines whether an entity related to the acquired object exists in the knowledge database, and when an entity related to the object exists, the processor adds knowledge information about the object to the entity You can update the database.
  • the processor may create a new entity corresponding to the object and update the knowledge database.
  • the memory further includes an artificial intelligence model that is learned based on at least one of a user interaction input into the electronic device, a user's search history, sensing information sensed by the electronic device, and user information received from an external device. Then, the processor may input the extracted keyword to the artificial intelligence model to obtain an object related to the user's voice and knowledge information on the object.
  • the processor may obtain a response to the user inquiry by using the updated knowledge database, and output the obtained response.
  • a communication interface may be further included, and the processor may transmit the updated knowledge database to an external server through the communication interface, and receive a knowledge database of another user from the external server.
  • the processor may obtain at least one of time information, location information, weather information, and schedule information at a time when the user's voice is input as the context information.
  • the processor acquires the location information sensed by the GPS sensor at the time the user's voice is input as the context information, and the extracted keyword, the acquired location information, and An object related to a place where the user's voice is input may be obtained based on at least one of the stored schedule information.
  • the processor further includes a communication interface, and the processor obtains, as the context information, weather information at a time when the user's voice is input from an external server through the communication interface, and the extracted keyword and the obtained weather information Based on the user's preference information for the object may be obtained as the knowledge information.
  • the knowledge database may store a relationship between knowledge information in the form of an ontology.
  • the updating may include determining whether an entity related to the acquired object exists in the knowledge database, and if an entity related to the object exists, adding knowledge information about the object to the entity
  • the knowledge database can be updated.
  • a new entity corresponding to the object may be created to update the knowledge database.
  • the step of learning a pre-stored artificial intelligence model based on at least one of the user interaction input to the electronic device, the user's search history, sensing information sensed by the electronic device, and user information received from an external device.
  • the extracted keyword may be input to the artificial intelligence model to obtain an object related to the user's voice and knowledge information on the object.
  • a user inquiry when a user inquiry is input, it may further include obtaining a response to the user inquiry using the updated knowledge database and outputting the obtained response.
  • At least one of time information, location information, weather information, and schedule information of a time point at which the user's voice is input may be obtained as the context information.
  • the obtaining of the context information includes obtaining the location information sensed by the GPS sensor at the time when the user's voice is input as the context information, and obtaining the object and knowledge information on the object.
  • an object related to a place where the user's voice is input may be obtained based on at least one of the extracted keyword, the acquired location information, and pre-stored schedule information.
  • the obtaining of the context information may include obtaining weather information at a time point at which the user's voice is input from an external server as the context information, and obtaining the object and knowledge information on the object, User preference information for the object may be obtained as the knowledge information based on the extracted keyword and the obtained weather information.
  • the method for controlling an electronic device comprises: when a user voice is input, extracting a keyword from the input user voice, the user Acquiring context information at a time when a voice is input, obtaining an object related to the user voice and knowledge information on the object based on the extracted keyword and context information, and knowledge information on the object It includes the step of updating a previously stored knowledge database based on.
  • the electronic device may construct a knowledge database using context information and provide a response to a user inquiry using the knowledge database.
  • FIG. 1 is a diagram illustrating a use of an electronic device including an artificial intelligence agent function that provides a response to a user inquiries according to an embodiment of the present disclosure
  • FIG. 2 is a block diagram schematically illustrating a configuration of an electronic device according to an embodiment of the present disclosure
  • FIG. 3 is a block diagram specifically showing the configuration of the electronic device of FIG. 2;
  • FIG. 4 is a diagram illustrating an operation of updating a knowledge database of an electronic device according to an embodiment of the present disclosure
  • FIG. 5 is a diagram for explaining an operation of receiving a user voice input by an electronic device according to an embodiment of the present disclosure
  • FIG. 6 is a diagram for describing an operation of acquiring an object and information about an object based on an input user voice by an electronic device according to an embodiment of the present disclosure
  • FIG. 7 is a diagram illustrating an operation of an electronic device using an artificial intelligence model according to an embodiment of the present disclosure
  • FIG. 8 is a view for explaining the operation of the artificial intelligence model of FIG. 7;
  • FIG. 9 is a diagram illustrating an update operation of a knowledge database according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating an operation of outputting a response to a user inquiry by an electronic device according to an embodiment of the present disclosure.
  • FIG. 11 is a flowchart illustrating an operation of updating a knowledge database of an electronic device according to an embodiment of the present disclosure.
  • expressions such as “A or B,” “at least one of A or/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together. .
  • “A or B,” “at least one of A and B,” or “at least one of A or B” includes (1) at least one A, (2) at least one B, Or (3) it may refer to all cases including both at least one A and at least one B.
  • the expressions of may modify various components regardless of their order and/or importance, and are used to distinguish one component from another component, but do not limit the corresponding components.
  • Some component eg, a first component
  • another component eg, a second component
  • the certain component may be directly connected to the other component or may be connected through another component (eg, a third component).
  • a component eg, a first component
  • the component and the It may be understood that no other component (eg, a third component) exists between the different components.
  • a device configured to may mean that the device “can” along with other devices or parts.
  • a subprocessor configured (or configured) to perform A, B, and C refers to a dedicated processor (eg, an embedded processor) for performing the operation, or executing one or more software programs stored in a memory device. By doing so, it may mean a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
  • Electronic devices include, for example, smart phones, tablet PCs, mobile phones, video phones, e-book readers, desktop PCs, laptop PCs, netbook computers, workstations, servers, PDAs, PMPs ( portable multimedia player), an MP3 player, a medical device, a camera, or a wearable device.
  • Wearable devices can be accessory types (e.g. watches, rings, bracelets, anklets, necklaces, glasses, contact lenses, or head-mounted-devices (HMD)), fabric or clothing integrals (e.g.
  • the electronic device is, for example, a television, a digital video disk (DVD) player, an audio device.
  • Refrigerator air conditioner, vacuum cleaner, oven, microwave, washing machine, air purifier, set-top box, home automation control panel, security control panel, media box (e.g. Samsung HomeSyncTM, Apple TVTM, or Google TVTM), game console ( Example: XboxTM, PlayStationTM), an electronic dictionary, an electronic key, a camcorder, or an electronic frame.
  • the electronic device includes various medical devices (e.g., various portable medical measuring devices (blood glucose meter, heart rate meter, blood pressure meter, or body temperature meter, etc.), magnetic resonance angiography (MRA), magnetic resonance imaging (MRI), CT (computed tomography), camera, or ultrasound), navigation device, global navigation satellite system (GNSS), event data recorder (EDR), flight data recorder (FDR), automobile infotainment device, electronic equipment for ships (E.g., navigation devices for ships, gyro compasses, etc.), avionics, security devices, vehicle head units, industrial or home robots, drones, ATMs in financial institutions, point of sale (POS) in stores. of sales), or IoT devices (eg, light bulbs, various sensors, sprinkler devices, fire alarms, temperature controllers, street lights, toasters, exercise equipment, hot water tanks, heaters, boilers, etc.).
  • various medical devices e.g., various portable medical measuring devices (blood glucose meter, heart rate meter, blood pressure meter
  • the term user may refer to a person using an electronic device or a device (eg, an artificial intelligence electronic device) using an electronic device.
  • a device eg, an artificial intelligence electronic device
  • FIG. 1 is a diagram illustrating a use of an electronic device including an artificial intelligence agent function that provides a response to a user inquiry according to an embodiment of the present disclosure.
  • the artificial intelligence agent system may include an electronic device 100 and a response providing server 200.
  • the electronic device 100 may provide a response to a user inquiry to a user by using an artificial intelligence agent program.
  • the electronic device 100 may store the knowledge database in the memory.
  • the knowledge database is a database that stores knowledge information on each user who uses the electronic device 100.
  • the knowledge database includes user interactions input to the electronic device input by a user using the electronic device 100, a user's search history, sensing information sensed by the electronic device, and a user received from an external device. It can be learned based on various user information such as information.
  • the knowledge database may store knowledge information learned by a variety of user information in the form of an ontology.
  • knowledge information is stored in an ontology format
  • the electronic device 100 may update and store a relationship between the acquired additional information and new knowledge information.
  • the relationship between the knowledge information may be formed by various criteria. For example, other knowledge information may be linked to specific knowledge information based on location, preference, type, similarity, and atmosphere.
  • the storage type of knowledge information in the ontology form is only an example, and the knowledge information may be stored in the form of a graph model or the like.
  • the knowledge database may store knowledge information learned by a variety of user information in the form of a dataset.
  • each knowledge information which is an element constituting the knowledge database, may be referred to as an entity, a parameter, a slot, or the like.
  • the electronic device 100 may receive a user inquiry from the user 10.
  • the electronic device 100 may receive a user inquiry through a user's voice, as shown in FIG. 1, but this is only an example, and a user inquiry through various input methods such as touch input and keyboard input. Can be input.
  • the electronic device 100 may receive a user voice including a trigger word for activating an artificial intelligence agent program.
  • the electronic device 100 may receive a user voice including a trigger word such as “Bixby”.
  • the electronic device 100 may execute or activate an artificial intelligence agent program and wait for input of a user inquiry.
  • the artificial intelligence agent program may include a conversation system capable of processing user inquiries and responses in natural language.
  • the electronic device 100 may receive a user voice including a user inquiry.
  • the electronic device 100 may receive a user inquiry, "Is there any place to eat dinner with my parents?" from the user.
  • the electronic device 100 extracts "parents” and “dinner” from texts included in the user inquiry as keywords, and provides a response in consideration of the dinner menu, place, and atmosphere based on the knowledge information stored in the knowledge database. I can.
  • the electronic device 100 may expand a keyword using not only the keyword extracted from the user's voice, but also various context information, and generate a response based on the expanded keyword.
  • the electronic device 100 includes user profile information (eg, user preference information, search information, etc.), sensing information sensed by the electronic device 100 (eg, location information, etc.), and the electronic device 100 is an external server.
  • the keyword may be expanded or changed in consideration of at least one of information received from (eg, weather information, etc.). For example, based on the context information at the time the user inquiry is received and the user's profile information, the electronic device 100 uses the keywords "parent” and “dinner” extracted from the user inquiry as "Korean food" and "Quiet”. , “Gangnam”, “Weekend” can be changed or expanded.
  • the electronic device 100 may search for an entity included in the knowledge database based on the extracted keyword and the expanded keyword, and provide the search result to the user as a response.
  • the electronic device 100 may provide the user with a response of "The AA noodle shop Gangnam store is quiet".
  • the electronic device 100 may output a response in the form of a voice or a message.
  • a response to a user inquiry is provided using a knowledge database stored in the electronic device 100, but this is only an example, and the electronic device 100 You can also receive a response.
  • the knowledge database is stored in the electronic device 100, but this is only an embodiment, and the knowledge database may be stored in a separate external server. In this case, the electronic device 100 can access the knowledge database stored in the external server only when logged in by a separate user account.
  • the electronic device 100 may use an artificial intelligence agent to provide a response to a user inquiry as described above.
  • the artificial intelligence agent is a dedicated program for providing AI (Artificial Intelligence)-based services (e.g., voice recognition service, secretary service, translation service, search service, etc.), and is an existing general-purpose processor (for example, CPU) or a separate AI dedicated processor (for example, GPU, etc.).
  • AI Artificial Intelligence
  • the artificial intelligence agent may control various modules (eg, a conversation system) to be described later.
  • artificial Intelligent agents can operate.
  • the artificial intelligence agent may provide a response to the user inquiry based on the keyword included in the user inquiry and context information at the time when the user inquiry is input based on the knowledge database.
  • a preset user voice eg, "Bixby”, etc.
  • a button provided on the electronic device 100 eg, a button for executing an artificial intelligence agent
  • the artificial intelligence agent inputs a preset user voice (eg, "Bixby”, etc.) or a button provided on the electronic device 100 (eg, a button for executing an artificial intelligence agent) is pressed. It may have been previously executed.
  • the electronic device 100 may provide a response to a user inquiry.
  • a preset user voice for example, "Bixby", etc.
  • a button provided on the electronic device 100 for example, a button for executing an artificial intelligence agent
  • a preset user voice for example, "Bixby", etc.
  • a button provided on the electronic device 100 for example, an artificial Before the button for executing the intelligent agent
  • the functions of the electronic device 100 are executed by a general-purpose processor, and a preset user voice (eg, "Bixby") is input or the electronic device 100
  • a button eg, a button for executing an artificial intelligence agent
  • a function of the electronic device 100 may be executed by an AI dedicated processor.
  • the artificial intelligence agent inputs a preset user voice (eg, "Bixby”, etc.) or a button provided on the electronic device 100 (eg, a button for executing an artificial intelligence agent) is pressed. It may have been in standby before.
  • the standby state is a state in which a predefined user input is received to control the start of the operation of the artificial intelligence agent.
  • a preset user voice eg, "Bixby", etc.
  • a button provided on the electronic device 100 eg, a button for executing the artificial intelligence agent
  • the electronic device 100 may operate the artificial intelligence agent and provide a response to a user inquiry using the operated artificial intelligence agent.
  • the artificial intelligence agent inputs a preset user voice (eg, "Bixby”, etc.) or a button provided on the electronic device 100 (eg, a button for executing an artificial intelligence agent) is pressed. It may have been previously terminated.
  • a preset user voice eg, "Bixby”, etc.
  • a button provided on the electronic device 100 eg, a button for executing the artificial intelligence agent
  • the electronic device 100 may execute the artificial intelligence agent and provide a response to a user inquiry using the executed artificial intelligence agent.
  • the artificial intelligence agent may control various devices or modules to be described later. This will be described in detail later.
  • FIG. 2 is a block diagram illustrating a simple configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 is a microphone 110. It includes a memory 120 and a processor 130. However, it is not limited to the above-described configuration, and of course, some configurations may be added or omitted depending on the type of electronic device.
  • the microphone 110 is a component for receiving a user voice spoken by the user.
  • the microphone 110 generates (or converts) a voice or sound received from the outside under the control of the processor 130 into an electrical signal.
  • the electrical signal generated by the microphone 110 may be converted under the control of the processor 130 and stored in the memory 120.
  • the memory 120 may store commands or data related to at least one other component of the electronic device 100.
  • the memory 120 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), a solid state drive (SSD), or the like.
  • the memory 120 is accessed by the processor 130, and data read/write/modify/delete/update by the processor 130 may be performed.
  • the term memory refers to a memory 120, a ROM (not shown) in the processor 130, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, micro SD Card, memory stick).
  • the memory 120 may store programs and data for configuring various screens to be displayed in the display area of the display.
  • the memory 120 may store an artificial intelligence agent for operating a conversation system.
  • the electronic device 100 may use an artificial intelligence agent to generate natural language in response to a user utterance.
  • the artificial intelligence agent is a dedicated program for providing AI (Artificial Intelligence)-based services (eg, voice recognition service, secretary service, translation service, search service, etc.).
  • AI Artificial Intelligence
  • the artificial intelligence agent may be executed by an existing general-purpose processor (eg, CPU) or a separate AI dedicated processor (eg, a GPU).
  • the memory 120 may include a plurality of components (or modules) constituting a conversation system.
  • the memory 120 may include a knowledge database learned by a user who uses the electronic device 100.
  • the knowledge database may be one storing a relationship between knowledge information in an ontology format.
  • the memory 120 includes an artificial device that is learned based on at least one of user interaction input to the electronic device 100, a user's search history, sensing information sensed by the electronic device 100, and user information received from an external device. More intelligence models can be stored. This artificial intelligence model learns the user's propensity and preferences, and when a keyword extracted from the user's voice input through the microphone 110 is input into the artificial intelligence model, the object or knowledge information on the object related to the user's voice is Can be output. In this case, not only the keyword but also context information at the time of user's voice input may be further input to the artificial intelligence model. An embodiment using an artificial intelligence model will be described in more detail below with reference to FIG. 7.
  • the processor 130 may be electrically connected to the microphone 110 and the memory 120 to control overall operations and functions of the electronic device 100.
  • the processor 130 may extract a keyword from the input user voice when a user voice is input through the microphone 110 by executing at least one command stored in the memory 120.
  • the processor 130 may convert the user's voice into text by inputting the user's voice input through the microphone 110 into an automatic speech recognition (ASR) module.
  • ASR automatic speech recognition
  • the processor 130 may input the input user voice signal to the voice recognition module.
  • An automatic speech recognition (ASR) module can convert an input user voice (in particular, a user inquiry) into text data.
  • the automatic speech recognition module may include a speech recognition module.
  • the speech recognition module may include an acoustic model and a language model.
  • the acoustic model may include information related to speech
  • the language model may include information on a combination of unit phoneme information and unit phoneme information.
  • the speech recognition module may convert user speech into text data using information related to speech and information on unit phoneme information.
  • Information about the acoustic model and the language model can be stored, for example, in an automatic speech recognition database (ASR DB).
  • ASR DB automatic speech recognition database
  • the processor 130 may extract a keyword from the text converted from the user's voice.
  • the keyword may be a noun, a pronoun, an adjective, etc. included in a text sentence.
  • the processor 130 may obtain context information of a time point at which the user's voice is received.
  • the context information may be at least one of time information, location information, weather information, and schedule information at a time when a user's voice is input.
  • the time information may be information related to a date, a day of the week, and a time when the user's voice is input. An operation of obtaining context information will be described in more detail below with reference to FIG. 3.
  • the processor 130 may acquire an object related to a user's voice and knowledge information on the object based on the extracted keyword and context information.
  • the object may mean an object of knowledge information included in the user's voice.
  • the acquired object and knowledge information on the object may be an extracted keyword, or a keyword extracted based on context information may be changed or expanded.
  • the processor 130 may acquire an object related to the input user's voice and knowledge information on the object using the artificial intelligence model stored in the memory 110.
  • the artificial intelligence model may be learned based on at least one of a user interaction input into the electronic device 100, a user's search history, sensing information sensed by the electronic device, and user information received from an external device.
  • the processor 130 may acquire an object related to a user's voice and knowledge information about the object by inputting the extracted keyword into the learned artificial intelligence model.
  • the processor 130 may further input context information at a time point at which the user's voice is input to the learned artificial intelligence model to obtain an object related to the user's voice and knowledge information on the object.
  • the processor 130 may update the knowledge database stored in the memory 110 based on the acquired object and knowledge information about the object.
  • the processor 130 may determine whether an entity related to the acquired object exists in the knowledge database.
  • the entity related to an object may include at least one of an entity corresponding to the object, an entity of a higher concept of the object, and an entity of a lower concept of the object.
  • the processor 130 may update the knowledge database by adding knowledge information on the object to the corresponding entity.
  • An embodiment of updating a knowledge database by adding acquired knowledge information to an entity will be described in more detail with reference to FIG. 9.
  • the processor 130 may update the knowledge database by creating a new entity corresponding to the acquired object.
  • the processor 130 may obtain a response to the user inquiry using the updated knowledge database.
  • the processor 130 may obtain a response to the user inquiry by using a conversation system stored in the memory 120.
  • the conversation system is a component for performing conversation with a virtual artificial intelligence agent through natural language.
  • the conversation system may be stored in the memory 120 of the electronic device 100.
  • this is only an example, and at least one included in the conversation system may be included in at least one external server.
  • the dialogue system includes an automatic speech recognition (ASR) module, a natural language understanding (NLU) module, a dialog manager (DM) module, and a natural language generator (NLG) module. And a text to speech (TTS) module.
  • ASR automatic speech recognition
  • NLU natural language understanding
  • DM dialog manager
  • NLG natural language generator
  • TTS text to speech
  • the dialog system may further include a path planner module or an action planner module.
  • the processor 130 may input it into an automatic voice recognition module and convert it into text data.
  • the automatic speech recognition module has been described above, and redundant descriptions are omitted.
  • the processor 130 may input the converted text data into the natural language understanding module and perform syntactic analysis or semantic analysis to determine user intention.
  • Grammatical analysis divides user input into grammatical units (eg, words, phrases, morphemes, etc.), and can determine what grammatical elements the divided units have. Semantic analysis can be performed using semantic matching, rule matching, formula matching, and the like. Accordingly, the natural language understanding module may obtain a domain, an intent, or a parameter (or a slot) necessary for expressing an intention in which the user input is.
  • the natural language understanding module may determine the user's intention and parameter by using a matching rule divided into a domain, an intention, and a parameter (or a slot) required to determine the intention.
  • the one domain e.g., restaurant
  • a plurality of intents e.g., restaurant search, restaurant recommendation, etc.
  • one intent is a plurality of parameters (e.g., time, place, taste, atmosphere Etc.).
  • the plurality of rules may include, for example, one or more essential element parameters.
  • the matching rule may be stored in a natural language understanding database (NLU DB).
  • the natural language understanding module uses linguistic features such as morphemes and phrases (e.g., grammatical elements) to determine the meaning of the word extracted from the user input and match the meaning of the identified word to the domain and intention to determine the user's intention.
  • linguistic features such as morphemes and phrases (e.g., grammatical elements) to determine the meaning of the word extracted from the user input and match the meaning of the identified word to the domain and intention to determine the user's intention.
  • the natural language understanding module may determine the user intention by calculating how many words extracted from the user input are included in each domain and intention.
  • the natural language understanding module may determine a parameter of a user input using a word that is a basis for grasping an intention.
  • the natural language understanding module may determine the user's intention using a natural language recognition database in which linguistic features for determining the intention of the user input are stored.
  • the natural language understanding module can understand user inquiries using an artificial intelligence model learned for each user.
  • the natural language understanding module may input a keyword of a user inquiry and context information at a time point of the user inquiry into the artificial intelligence model to output an object related to the user inquiry and information on a user's preference condition.
  • the artificial intelligence model may be learned based on at least one of user interaction input into the electronic device 100, a user's search history, sensing information sensed by the electronic device 100, and user information received from an external device. .
  • the natural language understanding module may determine the user's intention by using the learned artificial intelligence model. For example, the natural language understanding module may determine a user's intention using user information (eg, a preference phrase, a preference menu, a preference time, a user preference, etc.). According to an embodiment, not only the natural language understanding module but also the automatic speech recognition module may recognize the user's speech by referring to the artificial intelligence model.
  • user information eg, a preference phrase, a preference menu, a preference time, a user preference, etc.
  • the automatic speech recognition module may recognize the user's speech by referring to the artificial intelligence model.
  • the conversation manager module may determine whether a user's intention identified by the natural language understanding module is clear. For example, the conversation manager module may determine whether the intention of the user is clear based on whether the parameter information is insufficient. The conversation manager module may determine whether a parameter identified in the natural language understanding module is sufficient to perform the task. According to an embodiment, when the intention of the user is not clear, the conversation manager module may perform a feedback requesting necessary information from the user. For example, the conversation manager module may perform feedback requesting information on a parameter for identifying a user's intention. In addition, the conversation manager module may generate and output a message for confirming a user inquiry including text changed by the natural language understanding module.
  • the conversation manager module may include a content provider module.
  • the content providing module may generate a result of performing a task corresponding to a user input when it can perform an operation based on the intention and parameter identified by the natural language understanding module 1220.
  • the conversation manager module may provide a response to a user inquiry using a knowledge database.
  • the knowledge database may be included in the electronic device 100, but this is only an embodiment and may be included in an external server.
  • the natural language generation module may change designated information into text format.
  • the information changed in the text form may be in the form of natural language speech.
  • the designated information may be, for example, information for an additional input, information for guiding completion of an operation corresponding to a user input, or information for guiding an additional input by a user (eg, feedback information for a user input).
  • the information changed in the text form may be displayed on the display of the electronic device 100 (150 in FIG. 3 ), or may be changed into an audio form by a text-to-speech module (TTS module).
  • TTS module text-to-speech module
  • the text-to-speech module may change information in text form into information in voice form.
  • the text-to-speech module may receive textual information from the natural language generation module, convert the textual information into voice information, and output it to a speaker (170 of FIG. 3 ).
  • the natural language understanding module and the conversation manager module may be implemented as one module.
  • the natural language understanding module and the conversation manager module may be implemented as one module to determine a user's intention and parameter, and obtain a response (eg, a pass rule) corresponding to the determined user's intention and parameter.
  • the natural language understanding module and the conversation manager module acquire condition information for objects and objects by converting or expanding keywords included in user inquiries based on the learned artificial intelligence model, and obtaining condition information for objects and objects. Responses to user inquiries can be obtained based on information and knowledge databases.
  • the context information at the time when the user's voice is input is further used to obtain an object related to the user's voice and knowledge information about the object.
  • the object related to the input text and knowledge information on the object are stored using the context information at the time the text is input. You can also get it.
  • the operation of the electronic device 100 performed when a user's voice is input may be performed in the same manner even when a user inputs text.
  • objects related to the user voice and text and knowledge information on the objects may be acquired using context information of the time range in which the user voice and text are input. have.
  • FIG. 3 is a block diagram showing a detailed configuration of the electronic device of FIG. 2.
  • the electronic device 100 includes a microphone 110, a memory 120, a processor 130, a communication interface 140, a display 150, a GPS sensor 160, other sensors 165, and a speaker. It may include 170.
  • the communication interface 140 may communicate with an external electronic device.
  • the communication interface 140 is a component for performing communication with an external device. Meanwhile, communication of the communication interface 140 with an external device may include communicating through a third device (eg, a repeater, a hub, an access point, a server, or a gateway).
  • Wireless communication is, for example, LTE, LTE-A (LTE Advance), CDMA (code division multiple access), WCDMA (wideband CDMA), UMTS (universal mobile telecommunications system), WiBro (Wireless Broadband), or GSM (Global System for Mobile Communications) and the like may include cellular communication using at least one of.
  • wireless communication is, for example, WiFi (wireless fidelity), Bluetooth, Bluetooth low power (BLE), Zigbee, NFC (near field communication), magnetic secure transmission, radio It may include at least one of a frequency (RF) and a body area network (BAN).
  • Wired communication may include at least one of, for example, universal serial bus (USB), high definition multimedia interface (HDMI), recommended standard 232 (RS-232), power line communication, or plain old telephone service (POTS).
  • the network in which wireless communication or wired communication is performed may include at least one of a telecommunication network, for example, a computer network (eg, LAN or WAN), the Internet, or a telephone network.
  • the communication interface 140 may provide an artificial intelligence agent service by performing communication with an external server.
  • the communication interface 140 may transmit a user inquiry including a changed text to an external server, and obtain a response to the user inquiry.
  • the processor 130 may obtain context information at a time point at which a user's voice is input by using information received from an external server. For example, the processor 130 acquires weather information at the time when a user's voice is input from an external server as context information, and uses the user's preference information for the object as knowledge information based on the extracted keyword and the acquired weather information. Can be obtained. For example, when the user inputs a voice saying "I want to eat beer on a rainy day", the processor 130 acquires today's weather information received from an external server as context information, and the keyword " Based on the same day as today" and weather information, the object may be acquired as "rainy day”. In addition, the processor 130 may obtain information that the user "prefers" "beer” on a rainy day, and acquires this information as knowledge information on the object "rainy day”.
  • the processor 130 may transmit the updated knowledge database to an external server through the communication interface 140. Further, the processor 130 may receive the knowledge database of another user from an external server through the communication interface 140. In this case, the processor 130 may transmit or receive an external server and a knowledge database when a preset condition is satisfied. For example, the processor 130 may transmit or receive an external server and a knowledge database when connected to a network such as Wi-Fi or a preset period. As described above, only when a predetermined condition is satisfied, it is possible to provide an accurate response to a user by securing a wider database while reducing resources by transmitting and receiving with an external server.
  • whether to synchronize the knowledge database with an external server may be performed only when the user allows synchronization.
  • the display 150 may display various information according to the control of the processor 130.
  • the display 150 may display a message for confirming whether an object related to a user's voice or text input by the user is an object intended by the user. For example, when a user voice saying “I want to eat beer on a day like today" is input, the processor 130 determines that "the same day today” is a "rainy day” using the learned artificial intelligence model, The user's intention can be confirmed by displaying the message "Does the same day mean a rainy day?" on the display 150.
  • the display 150 may display a response to a user inquiry.
  • the display 150 may be implemented as a touch screen together with a touch panel.
  • the processor 130 may obtain the object and information on the object based on the text input through the touch panel of the display 150.
  • the Global Positioning System (GPS) sensor 160 is a sensor capable of detecting location information.
  • the processor 130 may acquire the location coordinates of the electronic device 100 through the GPS sensor 160.
  • the processor 130 may acquire location information sensed through the GPS sensor 160 at the time when a user's voice is input as context information.
  • the processor 130 may obtain an object related to a place where a user's voice is input based on the extracted keyword and the obtained location information.
  • the processor 130 may obtain an object related to a place where a user's voice is input by further using web information.
  • the processor 130 uses the keyword "this noodle shop” and the GPS sensor 160 at the time when the user's voice is input.
  • the "AA noodle shop Gangnam branch” may be acquired as an object related to the place where the user's voice is input. Further, the processor 130 may obtain information indicating that the "atmosphere” is "quiet” as knowledge information on the object "AA noodle shop Gangnam branch".
  • the processor 130 may acquire an object related to the user's voice by further using web information.
  • the processor 130 has a user voice related to the'AA noodle shop' through the extracted keyword and location information, and the chain store of the'AA noodle shop' located in the location information obtained through web information is'Gangnam branch' And, based on this, an object related to the place where the user's voice is input can be obtained as'AA noodle shop Gangnam branch'.
  • the processor 130 may acquire pre-stored schedule information as context information.
  • the previously stored schedule information may be stored in the electronic device 100 or may be received from an external server.
  • the processor 130 may acquire an object related to the user's voice based on the keyword and schedule information extracted from the inputted user voice.
  • the object related to the user's voice may be an object related to a place to which the user's voice is applied. For example, on a day in which "Lunch with Friend B" is included in the schedule information of a certain Saturday, when the user inputs a voice saying "This is a little noisy" at the AA noodle shop Gangnam branch, the processor 130 You can extract "here” and "noisy” as keywords from. Further, the processor 130 may acquire "weekend", "lunch”, and "restaurant” as context information based on pre-stored schedule information. In addition, at least one of location information and web information sensed by the GPS sensor 160 may be acquired as context information.
  • the processor 130 may acquire the "AA noodle shop Gangnam branch” as an object related to the place where the user's voice is input based on the keyword “here” and the acquired context information. In addition, it is possible to obtain information that "atmosphere” is “noisy” on “weekends” as knowledge information on the object "AA noodle shop Gangnam branch”.
  • the processor 130 may determine whether an entity related to the acquired object exists in the knowledge database, and if the related entity exists, the processor 130 may update the knowledge database by adding the acquired knowledge information to the corresponding entity. Meanwhile, if a related entity does not exist, a new entity may be created based on the acquired object and knowledge information on the object to update the knowledge database.
  • the other sensor 165 may detect various state information of the electronic device 100.
  • the sensor 165 may include a motion sensor (eg, a gyro sensor, an acceleration sensor, etc.) capable of detecting motion information of the electronic device 100, and may detect environmental information around the electronic device 100.
  • a sensor that can be used eg, a temperature sensor, a humidity sensor, an air pressure sensor, etc.
  • a sensor capable of detecting user information of the electronic device 100 eg, a blood pressure sensor, a blood sugar sensor, a pulse rate sensor, etc.
  • the sensor 165 may further include an image sensor for photographing the outside of the electronic device 100.
  • the processor 130 may also acquire sensing information sensed by the other sensors 165 as context information.
  • the speaker 170 is a component that outputs not only various audio data on which various processing tasks such as decoding, amplification, and noise filtering have been performed, but also various notification sounds or voice messages.
  • the speaker 170 may output a response to a user inquiry as a voice message in a natural language format.
  • a configuration for outputting audio may be implemented as a speaker, but this is only an example, and may be implemented as an output terminal capable of outputting audio data.
  • the electronic device 100 may further include various external input ports for connecting to external terminals and buttons for receiving user manipulation.
  • FIG. 4 is a diagram illustrating an operation of updating a knowledge database of an electronic device according to an embodiment of the present disclosure.
  • various modules may be stored in the memory 120 of the electronic device.
  • the processor of the electronic device may operate using various modules stored in the memory 120.
  • the voice knowledge module 410 may acquire an object and knowledge information about the object from the input user voice.
  • the voice knowledgeization module 410 may further use context information at a time point at which the user voice is input to obtain an object and knowledge information about the object from the user voice.
  • the voice knowledgeization module 410 may acquire object and knowledge information by using various machine learning techniques such as random forest and logistic regression.
  • the knowledge database search module 420 may search for a target entity from the knowledge database 430 based on the object and knowledge information about the object acquired by the voice knowledge conversion module 410. In this case, the knowledge database search module 420 may search whether an entity related to the acquired object exists in the knowledge database 430. Specifically, the knowledge database search module 420 may search whether an entity related to the acquired object exists using a machine learning technique such as probabilistic logistic regression, a deep learning technique such as LSTM, and the like. Further, the knowledge database search module 420 may output a search result and knowledge information about an object to the knowledge database update module 440.
  • a machine learning technique such as probabilistic logistic regression, a deep learning technique such as LSTM, and the like.
  • the knowledge database update module 440 may update the knowledge database 430 based on the entity and knowledge information acquired from the knowledge database search module 420 roll. Specifically, if an entity related to an object exists, the knowledge database update module 440 updates the knowledge database 430 by adding knowledge information about the object to the entity, and the knowledge database update module 440 is an entity related to the object. If is not present, the knowledge database 430 may be updated by creating a new entity corresponding to the object.
  • FIG. 5 is a diagram for describing an operation of receiving a user voice input by an electronic device according to an embodiment of the present disclosure.
  • the user 10 may input a user voice into the electronic device 100.
  • the user 10 may press a button to execute the artificial intelligence agent and input a user voice or input a user voice including a triggering word (eg, Bixby).
  • a triggering word eg, Bixby
  • the electronic device 100 responds with a feedback voice indicating that the user's voice input has been successfully completed, "Yes, I see.” Can be printed.
  • the feedback voice may not be output depending on the embodiment.
  • the electronic device may extract keywords “noodle shop here” 62 and “same day today” 63 from the input user voice 61.
  • the electronic device may obtain the object and knowledge information on the object by using the extracted keyword and context information at a time point at which the user's voice is input.
  • the electronic device may acquire location information sensed by a GPS sensor at a time when a user's voice is input as context information 1(64). Further, the electronic device may acquire that the object related to the user's voice is the'AA noodle shop Gangnam branch' 65 based on the keywords'here noodle shop' 62 and context information 1 (64). In this case, the electronic device may further use web information to obtain an object related to a place where a user's voice is input.
  • the electronic device may acquire time information and weather information of a time point at which the user's voice is input as context information 2 (66). Further, the electronic device may acquire that knowledge information on the object is'weekends, rainy days' 67 based on the keywords'day like today' 63 and context information 2 66.
  • the context information 1 (64) and the context information 2 (66) of FIG. 6 include different information, but at least some of them may be the same.
  • the electronic device may further extract'Good' from the input user voice as a keyword, and may obtain this as knowledge information on the object'AA noodle shop Gangnam branch'.
  • the electronic device may further acquire knowledge information on an object by using an artificial intelligence model.
  • the electronic device may obtain a “weekend, rainy day” 73 that is knowledge information about an object by inputting a keyword “same day today” 71 into the artificial intelligence model 121.
  • the electronic device may determine whether the'day like today' 71 is a weekend, a rainy day, or a weekend and a rainy day using the artificial intelligence model 121.
  • the electronic device may obtain knowledge information on the object by further inputting context information 72 together with the keyword 71 in the artificial intelligence model 121.
  • FIG. 7 only contents of acquiring knowledge information about an object using the artificial intelligence model 121 are shown, but in actual implementation, the artificial intelligence model 121 may be used to acquire the object.
  • the artificial intelligence model may be learned based on at least one of a user's interaction, a user's search history, sensing information sensed by an electronic device, and user information received from an external device.
  • the artificial intelligence model 121 stored in the memory of the electronic device may include a learning unit 122 and an acquisition unit 123.
  • the processor 130 may learn to have a criterion for generating a natural language corresponding to a user intention by executing the learning unit 122 stored in the memory 120.
  • the learning unit 122 according to the present disclosure may train a speech recognition model to have a purpose according to speech recognition.
  • the learning unit 122 according to the present disclosure may train a natural language generation model to generate a natural language corresponding to a user intention.
  • the learning unit 122 according to the present disclosure may train a model to change or expand a text included in a user inquiry into another text.
  • the learning unit 122 may acquire user preference information or preference information based on at least one of a user's interaction, a user's search history, sensing information sensed by an electronic device, and user information received from an external device. I can.
  • the processor 130 may acquire an object or knowledge information about the object based on a keyword that is input data by the artificial intelligence agent.
  • the acquisition unit 123 may acquire the object or knowledge information about the object by reflecting the user's propensity information or preference information from predetermined input data by using the learned artificial intelligence model. In this case, the acquisition unit 123 may provide the response in the form of natural language using the natural language generation model.
  • the acquisition unit 123 may acquire knowledge information on an object or object by changing or expanding the text of a keyword included in the user inquiry.
  • the acquisition unit 123 can determine a predetermined output based on the predetermined input data by acquiring predetermined input data according to a preset criterion and applying the acquired input data as an input value to the artificial intelligence model. Yes (or you can estimate).
  • a result value output by applying the acquired input data to the artificial intelligence model as an input value may be used to update the artificial intelligence model.
  • the learning unit 122 and at least a portion of the acquisition unit 123 may be implemented as a software module or manufactured in the form of at least one hardware chip and mounted on the electronic device 100.
  • at least one of the learning unit 122 and the acquisition unit 123 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general-purpose processor (eg, CPU or application). processor) or a graphics dedicated processor (eg, GPU) and mounted on the aforementioned server.
  • AI artificial intelligence
  • the dedicated hardware chip for artificial intelligence is a dedicated processor specialized in probability calculation, and has higher parallel processing performance than conventional general-purpose processors, so it can quickly process computation tasks in artificial intelligence fields such as machine learning.
  • the software module is a non-transitory readable recording medium that can be read by a computer. transitory computer readable media).
  • the software module may be provided by an OS (Operating System) or a predetermined application.
  • OS Operating System
  • some of the software modules may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
  • the learning unit 122 and the acquisition unit 123 may be mounted on one server, or may be mounted on separate servers, respectively.
  • one of the learning unit 122 and the acquisition unit 123 may be included in the first server, and the other may be included in the second server.
  • the learning unit 122 and the acquisition unit 123 may provide model information constructed by the learning unit 122 to the acquisition unit 123 through wired or wireless communication, or input to the acquisition unit 123 Data may be provided to the learning unit 122 as additional learning data.
  • the artificial intelligence model may be constructed in consideration of the application field of the model, the purpose of learning, or the computer performance of the device.
  • the artificial intelligence model may be, for example, a model based on a neural network. Artificial intelligence models can be designed to simulate human brain structures on a computer.
  • the artificial intelligence model may include a plurality of network nodes having weights that simulate neurons of a human neural network. A plurality of network nodes may each form a connection relationship so as to simulate synaptic activity in which neurons send and receive signals through synapses.
  • the artificial intelligence model may include, for example, a neural network model or a deep learning model developed from a neural network model.
  • a plurality of network nodes may exchange data according to a convolutional connection relationship while being located at different depths (or layers).
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Bidirectional Recurrent Deep Neural Network (BRDNN), and Long Short Term Memory Network (LSTM) may be used as artificial intelligence models, but are not limited thereto.
  • the knowledge information updated in the knowledge database may be an object related to a user's voice acquired by the operation illustrated in FIG. 6 and knowledge information on the object.
  • the electronic device may determine whether an entity related to the acquired object exists in the knowledge database.
  • the electronic device receives the acquired object and knowledge information about the object ( 810) can be added to the entity'AA noodle shop' to update the knowledge database.
  • the entity is limited to'AA noodle shop', and is illustrated and described. However, in actual implementation, entities related to'weekend' and'quiet' as well as'AA noodle shop' are shown in the knowledge database. You can also search and update knowledge information.
  • the electronic device may update the knowledge database by creating a new entity corresponding to the'AA noodle shop Gangnam branch'.
  • FIG. 10 is a diagram illustrating an operation of outputting a response to a user inquiry by an electronic device according to an embodiment of the present disclosure.
  • the voice query module 910 may obtain a query related to a user intention from the input user inquiry voice.
  • the voice querying module 910 may obtain a query from the user's voice by further using context information at a time point at which the user inquiry is input.
  • an object related to a user inquiry and condition information on the object may be obtained.
  • the voice querying module 910 may obtain object and condition information by using various machine learning techniques such as random forest and logistic regression.
  • the knowledge database search module 420 may search for a target entity from the knowledge database 430 based on the object and condition information on the object obtained from the voice query module 910.
  • the knowledge database 430 may be updated based on the previously input user voice and context information at the time of the user voice input.
  • the knowledge database search module 420 may search whether an entity related to the acquired object exists in the knowledge database 430. Specifically, the knowledge database search module 420 may search whether an entity related to the acquired object exists using a machine learning technique such as probabilistic logistic regression, a deep learning technique such as LSTM, and the like. In addition, the knowledge database search module 420 may output an entity search result and condition information on an object to the knowledge query module 920.
  • a machine learning technique such as probabilistic logistic regression, a deep learning technique such as LSTM, and the like.
  • LSTM deep learning technique
  • the knowledge database search module 420 may output an entity search result and condition information on an object to the knowledge query module 920.
  • the knowledge query module 920 may obtain a query result based on the entity and condition information acquired from the knowledge database search module 420 roll. In addition, the knowledge query module 920 may update the knowledge database 430 by adding query and condition information related to a user inquiry to information on the obtained entity.
  • the knowledge query module 920 may provide the obtained query result to the user 10.
  • FIG. 11 is a flowchart illustrating an operation of updating a knowledge database of an electronic device according to an embodiment of the present disclosure.
  • the electronic device may extract a keyword from the input user voice (S1010). Specifically, the electronic device may input a user's voice into a voice recognition module to convert it into text, and extract a noun, a pronoun, an adjective, and the like from the converted text as a keyword.
  • the electronic device may acquire context information of a time point at which the user's voice is input (S1020).
  • the context information may include at least one of time information, location information, weather information, and schedule information at a time when the user's voice is input.
  • Such context information may be obtained from a GPS sensor provided in the electronic device, an external server, and pre-stored schedule information.
  • the electronic device may acquire an object related to a user's voice and knowledge information on the object based on the extracted keyword and context information (S1030). For example, an object related to a place where a user's voice is input may be obtained based on at least one of location information and pre-stored schedule information. As another example, the electronic device may acquire user preference information for an object as knowledge information based on weather information. In this case, according to an embodiment, the electronic device may acquire at least one of the object and knowledge information on the object using an artificial intelligence model.
  • the electronic device may update the knowledge database based on the acquired object and knowledge information on the object (S1040). Specifically, the electronic device may determine whether an entity related to the acquired object exists in the knowledge database. In this case, if an entity related to the acquired object exists in the knowledge database, the electronic device may update the knowledge database by adding knowledge information on the acquired object to the entity. Meanwhile, if there is no entity related to the acquired object in the knowledge database, the electronic device may update the knowledge database by creating and storing a new entity corresponding to the acquired object.
  • the electronic device may obtain a response to the user inquiry using the updated knowledge database and output the obtained response.
  • the context information at the time when the user's voice is received is used, the user's intention is accurately identified and the knowledge database Since it is possible to perform an update on the entity previously stored in the system, it is possible to provide a more accurate response when a user inquiry is input later.
  • unit or “module” used in the present disclosure includes a unit composed of hardware, software, or firmware, and may be used interchangeably with terms such as logic, logic blocks, parts, or circuits. I can.
  • the “unit” or “module” may be an integrally configured part or a minimum unit performing one or more functions, or a part thereof.
  • the module may be configured as an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • Various embodiments of the present disclosure may be implemented as software including instructions stored in a machine-readable storage medium (eg, a computer).
  • the device receives instructions stored from the storage medium.
  • a device capable of making a call and operating according to the called command it may include an electronic device (eg, the electronic device 100) according to the disclosed embodiments.
  • the command is executed by a processor, the processor directly, or A function corresponding to the instruction may be performed by using other components under the control of the processor, and the instruction may include a code generated or executed by a compiler or an interpreter.
  • non-transitory storage medium where'non-transitory' means that the storage medium does not contain a signal and is tangible, but the data is semi-permanent in the storage medium. Or it does not distinguish that it is stored temporarily.
  • a method according to various embodiments disclosed in this document may be provided in a computer program product.
  • Computer program products can be traded between sellers and buyers as commodities.
  • the computer program product may be distributed online in the form of a device-readable storage medium (eg, compact disc read only memory (CD-ROM)) or through an application store (eg, Play StoreTM).
  • a storage medium such as a server of a manufacturer, a server of an application store, or a memory of a relay server.
  • Each of the constituent elements may be composed of a singular or a plurality of entities, and some sub-elements of the aforementioned sub-elements are omitted, or other sub-elements are various. It may be further included in the embodiment. Alternatively or additionally, some constituent elements (eg, a module or a program) may be integrated into one entity, and functions performed by each corresponding constituent element prior to the consolidation may be performed identically or similarly. Operations performed by modules, programs, or other components according to various embodiments may be sequentially, parallel, repetitively or heuristically executed, or at least some operations may be executed in a different order, omitted, or other operations may be added. I can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치가 개시된다. 본 개시의 전자 장치는, 마이크, 적어도 하나의 명령을 포함하는 메모리 및 마이크 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는, 적어도 하나의 명령을 실행함으로써, 마이크를 통해 사용자 음성이 입력되면, 입력된 사용자 음성으로부터 키워드를 추출하고, 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하고, 추출된 키워드 및 컨텍스트 정보에 기초하여 사용자 음성과 관련된 객체(object) 및 객체에 대한 지식 정보를 획득하고, 객체에 대한 지식 정보를 바탕으로 에 저장된 지식 데이터베이스를 업데이트한다. 특히, 전자 장치가 사용자 문의에 대한 응답을 제공하는 방법의 적어도 일부는 기계학습, 신경망 또는 딥러닝 알고리즘 중 적어도 하나에 따라 학습된 인공지능 모델을 이용할 수 있다.

Description

전자 장치 및 이의 제어 방법
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 컨텍스트 정보를 이용하여 사용자 문의에 대한 응답을 제공하는 전자 장치 및 이의 제어 방법에 관한 것이다.
근래에는 인공 지능 시스템이 다양한 분야에서 이용되고 있다. 인공 지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.
인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공 지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 오브젝트 인식, 오브젝트 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
한편, 근래에는 사용자 문의에 대한 답변을 제공하는 인공지능 에이전트(예로, 빅스비 TM, 어시스턴트 TM, 알렉사 TM 등)를 이용한 다양한 서비스들이 제공되고 있다. 다만, 인공지능 에이전트를 이용할 때, 사용자가 개인적으로 사용하는 용어 또는 일반적으로 사용되지 않는 용어에 대해서는 인공지능 에이전트가 이해하지 못해 중요한 정보임에도 답변으로 제공하지 못하는 한계가 존재한다. 즉, 인공지능 에이전트와 대화를 수행할 때, 종래에는 일반적이고 명확한 일부 용어만을 이용하여 대화를 수행해야 하므로, 인공지능 에이전트와 어색한 대화를 수행할 수 밖에 없는 한계가 존재한다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 컨텍스트 정보를 이용하여 지식 데이터베이스를 구축하고, 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공함으로써, 인공지능 에이전트와 자연스러운 대화를 제공할 수 있는 전자 장치 및 이의 제어 방법을 제공함에 있다.
본 개시의 일 실시 예에 따른 전자 장치는, 마이크, 적어도 하나의 명령을 포함하는 메모리 및 상기 마이크 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 명령을 실행함으로써, 상기 마이크를 통해 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하고, 상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하고, 상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하고, 상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 상기 메모리에 저장된 지식 데이터베이스를 업데이트한다.
이 경우, 상기 지식 데이터베이스는, 지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장할 수 있다.
이 경우, 상기 프로세서는, 상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트할 수 있다.
한편, 상기 프로세서는, 상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트할 수 있다.
한편, 상기 메모리는, 상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 인공지능 모델을 더 포함하고, 상기 프로세서는, 상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득할 수 있다.
한편, 상기 프로세서는, 사용자 문의가 입력되면, 상기 업데이트된 지식 데이터베이스를 이용하여 상기 사용자 문의에 대한 응답을 획득하고, 상기 획득된 응답을 출력할 수 있다.
한편, 통신 인터페이스를 더 포함하고, 상기 프로세서는, 상기 통신 인터페이스를 통해 외부 서버에 상기 업데이트된 지식 데이터베이스를 전송하고, 상기 외부 서버로부터 타 사용자의 지식 데이터베이스를 수신받을 수 있다.
한편, 상기 프로세서는, 상기 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 상기 컨텍스트 정보로 획득할 수 있다.
한편, GPS 센서를 더 포함하고, 상기 프로세서는, 상기 사용자 음성이 입력된 시점에 상기 GPS 센서에 의해 센싱된 위치 정보를 상기 컨텍스트 정보로 획득하고, 상기 추출된 키워드, 상기 획득된 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 상기 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다.
한편, 통신 인터페이스를 더 포함하고, 상기 프로세서는, 상기 통신 인터페이스를 통해 외부 서버로부터 상기 사용자 음성이 입력된 시점의 날씨 정보를 상기 컨텍스트 정보로 획득하고, 상기 추출된 키워드 및 상기 획득된 날씨 정보에 기초하여 상기 객체에 대한 사용자의 선호 정보를 상기 지식 정보로 획득할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하는 단계, 상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하는 단계, 상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계 및 상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 기저장된 지식 데이터베이스를 업데이트하는 단계를 포함한다.
이 경우, 상기 지식 데이터베이스는, 지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장할 수 있다.
이 경우, 상기 업데이트하는 단계는, 상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트할 수 있다.
한편, 상기 업데이트하는 단계는, 상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트할 수 있다.
한편, 상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 기저장된 인공지능 모델을 학습하는 단계를 더 포함하고, 상기 객체 및 상기 객체에 대한 지식 정보를 획득하는 단계는, 상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득할 수 있다.
한편, 사용자 문의가 입력되면, 상기 업데이트된 지식 데이터베이스를 이용하여 상기 사용자 문의에 대한 응답을 획득하는 단계 및 상기 획득된 응답을 출력하는 단계를 더 포함할 수 있다.
한편, 상기 컨텍스트 정보를 획득하는 단계는, 상기 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 상기 컨텍스트 정보로 획득할 수 있다.
이 경우, 상기 컨텍스트 정보를 획득하는 단계는, 상기 사용자 음성이 입력된 시점에 GPS 센서에 의해 센싱된 위치 정보를 상기 컨텍스트 정보로 획득하고, 상기 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계는, 상기 추출된 키워드, 상기 획득된 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 상기 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다.
한편, 상기 컨텍스트 정보를 획득하는 단계는, 외부 서버로부터 상기 사용자 음성이 입력된 시점의 날씨 정보를 상기 컨텍스트 정보로 획득하고, 상기 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계는, 상기 추출된 키워드 및 상기 획득된 날씨 정보에 기초하여 상기 객체에 대한 사용자의 선호 정보를 상기 지식 정보로 획득할 수 있다.
한편, 전자 장치의 제어 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서, 전자 장치의 제어 방법은, 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하는 단계, 상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하는 단계, 상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계 및 상기 객체에 대한 지식 정보를 바탕으로 기저장된 지식 데이터베이스를 업데이트하는 단계를 포함한다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치는 컨텍스트 정보를 이용하여 지식 데이터베이스를 구축하고, 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다.
도 1은 본 개시의 일 실시 예에 따른, 사용자 문의에 따른 응답을 제공하는 인공지능 에이전트 기능을 포함하는 전자 장치의 사용도,
도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,
도 3은 도 2의 전자 장치의 구성을 구체적으로 도시한 블록도,
도 4는 본 개시의 일 실시 예에 따른, 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 도면,
도 5는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 음성을 입력받는 동작을 설명하기 위한 도면,
도 6은 본 개시의 일 실시 예에 따른 전자 장치가 입력된 사용자 음성에 기초하여 객체 및 객체에 대한 정보를 획득하는 동작을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따라 인공지능 모델을 이용하는 전자 장치의 동작을 설명하기 위한 도면,
도 8은 도 7의 따른 인공지능 모델의 동작을 설명하기 위한 도면,
도 9는 본 개시의 일 실시 예에 따른 지식 데이터베이스의 업데이트 동작을 설명하기 위한 도면,
도 10은 본 개시의 일 실시 예에 따른 전자 장치가 사용자 문의에 대한 응답을 출력하는 동작을 설명하기 위한 도면, 그리고,
도 11은 본 개시의 일 실시 예에 따른 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 흐름도이다.
이하, 본 문서의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시 예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시 예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.
본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
이하에서는 도면을 참조하여 본 발명에 대해 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시 예에 따른, 사용자 문의에 따른 응답을 제공하는 인공지능 에이전트 기능을 포함하는 전자 장치의 사용도이다.
인공지능 에이전트 시스템은 도 1에 도시된 바와 같이, 전자 장치(100) 및 응답 제공 서버(200)를 포함할 수 있다. 전자 장치(100)는 인공지능 에이전트 프로그램을 이용하여 사용자에게 사용자 문의에 대한 응답을 제공할 수 있다.
이때, 전자 장치(100)는 메모리에 지식 데이터베이스를 저장할 수 있다. 이때, 지식 데이터베이스는 전자 장치(100)를 사용하는 각 사용자에 대한 지식 정보를 저장하는 데이터베이스이다. 그리고, 지식 데이터베이스는 전자 장치(100)를 사용하는 사용자가 전자 장치(100)에 입력한 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 등과 같은 다양한 사용자 정보를 바탕으로 학습될 수 있다.
지식 데이터베이스는 사용자의 다양한 정보에 의해 학습된 지식 정보들을 온톨로지(ontology) 형태로 저장할 수 있다. 온톨로지 형태로 지식 정보들을 저장하는 경우 새로운 지식 정보가 획득되면, 전자 장치(100)는 획득된 추가 정보와 새로운 지식 정보들 간의 관계를 업데이트하여 저장할 수 있다. 이때, 지식 정보들 간의 관계는 다양한 기준에 의해 형성될 수 있다. 예를 들어, 특정 지식 정보에 대해 위치, 선호 여부, 유형, 유사, 분위기를 기준으로 다른 지식 정보가 연결될 수 있다.
한편, 온톨로지 형태의 지식 정보의 저장 형태는 일 실시 예에 불과할 뿐, 지식 정보들은 그래프 모델(graph model) 형태 등으로도 저장될 수 있다. 또한, 지식 데이터베이스는 사용자의 다양한 정보에 의해 학습된 지식 정보들을 데이터셋(dataset) 형태로 저장할 수 있다. 한편, 지식 데이터베이스를 구성하고 있는 요소인 각 지식 정보들은 엔티티(entity), 파라미터(parameter), 슬롯(slot) 등으로 불리울 수 있다.
전자 장치(100)는 사용자(10)로부터 사용자 문의를 입력받을 수 있다. 이때, 전자 장치(100)는 도 1에 도시된 바와 같이, 사용자 음성을 통해 사용자 문의를 입력받을 수 있으나, 이는 일 실시예에 불과할 뿐, 터치 입력, 키보드 입력 등과 같은 다양한 입력 방식을 통해 사용자 문의를 입력받을 수 있다.
구체적으로, 전자 장치(100)는 사용자 문의를 입력받기 이전에 인공지능 에이전트 프로그램을 활성화하기 위한 트리거 단어를 포함하는 사용자 음성을 입력받을 수 있다. 예로, 전자 장치(100)는 사용자 문의를 입력받기 이전에 "빅스비"와 같은 트리거 단어를 포함하는 사용자 음성을 입력받을 수 있다. 트리거 단어를 포함하는 사용자 음성이 입력되면, 전자 장치(100)는 인공지능 에이전트 프로그램을 실행 또는 활성화시키고, 사용자 문의의 입력을 대기할 수 있다. 인공지능 에이전트 프로그램은 사용자 문의 및 응답을 자연어로 처리할 수 있는 대화 시스템을 포함할 수 있다.
전자 장치(100)는 사용자 문의를 포함하는 사용자 음성을 입력받을 수 있다. 예로, 전자 장치(100)는 사용자로부터 "부모님이랑 저녁 먹을만한데 없나?"라는 사용자 문의를 입력받을 수 있다.
이때, 전자 장치(100)는 사용자 문의에 포함된 텍스트 중 "부모님" 및 "저녁"을 키워드로 추출하고, 지식 데이터베이스에 저장된 지식 정보들을 바탕으로 저녁 메뉴, 장소, 분위기 등을 고려한 응답을 제공할 수 있다.
구체적으로, 전자 장치(100)는 사용자 음성에서 추출된 키워드 뿐만 아니라, 다양한 컨텍스트 정보를 이용하여 키워드를 확장하고, 확장된 키워드를 바탕으로 응답을 생성할 수 있다. 이때, 전자 장치(100)는 사용자 프로필 정보(예로, 사용자의 선호 정보, 검색 정보 등), 전자 장치(100)가 센싱한 센싱 정보(예로, 위치 정보 등), 전자 장치(100)가 외부 서버로부터 수신한 정보(예로, 날씨 정보 등) 중 적어도 하나를 더 고려하여 키워드를 확장 또는 변경할 수 있다. 예를 들어, 전자 장치(100)는 사용자 문의가 수신된 시점의 컨텍스트 정보 및 사용자의 프로필 정보에 기초하여, 사용자 문의로부터 추출된 키워드인 "부모님", "저녁"을 "한식", "조용", "강남", "주말"로 변경 또는 확장할 수 있다.
그리고, 전자 장치(100)는 추출된 키워드, 확장된 키워드를 바탕으로 지식 데이터베이스에 포함된 엔티티를 검색하고, 검색 결과를 응답으로 사용자에게 제공할 수 있다.
예를 들어, 전자 장치(100)는 "AA 국수 가게 강남점이 조용해요"라는 응답을 사용자에게 제공할 수 있다. 예를 들어, 전자 장치(100)는 응답을 음성 또는 메시지 형태로 출력할 수 있다.
한편, 상술한 실시 예에서는 전자 장치(100) 내에 저장된 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공하였으나, 이는 일 실시 예에 불과할 뿐, 전자 장치(100)가 외부의 서버로부터 사용자 문의에 대한 응답을 수신할 수도 있다.
또한, 상술한 실시예에서는 전자 장치(100) 내에 지식 데이터베이스가 저장된 것으로 설명하였으나, 이는 일 실시예에 불과한 뿐, 별도의 외부 서버에 지식 데이터베이스가 저장될 수 있다. 이때, 외부 서버에 저장된 지식 데이터베이스는 별도의 사용자 계정에 의해 로그인되었을 경우에만 전자 장치(100)가 액세스할 수 있다.
한편, 전자 장치(100)는 상술한 바와 같은 사용자 문의에 대한 응답을 제공하기 위하여 인공지능 에이전트(Artificial intelligence agent)를 이용할 수 있다. 이때, 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램으로서, 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다. 특히, 인공지능 에이전트는 후술할 다양한 모듈(예로, 대화 시스템)을 제어할 수 있다.
구체적으로, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러진 경우, 인공지능 에이전트가 동작할 수 있다. 그리고, 인공지능 에이전트는 지식 데이터베이스를 바탕으로 사용자 문의에 포함된 키워드 및 사용자 문의가 입력된 시점의 컨텍스트 정보를 바탕으로 사용자 문의에 대한 응답을 제공할 수 있다.
물론, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지면 인공지능 에이전트가 동작할 수도 있다. 또한, 인공지능 에이전트는 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 이전에 기 실행된 상태일 수 있다. 이 경우, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러진 이후에는 전자 장치(100)의 인공지능 에이전트가 사용자 문의에 대한 응답을 제공할 수 있다. 예를 들어, 인공지능 에이전트가 AI 전용 프로세서에 의해 실행되는 경우, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 전에는 범용 프로세서에 의해 전자 장치(100)의 기능이 실행되며, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러진 이후에는 AI 전용 프로세서에 의해 전자 장치(100)의 기능이 실행될 수 있다.
또한, 인공지능 에이전트는 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 이전에 대기 상태일 수 있다. 여기서 대기 상태란, 인공지능 에이전트의 동작 시작을 제어하기 위해 미리 정의된 사용자 입력이 수신되는 것을 감지하는 상태이다. 인공지능 에이전트가 대기 상태인 동안 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지면, 전자 장치(100)는 인공지능 에이전트를 동작시키고, 동작된 인공지능 에이전트를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다.
또한, 인공지능 에이전트는 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 이전에 종료된 상태일 수 있다. 인공지능 에이전트가 종료된 상태에서 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지면, 전자 장치(100)는 인공지능 에이전트를 실행시키고, 실행된 인공지능 에이전트를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다.
한편, 인공지능 에이전트는 후술할 다양한 장치 또는 모듈을 제어할 수 있다. 이에 대해서는 추후 상세히 설명하기로 한다.
또한, 전자 장치(100) 및 서버 간의 학습된 다양한 모델을 이용하여 사용자 문의에 포함된 텍스트를 변경 또는 확장하고, 변경된 텍스트를 이용하여 응답을 제공하는 구체적인 예들은 이하 다양한 실시 예들을 통하여 후술된다.
도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 간략한 구성을 도시한 블록도이다.
도 2를 참조하면, 전자 장치(100)는 마이크(110). 메모리(120) 및 프로세서(130)를 포함한다. 그러나, 상술한 구성에 한정되는 것은 아니며, 전자 장치의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다.
마이크(110)는 사용자가 발화하는 사용자 음성을 입력받기 위한 구성이다. 마이크(110)는 프로세서(130)의 제어에 의해 외부에서부터 수신되는 음성(voice) 또는 사운드(sound)를 전기적인 신호로 생성(또는, 변환)한다. 마이크(110)에서 생성된 전기적인 신호는 프로세서(130)의 제어에 의해 변환되어 메모리(120)에 저장될 수 있다.
메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.
또한, 메모리(120)는 대화 시스템을 동작하기 위한 인공지능 에이전트를 저장할 수 있다. 구체적으로, 전자 장치(100)는 사용자 발화에 대한 응답으로 자연어를 생성하기 위하여 인공지능 에이전트(Artificial intelligence agent)를 이용할 수 있다. 이때, 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램이다. 특히, 인공지능 에이전트는 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다.
또한, 메모리(120)는 대화 시스템을 구성하는 복수의 구성(또는 모듈)을 포함할 수 있다. 특히, 메모리(120)는 전자 장치(100)를 사용하는 사용자에 의해 학습된 지식 데이터베이스를 포함할 수 있다. 이때, 지식 데이터 베이스는 지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장한 것일 수 있다.
또한, 메모리(120)에는 전자 장치(100)에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치(100)가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 인공지능 모델이 더 저장될 수 있다. 이러한 인공지능 모델은 사용자의 성향, 선호도 등을 학습하는 것으로, 마이크(110)를 통해 입력된 사용자 음성에서 추출된 키워드가 인공지능 모델에 입력되면, 사용자 음성과 관련된 객체 또는 객체에 대한 지식 정보가 출력될 수 있다. 이때, 인공지능 모델에는 키워드 뿐만 아니라, 사용자 음성 입력 시점의 컨텍스트 정보가 더 입력될 수도 있다. 인공지능 모델을 이용하는 실시 예는 이하 도 7을 참조하여 보다 자세히 설명하기로 한다.
프로세서(130)는 마이크(110) 및 메모리(120)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(130)는 메모리(120)에 저장된 적어도 하나의 명령어를 실행함으로써, 마이크(110)를 통해 사용자 음성이 입력되면, 입력된 사용자 음성으로부터 키워드를 추출할 수 있다.
이때, 프로세서(130)는 마이크(110)를 통해 입력된 사용자 음성을 음성 인식(automatic speech recognition, ASR) 모듈에 입력하여 사용자 음성을 텍스트로 변환할 수 있다. 이때, 프로세서(130)는 마이크(110)를 통해 트리거링 워드(triggering word)가 포함된 사용자 음성 신호가 수신되면, 입력된 사용자 음성 신호를 음성 인식 모듈에 입력할 수 있다.
자동 음성 인식(automatic speech recognition)(ASR) 모듈은, 입력된 사용자 음성(특히, 사용자 문의)을 텍스트 데이터로 변환할 수 있다. 예를 들어, 자동 음성 인식 모듈은 발화 인식 모듈을 포함할 수 있다. 상기 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)에 저장될 수 있다.
그리고, 프로세서(130)는 사용자 음성을 변환한 텍스트에서 키워드를 추출할 수 있다. 이때, 키워드는 텍스트 문장에 포함된 명사, 대명사, 형용사 등일 수 있다.
그리고, 프로세서(130)는 사용자 음성이 수신된 시점의 컨텍스트 정보를 획득할 수 있다. 여기서, 컨텍스트 정보는 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나일 수 있다. 여기서, 시간 정보는 사용자 음성이 입력된 시점의 날짜, 요일, 시간과 관련된 정보일 수 있다. 컨텍스트 정보를 획득하는 동작에 대해서는 이하 도 3을 참조하여 보다 자세히 설명하기로 한다.
그리고, 프로세서(130)는 추출된 키워드 및 컨텍스트 정보에 기초하여 사용자 음성과 관련된 객체(object) 및 객체에 대한 지식 정보를 획득할 수 있다. 여기서, 객체라 함은 사용자 음성에 포함된 지식 정보의 대상을 의미하는 것일 수 있다. 이때, 획득된 객체 및 객체에 대한 지식 정보는 추출된 키워드일 수도 있고, 컨텍스트 정보에 기초하여 추출된 키워드가 변경 또는 확장된 것일 수도 있다.
이때, 프로세서(130)는 메모리(110)에 저장된 인공지능 모델을 이용하여 입력된 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 이때, 인공지능 모델은 전자 장치(100)에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 것일 수 있다.
구체적으로, 프로세서(130)는 추출된 키워드를 학습된 인공지능 모델에 입력하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 또 다른 실시 예로, 프로세서(130)는 사용자 음성이 입력된 시점의 컨텍스트 정보를 학습된 인공지능 모델에 더 입력하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수도 있다.
한편, 추출된 키워드, 컨텍스트 정보 및 인공지능 모델 중 적어도 하나에 기초하여 객체 및 객체에 대한 지식 정보를 획득하는 실시 예는 이하 도 6 및 도 7을 참조하여 보다 자세히 설명하기로 한다.
그리고, 프로세서(130)는 획득된 객체 및 객체에 대한 지식 정보를 바탕으로 메모리(110)에 저장된 지식 데이터베이스를 업데이트할 수 있다.
구체적으로, 프로세서(130)는 지식 데이터베이스 내에 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단할 수 있다. 여기서, 객체와 관련된 엔티티라 함은, 객체에 대응되는 엔티티, 객체의 상위 개념의 엔티티 및 객체의 하위 개념의 엔티티 중 적어도 하나를 포함할 수 있다.
이때, 지식 데이터베이스 내에 획득된 객체와 관련된 엔티티가 존재하는 경우, 프로세서(130)는 해당 엔티티에 객체에 대한 지식 정보를 추가하여 지식 데이터베이스를 업데이트할 수 있다. 엔티티에 획득된 지식 정보를 추가하여 지식 데이터베이스를 업데이트하는 실시 예는 도 9를 참조하여 보다 자세히 설명하기로 한다.
한편, 지식 데이터베이스 내에 획득된 객체와 관련된 엔티티가 존재하지 않는 경우, 프로세서(130)는 획득된 객체에 대응되는 새로운 엔티티를 생성하여 지식 데이터베이스를 업데이트할 수 있다.
그리고, 프로세서(130)는 사용자 문의가 입력되면, 업데이트된 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 획득할 수 있다.
구체적으로, 프로세서(130)는 사용자 문의가 입력되면, 메모리(120)에 저장된 대화 시스템을 이용하여 사용자 문의에 대한 응답을 획득할 수 있다. 대화 시스템은 가상의 인공지능 에이전트와 자연어를 통해 대화를 수행하기 위한 구성으로서, 본 개시의 일 실시 예에 따르면, 대화 시스템은 전자 장치(100)의 메모리(120) 내에 저장될 수 있다. 그러나, 이는 일 실시 예에 불과할 뿐, 대화 시스템에 포함된 적어도 하나는 외부의 적어도 하나의 서버에 포함될 수 있다.
대화 시스템은 자동 음성 인식(automatic speech recognition)(ASR) 모듈, 자연어 이해(natural language understanding)(NLU) 모듈, 대화 매니저(dialogue manager)(DM) 모듈, 자연어 생성(natural language generator)(NLG) 모듈 및 텍스트 음성 변환(text to speech)(TTS) 모듈을 포함할 수 있다. 그 밖에 대화 시스템은 패스 플래너(path planner) 모듈 또는 액션 플래너(action planner) 모듈을 더 포함할 수 있다.
우선, 프로세서(130)는 사용자 음성이 입력되면 자동 음성 인식 모듈에 입력하여 텍스트 데이터로 변환할 수 있다. 자동 음성 인식 모듈은 상술하였는 바, 중복된 설명은 생략한다.
그리고, 프로세서(130)는 변환된 텍스트 데이터를 자연어 이해 모듈에 입력하여 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 문법적 분석은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해 모듈은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 얻을 수 있다.
자연어 이해 모듈은 도메인(domain), 의도(intend) 및 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 상기 하나의 도메인(예: 식당)은 복수의 의도(예: 식당 검색, 식당 추천 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 장소, 맛, 분위기 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 매칭 규칙은 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)에 저장될 수 있다.
자연어 이해 모듈은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는 지를 계산하여 사용자 의도를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈은 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터베이스를 이용하여 사용자의 의도를 결정할 수 있다.
자연어 이해 모듈은 사용자 별로 학습된 인공지능 모델을 이용하여 사용자 문의를 이해할 수 있다. 특히, 자연어 이해 모듈은 사용자 문의의 키워드 및 사용자 문의 시점의 컨텍스트 정보를 인공지능 모델에 입력하여 사용자 문의와 관련된 객체 및 사용자의 선호 조건 정보를 출력할 수 있다. 이때, 인공지능 모델은 전자 장치(100)에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치(100)가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습될 수 있다.
자연어 이해 모듈은 학습된 인공지능 모델을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈은 사용자 정보(예: 선호 문구, 선호 메뉴, 선호 시간, 사용자 성향 등)를 이용하여 사용자의 의도를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈뿐만 아니라 자동 음성 인식 모듈도 인공지능 모델을 참고하여 사용자의 음성을 인식할 수 있다.
대화 매니저 모듈은 자연어 이해 모듈에 의해 파악된 사용자의 의도가 명확한지 여부를 판단할 수 있다. 예를 들어, 대화 매니저 모듈은 파라미터의 정보가 충분하지 여부에 기초하여 사용자의 의도가 명확한지 여부를 판단할 수 있다. 대화 매니저 모듈은 자연어 이해 모듈에서 파악된 파라미터가 태스크를 수행하는데 충분한지 여부를 판단할 수 있다. 일 실시 예에 따르면, 대화 매니저 모듈은 사용자의 의도가 명확하지 않은 경우 사용자에게 필요한 정보를 요청하는 피드백을 수행할 수 있다. 예를 들어, 대화 매니저 모듈은 사용자의 의도를 파악하기 위한 파라미터에 대한 정보를 요청하는 피드백을 수행할 수 있다. 또한, 대화 매니저 모듈은 자연어 이해 모듈에 의해 변경된 텍스트를 포함하는 사용자 문의를 확인하기 위한 메시지를 생성하여 출력할 수 있다.
일 실시 예에 따르면, 대화 매니저 모듈은 컨텐츠 제공(content provider) 모듈을 포함할 수 있다. 컨텐츠 제공 모듈은 자연어 이해 모듈(1220)에서 파악된 의도 및 파라미터에 기초하여 동작을 수행할 수 있는 경우, 사용자 입력에 대응되는 태스크를 수행한 결과를 생성할 수 있다.
다른 실시 예에 따르면, 대화 매니저 모듈은 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다. 이때, 지식 데이터베이스는 전자 장치(100) 내에 포함될 수 있으나, 이는 일 실시 예에 불과할 뿐, 외부 서버에 포함될 수 있다.
자연어 생성 모듈(NLG 모듈)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는, 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보(예: 사용자 입력에 대한 피드백 정보)일 수 있다. 상기 텍스트 형태로 변경된 정보는 전자 장치(100)의 디스플레이(도 3의 150))에 표시되거나, 텍스트 음성 변환 모듈(TTS 모듈)에 의해 음성 형태로 변경될 수 있다.
텍스트 음성 변환 모듈(TTS 모듈)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. 텍스트 음성 변환 모듈은 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 스피커(도 3의 170)로 출력할 수 있다.
자연어 이해 모듈 및 대화 매니저 모듈은 하나의 모듈로 구현될 수 있다. 예를 들어, 자연어 이해 모듈 및 대화 매니저 모듈은 하나의 모듈로 구현되어 사용자의 의도 및 파라미터를 결정하고, 상기 결정된 사용자의 의도 및 파라미터에 대응되는 응답(예로, 패스 룰)을 획득할 수 있다. 또 다른 예로, 자연어 이해 모듈 및 대화 매니저 모듈은 학습된 인공지능 모델을 바탕으로 사용자 문의에 포함된 키워드를 변환 또는 확장하여 객체 및 객체에 대한 조건 정보를 획득하고, 획득된 객체, 객체에 대한 조건 정보 및 지식 데이터베이스를 바탕으로 사용자 문의에 대한 응답을 획득할 수 있다.
한편, 이상에서는 마이크(110)를 통한 사용자 음성이 입력되면, 사용자 음성이 입력된 시점의 컨텍스트 정보를 더 이용하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득하는 내용으로 한정하여 기재하였다. 그러나, 실제 구현시에는 사용자 음성 입력이 수행되지 않더라도, 사용자가 어플리케이션을 통한 텍스트 입력을 수행한 경우, 텍스트가 입력된 시점의 컨텍스트 정보를 이용하여 입력된 텍스트와 관련된 객체 및 객체에 대한 지식 정보를 획득할 수도 있다. 이하에서 사용자 음성이 입력되는 경우 수행되는 전자 장치(100)의 동작은 사용자가 텍스트를 입력한 경우에도 동일하게 수행될 수 있다. 또는, 사용자 음성 입력과 텍스트 입력이 기설정된 시간 범위 이내에 수행된 경우, 사용자 음성 및 텍스트가 입력된 시간 범위의 컨텍스트 정보를 이용하여 사용자 음성 및 텍스트와 관련된 객체 및 객체에 대한 지식 정보를 획득할 수도 있다.
도 3은 도 2의 전자 장치의 구성을 구체적으로 도시한 블록도이다.
도 3을 참조하면, 전자 장치(100)는 마이크(110), 메모리(120), 프로세서(130), 통신 인터페이스(140) 디스플레이(150), GPS 센서(160), 기타 센서(165) 및 스피커(170)를 포함할 수 있다.
*여기서, 마이크(110), 메모리(120) 및 프로세서(130)의 일부 구성은 도 2에 도시된 구성과 동일한 바, 중복된 기재는 생략한다.
통신 인터페이스(140)는 외부 전자 장치와 통신을 수행할 수 있다. 통신 인터페이스(140)는 외부 장치와 통신을 수행하기 위한 구성이다. 한편, 통신 인터페이스(140)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다. 무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 일 실시예에 따르면, 무선 통신은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 무선 통신 또는 유선 통신이 수행되는 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.
또한, 통신 인터페이스(140)는 외부의 서버와 통신을 수행하여 인공지능 에이전트 서비스를 제공할 수 있다. 특히, 통신 인터페이스(140)는 외부 서버로 변경된 텍스트를 포함하는 사용자 문의를 전송할 수 있으며, 사용자 문의에 대한 응답을 획득할 수 있다.
한편, 프로세서(130)는 외부 서버로부터 수신된 정보를 이용하여 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득할 수 있다. 예를 들어, 프로세서(130)는 외부 서버로부터 사용자 음성이 입력된 시점의 날씨 정보를 컨텍스트 정보로 획득하고, 추출된 키워드 및 획득된 날씨 정보에 기초하여 객체에 대한 사용자의 선호 정보를 지식 정보로 획득할 수 있다. 예를 들어, 사용자가 비오는 날에 "오늘 같은 날은 맥주를 먹고 싶어"라는 음성을 입력한 경우, 프로세서(130)는 외부 서버로부터 수신된 오늘의 날씨 정보를 컨텍스트 정보로 획득하고, 키워드인 "오늘 같은 날" 및 날씨 정보에 기초하여, 객체를 "비오는 날"로 획득할 수 있다. 그리고, 프로세서(130)는 사용자는 비오는 날에는 "맥주"를 "선호"한다는 정보를 획득하고, 이를 객체인 "비오는 날"에 대한 지식 정보로 획득할 수 있다.
한편, 프로세서(130)는 통신 인터페이스(140)를 통해 외부 서버에 업데이트된 지식 데이터베이스를 전송할 수 있다. 그리고, 프로세서(130)는 통신 인터페이스(140)를 통해 외부 서버로부터 타 사용자의 지식 데이터베이스를 수신받을 수 있다. 이때, 프로세서(130)는 기설정된 조건이 만족되면 외부 서버와 지식 데이터베이스를 송신 또는 수신할 수 있다. 예를 들어, 프로세서(130)는 기설정된 주기 또는 와이파이 등과 같은 네트워크에 연결되면, 외부 서버와 지식 데이터베이스를 송신 또는 수신할 수 있다. 이와 같이, 기설정된 조건을 만족하는 경우에만 외부 서버와 송수신하여 리소스를 감소시키면서도, 보다 광범위한 데이터베이스 확보를 통해 정확한 응답을 사용자에게 제공할 수 있게 된다.
한편, 일 실시 예로 외부 서버와의 지식 데이터베이스의 동기화 여부는 사용자가 동기화를 허용한 경우에만 수행될 수도 있다.
디스플레이(150)는 디스플레이(150)는 프로세서(130)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(150)는 사용자가 입력한 사용자 음성 또는 텍스트와 관련된 객체가 사용자가 의도한 객체인지 확인하기 위한 메시지를 표시할 수 있다. 예를 들어, "오늘 같은 날은 맥주를 먹고 싶어"라는 사용자 음성이 입력된 경우, 프로세서(130)는 학습된 인공지능 모델을 이용하여 "오늘 같은 날"이 "비오는 날"인 것으로 판단하고, "오늘 같은 날은 비오는 날을 말하는 것인가요?"라는 메시지를 디스플레이(150)에 표시하여 사용자의 의도를 확인할 수 있다.
또한, 디스플레이(150)는 사용자 문의에 대한 응답을 표시할 수 있다. 디스플레이(150)는 터치 패널과 함께 터치 스크린으로 구현될 수 있다. 이 경우, 프로세서(130)는 디스플레이(150)의 터치 패널을 통해 입력된 텍스트를 바탕으로 객체 및 객체에 대한 정보를 획득할 수 있다.
GPS(Global Positioning System) 센서(160)는 위치 정보를 감지할 수 있는 센서이다. 구체적으로, 프로세서(130)는 GPS 센서(160)를 통해 전자 장치(100)의 위치 좌표를 획득할 수 있다. 특히, 프로세서(130)는 사용자 음성이 입력될 시점에 GPS 센서(160)를 통해 센싱된 위치 정보를 컨텍스트 정보로 획득할 수 있다. 그리고, 프로세서(130)는 추출된 키워드, 획득된 위치 정보를 바탕으로 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다. 이때, 일 실시 예로 프로세서(130)는 웹 정보를 더 이용하여 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다. 예를 들어, 사용자가 AA 국수 가게 강남점에서 "이 국수 가게는 조용하네"라고 입력한 경우, 프로세서(130)는 "이 국수 가게"라는 키워드와, 사용자 음성이 입력된 시점에 GPS 센서(160)에 의해 획득된 위치 정보를 이용하여 사용자 음성이 입력된 장소와 관련된 객체로 "AA 국수 가게 강남점"을 획득할 수 있다. 그리고, 프로세서(130)는 객체인 "AA 국수 가게 강남점"에 대한 지식 정보로 "분위기"가 "조용"하다는 정보를 획득할 수 있다.
이때, 프로세서(130)는 웹 정보를 더 이용하여 사용자 음성과 관련된 객체를 획득할 수도 있다. 예를 들어, 프로세서(130)는 추출된 키워드 및 위치 정보를 통해 사용자 음성이 'AA 국수 가게'와 관련된 것이고, 웹 정보를 통해 획득된 위치 정보에 위치한 'AA 국수 가게'의 체인점은 '강남점'임을 획득하고, 이를 바탕으로 사용자 음성이 입력된 장소와 관련된 객체를 'AA 국수 가게 강남점'으로 획득할 수 있다.
한편, 프로세서(130)는 기저장된 일정 정보를 컨텍스트 정보로 획득할 수도 있다. 이때, 기저장된 일정 정보는 전자 장치(100)에 저장된 것이거나, 외부 서버로부터 수신된 것일 수 있다. 그리고, 프로세서(130)는 입력된 사용자 음성에서 추출된 키워드 및 일정 정보를 바탕으로 사용자 음성과 관련된 객체를 획득할 수 있다. 이때, 사용자 음성과 관련된 객체는 사용자 음성이 임력된 장소와 관련된 객체일 수 있다. 예를 들어, 어느 토요일의 일정 정보에 "친구 B와 점심"이 포함된 날, 사용자가 AA 국수 가게 강남점에서 "여기는 좀 시끄럽네"라고 음성을 입력한 경우, 프로세서(130)는 입력된 사용자 음성에서 키워드로 "여기", "시끄럽네"를 추출할 수 있다. 그리고, 프로세서(130)는 기저장된 일정 정보에 기초하여 "주말", "점심", "식당"을 컨텍스트 정보로 획득할 수 있다. 그리고, GPS 센서(160)에 의해 센싱된 위치 정보 및 웹 정보 중 적어도 하나를 컨텍스트 정보로 획득할 수 있다.
그리고, 프로세서(130)는 키워드인 "여기" 및 획득된 컨텍스트 정보들을 바탕으로 사용자 음성이 입력된 장소와 관련된 객체로 "AA 국수 가게 강남점"을 획득할 수 있다. 그리고, 객체인 "AA 국수 가게 강남점"에 대한 지식 정보로 "주말"에는 "분위기"가 "시끄럽다"는 정보를 획득할 수 있다.
그리고, 프로세서(130)는 지식 데이터베이스에 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 관련된 엔티티가 존재하면 획득된 지식 정보를 해당 엔티티에 추가하여 지식 데이터베이스를 업데이트할 수 있다. 한편, 관련된 엔티티가 존재하지 않으면, 획득된 객체 및 객체에 대한 지식 정보를 바탕으로 새로운 엔티티를 생성하여 지식 데이터베이스를 업데이트할 수 있다.
한편, 기타 센서(165)는 전자 장치(100)의 다양한 상태 정보를 감지할 수 있다. 예로, 센서(165)는 전자 장치(100)의 움직임 정보를 감지할 수 있는 움직임 센서(예로, 자이로 센서, 가속도 센서 등)를 포함할 수 있으며, 전자 장치(100) 주위의 환경 정보를 감지할 수 있는 센서(예로, 온도 센서, 습도 센서, 기압 센서 등), 전자 장치(100)의 사용자 정보를 감지할 수 있는 센서(예로, 혈압 센서, 혈당 센서, 맥박수 센서 등) 등을 포함할 수 있다. 그 밖에, 센서(165)는 전자 장치(100)의 외부를 촬영하기 위한 이미지 센서 등을 더 포함할 수 있다. 프로세서(130)는 기타 센서(165)에 의해 센싱된 센싱 정보 또한 컨텍스트 정보로 획득할 수 있다.
스피커(170)는 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 스피커(170)는 사용자 문의에 대한 응답을 자연어 형태의 음성 메시지로 출력할 수 있다. 한편, 오디오를 출력하기 위한 구성은 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.
상술한 바와 같이, 사용자 음성이 수신되는 시점의 컨텍스트 정보를 이용함으로 인해, 사용자가 추상적인 용어를 이용하여 발화하였음에도 불구하고, 사용자의 의도를 정확히 파악하고, 지식 데이터베이스에 기저장된 엔티티에 대한 업데이트를 수행할 수 있으므로, 추후 사용자 문의가 입력된 경우 보다 정확한 응답 제공이 가능하게 된다.
한편, 도 3에는 도시되지 않았지만, 실시 예에 따라 전자 장치(100)는 외부 단자와 연결하기 위한 다양한 외부 입력 포트, 사용자 조작을 입력받을 수 있는 버튼 등을 더 포함할 수 있음은 물론이다.
도 4는 본 개시의 일 실시 예에 따른, 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 전자 장치의 메모리(120)에는 다양한 모듈이 저장될 수 있다. 이때, 전자 장치의 프로세서는 메모리(120)에 저장된 다양한 모듈을 이용하여 동작할 수 있다.
구체적으로, 사용자(10)가 사용자 음성을 입력하면, 음성 지식화 모듈(410)은 입력된 사용자 음성으로부터 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 이때, 음성 지식화 모듈(410)은 사용자 음성이 입력되는 시점의 컨텍스트 정보를 더 이용하여 사용자 음성으로부터 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 이때, 음성 지식화 모듈(410)은 Random Forest, logistic regression 등 다양한 기계 학습 기법을 활용하여 객체 및 지식 정보를 획득할 수 있다.
그리고, 지식 데이터베이스 검색 모듈(420)은 음성 지식화 모듈(410)에서 획득된 객체 및 객체에 대한 지식 정보를 바탕으로 지식 데이터베이스(430)에서 타겟 엔티티를 검색할 수 있다. 이때, 지식 데이터베이스 검색 모듈(420)은 지식 데이터베이스(430)에 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 구체적으로, 지식 데이터베이스 검색 모듈(420)은 Probabilistic logistic regression 등의 기계 학습 기법, LSTM 등 딥 러닝 기법 등을 활용하여 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 그리고, 지식 데이터베이스 검색 모듈(420)은 검색 결과와 객체에 대한 지식 정보를 지식 데이터베이스 업데이트 모듈(440)로 출력할 수 있다.
지식 데이터베이스 업데이트 모듈(440)은 지식 데이터베이스 검색 모듈(420)롤부터 획득된 엔티티 및 지식 정보를 바탕으로 지식 데이터베이스(430)를 업데이트할 수 있다. 구체적으로, 지식 데이터베이스 업데이트 모듈(440)은 객체와 관련된 엔티티가 존재하면, 객체에 대한 지식 정보를 엔티티에 추가하여 지식 데이터베이스(430)을 업데이트하고, 지식 데이터베이스 업데이트 모듈(440)은 객체와 관련된 엔티티가 존재하지 않으면, 객체에 대응되는 새로운 엔티티를 생성하여 지식 데이터베이스(430)을 업데이트할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 음성을 입력받는 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 사용자(10)는 전자 장치(100)에 사용자 음성을 입력할 수 있다. 이때, 사용자(10)는 인공지능 에이전트를 실행하기 위해 버튼을 누르고 사용자 음성을 입력하거나, 트리거링 워드(예로, 빅스비)를 포함하는 사용자 음성을 입력할 수 있다.
예를 들어, 사용자(10)가 "빅스비, 여기 국수 가게는 조용해서 오늘 같은 날 오기 좋네"라고 입력하면, 전자 장치(100)는 사용자 음성 입력이 정상적으로 완료되었음을 알리는 피드백 음성으로 "네 알겠습니다"를 출력할 수 있다. 이때, 실시 예에 따라 피드백 음성은 출력되지 않을 수도 있다.
그리고, 전자 장치는 도 6에 도시된 바와 같이, 입력된 사용자 음성(61)으로부터 키워드인 '여기 국수 가게'(62) 및 '오늘 같은 날'(63)을 추출할 수 있다. 그리고, 전자 장치는 추출된 키워드 및 사용자 음성이 입력된 시점의 컨텍스트 정보를 이용하여 객체 및 객체에 대한 지식 정보를 획득할 수 있다.
예를 들어, 전자 장치는 사용자 음성이 입력된 시점에 GPS 센서에 의해 센싱된 위치 정보를 컨텍스트 정보 1(64)로 획득할 수 있다. 그리고, 전자 장치는 키워드인 '여기 국수 가게'(62) 및 컨텍스트 정보 1(64)을 바탕으로, 사용자 음성과 관련된 객체가 'AA 국수 가게 강남점'(65)임을 획득할 수 있다. 이때, 전자 장치는 웹 정보를 더 이용하여 사용자 음성이 입력된 장소와 관련된 객체를 획득할 수도 있다.
한편, 전자 장치는 사용자 음성이 입력된 시점의 시간 정보, 날씨 정보를 컨텍스트 정보 2(66)로 획득할 수 있다. 그리고, 전자 장치는 키워드인 '오늘 같은 날'(63) 및 컨텍스트 정보 2(66)를 바탕으로 객체에 대한 지식 정보가 '주말, 비오는 날'(67)임을 획득할 수 있다.
한편, 이상에서는 도 6의 컨텍스트 정보 1(64)와 컨텍스트 정보 2(66)가 다른 정보를 포함하는 것으로 설명하였으나, 적어도 일부가 동일할 수 있다.
한편, 도 6에는 도시되지는 않았지만, 전자 장치는 입력된 사용자 음성에서 '좋네'를 더 키워드로 추출할 수 있으며, 이를 객체인 'AA 국수 가게 강남점'에 대한 지식 정보로 획득할 수도 있다.
한편, 전자 장치는 도 7에 도시된 바와 같이 인공지능 모델을 더 이용하여 객체에 대한 지식 정보를 획득할 수도 있다.
도 7을 참조하면, 전자 장치는 인공지능 모델(121)에 키워드인 '오늘 같은 날'(71)을 입력하여 객체에 대한 지식 정보인 '주말, 비오는 날'(73)을 획득할 수 있다. 실시 예에 따라, 전자 장치는 인공지능 모델(121)을 이용하여 '오늘 같은 날'(71)이 주말인지, 비오는 날인지, 주말이면서 비오는 날인지 판단할 수 있다.
이때, 전자 장치는 인공지능 모델(121)에 키워드(71)와 함께 컨텍스트 정보(72)를 더 입력하여 객체에 대한 지식 정보를 획득할 수 있다. 도 7에서는 인공지능 모델(121)을 이용하여 객체에 대한 지식 정보를 획득하는 내용만이 도시되었으나, 실제 구현시에는 인공지능 모델(121)은 객체를 획득하는 데 이용될 수도 있다.
이때, 인공지능 모델은 사용자의 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 것일 수 있다.
구체적으로 도 8을 참조하면, 전자 장치의 메모리에 저장된 인공지능 모델(121)은 학습부(122) 및 획득부(123)를 포함할 수 있다. 그리고, 프로세서(130)는 메모리(120)에 저장된 학습부(122)를 실행함으로써, 사용자 의도에 대응되는 자연어를 생성하는 기준을 갖도록 학습시킬 수 있다. 특히, 본 개시에 따른 학습부(122)는 음성 인식에 따른 목적을 가지도록 음성 인식 모델을 학습시킬 수 있다. 또는, 본 개시에 따른 학습부(122)는 사용자 의도에 대응되는 자연어를 생성하도록 자연어 생성 모델을 학습시킬 수 있다. 본 개시에 따른 학습부(122)는 사용자 문의에 포함된 텍스트를 다른 텍스트로 변경 또는 확장하기 위해 모델을 학습시킬 수 있다. 구체적으로, 학습부(122)는 사용자의 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 사용자의 성향 정보 또는 선호 정보 등을 획득할 수 있다.
프로세서(130)는 메모리(120)에 저장된 획득부(123)를 실행함으로써, 인공지능 에이전트가 입력 데이터인 키워드에 기초하여 객체 또는 객체에 대한 지식 정보를 획득할 수 있다. 획득부(123)는 학습된 인공지능 모델을 이용하여, 소정의 입력 데이터로부터 사용자의 성향 정보 또는 선호 정보를 반영하여 객체 또는 객체에 대한 지식 정보를 획득할 수 있다. 이때, 획득부(123)는 자연어 생성 모델을 이용하여 응답을 자연어 형태로 제공할 수 있다. 또한, 획득부(123)는 사용자 문의에 포함된 키워드의 텍스트를 변경 또는 확장하여 객체 또는 객체에 대한 지식 정보를 획득할 수 있다.
또한, 획득부(123)는 기 설정된 기준에 따라 소정의 입력 데이터를 획득하고, 획득된 입력 데이터를 입력 값으로 하여 인공지능 모델에 적용함으로써, 소정의 입력 데이터에 기초한 소정의 출력을 판단할 수 있다(또는, 추정(estimate)할 수 있다). 또한, 획득된 입력 데이터를 입력 값으로 인공 지능 모델에 적용하여 출력된 결과 값은, 인공지능 모델을 갱신하는데 이용될 수 있다.
한편, 학습부(122)의 적어도 일부 및 획득부(123)의 적어도 일부는, 소프트웨어 모듈로 구현되거나 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(122) 및 획득부(123) 중 적어도 하나는 인공지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 서버에 탑재될 수도 있다. 이때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다. 학습부(122) 및 획득부(123)가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.
또한, 학습부(122) 및 획득부(123)는 하나의 서버에 탑재될 수도 있으며, 또는 별개의 서버들에 각각 탑재될 수도 있다. 예를 들어, 학습부(122) 및 획득부(123) 중 하나는 제1 서버에 포함되고, 나머지 하나는 제2 서버에 포함될 수 있다. 또한, 학습부(122) 및 획득부(123)는 유선 또는 무선으로 통하여, 학습부(122)가 구축한 모델 정보를 획득부(123)로 제공할 수도 있고, 획득부(123)로 입력된 데이터가 추가 학습 데이터로서 학습부(122)로 제공될 수도 있다.
또한, 인공지능 모델은 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인공지능 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 인공지능 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있다. 인공지능 모델은 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 인공지능 모델은, 일 예로, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), LSTM(Long Short Term Memory network)과 같은 모델이 인공지능 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
도 9는 본 개시의 일 실시 예에 따른 지식 데이터베이스의 업데이트 동작을 설명하기 위한 도면이다. 이때, 지식 데이터베이스에 업데이트 되는 지식 정보는 도 6에 도시된 동작에 의해 획득된 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보일 수 있다.
우선, 전자 장치는 획득된 객체와 관련된 엔티티가 지식 데이터베이스에 존재하는지 여부를 판단할 수 있다. 이때, 도 9에 도시된 바와 같이, 획득된 객체인 'AA 국수 가게 강남점'과 관련된 엔티티인 'AA 국수 가게'가 지식 데이터베이스에 존재하는 경우, 전자 장치는 획득된 객체 및 객체에 대한 지식 정보(810)를 엔티티인 'AA 국수 가게'에 추가하여 지식 데이터베이스를 업데이트할 수 있다.
도 9에서는 설명의 편의를 위하여 엔티티를 'AA 국수 가게'만인 것으로 한정하여 도시 및 설명하였으나, 실제 구현시에는 지식 데이터베이스에서 'AA 국수 가게'뿐만 아니라, '주말' 및 '조용'과 관련된 엔티티를 검색하여 지식 정보를 업데이트할 수도 있다.
한편, 획득된 객체인 'AA 국수 가게 강남점'과 관련된 엔티티가 지식 데이터베이스에 존재하지 않는 경우, 전자 장치는 'AA 국수 가게 강남점'에 대응되는 새로운 엔티티를 생성하여 지식 데이터베이스를 업데이트할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치가 사용자 문의에 대한 응답을 출력하는 동작을 설명하기 위한 도면이다.
도 10을 참조하면, 사용자(10)가 사용자 문의를 입력하면, 음성 쿼리화 모듈(910) 입력된 사용자 문의 음성으로부터 사용자 의도와 관련된 쿼리를 획득할 수 있다. 이때, 음성 쿼리화 모듈(910)은 사용자 문의가 입력되는 시점의 컨텍스트 정보를 더 이용하여 사용자 음성으로부터 쿼리를 획득할 수 있다. 여기서, 쿼리에는 사용자 문의와 관련된 객체 및 객체에 대한 조건 정보를 획득할 수 있다. 이때, 음성 쿼리화 모듈(910)은 Random Forest, logistic regression 등 다양한 기계 학습 기법을 활용하여 객체 및 조건 정보를 획득할 수 있다.
그리고, 지식 데이터베이스 검색 모듈(420)은 음성 쿼리화 모듈(910)에서 획득된 객체 및 객체에 대한 조건 정보를 바탕으로 지식 데이터베이스(430)에서 타겟 엔티티를 검색할 수 있다. 이때, 지식 데이터베이스(430)는 이전 입력된 사용자 음성 및 사용자 음성 입력 시점의 컨텍스트 정보에 기초하여 업데이트된 것일 수 있다.
지식 데이터베이스 검색 모듈(420)은 지식 데이터베이스(430)에 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 구체적으로, 지식 데이터베이스 검색 모듈(420)은 Probabilistic logistic regression 등의 기계 학습 기법, LSTM 등 딥 러닝 기법 등을 활용하여 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 그리고, 지식 데이터베이스 검색 모듈(420)은 엔티티 검색 결과와 객체에 대한 조건 정보를 지식 쿼리 모듈(920)로 출력할 수 있다.
지식 쿼리 모듈(920)은 지식 데이터베이스 검색 모듈(420)롤부터 획득된 엔티티 및 조건 정보를 바탕으로 쿼리 결과를 획득할 수 있다. 그리고, 지식 쿼리 모듈(920)은 사용자 문의와 관련된 쿼리 및 조건 정보를 획득된 엔티티에 대한 정보에 추가하여 지식 데이터베이스(430)를 업데이트할 수 있다.
그리고, 지식 쿼리 모듈(920)은 획득된 쿼리 결과를 사용자(10)에게 제공할 수 있다.
도 11은 본 개시의 일 실시 예에 따른 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 흐름도이다.
도 11을 참조하면, 전자 장치는 사용자 음성이 입력되면, 입력된 사용자 음성으로부터 키워드를 추출할 수 있다(S1010). 구체적으로, 전자 장치는 사용자 음성을 음성 인식 모듈에 입력하여 텍스트로 변환하고, 변환된 텍스트에서 명사, 대명사, 형용사 등을 키워드로 추출할 수 있다.
그리고, 전자 장치는 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득할 수 있다(S1020). 이때, 컨텍스트 정보는 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 포함할 수 있다. 이러한 컨텍스트 정보는, 전자 장치에 구비된 GPS 센서, 외부 서버, 기저장된 일정 정보 등에서 획득될 수 있다.
그리고, 전자 장치는 추출된 키워드 및 컨텍스트 정보에 기초하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수 있다(S1030). 예를 들어, 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 사용자 음성이 입력된 장소와 관련된 객체를 획득할 수 있다. 다른 실시 예로, 전자 장치는 날씨 정보를 바탕으로 객체에 대한 사용자의 선호 정보를 지식 정보로 획득할 수 있다. 이때, 실시 예에 따라 전자 장치는 인공지능 모델을 이용하여 객체 및 객체에 대한 지식 정보 중 적어도 하나를 획득할 수 있다.
그리고, 전자 장치는 획득된 객체 및 객체에 대한 지식 정보에 기초하여 지식 데이터베이스를 업데이트할 수 있다(S1040). 구체적으로, 전자 장치는 획득된 객체와 관련된 엔티티가 지식 데이터베이스에 존재하는지 여부를 판단할 수 있다. 이때, 지식 데이터베이스에 획득된 객체와 관련된 엔티티가 존재하면, 전자 장치는 엔티티에 획득된 객체에 대한 지식 정보를 추가하여 지식 데이터베이스를 업데이트할 수 있다. 한편, 지식 데이터베이스에 획득된 객체와 관련된 엔티티가 존재하지 않으면, 전자 장치는 획득된 객체와 대응되는 새로운 엔티티를 생성하여 저장함으로써 지식 데이터베이스를 업데이트할 수 있다.
도 11에 도시되지는 않았지만, 이후 사용자 문의가 입력되면, 전자 장치는 업데이트된 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 획득하고, 획득된 응답을 출력할 수 있다.
상술한 바와 같은 본 개시의 다양한 실시 예에 따르면, 사용자 음성이 수신되는 시점의 컨텍스트 정보를 이용함으로 인해, 사용자가 추상적인 용어를 이용하여 발화하였음에도 불구하고, 사용자의 의도를 정확히 파악하고, 지식 데이터베이스에 기저장된 엔티티에 대한 업데이트를 수행할 수 있으므로, 추후 사용자 문의가 입력된 경우 보다 정확한 응답 제공이 가능하게 된다.
한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (15)

  1. 전자 장치에 있어서,
    마이크;
    적어도 하나의 명령을 포함하는 메모리; 및
    상기 마이크 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,
    상기 프로세서는, 상기 적어도 하나의 명령을 실행함으로써,
    상기 마이크를 통해 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하고,
    상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하고,
    상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하고,
    상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 상기 메모리에 저장된 지식 데이터베이스를 업데이트하는 전자 장치.
  2. 제1항에 있어서,
    상기 지식 데이터베이스는,
    지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장하는 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고,
    상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트하는 전자 장치.
  4. 제2항에 있어서,
    상기 프로세서는,
    상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트하는 전자 장치.
  5. 제1항에 있어서,
    상기 메모리는,
    상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 인공지능 모델을 더 포함하고,
    상기 프로세서는,
    상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    사용자 문의가 입력되면, 상기 업데이트된 지식 데이터베이스를 이용하여 상기 사용자 문의에 대한 응답을 획득하고, 상기 획득된 응답을 출력하는 전자 장치.
  7. 제1항에 있어서,
    통신 인터페이스;를 더 포함하고,
    상기 프로세서는,
    상기 통신 인터페이스를 통해 외부 서버에 상기 업데이트된 지식 데이터베이스를 전송하고, 상기 외부 서버로부터 타 사용자의 지식 데이터베이스를 수신받는 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 상기 컨텍스트 정보로 획득하는 전자 장치.
  9. 제8항에 있어서
    GPS 센서;를 더 포함하고,
    상기 프로세서는,
    상기 사용자 음성이 입력된 시점에 상기 GPS 센서에 의해 센싱된 위치 정보를 상기 컨텍스트 정보로 획득하고,
    상기 추출된 키워드, 상기 획득된 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 상기 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득하는 전자 장치.
  10. 제8항에 있어서,
    통신 인터페이스;를 더 포함하고,
    상기 프로세서는,
    상기 통신 인터페이스를 통해 외부 서버로부터 상기 사용자 음성이 입력된 시점의 날씨 정보를 상기 컨텍스트 정보로 획득하고,
    상기 추출된 키워드 및 상기 획득된 날씨 정보에 기초하여 상기 객체에 대한 사용자의 선호 정보를 상기 지식 정보로 획득하는 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하는 단계;
    상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하는 단계;
    상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계; 및
    상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 기저장된 지식 데이터베이스를 업데이트하는 단계;를 포함하는 전자 장치의 제어 방법.
  12. 제11항에 있어서,
    상기 지식 데이터베이스는,
    지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장하는 전자 장치의 제어 방법.
  13. 제12항에 있어서,
    상기 업데이트하는 단계는,
    상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트하는 전자 장치의 제어 방법.
  14. 제12항에 있어서,
    상기 업데이트하는 단계는,
    상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트하는 전자 장치의 제어 방법.
  15. 제11항에 있어서,
    상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 기저장된 인공지능 모델을 학습하는 단계;를 더 포함하고,
    상기 객체 및 상기 객체에 대한 지식 정보를 획득하는 단계는,
    상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득하는 전자 장치의 제어 방법.
PCT/KR2020/000261 2019-03-07 2020-01-07 전자 장치 및 이의 제어 방법 WO2020180001A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/299,061 US20220059088A1 (en) 2019-03-07 2020-01-07 Electronic device and control method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190026159A KR20200115695A (ko) 2019-03-07 2019-03-07 전자 장치 및 이의 제어 방법
KR10-2019-0026159 2019-03-07

Publications (1)

Publication Number Publication Date
WO2020180001A1 true WO2020180001A1 (ko) 2020-09-10

Family

ID=72338731

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/000261 WO2020180001A1 (ko) 2019-03-07 2020-01-07 전자 장치 및 이의 제어 방법

Country Status (3)

Country Link
US (1) US20220059088A1 (ko)
KR (1) KR20200115695A (ko)
WO (1) WO2020180001A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105493A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 基于语义识别的数据查询方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7478610B2 (ja) * 2020-07-06 2024-05-07 株式会社日立製作所 情報検索装置
CN116383620B (zh) * 2023-03-29 2023-10-20 北京鹅厂科技有限公司 一种应用多模态人工智能的方法与装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148118A (ja) * 2005-11-29 2007-06-14 Infocom Corp 音声対話システム
KR20130021136A (ko) * 2011-08-22 2013-03-05 현대모비스 주식회사 온톨로지 기반 음성인식 검색 시스템 및 방법
KR20140034034A (ko) * 2012-09-10 2014-03-19 구글 인코포레이티드 환경 콘텍스트를 이용한 질문 답변
KR20150090966A (ko) * 2014-01-29 2015-08-07 삼성전자주식회사 전자 장치 및 전자 장치의 검색 결과 제공 방법
KR20180022156A (ko) * 2016-08-23 2018-03-06 포항공과대학교 산학협력단 대화 관리 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170337232A1 (en) * 2016-05-19 2017-11-23 Fifth Dimension Holdings Ltd. Methods of storing and querying data, and systems thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148118A (ja) * 2005-11-29 2007-06-14 Infocom Corp 音声対話システム
KR20130021136A (ko) * 2011-08-22 2013-03-05 현대모비스 주식회사 온톨로지 기반 음성인식 검색 시스템 및 방법
KR20140034034A (ko) * 2012-09-10 2014-03-19 구글 인코포레이티드 환경 콘텍스트를 이용한 질문 답변
KR20150090966A (ko) * 2014-01-29 2015-08-07 삼성전자주식회사 전자 장치 및 전자 장치의 검색 결과 제공 방법
KR20180022156A (ko) * 2016-08-23 2018-03-06 포항공과대학교 산학협력단 대화 관리 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022105493A1 (zh) * 2020-11-17 2022-05-27 深圳壹账通智能科技有限公司 基于语义识别的数据查询方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20200115695A (ko) 2020-10-08
US20220059088A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
WO2020080834A1 (en) Electronic device and method for controlling the electronic device
WO2019182346A1 (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
WO2019098573A1 (en) Electronic device and method for changing chatbot
WO2020091503A1 (en) Electronic apparatus and control method thereof
US11289074B2 (en) Artificial intelligence apparatus for performing speech recognition and method thereof
WO2020180001A1 (ko) 전자 장치 및 이의 제어 방법
WO2020085796A1 (en) Electronic device and method for controlling electronic device thereof
WO2019132410A1 (en) Electronic device and control method thereof
WO2020166896A1 (en) Electronic apparatus and controlling method thereof
KR102515023B1 (ko) 전자 장치 및 그 제어 방법
KR20200048201A (ko) 전자 장치 및 이의 제어 방법
WO2019216732A1 (ko) 전자 장치 및 이의 제어 방법
EP3523710A1 (en) Apparatus and method for providing sentence based on user input
WO2019164144A1 (ko) 전자 장치 및 이의 자연어 생성 방법
WO2018101671A1 (en) Apparatus and method for providing sentence based on user input
WO2019135534A1 (ko) 전자 장치 및 그의 제어 방법
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
WO2020071697A1 (ko) 전자 장치 및 이의 제어 방법
WO2020096255A1 (en) Electronic apparatus and control method thereof
EP3785258A1 (en) Electronic device and method for providing or obtaining data for training thereof
WO2020071854A1 (en) Electronic apparatus and control method thereof
WO2019190096A1 (ko) 사용자 음성 입력을 처리하는 장치
WO2020060311A1 (en) Electronic device and method for providing or obtaining data for training thereof
WO2020050554A1 (ko) 전자 장치 및 그의 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20767261

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20767261

Country of ref document: EP

Kind code of ref document: A1