WO2022092721A1 - 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 - Google Patents

대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 Download PDF

Info

Publication number
WO2022092721A1
WO2022092721A1 PCT/KR2021/014951 KR2021014951W WO2022092721A1 WO 2022092721 A1 WO2022092721 A1 WO 2022092721A1 KR 2021014951 W KR2021014951 W KR 2021014951W WO 2022092721 A1 WO2022092721 A1 WO 2022092721A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
common information
nlu model
electronic device
target word
Prior art date
Application number
PCT/KR2021/014951
Other languages
English (en)
French (fr)
Inventor
이연호
김문조
박상욱
신영빈
여국진
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to CN202180066727.8A priority Critical patent/CN116324976A/zh
Priority to EP21886715.8A priority patent/EP4167230A4/en
Priority to US17/536,907 priority patent/US20220138427A1/en
Publication of WO2022092721A1 publication Critical patent/WO2022092721A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Definitions

  • the present disclosure relates to a system and method for providing a voice assistant service related to text including a substitute word, for example, providing a voice assistant service related to text including a substitute word based on common information about a target word It relates to a system and method for
  • a user can receive various services using a device.
  • voice recognition technology develops, a user may input a voice (eg, utterance) into a device and receive a response according to the voice input.
  • An embodiment of the present disclosure uses a plurality of NLU models to provide a voice assistant for a text including a surrogate, in which common information representing a target word included in the user's text can be used to interpret the surrogate in another text.
  • Systems and methods for providing services may be provided.
  • an embodiment of the present disclosure identifies a target word in a text using an NLU model used to identify a domain of a text, and provides a domain-specific voice assistant service using common information indicating the identified target word.
  • a system and method for providing a voice assistant service regarding text that includes a proximate term may be provided.
  • embodiments of the present disclosure identify target words in text using an NLU model used to identify domains of text, and allow common information representing the identified target words to be used in a plurality of different NLU models.
  • a system and method for providing a voice assistant service related to text including a substitute word may be provided.
  • an embodiment of the present disclosure provides a system and method for providing a voice assistant service regarding text including a surrogate, capable of modifying common information representing a target word using an NLU model used to interpret the text. can do.
  • a first aspect of the present disclosure includes an operation of obtaining a first text generated from a first input; detecting a target word in the first text using a first NLU model and generating common information about the detected target word; obtaining a second text generated from the user's second input; inputting the common information and the second text into a second NLU model; detecting a substitute word included in the second text using the second NLU model and outputting an intent and a parameter based on common information corresponding to the detected substitute word; and generating response information related to the intent and the parameter.
  • a second aspect of the present disclosure provides a communication interface comprising circuit elements for communicating with an electronic device; a storage unit for storing one or more instructions; by executing the one or more stored commands, a server obtains a first text generated from a first input of a user input to the device, detects a target word in the first text by using a first NLU model, generating common information about the target word, obtaining a second text generated from the user's second input, inputting the common information and the second text into a second NLU model, and generating the second NLU model using to detect a substitute included in the second text, obtain an intent and a parameter based on common information corresponding to the detected substitute, and generate response information related to the intent and the parameter, It is possible to provide a server that provides a voice assistant service, including a processor.
  • a third aspect of the present disclosure may provide a computer-readable recording medium in which a program for executing the method of the first aspect is recorded on a computer.
  • FIG. 1 is a diagram illustrating an example of a system for providing a voice assistant service according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram of a second electronic device 2000 according to an embodiment of the present disclosure.
  • 3 is a diagram illustrating an example in which the common information management module 2312 generates common information from a first text according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating an example of a domain corresponding to a text including a target word according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an example of common information corresponding to a target word according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating an example in which common information corresponding to a substitute word in a second text is obtained according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart of a method of generating common information for a first text and providing a response to the first text by the second electronic device 2000 according to an embodiment of the present disclosure.
  • FIG. 8 is a flowchart of a method of generating common information on a second text and providing a response to the second text by the second electronic device 2000 according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating an example in which an analysis result of the second text in consideration of common information is output from the second NLU model 2332 according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating an example of replacing a part of an output value of the second NLU model 2332 with common information according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating an example in which common information is generated and used according to an embodiment of the present disclosure.
  • 12A is a diagram illustrating an example in which some of the same type of common information is selected and stored in consideration of a result of providing a voice assistant service according to an embodiment of the present disclosure.
  • 12B is a diagram illustrating an example in which some of different types of common information are selected and stored in consideration of a result of providing a voice assistant service according to an embodiment of the present disclosure.
  • 12C is a diagram illustrating an example in which some of common information is stored based on a result of providing a voice assistant service and an additional input from a user according to an embodiment of the present disclosure.
  • the expression “at least one of a, b or c” means “a”, “b”, “c”, “a and b”, “a and c”, “b and c”, “a, b” and c all", or variations thereof.
  • the voice assistant service may include a service providing a conversation with a user.
  • the device may provide a response message to the user as if a person was talking directly with the user in consideration of the user's situation, the device's situation, and the like.
  • information required by the user such as the user's personal assistant, may be appropriately generated and provided to the user.
  • the voice assistant service includes, for example, a broadcasting service, a content sharing service, a content providing service, a power management service, a game providing service, a chatting service, a document creation service, a search service, a call service, a photo taking service, a transportation method recommendation service, and
  • a broadcasting service for example, a broadcasting service, a content sharing service, a content providing service, a power management service, a game providing service, a chatting service, a document creation service, a search service, a call service, a photo taking service, a transportation method recommendation service, and
  • a broadcasting service includes, for example, a broadcasting service, a content sharing service, a content providing service, a power management service, a game providing service, a chatting service, a document creation service, a search service, a call service, a photo taking service, a transportation method recommendation service, and
  • the user may provide necessary information or function to the user, but is not limited thereto.
  • the domain may refer to, for example, a field to which a user input input to a device is related, and may be preset, for example, according to the meaning of the user input, attributes of the user input, and the like.
  • the domain may be classified according to, for example, a service related to a user input or an application that performs an operation related to a user input.
  • an NLU model and an NLG model (each of which may include various processing circuitry and/or executable program instructions) may be trained.
  • the user input may include, for example, a voice input, a text input, and an image input, but is not limited thereto, and may include any type of input that may be input from the user for the voice assistant service.
  • the target word may refer to a word that can be a reference target of a substitute word, and may include, for example, a word representing a location, a word representing a date, a word representing a time, and a word representing a person. not limited
  • the common information corresponding to the target word may include data that can be commonly identified by a plurality of voice assistant modules as detailed data for identifying the target word.
  • the common information may, for example, have a format that can be commonly identified by a plurality of voice assistant modules.
  • the common information corresponding to “Seoul” may be data representing a GPS coordinate value indicating the location of Seoul.
  • the target word is “Tom” and the common information type is “person”
  • the common information corresponding to “Tom” is an identifier (eg, User ID, phone number) that can identify Tom. number, name, etc.).
  • the target word is “Christmas” and the common information type is “Time/Date”
  • the common information corresponding to “Christmas” may be data indicating December 25th.
  • Such common information may be classified into a plurality of types according to preset substitute terms.
  • the type of common information corresponding to the target word may include, but is not limited to, “Location”, “Date/Time”, and “Person”.
  • the types of common information corresponding to the target word may be classified according to preset criteria, and substitute words corresponding to the types of common information may be preset. For example, when the type of common information is “Location”, proxies corresponding to “Location” may include there, near there, that place, and the like. Also, for example, when the type of common information is “Date/Time”, substitute terms corresponding to “Date/Time” may include that time, the date, and the like. . Also, for example, when the type of common information is “Person”, proxies corresponding to “Person” may include the person (he, him, his), her (she, her), and the like.
  • FIG. 1 is a diagram illustrating an example of a system for providing a voice assistant service according to an embodiment of the present disclosure.
  • a system providing a voice assistant service may include a first electronic device 1000 and a second electronic device 2000 .
  • the first electronic device 1000 may provide text according to a user's input to the second electronic device 2000 , receive response information provided from the second electronic device 2000 , and provide response information to the user. there is.
  • the first electronic device 1000 may execute an application providing a voice assistant service, receive a user input through functions provided by the executed application, and provide a response message and a response operation to the user.
  • the second electronic device 2000 receives the first text according to the user input from the first electronic device 1000 , detects a target word included in the first text, generates common information indicating the detected target word, and can be saved
  • the common information indicating the target word may be used by a plurality of voice assistant modules in the second electronic device 2000, and the plurality of voice assistant modules in the second electronic device 2000 are connected to a plurality of domains for a voice assistant service. It may be a specialized module.
  • the second electronic device 2000 detects a substitute word included in the second text from the second text according to a user input after the first text, and uses common information indicating a target word corresponding to the substitute word.
  • Voice assistant service can be provided through the voice assistant module specialized in the domain of text.
  • the first electronic device 1000 and the second electronic device 2000 are a smart phone, a tablet PC, a PC, a smart TV, a mobile phone, a personal digital assistant (PDA), a laptop, a media player, a micro server, and a global positioning system (GPS). ) devices, e-book terminals, digital broadcast terminals, navigation devices, kiosks, MP3 players, digital cameras, home appliances, and other mobile or non-mobile computing devices, but is not limited thereto.
  • the first electronic apparatus 1000 and the second electronic apparatus 2000 may include wearable devices such as watches, glasses, hair bands, and rings having communication functions and data processing functions.
  • at least one of the first electronic device 1000 and the second electronic device 2000 may be a server device.
  • the present invention is not limited thereto, and the first electronic device 1000 and the second electronic device 2000 may include all types of devices capable of providing a voice assistant service by interworking with each other.
  • a network for communicatively connecting the first electronic device 1000 and the second electronic device 2000 is, for example, a local area network (LAN), a wide area network (WAN), or a value-added network (Value). It may be implemented as a wired network such as an Added Network (VAN), or any type of wireless network such as a mobile radio communication network or a satellite communication network, but is not limited thereto.
  • the network includes at least two of a local area network (LAN), a wide area network (WAN), a value added network (VAN), a mobile radio communication network, or a satellite communication network. It may include a combination, and may include a data communication network in a comprehensive sense that enables each of the networks shown in FIG.
  • Wireless communication is, for example, wireless LAN (Wi-Fi), Bluetooth, Bluetooth low energy, Zigbee, WFD (Wi-Fi Direct), UWB (ultra wideband), infrared communication (IrDA, infrared Data Association) ), NFC (Near Field Communication), etc. may be there, but is not limited thereto.
  • FIG. 2 is a block diagram of a second electronic device according to an embodiment of the present disclosure.
  • the second electronic device 2000 includes a communication interface (eg, including a communication circuit element) 2100 , a processor 2200 , and a storage unit (eg, a memory) 2300 .
  • the storage unit 2300 may include various executable program instructions including, for example, a common information management module 2310 , at least one voice assistant module 2330 , and a DB 2340 .
  • the communication interface 2100 may include one or more components including various communication circuit elements for communication with the first electronic device 1000 .
  • the communication interface 2100 may transmit/receive information necessary for providing the voice assistant service to the first electronic device 1000 with the first electronic device 1000 .
  • the communication interface 2100 may communicate with another device (not shown) and another server (not shown) to provide a voice assistant service.
  • the communication interface 2100 may include a short-distance communication unit, a mobile communication unit, and a broadcast receiving unit.
  • Short-range wireless communication unit (151), Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
  • the mobile communication unit transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call signal, or a text/multimedia message.
  • the broadcast receiver receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the processor 2200 may include various processing circuit elements and controls the overall operation of the second electronic device 2000 .
  • the processor 2200 may control the function of the second electronic device 2000 for providing the voice assistant service in the present specification by executing programs stored in the storage unit 2300 , which will be described later.
  • the storage unit 2300 may store a program for processing and controlling the processor 2200 .
  • Storage unit 3300 is a flash memory type (flash memory type), hard disk type (hard disk type), multimedia card micro type (multimedia card micro type), card type memory (for example, SD or XD memory, etc.), RAM (Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic It may include at least one type of storage medium among a disk and an optical disk.
  • Programs stored in the storage 2300 may be classified into a plurality of modules according to their functions, and may include, for example, a common information management module 2310 and a voice assistant module 2330 .
  • the common information management module 2310 may analyze the text generated from the user input, identify a domain related to the text and a target word in the text, and generate and manage common information related to the identified target word.
  • the common information management module 2310 may accumulate and store the generated common information in a common information DB 2341 to be described later, and the voice assistant module 2330 to be described later may use the common information to interpret the second text.
  • the target word may refer to, for example, a word that can be a referent of a proximate, and includes, for example, a word representing a location, a word representing a date, a word representing a time, and a word representing a person. can, but is not limited thereto.
  • the common information management module 2310 includes, for example, the domain identification module 2311 , the target word identification module 2312 , the first NLU model 2313 , the common information generation module 2314 , and the common information selection module. It may include various modules containing various executable program instructions including 2315 and a common information modification module 2316 .
  • the second electronic device 2000 uses an Automatic Speech Recognition (ASR) model for recognizing the user's voice (not shown). city) may be further included.
  • ASR Automatic Speech Recognition
  • the domain identification module 2311 may identify a domain related to text.
  • the domain identification module 2311 may identify the domain of the text by analyzing the text generated from the user input using the first NLU model 2313, which will be described later.
  • the domain identification module 2311 may identify the domain of the text based on an output value output from the first NLU model 2313 .
  • the first text “How's the weather in London?” is input to the first NLU model 2313, and the output value that the domain of the first text is "Weather” may be output from the first NLU model 2313.
  • the domain identification module 2311 may identify that the domain of the first text is “Weather” based on the output value output from the first NLU model 2313 .
  • the second text “What time is it there?” is input to the first NLU model 2313, and the domain of the second text is “Time” from the first NLU model 2313. may be output, and the domain identification module 2311 may identify that the domain of the second text is “Time” based on the output value output from the first NLU model 2313 .
  • the target word identification module 2312 may identify a target word in the text and information related to the target word.
  • the target word identification module 2312 may identify the target word and the type of common information corresponding to the target word by analyzing the text generated from the user input using a first NLU model 2313 to be described later.
  • the target word identification module 2312 may identify a target word and a type of common information corresponding to the target word based on an output value output from the first NLU model 2313 .
  • the target word in the first text from the first NLU model 2313 is “London” and the common of “London” is An output value indicating that the type of information is “location” may be output, and the target word identification module 2312 determines that the target word in the first text is “London” based on the output value output from the first NLU model 2313 . , and it can be identified that the type of common information corresponding to “London” is “location”.
  • domain identification module 2311 and the target word identification module 2312 are separate modules, the present invention is not limited thereto.
  • a domain related to text, a target word, and a type of common information corresponding to the target word may be identified by one module.
  • the first NLU model 2313 may analyze the text generated from the user input, and output the domain and target word of the text based on the analysis result. Also, the first NLU model 2313 may output a type of common information corresponding to a target word included in the text from the text generated from the user input. An output value output from the first NLU model 2313 may be used by the domain identification module 2311 and the target word identification module 2312 .
  • the first NLU model 2313 may be an artificial intelligence model trained to interpret the text to identify a domain and a target word corresponding to the text.
  • the first NLU model 2313 may be, for example, a model trained using training data for a text domain tagged with a common information type.
  • the input value of the first NLU model 2313 may be text generated from user input, and the output value of the first NLU model 2313 is the domain of the target word and text tagged with the type of common information. can, but is not limited thereto.
  • the common information generation module 2314 may generate common information corresponding to the target word.
  • the common information generating module 2314 may generate detailed data representing the target word as common information, and the common information may be generated according to a format that can be commonly identified by the plurality of voice assistant modules 2330 . For example, when the target word is “Seoul” and the common information type is “location”, the common information generating module 2314 collects a plurality of GPS coordinate values indicating the location of Seoul as common information corresponding to “Seoul”.
  • the common information generating module 2314 can be created in a format that can be commonly identified in the NLU model of For example, when the target word is “Tom” and the common information type is “person”, the common information generating module 2314 generates a plurality of identifiers for identifying Tom as common information corresponding to “Tom”. It can be generated in a format that can be commonly identified in the NLU model. For example, when the target word is “Christmas” and the common information type is “Time/Date”, the common information generation module 2314 sets December 25 as common information corresponding to “Christmas” to a plurality of NLUs. It can be created in a format that can be commonly identified in the model.
  • the common information generating module 2314 may select one target word corresponding to the type of common information according to a preset criterion.
  • a target word may be selected, and common information about the selected target word may be generated.
  • the text “Tell me the way from Seoul Station to Busan Station” may include “Seoul Station” and “Busan Station” as target words corresponding to “location”, which is a type of common information.
  • a common information generation criterion may be set so that a higher priority is given to the destination than the departure, and the common information generation module 2314 generates common information for “Busan Station”, which is the destination rather than “Seoul Station,” which is the departure.
  • the present invention is not limited thereto, and the common information generating module 2314 generates a plurality of pieces of common information respectively corresponding to a plurality of target words, and as common information corresponding to a substitute word included in the following text, a plurality of common information At least one of them may be selected.
  • the common information generation module 2314 may generate a plurality of pieces of common information corresponding to one target word. For example, with respect to the target word “Christmas” in which the type of common information is “Time/Date”, the common information generation module 2314 sets the identification value indicating “Christmas” and “December 25” to “Christmas” It can be generated as corresponding common information.
  • the common information generation module 2314 may store the generated common information in the common information DB 2341 .
  • the common information generating module 2314 may accumulate and store common information related to a target word in the text according to the order in which the text is acquired.
  • the common information generation module 2314 may store the generated common information in association with a type of common information, a domain to which the common information is related, a target word corresponding to the common information, and attributes of the common information.
  • at least one of the order in which the common information is stored, the domain to which the common information is related, the target word corresponding to the common information, and the properties of the common information is determined by the common information selection module 2315, which will be described later, in the text obtained later. It can be used to select common information corresponding to a term.
  • the common information generating module 2314 may store common information corresponding to a preset number of target words for one common information type. For example, so that only one common information corresponding to the type of common information “location” is stored, and after the common information corresponding to “location” is stored, from text inputted after the common information corresponding to another target word corresponding to “location” is stored, When the common information is generated, the previously stored common information may be deleted and common information corresponding to another target word may be stored.
  • the common information selection module 2315 may select common information for interpretation of the second text from among the common information stored in the common information DB 2341 .
  • the common information selection module 2315 selects common information stored in relation to the identified domain from the common information DB 2341, and the selected common information will be described later. It may be provided to the common information conversion module 2331 to be used.
  • the common information selection module 2315 may provide all or part of the common information stored in the common information DB 2341 to the common information conversion module 2331 irrespective of the domain of the second text.
  • the common information selection module 2315 selects some common information
  • the common information selection module 2315 selects a preset number of recently stored common information among the common information stored in the common information DB 2341 as common information. may be selected to provide to the transformation module 2331 . In this case, the common information provided to the common information conversion module 2331 may be converted by the common information conversion module 2331 and input to the second NLU model 2332 together with the second text.
  • the common information selection module 2315 sets common information corresponding to the identified substitute word to the common information DB 2341 ) and may provide the selected common information to the common information conversion module 2331 .
  • common information is converted and input to the second NLU model 2332 together with the second text, or a substitute word among the output values output from the second NLU model 2332 with the second text as an input Common information can be used to replace the value corresponding to .
  • the common information correction module 2316 may modify common information stored in the common information DB 2341 .
  • the common information correction module 2316 may modify common information stored in the common information DB 2341 based on the output value of the first NLU model 2313 .
  • common information corresponding to the target word in the second text may be generated by the common information generation module 2315 .
  • the common information correction module 2316 may replace the common information stored in the common information DB 2341 with common information corresponding to the target word in the second text.
  • the common information modification module 2316 may modify common information having the same domain and common information type as the domain and common information type of the target word in the second text.
  • common information corresponding to the target word 'London' may be stored in the common information DB 2341 in association with the weather domain and the common information type location.
  • the second text “How is the weather in Seoul instead?” may be input to the first NLU model 2313 .
  • common information corresponding to the target word 'Seoul' in the second text may be generated in association with the weather domain and the common information type location.
  • the common information correction module 2316 may replace common information corresponding to 'London' stored in the common information DB 2341 with common information corresponding to 'Seoul'.
  • the common information correction module 2316 may modify common information stored in the common information DB 2341 based on the output value of the second NLU model 2332 .
  • the common information correction module 2316 identifies a target word in the text using the output value output from the second NLU model 2332 , and common information indicating the target word is identical to the common information stored in the common information DB 2341 . can be judged whether When the common information indicating the target word identified by the common information correction module 2316 is different from the common information stored in the common information DB 2341 , the common information correction module 2316 is configured to display the common information stored in the common information DB 2341 . You can edit the information.
  • common information corresponding to the target word may be modified based on parameters related to the target word output from the second NLU model 2332 .
  • the common information corresponding to the target word may be modified based on the meaning of the target word output from the second NLU model 2332 and the type of common information corresponding to the target word.
  • the type of common information corresponding to the target word “Seoul” included in the text is output as “Location”
  • the target word included in the text is output.
  • the common information correction module 2316 may add or modify common information corresponding to the target word “Seoul”.
  • the second NLU model 2332 may be a domain-specific model related to text, and by generating or modifying common information using the second NLU model 2332, more accurate common information with respect to the target word in the text can be stored in the common information DB (2341).
  • the common information correction module 2316 may add or modify common information stored in the common information DB 2341 based on data transmitted and received with the user through the voice assistant service.
  • the common information correction module 2316 may include, for example, a text generated from a user input, a response message generated through an NLG model 2335 to be described later, and the first electronic device 1000 or other device ( Common information stored in the common information DB 2341 may be added or modified based on at least one of the functions of (not shown).
  • the voice assistant module 2330 may interpret the text generated from the user input and generate response information for the text.
  • the voice assistant module 2330 is a module specialized for a specific domain, and the second electronic device 2000 may include a plurality of voice assistant modules 2330 for a plurality of domains.
  • the second electronic device 2000 may interpret the text using the voice assistant module 2330 specialized in the domain of the text. For example, if the domain of the text is determined to be “Weather” by the domain identification module 2311, a voice assistant module 2330 specialized for the domain “Weather” may be used to interpret the text. Also, when the domain of the text is determined to be “Clock” by the domain identification module 2311, a voice assistant module 2330 specialized for “Clock” may be used to interpret the text.
  • the voice assistant module 2330 may include a common information conversion module 2331 , a second NLU model 2332 , a proxy identification module 2333 , a response information generation module 2334 , and an NLG model 2335 .
  • the common information conversion module 2331 may convert common information to interpret the second text.
  • the common information conversion module 2331 may convert at least some of the common information stored in the common information DB 2341 into a format that can be processed by the voice assistant module 2330 .
  • the converted common information may be used to interpret the second text including the substitute word.
  • the voice assistant module 2330 may interpret the text generated from the user input using the second NLU model 3332 .
  • the second NLU model 3332 may interpret the text to output intents and parameters related to the user's intention.
  • the intent is information determined by interpreting text using the second NLU model 2332 , and may represent, for example, a user's intention.
  • the intent may include not only intention information indicating the user's intention, but also a numerical value corresponding to the information indicating the user's intention.
  • the numerical value may indicate a probability that the text is associated with information indicating a particular intent.
  • intention information having the largest numerical value corresponding to each intention information is the intent.
  • the parameter may indicate detailed information related to the intent.
  • a parameter is information related to an intent, and a plurality of types of parameters may correspond to one intent.
  • the voice assistant module 2330 may interpret the second text through the second NLU model 2332 without determining whether a substitute word exists in the second text.
  • the second NLU model 2332 may interpret the second text by receiving common information and the second text, and the second NLU model 2332 is trained using the text including the common information and the surrogate. It may be an artificial intelligence model for interpreting texts that contain surrogate words. For example, in a state in which it is not determined whether a substitute word exists in the second text, the domain of the second text is identified by the domain identification module 2311 and common information related to the domain of the second text is converted to the common information conversion module If transformed by 2331 , the transformed common information and the second text may be input to the second NLU model 2332 .
  • the second NLU model 2332 can interpret the second text in consideration of common information corresponding to the proxies in the second text. For example, if the second text is “How is the weather there today?”, the common information and the second text associated with the weather domain may be input to the second NLU model 2332 , and the second NLU model 2332 . may output the intent of 'weather information provision' and parameters such as 'today (date)' and 'Busan (location)'.
  • the common information conversion module 2331 In a state in which it is not determined whether a substitute word exists in the second text, all or part of the common information stored in the common information DB 2341 is converted by the common information conversion module 2331 irrespective of the domain of the second text. , the converted common information may be input to the second NLU model 2332 together with the second text. Accordingly, the second NLU model 2332 can interpret the second text in consideration of common information corresponding to the proxies in the second text.
  • the second NLU model 2332 may output an intent of 'weather information provision' and parameters such as 'today (date)' and 'Busan (location)'.
  • the voice assistant module 2330 may identify a substitute in the second text and interpret the second text using common information related to the identified substitute.
  • the substitute word identification module 2333 may identify the substitute word in the second text by being executed by the processor 2200 .
  • the substitute word identification module 2333 may identify a substitute word in the second text based on a rule.
  • the substitute word identification module 2333 may identify a substitute in the second text by, for example, comparing preset substitute words with the second text. In this case, in order to identify a substitute word in the second text, preset substitute terms may be stored in advance in the DB 2340 .
  • the substitute word identification module 2333 may identify a substitute word in the second text by using an artificial intelligence model for identifying a substitute word.
  • the artificial intelligence model for identification of the proxy may be a model trained in advance for identification of the synonym, and the synonym identification module 2333 is based on the output value output from the artificial intelligence model for identification of the proxy.
  • a substitute word included in the second text may be identified.
  • a parameter 'Anaphora' may be output from the AI model
  • the synonym identification module 2333 may output the output parameter 'there ( Anaphora), it can be identified that 'there' in the text is a proximate.
  • the artificial intelligence model for identification of proxies may include, for example, a first NLU model 2313 , a second NLU model, or a separate model (not shown), but is not limited thereto.
  • the common information selection module 2315 selects common information related to the identified substitute word to provide the common information conversion module 2331 can
  • the common information selection module 2315 may select common information corresponding to a substitute word identified from text from among the common information stored in the common information DB 2341 .
  • the common information selection module 2315 may identify common information indicated by the substitute word from the common information DB 2341 based on the type of common information related to the substitute word included in the text and/or the domain related to the text.
  • common information about the “location” of the “Weather” domain generated from the first text is a GPS coordinate value of London, and the surrogate included in the second text obtained after the first text is “there”
  • the common information selection module 2315 may select, from the common information DB 2341 , a GPS coordinate value of London, which is common information corresponding to the substitute term “there,” based on the type of common information “location”.
  • the common information selection module 2315 may identify a target word corresponding to a substitute word and select common information corresponding to the target word. In this case, the common information selection module 2315 may select a target word corresponding to the substitute word from among target words identified from texts obtained before the second text including the substitute word is obtained. Also, the common information selection module 2315 may select common information corresponding to the selected target word. However, the present invention is not limited thereto, and the common information selection module 2315 may, for example, consider at least one of an order in which common information is stored, a domain to which common information is related, a target word corresponding to the common information, and an attribute of common information. , common information can be selected according to various criteria.
  • the common information selection module 2315 stores common information corresponding to the target word included in the following text. You can choose from information. In this case, the common information selection module 2315 considers the output value of the second NLU model 2332 to be described later, and stores common information corresponding to the substitute word included in the text into a plurality of common information stored in the common information DB 2341 . You can choose from information.
  • the common information selected by the common information selection module 2315 may be converted into a format usable by the voice assistant module 2330, which will be described later.
  • the common information selected by the common information selection module 2315 may be converted into a format usable by the voice assistant module 2330.
  • the voice assistant module 2330 may interpret the second text by inputting the common information and the second text into the second NLU model 2332 .
  • the voice assistant module 2330 may input the second text and common information corresponding to the proxies in the second text to the second NLU model 2332, and obtain an output value output from the second NLU model 2332.
  • the second NLU model 2332 may interpret the second text by receiving the second text and common information corresponding to the proxy in the second text, and the second NLU model 2332 corresponds to the proxy. It may be an artificial intelligence model for interpreting texts including synonyms, trained using texts including common information and proxies.
  • the converted common information and the second text may be input to the second NLU model 2332 .
  • the second NLU model 2332 can interpret the second text in consideration of common information corresponding to the proxies in the second text. For example, when the second text is “How is the weather there today?”, common information corresponding to 'there' and the second text may be input to the second NLU model 2332, and the second NLU model ( 2332) may output an intent of 'weather information provision' and parameters such as 'today (date)' and 'Busan (location)'.
  • both the second text and common information corresponding to the substitute word in the second text are input to the second NLU model 2332 , but the present invention is not limited thereto.
  • a proxy in the second text may be replaced with common information, and a second text in which the proxy is replaced with common information may be input to the second NLU model 2332 .
  • the voice assistant module 2330 inputs the second text to the second NLU model 2332 , and a parameter corresponding to a substitute word among the parameters output from the second NLU model 2332 . may be replaced with common information corresponding to the proxies.
  • the second NLU model 2332 may be an artificial intelligence model that receives the second text and interprets the second text. For example, when the second text is “How’s the weather there today?”, the second text may be input to the second NLU model 2332, and the second NLU model 2332 may indicate “providing weather information”. Parameters such as intent, 'today (date)', and 'there (Anaphora)' can be output. Also, the voice assistant module 2330 may replace 'Anaphora', which is a parameter representing a substitute word, with 'Location'.
  • the response information generation module 2334 may generate response information for the text based on the analysis result of the second text.
  • the response information is data related to a response to a text, for example, data provided to the first electronic device 1000 , another device (not shown), and another server (not shown) and the second electronic device 2000 . may include data for the operation of
  • the response information generating module 2334 performs an action of the second electronic device 2000 , the first electronic device 1000 , or another device (not shown) according to the user's intention based on the output value of the second NLU model 2332 . can plan them.
  • the response information generating module 2334 uses the text analysis result, the speech data stored in the speech data DB 2342 to be described later, and the action data stored in the action data DB 2343 to be described later, the user's intention Actions of the second electronic device 2000 , the first electronic device 1000 , or another device (not shown) according to the method may be planned.
  • the response information generation module 2334 generates response information for text by planning actions of the second electronic device 2000 , the first electronic device 1000 , or another device (not shown) according to the user's intention. can do.
  • the response information generating module 2334 may generate a response message according to the user's intention by using the NLG model 2335 . Also, for example, the response information generating module 2334 may acquire response content to be provided to the user, such as text, an image, and a video. Also, for example, the response information generating module 2334 determines operations of the user's first electronic device 1000 or another device (not shown), and the first electronic device 1000 or another device (not shown) You can create a control command to control the .
  • the DB 2340 may store information necessary for the voice assistant service.
  • the DB 2340 may include a common information DB 2341 , an utterance data DB 2342 , and an action data DB 2343 .
  • the common information DB 2341 may store common information corresponding to the target word.
  • the common information DB 2341 may accumulate and store common information related to a target word in the text according to the order in which the text is acquired. Also, for example, the common information DB 2341 may store the generated common information in association with a type of common information, a domain to which the common information is related, a target word corresponding to the common information, and attributes of the common information.
  • the utterance data DB 2342 may store utterance data related to functions of the first electronic apparatus 1000 and another device (not shown). The stored utterance data may be used to identify a function of the first electronic apparatus 1000 or another device (not shown) related to the text interpretation result.
  • the action data DB 2343 may store action data related to functions of the first electronic device 1000 and other first electronic devices 1000 .
  • the action data may be data regarding a series of detailed operations of the first electronic device 1000 corresponding to predetermined utterance data.
  • the action data may include information related to detailed operations to be performed by the device in response to predetermined speech data, a relationship between each detailed operation and other detailed operations, and an execution order of the detailed operations. .
  • the association relationship between the detailed operation and other detailed operations includes information on other detailed operations to be executed before the detailed operation is executed in order to execute one detailed operation. For example, when the action to be performed is “music play”, “power on” may be another detailed action to be executed before the “music play” action.
  • the action data may include, for example, functions to be executed by the target device in order to perform a specific operation, an execution order of the functions, an input value necessary to execute the functions, and an output value output as a result of the execution of the functions.
  • the present invention is not limited thereto.
  • the utterance data stored in the utterance data DB 2342 and the action data stored in the action data DB 2343 may be mapped to each other, and the second electronic device 2000 determines the user's intention from the text interpretation result. It may be used to plan operations of 2000 , operations of the first electronic apparatus 1000 , and operations of another device (not shown).
  • the second electronic device 2000 manages common information corresponding to a target word based on text based on a user input from the first electronic device 1000 and provides a voice assistant service.
  • the second electronic device 2000 does not receive the text from the first electronic device 1000 , but based on a user input input to the second electronic device 2000 , common information corresponding to a target word in the text. and can also provide voice assistant services.
  • the second electronic apparatus 2000 may be a server apparatus or a user's device, and at least some of the operations of the second electronic apparatus 2000 in FIG. 2 may be performed by the first electronic apparatus 1000 . there is.
  • the second electronic device 2000 when the second electronic device 2000 is a user's device, the second electronic device 2000 further includes a user input unit (not shown), a display unit (not shown), and a sensor unit (not shown). You may.
  • 3 is a diagram illustrating an example in which the common information management module 2312 generates common information from a first text according to an embodiment of the present disclosure.
  • the common information management module 2312 of the second electronic device 2000 is The first text may be input to the first NLU model 2313 , and a domain and a target word of the first text may be identified based on an output value output from the first NLU model 2313 .
  • the common information management module 2312 may identify that the domain of “How is the weather in London?” is “Weather”, the target word is “London”, and the type of common information is “Geo”. Also, the common information management module 2312 may generate a value representing the GPS coordinates of London as common information corresponding to the target word “London”.
  • FIG. 4 is a diagram illustrating an example of a domain corresponding to a text including a target word according to an embodiment of the present disclosure.
  • domains of “How’s the weather in Busan?”, “What is it in LA?”, and “Tell me the weather on Sunday” are identified as “Weather”, and “Tell me the time in Shanghai.” and “What time is it in Brazil?” are identified as “Clock”, and “Find a place to taste in London.” and a domain of “Tell me a restaurant to open tomorrow.” may be identified as “Restaurant”.
  • the types of common information corresponding to the target words “Busan”, “LA”, “Shanghai”, “Brazil”, and “London” are identified as “location”, and the target words “tomorrow” and “Sunday”
  • the type of common information corresponding to can be identified as “date”.
  • common information corresponding to the target word may be generated, and the generated common information may be classified and stored according to a domain or a type of common information.
  • FIG. 5 is a diagram illustrating an example of common information corresponding to a target word according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating an example in which common information corresponding to a substitute word in a second text is obtained according to an embodiment of the present disclosure.
  • the second electronic device 2000 corresponds to the target word "London" in the first text.
  • Common information may be generated and stored in the common information DB 2343 .
  • the first electronic device 1000 outputs “it is sunny and sunny now” as a response to the first text
  • the user asks “what time is it there?” to the first electronic device ( 1000) can be entered.
  • the first electronic device 1000 provides the second text “What time is it there?” to the second electronic device 2000
  • the second electronic device 2000 displays “ By detecting “there” and extracting common information corresponding to the detected substitute word from the common information DB 2343 , the meaning of the second text may be analyzed.
  • FIG. 7 is a flowchart of a method of generating common information for a first text and providing a response to the first text by the second electronic device 2000 according to an embodiment of the present disclosure.
  • the second electronic device 2000 may acquire the user's first text.
  • the first electronic device 1000 of the user using the voice assistance service may receive the user's first voice input and may convert the received first voice input into first text.
  • the first electronic device 1000 may transmit the first text to the second electronic device 2000
  • the second electronic device 2000 may receive the first text transmitted from the first electronic device 1000 .
  • the first electronic device 1000 transmits the user’s voice as the first text “how is the weather in London today?”
  • the converted first text may be provided to the second electronic device 2000 .
  • the first electronic device 1000 provides the first text input by the user to the second electronic device 2000
  • the second electronic device ( 2000 may receive the first text provided from the first electronic device 1000 .
  • the second electronic device 2000 may obtain the first text from the user's voice input to the second electronic device 2000 .
  • the second electronic device 2000 may be a device of a user rather than a server.
  • the second electronic device 2000 may identify a domain, a target word, and information related to the target word from the first text using the first NLU model 2313 .
  • the second electronic device 2000 may identify the domain of the first text by analyzing the first text of the user input using the first NLU model 2313 .
  • the second electronic device 2000 may identify the domain of the first text based on an output value output from the first NLU model 2313 . For example, the first text "How's the weather in London today?" is input to the first NLU model 2313, and the output value of the domain of the first text "Weather" is output from the first NLU model 2313. Also, the second electronic device 2000 may identify that the domain of the first text is “Weather” based on the output value output from the first NLU model 2313 .
  • the second electronic device 2000 may identify a target word in the text and information related to the target word.
  • the second electronic device 2000 may identify the target word and the type of common information corresponding to the target word by analyzing the user's first text using the first NLU model 2313 .
  • the second electronic device 2000 may identify a target word and a type of common information corresponding to the target word based on an output value output from the first NLU model 2313 .
  • the target word in the first text from the first NLU model 2313 is “London” and “London”
  • An output value indicating that the type of common information is “location” may be output, and the second electronic device 2000 determines that the target word in the first text is “ London”, and it can be identified that the type of common information corresponding to “London” is “location”.
  • the second electronic device 2000 may determine whether it is necessary to generate common information on the target word in the first text.
  • the second electronic device 2000 considers whether the target word is included in the first text, meanings of texts input before the first text, and common information stored in the common information DB 2343 to determine the target word in the first text. It can be determined whether it is necessary to generate common information about For example, if it is determined that the target word included in the first text and common information corresponding to the target word are not stored in the common information DB 2343 , the second electronic device 2000 sets the target word in the first text. It may be determined to store the corresponding common information. If it is determined that the target word included in the first text and common information corresponding to the target word are already stored in the common information DB 2343 , the second electronic device 2000 provides common information corresponding to the target word in the first text. It can be decided not to save .
  • the second electronic device 2000 may generate common information corresponding to the target word.
  • the second electronic device 2000 may generate detailed data representing the target word as common information, and may generate common information according to a format that can be commonly identified by the plurality of voice assistant modules 2330 . For example, when the target word is “London” and the common information type is “location”, the second electronic device 2000 collects a plurality of GPS coordinate values indicating the location of London as common information corresponding to “London”.
  • the second electronic device 2000 can be created in a format that can be commonly identified in the NLU model of For example, when the target word is “Tom” and the type of common information is “person”, the second electronic device 2000 generates a plurality of identifiers for identifying Tom as common information corresponding to “Tom”. It can be generated in a format that can be commonly identified in the NLU model. For example, when the target word is “Christmas” and the common information type is “Time/Date,” the second electronic device 2000 sets December 25 as common information corresponding to “Christmas” to a plurality of NLUs. It can be created in a format that can be commonly identified in the model.
  • the second electronic device 2000 sets one target word corresponding to the type of common information according to a preset criterion. It is possible to select a target word and generate common information about the selected target word.
  • the text “Tell me the way from Seoul Station to Busan Station” may include “Seoul Station” and “Busan Station” as target words corresponding to “location”, which is a type of common information.
  • a common information generation criterion may be set so that a higher priority is given to the destination than the departure, and the second electronic device 2000 generates common information for the destination “Busan Station” rather than the departure “Seoul Station”.
  • the present invention is not limited thereto, and the second electronic device 2000 generates a plurality of pieces of common information respectively corresponding to a plurality of target words, and as common information corresponding to a substitute word included in the following text, a plurality of pieces of common information At least one of them may be selected.
  • the second electronic device 2000 may generate a plurality of pieces of common information corresponding to one target word.
  • the common information generation module 2314 sets the identification value indicating “Christmas” and “December 25” to “Christmas” It can be generated as corresponding common information.
  • the second electronic device 2000 may accumulate and store the generated common information.
  • the second electronic device 2000 may store the generated common information in the common information DB 2341 .
  • the second electronic device 2000 may accumulate and store common information related to a target word in the text according to the order in which the text is acquired. Also, for example, the second electronic device 2000 may store the generated common information in association with a type of common information, a domain to which the common information is related, a target word corresponding to the common information, and attributes of the common information.
  • the second electronic device 2000 may store common information corresponding to a preset number of target words for one common information type. For example, so that only one common information corresponding to the type of common information “location” is stored, and after the common information corresponding to “location” is stored, from the text inputted, corresponding to another target word corresponding to “location” When the common information is generated, the previously stored common information may be deleted and common information corresponding to another target word may be stored.
  • the second electronic device 2000 may interpret the first text using the second NLU model 2332 .
  • the second electronic device 2000 may input the first text into the second NLU model 3332 and obtain intents and parameters output from the second NLU model 2332 . Also, the second electronic device 2000 may interpret the first text based on an intent indicating the user's intention and a parameter indicating detailed information related to the intent. If a substitute word is included in the first text, the second electronic device 2000 may interpret the first text by using common information generated from the text acquired before the first text.
  • the second electronic device 2000 may select the voice assistant module 2330 specialized in the domain of the first text, and control the selected voice assistant module 2330 to interpret the first text.
  • the second electronic device 2000 may interpret the first text by using the second NLU model 3332 in the voice assistant module 2330 specialized in the domain of the first text.
  • the second electronic device 2000 does not generate common information on the first text and in operation S725 the second electronic device 2000 performs the second
  • the first text may be interpreted using the NLU model 2332 .
  • the second electronic device 2000 may generate response information for the first text.
  • the second electronic device 2000 may generate response information for the first text based on the analysis result of the first text.
  • the response information is data related to a response to a text, for example, data provided to the first electronic device 1000 , another device (not shown), and another server (not shown) and the second electronic device 2000 . It may include data for the operation of The second electronic device 2000 performs an action of the second electronic device 2000, the first electronic device 1000, or another device (not shown) according to the user's intention based on the output value of the second NLU model 2332 . can plan them.
  • the second electronic device 2000 uses the analysis result of the first text, the utterance data stored in the utterance data DB 2342 , and the action data stored in the action data DB 2343 , according to the user's intention. Actions of the second electronic device 2000 , the first electronic device 1000 , or another device (not shown) may be planned. Also, the second electronic device 2000 generates response information to the text by planning actions of the second electronic device 2000, the first electronic device 1000, or another device (not shown) according to the user's intention. can do.
  • the second electronic device 2000 may generate a response message according to the user's intention by using the NLG model 2335 . Also, for example, the second electronic device 2000 may acquire response content to be provided to the user, such as text, image, video, and the like. Also, for example, the second electronic device 2000 determines operations of the user's first electronic device 1000 or another device (not shown), and the first electronic device 1000 or another device (not shown) You can create a control command to control the .
  • the second electronic device 2000 may provide the generated response information.
  • the second electronic device 2000 may provide the generated response information to at least one of the first electronic device 1000 , another device (not shown), or another server (not shown).
  • the first electronic apparatus 1000 and another device (not shown) that have received the response information may perform an operation according to the response information. For example, when the response information is a response message, the first electronic apparatus 1000 and another device (not shown) may output a response message. Also, for example, when the response message is a control command, the first electronic apparatus 1000 and another device (not shown) may execute a function according to the control command. Also, for example, another server (not shown) that has received the response information may control the first electronic apparatus 1000 and another device (not shown) according to the response information.
  • FIG. 8 is a flowchart of a method of generating common information on a second text and providing a response to the second text by the second electronic device 2000 according to an embodiment of the present disclosure.
  • the second electronic device 2000 may obtain the user's second text.
  • the first electronic device 1000 may receive the user's second voice after receiving the user's first voice, and may convert the received second voice into second text.
  • the first electronic device 1000 may transmit the second text to the second electronic device 2000
  • the second electronic device 2000 may receive the second text transmitted from the first electronic device 1000 .
  • the user may input a second voice “What time is it there now?” into the first electronic device 1000 , and the first electronic device
  • the device 1000 may convert the user's second voice into the second text “Where are you now?” and provide the converted second text to the second electronic device 2000 .
  • the first electronic device 1000 provides the second text input by the user to the second electronic device 2000
  • the second electronic device ( 2000 ) may receive the second text provided from the first electronic device 1000 .
  • the second electronic device 2000 may obtain the second text from the user's voice input to the second electronic device 2000 .
  • the second electronic device 2000 may be a device of a user rather than a server.
  • the second electronic device 2000 may identify a domain and a target word from the second text using the first NLU model.
  • the second electronic device 2000 may identify the domain of the second text by analyzing the user's second text using the first NLU model 2313 .
  • the second electronic device 2000 may identify the domain of the second text based on an output value output from the first NLU model 2313 . For example, the second text “What time is it there?” is input to the first NLU model 2313 , and the output value of the domain of the second text “Time” is output from the first NLU model 2313 .
  • the second electronic device 2000 may identify that the domain of the second text is “Time” based on an output value output from the first NLU model 2313 .
  • the second electronic device 2000 may identify a target word in the second text and information related to the target word.
  • the second electronic device 2000 may identify the target word and the type of common information corresponding to the target word by analyzing the user's second text using the first NLU model 2313 .
  • the second electronic device 2000 may identify a target word and a type of common information corresponding to the target word based on an output value output from the first NLU model 2313 . For example, if the second text “what time is it there now?” is input to the first NLU model 2313 , an output value indicating that there is no target word in the first text is output from the first NLU model 2313 . , and the second electronic device 2000 may identify that there is no target word in the first text based on the output value output from the first NLU model 2313 .
  • the target word in the second text is “December 25” and the common of “December 25” is An output value indicating that the type of information is “date” may be output, and the second electronic device 2000 determines that the target word in the second text is “12” based on the output value output from the first NLU model 2313 . 25th of the month” and it can be identified that the common information type corresponding to “December 25” is “date”.
  • the second electronic device 2000 may determine whether it is necessary to generate common information.
  • the second electronic device 2000 considers whether the target word is included in the second text, the meaning of texts input before the second text, and common information stored in the common information DB 2343 to determine the target in the second text. It can be determined whether the generation of common information for a word is necessary. For example, when the target word is not included in the second text, the second electronic device 2000 may determine not to generate common information. Also, for example, when common information corresponding to the same target word as the target word in the second text is already stored in the common information DB 2343 , the second electronic device 2000 may not generate the common information. can decide what Also, for example, when the target word in the second text is a new target word, the second electronic device 2000 may determine to generate common information.
  • the second electronic device 2000 may generate common information corresponding to the target word in the second text.
  • the second electronic device 2000 may generate detailed data representing the target word as common information, and may generate common information according to a format that can be commonly identified by the plurality of voice assistant modules 2330 .
  • the second text “How is the weather in Seoul instead?” may be input to the first NLU model 2313 .
  • common information corresponding to the target word 'Seoul' in the second text may be generated in association with the weather domain and the common information type location.
  • the second electronic device 2000 may add or modify common information stored in the common information DB 2343 .
  • the second electronic device 2000 may add common information corresponding to the target word in the second text to the common information DB 2343 .
  • the target word in the second text is a new word
  • the second electronic device 2000 provides common information corresponding to the target word in the second text to previously stored common information according to the order in which the second text is acquired. can be accumulated and stored in
  • the second electronic device 2000 may delete a part of common information stored in the common information DB 2343 .
  • the second electronic device 2000 displays the second text
  • the common information stored first among the common information stored in the common information DB 2343 may be deleted.
  • the second electronic device 2000 may replace common information stored in the common information DB 2343 with common information corresponding to a target word in the second text.
  • the second electronic device 2000 stores the same type of common information stored in the common information DB 2343 in the second text.
  • the deletion of common information may be replaced with common information of the target word in the second text.
  • the first text is “How is the weather in London?”
  • common information corresponding to the target word 'London' is stored in the common information DB 2341 in association with the weather domain and common information type location
  • Common information corresponding to the target word 'Seoul' in the second text may be generated in association with the weather domain and the common information type location.
  • the second electronic device 2000 may replace common information corresponding to 'London' stored in the common information DB 2341 with common information corresponding to 'Seoul'.
  • the standard for the second electronic device 2000 to add common information corresponding to the target word in the second text to the common information DB 2343 is not limited thereto, and the common information DB 2343 is modified according to various criteria. can be
  • the second electronic device 2000 may extract common information for interpretation of the second text.
  • the second electronic device 2000 may extract common information stored in relation to the domain of the second text from the common information DB 2341 . Based on the domain of the second text identified in operation S805 , the second electronic device 2000 may extract common information corresponding to the same domain as the domain of the second text from the common information DB 2343 . For example, if the domain of the second text is “time”, the second electronic device 2000 collects common information corresponding to the domain “time” from among the common information stored in the common information DB 2343 to the common information DB 2343 . ) can be extracted from
  • the second electronic device 2000 may extract all or some of the common information stored in the common information DB 2341 from the common information DB 2343 irrespective of the domain of the second text.
  • the second electronic device 2000 may extract a preset number of recently stored common information from among the common information stored in the common information DB 2341 , but is not limited thereto.
  • the second electronic device 2000 may extract only common information corresponding to a substitute word in the second text from the common information DB 2343 .
  • the output value output from the first NLU model 2313 in operation S805 may include a substitute word and a type of common information corresponding to the substitute word.
  • the second electronic device 2000 may identify a substitute word in the second text and a type of common information corresponding to the substitute word based on an output value output from the first NLU model 2313 . For example, when “there” and “location” are output from the first NLU model 2313 , the second electronic device 2000 corresponds to “there” in the second text and corresponds to “there” in the second text.
  • the second electronic device 2000 shares common information having the same type of common information as the type of common information corresponding to the substitute word in the second text. It may be extracted from the information DB 2343. For example, the second electronic device 2000 may extract common information in which the type of common information is classified as “location” from the common information DB 2343 .
  • the second electronic device 2000 may interpret the second text using the second NLU model 2332 .
  • the second electronic device 2000 may input the extracted common information and the second text to the second NLU model 2332 .
  • the second electronic device 2000 may convert the extracted common information into a format suitable for the second NLU model 2332 , and input the converted common information together with the second text into the second NLU model 2332 .
  • the second NLU model 2332 may be a model trained to interpret the meaning of the text based on the common information and the text including the proxy, and the second NLU model 2332 is the common information corresponding to the proxy.
  • a result of analyzing the second text in consideration of the meaning of the information may be output as an output value.
  • the target word “London” in the first text An intent and parameters obtained by interpreting the second text in consideration of the GPS coordinate value of may be output from the second NLU model 2332 .
  • the second electronic device 2000 may receive the second text as an input and replace a value corresponding to a substitute word among output values output from the second NLU model 2332 with the extracted common information.
  • the second NLU model 2332 may be a model trained to interpret the meaning of the text by taking the text as an input, and the second NLU model 2332 does not consider the meaning of common information corresponding to the proxy.
  • a result of analyzing the second text may be output as an output value.
  • the second electronic device 2000 may replace a value corresponding to a substitute word among output values output by the second NLU model 2332 with the extracted common information.
  • the extracted common information is converted into a format of an output value of the second NLU model 2332 , and the converted common information is a value corresponding to a proxy among output values output by the second NLU model 2332 .
  • the converted common information is a value corresponding to a proxy among output values output by the second NLU model 2332 .
  • the second electronic device 2000 determines whether the common information needs to be corrected, and if it is determined that the common information needs to be corrected, in operation S840 , the second electronic device 2000 modifies the common information DB 2341 .
  • the second electronic device 2000 may determine whether correction of common information stored in the common information DB 2341 is necessary based on the output value of the second NLU model 2332 .
  • the second electronic device 2000 identifies the target word in the text by using the output value output from the second NLU model 2332 , and common information indicating the target word is identical to the common information stored in the common information DB 2341 . can be judged whether When the common information indicating the identified target word is different from the common information stored in the common information DB 2341 , the second electronic device 2000 configures the common information correction module 2316 to display the common information stored in the common information DB 2341 . You can edit the information.
  • common information corresponding to the target word may be modified based on parameters related to the target word output from the second NLU model 2332 .
  • the second electronic device 2000 provides common information stored in the common information DB 2343 based on the meaning of the target word output from the second NLU model 2332 and the type of common information corresponding to the target word. Among them, common information corresponding to the target word may be added or modified.
  • the type of common information corresponding to the target word “Seoul” included in the second text is output as “Location”, and in the second NLU model 2332 , in the second text
  • the second electronic device 2000 may correct common information corresponding to the target word “Seoul”.
  • the second NLU model 2332 may be a model specialized for the domain of the second text, and the second electronic device 2000 generates or corrects common information using the second NLU model 2332, 2 More accurate common information about the target word in the text may be stored in the common information DB 2341 .
  • the second electronic device 2000 may modify common information stored in the common information DB 2341 based on data transmitted and received with the user through the voice assistant service.
  • the common information correction module 2316 may include, for example, a text generated from a user input, a response message generated through an NLG model 2335 to be described later, and the first electronic device 1000 or other device (
  • the common information stored in the common information DB 2341 may be modified based on at least one of the functions of (not shown).
  • the second electronic device 2000 may generate response information for the second text, and in operation S850, the second electronic device 2000 may provide the generated response information.
  • Operations S845 and S850 correspond to operations S730 and S735, and descriptions thereof will not be repeated here.
  • FIG. 9 is a diagram illustrating an example in which an analysis result of the second text in consideration of common information is output from the second NLU model 2332 according to an embodiment of the present disclosure.
  • the second text including the proximate “What time is it now?”
  • the second NLU model 2332 outputs intents and parameters representing the analysis result of the second text based on the common information corresponding to the pronoun.
  • the second NLU model 2332 outputs the intent 'provide time information', and sets the parameters 'time' and 'London (GeoPoint(Lat:51.50853, long:-0.12574))'. can be printed out.
  • the extracted common information may be pre-processed in a format that the second NLU model 2332 can interpret, and the pre-processed common information may be input to the second NLU model 2332 .
  • the GPS value of London is output from the second NLU model 2332 in FIG. 9
  • the present invention is not limited thereto.
  • a value in a preset format that the second electronic device 2000 uses as a text interpretation result to provide a voice assistant service to a user may be output from the second NLU model 2332 .
  • FIG. 10 is a diagram illustrating an example of replacing a part of an output value of the second NLU model 2332 with common information according to an embodiment of the present disclosure.
  • the second NLU model 2332 may output an intent and parameters indicating an analysis result of the second text in which common information corresponding to the proxy is not reflected.
  • the second NLU model 2332 may output 'time information provision' as an intent, and output 'time' and 'location' as parameters.
  • the second electronic device 2000 extracts common information corresponding to 'location', which is a substitute word, from among the output values of the second NLU model 2332 , from the common information DB 2343 , and ' You can replace 'location' with the extracted common information.
  • the second electronic device 2000 may replace the substitute word 'location' with 'London (GeoPoint(Lat:51.50853, long:-0.12574))'.
  • the value output from the second NLU model 2332 is replaced with a GPS value in FIG. 10
  • the present invention is not limited thereto.
  • a value output from the second NLU model 2332 may be replaced with a value in a preset format used as a text interpretation result by the second electronic device 2000 to provide a voice assistant service to a user.
  • FIG. 11 is a diagram illustrating an example in which common information is generated and used according to an embodiment of the present disclosure.
  • a GeoPoint 112 that is a location value related to weather having a preset format of version 9.26.16 is identified, and a GeoPoint 112 that is an identified location value is identified.
  • BaseGeoPoint 114 which is common information in a predetermined format indicated, may be generated and stored.
  • the voice assistant module 114 that provides the world clock identifies the GeoPoint 116, which is a location value having a preset format of version 9.26.28, from the BaseGeoPoint 114, which is common information, and provides time information corresponding to the location.
  • the location value GeoPoint 116 can be used to do this.
  • the location value GeoPoint 116 may be converted into a value usable by the voice assistant module 114 that provides a world clock.
  • the voice assistant module 114 that provides the world clock generates a BaseLocation 118 that is a place value on the map corresponding to the location value GeoPoint 116, and the generated place value BaseLocation 118 is used at the corresponding place. It can be used to provide the current date and time.
  • GeoPoint 112 is data operated by a voice assistant module managing geographic information of version 9.26.16
  • GeoPoint 116 is a voice assistant module managing geographic information of version 9.26.28. It may be data operated by, but is not limited thereto.
  • the location value GeoPoint 116 is converted by the voice assistant module 114 to a value that the voice assistant module 114 can use, it is not limited thereto.
  • the location value GeoPoint 116 may be converted by another voice assistant module.
  • BaseLocation 118 which is a place value on the map corresponding to the location value GeoPoint 116, is generated by the voice assistant module managing geographic information of version 9.26.28, and the generated place value provides the world clock. may be used by the voice assistant module 114 .
  • 12A is a diagram illustrating an example in which some of the same type of common information is selected and stored in consideration of a result of providing a voice assistant service according to an embodiment of the present disclosure.
  • common information indicating the location of “Jongno” may be generated from the user's text “Tell me the nearest train station from Jongno.” Also, the response message to the user's text, "Seoul Station is near.” may be provided to the user.
  • the second electronic device 2000 identifies that a correct response message regarding the user's intention has been provided to the user, and transfers common information indicating the location of "Seoul Station” to the common information DB ( 2343) can be stored.
  • the second electronic device 2000 identifies that an erroneous response message regarding the user's intention is provided to the user, and shares common information indicating the location of "Jongno" It can be stored in the information DB (2343).
  • 12B is a diagram illustrating an example in which some of different types of common information are selected and stored in consideration of a result of providing a voice assistant service according to an embodiment of the present disclosure.
  • common information indicating “3 pm” may be generated from the user's text “Tell me about the schedule for tomorrow at 3 pm”.
  • a response message to the user's text, “I have a meeting at the Samsung R&D Center at 3 pm,” may be provided to the user.
  • the second electronic device 2000 identifies that a correct response message regarding the user's intention has been provided to the user, and includes common information indicating "3 pm” and "Samsung R&D Center” Common information indicating the location of ” may be stored in the common information DB 2343 .
  • the second electronic device 2000 identifies that an erroneous response message regarding the user's intention is provided to the user, and displays common information indicating "3 pm" It can be stored in the common information DB (2343).
  • 12C is a diagram illustrating an example in which some of common information is selected and stored based on a result of providing a voice assistant service and an additional input from a user according to an embodiment of the present disclosure.
  • common information indicating the location of “Seoul Station” may be generated from the user's text, “Tell me about restaurants near Seoul Station.”
  • the response message to the user's text is “50 restaurants have been found. Please select a restaurant you are interested in.” may be provided to the user.
  • the second electronic device 2000 may generate common information indicating the location of the restaurant selected by the user.
  • the second electronic device 2000 may store common information indicating the location of “Seoul Station” and common information indicating the location of a restaurant selected by the user in the common information DB 2343 .
  • 12A, 12B, and 12C illustrate examples of generating and storing common information based on a result of providing the voice assistant service, but examples of generating and storing common information are not limited thereto.
  • Rules for generating, storing, and selecting common information may be variously set according to, for example, a type of a user query, characteristics of a voice assistant service, and user feedback.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer-readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • the computer-readable storage medium may be provided in the form of a non-transitory storage medium.
  • the 'non-transitory storage medium' is a tangible device and may not include a signal (eg, electromagnetic wave), and this term refers to cases in which data is semi-permanently stored in a storage medium and temporary storage. It does not distinguish between cases where
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be included and provided in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly or online between smartphones (eg: smartphones).
  • a portion of the computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
  • unit may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
  • “comprising at least one of a, b, or c” means, for example, “including only a, including only b, including only c, including a and b, or b and It may be mentioned that includes c, includes a and c, or includes both a, b and c.
  • the processor may consist of one or a plurality of processors.
  • one or a plurality of processors for example, CPU, AP, general-purpose processor such as DSP (Digital Signal Processor), GPU, graphics-only processor such as VPU (Vision Processing Unit), or artificial intelligence-only processor such as NPU may include, but is not limited to.
  • One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory.
  • the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
  • a predefined action rule or artificial intelligence model may refer to a model created through learning.
  • being made through learning means, for example, that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined operation rule or artificial intelligence set to perform a desired characteristic (or purpose)
  • an intelligence model is created.
  • Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system.
  • Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
  • the artificial intelligence model may include a plurality of neural network layers.
  • Each of the plurality of neural network layers may have a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), It may include a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited to the above-described example.
  • DNN Deep Neural Network
  • BNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • the device for recognizing a user's voice and interpreting an intention, is, for example, an analog signal through a microphone. It can receive the signal and convert the speech part into computer-readable text using an Automatic Speech Recognition (ASR) model. In addition, by analyzing the converted text using a Natural Language Understanding (NLU) model, the user's utterance intention may be obtained.
  • ASR Automatic Speech Recognition
  • NLU Natural Language Understanding
  • the ASR model or the NLU model may be an artificial intelligence model.
  • the AI model can be processed by an AI-only processor designed with a hardware structure specialized for processing the AI model. AI models can be created through learning.
  • Linguistic understanding may refer to, for example, a technology for recognizing and applying/processing human language/text, such as Natural Language Processing, Machine Translation, Dialog System, Includes Question Answering, Speech Recognition/Synthesis, and the like.
  • an artificial intelligence model may be used to determine common information corresponding to a target word from the text.
  • the processor may perform preprocessing on the text and convert it into a form suitable for use as an input of an artificial intelligence model.
  • AI models can be created through learning.
  • Inferential prediction may refer to a technique for logically reasoning and predicting by judging information, and includes knowledge/probability-based reasoning, optimization prediction, and preference-based planning. Planning), Recommendation, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법이 제공된다. 전자 장치가 보이스 어시스턴트 서비스를 제공하는 방법은, 제1 입력으로부터 제1 텍스트를 획득하는 동작; 제1 NLU 모델을 이용하여, 상기 제1 텍스트 내의 타겟 단어를 검출하고 상기 검출된 타겟 단어에 관한 공통 정보를 생성하는 동작; 제2 입력으로부터 제2 텍스트를 획득하는 동작; 상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하는 동작; 상기 제2 NLU 모델을 이용하여, 상기 제2 텍스트에 포함된 대용어를 검출하고 상기 검출된 대용어에 대응되는 공통 정보에 기초하여 인텐트 및 파라미터를 출력하는 동작; 및 상기 인텐트 및 파라미터에 관련된 응답 정보를 생성하는 동작을 포함한다.

Description

대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
본 개시는 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법에 관한 것으로서, 예를 들어, 타겟 단어에 대한 공통 정보에 기초하여 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법에 관한 것이다.
멀티 미디어 기술 및 네트워크 기술이 발전함에 따라, 사용자는 디바이스를 이용하여 다양한 서비스를 제공받을 수 있게 되었다. 특히, 음성 인식 기술이 발전함에 따라, 사용자는 디바이스에 음성(예를 들어, 발화)을 입력하고, 음성 입력에 따른 응답을 제공받을 수 있게 되었다.
하지만, 종래에는, 사용자의 입력에 대용어가 포함된 경우, 대용어가 포함된 사용자의 입력으로부터 사용자의 의도를 정확하게 파악하기 힘든 문제가 있었으며, 대용어의 의미를 고려하면서 여러 도메인에 특화된 보이스 어시스턴트 서비스를 제공하기 힘든 문제가 있었다. 이에 따라, 대용어를 포함하는 사용자의 입력으로부터 사용자의 의도를 정확히 파악하고, 사용자의 의도에 따른 응답을 사용자에게 효과적으로 제공할 수 있는 기술이 요구되고 있다.
본 개시의 실시예는, 복수의 NLU 모델을 이용하여, 사용자의 텍스트에 포함된 타겟 단어를 나타내는 공통 정보를 다른 텍스트 내의 대용어를 해석하는데 이용할 수 있는, 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법을 제공할 수 있다.
또한, 본 개시의 실시예는, 텍스트의 도메인을 식별하는데 이용되는 NLU 모델을 이용하여 텍스트 내의 타겟 단어를 식별하고, 식별된 타겟 단어를 나타내는 공통 정보를 이용하여 도메인에 특화된 보이스 어시스턴트 서비스를 제공할 수 있는, 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법을 제공할 수 있다.
또한, 본 개시의 실시예는, 텍스트의 도메인을 식별하는데 이용되는 NLU 모델을 이용하여 텍스트 내의 타겟 단어를 식별하고, 식별된 타겟 단어를 나타내는 공통 정보가 복수의 다른 NLU 모델에서 이용되도록 할 수 있는, 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법을 제공할 수 있다.
또한, 본 개시의 실시예는, 텍스트를 해석하는데 이용되는 NLU 모델을 이용하여 타겟 단어를 나타내는 공통 정보를 수정할 수 있는, 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법을 제공할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 제1 입력으로부터 생성된 제1 텍스트를 획득하는 동작; 제1 NLU 모델을 이용하여, 상기 제1 텍스트 내의 타겟 단어를 검출하고 상기 검출된 타겟 단어에 관한 공통 정보를 생성하는 동작; 상기 사용자의 제2 입력으로부터 생성된 제2 텍스트를 획득하는 동작; 상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하는 동작; 상기 제2 NLU 모델을 이용하여, 상기 제2 텍스트에 포함된 대용어를 검출하고 상기 검출된 대용어에 대응되는 공통 정보에 기초하여 인텐트 및 파라미터를 출력하는 동작; 및 상기 인텐트 및 파라미터에 관련된 응답 정보를 생성하는 동작;을 포함하는, 전자 장치가 보이스 어시스턴트 서비스를 제공하는 방법을 제공할 수 있다.
또한, 본 개시의 제2 측면은, 전자 장치와 통신하는 회로 소자를 포함하는 통신 인터페이스; 하나 이상의 명령어를 저장하는 저장부; 상기 저장된 하나 이상의 명령어를 실행하여, 서버가, 상기 디바이스에 입력된 사용자의 제1 입력으로부터 생성된 제1 텍스트를 획득하고, 제1 NLU 모델을 이용하여, 상기 제1 텍스트 내의 타겟 단어를 검출하고 상기 타겟 단어에 관한 공통 정보를 생성하고, 상기 사용자의 제2 입력으로부터 생성된 제2 텍스트를 획득하고, 상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하고, 상기 제2 NLU 모델을 이용하여, 상기 제2 텍스트에 포함된 대용어를 검출하고 상기 검출된 대용어에 대응되는 공통 정보에 기초하여 인텐트 및 파라미터를 획득하고, 상기 인텐트 및 파라미터에 관련된 응답 정보를 생성하도록 하는, 프로세서;를 포함하는, 보이스 어시스턴트 서비스를 제공하는 서버를 제공할 수 있다.
또한, 본 개시의 제3 측면은, 제1 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
본 개시의 실시예의 특징 및 이점은 첨부 도면과 함께 기재된 다음의 상세한 설명으로부터 더욱 명백해질 것이며, 여기서:
도 1은 본 개시의 일실시예에 따른 보이스 어시스턴트 서비스를 제공하는 시스템의 예시를 나타내는 도면이다.
도 2는 본 개시의 일 실시예에 따른 제2 전자 장치(2000)의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 공통 정보 관리 모듈(2312)이 제1 텍스트로부터 공통 정보를 생성하는 예시를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따른 타겟 단어를 포함하는 텍스트에 대응되는 도메인의 예시를 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따른 타겟 단어에 대응되는 공통 정보의 예시를 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따른 제2 텍스트 내의 대용어에 대응되는 공통 정보가 획득되는 예시를 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 제2 전자 장치(2000)가 제1 텍스트에 대한 공통 정보를 생성하고 제1 텍스트에 대한 응답을 제공하는 방법의 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 제2 전자 장치(2000)가 제2 텍스트에 대한 공통 정보를 생성하고 제2 텍스트에 대한 응답을 제공하는 방법의 흐름도이다.
도 9는 본 개시의 일 실시예에 따른 공통 정보를 고려한 제2 텍스트의 해석 결과가 제2 NLU 모델(2332)로부터 출력되는 예시를 나타내는 도면이다.
도 10은 본 개시의 일 실시예에 따른 제2 NLU 모델(2332)의 출력 값의 일부를 공통 정보로 대체하는 예시를 나타내는 도면이다.
도 11은 본 개시의 일 실시예에 따른 공통 정보가 생성되고 이용되는 예시를 나타내는 도면이다.
도 12a는 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스의 제공 결과를 고려하여 동일한 종류의 공통 정보들 중 일부가 선택되어 저장되는 예시를 나타내는 도면이다.
도 12b는 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스의 제공 결과를 고려하여 상이한 종류의 공통 정보들 중 일부가 선택되어 저장되는 예시를 나타내는 도면이다.
도 12c는 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스의 제공 결과 및 사용자의 추가 입력을 바탕으로 공통 정보들 중 일부가 저장되는 예시를 나타내는 도면이다.
본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략될 수 있으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서 보이스 어시스턴트 서비스는, 사용자와의 대화를 제공하는 서비스를 포함할 수 있다. 보이스 어시스턴트 서비스에서는 디바이스가 사용자의 상황, 디바이스의 상황 등을 고려하여 사람이 사용자와 직접 대화하는 것처럼 사용자에게 응답 메시지를 제공할 수 있다. 또한, 보이스 어시스턴트 서비스에서는, 사용자의 개인 비서처럼 사용자가 필요한 정보가 적절하게 생성되어 사용자에게 제공될 수 있다. 보이스 어시스턴트 서비스는, 예를 들어, 방송 서비스, 콘텐트 공유 서비스, 콘텐트 제공 서비스, 전력 관리 서비스, 게임 제공 서비스, 채팅 서비스, 문서 작성 서비스, 검색 서비스, 통화 서비스, 사진 촬영 서비스, 교통 수단 추천 서비스 및 동영상 재생 서비스 등과 같은 다양한 서비스와 연계되어, 사용자가 필요한 정보 또는 기능을 사용자에게 제공할 수 있으나, 이에 제한되지 않는다.
또한, 도메인은, 예컨대, 디바이스에 입력된 사용자 입력이 관련된 분야를 언급할 수 있으며, 예를 들어, 사용자 입력의 의미, 사용자 입력의 속성 등에 따라 미리 설정될 수 있다. 도메인은, 예를 들어, 사용자 입력과 관련된 서비스에 따라 분류되거나, 사용자 입력에 관련된 동작을 수행하는 애플리케이션에 따라 분류될 수 있다. 또한, 도메인 별로 NLU 모델 및 NLG 모델이 (각각은 다양한 프로세싱 회로 소자 및/또는 실행 가능한 프로그램 명령어들을 포함할 수 있음.) 훈련될 수 있다. 사용자 입력은, 예를 들어, 음성 입력, 텍스트 입력, 영상 입력을 포함할 수 있으나, 이에 제한되지 않으며 보이스 어시스턴트 서비스를 위하여 사용자로부터 입력될 수 있는 모든 종류의 입력을 포함할 수 있다.
타겟 단어는 대용어의 지시 대상이 될 수 있는 단어를 언급할 수 있으며, 예를 들어, 위치를 나타내는 단어, 날짜를 나타내는 단어, 시간을 나타내는 단어, 사람을 지칭하는 단어를 포함할 수 있으나, 이에 제한되지 않는다.
타겟 단어에 대응되는 공통 정보는, 타겟 단어를 식별하기 위한 세부적인 데이터로서 복수의 보이스 어시스턴트 모듈에서 공통으로 식별될 수 있는 데이터를 포함할 수 있다. 공통 정보는, 예를 들어, 복수의 보이스 어시스턴트 모듈에 의해 공통으로 식별될 수 있는 포맷을 가질 수 있다. 예를 들어, 타겟 단어가 “서울”이고 공통 정보의 종류가 “location”인 경우에, “서울”에 대응되는 공통 정보는 서울의 위치를 나타내는 GPS 좌표 값을 나타내는 데이터일 수 있다. 또한, 예를 들어, 타겟 단어가 “Tom”이고 공통 정보의 종류가 “person”인 경우에, “Tom”에 대응되는 공통 정보는 Tom을 식별할 수 있는 식별자(예를 들어, User ID, 전화 번호, 이름 등)를 나타내는 데이터일 수 있다. 또한, 예를 들어, 타겟 단어가 “크리스마스”이고 공통 정보의 종류가 “Time/Date”인 경우에, “크리스마스”에 대응되는 공통 정보는 12월 25일을 나타내는 데이터일 수 있다.
이러한 공통 정보는 기설정된 대용어들에 따라 복수의 종류들로 분류될 수 있다. 예를 들어, 타겟 단어에 대응되는 공통 정보의 종류는, “Location”, “Date/Time” 및 “Person”을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 타겟 단어에 대응되는 공통 정보의 종류는, 기 설정된 기준에 따라 분류될 수 있으며, 공통 정보의 종류에 대응되는 대용어들이 미리 설정될 수 있다. 예를 들어, 공통 정보의 종류가 “Location”인 경우에, “Location”에 대응되는 대용어들은 거기(there), 거기 근처(near), 그 장소(that place) 등을 포함할 수 있다. 또한, 예를 들어, 공통 정보의 종류가 “Date/Time”인 경우에, “Date/Time” 에 대응되는 대용어들은 그 때(that time), 그 날(the date) 등을 포함할 수 있다. 또한, 예를 들어, 공통 정보의 종류가 “Person”인 경우에, “Person”에 대응되는 대용어들은 그 사람(he, him, his), 그녀(she, her) 등을 포함할 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 본 개시의 일실시예에 따른 보이스 어시스턴트 서비스를 제공하는 시스템의 예시를 나타내는 도면이다.
도 1을 참조하면 보이스 어시스턴트 서비스를 제공하는 시스템은 제1 전자 장치(1000) 및 제2 전자 장치(2000)를 포함할 수 있다.
제1 전자 장치(1000)는 사용자의 입력에 따른 텍스트를 제2 전자 장치(2000)에게 제공하고, 제2 전자 장치(2000)로부터 제공되는 응답 정보를 수신하며, 사용자에게 응답 정보를 제공할 수 있다. 제1 전자 장치(1000)는 보이스 어시스턴트 서비스를 제공하는 애플리케이션을 실행하고, 실행된 애플리케이션에 의해 제공되는 기능들을 통하여 사용자의 입력을 수신하고 사용자에게 응답 메시지 및 응답 동작을 제공할 수 있다.
제2 전자 장치(2000)는 제1 전자 장치(1000)로부터 사용자 입력에 따른 제1 텍스트를 수신하고, 제1 텍스트에 포함된 타겟 단어를 검출하며, 검출된 타겟 단어를 나타내는 공통 정보를 생성하고 저장할 수 있다. 타겟 단어를 나타내는 공통 정보는 제2 전자 장치(2000) 내의 복수의 보이스 어시스턴트 모듈에 의해 이용될 수 있으며, 제2 전자 장치(2000) 내의 복수의 보이스 어시스턴트 모듈은 보이스 어시스턴트 서비스를 위한 복수의 도메인에 특화된 모듈일 수 있다.
또한, 제2 전자 장치(2000)는 제1 텍스트 이후의 사용자 입력에 따른 제2 텍스트로부터 제2 텍스트 내에 포함된 대용어를 검출하고, 대용어에 대응되는 타겟 단어를 나타내는 공통 정보를 이용하여 제2 텍스트의 도메인에 특화된 보이스 어시스턴트 모듈을 통해 보이스 어시스턴트 서비스를 제공할 수 있다.
제1 전자 장치(1000) 및 제2 전자 장치(2000)는, 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치 등을 포함할 수 있으나, 이에 제한되지 않는다. 또한, 제1 전자 장치(1000) 및 제2 전자 장치(2000)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 디바이스를 포함할 수 있다. 또한, 제1 전자 장치(1000) 또는 제2 전자 장치(2000) 중 적어도 하나는 서버 장치일 수 있다. 그러나, 이에 제한되지 않으며, 제1 전자 장치(1000) 및 제2 전자 장치(2000)는 서로 연동하여 보이스 어시스턴트 서비스를 제공할 수 있는 모든 종류의 장치를 포함할 수 있다.
제1 전자 장치(1000) 및 제2 전자 장치(2000)를 통신 연결하는 네트워크는, 예를 들어, 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있으나 이에 제한되지 않는다. 또한, 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network) 또는 위성 통신망 중 적어도 둘 이상의 상호 조합을 포함할 수 있으며, 도 1에 도시된 각 네트워크들이 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망을 포함할 수 있으며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다. 무선 통신은 예를 들어, 무선 랜(Wi-Fi), 블루투스, 블루투스 저 에너지(Bluetooth low energy), 지그비, WFD(Wi-Fi Direct), UWB(ultra wideband), 적외선 통신(IrDA, infrared Data Association), NFC(Near Field Communication) 등이 있을 수 있으나, 이에 한정되는 것은 아니다.
도 2는 본 개시의 일 실시예에 따른 제2 전자 장치의 블록도이다.
도 2를 참조하면, 제2 전자 장치(2000)는 통신 인터페이스(예를 들어, 통신 회로 소자를 포함함)(2100), 프로세서(2200) 및 저장부(예를 들어, 메모리)(2300)를 포함하며, 저장부(2300)는, 예를 들어, 공통 정보 관리 모듈(2310), 적어도 하나의 보이스 어시스턴트 모듈(2330) 및 DB(2340)를 포함하는 다양한 실행 가능한 프로그램 명령어들을 포함할 수 있다.
통신 인터페이스 (2100)는, 제1 전자 장치(1000)와의 통신을 위한 다양한 통신 회로 소자를 포함하는 하나 이상의 구성 요소를 포함할 수 있다. 통신 인터페이스(2100)는 제1 전자 장치(1000)에게 보이스 어시스턴트 서비스를 제공하기 위해 필요한 정보를 제1 전자 장치(1000)와 송수신할 수 있다. 또한, 통신 인터페이스(2100)는 보이스 어시스턴트 서비스를 제공하기 위하여 다른 디바이스(미도시) 및 다른 서버(미도시)와 통신할 수 있다. 예를 들어, 통신 인터페이스(2100)는, 근거리 통신부, 이동 통신부 및 방송 수신부를 포함할 수 있다. 근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 방송 수신부는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다.
프로세서(2200)는 다양한 프로세싱 회로 소자를 포함할 수 있으며 제2 전자 장치(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2200)는, 후술할 저장부(2300)에 저장된 프로그램들을 실행함으로써, 본 명세서에서의 보이스 어시스턴트 서비스를 제공하기 위한 제2 전자 장치(2000)의 기능을 제어할 수 있다.
저장부(2300)는 프로세서(2200)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 저장부(3300)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
저장부(2300)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, 공통 정보 관리 모듈(2310) 및 보이스 어시스턴트 모듈(2330)을 포함할 수 있다.
공통 정보 관리 모듈(2310)은 사용자 입력으로부터 생성된 텍스트를 분석하여, 텍스트에 관련된 도메인 및 텍스트 내의 타겟 단어를 식별하고, 식별된 타겟 단어에 관련된 공통 정보를 생성하고 관리할 수 있다. 공통 정보 관리 모듈(2310)은 생성된 공통 정보를 후술할 공통 정보 DB(2341)에 누적하여 저장할 수 있으며, 후술할 보이스 어시스턴트 모듈(2330)이 제2 텍스트를 해석하는데 공통 정보를 이용하도록 할 수 있다. 타겟 단어는, 예를 들어, 대용어의 지시 대상이 될 수 있는 단어를 지칭할 수 있으며, 예를 들어, 위치를 나타내는 단어, 날짜를 나타내는 단어, 시간을 나타내는 단어 및 사람을 지칭하는 단어를 포함할 수 있으나, 이에 제한되지 않는다. 또한, 공통 정보 관리 모듈(2310)은, 예를 들어, 도메인 식별 모듈(2311), 타겟 단어 식별 모듈(2312), 제1 NLU 모델(2313), 공통 정보 생성 모듈(2314), 공통 정보 선택 모듈(2315) 및 공통 정보 수정 모듈(2316)을 포함하는 다양한 실행 가능한 프로그램 명령어들을 포함하는 다양한 모듈들을 포함할 수 있다. 제2 전자 장치(2000)가 제1 전자 장치(1000)로부터 사용자의 음성 데이터를 수신하는 경우에, 제2 전자 장치(2000)는 사용자의 음성을 인식하기 위한 ASR (Automatic Speech Recognition) 모델(미도시)을 더 포함할 수도 있다.
도메인 식별 모듈(2311)은 텍스트에 관련된 도메인을 식별할 수 있다. 도메인 식별 모듈(2311)은 사용자 입력으로부터 생성된 텍스트를 후술할 제1 NLU 모델(2313)을 이용하여 분석함으로써 텍스트의 도메인을 식별할 수 있다. 도메인 식별 모듈(2311)은 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 텍스트의 도메인을 식별할 수 있다.
예를 들어, "런던 날씨 어때?"라는 제1 텍스트가 제1 NLU 모델(2313)에 입력되고, 제1 NLU 모델(2313)로부터 제1 텍스트의 도메인이 “Weather”라는 출력 값이 출력될 수 있으며, 도메인 식별 모듈(2311)은 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트의 도메인이 “Weather”임을 식별할 수 있다. 또한, 예를 들어, "거기 지금 몇시야?"라는 제2 텍스트가 제1 NLU 모델(2313)에 입력되고, 제1 NLU 모델(2313)로부터 제2 텍스트의 도메인이 “Time”이라는 출력 값이 출력될 수 있으며, 도메인 식별 모듈(2311)은 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제2 텍스트의 도메인이 “Time”임을 식별할 수 있다.
타겟 단어 식별 모듈(2312)은 텍스트 내의 타겟 단어 및 타겟 단어에 관련된 정보를 식별할 수 있다. 타겟 단어 식별 모듈(2312)은 사용자 입력으로부터 생성된 텍스트를 후술할 제1 NLU 모델(2313)을 이용하여 분석함으로써 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류를 식별할 수 있다. 타겟 단어 식별 모듈(2312)은 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류를 식별할 수 있다. 예를 들어, "런던 날씨 어때?"라는 제1 텍스트가 제1 NLU 모델(2313)에 입력되면, 제1 NLU 모델(2313)로부터 제1 텍스트 내의 타겟 단어가 “런던”이며 “런던”의 공통 정보의 종류가 “location”임은 나타내는 출력 값이 출력될 수 있으며, 타겟 단어 식별 모듈(2312)은 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트 내의 타겟 단어가 “런던”이며, “런던”에 대응되는 공통 정보의 종류가 “location”임을 식별할 수 있다.
또한, 상기에서는 도메인 식별 모듈(2311) 및 타겟 단어 식별 모듈(2312)이 별개의 모듈인 것으로 설명되었지만, 이에 제한되지 않는다. 예를 들어, 하나의 모듈에 의해, 텍스트에 관련된 도메인, 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류가 식별될 수도 있다.
제1 NLU 모델(2313)은 사용자 입력으로부터 생성된 텍스트를 분석하고, 분석 결과에 기초하여 텍스트의 도메인 및 타겟 단어를 출력할 수 있다. 또한, 제1 NLU 모델(2313)은, 사용자 입력으로부터 생성된 텍스트로부터, 텍스트에 포함된 타겟 단어에 대응되는 공통 정보의 종류를 출력할 수도 있다. 제1 NLU 모델(2313)로부터 출력되는 출력 값은, 도메인 식별 모듈(2311) 및 타겟 단어 식별 모듈(2312)에 의해 이용될 수 있다. 제1 NLU 모델(2313)은, 텍스트를 해석하여 텍스트에 대응하는 도메인 및 타겟 단어를 식별하도록 훈련된 인공 지능 모델일 수 있다. 제1 NLU 모델(2313)은, 예를 들어, 공통 정보의 종류가 태깅된 텍스트 및 텍스트의 도메인을 학습 데이터를 사용하여 훈련된 모델일 수 있다. 예를 들어, 제1 NLU 모델(2313)의 입력 값은 사용자 입력으로부터 생성된 텍스트일 수 있으며, 제1 NLU 모델(2313)의 출력 값은 공통 정보의 종류가 태깅된 타겟 단어 및 텍스트의 도메인일 수 있으나, 이에 제한되지 않는다.
공통 정보 생성 모듈(2314)은 타겟 단어에 대응되는 공통 정보를 생성할 수 있다. 공통 정보 생성 모듈(2314)은 타겟 단어를 나타내는 세부적인 데이터를 공통 정보로서 생성할 수 있으며, 공통 정보는 복수의 보이스 어시스턴트 모듈(2330)에서 공통으로 식별될 수 있는 포맷에 따라 생성될 수 있다. 예를 들어, 타겟 단어가 “서울”이고 공통 정보의 종류가 “location”인 경우에, 공통 정보 생성 모듈(2314)은 “서울”에 대응되는 공통 정보로서 서울의 위치를 나타내는 GPS 좌표 값을 복수의 NLU 모델에서 공통으로 식별될 수 있는 포맷으로 생성할 수 있다. 예를 들어, 타겟 단어가 “Tom”이고 공통 정보의 종류가 “person”인 경우에, 공통 정보 생성 모듈(2314)은 “Tom”에 대응되는 공통 정보로서 Tom을 식별할 수 있는 식별자를 복수의 NLU 모델에서 공통으로 식별될 수 있는 포맷으로 생성할 수 있다. 예를 들어, 타겟 단어가 “크리스마스”이고 공통 정보의 종류가 “Time/Date”인 경우에, 공통 정보 생성 모듈(2314)은 “크리스마스”에 대응되는 공통 정보로서 12월 25일을 복수의 NLU 모델에서 공통으로 식별될 수 있는 포맷으로 생성할 수 있다.
한편, 예를 들어, 텍스트 내에 하나의 공통 정보의 종류에 대응되는 복수의 타겟 단어들이 포함된 경우에, 공통 정보 생성 모듈(2314)은 기 설정된 기준에 따라, 공통 정보의 종류에 대응될 하나의 타겟 단어를 선택하고, 선택된 타겟 단어에 대한 공통 정보를 생성할 수 있다. 예를 들어, “서울역에서 부산역으로 가는 길을 알려줘.”라는 텍스트는, 공통 정보의 종류인 “location”에 대응되는 타겟 단어들로서 “서울역” 및 “부산역”을 포함할 수 있다. 이 경우, 출발지보다 도착지에 대해 높은 우선 순위가 부여되도록 공통 정보 생성 기준이 설정될 수 있으며, 공통 정보 생성 모듈(2314)은 출발지인 “서울역”보다 도착지인 “부산역”에 대하여 공통 정보를 생성할 수 있다. 하지만, 이에 제한되지 않으며, 공통 정보 생성 모듈(2314)은 복수의 타겟 단어들에 각각 대응되는 복수의 공통 정보를 생성하고, 다음 텍스트에 포함된 대용어에 대응되는 공통 정보로서, 복수의 공통 정보 중 적어도 하나가 선택되도록 할 수도 있다.
한편, 예를 들어, 공통 정보 생성 모듈(2314)은 하나의 타겟 단어에 대응되는 복수의 공통 정보를 생성할 수도 있다. 예를 들어, 공통 정보의 종류가 “Time/Date”인 타겟 단어 “크리스마스”에 대하여, 공통 정보 생성 모듈(2314)은 “크리스마스”를 나타내는 식별 값 및 “12월 25”일을 “크리스마스”에 대응되는 공통 정보로서 생성할 수 있다.
공통 정보 생성 모듈(2314)은 생성된 공통 정보를 공통 정보 DB(2341)에 저장할 수 있다. 공통 정보 생성 모듈(2314)은 텍스트가 획득된 순서에 따라, 텍스트 내의 타겟 단어에 관련된 공통 정보를 누적하여 저장할 수 있다. 또한, 예를 들어, 공통 정보 생성 모듈(2314)은 생성된 공통 정보를 공통 정보의 종류, 공통 정보가 관련된 도메인, 공통 정보에 대응되는 타겟 단어 및 공통 정보의 속성과 연관지어 저장할 수 있다. 또한, 공통 정보가 저장된 순서, 공통 정보가 관련된 도메인, 공통 정보에 대응되는 타겟 단어 및 공통 정보의 속성 중 적어도 하나는, 후술할 공통 정보 선택 모듈(2315)이 이후에 획득되는 텍스트에 포함된 대용어에 대응되는 공통 정보를 선택하는데 이용될 수 있다.
한편, 예를 들어, 공통 정보 생성 모듈(2314)은 하나의 공통 정보 종류에 대하여 기설정된 개수의 타겟 단어에 대응되는 공통 정보를 저장할 수 있다. 예를 들어, 공통 정보의 종류 “location”에 대응되는 공통 정보가 하나만 저장되도록 하고, “location”에 대응되는 공통 정보가 저장된 이후에 입력되는 텍스트로부터 “location”에 대응되는 다른 타겟 단어에 대응되는 공통 정보가 생성된 경우에, 이전에 저장된 공통 정보를 삭제하고 다른 타겟 단어에 대응되는 공통 정보를 저장할 수 있다.
공통 정보 선택 모듈(2315)은 공통 정보 DB(2341)에 저장된 공통 정보 중에서 제2 텍스트의 해석을 위한 공통 정보를 선택할 수 있다.
제2 텍스트의 도메인이 도메인 식별 모듈(2311)에 의해 식별되면, 공통 정보 선택 모듈(2315)은 식별된 도메인에 관련하여 저장된 공통 정보들을 공통 정보 DB(2341)로부터 선택하고, 선택된 공통 정보들을 후술할 공통 정보 변환 모듈(2331)에게 제공할 수 있다. 공통 정보 선택 모듈(2315)은 제2 텍스트의 도메인과 무관하게 공통 정보 DB(2341)에 저장된 모든 또는 일부의 공통 정보들을 공통 정보 변환 모듈(2331)에게 제공할 수 있다. 공통 정보 선택 모듈(2315)이 일부의 공통 정보들을 선택하는 경우에, 공통 정보 선택 모듈(2315)은 공통 정보 DB(2341)에 저장된 공통 정보들 중에서 최근에 저장된 기설정된 개수의 공통 정보들을 공통 정보 변환 모듈(2331)에게 제공하기 위하여 선택할 수 있다. 이 경우, 공통 정보 변환 모듈(2331)에게 제공된 공통 정보는, 공통 정보 변환 모듈(2331)에 의해 변환되어 제2 텍스트와 함께 제2 NLU 모델(2332)에 입력될 수 있다.
일 실시예에 따르면, 후술할 대용어 식별 모듈(2333)에 의해 제2 텍스트 내의 대용어가 식별되면, 공통 정보 선택 모듈(2315)은 식별된 대용어에 대응되는 공통 정보를 공통 정보 DB(2341)로부터 선택하고, 선택된 공통 정보를 공통 정보 변환 모듈(2331)에게 제공할 수도 있다. 이 경우, 예를 들어, 공통 정보는 변환되어 제2 텍스트와 함께 제2 NLU 모델(2332)에 입력되거나, 제2 텍스트를 입력으로 하여 제2 NLU 모델(2332)로부터 출력되는 출력 값 중에서 대용어에 해당하는 값을 대체하는데 공통 정보가 이용될 수 있다.
공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 공통 정보를 수정할 수 있다. 공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 공통 정보를 제1 NLU 모델(2313) 의 출력 값을 바탕으로 수정할 수 있다. 타겟 단어 식별 모듈(2312)에 의해 제2 텍스트로부터 타겟 단어가 식별되면, 공통 정보 생성 모듈(2315)에 의해 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보가 생성될 수 있다. 또한, 공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 공통 정보를 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보로 대체할 수 있다. 예를 들어, 공통 정보 수정 모듈(2316)은, 제2 텍스트 내의 타겟 단어의 도메인 및 공통 정보 종류와 동일한 도메인 및 공통 정보 종류를 가지는 공통 정보를 수정할 수 있다. 예를 들어, 제1 텍스트가 “런던 날씨 어때?”이면, 타겟 단어인 ‘런던’에 대응되는 공통 정보가 weather 도메인 및 공통 정보 종류 location 에 연관되어 공통 정보 DB(2341)에 저장될 수 있다. 이후, “거기 대신에 서울 날씨는 어때?”라는 제2 텍스트가 제1 NLU 모델(2313)에 입력될 수 있다. 이 경우, 제2 텍스트 내의 타겟 단어 ‘서울’에 대응되는 공통 정보가 weather 도메인 및 공통 정보 종류 location에 연관되어 생성될 수 있다. 또한, 공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 ‘런던’에 대응되는 공통 정보를 ‘서울’에 대응되는 공통 정보로 대체할 수 있다.
또한, 공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 공통 정보를 제2 NLU 모델(2332)의 출력 값을 바탕으로 수정할 수 있다. 공통 정보 수정 모듈(2316)은 제2 NLU 모델(2332)로부터 출력되는 출력 값을 이용하여 텍스트 내의 타겟 단어를 식별하고, 타겟 단어를 나타내는 공통 정보가 공통 정보 DB(2341)에 저장된 공통 정보와 동일한 지를 판단할 수 있다. 공통 정보 수정 모듈(2316)이 식별한 타겟 단어를 나타내는 공통 정보가, 공통 정보 DB(2341)에 저장된 공통 정보와 상이한 경우에, 공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 공통 정보를 수정할 수 있다. 이 경우, 제2 NLU 모델(2332)로부터 출력되는 타겟 단어에 관련된 파라미터들을 바탕으로, 타겟 단어에 대응되는 공통 정보가 수정될 수 있다. 예를 들어, 제2 NLU 모델(2332)로부터 출력되는 타겟 단어의 의미 및 타겟 단어에 대응되는 공통 정보의 종류를 바탕으로, 타겟 단어에 대응되는 공통 정보가 수정될 수 있다. 예를 들어, 제1 NLU 모델(2313)에서는 텍스트 내에 포함된 타겟 단어 “서울”에 대응되는 공통 정보의 종류가 “Location”으로 출력되고, 제2 NLU 모델(2332)에서는 텍스트 내에 포함된 타겟 단어 “서울”에 대응되는 공통 정보의 종류가 “Person”으로 출력되는 경우에, 공통 정보 수정 모듈(2316)은 타겟 단어 “서울”에 대응되는 공통 정보를 추가 또는 수정할 수 있다. 이 경우, 제2 NLU 모델(2332)은 텍스트에 관련된 도메인에 특화된 모델일 수 있으며, 제2 NLU 모델(2332)을 이용하여 공통 정보를 생성 또는 수정함으로써, 텍스트 내의 타겟 단어에 관하여 보다 정확한 공통 정보가 공통 정보 DB(2341)에 저장될 수 있게 된다.
또한, 공통 정보 수정 모듈(2316)은 보이스 어시스턴트 서비스를 통해 사용자와 송수신한 데이터를 바탕으로, 공통 정보 DB(2341)에 저장된 공통 정보를 추가 또는 수정할 수도 있다. 공통 정보 수정 모듈(2316)은, 예를 들어, 사용자 입력으로부터 생성된 텍스트, 후술할 NLG 모델(2335)을 통해 생성된 응답 메시지, 사용자의 의도에 따른 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 기능 중 적어도 하나에 기초하여, 공통 정보 DB(2341)에 저장된 공통 정보를 추가 또는 수정할 수 있다. 보이스 어시스턴트 모듈(2330)은 사용자 입력으로부터 생성된 텍스트를 해석하고, 텍스트에 대한 응답 정보를 생성할 수 있다. 보이스 어시스턴트 모듈(2330)은 특정 도메인에 특화된 모듈로서, 제2 전자 장치(2000)는 복수의 도메인들에 대한 복수의 보이스 어시스턴트 모듈들(2330)을 포함할 수 있다. 또한, 제2 전자 장치(2000)는 텍스트의 도메인에 특화된 보이스 어시스턴트 모듈(2330)을 이용하여 텍스트를 해석할 수 있다. 예를 들어, 도메인 식별 모듈(2311)에 의해 텍스트의 도메인이 “Weather”로 결정되면, 도메인 “Weather”에 특화된 보이스 어시스턴트 모듈(2330)이 텍스트를 해석하는데 이용될 수 있다. 또한, 도메인 식별 모듈(2311) 에 의해 텍스트의 도메인이 “Clock”으로 결정되면, “Clock”에 특화된 보이스 어시스턴트 모듈(2330)이 텍스트를 해석하는데 이용될 수 있다.
보이스 어시스턴트 모듈(2330)은 공통 정보 변환 모듈(2331), 제2 NLU 모델(2332), 대용어 식별 모듈(2333), 응답 정보 생성 모듈(2334) 및 NLG 모델(2335)을 포함할 수 있다.
공통 정보 변환 모듈(2331)은 제2 텍스트의 해석을 위해 공통 정보를 변환할 수 있다. 공통 정보 변환 모듈(2331)은 공통 정보 DB(2341)에 저장된 공통 정보 중 적어도 일부를, 보이스 어시스턴트 모듈(2330)에 의해 처리될 수 있는 포맷으로 공통 정보를 변환할 수 있다. 또한, 변환된 공통 정보는, 대용어를 포함하는 제2 텍스트를 해석하는데 이용될 수 있다.
보이스 어시스턴트 모듈(2330)은 제2 NLU 모델(3332)을 이용하여 사용자 입력으로부터 생성된 텍스트를 해석할 수 있다. 제2 NLU 모델(3332)은 텍스트를 해석하여 사용자의 의도에 관련된 인텐트 및 파라미터를 출력할 수 있다. 인텐트는 제2 NLU 모델(2332)을 이용하여 텍스트를 해석함으로써 결정되는 정보로서, 예를 들어, 사용자의 의도를 나타낼 수 있다. 인텐트는, 사용자의 의도를 나타내는 의도 정보뿐 아니라, 사용자의 의도를 나타내는 정보에 대응하는 수치 값을 포함할 수 있다. 수치 값은, 텍스트가 특정 의도를 나타내는 정보와 관련될 확률을 나타낼 수 있다. 예를 들어, 제2 NLU 모델(2332)을 이용하여 텍스트를 해석한 결과, 사용자의 의도를 나타내는 정보가 복수 개 획득되는 경우, 각 의도 정보에 대응되는 수치 값이 최대인 의도 정보가 인텐트로 결정될 수 있다. 또한, 파라미터는 인텐트와 관련된 세부 정보를 나타낼 수 있다. 파라미터는 인텐트와 관련된 정보로서, 하나의 인텐트에 복수 종류의 파라미터가 대응될 수 있다.
일 실시예에 따르면, 보이스 어시스턴트 모듈(2330)은 제2 텍스트 내에 대용어가 존재하는 지를 판단하지 않고 제2 NLU 모델(2332)을 통해 제2 텍스트를 해석할 수 있다. 이 경우, 제2 NLU 모델(2332)은 공통 정보 및 제2 텍스트를 입력받아 제2 텍스트를 해석할 수 있으며, 제2 NLU 모델(2332)은 공통 정보 및 대용어를 포함하는 텍스트를 이용하여 훈련된, 대용어를 포함하는 텍스트를 해석하기 위한 인공지능 모델일 수 있다. 예를 들어, 제2 텍스트 내에 대용어가 존재하는 지가 판단되지 않은 상태에서, 제2 텍스트의 도메인이 도메인 식별 모듈(2311)에 의해 식별되고 제2 텍스트의 도메인에 연관된 공통 정보들이 공통 정보 변환 모듈(2331)에 의해 변환되면, 변환된 공통 정보 및 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수 있다. 또한, 제2 NLU 모델(2332)은 제2 텍스트 내의 대용어에 대응되는 공통 정보를 고려하여 제2 텍스트를 해석할 수 있게 된다. 예를 들어, 제2 텍스트가 “거기 오늘 날씨 어때?”인 경우에, 날씨 도메인에 연관된 공통 정보 및 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수 있으며, 제2 NLU 모델(2332)은 ‘날씨 정보 제공’이라는 인텐트, ‘오늘(date)’, ‘부산(location)’과 같은 파라미터들을 출력할 수 있다.
제2 텍스트 내에 대용어가 존재하는 지가 판단되지 않은 상태에서, 제2 텍스트의 도메인과 무관하게 공통 정보 DB(2341)에 저장된 모든 또는 일부의 공통 정보들이 공통 정보 변환 모듈(2331)에 의해 변환되고, 변환된 공통 정보는 제2 텍스트와 함께 제2 NLU 모델(2332)에 입력될 수 있다. 이에 따라, 제2 NLU 모델(2332)은 제2 텍스트 내의 대용어에 대응되는 공통 정보를 고려하여 제2 텍스트를 해석할 수 있게 된다. 예를 들어, 제2 텍스트가 “거기 오늘 날씨 어때?”인 경우에, 제2 텍스트의 도메인과 무관하게, 공통 정보 DB(2341)에 최근에 저장된 공통 정보 및 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수 있으며, 제2 NLU 모델(2332)은 ‘날씨 정보 제공’이라는 인텐트, ‘오늘(date)’, ‘부산(location)’과 같은 파라미터들을 출력할 수 있다.
한편, 일 실시예에 따르면, 보이스 어시스턴트 모듈(2330)은 제2 텍스트 내의 대용어를 식별하고, 식별된 대용어에 관련된 공통 정보를 이용하여 제2 텍스트를 해석할 수 있다.
이 경우, 대용어 식별 모듈(2333)은 프로세서(2200)에 의해 실행됨으로써 제2 텍스트 내의 대용어를 식별할 수 있다. 예를 들어, 대용어 식별 모듈(2333)은 룰 기반으로 제2 텍스트 내의 대용어를 식별할 수 있다. 대용어 식별 모듈(2333)은, 예를 들어, 기 설정된 대용어들을 제2 텍스트와 비교함으로써 제2 텍스트 내의 대용어를 식별할 수 있다. 이 경우, 제2 텍스트 내의 대용어를 식별하기 위하여 기 설정된 대용어들이 DB(2340)에 미리 저장되어 있을 수 있다.
대용어 식별 모듈(2333)은 대용어 식별을 위한 인공지능 모델을 이용하여 제2 텍스트 내의 대용어를 식별할 수 있다. 이 경우, 대용어 식별을 위한 인공지능 모델은 대용어의 식별을 위하여 미리 훈련된 모델일 수 있으며, 대용어 식별 모듈(2333)은 대용어 식별을 위한 인공지능 모델로부터 출력된 출력 값에 기초하여 제2 텍스트에 포함된 대용어를 식별할 수 있다. 예를 들어, 제2 텍스트가 대용어 식별을 위한 인공지능 모델에 입력되면 인공지능 모델로부터 파라미터 ‘거기(Anaphora)’가 출력될 수 있으며, 대용어 식별 모듈(2333)은 출력된 파라미터 ‘거기(Anaphora)’로부터, 텍스트 내의 ‘거기’가 대용어임을 식별할 수 있다. 대용어 식별을 위한 인공지능 모델은, 예를 들어, 제1 NLU 모델(2313), 제2 NLU 모델 또는 별개의 모델(미도시)을 포함할 수 있으나, 이에 제한되지 않는다.
대용어 식별 모듈(2333)에 의해 제2 텍스트 내의 대용어가 식별되는 경우에, 공통 정보 선택 모듈(2315)은 식별된 대용어에 관련된 공통 정보를 선택하여 공통 정보 변환 모듈(2331)에게 제공할 수 있다.
이 경우, 공통 정보 선택 모듈(2315)은 공통 정보 DB(2341)에 저장된 공통 정보 중에서 텍스트로부터 식별된 대용어에 대응되는 공통 정보를 선택할 수 있다. 공통 정보 선택 모듈(2315)은 텍스트에 포함된 대용어에 관련된 공통 정보의 종류 및/또는 텍스트에 관련된 도메인에 기초하여, 대용어가 나타내는 공통 정보를 공통 정보 DB(2341)로부터 식별할 수 있다. 예를 들어, 제1 텍스트로부터 생성된 “Weather” 도메인의 “location”에 대한 공통 정보가 런던의 GPS 좌표 값이며, 제1 텍스트 이후에 획득된 제2 텍스트에 포함된 대용어가 “거기”인 경우에, 공통 정보 선택 모듈(2315)은 공통 정보의 종류 “location”에 기초하여, 대용어 “거기”에 대응되는 공통 정보인 런던의 GPS 좌표 값을 공통 정보 DB(2341)로부터 선택할 수 있다.
공통 정보 선택 모듈(2315)은 대용어에 대응되는 타겟 단어를 식별하고, 타겟 단어에 대응되는 공통 정보를 선택할 수도 있다. 이 경우, 공통 정보 선택 모듈(2315)은 대용어를 포함하는 제2 텍스트가 획득되기 이전에 획득된 텍스트들로부터 식별된 타겟 단어들 중에서, 대용어에 대응되는 타겟 단어를 선택할 수 있다. 또한, 공통 정보 선택 모듈(2315)은 선택된 타겟 단어에 대응되는 공통 정보를 선택할 수 있다. 하지만, 이에 제한되지 않으며, 공통 정보 선택 모듈(2315)은, 예를 들어, 공통 정보가 저장된 순서, 공통 정보가 관련된 도메인, 공통 정보에 대응되는 타겟 단어 및 공통 정보의 속성 중 적어도 하나를 고려하여, 다양한 기준에 따라 공통 정보를 선택할 수 있다.
한편, 예를 들어, 타겟 단어에 관련된 복수의 공통 정보가 공통 정보 DB(2341)에 저장된 경우, 공통 정보 선택 모듈(2315)은 다음 텍스트에 포함된 타겟 단어에 대응되는 공통 정보를 저장된 복수의 공통 정보 중에서 선택할 수 있다. 이 경우, 공통 정보 선택 모듈(2315)은 후술할 제2 NLU 모델(2332)의 출력 값을 고려하여, 텍스트에 포함된 대용어에 대응되는 공통 정보를 공통 정보 DB(2341)에 저장된 복수의 공통 정보 중에서 선택할 수 있다.
또한, 공통 정보 선택 모듈(2315)에 의해 선택된 공통 정보는, 후술할 보이스 어시스턴트 모듈(2330)이 이용할 수 있는 포맷으로 변환될 수 있다. 예를 들어, 공통 정보 선택 모듈(2315)에 의해 선택된 공통 정보가 후술할 보이스 어시스턴트 모듈(2330)에 의해 그대로 이용되기 힘든 경우에, 보이스 어시스턴트 모듈(2330)이 이용할 수 있는 포맷으로 변환될 수 있다.
일 실시예에 따르면, 보이스 어시스턴트 모듈(2330)은 공통 정보 및 제2 텍스트를 제2 NLU 모델(2332)에 입력하여 제2 텍스트를 해석할 수 있다. 보이스 어시스턴트 모듈(2330)은 제2 텍스트 및 제2 텍스트 내의 대용어에 대응되는 공통 정보를 제2 NLU 모델(2332)에 입력하고, 제2 NLU 모델(2332)로부터 출력되는 출력 값을 획득할 수 있다. 이 경우, 제2 NLU 모델(2332)은 제2 텍스트 내의 대용어에 대응되는 공통 정보 및 제2 텍스트를 입력받아 제2 텍스트를 해석할 수 있으며, 제2 NLU 모델(2332)은 대용어에 대응되는 공통 정보 및 대용어를 포함하는 텍스트를 이용하여 훈련된, 대용어를 포함하는 텍스트를 해석하기 위한 인공지능 모델일 수 있다. 예를 들어, 제2 텍스트 내의 대용어에 대응되는 공통 정보가 공통 정보 변환 모듈(2331)에 의해 변환되면, 변환된 공통 정보 및 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수 있다. 또한, 제2 NLU 모델(2332)은 제2 텍스트 내의 대용어에 대응되는 공통 정보를 고려하여 제2 텍스트를 해석할 수 있게 된다. 예를 들어, 제2 텍스트가 “거기 오늘 날씨 어때?”인 경우에, ‘거기’에 대응되는 공통 정보 및 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수 있으며, 제2 NLU 모델(2332)은 ‘날씨 정보 제공’이라는 인텐트, ‘오늘(date)’, ‘부산(location)’과 같은 파라미터들을 출력할 수 있다.
상기에서는, 제2 텍스트 및 제2 텍스트 내의 대용어에 대응되는 공통 정보가 모두 제2 NLU 모델(2332)에 입력되는 것으로 설명되었지만, 이에 제한되지 않는다. 예를 들어, 제2 텍스트 내의 대용어가 공통 정보로 대체되고, 대용어가 공통 정보로 대체된 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수도 있다.
일 실시예에 따르면, 보이스 어시스턴트 모듈(2330)은 제2 텍스트를 제2 텍스트를 제2 NLU 모델(2332)에 입력하고, 제2 NLU 모델(2332)로부터 출력된 파라미터 중 대용어에 대응되는 파라미터를 대용어에 대응되는 공통 정보로 대체할 수도 있다. 이 경우, 제2 NLU 모델(2332)은 제2 텍스트를 입력받아 제2 텍스트를 해석하는 인공지능 모델일 수 있다. 예를 들어, 제2 텍스트가 “거기 오늘 날씨 어때?”인 경우에, 제2 텍스트가 제2 NLU 모델(2332)에 입력될 수 있으며, 제2 NLU 모델(2332)은 ‘날씨 정보 제공’이라는 인텐트, ‘오늘(date)’, ‘거기(Anaphora)’과 같은 파라미터들을 출력할 수 있다. 또한, 보이스 어시스턴트 모듈(2330)은 대용어를 나타내는 파라미터인 ‘거기(Anaphora)’를 ‘부산(location)’으로 대체할 수 있다.
응답 정보 생성 모듈(2334)은 제2 텍스트의 해석 결과에 기초하여 텍스트에 대한 응답 정보를 생성할 수 있다. 응답 정보는, 텍스트에 대한 응답에 관련된 데이터로서, 예를 들어, 제1 전자 장치(1000), 다른 디바이스(미도시) 및 다른 서버(미도시)에게 제공되는 데이터 및 제2 전자 장치(2000)의 동작을 위한 데이터를 포함할 수 있다.
응답 정보 생성 모듈(2334)은 제2 NLU 모델(2332)의 출력 값에 기초하여 사용자의 의도에 따른 제2 전자 장치(2000), 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 액션들을 플래닝할 수 있다. 예를 들어, 응답 정보 생성 모듈(2334)은 텍스트의 해석 결과, 후술할 발화 데이터 DB(2342)에 저장된 발화 데이터, 및 후술할 액션 데이터 DB(2343)에 저장된 액션 데이터를 이용하여, 사용자의 의도에 따른 제2 전자 장치(2000), 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 액션들을 플래닝할 수 있다. 또한, 응답 정보 생성 모듈(2334)은 사용자의 의도에 따른 제2 전자 장치(2000), 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 액션들을 플래닝함으로써, 텍스트에 대한 응답 정보를 생성할 수 있다.
예를 들어, 응답 정보 생성 모듈(2334)은 NLG 모델(2335)을 이용하여 사용자의 의도에 따른 응답 메시지를 생성할 수 있다. 또한, 예를 들어, 응답 정보 생성 모듈(2334)은 텍스트, 이미지, 동영상 등과 같이, 사용자에 제공할 응답 컨텐츠를 획득할 수 있다. 또한, 예를 들어, 응답 정보 생성 모듈(2334)은 사용자의 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 동작들을 결정하고, 제1 전자 장치(1000) 또는 다른 디바이스(미도시)를 를 제어하기 위한 제어 명령을 생성할 수 있다.
DB(2340)는 보이스 어시스턴트 서비스를 위하여 필요한 정보를 저장할 수 있다. DB(2340)는 공통 정보 DB(2341), 발화 데이터 DB(2342) 및 액션 데이터 DB(2343)를 포함할 수 있다.
공통 정보 DB(2341)는 타겟 단어에 대응되는 공통 정보를 저장할 수 있다. 공통 정보 DB(2341)는 텍스트가 획득된 순서에 따라, 텍스트 내의 타겟 단어에 관련된 공통 정보를 누적하여 저장할 수 있다. 또한, 예를 들어, 공통 정보 DB(2341)는 생성된 공통 정보를 공통 정보의 종류, 공통 정보가 관련된 도메인, 공통 정보에 대응되는 타겟 단어 및 공통 정보의 속성과 연관지어 저장할 수 있다.
발화 데이터 DB(2342)는 제1 전자 장치(1000) 및 다른 디바이스(미도시)의 기능들에 관련된 발화 데이터를 저장할 수 있다. 저장된 발화 데이터는, 텍스트의 해석 결과에 관련된 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 기능을 식별하는데 이용될 수 있다.
액션 데이터 DB(2343)는 제1 전자 장치(1000) 및 다른 제1 전자 장치(1000)의 기능들에 관련된 액션 데이터를 저장할 수 있다. 액션 데이터는, 소정의 발화 데이터에 대응되는 제1 전자 장치(1000)의 일련의 세부 동작들에 관한 데이터일 수 있다. 예를 들어, 액션 데이터는, 소정의 발화 데이터에 대응하여 디바이스가 수행할 세부 동작들, 각 세부 동작들과 다른 세부 동작과의 연관 관계, 및 세부 동작들의 실행 순서에 관련된 정보를 포함할 수 있다. 세부 동작과 다른 세부 동작과의 연관 관계는, 하나의 세부 동작을 실행하기 위해서 그 세부 동작을 실행하기 전에 실행되어야 할 다른 세부 동작에 대한 정보를 포함한다. 예를 들어, 수행할 동작이 “음악 재생”인 경우, “전원 온(on)”은 “음악 재생” 동작 이전에 실행되어야 하는 다른 세부 동작이 될 수 있다. 또한, 액션 데이터는 예를 들어, 특정 동작의 수행을 위하여 타겟 디바이스가 실행해야 할 기능들, 기능들의 실행 순서, 기능들을 실행하기 위하여 필요한 입력 값 및 기능들의 실행 결과로서 출력되는 출력 값을 포함할 수 있으나, 이에 한정되지 않는다. 발화 데이터 DB(2342)에 저장된 발화 데이터 및 액션 데이터 DB(2343)에 저장된 액션 데이터는 서로 매핑될 수 있으며, 제2 전자 장치(2000)가 텍스트의 해석 결과로부터 사용자의 의도에 관련된 제2 전자 장치(2000)의 동작들, 제1 전자 장치(1000)의 동작들 및 다른 디바이스(미도시)의 동작들을 플래닝하는데 이용될 수 있다.
한편, 도 2에서는 제2 전자 장치(2000)가 제1 전자 장치(1000)로부터 사용자의 입력에 기초한 텍스트를 바탕으로 타겟 단어에 대응되는 공통 정보를 관리하고 보이스 어시스턴트 서비스를 제공하는 것으로 설명되었지만 이에 제한되지 않는다. 예를 들어, 제2 전자 장치(2000)는 제1 전자 장치(1000)로부터 텍스트를 수신하지 않고, 제2 전자 장치(2000)에 입력되는 사용자 입력에 기초하여 텍스트 내의 타겟 단어에 대응되는 공통 정보를 관리하고 보이스 어시스턴트 서비스를 제공할 수도 있다. 또한, 제2 전자 장치(2000)는 서버 장치 또는 사용자의 디바이스일 수 있으며, 도 2에서의 제2 전자 장치(2000)의 동작들 중 적어도 일부가 제1 전자 장치(1000)에 의해 수행될 수도 있다. 또한, 제2 전자 장치(2000)가 사용자의 디바이스인 경우에 제2 전자 장치(2000)는 사용자 입력부(미도시), 디스플레이부(미도시) 및 센서부(미도시) 등의 구성을 더 포함할 수도 있다.
도 3은 본 개시의 일 실시예에 따른 공통 정보 관리 모듈(2312)이 제1 텍스트로부터 공통 정보를 생성하는 예시를 나타내는 도면이다.
도 3을 참조하면, 사용자 입력에 따른 제1 텍스트인 “런던 날씨 어때?”가 제2 전자 장치(2000)에 의해 수신되면, 제2 전자 장치(2000)의 공통 정보 관리 모듈(2312)은 제1 텍스트를 제1 NLU 모델(2313)에 입력하고, 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트의 도메인 및 타겟 단어를 식별할 수 있다. 예를 들어, 공통 정보 관리 모듈(2312)은 “런던 날씨 어때?”의 도메인이 “Weather”이며, 타겟 단어가 “런던”이며, 공통 정보의 종류가 “Geo”임을 식별할 수 있다. 또한, 공통 정보 관리 모듈(2312)은 런던의 GPS 좌표를 나타내는 값을 “런던”이라는 타겟 단어에 대응되는 공통 정보로 생성할 수 있다.
도 4는 본 개시의 일 실시예에 따른 타겟 단어를 포함하는 텍스트에 대응되는 도메인의 예시를 나타내는 도면이다.
도 4를 참조하면, “부산 날씨 어때?”, “LA 지금 몇 도야?”, 및 “일요일 날씨 알려줘.”의 도메인이 “Weather”로 식별되고, “상하이 시간 알려줘.” 및 “브라질 지금 몇 시야?”의 도메인이 “Clock”으로 식별되고, “런던 맛 집 찾아줘.” 및 “내일 여는 맛 집 알려줘.”의 도메인이 “Restaurant”으로 식별될 수 있다.
또한, 타겟 단어들인 “부산”, “LA”, “상하이”, “브라질”, 및 “런던”에 대응되는 공통 정보의 종류가 “location”으로 식별되고, 타겟 단어들인 “내일” 및 “일요일”에 대응되는 공통 정보의 종류가 “date”로 식별될 수 있다.
또한, 타겟 단어에 대응되는 공통 정보가 생성될 수 있으며, 생성된 공통 정보는 도메인 또는 공통 정보의 종류에 따라 분류되어 저장될 수 있다.
도 5는 본 개시의 일 실시예에 따른 타겟 단어에 대응되는 공통 정보의 예시를 나타내는 도면이다.
도 5를 참조하면, 타겟 단어 “20.04.19” 및 “2020/04/19”에 대응되는 공통 정보로서, “common.BaseDate{ year{common.Integer(2020)}, month{common.Integer(4)}, day {common.Integer(19)}}” 가 생성되고, 타겟 단어 “LA” 및 “Los Angeles”에 대응되는 공통 정보로서, “common.BaseGeoPoint {latitude {common.decimal(34.052235)}, longitude{common.decimal(-118.243683)}}”가 생성될 수 있다. 또한, 도 5에서 예시된 공통 정보는 복수의 보이스 어시스턴트 모듈에 의해 공통으로 식별될 수 있는 포맷일 수 있다.
도 6은 본 개시의 일 실시예에 따른 제2 텍스트 내의 대용어에 대응되는 공통 정보가 획득되는 예시를 나타내는 도면이다.
도 6을 참조하면, 사용자의 “런던 날씨 어때?”라는 제1 텍스트가 제1 전자 장치(1000)로부터 수신되면, 제2 전자 장치(2000)는 제1 텍스트 내의 타겟 단어 “런던”에 대응되는 공통 정보를 생성하여, 공통 정보 DB(2343)에 저장할 수 있다.
이후, 제1 전자 장치(1000)가 제1 텍스트에 대한 응답으로서, “지금은 화창하고 맑은 날씨네요.”를 출력하면, 사용자는 “거기는 지금 몇시야?”라는 질의를 제1 전자 장치(1000)에 입력할 수 있다. 이후, 제1 전자 장치(1000)가 “거기는 지금 몇시야?”라는 제2 텍스트를 제2 전자 장치(2000)에게 제공되면, 제2 전자 장치(2000)는 제2 텍스트 내의 대용어인 “거기”를 검출하고, 검출된 대용어에 대응되는 공통 정보를 공통 정보 DB(2343)로부터 추출하여, 제2 텍스트의 의미를 해석할 수 있다.
도 7은 본 개시의 일 실시예에 따른 제2 전자 장치(2000)가 제1 텍스트에 대한 공통 정보를 생성하고 제1 텍스트에 대한 응답을 제공하는 방법의 흐름도이다.
동작 S700에서 제2 전자 장치(2000)는 사용자의 제1 텍스트를 획득할 수 있다. 보이스 어시스턴스 서비스를 이용하는 사용자의 제1 전자 장치(1000)는 사용자의 제1 음성 입력을 수신할 수 있으며, 수신된 제1 음성 입력을 제1 텍스트로 변환할 수 있다. 제1 전자 장치(1000)는 제1 텍스트를 제2 전자 장치(2000)로 전송할 수 있으며, 제2 전자 장치(2000)는 제1 전자 장치(1000)로부터 전송된 제1 텍스트를 수신할 수 있다. 예를 들어, 사용자가 “오늘 런던 날씨 어때?”라는 음성을 제1 전자 장치(1000)에 입력하면, 제1 전자 장치(1000)는 사용자의 음성을 제1 텍스트인 “오늘 런던 날씨 어때?”로 변환하고, 변환된 제1 텍스트를 제2 전자 장치(2000)에게 제공할 수 있다. 사용자가 제1 전자 장치(1000)에 텍스트 입력을 하는 경우에, 제1 전자 장치(1000)는 사용자에 의해 입력된 제1 텍스트를 제2 전자 장치(2000)에게 제공하고, 제2 전자 장치(2000)가 제1 전자 장치(1000)로부터 제공된 제1 텍스트를 수신할 수도 있다.
제2 전자 장치(2000)는 제2 전자 장치(2000)에 대한 사용자의 음성 입력으로부터 제1 텍스트를 획득할 수도 있다. 이 경우, 제2 전자 장치(2000)는 서버가 아닌 사용자의 디바이스일 수 있다.
동작 S705에서 제2 전자 장치(2000)는 제1 NLU 모델(2313)을 이용하여 제1 텍스트로부터 도메인, 타겟 단어 및 타겟 단어에 관련된 정보를 식별할 수 있다.
제2 전자 장치(2000)는 사용자 입력의 제1 텍스트를 제1 NLU 모델(2313)을 이용하여 분석함으로써 제1 텍스트의 도메인을 식별할 수 있다. 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트의 도메인을 식별할 수 있다. 예를 들어, "오늘 런던 날씨 어때?"라는 제1 텍스트가 제1 NLU 모델(2313)에 입력되고, 제1 NLU 모델(2313)로부터 제1 텍스트의 도메인이 “Weather”라는 출력 값이 출력될 수 있으며, 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트의 도메인이 “Weather”임을 식별할 수 있다.
제2 전자 장치(2000)는 텍스트 내의 타겟 단어 및 타겟 단어에 관련된 정보를 식별할 수 있다. 제2 전자 장치(2000)는 사용자의 제1 텍스트를 제1 NLU 모델(2313)을 이용하여 분석함으로써 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류를 식별할 수 있다. 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류를 식별할 수 있다. 예를 들어, "오늘 런던 날씨 어때?"라는 제1 텍스트가 제1 NLU 모델(2313)에 입력되면, 제1 NLU 모델(2313)로부터 제1 텍스트 내의 타겟 단어가 “런던”이며 “런던”의 공통 정보의 종류가 “location”임은 나타내는 출력 값이 출력될 수 있으며, 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트 내의 타겟 단어가 “런던”이며, “런던”에 대응되는 공통 정보의 종류가 “location”임을 식별할 수 있다.
동작 S710에서 제2 전자 장치(2000)는 제1 텍스트 내의 타겟 단어에 대한 공통 정보의 생성이 필요한지를 결정할 수 있다. 제2 전자 장치(2000)는 제1 텍스트 내에 타겟 단어가 포함되어 있는지 여부, 제1 텍스트 이전에 입력된 텍스트들의 의미 및 공통 정보 DB(2343)에 저장된 공통 정보를 고려하여 제1 텍스트 내의 타겟 단어에 대한 공통 정보의 생성이 필요한지를 결정할 수 있다. 예를 들어, 제1 텍스트에 포함된 타겟 단어 및 타겟 단어에 대응되는 공통 정보가 공통 정보 DB(2343)에 저장되어 있지 않다고 판단되면, 제2 전자 장치(2000)는 제1 텍스트 내의 타겟 단어에 대응되는 공통 정보를 저장할 것을 판단할 수 있다. 제1 텍스트에 포함된 타겟 단어 및 타겟 단어에 대응되는 공통 정보가 공통 정보 DB(2343)에 이미 저장되어 있다고 판단되면, 제2 전자 장치(2000)는 제1 텍스트 내의 타겟 단어에 대응되는 공통 정보를 저장하지 않을 것을 판단할 수 있다.
동작 S710에서의 판단 결과, 공통 정보의 생성이 필요하다고 판단되면, 동작 S715에서 제2 전자 장치(2000)는 타겟 단어에 대응되는 공통 정보를 생성할 수 있다. 제2 전자 장치(2000)는 타겟 단어를 나타내는 세부적인 데이터를 공통 정보로서 생성할 수 있으며, 복수의 보이스 어시스턴트 모듈(2330)에서 공통으로 식별될 수 있는 포맷에 따라 공통 정보를 생성할 수 있다. 예를 들어, 타겟 단어가 “런던”이고 공통 정보의 종류가 “location”인 경우에, 제2 전자 장치(2000)는 “런던”에 대응되는 공통 정보로서 런던의 위치를 나타내는 GPS 좌표 값을 복수의 NLU 모델에서 공통으로 식별될 수 있는 포맷으로 생성할 수 있다. 예를 들어, 타겟 단어가 “Tom”이고 공통 정보의 종류가 “person”인 경우에, 제2 전자 장치(2000)는 “Tom”에 대응되는 공통 정보로서 Tom을 식별할 수 있는 식별자를 복수의 NLU 모델에서 공통으로 식별될 수 있는 포맷으로 생성할 수 있다. 예를 들어, 타겟 단어가 “크리스마스”이고 공통 정보의 종류가 “Time/Date”인 경우에, 제2 전자 장치(2000)는 “크리스마스”에 대응되는 공통 정보로서 12월 25일을 복수의 NLU 모델에서 공통으로 식별될 수 있는 포맷으로 생성할 수 있다.
한편, 예를 들어, 텍스트 내에 하나의 공통 정보의 종류에 대응되는 복수의 타겟 단어들이 포함된 경우에, 제2 전자 장치(2000)는 기 설정된 기준에 따라, 공통 정보의 종류에 대응될 하나의 타겟 단어를 선택하고 선택된 타겟 단어에 대한 공통 정보를 생성할 수 있다. 예를 들어, “서울역에서 부산역으로 가는 길을 알려줘.”라는 텍스트는, 공통 정보의 종류인 “location”에 대응되는 타겟 단어들로서 “서울역” 및 “부산역”을 포함할 수 있다. 이 경우, 출발지보다 도착지에 대해 높은 우선 순위가 부여되도록 공통 정보 생성 기준이 설정될 수 있으며, 제2 전자 장치(2000)는 출발지인 “서울역”보다 도착지인 “부산역”에 대하여 공통 정보를 생성할 수 있다. 하지만, 이에 제한되지 않으며, 제2 전자 장치(2000)는 복수의 타겟 단어들에 각각 대응되는 복수의 공통 정보를 생성하고, 다음 텍스트에 포함된 대용어에 대응되는 공통 정보로서, 복수의 공통 정보 중 적어도 하나가 선택되도록 할 수도 있다.
한편, 예를 들어, 제2 전자 장치(2000)는 하나의 타겟 단어에 대응되는 복수의 공통 정보를 생성할 수도 있다. 예를 들어, 공통 정보의 종류가 “Time/Date”인 타겟 단어 “크리스마스”에 대하여, 공통 정보 생성 모듈(2314)은 “크리스마스”를 나타내는 식별 값 및 “12월 25”일을 “크리스마스”에 대응되는 공통 정보로서 생성할 수 있다.
동작 S720에서 제2 전자 장치(2000)는 생성된 공통 정보를 누적하여 저장할 수 있다. 제2 전자 장치(2000)는 생성된 공통 정보를 공통 정보 DB(2341)에 저장할 수 있다. 제2 전자 장치(2000)는 텍스트가 획득된 순서에 따라, 텍스트 내의 타겟 단어에 관련된 공통 정보를 누적하여 저장할 수 있다. 또한, 예를 들어, 제2 전자 장치(2000)는 생성된 공통 정보를, 공통 정보의 종류, 공통 정보가 관련된 도메인, 공통 정보에 대응되는 타겟 단어 및 공통 정보의 속성과 연관지어 저장할 수 있다.
한편, 예를 들어, 제2 전자 장치(2000)는 하나의 공통 정보 종류에 대하여 기설정된 개수의 타겟 단어에 대응되는 공통 정보를 저장할 수 있다. 예를 들어, 공통 정보의 종류 “location”에 대응되는 공통 정보가 하나만 저장되도록 하고, “location”에 대응되는 공통 정보가 저장된 이후에 입력되는 텍스트로부터 “location”에 대응되는 다른 타겟 단어에 대응되는 공통 정보가 생성된 경우에, 이전에 저장된 공통 정보를 삭제하고 다른 타겟 단어에 대응되는 공통 정보를 저장할 수 있다.
동작 S725에서 제2 전자 장치(2000)는 제2 NLU 모델(2332)을 이용하여 제1 텍스트를 해석할 수 있다.
제2 전자 장치(2000)는 제1 텍스트를 제2 NLU 모델(3332)에 입력하고 제2 NLU 모델(2332)로부터 출력되는 인텐트 및 파라미터를 획득할 수 있다. 또한, 제2 전자 장치(2000)는 사용자의 의도를 나타내는 인텐트 및 인텐트에 관련된 세부 정보를 나타내는 파라미터에 기초하여, 제1 텍스트를 해석할 수 있다. 만약, 제1 텍스트 내에 대용어가 포함된 경우에, 제2 전자 장치(2000)는 제1 텍스트 이전에 획득된 텍스트로부터 생성된 공통 정보를 이용하여 제1 텍스트를 해석할 수 있다.
제2 전자 장치(2000)는 제1 텍스트의 도메인에 특화된 보이스 어시스턴트 모듈(2330)을 선택하고, 선택된 보이스 어시스턴트 모듈(2330)을 제어하여 제1 텍스트를 해석할 수 있다. 제2 전자 장치(2000)는 제1 텍스트의 도메인에 특화된 보이스 어시스턴트 모듈(2330) 내의 제2 NLU 모델(3332)을 이용하여 제1 텍스트를 해석할 수 있다.
동작 S710에서의 판단 결과, 공통 정보의 생성이 필요하지 않다고 판단되면, 제2 전자 장치(2000)는 제1 텍스트에 대한 공통 정보를 생성하지 않고 동작 S725에서 제2 전자 장치(2000)는 제2 NLU 모델(2332)을 이용하여 제1 텍스트를 해석할 수 있다.
동작 S730에서 제2 전자 장치(2000)는 제1 텍스트에 대한 응답 정보를 생성할 수 있다. 제2 전자 장치(2000)는 제1 텍스트의 해석 결과에 기초하여 제1 텍스트에 대한 응답 정보를 생성할 수 있다. 응답 정보는, 텍스트에 대한 응답에 관련된 데이터로서, 예를 들어, 제1 전자 장치(1000), 다른 디바이스(미도시) 및 다른 서버(미도시)에게 제공되는 데이터 및 제2 전자 장치(2000)의 동작을 위한 데이터를 포함할 수 있다. 제2 전자 장치(2000)는 제2 NLU 모델(2332)의 출력 값에 기초하여 사용자의 의도에 따른 제2 전자 장치(2000), 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 액션들을 플래닝할 수 있다. 예를 들어, 제2 전자 장치(2000)는 제1 텍스트의 해석 결과, 발화 데이터 DB(2342)에 저장된 발화 데이터, 및 액션 데이터 DB(2343)에 저장된 액션 데이터를 이용하여, 사용자의 의도에 따른 제2 전자 장치(2000), 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 액션들을 플래닝할 수 있다. 또한, 제2 전자 장치(2000)는 사용자의 의도에 따른 제2 전자 장치(2000), 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 액션들을 플래닝함으로써, 텍스트에 대한 응답 정보를 생성할 수 있다.
예를 들어, 제2 전자 장치(2000)는 NLG 모델(2335)을 이용하여 사용자의 의도에 따른 응답 메시지를 생성할 수 있다. 또한, 예를 들어, 제2 전자 장치(2000)는 텍스트, 이미지, 동영상 등과 같이, 사용자에 제공할 응답 컨텐츠를 획득할 수 있다. 또한, 예를 들어, 제2 전자 장치(2000)는 사용자의 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 동작들을 결정하고, 제1 전자 장치(1000) 또는 다른 디바이스(미도시)를 를 제어하기 위한 제어 명령을 생성할 수 있다.
동작 S735에서 제2 전자 장치(2000)는 생성된 응답 정보를 제공할 수 있다. 제2 전자 장치(2000)는 생성된 응답 정보를 제1 전자 장치(1000), 다른 디바이스(미도시) 또는 다른 서버(미도시) 중 적어도 하나에게 제공할 수 있다. 응답 정보를 수신한 제1 전자 장치(1000) 및 다른 디바이스(미도시)는 응답 정보에 따른 동작을 수행할 수 있다. 예를 들어, 응답 정보가 응답 메시지인 경우에, 제1 전자 장치(1000) 및 다른 디바이스(미도시)는 응답 메시지를 출력할 수 있다. 또한, 예를 들어, 응답 메시지가 제어 명령인 경우에, 제1 전자 장치(1000), 다른 디바이스(미도시)는 제어 명령에 따른 기능을 실행할 수 있다. 또한, 예를 들어, 응답 정보를 수신한 다른 서버(미도시)는 응답 정보에 따라 제1 전자 장치(1000) 및 다른 디바이스(미도시)를 제어할 수 있다.
도 8은 본 개시의 일 실시예에 따른 제2 전자 장치(2000)가 제2 텍스트에 대한 공통 정보를 생성하고 제2 텍스트에 대한 응답을 제공하는 방법의 흐름도이다.
동작 S800에서 제2 전자 장치(2000)는 사용자의 제2 텍스트를 획득할 수 있다. 제1 전자 장치(1000)는 사용자의 제1 음성을 수신한 이후에 사용자의 제2 음성을 수신할 수 있으며, 수신된 제2 음성을 제2 텍스트로 변환할 수 있다. 제1 전자 장치(1000)는 제2 텍스트를 제2 전자 장치(2000)로 전송할 수 있으며, 제2 전자 장치(2000)는 제1 전자 장치(1000)로부터 전송된 제2 텍스트를 수신할 수 있다. 예를 들어, 사용자가 “런던 날씨 어때?”라는 제1 음성 이후에, 사용자는 “ 거기는 지금 몇 시야?”라는 제2 음성을 제1 전자 장치(1000)에 입력할 수 있으며, 제1 전자 장치(1000)는 사용자의 제2 음성을 제2 텍스트인 “거기는 지금 어디야?”로 변환하고, 변환된 제2 텍스트를 제2 전자 장치(2000)에게 제공할 수 있다. 사용자가 제1 전자 장치(1000)에 텍스트 입력을 하는 경우에, 제1 전자 장치(1000)는 사용자에 의해 입력된 제2 텍스트를 제2 전자 장치(2000)에게 제공하고, 제2 전자 장치(2000)가 제1 전자 장치(1000)로부터 제공된 제2 텍스트를 수신할 수도 있다.
제2 전자 장치(2000)는 제2 전자 장치(2000)에 대한 사용자의 음성 입력으로부터 제2 텍스트를 획득할 수도 있다. 이 경우, 제2 전자 장치(2000)는 서버가 아닌 사용자의 디바이스일 수 있다.
동작 S805에서 제2 전자 장치(2000)는 제1 NLU 모델을 이용하여 제2 텍스트로부터 도메인 및 타겟 단어를 식별할 수 있다. 제2 전자 장치(2000)는 사용자의 제2 텍스트를 제1 NLU 모델(2313)을 이용하여 분석함으로써 제2 텍스트의 도메인을 식별할 수 있다. 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제2 텍스트의 도메인을 식별할 수 있다. 예를 들어, "거기는 지금 몇 시야?"라는 제2 텍스트가 제1 NLU 모델(2313)에 입력되고, 제1 NLU 모델(2313)로부터 제2 텍스트의 도메인이 “Time”이라는 출력 값이 출력될 수 있으며, 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제2 텍스트의 도메인이 “Time”임을 식별할 수 있다.
제2 전자 장치(2000)는 제2 텍스트 내의 타겟 단어 및 타겟 단어에 관련된 정보를 식별할 수 있다. 제2 전자 장치(2000)는 사용자의 제2 텍스트를 제1 NLU 모델(2313)을 이용하여 분석함으로써 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류를 식별할 수 있다. 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 타겟 단어 및 타겟 단어에 대응되는 공통 정보의 종류를 식별할 수 있다. 예를 들어, "거기는 지금 몇 시야?"라는 제2 텍스트가 제1 NLU 모델(2313)에 입력되면, 제1 NLU 모델(2313)로부터 제1 텍스트 내의 타겟 단어가 없음을 나타내는 출력 값이 출력될 수 있으며, 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제1 텍스트 내의 타겟 단어가 없음을 식별할 수 있다.
“거기는 12월 25일이 공휴일이야?”라는 제2 텍스트가 제1 NLU 모델(2313)에 입력되면, 제2 텍스트 내의 타겟 단어가 “12월 25일”이며 “12월 25일”의 공통 정보의 종류가 “date”임은 나타내는 출력 값이 출력될 수 있으며, 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제2 텍스트 내의 타겟 단어가 “12월 25일”이며, “12월 25일”에 대응되는 공통 정보의 종류가 “date”임을 식별할 수 있다.
동작 S810에서 제2 전자 장치(2000)는 공통 정보의 생성이 필요한지를 판단할 수 있다. 제2 전자 장치(2000)는 제2 텍스트 내에 타겟 단어가 포함되어 있는지 여부, 제2 텍스트 이전에 입력된 텍스트들의 의미, 및 공통 정보 DB(2343)에 저장된 공통 정보를 고려하여 제2 텍스트 내의 타겟 단어에 대한 공통 정보의 생성이 필요한지를 결정할 수 있다. 예를 들어, 제2 텍스트 내에 타겟 단어가 포함되지 않은 경우에, 제2 전자 장치(2000)는 공통 정보를 생성하지 않을 것을 결정할 수 있다. 또한, 예를 들어, 제2 텍스트 내의 타겟 단어와 동일한 타겟 단어에 대응되는 공통 정보가 공통 정보 DB(2343)에 이미 저장되어 있는 경우에, 제2 전자 장치(2000)는 공통 정보를 생성하지 않을 것을 결정할 수 있다. 또한, 예를 들어, 제2 텍스트 내의 타겟 단어가 신규의 타겟 단어인 경우에, 제2 전자 장치(2000)는 공통 정보를 생성할 것을 결정할 수 있다.
동작 S810에서의 판단 결과, 공통 정보의 생성이 필요하다고 판단되면, 동작 S815에서 제2 전자 장치(2000)는 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보를 생성할 수 있다. 제2 전자 장치(2000)는 타겟 단어를 나타내는 세부적인 데이터를 공통 정보로서 생성할 수 있으며, 복수의 보이스 어시스턴트 모듈(2330)에서 공통으로 식별될 수 있는 포맷에 따라 공통 정보를 생성할 수 있다.
예를 들어, “거기 대신에 서울 날씨는 어때?”라는 제2 텍스트가 제1 NLU 모델(2313)에 입력될 수 있다. 이 경우, 제2 텍스트 내의 타겟 단어 ‘서울’에 대응되는 공통 정보가 weather 도메인 및 공통 정보 종류 location에 연관되어 생성될 수 있다.
동작 S820에서 제2 전자 장치(2000)는 공통 정보 DB(2343)에 저장된 공통 정보를 추가 또는 수정할 수 있다. 제2 전자 장치(2000)는 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보를 공통 정보 DB(2343)에 추가할 수 있다. 예를 들어, 제2 텍스트 내의 타겟 단어가 신규의 단어이면, 제2 전자 장치(2000)는 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보를 제2 텍스트가 획득된 순서에 따라 이전에 저장된 공통 정보에 누적하여 저장할 수 있다.
예를 들어, 제2 전자 장치(2000)는 공통 정보 DB(2343)에 저장된 공통 정보의 일부를 삭제할 수 있다. 공통 정보 DB(2343)에 저장될 공통 정보의 수가 미리 설정되어 있으며, 미리 설정된 수의 공통 정보가 공통 정보 DB(2343)에 이미 저장되어 있는 경우에, 제2 전자 장치(2000)는 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보를 저장하기 위하여 공통 정보 DB(2343)에 저장되어 있는 공통 정보 중에서 가장 먼저 저장되어 있는 공통 정보를 삭제할 수 있다.
예를 들어, 제2 전자 장치(2000)는 공통 정보 DB(2343)에 저장된 공통 정보를 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보로 대체할 수 있다. 제2 텍스트 내의 타겟 단어의 공통 정보와 동일한 종류의 공통 정보가 공통 정보 DB(2343)에 저장되어 있는 경우에, 제2 전자 장치(2000)는 공통 정보 DB(2343)에 저장되어 있는 동일한 종류의 공통 정보를 삭제를 제2 텍스트 내의 타겟 단어의 공통 정보로 대체할 수 있다.
예를 들어, 제1 텍스트가 “런던 날씨 어때?”이면, 타겟 단어인 ‘런던’에 대응되는 공통 정보가 weather 도메인 및 공통 정보 종류 location 에 연관되어 공통 정보 DB(2341)에 저장되고, 그 이후, “거기 대신에 서울 날씨는 어때?”라는 제2 텍스트 내의 타겟 단어 ‘서울’에 대응되는 공통 정보가 weather 도메인 및 공통 정보 종류 location에 연관되어 생성될 수 있다. 또한, 제2 전자 장치(2000)는 공통 정보 DB(2341)에 저장된 ‘런던’에 대응되는 공통 정보를 ‘서울’에 대응되는 공통 정보로 대체할 수 있다.
하지만, 제2 전자 장치(2000)가 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보를 공통 정보 DB(2343)에 추가하는 기준은 이에 한정되지 않으며, 다양한 기준에 따라 공통 정보 DB(2343)가 수정될 수 있다.
동작 S825에서 제2 전자 장치(2000)는 제2 텍스트의 해석을 위한 공통 정보를 추출할 수 있다.
일 실시예에 따르면, 제2 전자 장치(2000)는 제 2 텍스트의 도메인에 관련하여 저장된 공통 정보들을 공통 정보 DB(2341)로부터 추출할 수 있다. 제2 전자 장치(2000)는 동작 S805에서 식별된 제2 텍스트의 도메인에 기초하여, 제2 텍스트의 도메인과 동일한 도메인에 대응되는 공통 정보들을 공통 정보 DB(2343)로부터 추출할 수 있다. 예를 들어, 제2 텍스트의 도메인이 “time”이면, 제2 전자 장치(2000)는 공통 정보 DB(2343)에 저장된 공통 정보들 중에서 도메인 “time”에 대응되는 공통 정보들을 공통 정보 DB(2343)로부터 추출할 수 있다.
일 실시예에 따르면, 제2 전자 장치(2000)는 제2 텍스트의 도메인과 무관하게 공통 정보 DB(2341)에 저장된 모든 또는 일부의 공통 정보들을 공통 정보 DB(2343)로부터 추출할 수 있다. 이 경우에, 제2 전자 장치(2000)는 공통 정보 DB(2341)에 저장된 공통 정보들 중에서 최근에 저장된 기설정된 개수의 공통 정보들을 추출할 수 있으나, 이에 제한되지 않는다.
일 실시예에 따르면, 제2 전자 장치(2000)는 제2 텍스트 내의 대용어에 대응되는 공통 정보만 공통 정보 DB(2343)로부터 추출할 수 있다. 동작 S805에서 제1 NLU 모델(2313)로부터 출력된 출력 값은 대용어 및 대용어에 대응되는 공통 정보의 종류를 포함할 수 있다. 이 경우, 제2 전자 장치(2000)는 제1 NLU 모델(2313)로부터 출력되는 출력 값에 기초하여 제2 텍스트 내의 대용어 및 대용어에 대응되는 공통 정보의 종류를 식별할 수 있다. 예를 들어, 제1 NLU 모델(2313)로부터 “거기" 및 “location”이 출력되면, 제2 전자 장치(2000)는 제2 텍스트 내의 대용어가 “거기”이며, 대용어 “거기”에 대응되는 공통 정보의 종류가 “location”임을 식별할 수 있다. 또한, 제2 전자 장치(2000)는 제2 텍스트 내의 대용어에 대응되는 공통 정보의 종류와 동일한 공통 정보의 종류를 가지는 공통 정보들을 공통 정보 DB(2343)로부터 추출할 수 있다. 예를 들어, 제2 전자 장치(2000)는 공통 정보의 종류가 “location”로 분류된 공통 정보를 공통 정보 DB(2343)로부터 추출할 수 있다.
동작 S830에서 제2 전자 장치(2000)는 제2 NLU 모델(2332)을 이용하여 제2 텍스트를 해석할 수 있다.
일 실시예에 따르면, 제2 전자 장치(2000)는 추출된 공통 정보 및 제2 텍스트를 제2 NLU 모델(2332)에 입력할 수 있다. 제2 전자 장치(2000)는 추출된 공통 정보를 제2 NLU 모델(2332)에 적합한 포맷으로 변환하고, 변환된 공통 정보를 제2 텍스트와 함께 제2 NLU 모델(2332)에 입력할 수 있다. 이 경우, 제2 NLU 모델(2332)은 대용어를 포함하는 텍스트 및 공통 정보에 기초하여 텍스트의 의미를 해석하도록 훈련된 모델일 수 있으며, 제2 NLU 모델(2332)은 대용어에 대응되는 공통 정보의 의미를 고려하여 제2 텍스트를 해석한 결과를 출력 값으로 출력할 수 있다. 예를 들어, 공통 정보 DB(2343)에 저장된 공통 정보들 및 “거기는 지금 몇 시야?”라는 제2 텍스트가 제2 NLU 모델(2332)에 입력되면, 제1 텍스트 내의 타겟 단어인 “런던”의 GPS 좌표 값을 고려하여 제2 텍스트를 해석한 인텐트 및 파라미터들이 제2 NLU 모델(2332)로부터 출력될 수 있다.
일 실시예에 따르면, 제2 전자 장치(2000)는 제2 텍스트를 입력으로 하여 제2 NLU 모델(2332)로부터 출력되는 출력 값 중에서 대용어에 대응하는 값을 추출된 공통 정보로 대체할 수 있다. 이 경우, 제2 NLU 모델(2332)은 텍스트를 입력으로 하여 텍스트의 의미를 해석하도록 훈련된 모델일 수 있으며, 제2 NLU 모델(2332)은 대용어에 대응되는 공통 정보의 의미를 고려하지 않고 제2 텍스트를 해석한 결과를 출력 값으로 출력할 수 있다. 또한, 제2 전자 장치(2000)는 제2 NLU 모델(2332)에 의해 출력된 출력 값들 중에서 대용어에 대응되는 값을 추출된 공통 정보로 대체할 수 있다. 이 경우, 추출된 공통 정보는 제2 NLU 모델(2332)의 출력 값이 가지는 포맷으로 변환되고, 변환된 공통 정보가 제2 NLU 모델(2332)에 의해 출력된 출력 값들 중에서 대용어에 대응되는 값을 대체할 수 있다. 예를 들어, “거기는 지금 몇 시야?”라는 제2 텍스트가 제2 NLU 모델(2332)에 입력되면 제2 텍스트를 해석한 결과로서 인텐트 및 파라미터들이 제2 NLU 모델(2332)로부터 출력되고, 대용어 제2 NLU 모델(2332)로부터 출력된 인텐트 및 파라미터들 중에서 대용어 “거기”에 관련된 파라미터가 “거기”에 대응되는 “런던”의 GPS 좌표 값으로 대체될 수 있다.
동작 S835에서 제2 전자 장치(2000)는 공통 정보의 수정이 필요한 지를 판단하고, 공통 정보의 수정이 필요하다고 판단되면, 동작 S840에서 제2 전자 장치(2000)는 공통 정보 DB(2341)를 수정할 수 있다.
제2 전자 장치(2000)는 제2 NLU 모델(2332) 의 출력 값을 바탕으로 공통 정보 DB(2341)에 저장된 공통 정보의 수정이 필요한 지를 판단할 수 있다. 제2 전자 장치(2000)는 제2 NLU 모델(2332)로부터 출력되는 출력 값을 이용하여 텍스트 내의 타겟 단어를 식별하고, 타겟 단어를 나타내는 공통 정보가 공통 정보 DB(2341)에 저장된 공통 정보와 동일한 지를 판단할 수 있다. 제2 전자 장치(2000)는 식별한 타겟 단어를 나타내는 공통 정보가, 공통 정보 DB(2341)에 저장된 공통 정보와 상이한 경우에, 공통 정보 수정 모듈(2316)은 공통 정보 DB(2341)에 저장된 공통 정보를 수정할 수 있다. 이 경우, 제2 NLU 모델(2332)로부터 출력되는, 타겟 단어에 관련된 파라미터들을 바탕으로, 타겟 단어에 대응되는 공통 정보가 수정될 수 있다. 예를 들어, 제2 전자 장치(2000)는 제2 NLU 모델(2332)로부터 출력되는 타겟 단어의 의미 및 타겟 단어에 대응되는 공통 정보의 종류를 바탕으로, 공통 정보 DB(2343)에 저장된 공통 정보들 중에서 타겟 단어에 대응되는 공통 정보를 추가 또는 수정할 수 있다. 예를 들어, 제1 NLU 모델(2313)에서는 제2 텍스트 내에 포함된 타겟 단어 “서울”에 대응되는 공통 정보의 종류가 “Location”으로 출력되고, 제2 NLU 모델(2332)에서는 제2 텍스트 내에 포함된 타겟 단어 “서울”에 대응되는 공통 정보의 종류가 “Person”으로 출력되는 경우에, 제2 전자 장치(2000)는 타겟 단어 “서울”에 대응되는 공통 정보를 수정할 수 있다. 이 경우, 제2 NLU 모델(2332)은 제2 텍스트의 도메인에 특화된 모델일 수 있으며, 제2 전자 장치(2000)가 제2 NLU 모델(2332)을 이용하여 공통 정보를 생성 또는 수정함으로써, 제2 텍스트 내의 타겟 단어에 관하여 보다 정확한 공통 정보가 공통 정보 DB(2341)에 저장될 수 있게 된다.
또한, S840에서 제2 전자 장치(2000)는 보이스 어시스턴트 서비스를 통해 사용자와 송수신한 데이터를 바탕으로, 공통 정보 DB(2341)에 저장된 공통 정보를 수정할 수도 있다. 공통 정보 수정 모듈(2316)은, 예를 들어, 사용자 입력으로부터 생성된 텍스트, 후술할 NLG 모델(2335)을 통해 생성된 응답 메시지, 사용자의 의도에 따른 제1 전자 장치(1000) 또는 다른 디바이스(미도시)의 기능 중 적어도 하나에 기초하여, 공통 정보 DB(2341)에 저장된 공통 정보를 수정할 수 있다.
동작 S845에서 제2 전자 장치(2000)는 제2 텍스트에 대한 응답 정보를 생성하고 동작 S850에서 제2 전자 장치(2000)는 생성된 응답 정보를 제공할 수 있다. 동작 S845 및 동작 S850은 동작 S730 및 동작 S735에 대응되며, 이에 대한 설명은 여기서 반복하지 않도록 한다.
도 9는 본 개시의 일 실시예에 따른 공통 정보를 고려한 제2 텍스트의 해석 결과가 제2 NLU 모델(2332)로부터 출력되는 예시를 나타내는 도면이다.
도 9를 참조하면, 대용어가 포함된 제2 텍스트인 “거기는 지금 몇 시야?” 및 추출된 공통 정보가 제2 NLU 모델(2332)에 입력되면, 제2 NLU 모델(2332)은 대용어에 대응되는 공통 정보에 기초한, 제2 텍스트의 해석 결과를 나타내는 인텐트 및 파라미터들을 출력할 수 있다. 예를 들어, 제2 NLU 모델(2332)은 인텐트인 ‘시간 정보 제공’을 출력하고, 파라미터들인 ‘현재(time)’ 및 ‘런던(GeoPoint(Lat:51.50853, long:-0.12574))’을 출력할 수 있다. 도 9에서는 추출된 공통 정보가 제2 NLU 모델(2332)에 그대로 입력되는 것으로 설명되었지만 이에 제한되지 않는다. 추출된 공통 정보는 제2 NLU 모델(2332)이 해석할 수 있는 포맷으로 전처리되고, 전처리된 공통 정보가 제2 NLU 모델(2332)에 입력될 수도 있다. 또한, 도 9에서는 런던의 GPS 값이 제2 NLU 모델(2332)로부터 출력되는 것으로 설명되었지만, 이에 제한되지 않는다. 제2 전자 장치(2000)가 사용자에게 보이스 어시스턴트 서비스를 제공하기 위하여 텍스트의 해석 결과로서 이용하는 기설정된 포맷의 값이 제2 NLU 모델(2332)로부터 출력될 수 있다.
도 10은 본 개시의 일 실시예에 따른 제2 NLU 모델(2332)의 출력 값의 일부를 공통 정보로 대체하는 예시를 나타내는 도면이다.
도 10을 참조하면, 대용어가 포함된 제2 텍스트인 “거기는 지금 몇 시야?” 가 제2 NLU 모델(2332)에 입력되면, 제2 NLU 모델(2332)은 대용어에 대응되는 공통 정보가 반영되지 않은, 제2 텍스트의 해석 결과를 나타내는 인텐트 및 파라미터들을 출력할 수 있다. 예를 들어, 제2 NLU 모델(2332)은 인텐트인 ‘시간 정보 제공’을 출력하고, 파라미터들인 ‘현재(time)’ 및 ‘거기(location)’을 출력할 수 있다.
이후, 제2 전자 장치(2000)는 제2 NLU 모델(2332)의 출력 값들 중에서 대용어인 ‘거기(location)’에 대응되는 공통 정보를 공통 정보 DB(2343)로부터 추출하고, 대용어인 ‘거기(location)’를 추출된 공통 정보로 대체할 수 있다. 예를 들어, 제2 전자 장치(2000)는 대용어인 ‘거기(location)’를 ‘런던(GeoPoint(Lat:51.50853, long:-0.12574))’로 대체할 수 있다. 도 10에서는 제2 NLU 모델(2332)로부터 출력된 값이 GPS 값으로 대체되는 것으로 설명되었지만, 이에 제한되지 않는다. 제2 전자 장치(2000)가 사용자에게 보이스 어시스턴트 서비스를 제공하기 위하여 텍스트의 해석 결과로서 이용하는 기설정된 포맷의 값이 제2 NLU 모델(2332)로부터 출력된 값을 대체할 수 있다.
도 11은 본 개시의 일 실시예에 따른 공통 정보가 생성되고 이용되는 예시를 나타내는 도면이다.
도 11을 참조하면, 날씨 뉴스를 제공하는 보이스 어시스턴트 모듈(110)에서 9.26.16 버전의 기설정된 형식을 가지는 날씨와 관련된 위치 값인 GeoPoint(112)가 식별되고, 식별된 위치 값인 GeoPoint(112)를 나타내는 소정의 포맷의 공통 정보인 BaseGeoPoint(114)가 생성되어 저장될 수 있다.
또한, 세계 시계를 제공하는 보이스 어시스턴트 모듈(114)은 공통 정보인 BaseGeoPoint(114)로부터 9.26.28 버전의 기설정된 형식을 가지는 위치 값인 GeoPoint(116)을 식별하고, 위치에 대응되는 시간 정보를 제공하는데 위치 값 GeoPoint(116)을 이용할 수 있다.
또한, 위치 값 GeoPoint(116)은 세계 시계를 제공하는 보이스 어시스턴트 모듈(114)이 이용할 수 있는 값으로 변환될 수 있다. 예를 들어, 세계 시계를 제공하는 보이스 어시스턴트 모듈(114)은 위치 값 GeoPoint(116)에 대응되는 지도 상의 장소 값인 BaseLocation(118)을 생성하고, 생성된 장소 값 BaseLocation(118)이 해당 장소에서의 현재 날짜 및 현재 시각을 제공하는데 이용되도록 할 수 있다.
이 경우, 예를 들어, GeoPoint(112)는 9.26.16 버전의 지리 정보를 관리하는 보이스 어시스턴트 모듈에 의해 운용되는 데이터이며, GeoPoint(116)는 9.26.28 버전의 지리 정보를 관리하는 보이스 어시스턴트 모듈에 의해 운용되는 데이터일 수 있으나, 이에 제한되지 않는다.
또한, 상기에서는, 위치 값 GeoPoint(116)이, 보이스 어시스턴트 모듈(114)에 의해, 보이스 어시스턴트 모듈(114)이 이용할 수 있는 값으로 변환되는 것으로 설명되었지만, 이에 제한되지 않는다. 위치 값 GeoPoint(116)이 다른 보이스 어시스턴트 모듈에 의해 변환될 수도 있다. 예를 들어, 위치 값 GeoPoint(116)에 대응되는 지도 상의 장소 값인 BaseLocation(118)가, 9.26.28 버전의 지리 정보를 관리하는 보이스 어시스턴트 모듈에 의해 생성되고, 생성된 장소 값이 세계 시계를 제공하는 보이스 어시스턴트 모듈(114)에 의해 이용될 수도 있다.
도 12a는 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스의 제공 결과를 고려하여 동일한 종류의 공통 정보들 중 일부가 선택되어 저장되는 예시를 나타내는 도면이다.
도 12a를 참조하면, “종로에서 가까운 기차역을 알려줘.”라는 사용자의 텍스트로부터 “종로”의 위치를 나타내는 공통 정보가 생성될 수 있다. 또한, 사용자의 텍스트에 대한 응답 메시지인 “서울역이 가까워요.” 가 사용자에게 제공될 수 있다.
“고마워.”라는 사용자의 텍스트가 획득되면, 제2 전자 장치(2000)는 사용자의 의도에 관한 올바른 응답 메시지가 사용자에게 제공되었음을 식별하고, “서울역”의 위치를 나타내는 공통 정보를 공통 정보 DB(2343)에 저장할 수 있다.
“다른 곳을 알려줘.”라는 사용자의 텍스트가 획득되면, 제2 전자 장치(2000)는 사용자의 의도에 관한 잘못된 응답 메시지가 사용자에게 제공되었음을 식별하고, “종로”의 위치를 나타내는 공통 정보를 공통 정보 DB(2343)에 저장할 수 있다.
도 12b는 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스의 제공 결과를 고려하여 상이한 종류의 공통 정보들 중 일부가 선택되어 저장되는 예시를 나타내는 도면이다.
도 12b를 참조하면, “내일 오후 3시의 일정을 알려줘.”라는 사용자의 텍스트로부터 “오후 3시”를 나타내는 공통 정보가 생성될 수 있다. 또한, 사용자의 텍스트에 대한 응답 메시지인 “오후 3시에 삼성 R&D 센터에서 미팅이 있어요.”가 사용자에게 제공될 수 있다.
“고마워.”라는 사용자의 텍스트가 획득되면, 제2 전자 장치(2000)는 사용자의 의도에 관한 올바른 응답 메시지가 사용자에게 제공되었음을 식별하고, “오후 3시”를 나타내는 공통 정보 및 “삼성 R&D 센터”의 위치를 나타내는 공통 정보를 공통 정보 DB(2343)에 저장할 수 있다.
“좀 더 구체적으로 알려줘.”라는 사용자의 텍스트가 획득되면, 제2 전자 장치(2000)는 사용자의 의도에 관한 잘못된 응답 메시지가 사용자에게 제공되었음을 식별하고, “오후 3시”를 나타내는 공통 정보를 공통 정보 DB(2343)에 저장할 수 있다.
도 12c는 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스의 제공 결과 및 사용자의 추가 입력을 바탕으로 공통 정보들 중 일부가 선택되어 저장되는 예시를 나타내는 도면이다.
도 12c를 참조하면, “서울역 근처의 맛집을 알려줘.”라는 사용자의 텍스트로부터 “서울역”의 위치를 나타내는 공통 정보가 생성될 수 있다. 또한, 사용자의 텍스트에 대한 응답 메시지인 “50개의 맛집이 검색되었어요. 관심있는 맛집을 선택해 주세요.”가 사용자에게 제공될 수 있다. 이후, 사용자가 50개의 맛집 중에서 관심을 가지는 적어도 하나의 맛집을 선택하면, 제2 전자 장치(2000)는 사용자에 의해 선택된 맛집의 위치를 나타내는 공통 정보를 생성할 수 있다. 또한, 제2 전자 장치(2000)는 “서울역”의 위치를 나타내는 공통 정보 및 사용자에 의해 선택된 맛집의 위치를 나타내는 공통 정보를 공통 정보 DB(2343)에 저장할 수 있다.
도 12a, 12b 및 도 12c에서는 보이스 어시스턴트 서비스의 제공 결과를 바탕으로 공통 정보들을 생성하고 저장하는 예시들을 설명하였지만, 공통 정보를 생성하고 저장하는 예시는 이에 제한되지 않는다. 공통 정보를 생성하고 저장하고 선택하기 위한 규칙이, 예를 들어, 사용자 질의의 종류, 보이스 어시스턴트 서비스의 특성, 및 사용자의 피드백 등에 따라 다양하게 설정될 수 있다.
본 개시의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않을 수 있으며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
또한, 본 명세서에서, “a, b 또는 c 중 적어도 하나를 포함한다”는, 예를 들어, “a만 포함하거나, b만 포함하거나, c만 포함하거나, a 및 b를 포함하거나, b 및 c를 포함하거나, a 및 c를 포함하거나, a, b 및 c를 모두 포함하는 것을 언급할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는, 예를 들어, CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서를 포함할 수 있으나, 이에 제한되지 않는다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 모델을 언급할 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 예를 들어, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 언급할 수 있다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들을 포함할 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 가질 수 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등을 포함할 수 있으나, 전술한 예에 한정되지 않는다.
본 개시에 따른 대용어를 포함하는 텍스트에 관련된 보이스 어시스턴트 서비스를 제공하는 방법에 있어서, 사용자의 음성을 인식하고 의도를 해석하기 위한 방법으로, 디바이스는, 예를 들어, 마이크를 통해 아날로그 신호인 음성 신호를 수신하고, ASR(Automatic Speech Recognition)모델을 이용하여 음성 부분을 컴퓨터로 판독 가능한 텍스트로 변환할 수 있다. 또한, 자연어 이해(Natural Language Understanding, NLU) 모델을 이용하여 변환된 텍스트를 해석하여, 사용자의 발화 의도가 획득될 수 있다. 여기서 ASR 모델 또는 NLU 모델은 인공지능 모델일 수 있다. 인공지능 모델은 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서에 의해 처리될 수 있다. 인공지능 모델은 학습을 통해 만들어 질 수 있다.
언어적 이해는, 예를 들어, 인간의 언어/문자를 인식하고 응용/처리하는 기술을 언급할 수 있으며, 자연어 처리(Natural Language Processing), 기계 번역(Machine Translation), 대화 시스템(Dialog System), 질의 응답(Question Answering), 음성 인식/합성(Speech Recognition/Synthesis) 등을 포함한다.
본 개시에 따른 대용어를 포함하는 텍스트에 관련된 보이스 어시스턴트 서비스를 제공하는 방법에 있어서, 텍스트로부터 타겟 단어에 대응되는 공통 정보를 결정하기 위해 인공지능 모델이 이용할 수 있다. 프로세서는 텍스트에 대해 전처리 과정을 수행하여 인공지능 모델의 입력으로 사용하는 데에 적합한 형태로 변환할 수 있다. 인공지능 모델은 학습을 통해 만들어 질 수 있다.
추론 예측은, 예를 들어, 정보를 판단하여 논리적으로 추론하고 예측하는 기술을 언급할 수 있으며, 지식/확률 기반 추론(Knowledge based Reasoning), 최적화 예측(Optimization Prediction), 선호 기반 계획(Preference-based Planning), 추천(Recommendation) 등을 포함한다
전술한 본 개시의 설명은 다양한 예시를 위한 것이며, 본 개시는 다양한 예시적인 실시예는 제한이 아니라 예시적인 것으로 의도된 것으로 이해될 것이다. 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 청구 범위 및 그 균등물을 포함하는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 형태 및 세부 사항의 다양한 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims (15)

  1. 전자 장치가 보이스 어시스턴트 서비스를 제공하는 방법에 있어서,
    제1 입력으로부터 생성된 제1 텍스트를 획득하는 동작;
    제1 NLU 모델을 이용하여, 상기 제1 텍스트 내의 타겟 단어를 검출하고 상기 검출된 타겟 단어에 관한 공통 정보를 생성하는 동작;
    제2 입력으로부터 생성된 제2 텍스트를 획득하는 동작;
    상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하는 동작;
    상기 제2 NLU 모델을 이용하여, 상기 제2 텍스트에 포함된 대용어를 검출하고 상기 검출된 대용어에 대응되는 공통 정보에 기초하여 인텐트 및 파라미터를 출력하는 동작; 및
    상기 인텐트 및 파라미터에 관련된 응답 정보를 생성하는 동작;
    을 포함하는, 방법.
  2. 제1 항에 있어서,
    상기 제1 NLU 모델을 이용하여 상기 제1 텍스트에 대응되는 도메인을 식별하는 동작; 및
    상기 공통 정보를 상기 도메인에 매칭하여 저장하는 동작;
    을 더 포함하며,
    상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하는 동작은, 상기 도메인에 매칭하여 저장된 공통 정보 및 상기 제2 텍스트를 상기 제2 NLU 모델에 입력하는 것인, 방법.
  3. 제2 항에 있어서,
    상기 제1 NLU 모델을 이용하여 상기 제2 텍스트의 도메인을 식별하는 동작;
    을 더 포함하며,
    상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하는 동작은, 상기 제2 텍스트의 도메인에 연관된 공통 정보 및 상기 제2 텍스트를 상기 제2 NLU 모델에 입력하는 것인, 방법.
  4. 제2 항에 있어서,
    상기 제1 NLU 모델은 공통 정보의 종류가 태깅된 텍스트 및 텍스트의 도메인을 학습 데이터로 사용하여 훈련된 인공지능 모델을 포함하는 것인, 방법.
  5. 제1 항에 있어서,
    상기 제1 NLU 모델을 이용하여 상기 제2 텍스트의 도메인을 식별하는 동작; 및
    복수의 제2 NLU 모델들 중에서, 상기 식별된 제2 텍스트의 도메인에 대응되는 상기 제2 NLU 모델을 선택하는 동작;
    을 더 포함하는, 방법.
  6. 제5 항에 있어서,
    상기 타겟 단어는, 대용어의 지시 대상이 되는 단어를 포함하며, 위치, 날짜, 시간, 또는 사람 중 적어도 하나를 나타내는 단어를 포함하며,
    상기 공통 정보는, 상기 타겟 단어를 나타내는 상세 데이터를 포함하며,
    상기 상세 데이터는 상기 복수의 제2 NLU 모델에 대응되는 복수의 보이스 어시스턴트 모듈에서 공통으로 식별될 수 있는 포맷을 가지는 것인, 방법.
  7. 제3 항에 있어서,
    상기 제2 텍스트에 연관된 공통 정보를 상기 식별된 상기 제2 텍스트의 도메인에 대응되는 보이스 어시스턴트 모듈이 이용할 수 있는 포맷으로 변환하는 동작;
    을 더 포함하며,
    상기 포맷이 변환된 공통 정보를 이용하여, 상기 제2 텍스트가 해석되는 것인, 방법.
  8. 제1 항에 있어서,
    상기 제2 텍스트가 획득되기 이전에 획득된 텍스트들에 포함된 타겟 단어들에 관한 공통 정보들이 누적되어 저장되는 것인, 방법.
  9. 제1 항에 있어서,
    상기 제2 NLU 모델을 이용하여, 상기 제1 텍스트 내의 상기 타겟 단어를 검출하는 동작;
    상기 타겟 단어에 대응되는 상기 공통 정보를 수정하는 동작;
    을 더 포함하는, 방법.
  10. 제1 항에 있어서,
    상기 제1 NLU 모델을 이용하여, 상기 제2 텍스트 내의 타겟 단어를 검출하는 동작;
    상기 제1 텍스트 내의 타겟 단어에 대응되는 공통 정보를 상기 제2 텍스트 내의 타겟 단어에 대응되는 공통 정보로 대체하는 동작;
    을 더 포함하는, 방법.
  11. 보이스 어시스턴트 서비스를 제공하는 서버에 있어서,
    전자 장치와 통신하도록 구성된 통신 회로 소자를 포함하는 통신 인터페이스;
    하나 이상의 명령어를 저장하는 저장부;
    상기 저장된 하나 이상의 명령어를 실행하여, 상기 서버가, 상기 디바이스에 입력된 제1 입력으로부터 생성된 제1 텍스트를 획득하고, 제1 NLU 모델을 이용하여, 상기 제1 텍스트 내의 타겟 단어를 검출하고 상기 타겟 단어에 관한 공통 정보를 생성하고, 제2 입력으로부터 생성된 제2 텍스트를 획득하고, 상기 공통 정보 및 상기 제2 텍스트를 제2 NLU 모델에 입력하고, 상기 제2 NLU 모델을 이용하여, 상기 제2 텍스트에 포함된 대용어를 검출하고 상기 검출된 대용어에 대응되는 공통 정보에 기초하여 인텐트 및 파라미터를 획득하고, , 상기 인텐트 및 파라미터에 관련된 응답 정보를 생성하도록 하는, 프로세서;
    를 포함하는, 서버.
  12. 제11 항에 있어서,
    상기 프로세서는, 상기 저장된 하나 이상의 명령어를 실행함으로써, 상기 서버가, 상기 제1 NLU 모델을 이용하여 상기 제1 텍스트에 대응되는 도메인을 식별하고, 상기 공통 정보를 상기 도메인에 매칭하여 저장하고, 상기 도메인에 매칭하여 저장된 공통 정보 및 상기 제2 텍스트를 상기 제2 NLU 모델에 입력하도록 하는 것인, 서버.
  13. 제12 항에 있어서,
    상기 프로세서는, 상기 저장된 하나 이상의 명령어를 실행하여, 상기 서버가, 상기 제1 NLU 모델을 이용하여 상기 제2 텍스트의 도메인을 식별하며, 상기 제2 텍스트의 도메인에 연관된 공통 정보 및 상기 제2 텍스트를 상기 제2 NLU 모델에 입력하도록 하는 것인, 서버.
  14. 제12 항에 있어서,
    상기 제1 NLU 모델은 공통 정보의 종류가 태깅된 텍스트 및 텍스트의 도메인을 학습 데이터로 사용하여 훈련된 인공지능 모델인 것인, 서버.
  15. 제1 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2021/014951 2020-10-30 2021-10-22 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법 WO2022092721A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180066727.8A CN116324976A (zh) 2020-10-30 2021-10-22 提供针对包括照应语的文本的语音助理服务的系统和方法
EP21886715.8A EP4167230A4 (en) 2020-10-30 2021-10-22 SYSTEM AND METHOD FOR PROVIDING A VOICE ASSISTANT SERVICE FOR TEXT USING ANAPHOR
US17/536,907 US20220138427A1 (en) 2020-10-30 2021-11-29 System and method for providing voice assistant service regarding text including anaphora

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0143003 2020-10-30
KR1020200143003A KR20220058745A (ko) 2020-10-30 2020-10-30 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/536,907 Continuation US20220138427A1 (en) 2020-10-30 2021-11-29 System and method for providing voice assistant service regarding text including anaphora

Publications (1)

Publication Number Publication Date
WO2022092721A1 true WO2022092721A1 (ko) 2022-05-05

Family

ID=81384092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/014951 WO2022092721A1 (ko) 2020-10-30 2021-10-22 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR20220058745A (ko)
WO (1) WO2022092721A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024058597A1 (ko) * 2022-09-16 2024-03-21 삼성전자주식회사 전자 장치 및 사용자 발화 처리 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090028908A (ko) * 2007-09-17 2009-03-20 한국전자통신연구원 음성 대화 분석 시스템 및 그 방법
US20140257792A1 (en) * 2013-03-11 2014-09-11 Nuance Communications, Inc. Anaphora Resolution Using Linguisitic Cues, Dialogue Context, and General Knowledge
JP2018170743A (ja) * 2017-03-30 2018-11-01 本田技研工業株式会社 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
US20200043478A1 (en) * 2019-10-01 2020-02-06 Lg Electronics Inc. Artificial intelligence apparatus for performing speech recognition and method thereof
KR20200080951A (ko) * 2018-12-27 2020-07-07 주식회사 솔트룩스 복수의 대화 도메인을 가지는 대화 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090028908A (ko) * 2007-09-17 2009-03-20 한국전자통신연구원 음성 대화 분석 시스템 및 그 방법
US20140257792A1 (en) * 2013-03-11 2014-09-11 Nuance Communications, Inc. Anaphora Resolution Using Linguisitic Cues, Dialogue Context, and General Knowledge
JP2018170743A (ja) * 2017-03-30 2018-11-01 本田技研工業株式会社 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
KR20200080951A (ko) * 2018-12-27 2020-07-07 주식회사 솔트룩스 복수의 대화 도메인을 가지는 대화 시스템
US20200043478A1 (en) * 2019-10-01 2020-02-06 Lg Electronics Inc. Artificial intelligence apparatus for performing speech recognition and method thereof

Also Published As

Publication number Publication date
KR20220058745A (ko) 2022-05-10

Similar Documents

Publication Publication Date Title
WO2021040163A1 (en) Electronic device and method for providing conversational service
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2021020877A1 (en) System and method for registering device for voice assistant service
WO2020122677A1 (en) Method of performing function of electronic device and electronic device using same
WO2018093229A1 (en) Method and device applying artificial intelligence to send money by using voice input
EP3523710A1 (en) Apparatus and method for providing sentence based on user input
WO2020159288A1 (ko) 전자 장치 및 그 제어 방법
WO2020040517A1 (en) Electronic apparatus and control method thereof
EP3533015A1 (en) Method and device applying artificial intelligence to send money by using voice input
WO2018101671A1 (en) Apparatus and method for providing sentence based on user input
WO2020060151A1 (en) System and method for providing voice assistant service
WO2020130447A1 (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
WO2021029642A1 (en) System and method for recognizing user's speech
WO2019054792A1 (ko) 컨텐트를 제공하는 방법 및 단말기
WO2019203418A1 (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
WO2021060728A1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
WO2020032655A1 (en) Method for executing function based on voice and electronic device supporting the same
WO2022092721A1 (ko) 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
WO2021107390A1 (en) Electronic device and method for controlling the electronic device
WO2021101276A1 (en) Electronic device for providing intelligent assistance service and operating method thereof
WO2020209661A1 (en) Electronic device for generating natural language response and method thereof
WO2020080771A1 (ko) 변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법
WO2019164078A1 (ko) 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법
WO2019190243A1 (ko) 사용자와의 대화를 위한 정보를 생성하는 시스템 및 방법
WO2022177103A1 (ko) 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21886715

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021886715

Country of ref document: EP

Effective date: 20230113

NENP Non-entry into the national phase

Ref country code: DE