WO2018169276A1 - 언어 정보를 처리하기 위한 방법 및 그 전자 장치 - Google Patents

언어 정보를 처리하기 위한 방법 및 그 전자 장치 Download PDF

Info

Publication number
WO2018169276A1
WO2018169276A1 PCT/KR2018/002920 KR2018002920W WO2018169276A1 WO 2018169276 A1 WO2018169276 A1 WO 2018169276A1 KR 2018002920 W KR2018002920 W KR 2018002920W WO 2018169276 A1 WO2018169276 A1 WO 2018169276A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
language
language information
response
electronic device
Prior art date
Application number
PCT/KR2018/002920
Other languages
English (en)
French (fr)
Inventor
부이노스키파벨
위스니우스키데이비드
전희식
에바 마르훌라조안나
베크사카타르즈나
젬부르즈스키마체이
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US16/493,667 priority Critical patent/US11216497B2/en
Publication of WO2018169276A1 publication Critical patent/WO2018169276A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • Various embodiments of the present disclosure relate to a method for processing language information and an electronic device thereof.
  • AI Artificial intelligence
  • AI Artificial intelligence
  • the machine is a system that learns, judges, and becomes smart.
  • the recognition rate is improved and the user's taste can be understood more accurately.
  • the existing Rule-based smart system is gradually replaced by the deep learning-based AI system.
  • AI technology is composed of elementary technologies that utilize machine learning (deep learning) and machine learning.
  • Machine learning is an algorithm technology that classifies / learns characteristics of input data by itself
  • element technology is a technology that simulates the functions of human brain cognition and judgment by using machine learning algorithms such as deep learning. It consists of technical areas such as understanding, reasoning / prediction, knowledge representation, and motion control.
  • Linguistic understanding is a technology for recognizing and applying / processing human language / characters and includes natural language processing, machine translation, dialogue system, question and answer, speech recognition / synthesis, and the like.
  • Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image retrieval, person recognition, scene understanding, spatial understanding, and image enhancement.
  • Inference Prediction is a technique for judging, logically inferring, and predicting information. It includes knowledge / probability-based inference, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data generation / classification) and knowledge management (data utilization).
  • Motion control is a technology for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (action control), and the like.
  • the electronic device may provide an intelligent personal assistant service that grasps the intention of the user's voice message and responds appropriately. For example, when a user asks an electronic device by voice, the electronic device may inform a contact or personal schedule, and provide a voice answer to a user question such as weather based on a search content on the web.
  • the present disclosure provides a method of processing language information and an electronic device thereof.
  • the present disclosure also provides a method for determining language information of a user from an input message by a user, and an electronic device thereof.
  • the present disclosure also provides a method of determining language information for a response corresponding to language information of a user, and an electronic device thereof.
  • the present disclosure also provides a method for outputting a response according to a user's level of language proficiency and an electronic device thereof.
  • a method of operating an electronic device may include receiving an input message, determining a language information of a user included in the input message, and corresponding to the language information of the user. Determining the language information for the response, and outputting the response based on the language information for the response.
  • an electronic device may determine an input unit that receives an input message, language information of a user included in the input message, and determine language information for a response corresponding to language information of the user. And a processor for controlling to output the response based on the language information for the response.
  • a method and an electronic device thereof may adaptively output a response according to a language proficiency of a user.
  • FIG. 1 illustrates an interaction between an electronic device and a user according to various embodiments of the present disclosure.
  • FIG. 2 illustrates an example of a functional configuration of an electronic device according to various embodiments of the present disclosure.
  • FIG. 3 illustrates an operation method for outputting a response according to a language capability of a user in an electronic device according to various embodiments of the present disclosure.
  • FIG. 4 illustrates another operation method for outputting a response according to a language capability of a user in an electronic device according to various embodiments of the present disclosure.
  • FIG. 5 illustrates an example of a graph indicating the number of words for a response according to a language proficiency level of a user in an electronic device according to various embodiments of the present disclosure.
  • FIG. 6 is a view illustrating an interaction between a processor and a memory for determining a language proficiency level of a user in an electronic device according to various embodiments of the present disclosure.
  • FIG. 7 illustrates an operation method for determining a response using language information frequently used by a user in an electronic device according to various embodiments of the present disclosure.
  • FIG. 8 illustrates an operation method for outputting a response by comparing a language proficiency level of a user with a language proficiency level for a response in an electronic device according to various embodiments of the present disclosure.
  • the present disclosure relates to a method for processing language information of a user and an electronic device thereof.
  • FIG. 1 illustrates an interaction between an electronic device and a user according to various embodiments of the present disclosure.
  • the user 110 and the terminal 120 may perform a conversation.
  • the user 110 may input a message to the terminal 120.
  • the terminal 120 may output a response in response to the input message.
  • the terminal 120 may determine the language information used for the response according to the language proficiency level of the user 110.
  • the terminal 120 is a terminal other than a user equipment (UE), a mobile station, a subscriber station, a remote terminal, and a wireless terminal. terminal ', or' user device 'or other terms having equivalent technical meanings. In some cases, the terminal 120 is a device for performing machine type communication (MTC) and may not be carried by the user 110.
  • MTC machine type communication
  • FIG. 2 illustrates an example of a functional configuration of an electronic device according to various embodiments of the present disclosure.
  • the electronic device 120 may include a communication unit 210, a memory 220, a display 230, a speaker 240, a microphone 250, and a processor 260.
  • the communication unit 210 may receive a radio frequency (RF) signal. To this end, the communication unit 210 may include at least one antenna. The communication unit 210 may down-convert the received signal to generate an intermediate frequency (IF) or a baseband signal. The communication unit 210 may include a reception processing circuit that generates a processed baseband signal by filtering, decoding, and / or digitizing the baseband or IF signal. The receive processing circuitry may transmit the processed baseband signal to the speaker for voice data or to the processor 260 for further processing (eg, web browsing data). In addition, the communication unit 210 may include at least one transceiver. At least one transceiver may receive baseband data (such as web data, e-mail, interactive video game data) for outgoing from processor 260.
  • baseband data such as web data, e-mail, interactive video game data
  • the transmission processing circuitry can encode, multiplex, and digitize baseband data for transmission to produce a processed baseband or intermediate frequency signal.
  • the communication unit 210 may up-convert the processed baseband or intermediate frequency signal for transmission through a transmission processing circuit into an RF signal that can be transmitted through an antenna.
  • the memory 220 may store data such as a basic program, an application program, and setting information for the operation of the electronic device 120.
  • the memory 220 may be configured as a volatile memory, a nonvolatile memory, or a combination of the volatile memory and the nonvolatile memory.
  • the memory 220 may provide stored data according to a request of the processor 260.
  • the display 230 may be a liquid crystal screen, a light emitting diode display, or another screen capable of displaying text and / or images.
  • the display 230 may display a screen corresponding to the data received through the processor 260.
  • the display 230 may be referred to as an “input unit” or another term having an equivalent technical meaning.
  • the speaker 240 may convert the audio signal into vibration using the vibration of the diaphragm and radiate it in the air.
  • the speaker 240 may output a response corresponding to the input message received by the user 110 in an analog form.
  • the microphone 250 may include a circuit such as a piezoelectric element, and generates an audio signal by using vibration of the diaphragm caused by voice input to the microphone 250.
  • the microphone 250 may receive a voice input by the user 110.
  • the microphone 250 may be referred to as an “input” or another term having equivalent technical meaning.
  • the processor 260 may control the communication unit 210, the memory 220, the display 230, the speaker 240, and the microphone 250 functionally coupled to the processor 260.
  • the processor 260 may control the reception of the forward channel signal and the transmission of the reverse channel signal using the communication unit 210.
  • processor 260 may include at least one microprocessor or microcontroller.
  • the processor 260 may execute a program stored in the memory 220.
  • the processor 260 may store or retrieve data in the electronic device 120 as required by an executing process.
  • the processor 260 may be configured to execute an application in response to a signal received based on an operating system.
  • the electronic device 120 includes a communication unit 210, a memory 220, a display 230, a speaker 240, a microphone 250, and a processor 260.
  • the electronic device 120 is illustrative, and the device may further include other components.
  • Some of the communication unit 210, the memory 220, the display 230, the speaker 240, the microphone 250, and the processor 260 may be omitted.
  • 3 illustrates an operation method for outputting a response according to a language capability of a user in an electronic device according to various embodiments of the present disclosure. 3 illustrates a method of operating the electronic device 120.
  • the electronic device 120 receives an input message.
  • the input message may mean a voice (hereinafter, referred to as a voice message) input by the user 110 to the microphone 250 of the electronic device 120.
  • the input message may refer to text (hereinafter, referred to as a text message) that the user 110 inputs by pressing a button of the electronic device 120 or touching a touch screen (for example, the display 230) of the electronic device 120. have.
  • the electronic device 120 determines language information of the user 110 included in the input message.
  • the language information of the user 110 includes information about lexical, grammar, syntactic, intonation, stress, tone, and rhythm. can do.
  • the electronic device 120 may determine the language proficiency level of the user 110 based on the language information of the user 110.
  • the electronic device 120 may determine the language proficiency level of the user according to the number of words included in the language information of the user 110.
  • the language proficiency level of the user 110 may mean a value for indicating the language proficiency of the user 110.
  • the electronic device 120 determines language information for a response corresponding to language information of the user 110.
  • the electronic device 120 may determine language information for a response corresponding to the language proficiency level of the user 110.
  • the language proficiency level of the user 110 may mean a value for indicating the language proficiency of the user 110.
  • the language information for the response may be defined based on at least one of the number of available grammars / vocabulary, the types of grammars / vocabulary, and the length of sentences.
  • the electronic device 120 may determine language information for a response based on other language information of the user 110 included in the other input message received and language information included in the input message before receiving the input message. .
  • the electronic device 120 may detect an error regarding language information of the user 110 and determine language information for a response based on the detected error.
  • the electronic device 120 outputs a response based on language information for the response.
  • the response may consist of sound, text, photo, and video.
  • the electronic device 120 may output a response composed of a picture.
  • the electronic device 120 may output a response composed of a video.
  • 4 illustrates another operation method for outputting a response according to a language capability of a user in an electronic device according to various embodiments of the present disclosure. 4 illustrates an operation method of the electronic device 120.
  • the electronic device 120 receives an input message by the user 110.
  • the input message may be a voice message or a text message.
  • the electronic device 120 determines the type of an input message. That is, the electronic device 120 determines whether the input message is a voice message or a text message. If the type of the input message is text, the electronic device 120 proceeds to step 409.
  • the electronic device 120 performs voice recognition on the voice message. That is, the electronic device 120 generates language information from the voice message.
  • the language information may include words, sentences, and text.
  • the electronic device 120 corrects an error of speech recognition.
  • the error of speech recognition may be corrected using domain knowledge of the input message by the user 110.
  • the domain knowledge may mean knowledge of a subject or a field indicated by the input message. Therefore, an unclear portion of language information generated by speech recognition can be corrected correctly by referring to domain knowledge.
  • the electronic device 120 determines a language proficiency level of the user 110. For example, after collecting the language information of the user 110 included in the input message through k conversations, the language proficiency level of the user 110 may be determined based on the collected language information.
  • the k conversations may refer to the number of times the electronic device 120 outputs a response to the input message of the user 110.
  • the language information of the user 110 included in the input message may include a predetermined number of words, the number of words, non-overlapping words, and the number of conversations.
  • the electronic device 120 determines the purpose of the input message. That is, the electronic device 120 analyzes language information of the user 110 included in the input message and determines the intention of the user 110 indicated by the input message.
  • the electronic device 120 outputs a response for determining the purpose of the input message.
  • the electronic device 120 does not determine the intention of the user 110 by analyzing only the input message currently received, the electronic device 120 outputs a question for the user 110 to obtain more detailed language information.
  • step 413 may be omitted.
  • the electronic device 120 determines language information for a response corresponding to the language proficiency level of the user 110.
  • the language proficiency level of the user 110 may be represented by a number. Referring to FIG. 5, each of the language proficiency levels of the user 110 and the number of words that may be used in the response may be mapped. For example, when the language proficiency level of the user 110 is 0.7, the electronic device 120 may determine words for a response in a word set composed of 5000 words. For another example, when the language proficiency level of the user 110 is 0.9, the electronic device 120 may determine words for a response in a word set composed of 10000 words. That is, as the language proficiency level of the user 110 is higher, the electronic device 120 may use various expressions for a response.
  • each of the language proficiency levels of user 110 and a grammar and vocabulary form that may be used in a response may be mapped.
  • the language used by the user 110 is English
  • each of the language proficiency levels of the user 110 and the grammar and vocabulary types that may be used in the response may be mapped as shown in Table 1 below.
  • the electronic device 120 when the language proficiency level of the user 110 is Basic, the electronic device 120 is a grammar and a vocabulary for the response. There is / there are, Simple Present, Present Continuous, Simple Past, Future Time (going to), and I'd. like, Gerunds, Verb + to + infinitive (express purpose), Can / can't, Can / could.
  • the electronic device 120 when the language proficiency level of the user 110 is Upper basic, the electronic device 120 may not only have a grammar and vocabulary mapped to the basic level as a grammar and vocabulary for a response, but also Future Time (present continuous), Future Time (will), and Present Perfect. , Might, may, Must / mustn't, Should, Zero and 1st conditional can be used. That is, grammar and vocabulary available for response are determined according to the language proficiency level of the user 110.
  • each of the language proficiency levels of the user 110 and a UI that may be used for a response may be mapped. For example, when the language proficiency level of the user 110 is lower than the threshold, the electronic device 120 may determine a video for response. For another example, when the language proficiency level of the user 110 is greater than the threshold value, the electronic device 120 may determine a photographic image or website for a response.
  • the electronic device 120 generates a response using language information for the response.
  • the electronic device 120 may generate a sentence based on a word, grammar, and vocabulary form determined according to the language proficiency level of the user 110.
  • the electronic device 120 outputs a response.
  • the electronic device 120 may output voice as a response through the speaker 240.
  • the electronic device 120 may display the UI as a response on the display 230.
  • FIG. 6 is a view illustrating an interaction between a processor and a memory for determining a language proficiency level of a user in an electronic device according to various embodiments of the present disclosure. 6 illustrates the detailed functional configurations and interworkings between the processors 260 and memory 220. 6 assumes a situation in which a voice message is received at the electronic device 120.
  • the processor 260 includes a speech recognizer 610, an accent classification 620, an error detector 630, a response model generator 650, and a language proficiency determiner 660.
  • the memory 220 includes a language information storage unit 640.
  • the voice recognizer 610 generates text corresponding to the received voice message.
  • the voice recognition unit 610 may generate text corresponding to the voice message by performing voice recognition on the received voice message.
  • the speech recognizer 610 transfers the generated text to the error detector 630.
  • the stress classification unit 620 detects stress of the voice message.
  • the electronic device 120 may detect the intonation, tone, and rhythm of the voice message.
  • the accent classification unit 620 may detect the length and number of sections in which the voice is not included in the voice message.
  • the error detector 630 detects an error of the text received from the voice recognizer 610.
  • errors in the text may be detected based on the lemmas, part of speech (POS) tags, named-entity, and syntactic features of the words contained in the text.
  • the syntactic characteristic may mean a relationship between words included in the text and a part of speech. In this case, the relationship between words and parts of speech may be expressed in a tree structure.
  • the error detector 630 may detect a word that is not related to a subject or a field represented by the text.
  • the error detector 630 may detect an error in the order of words included in the text, an error in the order of parts of speech, and an error in a relationship between words.
  • the language information storage unit 640 may include language information of the user 110 included in the input message.
  • the language information storage unit 640 may include previous language information of the user 110 included in the received input message before the current input message is received. That is, as the conversation between the user 110 and the electronic device 120 proceeds, the language information storage unit 640 may update or accumulate language information of the user 110.
  • the language information storage unit 640 may function as a database for language information of the user 110.
  • the response model generator 650 may include information about the error received from the error detector 630, information about the stress received from the accent classification unit 620, information about the previous language of the user 110 received from the language information storage unit 640, and the previous language proficiency level.
  • the language proficiency model is generated using the information and information about the previous language proficiency model of the user 110.
  • the language proficiency model may mean a function indicating a mapping relationship between language information of the user 110 and the language proficiency level.
  • the response model generator 650 may generate a language proficiency model by assigning different weights to the received information.
  • the response model generator 650 may further refine the language proficiency level of the language proficiency model.
  • the response model generator 650 may perform machine learning to update the language proficiency model.
  • Machine learning may be referred to as “deep learning”, “deep neural networks”, “long short term memory” (LSTM), or other names with equivalent technical meanings, depending on the technical meaning.
  • the response model generator 650 may transmit language information of the user 110 and information about the updated language proficiency model to the language information storage unit 640.
  • the language proficiency determination unit 660 may determine the language proficiency level of the user 110 using the language proficiency model received from the response model generator 650.
  • the language proficiency level may be a vector form that is converted into a number.
  • the electronic device may provide a response appropriate to the language level of the user.
  • the response of the electronic device can be more easily understood by the user.
  • the electronic device determines the language proficiency of the user and determines the number and type of grammar / vocabulary, the length of the sentence, etc. according to the proficiency.
  • the electronic device may determine a vocabulary or the like used to construct a response based on the frequency of use of the user's language.
  • FIG. 7 an embodiment of configuring language information based on a frequency of use will be described with reference to FIG. 7.
  • 7 illustrates an operation method for determining a response using language information frequently used by a user in an electronic device according to various embodiments of the present disclosure. 7 illustrates a method of operating the electronic device 120.
  • the electronic device 120 determines the number of times that language information of the user 110 stored in the electronic device 120 has been received by the electronic device 120. Each time the electronic device 120 receives the input message by the user 110, the electronic device 120 stores the language information of the user 110 included in the input message, and thus may determine the number of times that the specific language information of the user 110 has been received.
  • the electronic device 120 determines whether the number of times of receiving language information of the user 110 stored in the electronic device 120 is greater than a threshold. That is, the number of times that the stored language information of the user 110 is greater than the threshold may mean that the user 110 frequently uses the stored language information of the user 110. In addition, the number of times that the stored language information of the user 110 is not greater than the threshold may mean that the user 110 does not frequently use the stored language information of the user 110. If the language information of the user 110 stored in the electronic device 120 is not greater than the threshold value, the electronic device 120 proceeds to step 701.
  • the electronic device 120 determines the language information for the response using the language information of the user 110 stored in the electronic device 120.
  • the electronic device 120 designates a word or phrase frequently used by a user as a candidate word for composing a response.
  • the electronic device 120 may set a priority of a frequently used word or phrase higher than another word or phrase. Through this, the user 110 can understand the response more clearly. This is because if the response determined based on the language information for the response includes a word or phrase frequently used by the user 110, the user 110 may understand the response more easily.
  • the electronic device may provide a response optimized for a language level or a frequency of language use of the user.
  • the electronic device may further determine whether to add additional means for the response in addition to selecting the word / phrase / vocabulary constituting the response.
  • additional means for the response in addition to selecting the word / phrase / vocabulary constituting the response.
  • 8 illustrates an operation method for outputting a response by comparing a language proficiency level of a user with a language proficiency level for a response in an electronic device according to various embodiments of the present disclosure. 8 illustrates a method of operating the electronic device 120.
  • the electronic device 120 determines language information of the user 110 included in an input message.
  • the language information of the user 110 may include information about vocabulary, grammar, word order, intonation, stress, tone, and rhythm.
  • the electronic device 120 determines a language proficiency level of the user 110.
  • the language proficiency level of the user 110 may correspond to language information of the user 110.
  • the electronic device 120 may determine the language proficiency level of the user 110 according to the number of words included in the language information of the user 110. For example, in 100 conversations, when the number of words included in the language information of the user 110 is 2000, the electronic device 120 may determine the language proficiency level of the user 110 as 0.5. For another example, in 100 conversations, when the number of words included in the language information of the user 110 is 3000, the electronic device 120 may determine the language proficiency level of the user 110 as 0.7. That is, as the number of words used by the user 110 increases, it may be determined that the language ability of the user 110 is excellent.
  • the electronic device 120 determines a language proficiency level for the response.
  • the language proficiency level for the response may mean a language proficiency level corresponding to the language information required for the response.
  • the language proficiency level for the response may be different from the language proficiency level of the user 110. This is because, in order to generate a response to the input message of the user 110, there may be a case where the language information mapped to the language proficiency level higher than the language information mapped to the language proficiency level of the user 110 must be used. to be.
  • the electronic device 120 determines whether the language proficiency level for the response is greater than the language proficiency level of the user 110. In some embodiments, the electronic device 120 may determine whether the language information mapped to the language proficiency level for the response includes language information mapped to the language proficiency level of the user 110.
  • the electronic device 120 uses the language information corresponding to the language proficiency level for the response to add an additional UI corresponding to the response and the response.
  • the UI corresponding to the response may mean a UI that allows the user 110 to more easily understand the response. Therefore, even if the user 110 does not properly understand the response generated according to the language proficiency level larger than the language proficiency level of the user 110, the user 110 may grasp the meaning of the response by referring to the additional UI corresponding to the response.
  • the additional UI may include various contents that can supplement the meaning of the words included in the response, such as a video, graphic, image, and sound.
  • the electronic device 120 when the language proficiency level for the response is not greater than the language proficiency level of the user 110, in operation 811, the electronic device 120 outputs a response using language information corresponding to the language proficiency level of the user 110. This is because the user 110 can understand the response even if the UI for the response is not output separately.
  • the electronic device 120 does not output the UI corresponding to the response with the response in all cases, and outputs the UI corresponding to the response and the response only when the language proficiency level for the response is greater than the language proficiency level of the user 110. By doing so, the user 110 may reduce power consumption for understanding the response.
  • Operations based on language proficiency may be utilized in various devices and various fields.
  • the above-described technique may be utilized for an intelligence agent service, a personal assistant service, a toy, a tourist guide agent, a docent service, or the like of a smartphone.
  • the electronic device 120 may operate as follows.
  • the electronic device 120 may provide a personal assistant service.
  • the personal assistant service may be referred to as an "intelligent agent" or another name having an equivalent technical meaning.
  • the user may perform voice control of various applications (eg, messenger, phone, gallery, photo, quality assurance, weather forecast) of the electronic device 120 using the personal assistant service of the electronic device 120.
  • the electronic device 120 may improve the natural language generation (NLG) to adaptively adjust the response according to the language level of the user 110. As the NLG is improved, communication between the user 110 and the electronic device 120 may be performed more effectively.
  • NLG natural language generation
  • the electronic device 120 may be a toy, a social companion, or a story teller with a child (eg, the user 120). In this case, the electronic device 120 may perform an appropriate conversation with the child by determining a vocabulary and a grammar suitable for the age of the child. This allows the child to learn new words according to their mental development level, age, and language skills.
  • the electronic device 120 may function as a tour guide agent.
  • the electronic device 120 may communicate with a user 110 (for example, a foreigner or a person who does not use a native language) having various levels of language ability.
  • the electronic device 120 may recognize the intention and requirements of the user 110 to determine the language proficiency level of the user 110.
  • the electronic device 120 may output a response that can be easily understood by the user 110.
  • a computer-readable storage medium for storing one or more programs (software modules) may be provided.
  • One or more programs stored in a computer readable storage medium are configured for execution by one or more processors in an electronic device.
  • One or more programs include instructions that cause an electronic device to execute methods in accordance with embodiments described in the claims or specifications of this disclosure.
  • Such programs may include random access memory, non-volatile memory including flash memory, read only memory (ROM), and electrically erasable programmable ROM.
  • EEPROM Electrically Erasable Programmable Read Only Memory
  • magnetic disc storage device compact disc ROM (CD-ROM), digital versatile discs (DVDs) or other forms
  • CD-ROM compact disc ROM
  • DVDs digital versatile discs
  • It can be stored in an optical storage device, a magnetic cassette. Or, it may be stored in a memory composed of some or all of these combinations.
  • each configuration memory may be included in plural.
  • the program may be configured through a communication network such as the Internet, an intranet, a local area network (LAN), a wide area network (WLAN), or a storage area network (SAN), or a combination thereof. It may be stored in an attachable storage device that is accessible. Such a storage device may be connected to a device that performs an embodiment of the present disclosure through an external port. In addition, a separate storage device on a communication network may be connected to a device that performs an embodiment of the present disclosure.
  • a communication network such as the Internet, an intranet, a local area network (LAN), a wide area network (WLAN), or a storage area network (SAN), or a combination thereof. It may be stored in an attachable storage device that is accessible. Such a storage device may be connected to a device that performs an embodiment of the present disclosure through an external port.
  • a separate storage device on a communication network may be connected to a device that performs an embodiment of the present disclosure.

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(artificial intelligence, AI) 시스템 및 그 응용에 관련된 것이다. 전자 장치의 동작 방법은 입력 메시지를 수신하는 과정과, 상기 입력 메시지에 포함된 사용자의 언어 정보를 결정하는 과정과, 상기 사용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하는 과정과, 상기 응답을 위한 언어 정보에 기반하여 상기 응답을 출력하는 과정을 포함한다.

Description

언어 정보를 처리하기 위한 방법 및 그 전자 장치
본 개시(disclosure)의 다양한 실시예는 언어 정보를 처리하기 위한 방법 및 그 전자 장치에 관한 것이다.
인공지능(artificial intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
음성 인식 기술의 발전으로, 사용자와 대화를 수행할 수 있는 전자 장치에 대한 관심이 높아지고 있다. 이에, 전자 장치는 사용자의 음성 메시지의 의도를 파악하여 적절한 대답을 하는 지능형 개인 비서 서비스를 제공할 수 있다. 예를 들어, 사용자가 음성으로 전자 장치에게 질문하는 경우, 전자 장치는 연락처나 개인 일정 등을 알려주고, 웹 상에서 검색 내용을 바탕으로 날씨 등 사용자 질문에 대한 답변을 음성으로 제공할 수 있다.
상술한 바와 같은 논의를 바탕으로, 본 개시(disclosure)는, 언어 정보를 처리하는 방법 및 그 전자 장치를 제공한다.
또한, 본 개시는, 사용자에 의한 입력 메시지로부터 사용자의 언어 정보를 결정하는 방법 및 그 전자 장치를 제공한다.
또한, 본 개시는, 사용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하는 방법 및 그 전자 장치를 제공한다.
또한, 본 개시는, 사용자의 언어 숙련도 레벨에 따라 응답을 출력하는 방법 및 그 전자 장치를 제공한다.
본 개시(disclosure)의 다양한 실시 예들에 따르면, 전자 장치의 동작 방법은 입력 메시지를 수신하는 과정과, 상기 입력 메시지에 포함된 사용자의 언어 정보를 결정하는 과정과, 상기 사용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하는 과정과, 상기 응답을 위한 언어 정보에 기반하여 상기 응답을 출력하는 과정을 포함한다.
본 개시의 다양한 실시 예들에 따르면, 전자 장치는 입력 메시지를 수신하는 입력부와, 상기 입력 메시지에 포함된 사용자의 언어 정보를 결정하고, 상기 자용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하고, 상기 응답을 위한 언어 정보에 기반하여 상기 응답을 출력하도록 제어하는 프로세서를 포함한다.
본 개시(disclosure)의 다양한 실시 예들에 따른 방법 및 그 전자 장치는, 사용자의 언어 숙련도에 따라 적응적으로 응답을 출력할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 다양한 실시 예들에 따른 전자 장치 및 사용자의 상호작용을 도시한다.
도 2는 본 개시의 다양한 실시 예들에 따른 전자 장치의 기능적 구성의 예를 도시한다.
도 3은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 능력에 따라 응답을 출력하기 위한 동작 방법을 도시한다.
도 4는 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 능력에 따라 응답을 출력하기 위한 다른 동작 방법을 도시한다.
도 5는 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 숙련도 레벨에 따른 응답을 위한 단어들의 수를 나타내는 그래프의 예를 도시한다.
도 6은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 숙련도 레벨을 결정하기 위한 프로세서와 메모리의 연동을 도시한다.
도 7은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자가 자주 사용한 언어 정보를 이용하여 응답을 결정하기 위한 동작 방법을 도시한다.
도 8은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 숙련도 레벨과 응답을 위한 언어 숙련도 레벨을 비교하여 응답을 출력하기 위한 동작 방법을 도시한다.
본 개시에서 사용되는 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 개시에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 개시에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 개시에서 정의된 용어일지라도 본 개시의 실시 예들을 배제하도록 해석될 수 없다.
이하에서 설명되는 본 개시의 다양한 실시 예들에서는 하드웨어적인 접근 방법을 예시로서 설명한다. 하지만, 본 개시의 다양한 실시 예들에서는 하드웨어와 소프트웨어를 모두 사용하는 기술을 포함하고 있으므로, 본 개시의 다양한 실시 예들이 소프트웨어 기반의 접근 방법을 제외하는 것은 아니다.
본 개시는 사용자의 언어 정보를 처리하기 위한 방법 및 그 전자 장치에 관한 것이다.
본 개시에서 이용되는 언어 능력 지표(metric)를 지칭하는 용어(예: 언어 숙련도 레벨(language proficiency level)), 메시지(예: 음성 메시지, 텍스트 메시지)을 지칭하는 용어, 장치의 구성 요소를 지칭하는 용어 등은 설명의 편의를 위해 예시된 것이다. 따라서, 본 발명이 후술되는 용어들에 한정되는 것은 아니며, 동등한 기술적 의미를 가지는 다른 용어가 사용될 수 있다.
도 1은 본 개시의 다양한 실시 예들에 따른 전자 장치 및 사용자의 상호작용을 도시한다.
도 1을 참고하면, 사용자 110과 단말 120은 대화를 수행할 수 있다. 사용자 110은 단말 120에게 메시지를 입력할 수 있다. 단말 120은 입력된 메시지에 대응하여 응답을 출력할 수 있다. 이 경우, 단말 120은 사용자 110의 언어 숙련도 레벨에 따라 응답에 이용되는 언어 정보를 결정할 수 있다.
단말 120은 단말(terminal) 외 '사용자 장비(user equipment, UE)', '이동국(mobile station)', '가입자국(subscriber station)', '원격 단말(remote terminal)', '무선 단말(wireless terminal)', 또는 '사용자 장치(user device)' 또는 이와 동등한 기술적 의미를 가지는 다른 용어로 지칭될 수 있다. 경우에 따라, 단말 120은 기계 타입 통신(machine type communication, MTC)을 수행하는 장치로서, 사용자 110에 의해 휴대되지 아니할 수 있다.
도 2는 본 개시의 다양한 실시 예들에 따른 전자 장치의 기능적 구성의 예를 도시한다.
도 2를 참고하면, 전자 장치 120은 통신부 210, 메모리 220, 디스플레이 230, 스피커 240, 마이크 250, 및 프로세서 260을 포함할 수 있다.
통신부 210은 무선 주파수(radio frequency, RF) 신호를 수신할 수 있다. 이를 위해, 통신부 210은 적어도 하나의 안테나를 포함할 수 있다. 통신부 210은 중간 주파수(intermediate frequency, IF) 또는 기저대역 신호를 생성하기 위해 수신된 신호를 하향 변환(down-convert)할 수 있다. 통신부 210은 기저대역 또는 IF 신호를 필터링(filtering), 디코딩(decoding), 및/또는 디지털화(digitizing)함으로써 처리된 기저대역 신호를 생성하는 수신 처리 회로를 포함할 수 있다. 수신 처리 회로는 처리된 기저대역 신호를 음성 데이터를 위해 스피커에 송신하거나, 처리를 더 하기 위해(예: 웹 브라우징 데이터(web browsing data)) 프로세서 260에 송신할 수 있다. 또한, 통신부 210은 적어도 하나의 송수신기(transceiver)를 포함할 수 있다. 적어도 하나의 송수신기는 프로세서 260으로부터 송신을 위한(outgoing) 기저대역 데이터(웹 데이터, 이메일(e-mail), 쌍방향 비디오 게임 데이터 같은)를 수신할 수 있다. 송신 처리 회로는 처리된 기저대역 또는 중간주파수 신호를 생성하기 위해 송신을 위한 기저대역 데이터를 인코드(encode)하고, 멀티플렉스(multiplex)하고, 디지털화할 수 있다. 통신부 210은 송신 처리 회로를 통해 송신을 위한 처리된 기저대역 또는 중간주파수 신호를 안테나를 통해 송신될 수 있는 RF 신호로 상향변환(up-convert)할 수 있다.
메모리 220은 전자 장치 120의 동작을 위한 기본 프로그램, 응용 프로그램, 설정 정보 등의 데이터를 저장할 수 있다. 메모리 220은 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고 메모리 220은 프로세서 260의 요청에 따라 저장된 데이터를 제공할 수 있다.
디스플레이 230은 텍스트 및/또는 이미지를 표시할 수 있는 액정(liquid crystal) 화면, 발광 다이오드(light emitting diode) 디스플레이 또는 다른 화면일 수 있다. 디스플레이 230은 프로세서 260을 통해 수신된 데이터에 대응하는 화면을 표시할 수 있다. 디스플레이 230은 "입력부" 또는 이와 동등한 기술적 의미를 가지는 다른 용어로 지칭될 수 있다.
스피커 240은 진동판의 떨림을 이용하여 오디오 신호를 진동으로 바꿔 공기 중에 방사할 수 있다. 스피커 240은 사용자 110에 의해 수신된 입력 메시지에 대응하는 응답을 아날로그 형태로 출력할 수 있다.
마이크 250은 압전소자 등의 회로를 포함할 수 있고, 마이크 250에 입력되는 음성에 의한 진동판의 떨림을 이용하여 오디오 신호를 발생한다. 마이크 250은 사용자 110에 의해 입력되는 음성을 수신할 수 있다. 마이크 250은 "입력부" 또는 이와 동등한 기술적 의미를 가지는 다른 용어로 지칭될 수 있다.
프로세서 260은 프로세서 260과 기능적으로 결합된 통신부 210, 메모리 220, 디스플레이 230, 스피커 240, 및 마이크 250을 제어할 수 있다. 예를 들어, 프로세서 260은 통신부 210을 이용하여 정방향(forward)의 채널 신호의 수신과 역방향(reverse)의 채널 신호의 송신을 제어할 수 있다. 일부 실시 예들에서, 프로세서 260은 최소한 하나의 마이크로 프로세서(microprocessor) 또는 마이크로제어기(microcontroller)를 포함할 수 있다. 프로세서 260은 메모리 220에 저장된 프로그램을 실행할 수 있다. 프로세서 260은 실행 프로세스에서 요구됨에 따라 데이터를 전자 장치 120에 저장하거나 불러올 수 있다. 프로세서 260은 운영 체제에 기반하여 수신되는 신호에 응답하여 어플리케이션을 실행하도록 구성될 수 있다.
도 2는 전자 장치 120이 통신부 210, 메모리 220, 디스플레이 230, 스피커 240, 마이크 250, 및 프로세서 260을 포함하는 것으로 도시하나, 이는 예시적인 것이고, 장치는 다른 구성요소를 더 포함할 수 있고, 상술한 통신부 210, 메모리 220, 디스플레이 230, 스피커 240, 마이크 250, 및 프로세서 260 중 일부는 생략될 수 있다.
도 3은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 능력에 따라 응답을 출력하기 위한 동작 방법을 도시한다. 도 3은 전자 장치 120의 동작 방법을 예시한다.
도 3을 참고하면, 301 단계에서, 전자 장치 120은 입력 메시지를 수신한다. 예를 들어, 입력 메시지는 사용자 110에 의해 전자 장치 120의 마이크 250에 입력되는 음성(이하, 음성 메시지로 지칭됨)을 의미할 수 있다. 다른 예를 들어, 입력 메시지는 사용자 110이 전자 장치 120의 버튼을 누르거나 전자 장치 120의 터치스크린(예: 디스플레이 230)을 터치하여 입력하는 텍스트(이하, 텍스트 메시지로 지칭됨)를 의미할 수 있다.
303 단계에서, 전자 장치 120은 입력 메시지에 포함된 사용자 110의 언어 정보를 결정한다. 예를 들어, 사용자 110의 언어 정보는 어휘(lexical), 문법(grammar), 어순(syntactic), 억양(intonation), 강세(stress), 어조(tone), 및 리듬(rhythm)에 대한 정보를 포함할 수 있다. 일부 실시 예들에서, 전자 장치 120은 사용자 110의 언어 정보에 기반하여 사용자 110의 언어 숙련도 레벨을 판단할 수 있다. 예를 들어, 전자 장치 120은 사용자 110의 언어 정보에 포함되는 단어들의 수에 따라 사용자의 언어 숙련도 레벨을 결정할 수 있다. 여기서, 사용자 110의 언어 숙련도 레벨은 사용자 110의 언어 숙련도를 나타내기 위한 값을 의미할 수 있다.
305 단계에서, 전자 장치 120은 사용자 110의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정한다. 일부 실시 예들에서, 전자 장치 120은 사용자 110의 언어 숙련도 레벨에 대응하는 응답을 위한 언어 정보를 결정할 수 있다. 여기서, 사용자 110의 언어 숙련도 레벨은 사용자 110의 언어 숙련도를 나타내기 위한 값을 의미할 수 있다. 그리고, 응답을 위한 언어 정보는 사용 가능한 문법/어휘의 개수, 문법/어휘의 종류, 문장의 길이 중 적어도 하나에 기반하여 정의될 수 있다. 다른 실시 예들에서, 전자 장치 120은 입력 메시지를 수신하기 이전에 수신된 다른 입력 메시지에 포함된 사용자 110의 다른 언어 정보와 입력 메시지에 포함된 언어 정보에 기반하여 응답을 위한 언어 정보를 결정할 수 있다. 또 다른 실시 예들에서, 전자 장치 120은 사용자 110의 언어 정보에 대한 오류를 검출하고, 검출된 오류에 기반하여 응답을 위한 언어 정보를 결정할 수 있다.
307 단계에서, 전자 장치 120은 응답을 위한 언어 정보에 기반하여 응답을 출력한다. 예를 들어, 응답은 소리, 텍스트, 사진, 및 동영상으로 구성될 수 있다. 일부 실시 예들에서, 사용자 110의 언어 숙련도 레벨이 0.5인 경우, 전자 장치 120은 사진으로 구성된 응답을 출력할 수 있다. 사용자 110의 언어 숙련도 레벨이 0.7인 경우, 전자 장치 120은 동영상으로 구성된 응답을 출력할 수 있다.
도 4는 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 능력에 따라 응답을 출력하기 위한 다른 동작 방법을 도시한다. 도 4는 전자 장치 120의 동작 방법을 예시한다.
도 4를 참고하면, 401 단계에서, 전자 장치 120은 사용자 110에 의한 입력 메시지를 수신한다. 여기서, 입력 메시지는 음성 메시지 또는 텍스트 메시지일 수 있다.
403 단계에서, 전자 장치 120은 입력 메시지의 타입을 결정한다. 즉, 전자 장치 120은 입력 메시지가 음성 메시지인지 텍스트 메시지인지 여부를 결정한다. 만약, 입력 메시지의 타입이 텍스트인 경우, 전자 장치 120은 409 단계로 진행한다.
반면, 입력 메시지의 타입이 음성인 경우, 405 단계에서, 전자 장치 120은 음성 메시지에 대하여 음성 인식을 수행한다. 즉, 전자 장치 120은 음성 메시지로부터 언어 정보를 생성한다. 예를 들어, 언어 정보는 단어, 문장, 및 텍스트를 포함할 수 있다.
407 단계에서, 전자 장치 120은 음성 인식의 오류를 정정한다. 예를 들어, 음성 인식의 오류는 사용자 110에 의한 입력 메시지에 대한 도메인 지식(domain knowledge)을 이용하여 정정될 수 있다. 여기서, 도메인 지식이란 입력 메시지가 나타내는 주제 또는 분야에 대한 지식을 의미할 수 있다. 따라서, 음성 인식에 의해 생성된 언어 정보 중 불분명한 부분이 도메인 지식을 참고하여 올바르게 정정될 수 있다.
409 단계에서, 전자 장치 120은 사용자 110의 언어 숙련도 레벨을 결정한다. 예를 들어, k번의 대화를 통해, 입력 메시지에 포함된 사용자 110의 언어 정보를 수집한 후, 수집된 언어 정보에 기반하여 사용자 110의 언어 숙련도 레벨을 결정할 수 있다. 여기서, k번의 대화는 전자 장치 120이 사용자 110의 입력 메시지에 대한 응답을 출력한 횟수를 의미할 수 있다. 일부 실시 예들에서, 입력 메시지에 포함된 사용자 110의 언어 정보는 미리 결정된 개수의 단어들, 단어들의 수, 중복되지 않는 단어들, 및 대화 횟수를 포함할 수 있다.
411 단계에서, 전자 장치 120은 입력 메시지의 목적을 판단한다. 즉, 전자 장치 120은 입력 메시지에 포함된 사용자 110의 언어 정보를 분석하여, 입력 메시지가 나타내는 사용자 110의 의도를 판단한다.
413 단계에서, 전자 장치 120은 입력 메시지의 목적을 판단하기 위한 응답을 출력한다. 전자 장치 120이 현재 수신된 입력 메시지만을 분석하여 사용자 110의 의도를 판단하지 못하는 경우, 전자 장치 120은 보다 상세한 언어 정보를 획득하기 위하여 사용자 110에 대하여 질문을 출력한다. 일부 실시 예들에서, 전자 장치 120이 현재 수신된 입력 메시지만을 분석하여 사용자 110의 의도를 판단하는 경우, 413 단계는 생략될 수 있다.
415 단계에서, 전자 장치 120은 사용자 110의 언어 숙련도 레벨에 대응하는 응답을 위한 언어 정보를 결정한다. 이 경우, 사용자 110의 언어 숙련도 레벨은 숫자로 표현될 수 있다. 도 5를 참고하면, 사용자 110의 언어 숙련도 레벨들 각각과 응답에 이용될 수 있는 단어들의 수는 맵핑될 수 있다. 예를 들어, 사용자 110의 언어 숙련도 레벨이 0.7인 경우, 전자 장치 120은 5000개의 단어들로 구성된 단어 집합에서 응답을 위한 단어들을 결정할 수 있다. 다른 예를 들어, 사용자 110의 언어 숙련도 레벨이 0.9인 경우, 전자 장치 120은 10000개의 단어들로 구성된 단어 집합에서 응답을 위한 단어들을 결정할 수 있다. 즉, 사용자 110의 언어 숙련도 레벨이 높을수록, 전자 장치 120은 응답을 위해 다양한 표현들을 사용할 수 있다.
일부 실시 예들에서, 사용자 110의 언어 숙련도 레벨들 각각과 응답에 이용될 수 있는 문법 및 어휘 형태가 맵핑될 수 있다. 예를 들어, 사용자 110이 사용하는 언어가 영어인 경우, 사용자 110의 언어 숙련도 레벨들 각각과 응답에 이용될 수 있는 문법 및 어휘 형태는 하기 <표 1>과 같이 맵핑될 수 있다.
Figure PCTKR2018002920-appb-I000001
이 경우, 사용자 110의 언어 숙련도 레벨이 Basic인 경우, 전자 장치 120은 응답을 위한 문법 및 어휘로서 There is/there are, Simple Present, Present Continuous, Simple Past, Future Time (going to), I'd like, Gerunds, Verb + to + infinitive (express purpose), Can/can't, Can/could를 사용할 수 있다. 또한, 사용자 110의 언어 숙련도 레벨이 Upper basic인 경우, 전자 장치 120은 응답을 위한 문법 및 어휘로서 Basic 레벨에 맵핑되는 문법 및 어휘뿐만 아니라 Future Time (present continuous), Future Time (will), Present Perfect, Might, may, Must/mustn't, Should, Zero and 1st conditional을 사용할 수 있다. 즉, 사용자 110의 언어 숙련도 레벨에 따라 응답을 위해 이용 가능한 문법 및 어휘들이 결정된다.
다른 실시 예들에서, 사용자 110의 언어 숙련도 레벨들 각각과 응답에 이용될 수 있는 UI가 맵핑될 수 있다. 예를 들어, 사용자 110의 언어 숙련도 레벨이 임계값보다 낮은 경우, 전자 장치 120은 응답을 위한 동영상을 결정할 수 있다. 다른 예를 들어, 사용자 110의 언어 숙련도 레벨이 임계값보다 큰 경우, 전자 장치 120은 응답을 위한 사진 이미지 또는 웹사이트를 결정할 수 있다.
417 단계에서, 전자 장치 120은 응답을 위한 언어 정보를 이용하여 응답을 생성한다. 예를 들어, 전자 장치 120은 사용자 110의 언어 숙련도 레벨에 따라 결정된 단어, 문법, 및 어휘 형태에 기반하여 문장을 생성할 수 있다.
419 단계에서, 전자 장치 120은 응답을 출력한다. 예를 들어, 전자 장치 120은 스피커 240을 통해 응답으로서 음성을 출력할 수 있다. 다른 예를 들어, 전자 장치 120은 디스플레이 230을 통해 응답으로서 UI를 디스플레이할 수 있다.
도 6은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 숙련도 레벨을 결정하기 위한 프로세서와 메모리의 연동을 도시한다. 도 6은 프로세서 260과 메모리 220의 상세한 기능적 구성들 및 구성들 간 연동을 예시한다. 도 6은 전자 장치 120에 음성 메시지가 수신되는 상황을 가정한다.
도 6을 참고하면, 프로세서 260은 음성 인식부 610, 강세 분류부 620, 오류 검출부 630, 응답 모델 생성부 650, 및 언어 숙련도 결정부 660을 포함한다. 메모리 220은 언어 정보 저장부 640을 포함한다.
음성 인식부 610은 수신된 음성 메시지에 대응하는 텍스트를 생성한다. 음성 인식부 610은 수신된 음성 메시지에 음성 인식을 수행하여 음성 메시지에 대응하는 텍스트를 생성할 수 있다. 음성 인식부 610은 생성된 텍스트를 오류 검출부 630에게 전달한다.
강세 분류부 620은 음성 메시지의 강세를 검출한다. 일부 실시 예들에서, 전자 장치 120은 음성 메시지의 억양, 어조, 및 리듬을 검출할 수 있다. 강세 분류부 620은 음성 메시지에서 음성이 포함되지 않은 구간의 길이 및 개수를 검출할 수 있다.
오류 검출부 630은 음성 인식부 610으로부터 전달 받은 텍스트의 오류를 검출한다. 일부 실시 예들에서, 텍스트의 오류는 텍스트에 포함된 단어의 기본형(lemmas), POS(part of speech) 태그(tag), 개체명(named-entity), 구문 특성(syntactic features)에 기반하여 검출될 수 있다. 예를 들어, 구문 특성은 텍스트에 포함된 단어들과 품사의 관계를 의미할 수 있다. 이 경우, 단어들과 품사의 관계는 트리(tree) 구조로 표현될 수 있다. 다른 실시 예들에서, 오류 검출부 630은 텍스트가 나타내는 주제 또는 분야와 관련 없는 단어를 검출할 수 있다. 또한, 오류 검출부 630은 텍스트에 포함된 단어들의 순서의 오류, 품사들의 순서의 오류, 및 단어들 간 관계의 오류를 검출할 수 있다.
언어 정보 저장부 640은 입력 메시지에 포함된 사용자 110의 언어 정보를 포함할 수 있다. 또한, 언어 정보 저장부 640은 현재 입력 메시지가 수신되기 이전에 수신된 입력 메시지에 포함된 사용자 110의 이전 언어 정보를 포함할 수 있다. 즉, 언어 정보 저장부 640은 사용자 110과 전자 장치 120의 대화가 진행됨에 따라, 사용자 110의 언어 정보를 갱신 또는 축적할 수 있다. 언어 정보 저장부 640은 사용자 110의 언어 정보에 대한 데이터 베이스로 기능할 수 있다.
응답 모델 생성부 650은 오류 검출부 630으로부터 전달 받은 오류에 대한 정보, 강세 분류부 620으로부터 전달 받은 강세에 대한 정보, 언어 정보 저장부 640으로부터 전달 받은 사용자 110의 이전 언어 정보, 이전 언어 숙련도 레벨에 대한 정보, 및 사용자 110의 이전 언어 숙련도 모델에 대한 정보를 이용하여 언어 숙련도 모델을 생성한다. 여기서, 언어 숙련도 모델은 사용자 110의 언어 정보와 언어 숙련도 레벨 간 맵핑 관계를 나타내는 함수를 의미할 수 있다. 일부 실시 예들에서, 응답 모델 생성부 650은 상기 전달 받은 각 정보에 다른 가중치를 부여하여, 언어 숙련도 모델을 생성할 수 있다. 다른 실시 예들에서, 사용자 110과 전자 장치 120의 대화가 진행됨에 따라, 응답 모델 생성부 650은 언어 숙련도 모델의 언어 숙련도 레벨을 보다 세분화할 수 있다. 이는, 언어 숙련도 모델에 축적된 사용자 110의 언어 정보가 반영되기 때문이다. 즉, 응답 모델 생성부 650은 언어 숙련도 모델을 갱신하기 위하여 머신 러닝(machine learning)을 수행할 수 있다. 머신 러닝은 그 기술적 의미에 따라 "딥 러닝(deep learning)", "DNN(deep neural networks)", "LSTM(long short term memory)" 또는 이와 동등한 기술적 의미를 가지는 다른 명칭으로 지칭될 수 있다. 일부 실시 예들에서, 응답 모델 생성부 650은 언어 정보 저장부 640에게 사용자 110의 언어 정보, 갱신된 언어 숙련도 모델에 대한 정보를 전달할 수 있다.
언어 숙련도 결정부 660은 응답 모델 생성부 650으로부터 전달받은 언어 숙련도 모델을 이용하여 사용자 110의 언어 숙련도 레벨을 결정할 수 있다. 여기서, 언어 숙련도 레벨은 숫자로 변환되는 벡터 형태일 수 있다.
상술한 다양한 실시 예들에 따라, 전자 장치는 사용자의 언어 수준에 적합한 응답을 제공할 수 있다. 이로 인해, 전자 장치의 응답이 사용자에게 보다 용이하게 이해될 수 있다. 상술한 실시 예들에서, 전자 장치는 사용자의 언어 숙련도를 판단하고, 숙련도에 따른 문법/어휘의 개수 및 종류, 문장의 길이 등을 결정한다. 이에 더하여, 다양한 실시 예들에 따라, 전자 장치는 사용자의 언어의 사용 빈도에 기반하여 응답을 구성하기 위해 사용할 어휘 등을 결정할 수 있다. 이하 도 7을 참고하여, 사용 빈도에 기반하여 언어 정보를 구성하는 실시 예가 설명된다.
도 7은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자가 자주 사용한 언어 정보를 이용하여 응답을 결정하기 위한 동작 방법을 도시한다. 도 7은 전자 장치 120의 동작 방법을 예시한다.
도 7을 참고하면, 701 단계에서, 전자 장치 120은 전자 장치 120에 저장된 사용자 110의 언어 정보가 전자 장치 120에 수신된 횟수를 결정한다. 전자 장치 120은 사용자 110에 의한 입력 메시지를 수신할 때마다, 입력 메시지에 포함된 사용자 110의 언어 정보를 저장하기 때문에, 사용자 110의 특정 언어 정보가 수신된 횟수를 결정할 수 있다.
703 단계에서, 전자 장치 120은 전자 장치 120에 저장된 사용자 110의 언어 정보가 수신된 횟수가 임계값보다 큰지 여부를 결정한다. 즉, 저장된 사용자 110의 언어 정보가 수신된 횟수가 임계값보다 크다는 것은 사용자 110이 저장된 사용자 110의 언어 정보를 자주 사용하는 것을 의미할 수 있다. 또한, 저장된 사용자 110의 언어 정보가 수신된 횟수가 임계값보다 크지 않다는 것은 사용자 110이 저장된 사용자 110의 언어 정보를 자주 사용하지 않는 것을 의미할 수 있다. 만약, 전자 장치 120에 저장된 사용자 110의 언어 정보가 임계값보다 크지 않은 경우, 전자 장치 120은 701 단계로 진행한다.
반면, 전자 장치 120에 저장된 사용자 110의 언어 정보가 임계값보다 큰 경우, 705 단계에서, 전자 장치 120은 전자 장치 120에 저장된 사용자 110의 언어 정보를 이용하여 응답을 위한 언어 정보를 결정한다. 다시 말해, 전자 장치 120은 사용자가 자주 사용하는 단어나 구문을 응답을 구성하기 위한 후보 단어로서 지정한다. 이때, 전자 장치 120은 자주 사용하는 단어나 구문의 우선순위를 다른 단어나 구문보다 높게 설정할 수 있다. 이를 통해, 사용자 110은 응답을 보다 명확하게 이해할 수 있다. 왜냐하면, 응답을 위한 언어 정보에 기반하여 결정된 응답에 사용자 110이 자주 사용하는 단어나 구문이 포함되어 있다면, 사용자 110은 응답을 보다 쉽게 이해할 수 있기 때문이다.
상술한 다양한 실시 예들에 따라, 전자 장치는 사용자의 언어 수준 또는 언어 사용 빈도에 최적화된 응답을 제공할 수 있다. 이에 더하여, 다양한 실시 예들에 따라, 전자 장치는 응답을 구성하는 단어/구문/어휘를 선택하는데 더하여, 응답을 위한 부가 수단을 추가할지 여부를 더 판단할 수 있다. 이하 도 8을 참고하여, 부가 수단을 포함하는 응답을 제공하는 실시 예가 설명된다.
도 8은 본 개시의 다양한 실시 예들에 따른 전자 장치에서 사용자의 언어 숙련도 레벨과 응답을 위한 언어 숙련도 레벨을 비교하여 응답을 출력하기 위한 동작 방법을 도시한다. 도 8은 전자 장치 120의 동작 방법을 예시한다.
도 8을 참고하면, 801 단계에서, 전자 장치 120은 입력 메시지에 포함된 사용자 110의 언어 정보를 결정한다. 예를 들어, 사용자 110의 언어 정보는 어휘, 문법, 어순, 억양, 강세, 어조, 및 리듬에 대한 정보를 포함할 수 있다.
803 단계에서, 전자 장치 120은 사용자 110의 언어 숙련도 레벨을 결정한다. 여기서, 사용자 110의 언어 숙련도 레벨은 사용자 110의 언어 정보에 대응할 수 있다. 일부 실시 예들에서, k번의 대화에서, 전자 장치 120은 사용자 110의 언어 정보에 포함되는 단어의 수에 따라 사용자 110의 언어 숙련도 레벨을 결정할 수 있다. 예를 들어, 100번의 대화에서, 사용자 110의 언어 정보에 포함된 단어의 수가 2000개인 경우, 전자 장치 120은 사용자 110의 언어 숙련도 레벨을 0.5로 결정할 수 있다. 다른 예를 들어, 100번의 대화에서, 사용자 110의 언어 정보에 포함된 단어의 수가 3000개인 경우, 전자 장치 120은 사용자 110의 언어 숙련도 레벨을 0.7로 결정할 수 있다. 즉, 사용자 110이 사용하는 단어의 수가 많을수록, 사용자 110의 언어 능력이 뛰어난 것으로 판단될 수 있다.
805 단계에서, 전자 장치 120은 응답을 위한 언어 숙련도 레벨을 결정한다. 여기서, 응답을 위한 언어 숙련도 레벨은 응답에 요구되는 언어 정보에 대응하는 언어 숙련도 레벨을 의미할 수 있다. 이 경우, 응답을 위한 언어 숙련도 레벨은 사용자 110의 언어 숙련도 레벨과 다를 수 있다. 왜냐하면, 사용자 110의 입력 메시지에 대한 응답을 생성하기 위해서, 불가피하게 사용자 110의 언어 숙련도 레벨에 맵핑되는 언어 정보보다 높은 수준의 언어 숙련도 레벨에 맵핑되는 언어 정보가 이용되어야만 하는 경우가 존재할 수 있기 때문이다.
807 단계에서, 전자 장치 120은 응답을 위한 언어 숙련도 레벨이 사용자 110의 언어 숙련도 레벨보다 큰지 여부를 결정한다. 일부 실시 예들에서, 전자 장치 120은 응답을 위한 언어 숙련도 레벨에 맵핑되는 언어 정보가 사용자 110의 언어 숙련도 레벨에 맵핑되는 언어 정보를 포함하는지 여부를 결정할 수 있다.
만약, 응답을 위한 언어 숙련도 레벨이 사용자 110의 언어 숙련도 레벨보다 큰 경우, 809 단계에서, 전자 장치 120은 응답을 위한 언어 숙련도 레벨에 대응하는 언어 정보를 이용하여 응답 및 응답에 대응하는 부가적인 UI를 출력한다. 이 경우, 응답에 대응하는 UI는 사용자 110이 응답을 보다 쉽게 이해하도록 하는 UI를 의미할 수 있다. 따라서, 사용자 110은 사용자 110의 언어 숙련도 레벨보다 큰 언어 숙련도 레벨에 따라 생성된 응답을 제대로 이해하지 못하더라도, 응답에 대응하는 부가적인 UI를 참고하여 응답의 의미를 파악할 수 있다. 예를 들어, 부가적인 UI는 동영상, 그래픽, 이미지, 소리 등 응답에 포함되는 문언의 의미를 보충할 수 있는 다양한 컨텐츠를 포함할 수 있다.
반면, 응답을 위한 언어 숙련도 레벨이 사용자 110의 언어 숙련도 레벨보다 크지 않은 경우, 811 단계에서, 전자 장치 120은 사용자 110의 언어 숙련도 레벨에 대응하는 언어 정보를 이용하여 응답을 출력한다. 이는, 별도로 응답을 위한 UI를 출력하지 않더라도, 사용자 110이 응답을 이해할 수 있기 때문이다.
도 8에서, 전자 장치 120은 모든 경우에 응답과 함께 응답에 대응하는 UI를 출력하지 않고, 응답을 위한 언어 숙련도 레벨이 사용자 110의 언어 숙련도 레벨보다 큰 경우에만 응답과 응답에 대응하는 UI를 출력함으로써, 사용자 110이 응답을 이해하기 위한 전력 소모를 감소시킬 수 있다.
상술한 다양한 실시 예들에 따른 언어 숙련도에 기반한 동작들은, 다양한 장치들 및 다양한 분야에서 활용될 수 있다. 예를 들어, 상술한 기법은 스마트 폰의 인텔리전스 에이전트(intelligence agent) 서비스, 개인 비서 서비스, 장난감, 관광 안내 에이전트(tourist guide agent), 도슨트(docent) 서비스 등에 활용될 수 있다. 이에 따라, 전자 장치 120는 다음과 같이 동작할 수 있다.
일부 실시 예들에서, 전자 장치 120은 개인 비서 서비스를 제공할 수 있다. 여기서, 개인 비서 서비스는 "지능형 에이전트" 또는 이와 동등한 기술적 의미를 가지는 다른 명칭으로 지칭될 수 있다. 사용자는 전자 장치 120의 개인 비서 서비스를 이용하여 전자 장치 120의 다양한 어플리케이션들(예: 메신저, 전화, 갤러리, 사진, QA(quality assurance), 일기 예보)의 음성 제어를 수행할 수 있다. 전자 장치 120은 응답을 사용자 110의 언어 수준에 맞게 적응적으로 조절하기 위하여 NLG(natural language generation)를 개선할 수 있다. NLG를 개선함에 따라, 사용자 110과 전자 장치 120 간 의사소통은 더욱 효과적으로 수행될 수 있다.
다른 실시 예들에서, 전자 장치 120은 아이(예: 사용자 120)와 함께하는 장난감(toy), 사회적 동반자(social companion), 또는 스토리텔러(story teller)일 수 있다. 이 경우, 전자 장치 120은 아이의 나이에 알맞은 어휘와 문법을 결정함으로써, 아이와 적절한 대화를 수행할 수 있다. 이를 통해, 아이는 정신 발달 수준, 연령, 및 언어 능력에 맞게 새로운 단어를 배울 수 있다.
또 다른 실시 예들에서, 전자 장치 120은 관광 안내 에이전트로 기능할 수 있다. 이 경우, 전자 장치 120은 다양한 수준의 언어 능력을 갖는 사용자 110(예: 외국인 또는 모국어를 사용하지 않는 사람들)과 대화를 수행할 수 있다. 전자 장치 120은 사용자 110의 언어 숙련도 레벨을 결정하기 위해 사용자 110의 의도와 요구 사항을 인식할 수 있다. 또한, 전자 장치 120은 사용자 110이 쉽게 이해할 수 있는 응답을 출력할 수 있다.
본 개시의 청구항 또는 명세서에 기재된 실시 예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.
소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체가 제공될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금 본 개시의 청구항 또는 명세서에 기재된 실시 예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.
이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(ROM: Read Only Memory), 전기적 삭제가능 프로그램가능 롬(EEPROM: Electrically Erasable Programmable Read Only Memory), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(CD-ROM: Compact Disc-ROM), 디지털 다목적 디스크(DVDs: Digital Versatile Discs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 다수 개 포함될 수도 있다.
또한, 상기 프로그램은 인터넷(Internet), 인트라넷(Intranet), LAN(Local Area Network), WLAN(Wide LAN), 또는 SAN(Storage Area Network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 본 개시의 실시 예를 수행하는 장치에 접속할 수 있다. 또한, 통신 네트워크상의 별도의 저장장치가 본 개시의 실시 예를 수행하는 장치에 접속할 수도 있다.
상술한 본 개시의 구체적인 실시 예들에서, 개시에 포함되는 구성 요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 본 개시가 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (15)

  1. 전자 장치의 동작 방법에 있어서,
    입력 메시지를 수신하는 과정과,
    상기 입력 메시지에 포함된 사용자의 언어 정보를 결정하는 과정과,
    상기 사용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하는 과정과,
    상기 응답을 위한 언어 정보에 기반하여 상기 응답을 출력하는 과정을 포함하는 방법.
  2. 청구항 1에 있어서,
    상기 사용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하는 과정은,
    상기 사용자의 언어 정보에 기반하여 상기 사용자의 언어 숙련도를 나타내기 위한 값을 결정하는 과정과,
    상기 사용자의 언어 숙련도를 나타내기 위한 값에 대응하는 상기 응답을 위한 언어 정보를 결정하는 과정을 포함하는 방법.
  3. 청구항 2에 있어서,
    상기 사용자의 언어 정보에 기반하여 사용자의 언어 숙련도를 나타내기 위한 값을 결정하는 과정은,
    상기 사용자의 언어 정보에 포함되는 단어들의 수에 따라 상기 사용자의 상기 언어 숙련도를 나타내기 위한 값을 결정하는 과정을 포함하는 방법.
  4. 청구항 2에 있어서,
    상기 응답을 위한 언어 정보에 기반하여 응답을 출력하는 과정은,
    상기 사용자의 언어 숙련도를 나타내기 위한 값이 제1 값인 경우, 사진으로 구성된 응답을 출력하는 과정과,
    상기 사용자의 언어 숙련도를 나타내기 위한 값이 제2 값인 경우, 동영상으로 구성된 응답을 출력하는 과정을 포함하는 방법.
  5. 청구항 1에 있어서,
    상기 사용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하는 과정은,
    상기 입력 메시지를 수신하기 이전에 수신된 다른 입력 메시지에 포함된 상기 사용자의 다른 언어 정보와 상기 사용자의 언어 정보에 기반하여 상기 응답을 위한 언어 정보를 결정하는 과정을 포함하는 방법.
  6. 전자 장치에 있어서,
    입력부와;
    상기 입력부와 기능적으로 결합된 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는, 입력 메시지를 수신하고,
    상기 입력 메시지에 포함된 사용자의 언어 정보를 결정하고,
    상기 자용자의 언어 정보에 대응하는 응답을 위한 언어 정보를 결정하고,
    상기 응답을 위한 언어 정보에 기반하여 상기 응답을 출력하도록 제어하는 장치.
  7. 청구항 1 또는 청구항 6에 있어서,
    상기 입력 메시지는, 상기 사용자에 의해 상기 전자 장치에 입력되는 음성 또는 텍스트인 방법 또는 장치.
  8. 청구항 1 또는 청구항 6에 있어서,
    상기 사용자의 언어 정보는, 어휘(lexical), 문법(grammar), 어순(syntactic), 억양(intonation), 강세(stress), 어조(tone), 및 리듬(rhythm) 중 적어도 하나에 대한 정보를 포함하는 방법 또는 장치.
  9. 청구항 1 또는 청구항 6에 있어서,
    상기 응답은, 소리, 텍스트, 사진, 또는 동영상 중 적어도 하나인 방법 또는 장치.
  10. 청구항 6에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 사용자의 언어 정보에 기반하여 상기 사용자의 언어 숙련도를 나타내기 위한 값을 결정하고,
    상기 사용자의 언어 숙련도를 나타내기 위한 값에 대응하는 상기 응답을 위한 언어 정보를 결정하도록 제어하는 장치.
  11. 청구항 10에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 사용자의 언어 정보에 포함되는 단어들의 수에 따라 상기 사용자의 상기 언어 숙련도를 나타내기 위한 값을 결정하도록 제어하는 장치.
  12. 청구항 10에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 사용자의 언어 숙련도를 나타내기 위한 값이 제1 값인 경우, 사진으로 구성된 응답을 출력하고,
    상기 사용자의 언어 숙련도를 나타내기 위한 값이 제2 값인 경우, 동영상으로 구성된 응답을 출력하도록 제어하는 장치.
  13. 청구항 6에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 입력 메시지를 수신하기 이전에 수신된 다른 입력 메시지에 포함된 상기 사용자의 다른 언어 정보와 상기 사용자의 언어 정보에 기반하여 상기 응답을 위한 언어 정보를 결정하도록 제어하는 장치.
  14. 청구항 6에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 사용자의 언어 정보에 대한 오류를 검출하도록 제어하는 장치.
  15. 청구항 14에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 사용자의 언어 정보 및 상기 검출된 오류에 기반하여 상기 응답을 위한 언어 정보를 결정하도록 제어하는 장치.
PCT/KR2018/002920 2017-03-15 2018-03-13 언어 정보를 처리하기 위한 방법 및 그 전자 장치 WO2018169276A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/493,667 US11216497B2 (en) 2017-03-15 2018-03-13 Method for processing language information and electronic device therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0032637 2017-03-15
KR1020170032637A KR102367778B1 (ko) 2017-03-15 2017-03-15 언어 정보를 처리하기 위한 방법 및 그 전자 장치

Publications (1)

Publication Number Publication Date
WO2018169276A1 true WO2018169276A1 (ko) 2018-09-20

Family

ID=63523841

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/002920 WO2018169276A1 (ko) 2017-03-15 2018-03-13 언어 정보를 처리하기 위한 방법 및 그 전자 장치

Country Status (3)

Country Link
US (1) US11216497B2 (ko)
KR (1) KR102367778B1 (ko)
WO (1) WO2018169276A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573298B2 (en) * 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
KR20210014909A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 대상의 언어 수준을 식별하는 전자 장치 및 방법
KR20220009144A (ko) 2020-07-15 2022-01-24 이진성 인공지능 스피커를 내장한 무선이어폰 충전기

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031150A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置および方法
KR100855563B1 (ko) * 2007-03-27 2008-09-02 안희달 대화식 로봇을 이용한 영어 학습시스템 및 그 방법
KR20120075585A (ko) * 2010-12-16 2012-07-09 한국전자통신연구원 대화 방법 및 이를 위한 시스템
KR101677630B1 (ko) * 2010-06-14 2016-11-18 엘지전자 주식회사 음성인식을 이용한 정보 알림장치
KR20170007107A (ko) * 2015-07-10 2017-01-18 한국전자통신연구원 음성인식 시스템 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6125341A (en) 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US8024179B2 (en) 2007-10-30 2011-09-20 At&T Intellectual Property Ii, L.P. System and method for improving interaction with a user through a dynamically alterable spoken dialog system
US8457967B2 (en) 2009-08-15 2013-06-04 Nuance Communications, Inc. Automatic evaluation of spoken fluency
KR20120031551A (ko) * 2010-09-27 2012-04-04 (주)로직소프트 사용자의 어휘 레벨에 따른 자막 생성 방법
CN103593340B (zh) 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及系统
US20170011735A1 (en) 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
US9799324B2 (en) * 2016-01-28 2017-10-24 Google Inc. Adaptive text-to-speech outputs
US20170345426A1 (en) * 2016-05-31 2017-11-30 Julia Komissarchik System and methods for robust voice-based human-iot communication
KR101837576B1 (ko) * 2017-01-13 2018-03-13 경북대학교 산학협력단 외국어 학습 제공 장치 및 그 방법, 이를 수행하기 위한 기록매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031150A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置および方法
KR100855563B1 (ko) * 2007-03-27 2008-09-02 안희달 대화식 로봇을 이용한 영어 학습시스템 및 그 방법
KR101677630B1 (ko) * 2010-06-14 2016-11-18 엘지전자 주식회사 음성인식을 이용한 정보 알림장치
KR20120075585A (ko) * 2010-12-16 2012-07-09 한국전자통신연구원 대화 방법 및 이를 위한 시스템
KR20170007107A (ko) * 2015-07-10 2017-01-18 한국전자통신연구원 음성인식 시스템 및 방법

Also Published As

Publication number Publication date
KR20180105501A (ko) 2018-09-28
KR102367778B1 (ko) 2022-02-25
US11216497B2 (en) 2022-01-04
US20200004768A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
CN108108340B (zh) 用于智能机器人的对话交互方法及系统
US20230103340A1 (en) Information generating method and apparatus, device, storage medium, and program product
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
KR20190071527A (ko) 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
EP3545487A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2018174443A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2012057562A2 (ko) 감성적 음성합성 장치 및 그 방법
WO2021132797A1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN113139391B (zh) 翻译模型的训练方法、装置、设备和存储介质
EP3550449A1 (en) Search method and electronic device using the method
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
KR20180060903A (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
CN112036174B (zh) 一种标点标注方法及装置
WO2021221390A1 (en) System and method for out-of-vocabulary phrase support in automatic speech recognition
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
WO2022177372A1 (ko) 인공지능을 이용하여 튜터링 서비스를 제공하기 위한 시스템 및 그에 관한 방법
WO2021045434A1 (ko) 전자 장치 및 이의 제어 방법
CN114613351A (zh) 韵律预测方法、装置、可读介质及电子设备
US10255906B2 (en) Sensors and analytics for reading comprehension
CN113674745A (zh) 语音识别方法及装置
WO2018199376A1 (ko) 듣기 학습을 지원하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
WO2023229117A1 (ko) 대화형 가상 아바타의 구현 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18766792

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18766792

Country of ref document: EP

Kind code of ref document: A1