WO2022169054A1 - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2022169054A1
WO2022169054A1 PCT/KR2021/012265 KR2021012265W WO2022169054A1 WO 2022169054 A1 WO2022169054 A1 WO 2022169054A1 KR 2021012265 W KR2021012265 W KR 2021012265W WO 2022169054 A1 WO2022169054 A1 WO 2022169054A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
paraphrase
sentence
output
neural network
Prior art date
Application number
PCT/KR2021/012265
Other languages
English (en)
French (fr)
Inventor
이범석
한효정
인두르티사티쉬
자이디모드아바스
쿠마르니킬
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP21924952.1A priority Critical patent/EP4206972A4/en
Priority to CN202180069620.9A priority patent/CN116368490A/zh
Priority to US17/666,127 priority patent/US20220245364A1/en
Publication of WO2022169054A1 publication Critical patent/WO2022169054A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/978Audio interaction as part of an operator interface

Definitions

  • the present invention relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for obtaining translated text and a method for controlling the same.
  • An object of the present disclosure is to provide an electronic device for outputting translated text corresponding to input text, and a method for controlling the same.
  • An electronic device for achieving the above object includes a speaker, a memory for storing at least one instruction, and a processor electrically connected to the memory, wherein the processor executes the instruction by inputting a first text into a first neural network model to obtain a first translated text corresponding to the first text, and inputting the first translated text into a second neural network model to obtain a first translated text corresponding to the first translated text Acquire 1 paraphrase text, identify whether output of the first paraphrase text is possible based on the first text and the first paraphrase text, and control the speaker to output the first paraphrase text according to the identification result and when a second text is received following the first text, the first and second texts are input to the first neural network model to obtain second translated texts corresponding to the first and second texts, and inputting the identification result and the second translation text into the second neural network model to obtain a second paraphrase text corresponding to the second translation text, and the second neural network model is configured to: If is identified as output, the second paraphrase text including the first paraphrase
  • the processor obtains a semantic similarity value between the first translated text and the first paraphrase text, identifies whether the first paraphrase text can be output based on the obtained semantic similarity value, and the semantic similarity If the value is equal to or greater than the first threshold value, the speaker may be controlled to output the first paraphrase text.
  • the processor is configured to obtain a sentence suitability value of the first paraphrase text, identify whether the first paraphrase text can be output based on the acquired sentence suitability value, and set the sentence suitability value to a second threshold value. If this is the case, the speaker may be controlled to output the first paraphrase text.
  • the processor identifies whether the second paraphrase text can be output based on the second text and the second paraphrase text, and identifies that the first paraphrase text is output according to the identification result, If it is determined that the second paraphrase text is outputable, controlling the speaker to output the remainder except the first paraphrase text in the second paraphrase text, it is identified that the first paraphrase text is not output, the second paraphrase text If the text is identified as outputable, the speaker may be controlled to output the second paraphrase text.
  • the processor obtains a semantic similarity value between the second translated text and the second paraphrase text, obtains a sentence suitability value of the second paraphrase text, and based on the semantic similarity value and the sentence suitability value Identifies whether the second paraphrase text can be output, and when the semantic similarity value is greater than or equal to a first threshold value and the sentence suitability value is greater than or equal to a second threshold value, the speaker can be controlled to output the second paraphrase text have.
  • the processor inputs the first and second texts to a third neural network model to obtain information on whether the first and second texts correspond to a phrase, and the second translated text;
  • the second paraphrase text corresponding to the second translated text may be obtained by inputting information on whether the first and second texts correspond to phrases into the second neural network model.
  • the second neural network model corresponds to the second translated text and the second paraphrase in the form of a sentence or a phrase Text is output, and when it is identified that the first and second texts do not correspond to the phrase, the second paraphrase text corresponding to the second translated text and in the form of an incomplete sentence may be output.
  • the second neural network model is trained based on a plurality of texts, and the plurality of texts include a first sentence text obtained based on at least one word selected from each of a plurality of word groups and the first sentence text. and a second sentence text having a semantic similarity value equal to or greater than a first threshold value, and each of the plurality of word groups may be a set of words having a semantic similarity value equal to or greater than the first threshold value.
  • the second neural network model is trained based on a plurality of texts, and the plurality of texts correspond to a first sentence text of a first language obtained based on a parallel corpus between two different languages.
  • a first translated sentence text of a second language and a second translated sentence text of the second language obtained by inputting the first sentence text into the first neural network model, wherein the first translated sentence text and the second
  • the semantic similarity value between the two translation sentence texts may be greater than or equal to the first threshold value.
  • the most preceding word among the plurality of words constituting the first translation sentence text and the most preceding word among the plurality of words constituting the second translation sentence text may be different from each other.
  • the control method of the electronic device includes: inputting a first text into a first neural network model to obtain a first translated text corresponding to the first text; obtaining a first paraphrase text corresponding to the first translated text by inputting it to a second neural network model; , outputting the first paraphrase text according to the identification result.
  • a second text is received following the first text, the first and second texts are input to the first neural network model to input the first and second texts.
  • obtaining a second translated text corresponding to the second text and inputting the identification result and the second translated text into the second neural network model to obtain a second paraphrase text corresponding to the second translated text.
  • the second neural network model includes the first paraphrase text when it is identified that the first paraphrase text is output according to the identification result, and the second translated text is positioned in front of the first paraphrase text in word order. Outputs the second paraphrase text corresponding to , and when it is identified that the first paraphrase text has not been previously output, the second paraphrase text corresponding to the second translated text is output.
  • the step of identifying whether the first paraphrase text can be output includes: obtaining a semantic similarity value between the first translated text and the first paraphrase text; and the first paraphrase based on the obtained semantic similarity value identifying whether text can be output, and outputting the first paraphrase text may include outputting the first paraphrase text when the semantic similarity value is equal to or greater than a first threshold value.
  • the step of identifying whether the first paraphrase text can be output may include: obtaining a sentence suitability value of the first paraphrase text; and determining whether the first paraphrase text can be output based on the acquired sentence suitability value identifying, and outputting the first paraphrase text may include outputting the first paraphrase text when the sentence suitability value is equal to or greater than a second threshold value.
  • the step of identifying whether the second translation text can be output based on the second text and the second paraphrase text; outputting the remainder of the second paraphrase text except for the first paraphrase text when it is identified that the text is output; , outputting the second paraphrase text may be further included.
  • the step of identifying whether the second paraphrase text can be output includes: obtaining a semantic similarity value between the second translated text and the second paraphrase text; obtaining a sentence suitability value of the second paraphrase text; and identifying whether the second paraphrase text can be output based on the semantic similarity value and the sentence suitability value, wherein outputting the second paraphrase text includes: the semantic similarity value being a first threshold value and outputting the second paraphrase text when the sentence suitability value is equal to or greater than a second threshold value.
  • the method further includes inputting the first and second texts into a third neural network model to obtain information on whether the first and second texts correspond to a phrase, and the second translated text
  • the obtaining of the second paraphrase text corresponding to may include inputting information on whether the second translated text and the first and second texts correspond to phrases into the second neural network model to obtain the second translated text. and obtaining the corresponding second paraphrase text.
  • the second neural network model corresponds to the second translated text and the second paraphrase in the form of a sentence or a phrase Text is output, and when it is identified that the first and second texts do not correspond to the phrase, the second paraphrase text corresponding to the second translated text and in the form of an incomplete sentence may be output.
  • the second neural network model is trained based on a plurality of texts, and the plurality of texts include a first sentence text obtained based on at least one word selected from each of a plurality of word groups and the first sentence text. and a second sentence text having a semantic similarity value equal to or greater than a first threshold value, and each of the plurality of word groups may be a set of words having a semantic similarity value equal to or greater than the first threshold value.
  • the second neural network model is trained based on a plurality of texts, and the plurality of texts correspond to a first sentence text of a first language obtained based on a parallel corpus between two different languages.
  • a first translated sentence text of a second language and a second translated sentence text of the second language obtained by inputting the first sentence text into the first neural network model, wherein the first translated sentence text and the second
  • the semantic similarity value between the two translation sentence texts may be greater than or equal to the first threshold value.
  • the most preceding word among the plurality of words constituting the first translation sentence text and the most preceding word among the plurality of words constituting the first translation sentence text may be different from each other.
  • the user may be provided with a real-time translation service.
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a table for explaining first and second neural network models according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart illustrating a process related to text, translated text, and paraphrase text according to an embodiment of the present disclosure.
  • FIG. 4 is a flowchart illustrating a process related to text, translated text, and paraphrase text according to an embodiment of the present disclosure.
  • 5 is a flowchart illustrating a process related to text, translated text, and paraphrase text according to an embodiment of the present disclosure.
  • FIG. 6 is a flowchart illustrating a process related to text, translated text, and paraphrase text according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart illustrating a process related to text, translated text, and paraphrase text according to an embodiment of the present disclosure.
  • EOP end of phrase
  • FIG. 9 is a flowchart illustrating a process of a third neural network model according to an embodiment of the present disclosure.
  • 10A is a diagram for describing a plurality of texts according to an embodiment of the present disclosure.
  • 10B is a diagram for describing a plurality of texts according to an embodiment of the present disclosure.
  • 11A is a diagram for describing a plurality of texts according to another embodiment of the present disclosure.
  • 11B is a diagram for describing a plurality of texts according to another embodiment of the present disclosure.
  • FIG. 12 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
  • a component eg, a first component is "coupled with/to (operatively or communicatively)" to another component (eg, a second component)
  • another component eg, a second component
  • a component may be directly connected to another component or may be connected through another component (eg, a third component).
  • a "module” or “unit” performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented with at least one processor (not shown) except for “modules” or “units” that need to be implemented with specific hardware.
  • the term user may refer to a person who uses an electronic device or a device (eg, an artificial intelligence electronic device) using the electronic device.
  • a device eg, an artificial intelligence electronic device
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include, for example, a smartphone, a tablet PC, a mobile phone, a video phone, an e-book reader, a desktop PC, a laptop PC, a netbook computer, a workstation, a server, a PDA, It may include at least one of a portable multimedia player (PMP), an MP3 player, a medical device, a camera, a virtual reality (VR) implementation device, or a wearable device, but is not limited thereto.
  • a wearable device may be an accessory (e.g., watch, ring, bracelet, anklet, necklace, eyewear, contact lens, or head-mounted-device (HMD)), a textile or clothing integral (e.g. electronic garment); It may include at least one of body-attached (eg, skin pad or tattoo), or bioimplantable circuitry.
  • the electronic device 100 may include, for example, a television, a digital video disk (DVD) player, an audio system, a refrigerator, an air conditioner, a vacuum cleaner, an oven, a microwave oven, a washing machine, an air purifier, a set-top box, and home automation.
  • Control panel, security control panel, media box eg Samsung HomeSync TM , Apple TV TM , or Google TV TM
  • game console eg Xbox TM , PlayStation TM
  • electronic dictionary e.g., electronic key, camcorder, or electronic picture frame It may include at least one.
  • the electronic device 100 includes various medical devices (eg, various portable medical devices (eg, a blood glucose meter, a heart rate monitor, a blood pressure monitor, or a body temperature monitor), magnetic resonance angiography (MRA), and magnetic resonance imaging (MRI). ), computed tomography (CT), imager, or ultrasound machine, etc.), navigation device, global navigation satellite system (GNSS), event data recorder (EDR), flight data recorder (FDR), automotive infotainment device, marine use Electronic equipment (e.g.
  • various portable medical devices eg, a blood glucose meter, a heart rate monitor, a blood pressure monitor, or a body temperature monitor
  • MRA magnetic resonance angiography
  • MRI magnetic resonance imaging
  • CT computed tomography
  • imager imager
  • ultrasound machine etc.
  • navigation device e.g., global navigation satellite system (GNSS), event data recorder (EDR), flight data recorder (FDR), automotive infotainment device, marine use Electronic equipment (e.g.
  • navigation devices for ships, gyro compasses, etc. avionics, security devices, head units for vehicles, industrial or household robots, drones, ATMs in financial institutions, POS in stores It may include at least one of (point of sales), or Internet of Things (IoT) devices (eg, light bulbs, various sensors, sprinkler devices, fire alarms, thermostats, street lights, toasters, exercise equipment, hot water tanks, heaters, boilers, etc.) .
  • IoT Internet of Things
  • the electronic device 100 may be implemented as various types of devices that obtain text corresponding to a user's input and translate and output the obtained text.
  • the user's input may include a user's voice, a text input by the user, a signal received from an external device, and the like.
  • the electronic device 100 may translate the obtained text and output it through the speaker 110 .
  • the speaker 110 may output an audio signal.
  • the speaker 110 may be implemented as at least one speaker unit.
  • the speaker 110 may include a plurality of speaker units for multi-channel reproduction.
  • each of the plurality of speaker units may output different frequency bands.
  • the electronic device 100 since the electronic device 100 translates text corresponding to a user input and outputs it to the speaker 110 , it is described that the electronic device 100 includes the speaker 110 . However, this is an example and is not limited thereto.
  • the electronic device 100 may output translated text through a display.
  • the memory 120 may store data used in various embodiments of the present disclosure.
  • the memory 120 may be implemented in the form of a memory embedded in the electronic device 100 or may be implemented in the form of a memory that is detachable from the electronic device 100 according to the purpose of data storage.
  • data for driving the electronic device 100 is stored in a memory embedded in the electronic device 100
  • data for an extended function of the electronic device 100 is a memory detachable from the electronic device 100
  • OTPROM one time programmable ROM
  • PROM programmable ROM
  • EPROM erasable and programmable ROM
  • EEPROM electrically erasable and programmable ROM
  • mask ROM mask ROM
  • flash ROM flash memory
  • flash memory such as NAND flash or NOR flash, etc.
  • SSD solid state drive
  • a memory card eg, a compact flash (CF)
  • SD secure digital
  • Micro-SD micro secure digital
  • Mini-SD mini secure digital
  • xD extreme digital
  • MMC multi-media card
  • the memory 120 may store at least one instruction for controlling the electronic device 100 or a computer program including the instructions.
  • the memory 120 may store information about an artificial intelligence model including a plurality of layers.
  • storing information about the artificial intelligence model means various information related to the operation of the artificial intelligence model, for example, information on a plurality of layers included in the artificial intelligence model, parameters used in each of the plurality of layers (for example, , filter coefficients, bias, etc.) may be stored.
  • the memory 120 may store a first neural network model trained to translate text in a first language into a second language according to an embodiment of the present disclosure. Also, the memory 120 may store the second neural network model trained to paraphrase the text. A detailed description of the first and second neural network models will be described later.
  • the processor 130 controls the overall operation of the electronic device 100 .
  • the processor 130 may be implemented as a digital signal processor (DSP), a microprocessor (microprocessor), an artificial intelligence (AI) processor, or a timing controller (T-CON) for processing a digital image signal.
  • DSP digital signal processor
  • microprocessor microprocessor
  • AI artificial intelligence
  • T-CON timing controller
  • CPU central processing unit
  • MCU micro controller unit
  • MPU micro processing unit
  • AP application processor
  • CP communication processor
  • the processor 130 is a SoC (System on Chip) in which a processing algorithm is embedded. , may be implemented in large scale integration (LSI), or may be implemented in the form of field programmable gate array (FPGA).
  • SoC System on Chip
  • the processor 130 may recognize the user's voice and input the text corresponding to the user's voice or the text according to the user's input into the first neural network model to obtain the translated text corresponding to the text.
  • an automatic speech recognition (ASR) module provided in the processor 130 recognizes a user's voice received through an input unit (not shown) (eg, a microphone) to generate text corresponding to the user's voice. can be obtained A detailed description thereof will be provided later.
  • ASR automatic speech recognition
  • the processor 130 may obtain the translated text by inputting the text into the first neural network model.
  • the first neural network model may be a model trained to machine translation the text of the first language into the second language.
  • the first neural network model may be a statistical machine translation (SMT) model or a neural machine translation (NMT) model.
  • SMT statistical machine translation
  • NMT neural machine translation
  • the neural network machine translation model has an effect of outputting a natural and highly complete translation by performing translation in units of whole sentences and phrases, rather than translating words individually.
  • the processor 130 may obtain the first translated text of the second language by inputting the first text of the first language into the first neural network model.
  • the processor 130 may input 'players' into the first neural network model to obtain 'Athletes' as the first translated text corresponding to the first text.
  • the first neural network model translates from 'Korean' to 'English' as 'Korean' is input, but is not limited thereto.
  • the processor 130 may obtain the translated text translated from 'English' to 'Korean' using the first neural network model, and as another example, it is possible to obtain the translated text translated into various languages.
  • the processor 130 may obtain the translated text from 'Spanish' to 'English' using the first neural network model.
  • the processor 130 may obtain the first paraphrase text corresponding to the first translated text by inputting the first translated text into the second neural network model.
  • the paraphrase text output by the second neural network model has the same or similar meaning and meaning to the translated text, but includes a different word from the word included in the translated text, and a sentence component included in the translated text (for example, , subject, object, predicate, etc.) may mean a text arranged differently.
  • the second neural network model may output any one of 'sportsperson' and 'player' as the first paraphrase text corresponding to the first translated text.
  • the first paraphrase text output by the second neural network model may be the same as the first translation text.
  • the second neural network model may output 'Athletes' as the first paraphrase text corresponding to the first translated text 'Athletes'.
  • the processor 130 may identify whether the first paraphrase text can be output based on the first translated text and the first paraphrase text.
  • the processor 130 may obtain a semantic similarity value between the first translation text 'Athletes' and the first paraphrase text 'Athletes'. You can print text.
  • the semantic similarity value is a numerical value obtained by quantifying whether the meaning is similar between the first text of the first language and the first paraphrase text of the second language, and may be expressed as a value of 0 to 1. As the semantic similarity value is closer to 1, it may mean that the meaning of the first text of the first language is the same or that the meaning of the first paraphrase text of the second language is identical or similar.
  • the first threshold value may be 0.5, which is only an example and is not limited thereto.
  • the processor 130 may identify that the first paraphrase text can be output when the semantic similarity value is equal to or greater than the first threshold value.
  • the processor 130 may control the speaker 110 to output the first paraphrase text.
  • the processor 130 may convert the first paraphrase text into speech using a text to speech (TTS) model, and output the converted speech through the speaker 110 .
  • TTS text to speech
  • the processor 130 may obtain a sentence suitability value of the first paraphrase text, and output the first paraphrase text when the acquired sentence suitability value is equal to or greater than the second threshold value.
  • the paraphrase text is a single word, for example, 'Athletes'.
  • the paraphrase text may be text in the form of a sentence including a plurality of words. .
  • the processor 130 determines that the paraphrase text cannot be output. can be identified.
  • the processor 130 quantifies the sentence suitability of the paraphrase text, for example, whether the paraphrase text complies with the grammar, the existence of a sentence component (eg, a subject, a verb, an object, etc.), and a sentence suitability value. can be obtained.
  • the sentence suitability value may be expressed as a value of 0 to 1, and the closer to 1, the higher the sentence suitability of the paraphrase text. That is, as the sentence suitability value is closer to 1, it may mean that the paraphrase text complies with the grammar and is in the form of a completed sentence.
  • the processor 130 may identify the paraphrase text as outputable.
  • the second threshold value may be 0.5, but is not limited thereto.
  • the processor 130 is configured to: i) a semantic similarity value between the text in the first language and the paraphrase text in the second language, and ii) when both the sentence fitness value of the paraphrase text in the second language is greater than or equal to the respective threshold values. It goes without saying that the paraphrase text may be identified as outputable only, and the paraphrase text may be identified as outputable even if any one of the texts is output above a threshold value.
  • various embodiments of the present disclosure provide an interpretation service (or an interpretation program) that translates and outputs a user's voice (or text) input in real time, from the input of the user's voice to the output of the translated voice.
  • the purpose is to shorten the time so that the user feels as if he or she is provided with a translated voice in real time.
  • FIG. 2 is a table for explaining a first neural network model 1 and a second neural network model 2 according to an embodiment of the present disclosure.
  • the processor 130 may input the received second text following the first text into the first neural network model 1 to obtain second translated texts corresponding to the first and second texts.
  • the first neural network model 1 may be a sequence-to-sequence model.
  • the sequence means continuous data related to each other, and in the present disclosure, a text of a preset unit (eg, morpheme, word, etc.) such as the first text and the second text is referred to as an example of a sequence. can do.
  • a preset unit eg, morpheme, word, etc.
  • the first neural network model 1 may output a translated text (ie, a second translated text) in consideration of both the first text and the second text.
  • a translated text ie, a second translated text
  • the first neural network model 1 is not a conventional statistical-based machine translation (SMT) model, but a machine translation (NMT) model based on an artificial neural network, and the NMT model includes the first text and the second text.
  • SMT statistical-based machine translation
  • NMT machine translation
  • Machine translation may be performed by recognizing the entire first and second texts as a single translation unit, rather than translating each individually.
  • Step 1 it may be assumed that the first text ‘Athletes’ is input (Step 1), and then, the second text ‘At the London Olympics’ is input (Step 2).
  • Step 1 - It has been described above that the processor 130 according to an embodiment obtained the first paraphrase text 'Athletes' corresponding to the first text 'players'.
  • the first neural network model 1 may input the second text 'at the London Olympics', which is received following the first text.
  • the first neural network model 1 may output the second translated text corresponding to the first and second texts in consideration of both the first text ‘Athletes’ and the second text ‘At London Olympics’.
  • the processor 130 may acquire the second translated text 'At London Olympic, athletes' corresponding to the first and second texts.
  • the processor 130 determines whether the first paraphrase text is output (or the identification result of whether the first paraphrase text can be output) obtained in step 1 and the second translated text 'At London Olympic, athletes' may be input to the second neural network model (2) to obtain a second paraphrase text corresponding to the second translated text.
  • Step 1 the semantic similarity value between the first text 'Athletes' and the first paraphrase text 'Athletes' is 0.7. If the value is 0.9 and the sentence suitability value is equal to or greater than the second threshold, the processor 130 identifies the first paraphrase text 'Athletes' as outputable and outputs the first paraphrase text 'Athletes' while outputting the second text 'London' It can be assumed that 'at the Olympics' is received.
  • the second neural network model 2 includes the first paraphrase text 'Athletes' when it is identified that the first paraphrase text is output according to the identification result (ie, whether the first paraphrase text can be output), 1
  • the second paraphrase text 'Athletes At London Olympic' corresponding to the second translated text 'At London Olympic, athletes' may be output so that the paraphrase text 'Athletes' is positioned before the word order.
  • Step 1 at least one of the semantic similarity value or the sentence relevance value of the first paraphrase text is less than a threshold value, so that the first paraphrase text is identified as not outputable, and the processor 130 It may be assumed that the second text is received while the first paraphrase text is not output.
  • the second paraphrase text when the second neural network model 2 identifies that the first paraphrase text is not output according to the identification result, the second paraphrase text must necessarily include the first paraphrase text 'Athletes' or the first paraphrase text 'Athletes' Since it is not necessary to place 'At London Olympic, athletes', which is the same as the second translated text 'At London Olympic, athletes', it is of course also possible to output 'At London Olympic, athletes' as the second paraphrase text.
  • the processor 130 uses the first translated text 'Athletes' obtained before the second translated text 'At London Olympic athletes' in order to provide a real-time translation (or interpretation) service. It can be assumed that the speaker 110 previously output.
  • the processor 130 converts the first text 'Athletes' and the second text 'At London Olympics' to the first neural network model (1) If the second translated text obtained by inputting 'At London Olympic, athletes' is output, from the user's point of view, 'Athletes' and 'At London Olympic, athletes' will be heard sequentially, and some expressions (or some phrases) will be duplicated. Therefore, there is a problem in that the reliability of the translation decreases as the listener listens.
  • the processor 130 After the processor 130 has sufficiently received the user's voice in order to provide a semantically perfect and accurate translation (eg, after receiving the user's voice corresponding to one complete sentence), the user's voice is translated and outputted, there is a problem in that it takes a long time (that is, latency time increases) from the input of the user's voice to the output of the translated voice.
  • the processor 130 translates (or paraphrases) the received text in order to solve the two problems described above, and then identifies the translated text (or paraphrased text) as outputable. In this case, it may be preferentially output through the speaker 110 .
  • the processor 130 when the processor 130 translates (or paraphrases) the newly received text and outputs it, the processor 130 does not simply translate and output the newly received text, but if there is a previously output translated text (or paraphrase text), it It is characterized in that the newly received text is paraphrased and then outputted.
  • the second neural network model 2 corresponds to the second translated text 'At London Olympic athletes' in consideration of the identification result of whether the first paraphrase text 'Athletes' can be output.
  • a second paraphrase text can be output.
  • the first paraphrase text 'Athletes' is identified as output, the first condition) 'The first paraphrase text 'Athletes' is located at the beginning of the word order', the second condition)
  • the second paraphrased text 'Athletes at London Olympic' may be outputted to satisfy the 'second translation text, semantically similar to 'At London Olympic, athletes'.
  • the processor 130 may identify whether the second paraphrase text can be output based on the second translated text and the second paraphrase text.
  • the processor 130 may obtain a semantic similarity value between the second translated text ‘At London Olympic, athletes’ and the second paraphrase text ‘Athletes at London Olympic’.
  • the processor 130 may acquire a sentence fitness value of the second paraphrase text 'Athletes at London Olympic'.
  • the processor 130 outputs the second paraphrase text when the semantic similarity value between the second translated text and the second paraphrase text is equal to or greater than the first threshold value and the sentence fitness value of the second paraphrase text is equal to or greater than the second threshold value.
  • the speaker 110 may be controlled to identify as possible and output the second paraphrase text.
  • the processor 130 controls the speaker 110 to output the remainder of the second paraphrase text except the first paraphrase text. can do.
  • the processor 130 determines that the first paraphrase text 'Athletes' is output in step 1 and the second paraphrase text 'Athletes at London Olympic' is identified as outputable. 2
  • the speaker 110 may be controlled to output 'at London Olympic' except for the first paraphrase text 'Athletes' in the paraphrase text 'Athletes at London Olympic'.
  • the processor 130 may output 'at London Olympic' through the speaker 110 . From the user's point of view, it can feel like receiving a real-time translation service (or interpretation service) as 'Athletes' and 'at London Olympic' are sequentially provided.
  • the second neural network model 2 maintains or fixes the first paraphrase text corresponding to the first translated text input first. It is a model trained to output second paraphrase text semantically similar to RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network), CNN (Convolutional Network) Neural Network) or deep Q-networks may be implemented, but is not limited thereto.
  • RNN Current Neural Network
  • RBM Restricted Boltzmann Machine
  • DBN Deep Belief Network
  • BRDNN Bidirectional Recurrent Deep Neural Network
  • CNN Convolutional Network Neural Network
  • deep Q-networks may be implemented, but is not limited thereto.
  • the processor 130 may or may not output the first paraphrase text based on whether the first paraphrase text obtained through the second neural network model 2 can be output. It may not be.
  • the processor 130 inputs the first translated text and the first paraphrase text corresponding to the first translated text to the neural network model trained to output a semantic similarity value between the translated text and the paraphrase text, A semantic similarity value between the first translation text and the first paraphrase text may be obtained.
  • the processor 130 may output the first paraphrase text obtained through the second neural network model 2 .
  • the processor 130 determines the semantic similarity between the first translation text “If athletes take drug at London Olympic,” and the first paraphrase text “Athletes at London Olympic who take drug will” If a value is obtained and the semantic similarity value is equal to or greater than the first threshold value of 0.5, the first paraphrase text 'Athletes at London Olympic who take drug will' may be output.
  • the processor 130 outputs whether the first paraphrase text 'Athletes at London Olympic who take drug will' is output (or the output possibility identification result) and the newly received text A second translation text 'If athletes take drug at London Olympic, being caught' is input to the second neural network model (2) based on 'If athletes take drug at London Olympic, being caught' containing 'to be caught' can
  • the second neural network model 2 may output a second paraphrase text corresponding to the second translated text 'If athletes take drug at London Olympic, being caught' that satisfies the following two conditions.
  • the second paraphrase text may include the first paraphrase text 'Athletes at London Olympic who take drug will'.
  • the first paraphrase text ‘Athletes at London Olympic who take drug will’ may be located at the beginning of the word order in the second paraphrase text.
  • the second neural network model 2 may output the second paraphrase text 'Athletes at London Olympic who take drug being caught' corresponding to the second translated text 'If athletes take drug at London Olympic, being caught'.
  • the processor 130 may identify whether the second paraphrase text 'Athletes at London Olympic who take drug being caught' can be output.
  • Steps 4 and 5 of FIG. 2 only an embodiment has been described in which the semantic similarity value between the translated text and the paraphrase text is greater than or equal to the first threshold as whether the paraphrase text can be output.
  • the semantic similarity value between the translated text and the paraphrase text is greater than or equal to the first threshold as whether the paraphrase text can be output.
  • the processor 130 may obtain a sentence fitness value of the second paraphrase text 'Athletes at London Olympic who take drug being caught'.
  • the processor 130 may obtain a sentence fitness value by inputting a paraphrase text into a neural network model trained to output a sentence fitness value.
  • the processor 130 cannot output the second paraphrase text 'Athletes at London Olympic who take drug being caught' can be identified as not.
  • the processor 130 includes the newly received text 'will', a third translation based on 'if athletes take drugs at the London Olympics, they will be caught'
  • the text 'If athletes take drug at London Olympic, they are likely to be caught' may be input to the second neural network model 2 .
  • the second neural network model 2 uses the third paraphrase text 'Athletes at London Olympic who take drug will be caught' corresponding to the third translated text 'If athletes take drug at London Olympic, they are likely to be caught' can be printed out.
  • the third paraphrase text 'Athletes at London Olympic who take drug will be caught' output by the second neural network model 2 satisfies the following two conditions.
  • Step 5 the processor 130 identifies that the second paraphrase text 'Athletes at London Olympic who take drug being caught' output by the second neural network model 2 is not outputable, so in Step 6 2
  • the third paraphrase text output by the neural network model 2 includes 'Athletes at London Olympic who take drug will' output through the speaker 110 from the previous Step of Step 5, that is, from Step 1 to Step 4.
  • the second neural network model (2) is the third paraphrase text in which 'Athletes at London Olympic who take drug will' output through the speaker 110 from Step 1 to Step 4 is located at the beginning of the word order. can be printed out.
  • the second neural network model (2) is not the paraphrase text obtained in the previous Step (eg Step N-1), but the paraphrase text identified as printable in the previous Step (eg Step N-2) is at the beginning of the word order. It is located and it is possible to output a paraphrase text corresponding to the translated text of the current Step (eg, Step N-1).
  • the processor 130 outputs 'Athletes at London Olympic who take drug will Except for ', only the text 'be caught' can be output sequentially.
  • the processor 130 performs 'Athletes' in Step 1, 'at London Olympic', 'who take drug will' in Step 4 and 'be caught' in Step 6 may be sequentially output, and from the user's point of view, the translated text may be provided in real time (or substantially in real time).
  • 3 to 7 are flowcharts for explaining text, translated text, and paraphrase text according to an embodiment of the present disclosure.
  • FIG. 3 corresponding to Step 1 of FIG. 2 is a flowchart illustrating a case where the first word among a plurality of words constituting a sentence is received.
  • the processor 130 may perform voice recognition to obtain the first text 'we' (S12). For example, the processor 130 may obtain a text corresponding to the user's voice by using an automatic speech recognition model, a speech-to-text (STT) model, or the like.
  • STT speech-to-text
  • the processor 130 may identify the first translated text ‘We’ corresponding to the first text ‘we’ through the first neural network model 1 ( S13 ).
  • the processor 130 may obtain the first paraphrase text 'Our' by inputting the first translation text 'We' into the second neural network model 2 (S14).
  • the processor 130 may identify whether the first paraphrase text 'Our' can be output, and specifically, a semantic similarity value and a sentence suitability value corresponding to the first paraphrase text 'Our'. can be obtained.
  • the processor 130 identifies a semantic similarity value between the first translation text 'We' and the first paraphrase text 'Our', and sets the semantic similarity value to a first threshold value (eg, 0.5 ) or more (S15: Y), the sentence suitability value of the first paraphrase text 'Our' can be identified (S16).
  • a first threshold value eg, 0.5
  • S15: Y the sentence suitability value of the first paraphrase text 'Our' can be identified
  • step S16 if the sentence fitness value of the first paraphrase text 'Our' is greater than or equal to a second threshold value (eg, 0.5) (S16: Y), the processor 130 may output the first paraphrase text 'Our' It is determined that the first paraphrase text 'Our' is converted into a sound signal through the TTS model and then output through the speaker 110 .
  • a second threshold value eg, 0.5
  • Step 1 may be terminated.
  • FIG. 4 corresponding to Step 2 of FIG. 2 is a flowchart illustrating a case in which a second word among a plurality of words constituting a sentence is received.
  • the processor 130 may perform voice recognition to obtain the second text 'all' (S22).
  • the processor 130 may obtain the second translated text ‘All of us’ by inputting the first text ‘we’ and the second text ‘all’ into the first neural network model 1 ( S23 ).
  • the processor 130 may input the second translated text ‘All of us’ into the second neural network model 2 to obtain the second paraphrase text ‘All of us’ ( S24 ). Meanwhile, as described above, the translated text and the paraphrase text corresponding to the translated text may be the same.
  • step S24 the second neural network model 2 corresponds to the second translated text 'All of us' in consideration of whether the first paraphrase text is output (or output possible) in addition to the second translated text 'All of us' It is possible to output the second paraphrase text.
  • step S24 the second neural network model 2 displays the first paraphrase text ' A second paraphrase text that is semantically similar to the second translated text 'All of us' may be output because 'Our' is positioned at the beginning of the word order.
  • Step 1 shown in FIG. 3 it is assumed that the first paraphrase text 'Our' cannot be output, and in step S24, the second neural network model 2 converts the second paraphrase text 'All of us' can be printed.
  • the processor 130 identifies a semantic similarity value between the second translation text 'All of us' and the second paraphrase text 'All of us', and the semantic similarity value is equal to or greater than a first threshold value (eg, 0.5).
  • a first threshold value eg, 0.5
  • the sentence suitability value of the second paraphrase text 'All of us' may be identified (S26).
  • step S26 the processor 130 determines that if the sentence fitness value of the second paraphrase text 'All of us' is greater than or equal to a second threshold value (eg, 0.5) (S26: Y), the second paraphrase text 'All of us' It is determined that ' can be output, and after converting the second paraphrase text 'All of us' into a sound signal through the TTS model, it can be output through the speaker 110 (S27).
  • a second threshold value eg, 0.5
  • the second paraphrase text is outputable because each of the semantic similarity value and the sentence suitability value corresponding to the second paraphrase text is identified as greater than or equal to a threshold value.
  • FIG. 5 corresponding to Step 3 of FIG. 2 is a flowchart illustrating a case in which a third word among a plurality of words constituting a sentence is received.
  • the processor 130 may perform voice recognition to obtain the third text 'although it is a difficult time' (S32).
  • the processor 130 inputs the first text 'we', the second text 'all', and the third text 'it's a difficult time' into the first neural network model 1, and the third translated text 'It's difficult time for everyone' , but' can be obtained (S33).
  • the processor 130 inputs the third translation text 'It's difficult time for everyone, but' into the second neural network model 2 to obtain the third paraphrase text 'All of us are now having hard time, but'. can be (S34).
  • step S34 the second neural network model 2 considers whether the third translation text 'It's difficult time for everyone, but', in addition to the output of the second paraphrase text (or whether it can be output), the third translation text 'It's difficult' A third paraphrase text corresponding to time for everyone, but' may be output.
  • the second neural network model 2 performs the second paraphrase
  • the text 'All of us' is positioned at the beginning of the word order, and the third paraphrase text 'All of us are now having hard time, but', which is semantically similar to the third translation text 'It's difficult time for everyone, but', is output.
  • the processor 130 identifies a semantic similarity value between the third translation text 'It's difficult time for everyone, but' and the third paraphrase text 'All of us are now having hard time, but', and the If it is equal to or greater than 1 threshold (eg, 0.5) (S35: Y), the sentence suitability value of the third paraphrase text 'All of us are now having hard time, but' may be identified (S36).
  • 1 threshold eg, 0.5
  • step S36 the processor 130 determines that if the sentence fitness value of the third paraphrase text 'All of us are now having hard time, but' is greater than or equal to the second threshold value (eg, 0.5) (S36: Y), the second 3 It is determined that the paraphrase text 'All of us are now having hard time, but' can be output, and the third paraphrase text 'All of us are now having hard time, but' is converted into a sound signal through the TTS model, and then the speaker It can be output through (110) (S37).
  • the second threshold value eg, 0.5
  • step S37 only 'are now having hard time, but' excluding 'All of us' previously output through the speaker 110 in step S27 is converted into a sound signal, and then output through the speaker 110 is performed.
  • the second neural network model 2 may output 'It's difficult time for everyone, but' as the third paraphrase text corresponding to the third translated text.
  • FIG. 6 corresponding to Step 4 of FIG. 2 is a flowchart illustrating a case where a fourth word among a plurality of words constituting a sentence is received.
  • the processor 130 may perform voice recognition to obtain the fourth text 'help each other' (S42).
  • the processor 130 inputs the first text 'we', the second text 'all', the third text 'it's a difficult time' and the fourth text 'help each other' into the first neural network model 1, 4 It is possible to obtain the translated text 'It's difficult time for everyone, but let's help each other' (S43).
  • the processor 130 inputs the fourth translation text 'It's difficult time for everyone, but let's help each other' into the second neural network model 2 , and the fourth paraphrase text 'All of us are now having hard time, but mutually help each other' can be obtained (S44).
  • step S44 the second neural network model 2 performs the fourth translation in consideration of whether the third paraphrase text is output (or output possible) in addition to the fourth translation text 'It's difficult time for everyone, but let's help each other'.
  • a fourth paraphrase text corresponding to the text 'All of us are now having hard time, but mutually help each other' may be output.
  • the third paraphrase text 'All of us are now having hard time, but' can be outputted in Step 3 shown in FIG. 5 and is output through the speaker 110, the second neural network model in Step S44 In (2), the third paraphrase text 'All of us are now having hard time, but' is located at the beginning of the word order, and is semantically similar to the fourth translation text 'It's difficult time for everyone, but let's help each other'. 4 You can output the paraphrase text 'All of us are now having hard time, but mutually help each other'.
  • the processor 130 calculates a semantic similarity value between the fourth translation text 'It's difficult time for everyone, but let's help each other' and the fourth paraphrase text 'All of us are now having hard time, but mutually help each other'. If identified and the semantic similarity value is greater than or equal to the first threshold value (eg, 0.5) (S45: Y), the sentence fitness value of the fourth paraphrase text 'All of us are now having hard time, but mutually help each other' can be identified (S46).
  • the first threshold value eg, 0.5
  • step S46 the processor 130 determines that the sentence fitness value of the fourth paraphrase text 'All of us are now having hard time, but mutually help each other' is greater than or equal to the second threshold value (eg, 0.5) (S46: Y), the fourth paraphrase text 'All of us are now having hard time, but mutually help each other' is judged to be printable, so the fourth paraphrase text 'All of us are now having hard time, but mutually help through the TTS model After each other' is converted into a sound signal, it may be output through the speaker 110 (S47).
  • the second threshold value eg, 0.5
  • step S47 only 'mutually help each other' except for 'all of us' and 'are now having hard time, but' previously output through the speaker 110 in steps S27 and S37 are converted into sound signals. , may be output through the speaker 110 .
  • step S45 As another example, if the semantic similarity value is less than the first threshold value in step S45 (S45: N) or the sentence suitability value is less than the second threshold value in step S46 (S46: N), the processor 130 generates the fourth paraphrase text It is determined that 'All of us are now having hard time, but mutually help each other' cannot be output, so that the corresponding step, that is, Step 4 can be terminated.
  • FIG. 7 is a flowchart illustrating a case where the last word among a plurality of words constituting a sentence is received.
  • the processor 130 may perform voice recognition to obtain the fifth text 'Let's encourage' (S52).
  • the processor 130 outputs the first text 'we', the second text 'all', the third text 'it's a difficult time', the fourth text 'help each other' and the fifth text 'Let's encourage' to the first neural network.
  • the fifth translated text 'It's difficult time for everyone, but let's help and encourage each other' may be obtained (S53).
  • the processor 130 inputs the fifth translation text 'It's difficult time for everyone, but let's help and encourage each other' into the second neural network model 2, and the fifth paraphrase text 'All of us are now having hard time' , but mutually help each other and support' can be obtained (S54).
  • step S54 the second neural network model 2 considers whether the fourth paraphrase text is output (or output possible) in addition to the fifth translation text 'It's difficult time for everyone, but let's help and encourage each other'.
  • a fifth paraphrase text corresponding to the 5 translation text 'It's difficult time for everyone, but let's help and encourage each other' may be output.
  • Step 4 shown in FIG. 6 can be output and is output through the speaker 110, in step S54
  • the fourth paraphrase text 'All of us are now having hard time, but mutually help each other' is located at the beginning of the word order, and the fifth translation text 'It's difficult time for everyone, but let's help and We can output the 5th paraphrase text 'All of us are now having hard time, but mutually help each other and support', which is semantically similar to ' encourage each other'.
  • the processor 130 performs the communication between the fifth translation text 'It's difficult time for everyone, but let's help and encourage each other' and the fifth paraphrase text 'All of us are now having hard time, but mutually help each other and support'. Identify the semantic similarity value, and if the semantic similarity value is greater than or equal to the first threshold value (eg, 0.5) (S55: Y), the fifth paraphrase text 'All of us are now having hard time, but mutually help each other and It is possible to identify the sentence suitability value of 'support' (S56).
  • the first threshold value eg, 0.5
  • step S56 the processor 130 determines that the sentence fitness value of the fifth paraphrase text 'All of us are now having hard time, but mutually help each other and support' is greater than or equal to the second threshold value (eg, 0.5) ( S56: Y), it is determined that the fifth paraphrase text 'All of us are now having hard time, but mutually help each other and support' is outputable, so the fifth paraphrase text 'All of us are now having hard time' through the TTS model , but mutually help each other and support' can be converted into a sound signal and output through the speaker 110 (S57).
  • the second threshold value eg, 0.5
  • step S57 'and support' except for 'All of us', 'are now having hard time, but' and 'mutually help each other' output through the speaker 110 in steps S27, S37 and S47 After converting only the sound signal into a sound signal, it may be output through the speaker 110 .
  • EOP end of phrase
  • FIG. 8 is a table of texts, translated texts, paraphrased texts, semantic similarity values, sentence suitability values, and outputs corresponding to Steps 1 to 5 described with reference to the flowcharts of FIGS. 3 to 7 . Meanwhile, referring to the table of FIG. 8 , an End of Phrase item has been added, and the End Of Phrase (hereinafter, EOP) will be described below.
  • EOP End Of Phrase
  • the processor 130 inputs the first text 'we' and the second text 'all' to the third neural network model 3 so that the first and second texts are Information on whether or not it corresponds to a phrase may be obtained. Subsequently, the processor 130 outputs information on whether the second translated text output by the first neural network model 1 and the first and second text output by the third neural network model 3 correspond to the phrase in the second The second paraphrase text corresponding to the second translated text may be obtained by input to the neural network model 2 . Meanwhile, the third neural network model 3 may be a model trained to determine whether input texts correspond to phrases.
  • the second neural network model 2 when the second neural network model 2 identifies that the first and second texts correspond to phrases based on information input through the processor 130 , the second neural network model 2 corresponds to the second translated text and is a sentence.
  • the second paraphrase text in a form or a sphere form can be output.
  • the second neural network model 2 may output the second paraphrase text corresponding to the second translated text and in the form of an incomplete sentence.
  • Step 2 the processor 130 identifies whether the first text 'we' and the second text 'all' correspond to the phrase, and then the identification result and the second translated text 'All of us' ' may be input to the second neural network model (2).
  • the second neural network model 2 may output a second paraphrase text corresponding to the second translated text so that the degree of freedom of the sentence is high.
  • the second neural network model 2 may be configured such that, if the first and second texts do not correspond to phrases, the second paraphrase text corresponding to the second translated text does not include a sentence-closing ending; or , do not end with a period (.) or comma (,) to increase the degree of freedom of the second paraphrase text. That is, when the first and second texts do not correspond to the phrase, the second neural network model 2 may output the second paraphrase text in the form of an incomplete sentence.
  • the processor 130 identifies whether the first text 'we' and the second text 'all' and the third text 'difficult time' correspond to the phrase, The identification result and the third translation text 'It's a difficult time for everyone, but' may be input to the second neural network model 2 .
  • the second neural network model 2 may output the third paraphrase text corresponding to the third translated text so that the degree of freedom of the sentence is low.
  • the third paraphrase text corresponding to the third translated text ends with a terminating ending or a period or comma (or, The degree of freedom of the third paraphrase text can be reduced by including a terminating ending, a period, or a comma). That is, when the first to third texts correspond to phrases, the second neural network model 2 may output the third paraphrase text in the form of a sentence or a phrase.
  • the output of each of the first neural network model 1 , the second neural network model 2 , and the third neural network model 3 will be described in flow order with reference to FIG. 9 .
  • FIG. 9 is a flowchart illustrating a third neural network model according to an embodiment of the present disclosure.
  • 9 is a flowchart for specifically explaining the output of the third neural network model 3 based on Step 4 in the table of FIG. 8 .
  • 9 is a flowchart illustrating Step 4, assuming that a fourth word among a plurality of words constituting a sentence is received.
  • the processor 130 may perform voice recognition to obtain the fourth text 'help each other' (S42).
  • the processor 130 inputs the first text 'we', the second text 'all', the third text 'it's a difficult time' and the fourth text 'help each other' into the first neural network model 1, 4 It is possible to obtain the translated text 'It's difficult time for everyone, but let's help each other' (S43). Steps S41 to S43 are the same as those shown in FIG. 6 .
  • the processor 130 transmits the first to fourth texts obtained in each of Step 1 to Step 4, that is, 'We are all in a difficult time, but help each other' to the third neural network model 3 .
  • the third neural network model 3 may output information on whether the first to fourth texts correspond to phrases (S48).
  • the processor 130 determines whether the first to fourth texts output by the fourth translation text 'It's difficult time for everyone, but let's help each other' and the third neural network model 3 correspond to phrases.
  • the fourth paraphrase text 'All of us are now having hard time, but mutually help each other' can be obtained (S44).
  • step S44 when the first to fourth texts are identified as corresponding to phrases based on the information output by the third neural network model 3, the second neural network model 2 sets the second neural network model 3 so that the degree of freedom of the sentence is low.
  • a fourth paraphrase text corresponding to the translated text may be output.
  • the second neural network model 2 allows the fourth paraphrase text corresponding to the fourth translated text to end with a terminating ending or a period or a comma (or including a terminating ending, a period or a comma, etc.) The degree of freedom of the fourth paraphrase text may be reduced.
  • the fourth translation is performed so that the degree of freedom of the sentence is high.
  • a fourth paraphrase text corresponding to the text may be output.
  • steps S45 to S47 are omitted since they have been described in FIG. 6 .
  • 10A and 10B are diagrams for explaining a plurality of texts according to an embodiment of the present disclosure.
  • the second neural network model 2 that outputs a paraphrase text corresponding to the input text may be trained based on a plurality of texts.
  • the processor 130 may acquire a plurality of learning texts using a language model (LM).
  • the language model may mean an artificial intelligence model trained to obtain another sentence having a similarity greater than or equal to a threshold value with the input sentence.
  • the language model may be a sequence-to-sequence model, and may include an encoder for processing input data and a decoder for processing output data.
  • a sequence means continuous data related to each other, and sentences such as the first sentence, the second sentence, and the third sentence in the present disclosure may be just examples of the sequence.
  • the language model may include an encoder for processing input data and a decoder for processing output data.
  • each of the encoder and the decoder may include a plurality of Recurrent Neural Network (RNN) cells.
  • RNN Recurrent Neural Network
  • the plurality of RNN cells may be configured with a Long Short-Term Memory (LSTM) or a Gated Recurrent Unit (GRU).
  • LSTM Long Short-Term Memory
  • GRU Gated Recurrent Unit
  • the language model receives a sampling sentence and an input sentence based on a mono corpus of a first language.
  • the sampling sentence text or the first sentence text S1 may be 'it's raining a lot today'.
  • the first sentence text S1 may be divided into word units through tokenization. For example, the first sentence text S1 may be divided into 'today', 'raining', 'really', 'a lot', and 'come'. Then, each divided word may be converted into a vector through word embedding. Then, each word converted into a vector becomes an input of each time-step for each RNN cell included in the language model. Then, each divided word is converted into a vector through word embedding and input to each RNN cell.
  • the language model may identify a plurality of word groups including words similar to each word included in the first sentence text S1 . That is, each of the plurality of word groups may mean a set of words having a semantic similarity value equal to or greater than the first threshold value.
  • the language model may identify a second group containing words similar to 'today', 'now' and 'yesterday'.
  • the language model may identify a fourth group including words similar to 'rain', such as 'rainy season', 'heavy rain', 'drizzle', snow', 'drizzle', and the like.
  • the language model may obtain a first candidate sentence, a second candidate sentence, ..., an nth candidate sentence corresponding to the first sentence text S1 based on the words selected from each of the plurality of word groups.
  • the language model may include a first candidate sentence 'It's raining today', a second candidate sentence 'It's raining a lot now', etc., corresponding to the first sentence text S1 'It's raining very much today.' can be obtained.
  • the language model fixes the front part of a candidate sentence based on any one of the words included in the first sentence text S1, and uses a word selected from a word group corresponding to each of the remaining words. can complete the sentence.
  • the language model places 'today' in the front among the words included in the first sentence text S1, and 'rain', 'really', 'a lot', 'come'
  • a first candidate sentence, ..., an nth candidate sentence may be obtained by using the words selected from each word group.
  • the language model will obtain the first candidate sentence 'It's raining a lot right now', the second candidate sentence 'It's going to rain today', the third candidate sentence 'It's going to rain very much today', etc. can
  • the language model may acquire a perplexity (PPL) value and a semantic similarity value Sim between the first sentence text S1 and a plurality of candidate sentences.
  • PPL perplexity
  • the language model may obtain a second sentence text having a publicity value less than a threshold value and a semantic similarity value greater than or equal to a first threshold value among a plurality of candidate sentences. Meanwhile, since a lower publicity value means that a test sentence can be predicted with a high probability, a language model composed of test sentences having a low publicity value may mean a better language model.
  • the second neural network model may be trained to output a paraphrase text corresponding to the input text using the first sentence text S1 and the second sentence text.
  • 11A and 11B are diagrams for explaining a plurality of texts according to another embodiment of the present disclosure.
  • the processor 130 may obtain a plurality of training texts by using the first neural network model 1 (eg, a neural network machine translation (NMT) model).
  • the first neural network model 1 eg, a neural network machine translation (NMT) model.
  • the neural network machine translation model may be a model trained based on a parallel corpus.
  • the parallel corpus may be a corpus configured in parallel so that sentences of different languages correspond to each other.
  • the neural network machine translation model may be trained based on a plurality of sentences included in a parallel corpus for translating a first language into a second language.
  • the processor 130 performs a sentence text in a first language (eg, English) and a sentence text in a second language corresponding to the sentence text in the first language based on the parallel corpus.
  • a first translation sentence text of (eg, Korean) may be obtained.
  • the processor 130 is the first translated sentence text P1 of the second language based on the parallel corpus 'That's not going to happen' can be obtained.
  • the processor 130 may input the first translated sentence text into the first neural network model 1 (a neural network machine translation model) to obtain a second sentence text of the first language.
  • the first neural network model 1 a neural network machine translation model
  • the second sentence text output by the first neural network model may be 'It will not happen'.
  • a first word among a plurality of words included in the first sentence text is different from a first word among a plurality of words included in the second sentence text.
  • the second sentence text may be output.
  • the first neural network model starts with a word other than 'such', and the first translation sentence text S1 )
  • the second sentence text corresponding to 'That's not going to happen' can be outputted.
  • the processor 130 may use the first sentence text S1 and the second sentence text P1 as training texts of the second neural network model 2 .
  • the first word among the plurality of words included in each of the first sentence text and the second sentence text may be different.
  • 11B is a diagram for explaining a method of acquiring a plurality of texts according to another embodiment of the present disclosure.
  • the processor 130 inputs the first sentence text S1 to the fourth neural network model 1' to obtain the first translation text t1' corresponding to the first sentence text S1.
  • the fourth neural network model may be a neural network machine translation model trained to output translated text in a second language when text in a first language is input (eg, Ko2En (Korean to English)).
  • the processor 130 may input the first translated text t1 ′ into the first neural network model 1 to obtain a second sentence text P1 corresponding to the first translated text t1 ′.
  • the first neural network model 1 may be a neural network machine translation model trained to output the translated text of the first language when text in the second language is input (eg, En2Ko (English to Korean)).
  • the first sentence text S1, the fourth neural network model 1 ′, and the second sentence text P1 retranslated through the first neural network model 1 may have a semantic similarity value greater than or equal to the first threshold value.
  • the processor 130 acquires 'nothing happened yesterday' of 'Korean' as the first sentence text.
  • the processor 130 may input the first sentence text into the fourth neural network model 1 ′ trained to translate the first sentence text from ‘Korean’ to ‘English’. Subsequently, the processor 130 may obtain 'Nothing happened yesterday.' as the translated text from the fourth neural network model 1 ′.
  • the processor 130 may input the translated text into the first neural network model 1 trained to translate from 'English' to 'Korean'.
  • the processor 130 may obtain a retranslated sentence, ie, a second sentence text, from the second neural network model. Meanwhile, according to an embodiment, if the first word among the plurality of words constituting the retranslated sentence is the same as the first word included in the first sentence text, the processor 130 acquires a new retranslated sentence from the first neural network model 1 . can do. For example, the processor 130 may obtain 'Nothing happened yesterday.' as a retranslation sentence by inputting 'Nothing happened yesterday.' into the second neural network machine translation model.
  • the processor 130 may obtain a new retranslation sentence through the first neural network model 1 .
  • the first neural network model 1 may output a retranslation sentence that is semantically similar to the first sentence text but different from the first word.
  • the first neural network model 1 may output 'Nothing happened yesterday'.
  • the processor 130 may train the second neural network model using the first sentence text and the retranslated sentence, that is, the second sentence text, as training texts.
  • the second neural network model is trained by pairing two sentences that are different but semantically similar to the first word (word located at the front in the word order), they are semantically similar to the translated text and specific text (for example, The paraphrase text previously output through the speaker 110) may be learned to output the paraphrase text positioned at the front of the word order.
  • the artificial intelligence model is learned means that the basic artificial intelligence model (for example, an artificial intelligence model including an arbitrary random parameter) is learned using a plurality of training data by a learning algorithm, and thus a desired characteristic (or, It means that a predefined action rule or artificial intelligence model set to perform the purpose) is created.
  • Such learning may be performed through a separate server and/or system, but is not limited thereto, and may be performed in the electronic device 100 .
  • Examples of the learning algorithm include supervised learning, unsupervised learning, semi-supervised learning, transfer learning, or reinforcement learning. Examples are not limited.
  • each of the artificial intelligence models is, for example, a Convolutional Neural Network (CNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a deep Q-networks (Deep Q-Networks) may be implemented, but is not limited thereto.
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • RBM Restricted Boltzmann Machine
  • DNN Deep Belief Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-networks
  • the processor 130 for executing the artificial intelligence model is a general-purpose processor such as a CPU, an AP, a Digital Signal Processor (DSP), etc., a GPU, a Vision Processing Unit (VPU), such as It can be implemented through a combination of a graphics-only processor or an artificial intelligence-only processor such as an NPU and software.
  • the processor 130 may control to process input data according to a predefined operation rule or an artificial intelligence model stored in the memory 120 .
  • the processor 130 is a dedicated processor (or artificial intelligence-only processor), it may be designed with a hardware structure specialized for processing a specific artificial intelligence model.
  • hardware specialized for processing a specific artificial intelligence model may be designed as a hardware chip such as an ASIC or FPGA.
  • the processor 130 When the processor 130 is implemented as a dedicated processor, it may be implemented to include a memory for implementing an embodiment of the present disclosure, or may be implemented to include a memory processing function for using an external memory.
  • the memory 120 may store information about an artificial intelligence model including a plurality of layers.
  • storing information about the artificial intelligence model means various information related to the operation of the artificial intelligence model, for example, information on a plurality of layers included in the artificial intelligence model, parameters used in each of the plurality of layers (for example, , filter coefficients, bias, etc.) may be stored.
  • a communication interface receives various data.
  • the communication interface 110 is AP-based Wi-Fi (Wi-Fi, Wireless LAN network), Bluetooth (Bluetooth), Zigbee (Zigbee), wired / wireless LAN (Local Area Network), WAN (Wide Area Network) , Ethernet, IEEE 1394, HDMI (High-Definition Multimedia Interface), USB (Universal Serial Bus), MHL (Mobile High-Definition Link), AES/EBU (Audio Engineering Society/ European Broadcasting Union), Optical ), an external device (eg, the display device 200, a plurality of user terminals 10, 20, 30), an external storage medium (eg, USB memory) through a communication method such as coaxial , various data may be input from an external server (eg, a web hard disk).
  • an external server eg, a web hard disk.
  • the input unit may receive a user input.
  • the input unit may include a microphone to receive a user's voice, and as another example, may include a keyboard, a mouse, a key pad, a touch pad, etc., but is limited thereto. it's not going to be
  • the display may display various screens.
  • the display may be implemented as a display including a self-luminous device or a display including a non-light-emitting device and a backlight.
  • LCD Liquid Crystal Display
  • OLED Organic Light Emitting Diodes
  • LEDs Light Emitting Diodes
  • micro LEDs micro LEDs
  • Mini LEDs Plasma Display Panel (PDP)
  • QD Quantum dot
  • QLEDs Quantum dot light-emitting diodes
  • QLEDs Quantum dot light-emitting diodes
  • the display 150 may also include a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT).
  • a driving circuit e.g., a driving circuit for driving a display.
  • a backlight unit e.g., a driving circuit for driving a display.
  • LTPS low temperature poly silicon
  • OFT organic TFT
  • the display 150 is implemented as a touch screen combined with a touch sensor, a flexible display, a rollable display, a three-dimensional display (3D display), a display in which a plurality of display modules are physically connected, etc. can be
  • FIG. 12 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • a first translated text corresponding to the first text is obtained by inputting a first text into a first neural network model ( S1210 ).
  • the first translation text is input to the second neural network model to obtain a first paraphrase text corresponding to the first translation text (S1220).
  • the first paraphrase text is output according to the identification result (S1250).
  • the first and second texts are input to the first neural network model to obtain second translated texts corresponding to the first and second texts (S1260).
  • the second paraphrase text corresponding to the second translated text is obtained by inputting the identification result and the second translated text into the second neural network model ( S1270 ).
  • the second neural network model includes the first paraphrase text and a second paraphrase corresponding to the second translated text such that the first paraphrase text is positioned in front of the word order. The text is output, and when it is identified that the first paraphrase text has not been previously output, the second paraphrase text corresponding to the second translated text is output.
  • the step S1230 includes obtaining a semantic similarity value between the first translated text and the first paraphrase text, and based on the obtained semantic similarity value, the first paraphrase text may include identifying whether the output of have.
  • step S1240 includes obtaining a sentence suitability value of the first paraphrase text and determining whether the first paraphrase text can be output based on the acquired sentence suitability value
  • the step of identifying may include, and outputting the first paraphrase text may include outputting the first paraphrase text when the sentence suitability value is equal to or greater than the second threshold value (S1240: Y).
  • a control method includes the steps of identifying whether a second translation text can be output based on a second text and a second paraphrase text; If the second paraphrase text is identified as printable, outputting the remainder except the first paraphrase text from the second paraphrase text. , outputting the second paraphrase text may be further included.
  • the step of identifying whether the second paraphrase text can be output includes obtaining a semantic similarity value between the second translated text and the second paraphrase text, obtaining a sentence suitability value of the second paraphrase text, and a semantic similarity value and identifying whether the second paraphrase text can be output based on the sentence suitability value, wherein the outputting the second paraphrase text has a semantic similarity value equal to or greater than a first threshold value and a sentence suitability value equal to or greater than a second threshold value. If the value is greater than or equal to the value, the method may include outputting a second paraphrase text.
  • the control method further includes inputting the first and second texts into a third neural network model to obtain information on whether the first and second texts correspond to a phrase.
  • the method may include obtaining a second paraphrase text corresponding to the second translation text.
  • the second neural network model when the first and second texts are identified as corresponding to the phrases based on the input information, output the second paraphrased texts corresponding to the second translated texts and in the form of sentences or phrases, If it is determined that the first and second texts do not correspond to the phrase, the second paraphrase text corresponding to the second translated text and in the form of an incomplete sentence may be output.
  • the second neural network model is trained based on a plurality of texts, and the plurality of texts have a first sentence text obtained based on at least one word selected from each of a plurality of word groups and a degree of semantic similarity with the first sentence text.
  • the second sentence text having a value equal to or greater than the first threshold value may be included, and each of the plurality of word groups may be a set of words having a semantic similarity value equal to or greater than the first threshold value.
  • the second neural network model is trained based on a plurality of texts, and the plurality of texts is a first sentence corresponding to a first sentence text of a first language obtained based on a parallel corpus between two different languages.
  • a first translation sentence text of two languages and a second translation sentence text of a second language obtained by inputting the first sentence text into the first neural network model, and the degree of semantic similarity between the first translation sentence text and the second translation sentence text
  • the value may be greater than or equal to the first threshold value.
  • the most preceding word among the plurality of words constituting the first translation sentence text and the most preceding word among the plurality of words constituting the first translation sentence text may be different from each other.
  • the various embodiments described above may be implemented in a recording medium readable by a computer or a similar device using software, hardware, or a combination thereof.
  • the embodiments described herein may be implemented by the processor itself.
  • embodiments such as the procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
  • computer instructions for performing the processing operation of the sound output apparatus 100 may be stored in a non-transitory computer-readable medium.
  • the specific device When the computer instructions stored in the non-transitory computer-readable medium are executed by the processor of the specific device, the specific device performs the processing operation in the sound output device 100 according to the various embodiments described above.
  • the non-transitory computer-readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device.
  • Specific examples of the non-transitory computer-readable medium may include a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
  • At least one of components, elements, modules, or units may be implemented in various hardware, software and/or firmware structures that perform respective functions according to the present disclosure.
  • At least one of the components, or units may use an integrated circuit structure, which includes, for example, a memory, a processor, a logic circuit lookup table, and the like, and the control of a microprocessor or other control device.
  • an integrated circuit structure which includes, for example, a memory, a processor, a logic circuit lookup table, and the like, and the control of a microprocessor or other control device.
  • At least one of these components, or units may be implemented as a module, program, or part of code, the code including one or more executable instructions for performing a specific logical function, which is provided to a microprocessor or other control device. may be feasible by
  • At least one of these components or units may include a processor such as a CPU, or may be implemented as a processor, where the CPU may mean a microprocessor or the like that performs each function.
  • a processor such as a CPU
  • the CPU may mean a microprocessor or the like that performs each function.
  • two or more of these components or units may be combined to form one component or unit, and all functions of the two or more components or units may be operated.
  • at least one of these components or units A part of the function may be performed by other components or units, and although a bus is not shown in the block diagram, communication between components and units may be performed through the bus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는 스피커, 적어도 하나의 명령어를 저장하는 메모리 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는, 명령어를 실행함으로써, 제1 텍스트를 제1 신경망 모델에 입력하여 제1 텍스트에 대응되는 제1 번역 텍스트를 획득하고, 제1 번역 텍스트를 제2 신경망 모델에 입력하여 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득하고, 제1 텍스트 및 제1 의역 텍스트에 기초하여 제1 의역 텍스트의 출력 가능 여부를 식별하고, 식별 결과에 따라 제1 의역 텍스트를 출력하도록 스피커를 제어하고, 제1 텍스트에 이어서 제2 텍스트가 수신되면, 제1 및 제2 텍스트를 제1 신경망 모델에 입력하여 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득하고, 식별 결과 및 제2 번역 텍스트를 제2 신경망 모델에 입력하여 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득한다.

Description

전자 장치 및 그 제어 방법
본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는, 번역 텍스트를 획득하는 전자 장치 및 그 제어 방법에 관한 것이다.
CROSS-REFERENCE TO RELATED APPLICATIONS
본 출원은 2021년 2월 4일에 출원된 대한민국 특허출원 제 10-2021-0016257 호에 기초하여 우선권을 주장하며, 해당 출원의 모든 내용은 그 전체가 본 출원에 레퍼런스로 포함된다.
전자 기술의 발달에 힘입어 다양한 유형의 전자 기기가 개발 및 보급되고 있다. 특히, 서로 다른 언어 간 번역을 수행하여 사용자에게 결과물을 제공하는 번역기 등의 전자 기기도 활발히 개발 및 보급되고 있는 실정이다.
다만, 종래의 번역기는 그 성능이 떨어짐에 따라 실생활에서 이용하는데 무리가 있으며, 특히, 실시간 번역 성능이 매우 떨어지는 문제가 있었다.
예를 들어, 입력되는 텍스트를 실시간으로 번역하는 경우에 번역의 정확도가 떨어지는 문제가 있으며, 실시간으로 번역하지 않고 문장이 완성된 뒤에 입력된 텍스트를 한번에 번역하는 경우에는 번역의 정확도는 향상될 수 있으나 대기 시간이 증가하는 문제가 있다.
번역의 정확도, 신뢰도는 향상시키면서 동시에 텍스트의 입력부터 번역 텍스트의 출력까지의 대기 시간을 줄여 실시간으로 번역되는 것과 같은 효과를 제공하기 위한 번역 방법에 대한 요구 및 논의가 활발한 실정이다.
본 개시는 입력 텍스트에 대응되는 번역 텍스트를 출력하는 전자 기기 및 그 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 스피커, 적어도 하나의 명령어를 저장하는 메모리 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 명령어를 실행함으로써, 제1 텍스트를 제1 신경망 모델에 입력하여 상기 제1 텍스트에 대응되는 제1 번역 텍스트를 획득하고, 상기 제1 번역 텍스트를 제2 신경망 모델에 입력하여 상기 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득하고, 상기 제1 텍스트 및 상기 제1 의역 텍스트에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하고, 상기 식별 결과에 따라 상기 제1 의역 텍스트를 출력하도록 상기 스피커를 제어하고, 상기 제1 텍스트에 이어서 제2 텍스트가 수신되면, 상기 제1 및 제2 텍스트를 상기 제1 신경망 모델에 입력하여 상기 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득하고, 상기 식별 결과 및 상기 제2 번역 텍스트를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하고, 상기 제2 신경망 모델은, 상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되면, 상기 제1 의역 텍스트를 포함하며 상기 제1 의역 텍스트가 어순 상 앞에 위치하도록 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력하고, 상기 제1 의역 텍스트가 기 출력되지 않은 것으로 식별되면, 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력한다.
여기서, 상기 프로세서는, 상기 제1 번역 텍스트 및 상기 제1 의역 텍스트 간 의미 유사도 값을 획득하고, 상기 획득된 의미 유사도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하며, 상기 의미 유사도 값이 제1 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하도록 상기 스피커를 제어할 수 있다.
또한, 상기 프로세서는, 상기 제1 의역 텍스트의 문장 적합도 값을 획득하고, 상기 획득된 문장 적합도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하며, 상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하도록 상기 스피커를 제어할 수 있다.
또한, 상기 프로세서는, 상기 제2 텍스트 및 상기 제2 의역 텍스트에 기초하여 상기 제2 의역 텍스트의 출력 가능 여부를 식별하며, 상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트에서 제1 의역 텍스트를 제외한 나머지를 출력하도록 상기 스피커를 제어하고, 상기 제1 의역 텍스트가 출력되지 않은 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트를 출력하도록 상기 스피커를 제어할 수 있다.
여기서, 상기 프로세서는, 상기 제2 번역 텍스트 및 상기 제2 의역 텍스트 간 의미 유사도 값을 획득하고, 상기 제2 의역 텍스트의 문장 적합도 값을 획득하고, 상기 의미 유사도 값 및 상기 문장 적합도 값에 기초하여 상기 제2 의역 텍스트의 출력 가능 여부를 식별하며, 상기 의미 유사도 값이 제1 임계 값 이상이고 상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제2 의역 텍스트를 출력하도록 상기 스피커를 제어할 수 있다.
또한, 상기 프로세서는, 상기 제1 및 제2 텍스트를 제3 신경망 모델에 입력하여 상기 제1 및 제2 텍스트가 구(phrase)에 대응되는지 여부에 대한 정보를 획득하고, 상기 제2 번역 텍스트, 상기 제1 및 제2 텍스트가 구에 대응되는지 여부에 대한 정보를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 획득할 수 있다.
여기서, 상기 제2 신경망 모델은, 상기 입력된 정보에 기초하여 상기 제1 및 제2 텍스트가 구에 대응되는 것으로 식별되면, 상기 제2 번역 텍스트에 대응되며 문장 형태 또는 구 형태의 상기 제2 의역 텍스트를 출력하며, 상기 제1 및 제2 텍스트가 구에 대응되지 않는 것으로 식별되면, 상기 제2 번역 텍스트에 대응되며 미완성 문장 형태의 상기 제2 의역 텍스트를 출력할 수 있다.
또한, 상기 제2 신경망 모델은, 복수의 텍스트에 기초하여 학습되며, 상기 복수의 텍스트는, 복수의 단어 그룹 각각에서 선택된 적어도 하나의 단어에 기초하여 획득된 제1 문장 텍스트 및 상기 제1 문장 텍스트와 의미 유사도 값이 제1 임계 값 이상인 제2 문장 텍스트를 포함하며, 상기 복수의 단어 그룹 각각은, 상기 의미 유사도 값이 상기 제1 임계 값 이상인 단어들의 집합일 수 있다.
또한, 상기 제2 신경망 모델은, 복수의 텍스트에 기초하여 학습되며, 상기 복수의 텍스트는, 서로 다른 두 언어 간의 병렬 코퍼스(parallel corpus)에 기초하여 획득된 제1 언어의 제1 문장 텍스트에 대응되는 제2 언어의 제1 번역 문장 텍스트 및 상기 제1 문장 텍스트를 상기 제1 신경망 모델에 입력하여 획득된 상기 제2 언어의 제2 번역 문장 텍스트를 포함하며, 상기 제1 번역 문장 텍스트와 상기 제2 번역 문장 텍스트 간 의미 유사도 값이 제1 임계 값 이상일 수 있다.
여기서, 상기 제1 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어와 상기 제2 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어는 서로 다른 단어일 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 제1 텍스트를 제1 신경망 모델에 입력하여 상기 제1 텍스트에 대응되는 제1 번역 텍스트를 획득하는 단계, 상기 제1 번역 텍스트를 제2 신경망 모델에 입력하여 상기 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득하는 단계, 상기 제1 텍스트 및 상기 제1 의역 텍스트에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계, 상기 식별 결과에 따라 상기 제1 의역 텍스트를 출력하는 단계, 상기 제1 텍스트에 이어서 제2 텍스트가 수신되면, 상기 제1 및 제2 텍스트를 상기 제1 신경망 모델에 입력하여 상기 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득하는 단계 및 상기 식별 결과 및 상기 제2 번역 텍스트를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하는 단계를 포함하고, 상기 제2 신경망 모델은, 상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되면, 상기 제1 의역 텍스트를 포함하며 상기 제1 의역 텍스트가 어순 상 앞에 위치하도록 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력하고, 상기 제1 의역 텍스트가 기 출력되지 않은 것으로 식별되면, 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력한다.
여기서, 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계는, 상기 제1 번역 텍스트 및 상기 제1 의역 텍스트 간 의미 유사도 값을 획득하는 단계 및 상기 획득된 의미 유사도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계를 포함하고, 상기 제1 의역 텍스트를 출력하는 단계는, 상기 의미 유사도 값이 제1 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하는 단계를 포함할 수 있다.
또한, 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계는, 상기 제1 의역 텍스트의 문장 적합도 값을 획득하는 단계 및 상기 획득된 문장 적합도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계를 포함하고, 상기 제1 의역 텍스트를 출력하는 단계는, 상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하는 단계를 포함할 수 있다.
또한, 상기 제2 텍스트 및 상기 제2 의역 텍스트에 기초하여 상기 제2 번역 텍스트의 출력 가능 여부를 식별하는 단계, 상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트에서 제1 의역 텍스트를 제외한 나머지를 출력하는 단계 및 상기 제1 의역 텍스트가 출력되지 않은 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트를 출력하는 단계를 더 포함할 수 있다.
여기서, 상기 제2 의역 텍스트의 출력 가능 여부를 식별하는 단계는, 상기 제2 번역 텍스트 및 상기 제2 의역 텍스트 간 의미 유사도 값을 획득하는 단계, 상기 제2 의역 텍스트의 문장 적합도 값을 획득하는 단계 및 상기 의미 유사도 값 및 상기 문장 적합도 값에 기초하여 상기 제2 의역 텍스트의 출력 가능 여부를 식별하는 단계를 포함하며, 상기 제2 의역 텍스트를 출력하는 단계는, 상기 의미 유사도 값이 제1 임계 값 이상이고 상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제2 의역 텍스트를 출력하는 단계를 포함할 수 있다.
또한, 상기 제1 및 제2 텍스트를 제3 신경망 모델에 입력하여 상기 제1 및 제2 텍스트가 구(phrase)에 대응되는지 여부에 대한 정보를 획득하는 단계를 더 포함하고, 상기 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하는 단계는, 상기 제2 번역 텍스트, 상기 제1 및 제2 텍스트가 구에 대응되는지 여부에 대한 정보를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 획득하는 단계를 포함할 수 있다.
여기서, 상기 제2 신경망 모델은, 상기 입력된 정보에 기초하여 상기 제1 및 제2 텍스트가 구에 대응되는 것으로 식별되면, 상기 제2 번역 텍스트에 대응되며 문장 형태 또는 구 형태의 상기 제2 의역 텍스트를 출력하며, 상기 제1 및 제2 텍스트가 구에 대응되지 않는 것으로 식별되면, 상기 제2 번역 텍스트에 대응되며 미완성 문장 형태의 상기 제2 의역 텍스트를 출력할 수 있다.
또한, 상기 제2 신경망 모델은, 복수의 텍스트에 기초하여 학습되며, 상기 복수의 텍스트는, 복수의 단어 그룹 각각에서 선택된 적어도 하나의 단어에 기초하여 획득된 제1 문장 텍스트 및 상기 제1 문장 텍스트와 의미 유사도 값이 제1 임계 값 이상인 제2 문장 텍스트를 포함하며, 상기 복수의 단어 그룹 각각은, 상기 의미 유사도 값이 상기 제1 임계 값 이상인 단어들의 집합일 수 있다.
또한, 상기 제2 신경망 모델은, 복수의 텍스트에 기초하여 학습되며, 상기 복수의 텍스트는, 서로 다른 두 언어 간의 병렬 코퍼스(parallel corpus)에 기초하여 획득된 제1 언어의 제1 문장 텍스트에 대응되는 제2 언어의 제1 번역 문장 텍스트 및 상기 제1 문장 텍스트를 상기 제1 신경망 모델에 입력하여 획득된 상기 제2 언어의 제2 번역 문장 텍스트를 포함하며, 상기 제1 번역 문장 텍스트와 상기 제2 번역 문장 텍스트 간 의미 유사도 값이 제1 임계 값 이상일 수 있다.
여기서, 상기 제1 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어와 상기 제1 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어는 서로 다른 단어일 수 있다.
상술한 바와 같이 본 개시의 다양한 실시 예에 따르면, 텍스트의 입력부터, 입력된 텍스트에 대응되는 번역 텍스트의 출력까지의 요구 시간을 줄여 사용자는 실시간 번역 서비스를 제공받는 효과를 가질 수 있다.
입력 텍스트가 문장 형태가 아닐지라도, 실시간 번역 결과물의 정확도, 신뢰도가 향상될 수 있다.
본 개시에 따른 실시 예, 특징 및 효과는 다음의 도면에 대한 설명을 통해 보다 명확해질 것이다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 제1 및 제2 신경망 모델을 설명하기 위한 표이다.
도 3 은 본 개시의 일 실시 예에 따른 텍스트, 번역 텍스트 및 의역 텍스트와 관련된 프로세스를 설명하기 위한 흐름도이다.
도 4는 본 개시의 일 실시 예에 따른 텍스트, 번역 텍스트 및 의역 텍스트와 관련된 프로세스를 설명하기 위한 흐름도이다.
도 5는 본 개시의 일 실시 예에 따른 텍스트, 번역 텍스트 및 의역 텍스트와 관련된 프로세스를 설명하기 위한 흐름도이다.
도 6은 본 개시의 일 실시 예에 따른 텍스트, 번역 텍스트 및 의역 텍스트와 관련된 프로세스를 설명하기 위한 흐름도이다.
도 7은 본 개시의 일 실시 예에 따른 텍스트, 번역 텍스트 및 의역 텍스트와 관련된 프로세스를 설명하기 위한 흐름도이다.
도 8은 본 개시의 일 실시 예에 따른 EOP(End of phrase)를 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시 예에 따른 제3 신경망 모델의 프로세스를 설명하기 위한 흐름도이다.
도 10a는 본 개시의 일 실시 예에 따른 복수의 텍스트를 설명하기 위한 도면이다.
도 10b는 본 개시의 일 실시 예에 따른 복수의 텍스트를 설명하기 위한 도면이다.
도 11a는 본 개시의 다른 실시 예에 따른 복수의 텍스트를 설명하기 위한 도면이다.
도 11b는 본 개시의 다른 실시 예에 따른 복수의 텍스트를 설명하기 위한 도면이다.
도 12는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
-
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
본 명세서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 가상 현실(virtual reality(VR)) 구현 장치 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있으나 이에 한정되지 않는다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다.
어떤 실시 예들에서, 전자 장치(100)는 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시 예에서, 전자 장치(100)는 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.
특히, 본 개시의 일 실시 예에 따른 전자 장치(100)는 사용자의 입력에 대응되는 텍스트를 획득하고, 획득된 텍스트를 번역하여 출력하는 다양한 유형의 장치로 구현될 수 있다. 여기서, 사용자의 입력은 사용자의 음성, 사용자가 입력한 텍스트, 외부 장치로부터 수신된 신호 등을 포함할 수 있다.
또한, 전자 장치(100)는 획득된 텍스트를 번역하여 스피커(110)를 통해 출력할 수 있다. 본 개시의 일 실시 예에 따른 스피커(110)는 오디오 신호를 출력할 수 있다. 이 경우, 스피커(110)는 적어도 하나의 스피커 유닛으로 구현될 수 있다. 일 예로, 스피커(110)는 멀티 채널 재생을 위한 복수의 스피커 유닛을 포함할 수 있다. 예를 들어, 복수의 스피커 유닛 각각은 서로 다른 주파수 대역을 출력할 수 있다.
한편, 본 개시의 다양한 실시 예에 따라 전자 장치(100)가 사용자 입력에 대응되는 텍스트를 번역한 뒤, 이를 스피커(110)로 출력하므로 전자 장치(100)가 스피커(110)를 포함하는 것으로 기재하였으나 이는 일 예시이며 이에 한정되지 않음은 물론이다. 예를 들어, 전자 장치(100)는 디스플레이를 통해 번역된 텍스트를 출력할 수도 있다.
메모리(120)는 본 개시의 다양한 실시 예에 이용되는 데이터를 저장할 수 있다. 메모리(120)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다.
예를 들어, 전자 장치(100)의 구동을 위한 데이터는 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터는 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
일 예에 따라 메모리(120)는 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션(instruction) 또는 인스트럭션들을 포함하는 컴퓨터 프로그램을 저장할 수 있다.
다른 예에 따라, 메모리(120)는 복수의 레이어를 포함하는 인공 지능 모델에 관한 정보를 저장할 수 있다. 여기서, 인공 지능 모델에 관한 정보를 저장한다는 것은 인공 지능 모델의 동작과 관련된 다양한 정보, 예를 들어 인공 지능 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터(예를 들어, 필터 계수, 바이어스 등)에 대한 정보 등을 저장한다는 것을 의미할 수 있다.
예를 들어, 메모리(120)는 본 개시의 일 실시 예에 따라 제1 언어의 텍스트를 제2 언어로 번역하도록 학습된 제1 신경망 모델을 저장할 수 있다. 또한, 메모리(120)는 텍스트를 의역하도록 학습된 제2 신경망 모델을 저장할 수 있다. 제1 및 제2 신경망 모델에 대한 구체적인 설명은 후술하도록 한다.
본 개시의 일 실시 예에 따른 프로세서(130)는 전자 장치(100)의 전반적인 동작을 제어한다.
일 실시 예에 따라 프로세서(130)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), AI(Artificial Intelligence) 프로세서, T-CON(Timing controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
특히, 프로세서(130)는 사용자 음성을 인식하여 사용자 음성에 대응되는 텍스트 또는, 사용자 입력에 따른 텍스트를 제1 신경망 모델에 입력하여 텍스트에 대응되는 번역 텍스트를 획득할 수 있다. 예를 들어, 프로세서(130)에 구비된 음성 인식(Automatic speech recognition, ASR) 모듈은 입력부(미도시)(예를 들어, 마이크)를 통해 수신된 사용자 음성을 인식하여 사용자 음성에 대응되는 텍스트를 획득할 수 있다. 이에 대한 구체적인 설명은 후술하도록 한다.
본 개시의 일 실시 예에 따른 프로세서(130)는 텍스트를 제1 신경망 모델에 입력하여 번역 텍스트를 획득할 수 있다. 여기서, 제1 신경망 모델은 제1 언어의 텍스트를 제2 언어로 기계 번역(Machine Translation)하도록 학습된 모델일 수 있다. 한편, 제1 신경망 모델은 통계적 기계 번역(Statistical machine translation, SMT) 모델일 수도 있고, 신경망 기계 번역(Neural machine translation, NMT) 모델일 수도 있다. 여기서, 신경망 기계 번역 모델은 단어를 개별적으로 번역하는 것이 아닌, 전체 문장, 구 단위로 번역을 수행함에 따라 자연스럽고 완성도 높은 번역물을 출력하는 효과가 있다.
일 실시 예에 따른 프로세서(130)는 제1 언어의 제1 텍스트를 제1 신경망 모델에 입력하여 제2 언어의 제1 번역 텍스트를 획득할 수 있다.
예를 들어, 프로세서(130)는 제1 텍스트로 ‘선수들이’가 수신되면, ‘선수들이’를 제1 신경망 모델에 입력하여 ‘Athletes’를 제1 텍스트에 대응되는 제1 번역 텍스트로 획득할 수 있다. 상술한 예시는, ‘한국어’가 입력됨에 따라 제1 신경망 모델이 ‘한국어’에서 ‘영어’로 번역하는 경우를 상정한 것이나, 이에 한정되지 않음은 물론이다. 예를 들어, 프로세서(130)는 제1 신경망 모델을 이용하여 ‘영어’에서 ‘한국어’로 번역된 번역 텍스트를 획득할 수도 있고, 다른 예로, 다양한 언어로 번역된 번역 텍스트를 획득할 수 있음은 물론이다. 예를 들어, 프로세서(130)는 제1 신경망 모델을 이용하여 ‘스페인어’에서 ‘영어’로 번역된 텍스트를 획득할 수도 있음은 물론이다.
이어서, 프로세서(130)는 제1 번역 텍스트를 제2 신경망 모델에 입력하여 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득할 수 있다.
여기서, 제2 신경망 모델이 출력하는 의역 텍스트는 번역 텍스트와 뜻, 의미는 동일 또는 유사하나, 번역 텍스트에 포함된 단어와는 상이한 단어를 포함하는 텍스트, 번역 텍스트에 포함된 문장 성분(예를 들어, 주어, 목적어, 서술어 등)이 상이하게 배열된 텍스트를 의미할 수 있다. 예를 들어, 제1 번역 텍스트가 ‘Athletes’이면, 제2 신경망 모델은 제1 번역 텍스트에 대응되는 제1 의역 텍스트로 ‘sportsperson’, ‘player’ 중 어느 하나를 출력할 수 있다. 한편, 이는 일 예시이며 이에 한정되지 않음은 물론이다. 예를 들어, 제2 신경망 모델이 출력하는 제1 의역 텍스트는 제1 번역 텍스트와 동일할 수도 있음은 물론이다. 일 예로, 제2 신경망 모델은 제1 번역 텍스트 ‘Athletes’에 대응되는 제1 의역 텍스트로 ‘Athletes’를 출력할 수도 있다.
이어서, 프로세서(130)는 제1 번역 텍스트 및 제1 의역 텍스트에 기초하여 제1 의역 텍스트의 출력 가능 여부를 식별할 수 있다.
예를 들어, 프로세서(130)는 제1 번역 텍스트 ‘Athletes’와 제1 의역 텍스트 ‘Athletes’ 간 의미 유사도 값을 획득할 수 있으며, 획득된 의미 유사도 값이 제1 임계 값 이상이면, 제1 의역 텍스트를 출력할 수 있다. 일 실시 예에 따른 의미 유사도 값은 제1 언어의 제1 텍스트와 제2 언어의 제1 의역 텍스트 간에 의미가 유사한지를 수치화한 값으로서, 0 내지 1의 값으로 표현될 수 있다. 의미 유사도 값이 1에 가까울수록 제1 언어의 제1 텍스트의 의미와 제2 언어의 제1 의역 텍스트의 의미가 동일, 유사함을 의미할 수 있다. 한편, 제1 임계 값은 0.5일 수 있으며, 이는 일 예시일 뿐 이에 한정되지 않음은 물론이다.
일 실시 예에 따른 프로세서(130)는 의미 유사도 값이 제1 임계 값 이상이면, 제1 의역 텍스트가 출력 가능한 것으로 식별할 수 있다. 이 경우, 프로세서(130)는 제1 의역 텍스트를 출력하도록 스피커(110)를 제어할 수 있다. 예를 들어, 프로세서(130)는 TTS(Text to speech) 모델을 이용하여 제1 의역 텍스트를 음성으로 변환하고, 변환된 음성을 스피커(110)를 통해 출력할 수 있다.
한편, 일 실시 예에 따른 프로세서(130)는 제1 의역 텍스트의 문장 적합도 값을 획득하고, 획득된 문장 적합도 값이 제2 임계 값 이상이면, 제1 의역 텍스트를 출력할 수 있다. 상술한 예시에서는 의역 텍스트가 하나의 단어 예를 들어, ‘Athletes’인 경우를 상정하여 설명하였으나, 본 개시의 다양한 실시 예에 따르면, 의역 텍스트는 복수의 단어를 포함하는 문장 형태의 텍스트일 수도 있다.
만약, 프로세서(130)는 복수의 단어를 포함하는 문장 형태(예를 들어, 오직 하나의 단어에 포함되지 않는)의 의역 텍스트가 비문법적(ungrammatical, asyntactic)이라면, 의역 텍스트를 출력 가능하지 않은 것으로 식별할 수 있다.
일 실시 예에 따른 프로세서(130)는 의역 텍스트의 문장 적합도 예를 들어, 의역 텍스트의 문법 준수 여부, 문장 성분(예를 들어, 주어, 동사, 목적어 등)의 존재 여부 등을 수치화하여 문장 적합도 값을 획득할 수 있다. 일 예로, 문장 적합도 값은 0 내지 1의 값으로 표현될 수 있고, 1에 가까울수록 의역 텍스트의 문장 적합도가 높음을 의미할 수 있다. 즉, 문장 적합도 값이 1에 가까울수록 의역 텍스트가 문법을 준수하며, 완성된 문장 형태임을 의미할 수 있다.
이어서, 프로세서(130)는 의역 텍스트의 문장 적합도 값이 제2 임계 값 이상이면, 의역 텍스트를 출력 가능한 것으로 식별할 수 있다. 한편, 제2 임계 값은 0.5일 수 있으나, 이에 한정되지 않음은 물론이다.
일 실시 예에 따른 프로세서(130)는 i) 제1 언어의 텍스트와 제2 언어의 의역 텍스트 간 의미 유사도 값 및 ii) 제2 언어의 의역 텍스트의 문장 적합도 값 모두가 각각의 임계 값 이상인 경우에 한하여 의역 텍스트를 출력 가능한 것으로 식별할 수도 있고, 어느 하나가 임계 값 이상인 경우에도 의역 텍스트를 출력 가능한 것으로 식별할 수도 있음은 물론이다.
한편, 본 개시의 다양한 실시 예는 실시간으로 입력되는 사용자 음성(또는, 텍스트)을 번역하여 출력하는 통역 서비스(또는, 통역 프로그램)에 있어서, 사용자 음성의 입력 시점부터 번역된 음성의 출력 시점까지의 시간을 단축시켜 사용자가 실시간으로 번역된 음성을 제공받는 것과 같이 느끼도록 함에 목적이 있다.
이하에서는, 상술한 제1 텍스트에 이어서 수신되는 제2 텍스트를 번역한 뒤, 이를 출력하는 다양한 실시 예에 대해 설명하도록 한다. 이에 대한 설명은 도 2를 참조하여 하도록 한다.
도 2는 본 개시의 일 실시 예에 따른 제1 신경망 모델(1) 및 제2 신경망 모델(2)을 설명하기 위한 표이다.
본 개시의 일 실시 예에 따른 프로세서(130)는 제1 텍스트에 이어서 수신된 제2 텍스트를 제1 신경망 모델(1)에 입력하여 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득할 수 있다.
일 실시 예에 따라 제1 신경망 모델(1)은 시퀀스-투-시퀀스(sequence-to-sequence) 모델일 수 있다. 여기서, 시퀀스(sequence)란 서로 연관된 연속의 데이터를 의미하며, 본 개시에 있어서의 제1 텍스트, 제2 텍스트와 같은 기 설정된 단위(예를 들어, 형태소, 단어 등)의 텍스트를 시퀀스의 예라고 할 수 있다.
일 실시 예에 따른 제1 신경망 모델(1)은 제1 텍스트 및 제2 텍스트가 입력되면, 제1 텍스트 및 제2 텍스트 모두를 고려한 번역 텍스트(즉, 제2 번역 텍스트)를 출력할 수 있다. 상술한 바와 같이 제1 신경망 모델(1)은 종래의 통계 기반의 기계 번역(SMT) 모델이 아닌, 인공 신경망을 기반으로 한 기계 번역(NMT) 모델이며, NMT 모델은 제1 텍스트와 제2 텍스트 각각을 개별적으로 번역하는 것이 아닌, 제1 및 제2 텍스트 전체를 하나의 번역 단위로 인식하여 기계 번역을 수행할 수 있다.
<Step 1 & Step 2>
도 2를 참조하면, 제1 텍스트 ‘선수들이’가 입력되고(Step 1), 이어서, 제2 텍스트 ‘런던올림픽에서’가 입력된 경우(Step 2)를 상정할 수 있다.
Step 1 - 일 실시 예에 따른 프로세서(130)가 제1 텍스트 ‘선수들이’에 대응되는 제1 의역 텍스트 ‘Athletes’를 획득하였음은 상술하였다.
Step 2 - 프로세서(130)는 제1 텍스트에 이어서 수신된 제2 텍스트 ‘런던올림픽에서’를 제1 신경망 모델(1)이 입력할 수 있다. 여기서, 제1 신경망 모델(1)은 제1 텍스트 ‘선수들이’와 제2 텍스트 ‘런던 올림픽에서’를 모두 고려하여 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 출력할 수 있다.
도 2를 참조하면, 프로세서(130)는 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트 ‘At London Olympic, athletes’를 획득할 수 있다.
한편, 본 개시의 일 실시 예에 따른 프로세서(130)는 step 1 에서 획득한 제1 의역 텍스트의 출력 여부(또는, 제1 의역 텍스트의 출력 가능 여부에 대한 식별 결과) 및 제2 번역 텍스트 ‘At London Olympic, athletes’를 제2 신경망 모델(2)에 입력하여 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득할 수 있다.
예를 들어, Step 1에서 제1 텍스트 ‘선수들이’와 제1 의역 텍스트 ‘Athletes’ 간 의미 유사도 값은 0.7로서 의미 유사도 값이 제1 임계 값 이상이고, 제1 의역 텍스트 ‘Athletes’의 문장 적합도 값이 0.9로서 문장 적합도 값이 제2 임계 값 이상이면, 프로세서(130)는 제1 의역 텍스트 ‘Athletes’를 출력 가능한 것으로 식별하여 제1 의역 텍스트 ‘Athletes’를 출력한 상태에서 제2 텍스트 ‘런던 올림픽에서’가 수신된 경우를 상정할 수 있다.
이 경우, 제2 신경망 모델(2)은 식별 결과(즉, 제1 의역 텍스트의 출력 가능 여부)에 따라 제1 의역 텍스트가 출력된 것으로 식별되면, 제1 의역 텍스트 ‘Athletes’를 포함하며, 제1 의역 텍스트 ‘Athletes’가 어순 상 앞에 위치하도록 제2 번역 텍스트 ‘At London Olympic, athletes’에 대응되는 제2 의역 텍스트 ‘Athletes At London Olympic’를 출력할 수 있다.
다른 예로, 도 2에 도시된 것과는 다르게 Step 1에서 제1 의역 텍스트의 의미 유사도 값 또는 문장 적합도 값 중 적어도 하나가 임계 값 미만으로서 제1 의역 텍스트가 출력 가능하지 않은 것으로 식별되어, 프로세서(130)가 제1 의역 텍스트를 출력하지 않은 상태에서, 제2 텍스트가 수신된 경우를 상정할 수 있다.
이 경우, 제2 신경망 모델(2)은 식별 결과에 따라 제1 의역 텍스트가 출력되지 않은 것으로 식별되면, 제2 의역 텍스트가 제1 의역 텍스트 ‘Athletes’를 반드시 포함하거나 제1 의역 텍스트 ‘Athletes’를 어순 상 앞에 위치시키지 않아도 되므로, 제2 번역 텍스트 ‘At London Olympic, athletes’와 동일한 ‘At London Olympic, athletes’를 제2 의역 텍스트로 출력할 수도 있음은 물론이다.
예를 들어, 도 2의 Step 1과 같이 프로세서(130)가 실시간 번역(또는, 통역) 서비스를 제공하기 위하여 제2 번역 텍스트 ‘At London Olympic athletes’보다 먼저 획득된 제1 번역 텍스트 ‘Athletes’를 스피커(110)를 통해 기 출력한 경우를 상정할 수 있다.
이어서, 도 2의 Step 2와 같이 제2 텍스트 ‘런던 올림픽에서’가 수신됨에 따라 프로세서(130)가 제1 텍스트 ‘선수들이’와 제2 텍스트 ‘런던 올림픽에서’를 제1 신경망 모델(1)에 입력하여 획득한 제2 번역 텍스트 ‘At London Olympic, athletes’를 출력한다면, 사용자 관점에서는 ‘Athletes’, ‘At London Olympic, athletes’를 순차적으로 청취하게되며 일부 표현(또는, 일부 문구)을 중복하여 청취함에 따라 번역에 대한 신뢰도가 하락하는 문제가 있다.
다른 예로, 프로세서(130)가 의미적으로 완벽하고 정확한 번역문을 제공하기 위하여 사용자 음성을 충분히 수신한 뒤에(예를 들어, 하나의 완성 문장에 해당하는 사용자 음성을 수신한 뒤에), 사용자 음성을 번역하여 출력한다면, 사용자 음성의 입력 시점부터 번역된 음성의 출력 시점까지 장 시간이 소요(즉, 레이턴시 타임(latency time)이 증가) 되는 문제가 있다.
따라서, 본 개시의 다양한 실시 예에 따른 프로세서(130)는 상술한 두 가지의 문제점을 해결하기 위하여 수신된 텍스트를 번역(또는 의역)한 뒤, 번역 텍스트(또는, 의역 텍스트)가 출력 가능한 것으로 식별되면 이를 스피커(110)를 통해 우선적으로 출력할 수 있다.
이어서, 프로세서(130)는 새롭게 수신된 텍스트를 번역(또는, 의역)하여 출력함에 있어서, 새롭게 수신된 텍스트를 단순히 번역하여 출력하는데 그치지 않고, 기 출력된 번역 텍스트(또는, 의역 텍스트)가 있다면 이를 고려하여 새롭게 수신된 텍스트를 의역한 뒤에 출력함에 특징이 있다.
도 2를 참조하여 보다 구체적으로 설명하면, 제2 신경망 모델(2)은 제1 의역 텍스트 ‘Athletes’의 출력 가능 여부에 대한 식별 결과를 고려하여 제2 번역 텍스트 ‘At London Olympic athletes’에 대응되는 제2 의역 텍스트를 출력할 수 있다.
예를 들어, 제2 신경망 모델(2)은 제1 의역 텍스트 ‘Athletes’가 출력된 것으로 식별되면, 제1 조건) ‘제1 의역 텍스트 ‘Athletes’가 어순 상 맨 앞에 위치’, 제2 조건) ‘제2 번역 텍스트 ‘At London Olympic, athletes’와 의미적으로 유사’를 만족시키도록 의역된 제2 의역 텍스트 ‘Athletes at London Olympic’을 출력할 수 있다.
이어서, 프로세서(130)는 제2 번역 텍스트 및 제2 의역 텍스트에 기초하여 제2 의역 텍스트의 출력 가능 여부를 식별할 수 있다.
일 실시 예에 따라, 프로세서(130)는 제2 번역 텍스트 ‘At London Olympic, athletes’와 제2 의역 텍스트 ‘Athletes at London Olympic’ 간 의미 유사도 값을 획득할 수 있다.
또한, 프로세서(130)는 제2 의역 텍스트 ‘Athletes at London Olympic’의 문장 적합도 값을 획득할 수 있다.
이어서, 프로세서(130)는 제2 번역 텍스트와 제2 의역 텍스트 간의 의미 유사도 값이 제1 임계 값 이상이고, 제2 의역 텍스트의 문장 적합도 값이 제2 임계 값 이상이면, 제2 의역 텍스트가 출력 가능한 것으로 식별하고, 제2 의역 텍스트를 출력하도록 스피커(110)를 제어할 수 있다.
한편, 프로세서(130)는 제1 의역 텍스트가 출력된 것으로 식별되고, 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 제2 의역 텍스트에서 제1 의역 텍스트를 제외한 나머지를 출력하도록 스피커(110)를 제어할 수 있다.
예를 들어, 도 2를 참조하면, 프로세서(130)는 step 1에서 제1 의역 텍스트 ‘Athletes’가 출력된 것으로 식별되고, 제2 의역 텍스트 ‘Athletes at London Olympic’가 출력 가능한 것으로 식별되면, 제2 의역 텍스트 ‘Athletes at London Olympic’에서 제1 의역 텍스트 ‘Athletes’를 제외한 나머지 ‘at London Olympic’를 출력하도록 스피커(110)를 제어할 수 있다.
상술한 방식에 따르면 크게 두 가지의 효과가 있을 수 있다. 프로세서(130)가 텍스트 ‘선수들이 런던올림픽에서’가 모두 입력될 때까지 대기하지 않으며, ‘선수들이’만이 수신된 경우에도 ‘Athletes’를 출력하므로 레이턴시 타임이 감소할 수 있다. 또한, ‘선수들이’에 이어서, 텍스트 ‘런던올림픽에서’가 순차적으로 수신된 경우에 프로세서(130)는 스피커(110)를 통해 ‘at London Olympic’을 출력할 수 있다. 사용자 관점에서는 ‘Athletes’ 및 ‘at London Olympic’을 순차적으로 제공받음에 따라 실시간 번역 서비스(또는, 통역 서비스)를 제공받는 것과 기분이 들 수 있다.
여기서, 제2 신경망 모델(2)은 제1 번역 텍스트 및 제2 번역 텍스트가 순차적으로 입력되면, 먼저 입력된 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 유지 또는 고정시킨 상태에서 제2 번역 텍스트와 의미적으로 유사한 제2 의역 텍스트를 출력하도록 학습된 모델이며, RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), CNN (Convolutional Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등으로 구현될 수 있으나, 이에 한정되지 않는다.
한편, 제2 신경망 모델(2)이 먼저 입력된 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 유지 또는 고정시킨 상태에서 제2 번역 텍스트를 의역하는 방법을 상세히 설명하면 다음과 같다.
도 2에 도시된 Step 1을 참조하면, 프로세서(130)는 제2 신경망 모델(2)을 통해 획득한 제1 의역 텍스트의 출력 가능 여부에 기초하여 제1 의역 텍스트를 출력할 수도 있고, 출력하지 않을 수도 있다.
일 실시 예로, 프로세서(130)는 번역 텍스트와 의역 텍스트 간의 의미 유사도(sentence similarity) 값을 출력하도록 학습된 신경망 모델에 제1 번역 텍스트와 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 입력하여 제1 번역 텍스트와 제1 의역 텍스트 간 의미 유사도 값을 획득할 수도 있다.
한편, 프로세서(130)는 의미 유사도 값이 제1 임계 값 이상이면, 제2 신경망 모델(2)을 통해 획득한 제1 의역 텍스트를 출력할 수 있다.
예를 들어, 도 2의 Step 4를 참조하면, 프로세서(130)는 제1 번역 텍스트 “If athletes take drug at London Olympic,’과 제1 의역 텍스트 ‘Athletes at London Olympic who take drug will’ 간의 의미 유사도 값을 획득하고, 의미 유사도 값이 제1 임계 값 0.5 이상이면, 제1 의역 텍스트 ‘Athletes at London Olympic who take drug will’를 출력할 수 있다.
일 실시 예에 따른 프로세서(130)는 도 2의 Step 5를 참조하면, 제1 의역 텍스트 ‘Athletes at London Olympic who take drug will’의 출력 여부(또는, 출력 가능 여부 식별 결과) 및 새롭게 수신된 텍스트 ‘적발될’을 포함하는 ‘선수들이 런던 올림픽에서 약물을 복용한다면, 적발될’에 기초한 제2 번역 텍스트 ‘If athletes take drug at London Olympic, being caught’를 제2 신경망 모델(2)에 입력할 수 있다.
이어서, 제2 신경망 모델(2)은 다음의 두 가지의 조건을 만족하는 제2 번역 텍스트 ‘If athletes take drug at London Olympic, being caught’에 대응되는 제2 의역 텍스트를 출력할 수 있다. 첫 번째로, 제2 의역 텍스트는 제1 의역 텍스트 ‘Athletes at London Olympic who take drug will’를 포함할 수 있다.
두 번째로, 제1 의역 텍스트 ‘Athletes at London Olympic who take drug will’는 제2 의역 텍스트 내에서 어순 상 맨 앞에 위치할 수 있다.
따라서, 제2 신경망 모델(2)은 제2 번역 텍스트 ‘If athletes take drug at London Olympic, being caught’에 대응되는 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’를 출력할 수 있다.
이어서, 프로세서(130)는 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’의 출력 가능 여부를 식별할 수 있다.
도 2의 Step 4 및 5에서는, 의역 텍스트의 출력 가능 여부로서 번역 텍스트와 의역 텍스트 간의 의미 유사도 값이 제1 임계 값 이상인지를 고려하는 일 실시 예만을 설명하였으나, 의미 유사도 값 외에 문장 적합도 값도 고려하여 출력 가능 여부를 식별할 수 있음은 물론이다.
도 2의 Step 5 를 참조하면, 프로세서(130)는 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’의 문장 적합도 값을 획득할 수 있다. 예를 들어, 프로세서(130)는 문장 적합도 값을 출력하도록 학습된 신경망 모델에 의역 텍스트를 입력하여 문장 적합도 값을 획득할 수도 있다.
일 실시 예에 따라, 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’의 문장 적합도 값이 제2 임계 값 미만이면, 제2 번역 텍스트 ‘If athletes take drug at London Olympic, being caught’와 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’ 간의 의미 유사도 값이 제1 임계 값 이상임에도 프로세서(130)는 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’를 출력 가능하지 않은 것으로 식별할 수 있다.
이어서, 도 2의 Step 6을 참조하면, 프로세서(130)는 새롭게 수신된 텍스트 ‘것입니다.’를 포함하는 ‘선수들이 런던 올림픽에서 약물을 복용한다면, 적발될 것입니다.’에 기초한 제3 번역 텍스트 ‘If athletes take drug at London Olympic, they are likely to be caught’를 제2 신경망 모델(2)에 입력할 수 있다.
이어서, 제2 신경망 모델(2)은 제3 번역 텍스트 ‘If athletes take drug at London Olympic, they are likely to be caught’에 대응되는 제3 의역 텍스트 ‘Athletes at London Olympic who take drug will be caught’를 출력할 수 있다.
여기서, 제2 신경망 모델(2)이 출력한 제3 의역 텍스트 ‘Athletes at London Olympic who take drug will be caught’는 다음의 두가지 조건을 만족한다.
첫 번째로, Step 5에서 프로세서(130)는 제2 신경망 모델(2)이 출력한 제2 의역 텍스트 ‘Athletes at London Olympic who take drug being caught’가 출력 가능하지 않은 것으로 식별하였으므로, Step 6에서 제2 신경망 모델(2)이 출력하는 제3 의역 텍스트는 Step 5의 이전 Step 즉, Step 1 내지 Step 4까지 스피커(110)를 통해 출력된 ‘Athletes at London Olympic who take drug will’를 포함한다.
두 번째로, Step 6에서 제2 신경망 모델(2)은 Step 1 내지 Step 4까지 스피커(110)를 통해 출력된 ‘Athletes at London Olympic who take drug will’가 어순 상 맨 앞에 위치하는 제3 의역 텍스트를 출력할 수 있다.
즉, 현 Step(예를 들어 Step N)의 이전 Step(예를 들어 Step N-1)에서 제2 신경망 모델(2)을 통해 획득한 의역 텍스트가 출력 가능하지 않은 것으로 식별되었다면, 제2 신경망 모델(2)은 이전 Step(예를 들어 Step N-1)에서 획득된 의역 텍스트가 아닌, 그 이전 Step(예를 들어 Step N-2)에서 출력 가능한 것으로 식별된 바 있는 의역 텍스트가 어순 상 맨 앞에 위치하며 현 Step(예를 들어 Step N-1)의 번역 텍스트에 대응되는 의역 텍스트를 출력할 수 있다.
한편, 프로세서(130)는 제3 의역 텍스트 ‘Athletes at London Olympic who take drug will be caught’에서, Step 1 내지 Step 4에서 스피커(110)를 통해 출력된 바 있는 ‘Athletes at London Olympic who take drug will’를 제외한 나머지 텍스트 ‘be caught’ 만을 순차적으로 출력할 수 있다.
도 2를 참조하면, 프로세서(130)는 ‘선수들이 런던 올림픽에서 약물을 복용한다면, 적발될 것입니다.’가 모두 수신되기 전에, Step 1에서 ‘Athletes’, Step 2에서 ‘at London Olympic’, Step 4에서 ‘who take drug will’, Step 6에서 ‘be caught’를 순차적으로 출력할 수 있고, 사용자 관점에서 실시간으로 번역된 텍스트를 제공받는 효과를 가질 수 있다(또는, 실질적으로 실시간).
도 3 내지 도 7은 본 개시의 일 실시 예에 따른 텍스트, 번역 텍스트 및 의역 텍스트를 설명하기 위한 흐름도이다.
도 3 내지 도 7을 참조하여, 다른 예시를 통해 텍스트, 번역 텍스트 및 의역 텍스트를 설명하도록 한다.
우선, 도 2의 Step 1에 대응되는 도 3으로서, 문장을 구성하는 복수의 단어 중 첫 단어가 수신된 경우를 상정하여 도시한 흐름도이다.
사용자가 제1 언어의 ‘우리’를 발화한 경우를 상정할 수 있다. 이 경우, 프로세서(130)는 마이크를 통해 사용자 음성 즉, ‘우리’가 수신되면(S11), 음성 인식을 수행하여 제1 텍스트 ‘우리’를 획득할 수 있다(S12). 예를 들어, 프로세서(130)는 자동 음성 인식(Automatic Speech Recognition) 모델, STT(Speech-to-Text) 모델 등으로 이용하여 사용자 음성에 대응되는 텍스트를 획득할 수 있다.
이어서, 프로세서(130)는 제1 신경망 모델(1)을 통해 제1 텍스트 ‘우리’에 대응되는 제1 번역 텍스트 ‘We’를 식별할 수 있다(S13).
이어서, 프로세서(130)는 제1 번역 텍스트 ‘We’를 제2 신경망 모델(2)에 입력하여 제1 의역 텍스트 ‘Our’를 획득할 수 있다(S14).
본 개시의 일 실시 예에 따른 프로세서(130)는 제1 의역 텍스트 ‘Our’의 출력 가능 여부를 식별할 수 있고, 구체적으로, 제1 의역 텍스트 ‘Our’에 대응되는 의미 유사도 값 및 문장 적합도 값을 획득할 수 있다.
우선, 도 3을 참조하면, 프로세서(130)는 제1 번역 텍스트 ‘We’와 제1 의역 텍스트 ‘Our’ 간의 의미 유사도 값을 식별하고, 의미 유사도 값이 제1 임계 값(예를 들어, 0.5) 이상이면(S15: Y), 제1 의역 텍스트 ‘Our’의 문장 적합도 값을 식별할 수 있다(S16).
S16 단계에서, 프로세서(130)는 제1 의역 텍스트 ‘Our’의 문장 적합도 값이 제2 임계 값(예를 들어, 0.5) 이상이면(S16: Y), 제1 의역 텍스트 ‘Our’가 출력 가능한 것으로 판단하여 TTS 모델을 통해 제1 의역 텍스트 ‘Our’를 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다.
다른 예로, S15 단계에서 의미 유사도 값이 제1 임계 값 미만이거나(S15: N), S16 단계에서 문장 적합도 값이 제2 임계 값 미만이면(S16: N), 프로세서(130)는 제1 의역 텍스트 ‘Our’가 출력 가능하지 않은 것으로 판단하여 해당 단계 즉, Step 1을 종료시킬 수 있다.
이하에서는 설명의 편의를 위해, 제1 의역 텍스트에 대응되는 의미 유사도 값 또는 문장 적합도 값 중 적어도 하나가 임계 값 미만으로 식별되어 제1 의역 텍스트가 출력 가능하지 않은 것으로 판단된 경우를 상정하여 설명하도록 한다.
이어서, 도 2의 Step 2에 대응되는 도 4로서, 문장을 구성하는 복수의 단어 중 두 번째 단어가 수신된 경우를 상정하여 도시한 흐름도이다.
사용자가 제1 언어의 ‘모두’를 발화한 경우를 상정할 수 있다. 이 경우, 프로세서(130)는 마이크를 통해 사용자 음성 즉, ‘모두’가 수신되면(S21), 음성 인식을 수행하여 제2 텍스트 ‘모두’를 획득할 수 있다(S22).
이어서, 프로세서(130)는 제1 텍스트 ‘우리’ 및 제2 텍스트 ‘모두’를 제1 신경망 모델(1)에 입력하여 제2 번역 텍스트 ‘All of us’를 획득할 수 있다(S23).
이어서, 프로세서(130)는 제2 번역 텍스트 ‘All of us’를 제2 신경망 모델(2)에 입력하여 제2 의역 텍스트 ‘All of us’를 획득할 수 있다(S24). 한편, 번역 텍스트와 번역 텍스트에 대응되는 의역 텍스트가 동일할 수도 있음은 상술한 바 있다.
S24 단계에서 제2 신경망 모델(2)은 제2 번역 텍스트 ‘All of us’ 외에도, 제1 의역 텍스트의 출력 여부(또는, 출력 가능 여부)를 고려하여 제2 번역 텍스트 ‘All of us’에 대응되는 제2 의역 텍스트를 출력할 수 있다.
예를 들어, 도 3에 도시된 Step 1에서 제1 의역 텍스트 ‘Our’가 출력 가능한 것으로 판단되어 스피커(110)를 통해 출력되었다면, S24 단계에서 제2 신경망 모델(2)은 제1 의역 텍스트 ‘Our’가 어순 상 맨 앞에 위치하며 제2 번역 텍스트 ‘All of us’ 와 의미적으로 유사한 제2 의역 텍스트를 출력할 수 있다. 다만, 상술한 바와 같이, 도 3에 도시된 Step 1에서 제1 의역 텍스트 ‘Our’가 출력 가능하지 않은 것으로 판단 경우를 상정하여 S24 단계에서 제2 신경망 모델(2)은 제2 의역 텍스트 ‘All of us’를 출력할 수 있다.
이어서, 프로세서(130)는 제2 번역 텍스트 ‘All of us’와 제2 의역 텍스트 ‘All of us’ 간의 의미 유사도 값을 식별하고, 의미 유사도 값이 제1 임계 값(예를 들어, 0.5) 이상이면(S25: Y), 제2 의역 텍스트 ‘All of us’의 문장 적합도 값을 식별할 수 있다(S26).
S26 단계에서, 프로세서(130)는 제2 의역 텍스트 ‘All of us’의 문장 적합도 값이 제2 임계 값(예를 들어, 0.5) 이상이면(S26: Y), 제2 의역 텍스트 ‘All of us’가 출력 가능한 것으로 판단하여 TTS 모델을 통해 제2 의역 텍스트 ‘All of us’를 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다(S27).
이하에서는 설명의 편의를 위해, 제2 의역 텍스트에 대응되는 의미 유사도 값 및 문장 적합도 값 각각이 임계 값 이상으로 식별되어 제2 의역 텍스트가 출력 가능한 것으로 판단된 경우를 상정하여 설명하도록 한다.
이어서, 도 2의 Step 3에 대응되는 도 5로서, 문장을 구성하는 복수의 단어 중 세 번째 단어가 수신된 경우를 상정하여 도시한 흐름도이다.
사용자가 제1 언어의 ‘어려운 시기이지만’을 발화한 경우를 상정할 수 있다. 이 경우, 프로세서(130)는 마이크를 통해 사용자 음성 즉, ‘어려운 시기이지만’이 수신되면(S31), 음성 인식을 수행하여 제3 텍스트 ‘어려운 시기이지만’을 획득할 수 있다(S32).
이어서, 프로세서(130)는 제1 텍스트 ‘우리’, 제2 텍스트 ‘모두’ 및 제3 텍스트 ‘어려운 시기이지만’을 제1 신경망 모델(1)에 입력하여 제3 번역 텍스트 ‘It’s difficult time for everyone, but’를 획득할 수 있다(S33).
이어서, 프로세서(130)는 제3 번역 텍스트 ‘It’s difficult time for everyone, but’를 제2 신경망 모델(2)에 입력하여 제3 의역 텍스트 ‘All of us are now having hard time, but’를 획득할 수 있다(S34).
S34 단계에서 제2 신경망 모델(2)은 제3 번역 텍스트 ‘It’s difficult time for everyone, but’ 외에도, 제2 의역 텍스트의 출력 여부(또는, 출력 가능 여부)를 고려하여 제3 번역 텍스트 ‘It’s difficult time for everyone, but’에 대응되는 제3 의역 텍스트를 출력할 수 있다.
예를 들어, 도 4에 도시된 Step 2에서 제2 의역 텍스트 ‘All of us’가 출력 가능한 것으로 판단되어 스피커(110)를 통해 출력되었다면, S34 단계에서 제2 신경망 모델(2)은 제2 의역 텍스트 ‘All of us’가 어순 상 맨 앞에 위치하며 제3 번역 텍스트 ‘It’s difficult time for everyone, but’와 의미적으로 유사한 제3 의역 텍스트 ‘All of us are now having hard time, but’를 출력할 수 있다.
이어서, 프로세서(130)는 제3 번역 텍스트 ‘It’s difficult time for everyone, but’와 제3 의역 텍스트 ‘All of us are now having hard time, but’ 간의 의미 유사도 값을 식별하고, 의미 유사도 값이 제1 임계 값(예를 들어, 0.5) 이상이면(S35: Y), 제3 의역 텍스트 ‘All of us are now having hard time, but’의 문장 적합도 값을 식별할 수 있다(S36).
S36 단계에서, 프로세서(130)는 제3 의역 텍스트 ‘All of us are now having hard time, but’의 문장 적합도 값이 제2 임계 값(예를 들어, 0.5) 이상이면(S36: Y), 제3 의역 텍스트 ‘All of us are now having hard time, but’가 출력 가능한 것으로 판단하여 TTS 모델을 통해 제3 의역 텍스트 ‘All of us are now having hard time, but’를 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다(S37).
한편, S37 단계에서는, S27 단계에서 스피커(110)를 통해 기 출력된 ‘All of us’를 제외한 ‘are now having hard time, but’만을 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다.
다른 예로, 도 3에 도시된 Step 1에서 제1 의역 텍스트 ‘Our’가 출력 가능하지 않은 것으로 판단되고, 도 4에 도시된 Step 2에서 제2 의역 텍스트 ‘All of us’가 출력 가능하지 않은 것으로 판단되었다면, S34단계에서 제2 신경망 모델(2)은 제3 번역 텍스트에 대응되는 제3 의역 텍스트로 ‘It’s difficult time for everyone, but’를 출력할 수도 있다.
이어서, 도 2의 Step 4에 대응되는 도 6으로서, 문장을 구성하는 복수의 단어 중 네 번째 단어가 수신된 경우를 상정하여 도시한 흐름도이다.
사용자가 제1 언어의 ‘서로를 돕고’를 발화한 경우를 상정할 수 있다. 이 경우, 프로세서(130)는 마이크를 통해 사용자 음성 즉, ‘서로를 돕고’가 수신되면(S41), 음성 인식을 수행하여 제4 텍스트 ‘서로를 돕고’을 획득할 수 있다(S42).
이어서, 프로세서(130)는 제1 텍스트 ‘우리’, 제2 텍스트 ‘모두’, 제3 텍스트 ‘어려운 시기이지만’ 및 제4 텍스트 ‘서로를 돕고’를 제1 신경망 모델(1)에 입력하여 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’를 획득할 수 있다(S43).
이어서, 프로세서(130)는 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’를 제2 신경망 모델(2)에 입력하여 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’를 획득할 수 있다(S44).
S44 단계에서 제2 신경망 모델(2)은 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’ 외에도, 제3 의역 텍스트의 출력 여부(또는, 출력 가능 여부)를 고려하여 제4 번역 텍스트 ‘All of us are now having hard time, but mutually help each other’에 대응되는 제4 의역 텍스트를 출력할 수 있다.
예를 들어, 도 5에 도시된 Step 3에서 제3 의역 텍스트 ‘All of us are now having hard time, but’가 출력 가능한 것으로 판단되어 스피커(110)를 통해 출력되었다면, S44 단계에서 제2 신경망 모델(2)은 제3 의역 텍스트 ‘All of us are now having hard time, but’가 어순 상 맨 앞에 위치하며 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’와 의미적으로 유사한 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’를 출력할 수 있다.
이어서, 프로세서(130)는 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’와 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’ 간의 의미 유사도 값을 식별하고, 의미 유사도 값이 제1 임계 값(예를 들어, 0.5) 이상이면(S45: Y), 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’의 문장 적합도 값을 식별할 수 있다(S46).
S46 단계에서, 프로세서(130)는 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’의 문장 적합도 값이 제2 임계 값(예를 들어, 0.5) 이상이면(S46: Y), 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’가 출력 가능한 것으로 판단하여 TTS 모델을 통해 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’를 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다(S47).
한편, S47 단계에서는, S27 및 S37 단계에서 스피커(110)를 통해 기 출력된 ‘All of us’, ‘are now having hard time, but’을 제외한 ‘mutually help each other’만을 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다.
다른 예로, S45 단계에서 의미 유사도 값이 제1 임계 값 미만이거나(S45: N), S46 단계에서 문장 적합도 값이 제2 임계 값 미만이면(S46: N), 프로세서(130)는 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’가 출력 가능하지 않은 것으로 판단하여 해당 단계 즉, Step 4를 종료시킬 수 있다.
이어서, 도 7은 Step 5로서, 문장을 구성하는 복수의 단어 중 마지막 단어가 수신된 경우를 상정하여 도시한 흐름도이다.
사용자가 제1 언어의 ‘격려합시다’를 발화한 경우를 상정할 수 있다. 이 경우, 프로세서(130)는 마이크를 통해 사용자 음성 즉, ‘격려합시다’가 수신되면(S51), 음성 인식을 수행하여 제5 텍스트 ‘격려합시다’를 획득할 수 있다(S52).
이어서, 프로세서(130)는 제1 텍스트 ‘우리’, 제2 텍스트 ‘모두’, 제3 텍스트 ‘어려운 시기이지만’, 제4 텍스트 ‘서로를 돕고’ 및 제5 텍스트 ‘격려합시다’를 제1 신경망 모델(1)에 입력하여 제5 번역 텍스트 ‘It’s difficult time for everyone, but let’s help and encourage each other’를 획득할 수 있다(S53).
이어서, 프로세서(130)는 제5 번역 텍스트 ‘It’s difficult time for everyone, but let’s help and encourage each other’를 제2 신경망 모델(2)에 입력하여 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’를 획득할 수 있다(S54).
S54 단계에서 제2 신경망 모델(2)은 제5 번역 텍스트 ‘It’s difficult time for everyone, but let’s help and encourage each other’ 외에도, 제4 의역 텍스트의 출력 여부(또는, 출력 가능 여부)를 고려하여 제5 번역 텍스트 ‘It’s difficult time for everyone, but let’s help and encourage each other’에 대응되는 제5 의역 텍스트를 출력할 수 있다.
예를 들어, 도 6에 도시된 Step 4에서 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’가 출력 가능한 것으로 판단되어 스피커(110)를 통해 출력되었다면, S54 단계에서 제2 신경망 모델(2)은 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’가 어순 상 맨 앞에 위치하며 제5 번역 텍스트 ‘It’s difficult time for everyone, but let’s help and encourage each other’와 의미적으로 유사한 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’를 출력할 수 있다.
이어서, 프로세서(130)는 제5 번역 텍스트 ‘It’s difficult time for everyone, but let’s help and encourage each other’와 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’ 간의 의미 유사도 값을 식별하고, 의미 유사도 값이 제1 임계 값(예를 들어, 0.5) 이상이면(S55: Y), 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’의 문장 적합도 값을 식별할 수 있다(S56).
S56 단계에서, 프로세서(130)는 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’의 문장 적합도 값이 제2 임계 값(예를 들어, 0.5) 이상이면(S56: Y), 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’가 출력 가능한 것으로 판단하여 TTS 모델을 통해 제5 의역 텍스트 ‘All of us are now having hard time, but mutually help each other and support’를 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다(S57).
한편, S57 단계에서는, S27, S37 및 S47 단계에서 스피커(110)를 통해 기 출력된 ‘All of us’, ‘are now having hard time, but’ 및 ‘mutually help each other’를 제외한 ‘and support’만을 사운드 신호로 변환한 뒤, 스피커(110)를 통해 출력할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 EOP(End of phrase)를 설명하기 위한 도면이다.
도 8은 도 3 내지 도 7의 흐름도를 참조하여 설명한 Step 1 내지 Step 5 각각에 대응되는 텍스트, 번역 텍스트, 의역 텍스트, 의미 유사도 값, 문장 적합도 값 및 출력을 표로 정리한 것이다. 한편, 도 8의 표를 참조하면, End of Phrase 항목이 추가되었으며, 이하에서는 End Of Phrase(이하, EOP)에 대해 설명하도록 한다.
Step 2를 참조하면, 본 개시의 일 실시 예에 따른 프로세서(130)는 제1 텍스트 ‘우리’ 및 제2 텍스트 ‘모두’를 제3 신경망 모델(3)에 입력하여 제1 및 제2 텍스트가 구(phrase)에 대응되는지 여부에 대한 정보를 획득할 수 있다. 이어서, 프로세서(130)는 제1 신경망 모델(1)이 출력한 제2 번역 텍스트 및 제3 신경망 모델(3)이 출력한 제1 및 제2 텍스트가 구에 대응되는지 여부에 대한 정보를 제2 신경망 모델(2)에 입력하여 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득할 수 있다. 한편, 제3 신경망 모델(3)은 입력된 텍스트들이 구에 대응되는지 여부를 판단하도록 학습된 모델일 수 있다.
일 실시 예에 따라, 제2 신경망 모델(2)은, 프로세서(130)를 통해 입력된 정보에 기초하여 제1 및 제2 텍스트가 구에 대응되는 것으로 식별되면, 제2 번역 텍스트에 대응되며 문장 형태 또는 구 형태의 제2 의역 텍스트를 출력할 수 있다. 다른 예로, 제2 신경망 모델(2)은 제1 및 제2 텍스트가 구에 대응되지 않는 것으로 식별되면, 제2 번역 텍스트에 대응되며 미완성 문장 형태의 제2 의역 텍스트를 출력할 수 있다.
도 8을 참조하면, Step 2에서, 프로세서(130)는 제1 텍스트 ‘우리’와 제2 텍스트 ‘모두’가 구에 대응되는지 여부를 식별한 뒤, 식별 결과 및 제2 번역 텍스트 ‘All of us’를 제2 신경망 모델(2)에 입력할 수 있다.
이어서, 제2 신경망 모델(2)은 제1 및 제2 텍스트가 구에 대응되지 않으면, 문장의 자유도가 높도록 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 출력할 수 있다. 예를 들어, 제2 신경망 모델(2)은 제1 및 제2 텍스트가 구에 대응되지 않으면, 제2 번역 텍스트에 대응되는 제2 의역 텍스트가 종결 어미(sentence-closing ending)를 포함하지 않도록 또는, 마침표(.) 또는 쉼표(,)로 끝나지 않도록 하여 제2 의역 텍스트의 자유도를 높일 수 있다. 즉, 제2 신경망 모델(2)은 제1 및 제2 텍스트가 구에 대응되지 않으면, 미완성 문장 형태의 제2 의역 텍스트를 출력할 수 있다.
다른 예로, 도 8의 Step 3을 참조하면, 프로세서(130)는 제1 텍스트 ‘우리’와 제2 텍스트 ‘모두’ 및 제3 텍스트 ‘어려운 시기이지만’이 구에 대응되는지 여부를 식별한 뒤, 식별 결과 및 제3 번역 텍스트 ‘It’s a difficult time for everyone, but’를 제2 신경망 모델(2)에 입력할 수 있다.
이어서, 제2 신경망 모델(2)은 제1 내지 제3 텍스트가 구에 대응되면, 문장의 자유도가 낮도록 제3 번역 텍스트에 대응되는 제3 의역 텍스트를 출력할 수 있다. 예를 들어, 제2 신경망 모델(2)은 제1 내지 제3 텍스트가 구에 대응되면, 제3 번역 텍스트에 대응되는 제3 의역 텍스트가 종결 어미 또는, 마침표 또는 쉼표로 끝나도록 하여(또는, 종결 어미, 마침표 또는 쉼표 등을 포함하도록 하여) 제3 의역 텍스트의 자유도를 낮출 수 있다. 즉, 제2 신경망 모델(2)은 제1 내지 제3 텍스트가 구에 대응되면, 문장 형태 또는 구 형태의 제3 의역 텍스트를 출력할 수 있다.
제1 신경망 모델(1), 제2 신경망 모델(2) 및 제3 신경망 모델(3) 각각의 출력을 도 9를 참조하여 흐름 순서로 설명하도록 한다.
도 9는 본 개시의 일 실시 예에 따른 제3 신경망 모델을 설명하기 위한 흐름도이다.
도 9는 도 8의 표에서 Step 4에 기초하여 제3 신경망 모델(3)을 출력을 구체적으로 설명하기 위한 흐름도이다. 도 9는 Step 4로서, 문장을 구성하는 복수의 단어 중 네 번째 단어가 수신된 경우를 상정하여 도시한 흐름도이다.
우선, 사용자가 제1 언어의 ‘서로를 돕고’를 발화한 경우를 상정할 수 있다. 이 경우, 프로세서(130)는 마이크를 통해 사용자 음성 즉, ‘서로를 돕고’가 수신되면(S41), 음성 인식을 수행하여 제4 텍스트 ‘서로를 돕고’을 획득할 수 있다(S42).
이어서, 프로세서(130)는 제1 텍스트 ‘우리’, 제2 텍스트 ‘모두’, 제3 텍스트 ‘어려운 시기이지만’ 및 제4 텍스트 ‘서로를 돕고’를 제1 신경망 모델(1)에 입력하여 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’를 획득할 수 있다(S43). S41 내지 S43 단계는 도 6에 도시된 바와 동일하다.
본 개시의 일 실시 예에 따른 프로세서(130)는 Step 1 내지 Step 4 각각에서 획득한 제1 내지 제4 텍스트 즉, ‘우리 모두 어려운 시기이지만, 서로를 돕고’를 제3 신경망 모델(3)에 입력하고, 제3 신경망 모델(3)은 제1 내지 제4 텍스트가 구에 대응되는지 여부에 대한 정보를 출력할 수 있다(S48).
이어서, 프로세서(130)는 제4 번역 텍스트 ‘It’s difficult time for everyone, but let’s help each other’ 및, 제3 신경망 모델(3)이 출력한 제1 내지 제4 텍스트가 구에 대응되는지 여부에 대한 정보를 제2 신경망 모델(2)에 입력하여 제4 의역 텍스트 ‘All of us are now having hard time, but mutually help each other’를 획득할 수 있다(S44).
특히, S44 단계에서, 제2 신경망 모델(2)은 제3 신경망 모델(3)이 출력한 정보에 기초하여 제1 내지 제4 텍스트가 구에 대응되는 것으로 식별되면, 문장의 자유도가 낮도록 제4 번역 텍스트에 대응되는 제4 의역 텍스트를 출력할 수 있다. 예를 들어, 제2 신경망 모델(2)은 제4 번역 텍스트에 대응되는 제4 의역 텍스트가 종결 어미 또는, 마침표 또는 쉼표로 끝나도록 하여(또는, 종결 어미, 마침표 또는 쉼표 등을 포함하도록 하여) 제4 의역 텍스트의 자유도를 낮출 수 있다.
다른 예로, 제2 신경망 모델(2)은 제3 신경망 모델(3)이 출력한 정보에 기초하여 제1 내지 제4 텍스트가 구에 대응되지 않는 것으로 식별되면, 문장의 자유도가 높도록 제4 번역 텍스트에 대응되는 제4 의역 텍스트를 출력할 수 있다.
한편, 도 9에 도시된 흐름도에서 S45 내지 S47 단계는 도 6에서 설명한 바 있으므로 생략하도록 한다.
<제2 신경망 모델의 학습>
도 10a 및 도 10b는 본 개시의 일 실시 예에 따른 복수의 텍스트를 설명하기 위한 도면이다.
입력 텍스트에 대응되는 의역 텍스트를 출력하는 제2 신경망 모델(2)은 복수의 텍스트에 기초하여 학습될 수 있다.
예를 들어, 프로세서(130)는 언어 모델(Language Model, LM)을 이용하여 복수의 학습 텍스트를 획득할 수 있다. 여기서, 언어 모델은 입력 문장과 임계 값 이상의 유사도를 갖는 다른 문장을 획득하도록 학습된 인공 지능 모델을 의미할 수 있다. 언어 모델은 시퀀스-투-시퀀스(sequence-to-sequence) 모델일 수 있으며, 입력 데이터의 처리를 위한 인코더(encoder) 및 출력 데이터의 처리를 위한 디코더(decoder)를 포함할 수 있다.
여기서, 시퀀스(sequence)란 서로 연관된 연속의 데이터를 의미하며, 본 개시에 있어서의 제1 문장, 제2 문장 및 제3 문장과 같은 문장(sentence)이 바로 시퀀스의 예라고 할 수 있다.
언어 모델은 입력 데이터의 처리를 위한 인코더(encoder) 및 출력 데이터의 처리를 위한 디코더(decoder)를 포함할 수 있다. 여기서, 인코더 및 디코더 각각은 복수의 순환 신경망(Recurrent Neural Network, RNN) 셀을 포함할 수 있다. 예를 들어, 복수의 RNN 셀은 LSTM(Long Short-Term Memory) 또는 GRU(Gated Recurrent Unit)로 구성될 수 있다.
일 실시 예에 따른 언어 모델은 제1 언어의 단일어 코퍼스(Mono corpus)에 기초하여 샘플링 문장, 입력 문장을 수신한다. 도 10a를 참조하면, 샘플링 문장 텍스트 또는 제1 문장 텍스트(S1)은 ‘오늘은 비가 정말 많이 오네요’일 수 있다.
제1 문장 텍스트(S1)는 토큰화(tokenization)를 통해 단어 단위로 나누어질 수 있다. 예를 들어, 제1 문장 텍스트(S1)는 ‘오늘’, ‘비가’, ‘정말’, ‘많이’, ‘오네요’로 나누어질 수 있다. 이어서, 나누어진 각각의 단어는 워드 임베딩(word embedding)을 통해 벡터로 변환될 수 있다. 그리고, 벡터로 변환된 각각의 단어는 언어 모델에 포함되는 각각의 RNN 셀에 대한 각 시점(time-step)의 입력이 된다. 그리고, 나누어진 각각의 단어는 워드 임베딩을 통해 벡터로 변환되어 각각의 RNN 셀에 입력된다.
한편, 언어 모델은 제1 문장 텍스트(S1)에 포함된 각각의 단어와 유사한 단어들을 포함하는 복수의 단어 그룹을 식별할 수 있다. 즉, 복수의 단어 그룹 각각은 의미 유사도 값이 제1 임계 값 이상인 단어들의 집합을 의미할 수 있다.
예를 들어, 언어 모델은 ‘오늘’과 유사한 단어인 ‘지금’, ‘어제’를 포함하는 제2 그룹을 식별할 수 있다. 다른 예로, 언어 모델은 ‘비’와 유사한 단어인 ‘장마’, ‘폭우’, ‘이슬비’, 눈’, ‘가랑비’ 등을 포함하는 제4 그룹을 식별할 수 있다.
이어서, 언어 모델은 복수의 단어 그룹 각각에서 선택된 단어들에 기초하여 제1 문장 텍스트(S1)에 대응되는 제1 후보 문장, 제2 후보 문장, ..., 제n 후보 문장을 획득할 수 있다. 예를 들어, 언어 모델은 제1 문장 텍스트(S1) ‘오늘은 비가 정말 많이 오네요.’에 대응되는 제1 후보 문장 ‘오늘 폭우가 온다.’, 제2 후보 문장 ‘지금 비가 엄청 내린다.’ 등을 획득할 수 있다.
구체적으로, 언어 모델은 제1 문장 텍스트(S1)에 포함된 단어들 중 어느 하나의 단어에 기초하여 후보 문장의 앞부분을 고정시키고, 나머지 단어들 각각에 대응되는 단어 그룹에서 선택된 단어를 이용하여 후보 문장을 완성시킬 수 있다.
예를 들어, 도 10b를 참조하면, 언어 모델은 제1 문장 텍스트(S1)에 포함된 단어들 중 ‘오늘’을 맨 앞에 위치시키고, ‘비가’, ‘정말’, ‘많이’, ‘오네요’ 각각의 단어 그룹에서 선택된 단어들을 이용하여 제1 후보 문장, ..., 제n 후보 문장을 획득할 수 있다. 예를 들어, 언어 모델은 제1 후보 문장 ‘비가 지금은 정말 많이 오네요.’, 제2 후보 문장 ‘오늘 폭우가 옵니다.’, 제3 후보 문장 ‘오늘 이슬비가 매우 올 것이다.’ 등을 획득할 수 있다.
이어서, 언어 모델은 제1 문장 텍스트(S1)와 복수의 후보 문장들 간 퍼블렉서티(Perplexity(PPL)) 값 및 의미 유사도 값(Sim)을 획득할 수 있다.
도 9b를 참조하면, 언어 모델은 복수의 후보 문장들 중에서 퍼블렉서티 값이 임계 값 미만이고, 의미 유사도 값이 제1 임계 값 이상인 제2 문장 텍스트를 획득할 수 있다. 한편, 퍼블렉서티 값이 낮을수록 테스트 문장에 대해 높은 확률로 예측할 수 있음을 의미하므로, 퍼블렉서티 값이 낮은 테스트 문장들로 이루어진 언어 모델일수록 좋은 언어 모델을 의미할 수 있다.
이어서, 제2 신경망 모델은 제1 문장 텍스트(S1)과 제2 문장 텍스트를 이용하여 입력 텍스트에 대응되는 의역 텍스트를 출력하도록 학습될 수 있다.
도 11a 및 도 11b는 본 개시의 다른 실시 예에 따른 복수의 텍스트를 설명하기 위한 도면이다.
본 개시의 일 실시 예에 따른 프로세서(130)는 제1 신경망 모델(1)(예를 들어, 신경망 기계 번역(NMT) 모델)을 이용하여 복수의 학습 텍스트를 획득할 수 있다.
예를 들어, 신경망 기계 번역 모델은 병렬 코퍼스(parallel corpus)에 기초하여 학습된 모델일 수 있다. 여기서, 병렬 코퍼스는 서로 다른 언어의 문장들이 서로 대응되도록 병렬적으로 구성된 코퍼스일 수 있다. 신경망 기계 번역 모델은 제1 언어를 제2 언어로 번역하기 위한 병렬 코퍼스에 포함된 복수의 문장에 기초하여 학습될 수 있다.
도 11a를 참조하면, 본 개시의 일 실시 예에 따른 프로세서(130)는 병렬 코퍼스에 기초하여 제1 언어(예를 들어, 영어)의 문장 텍스트 및 제1 언어의 문장 텍스트에 대응되는 제2 언어(예를 들어, 한국어)의 제1 번역 문장 텍스트를 획득할 수 있다. 예를 들어, 제1 언어의 문장 텍스트가 ‘그런 일은 일어나지 않을 거야.’이면, 프로세서(130)는 병렬 코퍼스에 기초하여 제2 언어의 제1 번역 문장 텍스트(P1) ‘That’s not going to happen’을 획득할 수 있다.
이어서, 프로세서(130)는 제1 번역 문장 텍스트를 제1 신경망 모델(1)(신경망 기계 번역 모델)에 입력하여, 제1 언어의 제2 문장 텍스트를 획득할 수 있다.
예를 들어, 제1 문장 텍스트가 ‘그런 일은 일어나지 않을 거야’이면, 제1 신경망 모델이 출력한 제2 문장 텍스트는 ‘그런 일은 없을 거야’일 수 있다.
한편, 본 개시의 일 실시 예에 따른 제1 신경망 모델(1)는 제1 문장 텍스트에 포함된 복수의 단어 중 첫번째에 위치한 단어와 제2 문장 텍스트에 포함된 복수의 단어 중 첫번째 단어가 상이하도록 제2 문장 텍스트를 출력할 수 있다.
예를 들어, 도 11a를 참조하면, 제1 문장 텍스트(S1)가 ‘그런 일은 일어나지 않을 거야’이면, 제1 신경망 모델은 ‘그런’이 아닌 다른 단어로 시작하며, 제1 번역 문장 텍스트(S1) ‘That’s not going to happen’에 대응되는 제2 문장 텍스트 ‘그렇게 일이 진행되지는 않을 거야’를 출력할 수 있다.
이어서, 프로세서(130)는 제1 문장 텍스트(S1)와 제2 문장 텍스트(P1)를 제2 신경망 모델(2)의 학습 텍스트로 이용할 수 있다. 여기서, 제1 문장 텍스트와 제2 문장 텍스트 각각에 포함된 복수의 단어들 중에서 첫번째 단어는 상이할 수 있다.
도 11b는 본 개시의 또 다른 실시 예에 따른 복수의 텍스트를 획득하는 방법을 설명하기 위한 도면이다.
도 11b를 참조하면, 프로세서(130)는 제1 문장 텍스트(S1)를 제4 신경망 모델(1’)에 입력하여 제1 문장 텍스트(S1)에 대응하는 제1 번역 텍스트(t1’)를 획득할 수 있다. 여기서, 제4 신경망 모델은 제1 언어의 텍스트가 입력되면, 제2 언어의 번역 텍스트를 출력하도록(예를 들어, Ko2En(Korean to English)) 학습된 신경망 기계 번역 모델일 수 있다.
이어서, 프로세서(130)는 제1 번역 텍스트(t1’)를 제1 신경망 모델(1)에 입력하여 제1 번역 텍스트(t1’)에 대응되는 제2 문장 텍스트(P1)을 획득할 수 있다. 여기서, 제1 신경망 모델(1)은 제2 언어의 텍스트가 입력되면, 제1 언어의 번역 텍스트를 출력하도록(예를 들어, En2Ko(English to Korean)) 학습된 신경망 기계 번역 모델일 수 있다.
여기서, 제1 문장 텍스트(S1)와, 제4 신경망 모델(1’) 및 제1 신경망 모델(1)을 통해 재번역된 제2 문장 텍스트(P1)(예를 들어, 제1 언어에서 제2 언어로 번역된 뒤, 제2 언어에서 제1 언어로 번역된 문장 텍스트)는 의미 유사도 값이 제1 임계 값 이상일 수 있다.
예를 들어, 프로세서(130)가 ‘한국어’의 ‘어제 아무 일도 없었어’를 제1 문장 텍스트로 획득한 경우를 상정할 수 있다. 프로세서(130)는 제1 문장 텍스트를 ‘한국어’에서 ‘영어’로 번역하도록 학습된 제4 신경망 모델(1’)에 입력할 수 있다. 이어서, 프로세서(130)는 제4 신경망 모델(1’)로부터 ‘Nothing happened yesterday.’를 번역 텍스트로 획득할 수 있다.
이어서, 프로세서(130)는 ‘영어’에서 ‘한국어’로 번역하도록 학습된 제1 신경망 모델(1)에 번역 텍스트를 입력할 수 있다.
일 실시 예에 따른 프로세서(130)는 제2 신경망 모델로부터 재번역 문장 즉, 제2 문장 텍스트를 획득할 수 있다. 한편, 일 실시 예에 따라 재번역 문장을 구성하는 복수의 단어 중 첫번째 단어가 제1 문장 텍스트에 포함된 첫번째 단어와 동일하면, 프로세서(130)는 제1 신경망 모델(1)로부터 새로운 재번역 문장을 획득할 수 있다. 예를 들어, 프로세서(130)는 제2 신경망 기계 번역 모델에 ‘Nothing happened yesterday.’을 입력하여 ‘어제 아무런 일도 일어나지 않았어’를 재번역 문장으로 획득할 수 있다. 이 경우, 재번역 문장의 첫번째 단어 ‘어제’가 제1 문장 텍스트의 첫번째 단어 ‘어제’와 동일하므로 프로세서(130)는 제1 신경망 모델(1)을 통해 새로운 재번역 문장을 획득할 수 있다. 예를 들어, 제1 신경망 모델(1)은 제1 문장 텍스트와 의미적으로 유사하나 첫번째 단어는 상이한 재번역 문장을 출력할 수 있다. 예를 들어, 제1 신경망 모델(1)은 ‘아무런 일도 어제 일어나지 않았어’를 출력할 수 있다.
이어서, 프로세서(130)는 제1 문장 텍스트와 재번역 문장 즉, 제2 문장 텍스트를 학습 텍스트로 하여 제2 신경망 모델을 학습시킬 수 있다.
한편, 제2 신경망 모델이 첫번째 단어(어순 상 맨앞에 위치하는 단어)는 상이하나 의미적으로는 유사한 두 문장을 쌍으로 하여 학습되므로, 번역 텍스트와 의미적으로 유사하며 특정 텍스트(예를 들어, 이전에 스피커(110)를 통해 기 출력된 의역 텍스트)가 어순 상 맨 앞에 위치하는 의역 텍스트를 출력하도록 학습될 수 있다. 한편, 인공 지능 모델이 학습된다는 것은, 기본 인공 지능 모델(예를 들어 임의의 랜덤한 파라미터를 포함하는 인공 지능 모델)이 학습 알고리즘에 의하여 다수의 훈련 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공 지능 모델이 만들어짐을 의미한다. 이러한 학습은 별도의 서버 및/또는 시스템을 통해 이루어질 수 있으나, 이에 한정되는 것은 아니며 전자 장치(100)에서 이루어질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning), 전이 학습(transfer learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
여기서, 인공 지능 모델 각각은, 예를 들어, CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등으로 구현될 수 있으나, 이에 한정되지 않는다.
도 1로 돌아와서, 본 개시의 일 실시 예에 따른 인공 지능 모델을 실행하기 위한 프로세서(130)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서와 소프트웨어의 조합을 통해 구현될 수 있다. 프로세서(130)는, 메모리(120)에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(130)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(130)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.
다른 예에 따라, 메모리(120)는 복수의 레이어를 포함하는 인공 지능 모델에 관한 정보를 저장할 수 있다. 여기서, 인공 지능 모델에 관한 정보를 저장한다는 것은 인공 지능 모델의 동작과 관련된 다양한 정보, 예를 들어 인공 지능 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터(예를 들어, 필터 계수, 바이어스 등)에 대한 정보 등을 저장한다는 것을 의미할 수 있다.
본 개시의 일 실시 예에 따른 통신 인터페이스는 다양한 데이터를 입력받는다. 예를 들어, 통신 인터페이스(110)는 AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial) 등과 같은 통신 방식을 통해 외부 장치(예를 들어, 디스플레이 장치(200), 복수의 사용자 단말(10, 20, 30)), 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 웹 하드) 등으로부터 다양한 데이터를 입력받을 수 있다.
입력부는 사용자 입력을 수신할 수 있다. 예를 들어, 입력부는 마이크를 포함하여 사용자의 음성을 수신할 수도 있고, 다른 예로, 키보드(key board), 마우스(mouse), 키 패드(key pad), 터치 패드 등을 포함할 수도 있으나 이에 한정되는 것은 아니다.
디스플레이는 다양한 화면을 표시할 수 있다. 디스플레이는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다. 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(150) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(150)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 롤러블 디스플레이(rollable display), 3차원 디스플레이(3D display), 복수의 디스플레이 모듈이 물리적으로 연결된 디스플레이 등으로 구현될 수 있다.
도 12는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 우선, 제1 텍스트를 제1 신경망 모델에 입력하여 제1 텍스트에 대응되는 제1 번역 텍스트를 획득한다(S1210).
이어서, 제1 번역 텍스트를 제2 신경망 모델에 입력하여 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득한다(S1220).
이어서, 제1 텍스트 및 제1 의역 텍스트에 기초하여 제1 의역 텍스트의 출력 가능 여부를 식별한다(S1230, S1240).
이어서, 식별 결과에 따라 제1 의역 텍스트를 출력한다(S1250).
이어서, 제1 텍스트에 이어서 제2 텍스트가 수신되면, 제1 및 제2 텍스트를 제1 신경망 모델에 입력하여 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득한다(S1260). 이어서, 식별 결과 및 제2 번역 텍스트를 제2 신경망 모델에 입력하여 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득한다(S1270). 여기서, 제2 신경망 모델은, 식별 결과에 따라 제1 의역 텍스트가 출력된 것으로 식별되면, 제1 의역 텍스트를 포함하며 제1 의역 텍스트가 어순 상 앞에 위치하도록 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 출력하고, 제1 의역 텍스트가 기 출력되지 않은 것으로 식별되면, 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 출력한다.
여기서, 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계에 있어서 S1230 단계는, 제1 번역 텍스트 및 제1 의역 텍스트 간 의미 유사도 값을 획득하는 단계 및 획득된 의미 유사도 값에 기초하여 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계를 포함하고, 제1 의역 텍스트를 출력하는 단계는, 의미 유사도 값이 제1 임계 값 이상이면(S1230: Y), 제1 의역 텍스트를 출력하는 단계를 포함할 수 있다.
또한, 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계에 있어서 S1240 단계는, 제1 의역 텍스트의 문장 적합도 값을 획득하는 단계 및 획득된 문장 적합도 값에 기초하여 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계를 포함하고, 제1 의역 텍스트를 출력하는 단계는, 문장 적합도 값이 제2 임계 값 이상이면(S1240: Y), 제1 의역 텍스트를 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 제어 방법은 제2 텍스트 및 제2 의역 텍스트에 기초하여 제2 번역 텍스트의 출력 가능 여부를 식별하는 단계, 식별 결과에 따라 제1 의역 텍스트가 출력된 것으로 식별되고, 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 제2 의역 텍스트에서 제1 의역 텍스트를 제외한 나머지를 출력하는 단계 및 제1 의역 텍스트가 출력되지 않은 것으로 식별되고, 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 제2 의역 텍스트를 출력하는 단계를 더 포함할 수 있다.
여기서, 제2 의역 텍스트의 출력 가능 여부를 식별하는 단계는, 제2 번역 텍스트 및 제2 의역 텍스트 간 의미 유사도 값을 획득하는 단계, 제2 의역 텍스트의 문장 적합도 값을 획득하는 단계 및 의미 유사도 값 및 문장 적합도 값에 기초하여 제2 의역 텍스트의 출력 가능 여부를 식별하는 단계를 포함하며, 제2 의역 텍스트를 출력하는 단계는, 의미 유사도 값이 제1 임계 값 이상이고 문장 적합도 값이 제2 임계 값 이상이면, 제2 의역 텍스트를 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 제어 방법은, 제1 및 제2 텍스트를 제3 신경망 모델에 입력하여 제1 및 제2 텍스트가 구(phrase)에 대응되는지 여부에 대한 정보를 획득하는 단계를 더 포함하고, 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하는 S1270 단계는, 제2 번역 텍스트, 제1 및 제2 텍스트가 구에 대응되는지 여부에 대한 정보를 제2 신경망 모델에 입력하여 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하는 단계를 포함할 수 있다.
여기서, 제2 신경망 모델은, 입력된 정보에 기초하여 제1 및 제2 텍스트가 구에 대응되는 것으로 식별되면, 제2 번역 텍스트에 대응되며 문장 형태 또는 구 형태의 제2 의역 텍스트를 출력하며, 제1 및 제2 텍스트가 구에 대응되지 않는 것으로 식별되면, 제2 번역 텍스트에 대응되며 미완성 문장 형태의 제2 의역 텍스트를 출력할 수 있다.
또한, 제2 신경망 모델은, 복수의 텍스트에 기초하여 학습되며, 복수의 텍스트는, 복수의 단어 그룹 각각에서 선택된 적어도 하나의 단어에 기초하여 획득된 제1 문장 텍스트 및 제1 문장 텍스트와 의미 유사도 값이 제1 임계 값 이상인 제2 문장 텍스트를 포함하며, 복수의 단어 그룹 각각은, 의미 유사도 값이 제1 임계 값 이상인 단어들의 집합일 수 있다.
또한, 제2 신경망 모델은, 복수의 텍스트에 기초하여 학습되며, 복수의 텍스트는, 서로 다른 두 언어 간의 병렬 코퍼스(parallel corpus)에 기초하여 획득된 제1 언어의 제1 문장 텍스트에 대응되는 제2 언어의 제1 번역 문장 텍스트 및 제1 문장 텍스트를 제1 신경망 모델에 입력하여 획득된 제2 언어의 제2 번역 문장 텍스트를 포함하며, 제1 번역 문장 텍스트와 제2 번역 문장 텍스트 간 의미 유사도 값이 제1 임계 값 이상일 수 있다.
여기서, 제1 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어와 제1 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어는 서로 다른 단어일 수 있다.
다만, 본 개시의 다양한 실시 예들은 전자 장치 뿐 아니라, 디스플레이 장치 등 영상 처리가 가능한 모든 전자 장치에 적용될 수 있음은 물론이다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 음향 출력 장치(100)의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 음향 출력 장치(100)에서의 처리 동작을 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
구성 요소(components, elements), 모듈 또는 유닛들 중 적어도 하나는 본 개시에 따른 다양한 하드웨어, 소프트웨어 및/또는 각각의 기능을 수행하는 펌웨어 구조로 구현될 수 있다.
예를 들어, 구성 요소, 또는 유닛 중 적어도 하나는 직접 회로 구조를 이용할 수 있고, 직접 회로 구조는 예를 들어, 메모리, 프로세서, 논리 회로 룩업 테이블 등을 포함하며, 마이크로프로세서 또는 다른 제어 장치의 제어에 의해 각 기능을 수행할 수 있다.
또한, 이러한 구성 요소, 또는 유닛 중 적어도 하나는 모듈, 프로그램 또는 코드의 일부로 구현될 수 있으며, 코드는, 특정 논리 기능을 수행하기 위한 실행 가능한 하나 이상의 명령을 포함하며, 마이크로프로세서 또는 다른 제어 장치에 의해 실행 가능할 수 있다.
또한, 이러한 구성 요소, 또는 유닛 중 적어도 하나는 CPU와 같은 프로세서를 포함하거나, 프로세서로 구현될 수 있고, 여기서, CPU는 각 기능을 수행하는 마이크로프로세서 등을 의미할 수 있다.
또한, 이러한 구성 요소 또는 유닛은 둘 이상이 결합되어 하나의 구성 요소 또는 유닛으로 구현될 수도 있으며, 둘 이상의 구성 요소 또는 유닛의 모든 기능을 동작할 수 있다.또한, 이러한 구성 요소 또는 유닛 중 적어도 하나의 기능의 일부는 다른 구성 요소 또는 유닛에서 수행될 수도 있고, 블록도에 버스(bus)가 도시되어 있지 않으나, 버스를 통해 구성 요소, 유닛 간 통신을 수행할 수 있다.
상술한 실시 예에 따른 기능들은 하나 이상의 프로세서에 의해 실행 가능한 알고리즘으로 구현될 수 있다. 또한, 블록으로 표현된 구성 요소 또는 유닛 블록, 또는 동작 처리 단계는 전자 구성, 신호 처리 및/또는 제어, 데이터 처리 등을 위한 임의의 수의 관련 기술 등을 통해 구현될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    스피커;
    적어도 하나의 명령어를 저장하는 메모리; 및
    상기 메모리와 전기적으로 연결된 프로세서;를 포함하고,
    상기 프로세서는,
    상기 명령어를 실행함으로써,
    제1 텍스트를 제1 신경망 모델에 입력하여 상기 제1 텍스트에 대응되는 제1 번역 텍스트를 획득하고,
    상기 제1 번역 텍스트를 제2 신경망 모델에 입력하여 상기 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득하고,
    상기 제1 텍스트 및 상기 제1 의역 텍스트에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하고,
    상기 식별 결과에 따라 상기 제1 의역 텍스트를 출력하도록 상기 스피커를 제어하고,
    상기 제1 텍스트에 이어서 제2 텍스트가 수신되면, 상기 제1 및 제2 텍스트를 상기 제1 신경망 모델에 입력하여 상기 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득하고,
    상기 식별 결과 및 상기 제2 번역 텍스트를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하고,
    상기 제2 신경망 모델은,
    상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되면, 상기 제1 의역 텍스트를 포함하며 상기 제1 의역 텍스트가 어순 상 앞에 위치하도록 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력하고,
    상기 제1 의역 텍스트가 기 출력되지 않은 것으로 식별되면, 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 번역 텍스트 및 상기 제1 의역 텍스트 간 의미 유사도 값을 획득하고,
    상기 획득된 의미 유사도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하며,
    상기 의미 유사도 값이 제1 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하도록 상기 스피커를 제어하는, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 의역 텍스트의 문장 적합도 값을 획득하고,
    상기 획득된 문장 적합도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하며,
    상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하도록 상기 스피커를 제어하는, 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 텍스트 및 상기 제2 의역 텍스트에 기초하여 상기 제2 의역 텍스트의 출력 가능 여부를 식별하며,
    상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트에서 제1 의역 텍스트를 제외한 나머지를 출력하도록 상기 스피커를 제어하고,
    상기 제1 의역 텍스트가 출력되지 않은 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트를 출력하도록 상기 스피커를 제어하는, 전자 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 제2 번역 텍스트 및 상기 제2 의역 텍스트 간 의미 유사도 값을 획득하고,
    상기 제2 의역 텍스트의 문장 적합도 값을 획득하고,
    상기 의미 유사도 값 및 상기 문장 적합도 값에 기초하여 상기 제2 의역 텍스트의 출력 가능 여부를 식별하며,
    상기 의미 유사도 값이 제1 임계 값 이상이고 상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제2 의역 텍스트를 출력하도록 상기 스피커를 제어하는, 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 및 제2 텍스트를 제3 신경망 모델에 입력하여 상기 제1 및 제2 텍스트가 구(phrase)에 대응되는지 여부에 대한 정보를 획득하고,
    상기 제2 번역 텍스트, 상기 제1 및 제2 텍스트가 구에 대응되는지 여부에 대한 정보를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 획득하는, 전자 장치.
  7. 제6항에 있어서,
    상기 제2 신경망 모델은,
    상기 입력된 정보에 기초하여 상기 제1 및 제2 텍스트가 구에 대응되는 것으로 식별되면, 상기 제2 번역 텍스트에 대응되며 문장 형태 또는 구 형태의 상기 제2 의역 텍스트를 출력하며,
    상기 제1 및 제2 텍스트가 구에 대응되지 않는 것으로 식별되면, 상기 제2 번역 텍스트에 대응되며 미완성 문장 형태의 상기 제2 의역 텍스트를 출력하는, 전자 장치.
  8. 제1항에 있어서,
    상기 제2 신경망 모델은,
    복수의 텍스트에 기초하여 학습되며,
    상기 복수의 텍스트는,
    복수의 단어 그룹 각각에서 선택된 적어도 하나의 단어에 기초하여 획득된 제1 문장 텍스트 및 상기 제1 문장 텍스트와 의미 유사도 값이 제1 임계 값 이상인 제2 문장 텍스트를 포함하며,
    상기 복수의 단어 그룹 각각은,
    상기 의미 유사도 값이 상기 제1 임계 값 이상인 단어들의 집합인, 전자 장치.
  9. 제1항에 있어서,
    상기 제2 신경망 모델은,
    복수의 텍스트에 기초하여 학습되며,
    상기 복수의 텍스트는,
    서로 다른 두 언어 간의 병렬 코퍼스(parallel corpus)에 기초하여 획득된 제1 언어의 제1 문장 텍스트에 대응되는 제2 언어의 제1 번역 문장 텍스트 및 상기 제1 문장 텍스트를 상기 제1 신경망 모델에 입력하여 획득된 상기 제2 언어의 제2 번역 문장 텍스트를 포함하며,
    상기 제1 번역 문장 텍스트와 상기 제2 번역 문장 텍스트 간 의미 유사도 값이 제1 임계 값 이상인, 전자 장치.
  10. 제9항에 있어서,
    상기 제1 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어와 상기 제2 번역 문장 텍스트를 구성하는 복수의 단어 중 가장 선행하는 단어는 서로 다른 단어인, 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    제1 텍스트를 제1 신경망 모델에 입력하여 상기 제1 텍스트에 대응되는 제1 번역 텍스트를 획득하는 단계;
    상기 제1 번역 텍스트를 제2 신경망 모델에 입력하여 상기 제1 번역 텍스트에 대응되는 제1 의역 텍스트를 획득하는 단계;
    상기 제1 텍스트 및 상기 제1 의역 텍스트에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계;
    상기 식별 결과에 따라 상기 제1 의역 텍스트를 출력하는 단계;
    상기 제1 텍스트에 이어서 제2 텍스트가 수신되면, 상기 제1 및 제2 텍스트를 상기 제1 신경망 모델에 입력하여 상기 제1 및 제2 텍스트에 대응되는 제2 번역 텍스트를 획득하는 단계; 및
    상기 식별 결과 및 상기 제2 번역 텍스트를 상기 제2 신경망 모델에 입력하여 상기 제2 번역 텍스트에 대응되는 제2 의역 텍스트를 획득하는 단계;를 포함하고,
    상기 제2 신경망 모델은,
    상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되면, 상기 제1 의역 텍스트를 포함하며 상기 제1 의역 텍스트가 어순 상 앞에 위치하도록 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력하고,
    상기 제1 의역 텍스트가 기 출력되지 않은 것으로 식별되면, 상기 제2 번역 텍스트에 대응되는 상기 제2 의역 텍스트를 출력하는, 제어 방법.
  12. 제11항에 있어서,
    상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계는,
    상기 제1 번역 텍스트 및 상기 제1 의역 텍스트 간 의미 유사도 값을 획득하는 단계; 및
    상기 획득된 의미 유사도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계;를 포함하고,
    상기 제1 의역 텍스트를 출력하는 단계는,
    상기 의미 유사도 값이 제1 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하는 단계;를 포함하는, 제어 방법.
  13. 제11항에 있어서,
    상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계는,
    상기 제1 의역 텍스트의 문장 적합도 값을 획득하는 단계; 및
    상기 획득된 문장 적합도 값에 기초하여 상기 제1 의역 텍스트의 출력 가능 여부를 식별하는 단계;를 포함하고,
    상기 제1 의역 텍스트를 출력하는 단계는,
    상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제1 의역 텍스트를 출력하는 단계;를 포함하는, 제어 방법.
  14. 제11항에 있어서,
    상기 제2 텍스트 및 상기 제2 의역 텍스트에 기초하여 상기 제2 번역 텍스트의 출력 가능 여부를 식별하는 단계;
    상기 식별 결과에 따라 상기 제1 의역 텍스트가 출력된 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트에서 제1 의역 텍스트를 제외한 나머지를 출력하는 단계; 및
    상기 제1 의역 텍스트가 출력되지 않은 것으로 식별되고, 상기 제2 의역 텍스트가 출력 가능한 것으로 식별되면, 상기 제2 의역 텍스트를 출력하는 단계;를 더 포함하는, 제어 방법.
  15. 제14항에 있어서,
    상기 제2 의역 텍스트의 출력 가능 여부를 식별하는 단계는,
    상기 제2 번역 텍스트 및 상기 제2 의역 텍스트 간 의미 유사도 값을 획득하는 단계;
    상기 제2 의역 텍스트의 문장 적합도 값을 획득하는 단계; 및
    상기 의미 유사도 값 및 상기 문장 적합도 값에 기초하여 상기 제2 의역 텍스트의 출력 가능 여부를 식별하는 단계;를 포함하며,
    상기 제2 의역 텍스트를 출력하는 단계는,
    상기 의미 유사도 값이 제1 임계 값 이상이고 상기 문장 적합도 값이 제2 임계 값 이상이면, 상기 제2 의역 텍스트를 출력하는 단계;를 포함하는, 제어 방법.
PCT/KR2021/012265 2021-02-04 2021-09-09 전자 장치 및 그 제어 방법 WO2022169054A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21924952.1A EP4206972A4 (en) 2021-02-04 2021-09-09 ELECTRONIC DEVICE AND ITS CONTROL METHOD
CN202180069620.9A CN116368490A (zh) 2021-02-04 2021-09-09 电子装置及其控制方法
US17/666,127 US20220245364A1 (en) 2021-02-04 2022-02-07 Electronic device and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210016257A KR20220112563A (ko) 2021-02-04 2021-02-04 전자 장치 및 그 제어 방법
KR10-2021-0016257 2021-02-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/666,127 Continuation US20220245364A1 (en) 2021-02-04 2022-02-07 Electronic device and control method thereof

Publications (1)

Publication Number Publication Date
WO2022169054A1 true WO2022169054A1 (ko) 2022-08-11

Family

ID=82741214

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/012265 WO2022169054A1 (ko) 2021-02-04 2021-09-09 전자 장치 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20220112563A (ko)
WO (1) WO2022169054A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130112654A (ko) * 2012-04-04 2013-10-14 한국전자통신연구원 통역 장치 및 방법
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
KR20180060903A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
US20200233927A1 (en) * 2019-01-22 2020-07-23 Sap Se Context-based translation retrieval via multilingual space
KR20200135607A (ko) * 2019-05-22 2020-12-03 삼성전자주식회사 학습 네트워크 모델 기반의 언어 처리 방법 및 장치
KR20210016257A (ko) 2019-08-02 2021-02-15 프로로지움 테크놀로지 코., 엘티디. 접착제로서 실리콘층을 갖는 pcb 구조물

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130112654A (ko) * 2012-04-04 2013-10-14 한국전자통신연구원 통역 장치 및 방법
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
KR20180060903A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
US20200233927A1 (en) * 2019-01-22 2020-07-23 Sap Se Context-based translation retrieval via multilingual space
KR20200135607A (ko) * 2019-05-22 2020-12-03 삼성전자주식회사 학습 네트워크 모델 기반의 언어 처리 방법 및 장치
KR20210016257A (ko) 2019-08-02 2021-02-15 프로로지움 테크놀로지 코., 엘티디. 접착제로서 실리콘층을 갖는 pcb 구조물

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4206972A1

Also Published As

Publication number Publication date
KR20220112563A (ko) 2022-08-11

Similar Documents

Publication Publication Date Title
WO2020246702A1 (en) Electronic device and method for controlling the electronic device thereof
WO2021132927A1 (en) Computing device and method of classifying category of data
WO2020105856A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
EP3391367A1 (en) Electronic device and speech recognition method thereof
WO2019203488A1 (en) Electronic device and method for controlling the electronic device thereof
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
WO2023136409A1 (en) Technique for identifying dementia based on mixed tests
WO2019177344A1 (en) Electronic apparatus and controlling method thereof
WO2019004659A1 (en) DISPLAY CONTROL METHOD AND ELECTRONIC DEVICE SUPPORTING SAID METHOD
WO2019182252A1 (en) Electronic device and server for processing data received from electronic device
WO2020130447A1 (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
WO2020091519A1 (en) Electronic apparatus and controlling method thereof
WO2018084581A1 (en) Method and apparatus for filtering a plurality of messages
WO2021049877A1 (en) Electronic apparatus for selecting ai assistant and response providing method thereof
WO2021029643A1 (en) System and method for modifying speech recognition result
EP4248441A1 (en) Speech recognition method, apparatus, electronic device and computer readable storage medium
EP3698258A1 (en) Electronic apparatus and controlling method thereof
WO2020184935A1 (en) Electronic apparatus and method for controlling thereof
WO2018056779A1 (en) Method of translating speech signal and electronic device employing the same
EP3523932A1 (en) Method and apparatus for filtering a plurality of messages
WO2022035183A1 (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
WO2021029582A1 (en) Co-reference understanding electronic apparatus and controlling method thereof
WO2022169054A1 (ko) 전자 장치 및 그 제어 방법
WO2020080812A1 (en) Electronic device and controlling method of electronic device
WO2022092569A1 (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21924952

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021924952

Country of ref document: EP

Effective date: 20230328

NENP Non-entry into the national phase

Ref country code: DE