WO2021235586A1 - Electronic device for translating text sequence and operation method thereof - Google Patents

Electronic device for translating text sequence and operation method thereof Download PDF

Info

Publication number
WO2021235586A1
WO2021235586A1 PCT/KR2020/007017 KR2020007017W WO2021235586A1 WO 2021235586 A1 WO2021235586 A1 WO 2021235586A1 KR 2020007017 W KR2020007017 W KR 2020007017W WO 2021235586 A1 WO2021235586 A1 WO 2021235586A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
language
group
text sequence
token
Prior art date
Application number
PCT/KR2020/007017
Other languages
French (fr)
Korean (ko)
Inventor
수레이만 모하매드 알자파리아야
콰셈 무헤딘 제이터무헤딘
자말 아부아마르아날레
와리드 자이카트루바
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2021235586A1 publication Critical patent/WO2021235586A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present disclosure relates to an electronic device for translating a text sequence of a first language into a second language, and an operating method thereof.
  • the technical solution according to the present disclosure is to solve the above-described problem, and an electronic device for translating a text sequence of a first language into a second language and an operating method thereof are provided.
  • FIG. 1 is a block diagram illustrating an example of a method of translating a text sequence of a first language into a second language according to an embodiment.
  • FIG. 2 is a diagram illustrating an example of translating a text sequence according to an embodiment.
  • FIG. 3 is a block diagram illustrating an internal configuration of a first electronic device according to an exemplary embodiment.
  • FIG. 4 is a block diagram illustrating an internal configuration of a first electronic device according to an exemplary embodiment.
  • FIG. 5 is a flowchart illustrating a method of translating a text sequence according to an embodiment.
  • FIG. 6 is a block diagram illustrating an example of learning an artificial intelligence model for translating a text sequence according to an embodiment.
  • FIG. 7 is a block diagram illustrating an internal configuration of a second electronic device according to an exemplary embodiment.
  • FIG. 8 is a block diagram illustrating an internal configuration of a second electronic device according to an exemplary embodiment.
  • a first aspect of the present disclosure provides a method of translating a text sequence in a first electronic device, comprising: obtaining first context information corresponding to the first text group by encoding a first text group that does not include a first token indicating an end of a text sequence; obtaining a second text group of a second language corresponding to the first text group by decoding the first context information; detecting a second token in the second text group; and outputting the second text group as a translation result for the first text group as the second token is detected.
  • a text sequence of a first language and a first language corresponding to the text sequence of the first language obtaining a text sequence of two languages; segmenting the text sequence of the second language and inserting a second token at the segmented position; identifying each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided; and encoding each section in which the text sequence of the first language is divided based on the identified correspondence relationship, and decoding the encoded result, so that each section in which the text sequence of the second language is divided can be output.
  • a method including the step of learning the artificial intelligence model.
  • a third aspect of the present disclosure provides a first electronic device for translating a text sequence, comprising: a memory for storing data necessary for translating the text sequence; First context information corresponding to the first text group by encoding a first text group that does not include a first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language at least one method for obtaining a second text group of a second language corresponding to the first text group and detecting a second token in the second text group by obtaining processor; and an output unit configured to output the second text group as a translation result for the first text group when the second token is detected.
  • a text sequence of a first language and a text sequence of a second language corresponding to the text sequence of the first language are provided. obtaining a text sequence, dividing the text sequence of the second language, inserting a second token at the divided position, and corresponding to each section in which the text sequence of the second language is divided, Identifies each section into which the text sequence is divided, and encodes each section into which the text sequence of the first language is divided, based on the identified correspondence relationship, and decodes the encoded result of the text of the second language at least one processor for learning the artificial intelligence model so that each section in which the sequence is divided can be output; and a memory for storing the learned artificial intelligence model.
  • a fifth aspect of the present disclosure may provide a recording medium in which a program for performing the method of the first aspect or the second aspect is stored.
  • FIG. 1 is a block diagram illustrating an example of a method of translating a text sequence of a first language into a second language according to an embodiment.
  • the first electronic device 1000 may translate a text sequence of a first language into a second language and output it.
  • the translated text sequence of the first language may be obtained by performing voice recognition on the voice signal of the first language received by the first electronic device 1000 .
  • the first electronic device 1000 may acquire a text sequence of the first language through various methods, not limited to voice recognition.
  • the first electronic device 1000 may translate the text sequence of the first language into the second language, convert the translated text sequence of the second language into a voice signal, and output the converted text sequence. Without being limited to the above-described example, the first electronic device 1000 may convert and output the translated text sequence of the second language into various forms.
  • the first electronic device 1000 may sequentially acquire a text sequence, which is a set of speech-recognized texts, as a voice signal of the first language is sequentially received. For example, the first electronic device 1000 performs voice recognition for each segment of the divided voice signal according to the tone of the voice signal or a pose section sensed in the voice signal, so that the texts are sequentially
  • the listed text sequence can be obtained.
  • a text sequence including a first token (ex. ⁇ eos> token) indicating the end of the text sequence, for example, the end of the sentence, or the end of the sentence, may be obtained at the end of the text sequence.
  • a section of the text sequence may be divided into sentence units, and translation may be performed for each divided text sequence.
  • the text sequence may include at least one text arranged in order, and as the first token is inserted into the text sequence, the text sequence may be divided into sentence units.
  • the first token may be encoded last after words preceding the first token are sequentially first encoded when a text sequence of the first language corresponding to one sentence is encoded.
  • Encoding and decoding according to an embodiment may be performed in units of words, but is not limited thereto, and may be performed in various units (eg, phrases, morphemes, idioms).
  • context information which is a result of encoding a text sequence of the first language corresponding to one sentence, may be decoded to obtain a text sequence of the second language.
  • the text sequence of the second language may include a first token positioned at the end of the text sequence, similarly to the text sequence of the first language.
  • the context information may include information in which words included in a text sequence of the first language are sequentially encoded.
  • the context information may include values in a vector format as a result of sequentially encoding words included in a text sequence of the first language.
  • the context information may include information in which the first token is further encoded, as well as the word.
  • the encoder and the decoder which are used for encoding and decoding, sequentially process words, at least one artificial intelligence model (ex. Recurrent Neural Network (RNN), Long short-term memory (LSTM)) )
  • RNN Recurrent Neural Network
  • LSTM Long short-term memory
  • the artificial intelligence model used for encoding in the encoder may output context information by sequentially processing words included in a text sequence of a first language. For example, when a plurality of words are sequentially processed by the artificial intelligence model of the encoder, the current word is processed based on the word processed in the previous encoding step, thereby outputting context information. For example, based on the processing result of the first encoded word 1, by encoding the word 2 in the next step, context information that is a result of encoding all the words in order may be output.
  • the artificial intelligence model used for decoding in the decoder may sequentially output words of the second language based on context information output by the encoder. For example, when the words of the second language are sequentially output by the artificial intelligence model of the decoder, the current word is output based on the word output in the previous decoding step, thereby including the words output from the decoder.
  • a text sequence in the second language may be obtained as a result of the translation. For example, based on the word 1 output as a result of decoding in the previous step, decoding is performed in the current step, so that word 2 may be output. That is, word 2 may be output as a decoding result in the current step, as word 1 is output as a decoding result in the previous step.
  • the artificial intelligence model used by the encoder to perform encoding may be preliminarily configured to output appropriate context information for obtaining the text sequence of the second language based on the text sequence of the first language.
  • the artificial intelligence model used by the decoder to perform decoding is pre-learned so as to output the text sequence of the second language corresponding to the text sequence of the first language by decoding the context information.
  • encoding and decoding may be performed by one pre-trained AI model.
  • the present invention is not limited thereto, and encoding and decoding may be performed by a plurality of artificial intelligence models, respectively.
  • the text sequence according to an embodiment may be translated in units of sentences or phrases divided according to the first token. For example, with respect to a text sequence of a first language corresponding to one sentence, context information that is an encoded result may be decoded to obtain a text sequence of a second language. According to an embodiment, the context information obtained by sequentially encoding at least one word included in the text sequence of the first language may be decoded.
  • the translation of the text sequence is not limited to the above-described example in which the text sequence is translated in units of sentences, and the translation of the text sequence of the first language may be performed according to various units divided by the first token.
  • the unit of the text sequence divided by the first token is the sentence unit, but the present disclosure is not limited thereto, and may be divided into various units.
  • the encoding and decoding results may be changed according to the order of the preceding and following words, even if encoding and decoding are performed whenever a word of the first language is sequentially obtained, the output of the decoded result is a sentence It is preferable that encoded and decoded results for all words included in the text sequence of the first language of the unit are output.
  • the It may be output even though it is not the decoding result for the .
  • the token specified in advance may be a second token that can be inserted into a section of a text sequence of a second language divided according to a context or a sentence type.
  • the second token is inserted in the text sequence of the second language at a position divided according to context or sentence type, so that the text sequence of the second language including the second token is learned in advance at the decoding end, so that decoding In poetry, it is a token that can be obtained as a sequence of text in a second language.
  • a section divided according to context or sentence type after the section is decoded, considering that the decoded result is not significantly changed according to the word obtained from the text sequence of the first language, first By outputting the decoded result, user convenience to obtain a faster translation result can be promoted.
  • the second token according to an embodiment is not limited to being inserted at a position divided according to context or sentence type in the text sequence of the second language, and the user recognizes the translation result, even if it is first output as a decoding result,
  • the second token is inserted into the text sequence of the second language according to whether the decoding result output first is a section in which the possibility of being deformed is relatively low by at least one word of the first language obtained later, at the decoding end can be learned in advance.
  • the result of the translation may be quickly output in real time.
  • Decoding instead of outputting the decoded result after all the words of the text sequence of the first language are encoded, each time the words included in the sequentially input text sequence of the first language are sequentially encoded, Decoding may be performed. For example, whenever words included in the text sequence of the first language are sequentially encoded, decoding may be performed on the obtained context information.
  • decoding instead of 'after encoding up to the first token included with the words included in the text sequence of the first language and finally included, decoding is performed', before the first token is encoded, the obtained Based on the context information, decoding may be performed.
  • decoding may be performed as encoding is performed whenever words of the first language are sequentially obtained, but outputting the decoded result is detected by the second token It can be performed according to Accordingly, according to an embodiment, as the second token is detected from the result of decoding, in the text sequence of the first language, before the first token is processed, the second token is obtained until the second token is output. Words of the language may be output as a result of the translation.
  • the translation result may be output more quickly.
  • the translated result may be provided at a point in time when the voice signal of the first language is not significantly delayed from the point in time when the speech signal is spoken.
  • the convenience of the user receiving the interpretation and translation service may be increased.
  • the first electronic device 1000 may be implemented in various forms.
  • the first electronic device 1000 described herein may include a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a digital broadcasting terminal, and a personal digital (PDA). Assistants), a Portable Multimedia Player (PMP), a navigation system, an MP3 player, a vehicle, and the like, but is not limited thereto.
  • the first electronic device 1000 described herein may be a wearable device that can be worn by a user.
  • Wearable devices include accessory type devices (e.g., watches, rings, wristbands, ankle bands, necklaces, eyeglasses, contact lenses), head-mounted-devices (HMDs), textile or clothing-integrated devices (e.g., electronic clothing), a body attachable device (eg, a skin pad), or a bioimplantable device (eg, an implantable circuit).
  • accessory type devices e.g., watches, rings, wristbands, ankle bands, necklaces, eyeglasses, contact lenses
  • HMDs head-mounted-devices
  • textile or clothing-integrated devices e.g., electronic clothing
  • a body attachable device eg, a skin pad
  • a bioimplantable device eg, an implantable circuit
  • the first electronic device 1000 interprets or translates for a conversation between a first user and a second user who use different languages.
  • a voice signal of the second language may be output.
  • interpretation is converting a voice signal formed in the first language into 'speech', which is a voice signal formed in the second language
  • translation is converting a voice signal formed in the first language into 'text' formed in the second language.
  • both interpretation and translation may include an operation in which, after a voice signal in the first language is converted into text in the first language, the text in the second language is obtained as a translated result. Accordingly, the method of translating text according to an embodiment may be used in both interpretation and translation.
  • the first electronic device 1000 obtains a text sequence of a first language in the step 110 , obtains context information through encoding 120 , and obtains a text sequence in a second language through decoding 130 . ) and outputting the text sequence of the second language 140 , an operation of translating the text may be performed.
  • the first electronic device 1000 may obtain the text sequence of the first language to be translated.
  • the text sequence of the first language may include texts in which at least one text of the first language is arranged in the order in which it is obtained in the first electronic device 1000 .
  • the first electronic device 1000 for the texts included in the text sequence, for each translatable unit (eg, words, idioms) Encoding may be performed and context information may be obtained.
  • context information For example, when words of “look the weather is nice ⁇ eos>” are sequentially obtained as a text sequence of the first language, the first electronic device 1000 may display “look”, “the”, and “weather” Context information may be obtained by sequentially performing encoding on ", "is”, “nice”, and ⁇ eos>, respectively.
  • context information 1 may be obtained
  • context information 2 may be obtained.
  • context information 6 may be obtained.
  • decoding of the context information may be performed. After at least one word of the first language is excluded, encoding may be performed. For example, in the decoding result for context information 1, when the first token is detected, instead of sequentially encoding "look" and “the”, encoding may be performed on “the” excluding “look”. have. According to an embodiment, since a decoding result corresponding to “look” is output as a translation result as the first token is detected, it is preferable that “look” is not encoded thereafter.
  • step 150 when the first token is not detected, "the” is not excluded from the subsequent encoding operation, "the” and “weather” Decoding may be performed on context information encoded in the order of ".
  • the first token when the first token is detected, “the” may be excluded from the subsequent encoding operation, and decoding may be performed on context information in which "weather” is encoded.
  • step 130 of obtaining the text sequence of the second language through decoding the first electronic device 1000 decodes the context information obtained in step 120, so that the text sequence of the second language can be obtained.
  • words of the second language may be sequentially obtained.
  • the current word may be obtained based on the order of words obtained in the preceding step, so that the words of the second language may be sequentially obtained.
  • step 140 of outputting the text sequence of the second language the first electronic device 1000 receives the second token from among the output words of the second language as a result of decoding the context information According to the detection, the previously acquired words of the second language may be output as a decoding result.
  • the first electronic device 1000 may convert a text sequence of the second language output as a decoding result into a voice signal of the second language and output the converted text sequence. For example, in step 140 , whenever a text sequence of the second language is output, the first electronic device 1000 may convert the text into a voice signal and output it according to a text to speech (TTS) technique.
  • TTS text to speech
  • step 150 of determining whether the first token is detected the first electronic device 1000 determines whether the first token is detected in the text sequence of the second language output as a result of decoding in step 140 . Accordingly, the encoding of step 120 may be performed again.
  • the first electronic device 1000 when it is determined that the first token indicating the end of a sentence is detected in the text sequence of the second language in step 150 , the first electronic device 1000 does not perform encoding in step 120 , The translation operation for the text sequence of the first language including the one sentence obtained in step 110 may be terminated.
  • step 120 when it is determined that the first token is detected in the text sequence of the second language according to an embodiment, in step 120, as encoding of the text sequence of the first language including a new sentence is performed, steps 120 to A translation operation of 150 may be performed.
  • the text sequence of the second language includes the first token
  • the first electronic device 1000 may receive the text of the new first language including one independent sentence, and may repeatedly perform steps 110 to 150 .
  • step 120 when it is determined in step 150 that the first token indicating the end of a sentence is not detected in the text sequence of the second language, in step 120 , the first electronic device 1000 , Words included in a text sequence of a language can be encoded sequentially.
  • FIG. 2 is a diagram illustrating an example of translating a text sequence according to an embodiment.
  • upper blocks indicate an operation of an encoder according to an embodiment
  • lower blocks indicate an operation of a decoder according to an embodiment.
  • the encoder and the decoder may sequentially process texts by LSTM, as shown in the illustrated example. Not limited to the above example, the encoder and the decoder may use other types of recurrent neural networks (ex. RNNs).
  • RNNs recurrent neural networks
  • the encoder 210 may output first context information as a result of encoding “look”, which is a text group of the first input first language.
  • t1 to t17 indicate a time point at which an encoding or decoding operation is performed by each LSTM.
  • the decoder 220 may sequentially output "look” and ⁇ sep> tokens as a result of decoding based on the first context information.
  • “look” may be output to the first LSTM 221 based on ⁇ go> and the first context information.
  • ⁇ go> is a token indicating the start of a sentence, and may be input to the LSTM 221 as an initial value when decoding is started.
  • ⁇ sep> may be output.
  • "Look” may be output 223 as a translation result for the text group of the first language.
  • "Look” output according to the ⁇ sep> token according to an embodiment is determined to be less likely to be significantly changed to another word by "the weather” and "is nice” of the first language to be encoded. As a result, it may be output first and provided to the user.
  • a model for a translation operation may be trained so that a ⁇ sep> token is inserted at an appropriate position and a translation result is output before the ⁇ eos> token is encoded. .
  • the decoding result As the ⁇ sep> token is detected in a translation result corresponding to “look” may be output first. Accordingly, according to an embodiment, as with simultaneous interpretation, as texts of the first language are sequentially input, even if it takes a considerable amount of time until all the text sequences of the first language are acquired, a complete sentence of the first language is obtained Since the translation result can be output before being performed, user convenience can be promoted.
  • the encoder 232 may output second' context information as a result of encoding "the" input after "look".
  • the encoder 232 when a result decoded based on the first context information corresponding to “look” includes ⁇ sep> and is output as a translation result, except for “look” Thereafter, encoding may be newly performed from the received “the”.
  • the decoder 240 may sequentially output "that” and ⁇ continuous> tokens as a result of decoding based on the second' context information.
  • “that” may be obtained based on ⁇ go> and the second 'context information in the first LSTM 241 .
  • ⁇ go> may be input to the LSTM 241 as an initial value when decoding is started.
  • ⁇ continuous> may be output.
  • the ⁇ continuous> token may indicate that the ⁇ sep> token is not included in the decoding result based on the second' context information.
  • various types of information may be obtained as a result of decoding of the second LSTM 242 . Accordingly, a result decoded based on the second 'context information may not be output as a translation result as the ⁇ sep> token is not obtained as a decoding result.
  • encoding and An artificial intelligence model used for decoding may be trained in advance.
  • the artificial intelligence model used for encoding and decoding may be pre-trained so that the ⁇ sep> token does not appear "after” as a result of decoding of the second language.
  • the encoder 230 based on the result of encoding "the” at t7, as the ⁇ sep> token is not detected in the decoded result based on the second 'context information, In the second LSTM 233, it may encode “weather”. According to an embodiment, the encoded second context information may be output according to the order in which “weather” appears after “the”.
  • second context information that is information in which “the” and “weather” are sequentially encoded may be output.
  • the decoder 250 may sequentially output "he", "weather” and ⁇ sep> tokens as a result of decoding based on the second context information.
  • “that” may be output to the first LSTM 251 based on ⁇ go> and the second context information.
  • ⁇ go> may be input to the LSTM 251 as an initial value when decoding is started.
  • “that”, which is an output value of the first LSTM 251 is input to the second LSTM 252
  • “weather” may be output.
  • a ⁇ sep> token may be output.
  • “weather” may be output 254 as a translation result for the text group of the first language.
  • “he” is determined to be an unnecessary word in consideration of "look 223" that is first output in the translation sentence, and thus only “weather” may be output after it is removed. It is not limited to the above-mentioned example, and “he” may also be output as a translation result.
  • the encoder 262 may output 3' context information as a result of encoding "is” input after "weather”.
  • the encoder 262 may output "the weather” as a translation result as a result decoded based on the second context information corresponding to "the weather” includes ⁇ sep>. Except for, encoding may be newly performed from "is" received thereafter.
  • the decoder 270 may sequentially output "is” and ⁇ continuous> tokens as a result of decoding based on the 3' context information.
  • “is” may be output to the first LSTM 271 based on ⁇ go> and the third 'context information.
  • ⁇ go> may be input to the LSTM 271 as an initial value when decoding is started.
  • ⁇ continuous> may be output.
  • the ⁇ continuous> token may indicate that the ⁇ sep> token is not included in the decoding result based on the third' context information.
  • various types of information may be obtained as a result of decoding of the second LSTM 272 . Accordingly, a result decoded based on the 3' context information may not be output as a translation result as the ⁇ sep> token is not obtained as a decoding result.
  • the decoded "is” is determined to be highly likely to be changed to another word by the word of the first language (ex. weather) to be encoded, so that it is not output as a translation result first, encoding and An artificial intelligence model used for decoding may be trained in advance. For example, as a result of decoding of the second language, an artificial intelligence model used for encoding and decoding may be trained in advance so that the ⁇ sep> token does not appear after "is".
  • the encoder 260 based on the result of encoding "is” at t14, as the ⁇ sep> token is not detected in the decoded result based on the 3' context information, in the second LSTM 263, we can encode "nice".
  • third context information may be output.
  • the third context information according to an embodiment may be obtained according to the result of further encoding the ⁇ eos> token indicating the end of the sentence in the LSTM based on the result of encoding “nice”.
  • the decoding may be performed by the decoder 280 based on the third context information output without further encoding the ⁇ eos> token as shown in the illustrated example.
  • the decoder 280 may sequentially output "is”, “like”, and ⁇ eos> tokens as a result of decoding based on the third context information.
  • “is” may be output to the first LSTM 281 based on ⁇ go> and the third context information.
  • ⁇ go> may be input to the LSTM 281 as an initial value when decoding is started.
  • at t16 as “is”, which is an output value of the first LSTM 281 , is input to the second LSTM 282 , “like” may be output.
  • the ⁇ eos> token may be output.
  • “like” may be output 254 as a translation result for the text group of the first language.
  • “is” is determined to be an unnecessary word in the translation sentence in consideration of the first output "Look, the weather” (223, 254), so after it is removed, only “good” may be output. . It is not limited to the above example, and "is” may also be output as a translation result.
  • FIG. 3 is a block diagram illustrating an internal configuration of the first electronic device 1000 according to an embodiment.
  • FIG. 4 is a block diagram illustrating an internal configuration of the first electronic device 1000 according to an embodiment.
  • the first electronic device 1000 may include a processor 1300 , a memory 1700 , and an output unit 1200 . However, not all of the components illustrated in FIG. 3 are essential components of the first electronic device 1000 .
  • the first electronic device 1000 may be implemented by more components than those illustrated in FIG. 3 , or the first electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 3 . have.
  • the first electronic device 1000 includes a processor 1300 , a memory 1700 , and an output unit 1200 other than the processor 1300 , the memory 1700 , and the output unit 1200 . It may further include a user input unit 1100 , a sensing unit 1400 , a communication unit 1500 , and an A/V input unit 1600 .
  • the user input unit 1100 means a means for a user to input data for controlling the first electronic device 1000 .
  • the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type).
  • a tension measurement method a piezo effect method, etc.
  • a jog wheel a jog switch, and the like, but is not limited thereto.
  • the user input unit 1100 may receive a user input for translating a text sequence of a first language into a second language.
  • the output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210 , a sound output unit 1220 , and a vibration motor 1230 . have.
  • the display unit 1210 displays and outputs information processed by the first electronic device 1000 .
  • the display unit 1210 may output a result of a text sequence being translated.
  • the display unit 1210 may be used as an input device in addition to an output device.
  • the display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one. Also, depending on the implementation form of the first electronic device 1000 , the first electronic device 1000 may include two or more display units 1210 .
  • the sound output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700 .
  • the sound output unit 1220 may output a result of a text sequence being translated.
  • the sound output unit 1220 may output a translated result of a text sequence converted into a voice signal.
  • the vibration motor 1230 may output a vibration signal. Also, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen. According to an embodiment, the vibration motor 1230 may output information related to a result of the text sequence being translated.
  • the processor 1300 generally controls the overall operation of the first electronic device 1000 .
  • the processor 1300 executes programs stored in the memory 1700 , and thus the user input unit 1100 , the output unit 1200 , the sensing unit 1400 , the communication unit 1500 , and the A/V input unit 1600 . ) can be controlled in general.
  • the first electronic device 1000 may include at least one processor 1300 .
  • the first electronic device 1000 may include various types of processors such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
  • CPU central processing unit
  • GPU graphics processing unit
  • NPU neural processing unit
  • the processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations.
  • the command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300 .
  • the processor 1300 may be configured to execute instructions according to program codes stored in a recording device such as a memory.
  • the processor 1300 encodes a first text group that does not include a first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language, so that the first The first context information corresponding to the text group may be acquired. Also, the processor 1300 obtains a second text group of a second language corresponding to the first text group by decoding the first context information, and determines whether the second token is included in the second text group. can do.
  • the processor 1300 may output the second text group as a translation result for the first text group as the second token is detected from the second text group.
  • the second token is a text of the second language according to a possibility that the second text group is changed to another text by at least one text group of the first language encoded after the first text group. It can be learned by being inserted into a group. For example, as it is determined that the possibility that the second text group will be changed to another text by another text to appear later is relatively low, the second token may be inserted in the next order of the second text group.
  • an artificial intelligence model used for decoding may be trained so that the second token may appear as a decoding result at a position where the second token is inserted.
  • the processor 1300 is configured to perform a third text group including the first text group and at least one text in the following order in the text sequence of the first language. can be encoded. Also, the processor 1300 may obtain the third context information as a result of encoding the third text group, and may obtain the fourth text group of the second language by decoding the third context information.
  • the sensing unit 1400 may detect a state of the first electronic device 1000 or a state around the first electronic device 1000 , and transmit the sensed information to the processor 1300 .
  • the sensing unit 1400 includes a geomagnetic sensor 1410 , an acceleration sensor 1420 , a temperature/humidity sensor 1430 , an infrared sensor 1440 , a gyroscope sensor 1450 , and a position sensor. (eg, GPS) 1460 , a barometric pressure sensor 1470 , a proximity sensor 1480 , and at least one of an illuminance sensor 1490 , but is not limited thereto.
  • GPS GPS
  • the communication unit 1500 may include one or more components that allow the first electronic device 1000 to communicate with the server 2000 or an external device (not shown).
  • the communication unit 1500 may include a short-range communication unit 1510 , a mobile communication unit 1520 , and a broadcast receiving unit 1530 .
  • Short-range wireless communication unit 1510 Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
  • the mobile communication unit 1520 transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission/reception of a voice call signal, a video call signal, or a text/multimedia message.
  • the broadcast receiver 1530 receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the first electronic device 1000 may not include the broadcast receiver 1530 .
  • the communication unit 1500 may transmit/receive data required to translate a text sequence.
  • the communication unit 1500 may receive a text sequence of the first language to be translated from the outside.
  • the A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610 , a microphone 1620 , and the like.
  • the camera 1610 may obtain an image frame such as a still image or a moving image through an image sensor in a video call mode or a shooting mode.
  • the image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).
  • the microphone 1620 receives an external sound signal and processes it as electrical voice data.
  • the microphone 1620 may sequentially receive a user's voice signal corresponding to a text sequence of the first language. According to an embodiment, by performing voice recognition on the user's voice signal received by the microphone 1620, a text sequence of the first language may be obtained.
  • the memory 1700 may store a program for processing and controlling the processor 1300 , and may also store data input to or output from the first electronic device 1000 .
  • the memory 1700 may store data required to translate a text sequence.
  • the memory 1700 may store a learning model (eg, RNN, LSTM) used in an encoder and a decoder for translating a text sequence.
  • a learning model eg, RNN, LSTM
  • the memory 1700 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk
  • magnetic disk may include at least one type of storage medium among optical disks.
  • Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, may be classified into a UI module 1710 , a touch screen module 1720 , a notification module 1730 , and the like. .
  • the UI module 1710 may provide a specialized UI, GUI, or the like that interworks with the first electronic device 1000 for each application.
  • the touch screen module 1720 may detect a touch gesture on the user's touch screen and transmit information about the touch gesture to the processor 1300 .
  • the touch screen module 1720 according to some embodiments may recognize and analyze a touch code.
  • the touch screen module 1720 may be configured as separate hardware including a controller.
  • a tactile sensor is an example of a sensor for detecting a touch of a touch screen.
  • a tactile sensor refers to a sensor that senses a touch of a specific object to the extent or higher than that felt by a human.
  • the tactile sensor may sense various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
  • the user's touch gesture may include a tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
  • the notification module 1730 may generate a signal for notifying the occurrence of an event of the first electronic device 1000 .
  • FIG. 5 is a flowchart illustrating a method of translating a text sequence according to an embodiment.
  • the first electronic device 1000 performs a second message that does not include the first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language.
  • first context information corresponding to the first text group may be obtained.
  • the text sequence of the first language may be acquired by performing voice recognition on the user's voice signal acquired by the first electronic device 1000 .
  • the first text group according to an embodiment may include texts constituting a part of a sentence, not a complete sentence, as texts included in the text sequence of the first language are sequentially acquired.
  • the first context information according to an embodiment may be obtained by being encoded by an encoder that performs encoding using a pre-trained learning model.
  • the first electronic device 1000 may obtain a second text group of a second language by decoding the first context information.
  • the second text group of the second language may be obtained by decoding the first context information by a decoder that performs decoding using a pre-trained learning model.
  • the first electronic device 1000 may determine whether the second token is included in the second text group.
  • the second token is a text of the second language according to a possibility that the second text group is changed to another text by at least one text group of the first language encoded after the first text group. After being inserted into the group, learning may be performed based on the second text group into which the second token is inserted.
  • the first electronic device 1000 may output the second text group to the outside as a translation result.
  • the first electronic device 1000 may convert texts of the second text group including the second token into voice signals, output them through a speaker, or display the texts of the second text group on a display. .
  • the first electronic device 1000 in the text sequence of the first language, includes the first text group and at least one text in the following order. 3 text groups can be encoded. Also, as a result of encoding the third text group, the first electronic device 1000 may acquire the third context information and decode the third context information, thereby acquiring the fourth text group of the second language.
  • FIG. 6 is a block diagram illustrating an example of learning an artificial intelligence model for translating a text sequence according to an embodiment.
  • the second electronic device 2000 may learn an artificial intelligence model used to obtain a text sequence of a second language by translating a text sequence of a first language according to an embodiment.
  • an artificial intelligence model used to encode a text sequence of a first language and decode an encoded result may be trained.
  • the second electronic device 2000 for learning the artificial intelligence model for translating a text sequence may be the same as the first electronic device 1000 for translating the text sequence, but is not limited thereto, and other It may be a device.
  • the second electronic device 2000 may obtain a text sequence of a first language and a text sequence of a second language.
  • the artificial intelligence model may be trained so that the text sequence of the second language may be obtained.
  • the text sequences of the first language and the second language may each include one complete sentence.
  • the second electronic device 2000 may insert the second token into the text sequence of the second language.
  • the first electronic device 1000 may change the second text group, which is the currently decoded result, into another text according to the possibility that the second text group is changed to another text according to at least one text group of the first language encoded thereafter. It is possible to segment the text sequence of the language, and insert the second token at the segmented position. For example, the second token may be inserted at a location where a text sequence of the second language is divided according to a context or a sentence format.
  • Each section in which the text sequence of the second language is divided may include a second token or a first token at the end of each section. Accordingly, as a decoded result, when the first token or the second token is detected, before encoding for all sections of the text sequence of the first language is completed, a portion of the text sequence of the second language in which the second token is detected A section may be output. In addition, in the decoded result, when the first token is detected, it is determined that the sentence of the text sequence of the second language is finished, and thus a section of the text sequence of the second language in which the first token is detected may be output. .
  • the second electronic device 2000 may identify each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided.
  • the second electronic device 2000 encodes each section into which the text sequence of the first language is divided based on the identified correspondence relationship, and decodes the encoded result, so that the text of the second language
  • the artificial intelligence model can be trained so that each section in which the sequence is divided can be output.
  • the result encoded by the encoder may be context information according to an embodiment.
  • FIG. 7 is a block diagram illustrating an internal configuration of the second electronic device 2000 according to an exemplary embodiment.
  • FIG. 8 is a block diagram illustrating an internal configuration of the second electronic device 2000 according to an exemplary embodiment.
  • the second electronic device 2000 may include a processor 2300 and a memory 2700 . However, not all of the components shown in FIG. 7 are essential components of the second electronic device 2000 .
  • the second electronic device 2000 may be implemented with more components than those shown in FIG. 7 , or the second electronic device 2000 may be implemented with fewer components than those shown in FIG. 7 . have.
  • the second electronic device 2000 includes a user input unit 2100 in addition to the processor 2300 and the memory 2700, It may further include a sensing unit 2400 , an A/V input unit 2600 , a communication unit 2500 , and an output unit 1200 .
  • the user input unit 2100 means a means for a user to input data for controlling the second electronic device 2000 .
  • the user input unit 2100 includes a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type).
  • a tension measurement method a piezo effect method, etc.
  • a jog wheel a jog switch, and the like, but is not limited thereto.
  • the user input unit 2100 may receive a user input necessary for learning an artificial intelligence model for translating a text sequence.
  • the output unit 2200 may output an audio signal, a video signal, or a vibration signal, and the output unit 2200 may include a display unit 2210 , a sound output unit 2220 , and a vibration motor 2230 . have.
  • the display unit 2210 displays and outputs information processed by the second electronic device 2000 .
  • the display unit 2210 may output information related to a result of learning an artificial intelligence model for translating a text sequence.
  • the display unit 2210 may be used as an input device in addition to an output device.
  • the display unit 2210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one.
  • the second electronic device 2000 may include two or more display units 2210 .
  • the sound output unit 2220 outputs audio data received from the communication unit 2500 or stored in the memory 2700 .
  • the vibration motor 2230 may output a vibration signal. Also, the vibration motor 2230 may output a vibration signal when a touch is input to the touch screen. According to an embodiment, the sound output unit 2220 and the vibration motor 2230 may output information related to a result of learning an artificial intelligence model for translating a text sequence.
  • the processor 2300 generally controls the overall operation of the second electronic device 2000 .
  • the processor 2300 executes programs stored in the memory 2700 , and thus the user input unit 2100 , the output unit 2200 , the sensing unit 2400 , the communication unit 2500 , and the A/V input unit 2600 . ) can be controlled in general.
  • the second electronic device 2000 may include at least one processor 2300 .
  • the second electronic device 2000 may include various types of processors, such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
  • CPU central processing unit
  • GPU graphics processing unit
  • NPU neural processing unit
  • the processor 2300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations.
  • the command may be provided to the processor 2300 from the memory 2700 , or may be received through the communication unit 2500 and provided to the processor 2300 .
  • the processor 2300 may be configured to execute instructions according to program codes stored in a recording device such as a memory.
  • the processor 2300 may learn an artificial intelligence model used in an encoder and a decoder for translating a text sequence.
  • the processor 2300 may generate a text sequence of the second language as a result of translation of the text sequence of the first language based on the text sequence of the first language and the corresponding text sequence of the second language. It is possible to learn artificial intelligence models (ex. LSTM, RNN) used in encoders and decoders so that they can be output.
  • artificial intelligence models ex. LSTM, RNN
  • the text sequences of the first language and the second language according to an embodiment may each include one complete sentence.
  • the processor 2300 may divide the text sequence of the second language and insert the second token at the divided position.
  • the second token may then be inserted into the text group of the second language according to the possibility that the second text group is changed to another text by the encoded at least one text group of the first language.
  • is a token For example, according to the sentence format or context, according to the subsequently encoded result, it is considered that the probability that the currently decoded result is significantly changed to another text is relatively low, and the second A token can be inserted.
  • a text group according to a context may be divided. Also, a second token may be inserted between two words determined to be in different contexts.
  • the context according to an embodiment is not limited to the above-described sentence format, and may be determined according to various criteria for dividing a plurality of words into a plurality of groups.
  • the text sequence of the second language is "Look, the weather is nice", "Look” belongs to a verb, and "Weather” belongs to a subject, so "Look” and "Weather”
  • a second token indicating that the text group is divided due to the difference in the sentence format of the preceding and following words, may be inserted between "a”.
  • a token may be inserted between “weather” and “good”.
  • a first token indicating that the sentence is finished may be additionally inserted.
  • the processor 2300 may identify each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided. Accordingly, the processor 2300 is configured to decode the encoded result and the artificial intelligence model used to encode each section in which the text sequence of the first language is divided, based on the identified correspondence relationship, so that the text sequence of the second language is decoded. It is possible to learn an artificial intelligence model used to output texts for each section in which is divided. According to an embodiment, the encoded result may be context information according to an embodiment.
  • the decoded results respectively, based on the first context information, the second context information, and the third context information shown in FIG. 2 , “look” 223 and “weather” ( 254), and an artificial intelligence model used for encoding and decoding can be trained so that “like” 284 can be output.
  • the sensing unit 2400 may detect a state of the second electronic device 2000 or a state around the second electronic device 2000 , and transmit the sensed information to the processor 2300 .
  • the sensing unit 2400 includes a geomagnetic sensor 2410 , an acceleration sensor 2420 , a temperature/humidity sensor 2430 , an infrared sensor 2440 , a gyroscope sensor 2450 , and a position sensor. (eg, GPS) 2460 , a barometric pressure sensor 2470 , a proximity sensor 2480 , and at least one of an illuminance sensor 2490 , but is not limited thereto.
  • GPS GPS
  • the communication unit 2500 may include one or more components that allow the second electronic device 2000 to communicate with the server 2000 or an external device (not shown).
  • the communication unit 2500 may include a short-range communication unit 2510 , a mobile communication unit 2520 , and a broadcast receiving unit 2530 .
  • Short-range wireless communication unit 2510 Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
  • the mobile communication unit 2520 transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission/reception of a voice call signal, a video call signal, or a text/multimedia message.
  • the broadcast receiver 2530 receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel.
  • the broadcast channel may include a satellite channel and a terrestrial channel.
  • the second electronic device 2000 may not include the broadcast receiver 2530 .
  • the communication unit 2500 may transmit/receive data required for learning an artificial intelligence model for translating a text sequence.
  • the A/V (Audio/Video) input unit 2600 is for inputting an audio signal or a video signal, and may include a camera 2610 , a microphone 2620 , and the like.
  • the camera 2610 may obtain an image frame such as a still image or a moving image through an image sensor in a video call mode or a photographing mode.
  • the image captured through the image sensor may be processed through the processor 2300 or a separate image processing unit (not shown).
  • the microphone 2620 receives an external sound signal and processes it as electrical voice data.
  • the microphone 2620 may receive a user's voice signal for conducting a call.
  • the memory 2700 may store a program for processing and control of the processor 2300 , and may also store data input to or output from the second electronic device 2000 .
  • the memory 2700 may store the artificial intelligence model learned by the processor 2300 in order to translate a text sequence.
  • the memory 2700 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk
  • magnetic disk may include at least one type of storage medium among optical disks.
  • Programs stored in the memory 2700 may be classified into a plurality of modules according to their functions, for example, may be classified into a UI module 2710 , a touch screen module 2720 , a notification module 2730 , and the like. .
  • the UI module 2710 may provide a specialized UI, GUI, or the like that interworks with the second electronic device 2000 for each application.
  • the touch screen module 2720 may detect a touch gesture on the user's touch screen and transmit information about the touch gesture to the processor 2300 .
  • the touch screen module 2720 according to some embodiments may recognize and analyze a touch code.
  • the touch screen module 2720 may be configured as separate hardware including a controller.
  • a tactile sensor is an example of a sensor for detecting a touch of a touch screen.
  • a tactile sensor refers to a sensor that senses a touch of a specific object to the extent or higher than that felt by a human.
  • the tactile sensor may sense various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
  • the user's touch gesture may include a tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
  • the notification module 2730 may generate a signal for notifying the occurrence of an event of the second electronic device 2000 .
  • a translation result for a text sequence that is sequentially obtained may be quickly output.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be provided as included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones).
  • a portion of a computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
  • unit may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)

Abstract

Disclosed is a method, in a first electronic device, for translating a text sequence, the method comprising: by encoding a first text group, among at least one text group included in a text sequence of a first language, which does not include a first token indicating the end of the text sequence, acquiring first context information corresponding to the first text group; by decoding the first context information, acquiring a second text group of a second language, corresponding to the first text group; detecting a second token in the second text group; and, on the basis that the second token has been detected, outputting the second text group as a translation result of the first text group.

Description

텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법Electronic device for translating a text sequence and method for operating the same
본 개시는, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 전자 장치 및 그 동작 방법에 관한 것이다.The present disclosure relates to an electronic device for translating a text sequence of a first language into a second language, and an operating method thereof.
자동 음성 인식 기술 및 기계 번역 기술이 발전함에 따라서, 음성 신호를 인식하고, 이를 자동으로 번역하여 출력하는 음성 번역 서비스가 제공되고 있다. As automatic speech recognition technology and machine translation technology develop, a speech translation service that recognizes a speech signal and automatically translates and outputs the speech signal is being provided.
강연이나 외국인과의 대화에서, 음성 번역 서비스가 제공되는 경우, 발화자에 의한 음성 신호가 수신될 때 마다, 음성 신호에 대해 번역된 결과를 최대한 빨리 출력하여야, 청취자가 대화나 강연을 수월하게 인식할 수 있다.In a lecture or conversation with a foreigner, if voice translation service is provided, whenever a voice signal is received by the speaker, the translated result of the voice signal should be output as soon as possible so that the listener can easily recognize the conversation or lecture. can
따라서, 지속적으로 수신되는 음성 신호에 따라서, 청취자가 발화자의 발화 내용을 빠르게 인식할 수 있도록, 음성 신호에 대한 번역 결과를 최대한 빠르게 출력하는 방법을 제공할 필요가 있다.Accordingly, there is a need to provide a method of outputting a translation result for a voice signal as quickly as possible so that a listener can quickly recognize the content of the speaker's utterance according to the continuously received voice signal.
본 개시에 의한 기술적 해결 방법은 전술한 문제를 해결하기 위한 것으로서, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 전자 장치 및 그 동작 방법이 제공된다.The technical solution according to the present disclosure is to solve the above-described problem, and an electronic device for translating a text sequence of a first language into a second language and an operating method thereof are provided.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다. In addition, there is provided a computer-readable recording medium in which a program for executing the method in a computer is recorded.
도 1은 일 실시 예에 의한 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 방법의 일 예를 나타낸 블록도이다.1 is a block diagram illustrating an example of a method of translating a text sequence of a first language into a second language according to an embodiment.
도 2는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 일 예를 나타낸 도면이다.2 is a diagram illustrating an example of translating a text sequence according to an embodiment.
도 3는 일 실시 예에 의한 제1 전자 장치의 내부 구성을 설명하기 위한 블록도이다.3 is a block diagram illustrating an internal configuration of a first electronic device according to an exemplary embodiment.
도 4는 일 실시 예에 의한 제1 전자 장치의 내부 구성을 설명하기 위한 블록도이다.4 is a block diagram illustrating an internal configuration of a first electronic device according to an exemplary embodiment.
도 5는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 방법을 나타낸 순서도이다.5 is a flowchart illustrating a method of translating a text sequence according to an embodiment.
도 6은 일 실시 예에 의한 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 일 예를 나타낸 블록도이다.6 is a block diagram illustrating an example of learning an artificial intelligence model for translating a text sequence according to an embodiment.
도 7은 일 실시 예에 의한 제2 전자 장치의 내부 구성을 설명하기 위한 블록도이다.7 is a block diagram illustrating an internal configuration of a second electronic device according to an exemplary embodiment.
도 8은 일 실시 예에 의한 제2 전자 장치의 내부 구성을 설명하기 위한 블록도이다.8 is a block diagram illustrating an internal configuration of a second electronic device according to an exemplary embodiment.
상술한 문제를 해결하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 제1 전자 장치에서, 텍스트 시퀀스를 번역하는 방법에 있어서, 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하는 단계; 상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하는 단계; 상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 단계; 및 상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 단계를 포함하는, 방법을 제공할 수 있다. As a technical means for solving the above problem, a first aspect of the present disclosure provides a method of translating a text sequence in a first electronic device, comprising: obtaining first context information corresponding to the first text group by encoding a first text group that does not include a first token indicating an end of a text sequence; obtaining a second text group of a second language corresponding to the first text group by decoding the first context information; detecting a second token in the second text group; and outputting the second text group as a translation result for the first text group as the second token is detected.
또한, 본 개시의 제2 측면은, 제2 전자 장치에서, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 방법에 있어서, 제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하는 단계; 상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하는 단계; 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하는 단계; 및 상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 단계를 포함하는, 방법을 제공할 수 있다.  Also, in a second aspect of the present disclosure, in a method for learning an artificial intelligence model for translating a text sequence in a second electronic device, a text sequence of a first language and a first language corresponding to the text sequence of the first language obtaining a text sequence of two languages; segmenting the text sequence of the second language and inserting a second token at the segmented position; identifying each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided; and encoding each section in which the text sequence of the first language is divided based on the identified correspondence relationship, and decoding the encoded result, so that each section in which the text sequence of the second language is divided can be output. To do so, it is possible to provide a method, including the step of learning the artificial intelligence model.
또한, 본 개시의 제3 측면은, 텍스트 시퀀스를 번역하는 제1 전자 장치에 있어서, 텍스트 시퀀스를 번역하는데 필요한 데이터를 저장하는 메모리; 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하고, 상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 적어도 하나의 프로세서; 및 상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 출력부를 포함하는, 제1 전자 장치가 제공될 수 있다.In addition, a third aspect of the present disclosure provides a first electronic device for translating a text sequence, comprising: a memory for storing data necessary for translating the text sequence; First context information corresponding to the first text group by encoding a first text group that does not include a first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language at least one method for obtaining a second text group of a second language corresponding to the first text group and detecting a second token in the second text group by obtaining processor; and an output unit configured to output the second text group as a translation result for the first text group when the second token is detected.
또한, 본 개시의 제4 측면은, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 제2 전자 장치에 있어서, 제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하고, 상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하고, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하고, 상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 적어도 하나의 프로세서; 및 상기 학습된 인공지능 모델을 저장하는 메모리를 포함하는, 제2 전자 장치를 제공할 수 있다.Also, according to a fourth aspect of the present disclosure, in the second electronic device for learning an artificial intelligence model for translating a text sequence, a text sequence of a first language and a text sequence of a second language corresponding to the text sequence of the first language are provided. obtaining a text sequence, dividing the text sequence of the second language, inserting a second token at the divided position, and corresponding to each section in which the text sequence of the second language is divided, Identifies each section into which the text sequence is divided, and encodes each section into which the text sequence of the first language is divided, based on the identified correspondence relationship, and decodes the encoded result of the text of the second language at least one processor for learning the artificial intelligence model so that each section in which the sequence is divided can be output; and a memory for storing the learned artificial intelligence model.
또한, 본 개시의 제5 측면은, 제1 측면 또는 제2 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.In addition, a fifth aspect of the present disclosure may provide a recording medium in which a program for performing the method of the first aspect or the second aspect is stored.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is "connected" with another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, this means that other components may be further included, rather than excluding other components, unless otherwise stated.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일 실시 예에 의한 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하는 방법의 일 예를 나타낸 블록도이다.1 is a block diagram illustrating an example of a method of translating a text sequence of a first language into a second language according to an embodiment.
도 1을 참조하면, 제1 전자 장치(1000)는 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하여, 출력할 수 있다. 일 실시 예에 따라 번역되는 제1 언어의 텍스트 시퀀스는, 제1 전자 장치(1000)에서 수신된 제1 언어의 음성 신호에 대해 음성 인식이 수행됨으로써 획득될 수 있다. 일 실시 예에 의한 제1 전자 장치(1000)는, 음성 인식에 한하지 않고, 다양한 방법을 통해, 제1 언어의 텍스트 시퀀스를 획득할 수 있다.Referring to FIG. 1 , the first electronic device 1000 may translate a text sequence of a first language into a second language and output it. According to an embodiment, the translated text sequence of the first language may be obtained by performing voice recognition on the voice signal of the first language received by the first electronic device 1000 . The first electronic device 1000 according to an embodiment may acquire a text sequence of the first language through various methods, not limited to voice recognition.
또한, 제1 전자 장치(1000)는, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하고, 번역된 제2 언어의 텍스트 시퀀스를 음성 신호로 변환하여 출력할 수 있다. 상술한 예에 한하지 않고, 제1 전자 장치(1000)는 번역된 제2 언어의 텍스트 시퀀스를 다양한 형태로 변환하여 출력할 수 있다.Also, the first electronic device 1000 may translate the text sequence of the first language into the second language, convert the translated text sequence of the second language into a voice signal, and output the converted text sequence. Without being limited to the above-described example, the first electronic device 1000 may convert and output the translated text sequence of the second language into various forms.
일 실시 예에 의한 제1 전자 장치(1000)는, 제1 언어의 음성 신호가 순차적으로 수신됨에 따라서, 음성 인식된 텍스트들의 집합인, 텍스트 시퀀스를 순차적으로 획득할 수 있다. 예를 들면, 제1 전자 장치(1000)는, 음성 신호의 어조나, 음성 신호에서 감지된 포즈(pose) 구간에 따라서, 구분된 음성 신호의 구간 별로, 음성 인식을 수행함으로써, 텍스트들이 차례대로 나열된 텍스트 시퀀스를 획득할 수 있다.The first electronic device 1000 according to an embodiment may sequentially acquire a text sequence, which is a set of speech-recognized texts, as a voice signal of the first language is sequentially received. For example, the first electronic device 1000 performs voice recognition for each segment of the divided voice signal according to the tone of the voice signal or a pose section sensed in the voice signal, so that the texts are sequentially The listed text sequence can be obtained.
일 실시 예에 의하면, 텍스트 시퀀스의 끝에 텍스트 시퀀스의 종료, 예를 들면, 문장의 종료, 또는 문장의 끝을 나타내는 제1 토큰(ex. <eos> 토큰)이 포함된, 텍스트 시퀀스가 획득될 수 있다. 따라서, 일 실시 예에 의하면, 제1 토큰에 따라, 텍스트 시퀀스의 구간이 문장 단위로 구분될 수 있고, 구분된 텍스트 시퀀스 별로, 번역이 수행될 수 있다. According to an embodiment, a text sequence including a first token (ex. <eos> token) indicating the end of the text sequence, for example, the end of the sentence, or the end of the sentence, may be obtained at the end of the text sequence. have. Accordingly, according to an embodiment, according to the first token, a section of the text sequence may be divided into sentence units, and translation may be performed for each divided text sequence.
일 실시 예에 의한 텍스트 시퀀스는, 순서대로 배열된 적어도 하나의 텍스트를 포함할 수 있고, 제1 토큰이 텍스트 시퀀스에 삽입됨에 따라서, 텍스트 시퀀스가 문장 단위로 구분될 수 있다.The text sequence according to an embodiment may include at least one text arranged in order, and as the first token is inserted into the text sequence, the text sequence may be divided into sentence units.
일 실시 예에 의한 제1 토큰은, 1개 문장과 대응되는 제1 언어의 텍스트 시퀀스가 인코딩될 때, 제1 토큰에 앞선 단어들이 순차적으로 먼저 인코딩된 후, 맨 마지막에 인코딩될 수 있다.The first token according to an embodiment may be encoded last after words preceding the first token are sequentially first encoded when a text sequence of the first language corresponding to one sentence is encoded.
일 실시 예에 의한 인코딩 및 디코딩은, 단어 단위로 수행될 수 있으나, 이에 한하지 않고, 다양한 단위(ex. 어구, 형태소, 숙어)로 수행될 수 있다.Encoding and decoding according to an embodiment may be performed in units of words, but is not limited thereto, and may be performed in various units (eg, phrases, morphemes, idioms).
일 실시 예에 의하면, 1개 문장과 대응되는 제1 언어의 텍스트 시퀀스가 인코딩된 결과인, 컨텍스트 정보가, 디코딩됨으로써, 제2 언어의 텍스트 시퀀스가 획득될 수 있다. 일 실시 예에 의한 제2 언어의 텍스트 시퀀스는, 제1 언어의 텍스트 시퀀스와 동일하게, 텍스트 시퀀스의 맨 마지막에 위치한 제1 토큰을 포함할 수 있다.According to an embodiment, context information, which is a result of encoding a text sequence of the first language corresponding to one sentence, may be decoded to obtain a text sequence of the second language. The text sequence of the second language according to an embodiment may include a first token positioned at the end of the text sequence, similarly to the text sequence of the first language.
일 실시 예에 의한 컨텍스트 정보는, 제1 언어의 텍스트 시퀀스에 포함된 단어들이 순차적으로 인코딩된 정보를 포함할 수 있다. 예를 들어, 컨텍스트 정보는, 제1 언어의 텍스트 시퀀스에 포함된 단어들이 순차적으로 부호화된 결과로서, 벡터 형식의 값들을 포함할 수 있다. 컨텍스트 정보는, 단어뿐 아니라, 제1 토큰이 더 인코딩된 정보를 포함할 수도 있다.The context information according to an embodiment may include information in which words included in a text sequence of the first language are sequentially encoded. For example, the context information may include values in a vector format as a result of sequentially encoding words included in a text sequence of the first language. The context information may include information in which the first token is further encoded, as well as the word.
일 실시 예에 따라, 인코딩 및 디코딩에 이용되는, 인코더 및 디코더는, 단어들을 순차적으로 처리하기 위한, 적어도 하나의 인공지능 모델(ex. RNN(Recurrent Neural Network), LSTM(Long short-term memory))로 구성될 수 있다. According to an embodiment, the encoder and the decoder, which are used for encoding and decoding, sequentially process words, at least one artificial intelligence model (ex. Recurrent Neural Network (RNN), Long short-term memory (LSTM)) ) can be composed of
일 실시 예에 따른 인코더에서 인코딩하는데 이용되는 인공지능 모델은, 제1 언어의 텍스트 시퀀스에 포함된 단어들을 순차적으로 처리함으로써, 컨텍스트 정보를 출력할 수 있다. 예를 들어, 인코더의 인공지능 모델에 의해, 복수 개의 단어들이 순차적으로 처리되는 경우, 이전의 인코딩 단계에서 처리된 단어에 기초하여, 현재의 단어가 처리됨으로써, 컨텍스트 정보가 출력될 수 있다. 예를 들어, 첫번째로 인코딩된 단어 1의 처리 결과에 기초하여, 다음 단계에서, 단어 2가 인코딩됨으로써, 모든 단어들이 순서대로 인코딩된 결과인 컨텍스트 정보가 출력될 수 있다.The artificial intelligence model used for encoding in the encoder according to an embodiment may output context information by sequentially processing words included in a text sequence of a first language. For example, when a plurality of words are sequentially processed by the artificial intelligence model of the encoder, the current word is processed based on the word processed in the previous encoding step, thereby outputting context information. For example, based on the processing result of the first encoded word 1, by encoding the word 2 in the next step, context information that is a result of encoding all the words in order may be output.
또한, 일 실시 예에 따른 디코더에서 디코딩하는데 이용되는 인공지능 모델은, 인코더에 의해 출력된 컨텍스트 정보에 기초하여, 제2 언어의 단어들을 순차적으로 출력할 수 있다. 예를 들어, 디코더의 인공지능 모델에 의해, 제2 언어의 단어들이 순차적으로 출력되는 경우, 이전의 디코딩 단계에서 출력된 단어에 기초하여 현재의 단어가 출력됨으로써, 디코더에서 출력된 단어들을 포함하는 제2 언어의 텍스트 시퀀스가 번역 결과로서 획득될 수 있다. 예를 들어, 이전 단계에서 디코딩 결과로 출력된 단어 1에 기초하여, 현재 단계에서 디코딩이 수행됨으로써, 단어 2가 출력될 수 있다. 즉, 단어 2는, 단어 1이 디코딩 결과로서 이전 단계에서 출력됨에 따라서, 현재 단계에서 디코딩 결과로서 출력될 수 있다.Also, the artificial intelligence model used for decoding in the decoder according to an embodiment may sequentially output words of the second language based on context information output by the encoder. For example, when the words of the second language are sequentially output by the artificial intelligence model of the decoder, the current word is output based on the word output in the previous decoding step, thereby including the words output from the decoder. A text sequence in the second language may be obtained as a result of the translation. For example, based on the word 1 output as a result of decoding in the previous step, decoding is performed in the current step, so that word 2 may be output. That is, word 2 may be output as a decoding result in the current step, as word 1 is output as a decoding result in the previous step.
일 실시 예에 따라, 인코더가 인코딩을 수행되는데 이용되는 인공지능 모델은, 제1 언어의 텍스트 시퀀스에 기초하여, 제2 언어의 텍스트 시퀀스를 획득할 수 있는 적절한 컨텍스트 정보를 출력할 수 있도록, 미리 학습될 수 있다. 또한, 일 실시 예에 따라, 디코더가 디코딩을 수행되는데 이용되는 인공지능 모델은, 컨텍스트 정보를 디코딩하여, 제1 언어의 텍스트 시퀀스에 대응하는 제2 언어의 텍스트 시퀀스를 출력할 수 있도록, 미리 학습될 수 있다. According to an embodiment, the artificial intelligence model used by the encoder to perform encoding may be preliminarily configured to output appropriate context information for obtaining the text sequence of the second language based on the text sequence of the first language. can be learned Also, according to an embodiment, the artificial intelligence model used by the decoder to perform decoding is pre-learned so as to output the text sequence of the second language corresponding to the text sequence of the first language by decoding the context information. can be
일 실시 예에 따르면 인코딩 후 디코딩이 수행되므로, 미리 학습된 하나의 인공지능 모델에 의해 인코딩 및 디코딩이 수행될 수 있다. 이에 한하지 않고, 복수 개의 인공지능 모델에 의해 인코딩 및 디코딩이 각각 수행될 수도 있다.According to an embodiment, since decoding is performed after encoding, encoding and decoding may be performed by one pre-trained AI model. The present invention is not limited thereto, and encoding and decoding may be performed by a plurality of artificial intelligence models, respectively.
일 실시 예에 따른 텍스트 시퀀스는, 제1 토큰에 따라 구분된, 문장 또는 구절 단위로, 번역이 수행될 수 있다. 예를 들면, 1개 문장과 대응되는 제1 언어의 텍스트 시퀀스에 대하여, 인코딩된 결과인 컨텍스트 정보가 디코딩됨으로써, 제2 언어의 텍스트 시퀀스가 획득될 수 있다. 일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 단어들이 순차적으로 인코딩됨으로써 획득된 컨텍스트 정보가 디코딩될 수 있다.The text sequence according to an embodiment may be translated in units of sentences or phrases divided according to the first token. For example, with respect to a text sequence of a first language corresponding to one sentence, context information that is an encoded result may be decoded to obtain a text sequence of a second language. According to an embodiment, the context information obtained by sequentially encoding at least one word included in the text sequence of the first language may be decoded.
문장 단위로 텍스트 시퀀스의 번역이 수행되는, 상술한 예에 한하지 않고, 제1 언어의 텍스트 시퀀스는 제1 토큰에 의해 구분된 다양한 단위에 따라 번역이 수행될 수 있다. 본 명세서에서는, 제1 토큰에 의해 구분된 텍스트 시퀀스의 단위를 문장 단위인 것으로 가정하였으나, 이에 한하지 않고, 다양한 단위로 구분될 수 있다.The translation of the text sequence is not limited to the above-described example in which the text sequence is translated in units of sentences, and the translation of the text sequence of the first language may be performed according to various units divided by the first token. In the present specification, it is assumed that the unit of the text sequence divided by the first token is the sentence unit, but the present disclosure is not limited thereto, and may be divided into various units.
일 실시 예에 의하면, 앞뒤 단어의 순서에 따라서, 인코딩 및 디코딩 결과가 변경될 수 있으므로, 순차적으로 제1 언어의 단어가 획득될 때마다 인코딩 및 디코딩이 수행되더라도, 디코딩된 결과의 출력은, 문장 단위의 제1 언어의 텍스트 시퀀스에 포함된 모든 단어에 대한 인코딩 및 디코딩된 결과가 출력됨이 바람직하다. According to an embodiment, since the encoding and decoding results may be changed according to the order of the preceding and following words, even if encoding and decoding are performed whenever a word of the first language is sequentially obtained, the output of the decoded result is a sentence It is preferable that encoded and decoded results for all words included in the text sequence of the first language of the unit are output.
그러나, 일 실시 예에 의하면, 순차적으로 획득되는 제1 언어의 적어도 하나의 단어에 대해 인코딩된 결과인 컨텍스트 정보에 기초하여, 디코딩된 결과가, 미리 특정된 토큰을 포함하는 경우에는, 완전한 문장에 대한 디코딩 결과가 아님에도, 출력될 수 있다. However, according to an embodiment, based on context information that is a result encoded for at least one word of the first language that is sequentially obtained, when the decoded result includes a token specified in advance, the It may be output even though it is not the decoding result for the .
일 실시 예에 의하면, 디코딩된 결과가, 완전한 문장에 대한 컨텍스트 정보에 기초한 디코딩이 아님에도, 미리 특정된 토큰에 따라 분할된 구간 단위로, 인코딩된 컨텍스트 정보에 기초한 디코딩인 경우, 번역 결과로서 출력될 수 있다. 일 실시 예에 따라 미리 특정된 토큰은, 문맥 또는 문장 유형에 따라 구분된 제2 언어의 텍스트 시퀀스의 구간에 삽입될 수 있는 제2 토큰일 수 있다.According to an embodiment, even if the decoded result is not decoding based on the context information for the complete sentence, in the case of decoding based on the encoded context information in units of sections divided according to a token specified in advance, output as a translation result can be According to an embodiment, the token specified in advance may be a second token that can be inserted into a section of a text sequence of a second language divided according to a context or a sentence type.
예를 들면, 제2 토큰은, 문맥 또는 문장 유형에 따라 구분된 위치에 제2 언어의 텍스트 시퀀스에서 삽입되어, 제2 토큰을 포함하는 제2 언어의 텍스트 시퀀스가 디코딩 단에서 미리 학습됨으로써, 디코딩 시에, 제2 언어의 텍스트 시퀀스로서 획득될 수 있는 토큰이다. 일 실시 예에 의하면, 문맥 또는 문장 유형에 따라 구분된 구간에서는, 해당 구간이 디코딩된 이후에, 제1 언어의 텍스트 시퀀스에서 획득된 단어에 따라 상기 디코딩된 결과가 크게 변하지 않음을 고려하여, 먼저 상기 디코딩된 결과가 출력됨으로써, 더 빠른 번역 결과를 얻고자 하는 사용자 편의가 도모될 수 있다. For example, the second token is inserted in the text sequence of the second language at a position divided according to context or sentence type, so that the text sequence of the second language including the second token is learned in advance at the decoding end, so that decoding In poetry, it is a token that can be obtained as a sequence of text in a second language. According to an embodiment, in a section divided according to context or sentence type, after the section is decoded, considering that the decoded result is not significantly changed according to the word obtained from the text sequence of the first language, first By outputting the decoded result, user convenience to obtain a faster translation result can be promoted.
일 실시 예에 의한 제2 토큰은, 제2 언어의 텍스트 시퀀스에서 문맥 또는 문장 유형에 따라 구분된 위치에 삽입되는 데에 한하지 않고, 사용자가 번역 결과를 인식하는데, 먼저 디코딩 결과로서 출력되어도, 이후에 획득되는 제1 언어의 적어도 하나의 단어에 의해, 먼저 출력된 디코딩 결과가 변형될 가능성이 상대적으로 낮은 구간인지에 따라서, 제2 토큰이 제2 언어의 텍스트 시퀀스에 삽입되어, 디코딩 단에서 미리 학습될 수 있다.The second token according to an embodiment is not limited to being inserted at a position divided according to context or sentence type in the text sequence of the second language, and the user recognizes the translation result, even if it is first output as a decoding result, The second token is inserted into the text sequence of the second language according to whether the decoding result output first is a section in which the possibility of being deformed is relatively low by at least one word of the first language obtained later, at the decoding end can be learned in advance.
따라서, 일 실시 예에 의하면, 제1 언어의 완전한 문장이 획득되기 전에, 번역이 수행된 결과가 실시간으로 빠르게 출력될 수 있다.Accordingly, according to an embodiment, before the complete sentence of the first language is obtained, the result of the translation may be quickly output in real time.
일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스의 모든 단어가 인코딩된 후 디코딩된 결과가 출력되는 대신, 순차적으로 입력된 제1 언어의 텍스트 시퀀스에 포함된 단어들이 각각 순차적으로 인코딩될 때마다, 디코딩이 수행될 수 있다. 예를 들어, 제1 언어의 텍스트 시퀀스에 포함된 단어들이 각각 순차적으로 인코딩될 때마다, 획득된 컨텍스트 정보에 대하여, 디코딩이 수행될 수 있다. According to an embodiment, instead of outputting the decoded result after all the words of the text sequence of the first language are encoded, each time the words included in the sequentially input text sequence of the first language are sequentially encoded, Decoding may be performed. For example, whenever words included in the text sequence of the first language are sequentially encoded, decoding may be performed on the obtained context information.
따라서, 일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스에 포함된 단어들과, 마지막에 포함된 제1 토큰까지 인코딩된 후, 디코딩이 수행되는` 대신, 제1 토큰이 인코딩되기 전에, 획득된 컨텍스트 정보에 기초하여, 디코딩이 수행될 수 있다. Therefore, according to one embodiment, instead of 'after encoding up to the first token included with the words included in the text sequence of the first language and finally included, decoding is performed', before the first token is encoded, the obtained Based on the context information, decoding may be performed.
다만, 일 실시 예에 의하면, 디코딩이 수행되는 것은, 제1 언어의 단어가 순차적으로 획득될 때마다, 인코딩이 수행됨에 따라 수행될 수 있으나, 디코딩된 결과가 출력되는 것은, 제2 토큰이 검출됨에 따라 수행될 수 있다. 따라서, 일 실시 예에 의하면, 디코딩이 수행된 결과로부터 제2 토큰이 검출됨에 따라서, 제1 언어의 텍스트 시퀀스에서, 제1 토큰이 처리되기 전에, 제2 토큰이 출력될 때까지 획득된 제2 언어의 단어들이 번역 결과로서 출력될 수 있다.However, according to an embodiment, decoding may be performed as encoding is performed whenever words of the first language are sequentially obtained, but outputting the decoded result is detected by the second token It can be performed according to Accordingly, according to an embodiment, as the second token is detected from the result of decoding, in the text sequence of the first language, before the first token is processed, the second token is obtained until the second token is output. Words of the language may be output as a result of the translation.
따라서, 일 실시 예에 의하면, 음성 인식된 텍스트 시퀀스가 획득되는 문장 또는 구절 단위의 구간보다 상대적으로 더 짧은 구간 단위로, 번역된 결과가 출력됨에 따라서, 번역 결과가 더 빠르게 출력될 수 있다. Accordingly, according to an embodiment, as the translated result is output in units of sections that are relatively shorter than sections in units of sentences or phrases in which the speech recognized text sequence is obtained, the translation result may be output more quickly.
또한, 일 실시 예에 의한 제1 전자 장치(1000)는, 사용자에게 번역 결과를 빠르게 제공함에 따라서, 제1 언어의 음성 신호가 발화된 시점으로부터 크게 지연되지 않은 시점에, 번역된 결과가 제공될 수 있다. 따라서, 일 실시 예에 의하면, 통역 및 번역 서비스를 제공받는 사용자의 편의성이 높아질 수 있다.Also, as the first electronic device 1000 according to an embodiment provides the translation result to the user quickly, the translated result may be provided at a point in time when the voice signal of the first language is not significantly delayed from the point in time when the speech signal is spoken. can Accordingly, according to an embodiment, the convenience of the user receiving the interpretation and translation service may be increased.
일 실시예에 따른 제1 전자 장치(1000)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 제1 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 차량(vehicle) 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 제1 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 이하에서는, 설명의 편의상, 제1 전자 장치(1000)가 스마트 폰인 경우를 예로 들어 설명하기로 한다.The first electronic device 1000 according to an embodiment may be implemented in various forms. For example, the first electronic device 1000 described herein may include a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a digital broadcasting terminal, and a personal digital (PDA). Assistants), a Portable Multimedia Player (PMP), a navigation system, an MP3 player, a vehicle, and the like, but is not limited thereto. The first electronic device 1000 described herein may be a wearable device that can be worn by a user. Wearable devices include accessory type devices (e.g., watches, rings, wristbands, ankle bands, necklaces, eyeglasses, contact lenses), head-mounted-devices (HMDs), textile or clothing-integrated devices (e.g., electronic clothing), a body attachable device (eg, a skin pad), or a bioimplantable device (eg, an implantable circuit). Hereinafter, for convenience of description, a case in which the first electronic device 1000 is a smart phone will be described as an example.
일 실시 예에 의한, 제1 전자 장치(1000)는 서로 다른 언어를 사용하는 제1 사용자와 제2 사용자 간의 대화를 위하여 통역 또는 번역을 수행하기 위해, 일 실시 예에 따라, 제1 언어의 음성 신호를 제2 언어로 번역하여, 제2 언어의 음성 신호를 출력할 수 있다. 여기서, 통역은 제1 언어로 형성된 음성 신호를 제2 언어로 형성된 음성 신호인 '말(speech)'로 변환하는 것이고, 번역은 제1 언어로 형성된 음성 신호를 제2 언어로 형성된 '글(text)'로 변환하는 것이다. According to an embodiment, the first electronic device 1000 interprets or translates for a conversation between a first user and a second user who use different languages. By translating the signal into the second language, a voice signal of the second language may be output. Here, interpretation is converting a voice signal formed in the first language into 'speech', which is a voice signal formed in the second language, and translation is converting a voice signal formed in the first language into 'text' formed in the second language. )' is converted to
일 실시 예에 의하면, 통역 및 번역 모두, 제1 언어의 음성 신호가 제1 언어의 텍스트로 변환된 후, 제2 언어의 텍스트가 번역된 결과로서 획득되는 동작을 포함할 수 있다. 따라서, 일 실시 예에 의한 텍스트를 번역하는 방법은, 통역 및 번역 모두에서 이용될 수 있다.According to an embodiment, both interpretation and translation may include an operation in which, after a voice signal in the first language is converted into text in the first language, the text in the second language is obtained as a translated result. Accordingly, the method of translating text according to an embodiment may be used in both interpretation and translation.
일 실시 예에 의한 제1 전자 장치(1000)는, 제1 언어의 텍스트 시퀀스 획득 단계(110), 인코딩을 통한 컨텍스트 정보 획득 단계(120), 디코딩을 통한 제2 언어의 텍스트 시퀀스 획득 단계(130) 및 제2 언어의 텍스트 시퀀스 출력 단계(140)를 수행함으로써, 텍스트를 번역하는 동작을 수행할 수 있다.According to an embodiment, the first electronic device 1000 obtains a text sequence of a first language in the step 110 , obtains context information through encoding 120 , and obtains a text sequence in a second language through decoding 130 . ) and outputting the text sequence of the second language 140 , an operation of translating the text may be performed.
일 실시 예에 의한 제1 언어의 텍스트 시퀀스 획득 단계(110)에서, 제1 전자 장치(1000)는 번역하고자 하는, 제1 언어의 텍스트 시퀀스를 획득할 수 있다. 일 실시 예에 의한 제1 언어의 텍스트 시퀀스는, 제1 전자 장치(1000)에서, 제1 언어의 적어도 하나의 텍스트를 획득된 순서에 따라 나열된, 텍스트들을 포함할 수 있다. In the step of obtaining the text sequence of the first language 110 according to an embodiment, the first electronic device 1000 may obtain the text sequence of the first language to be translated. The text sequence of the first language according to an embodiment may include texts in which at least one text of the first language is arranged in the order in which it is obtained in the first electronic device 1000 .
일 실시 예에 의한 인코딩을 통한 컨텍스트 정보를 획득하는 단계(120)에서, 제1 전자 장치(1000)는, 텍스트 시퀀스에 포함된 텍스트들에 대해, 번역이 가능한 단위(ex. 단어, 숙어) 별로 인코딩을 수행하고, 컨텍스트 정보를 획득할 수 있다. 예를 들어, 제1 언어의 텍스트 시퀀스로, "look the weather is nice <eos>"의 단어들이 순차적으로 획득되는 경우, 제1 전자 장치(1000)는, "look", "the", "weather", "is", "nice" 및 <eos>에 대해 각각 순차적으로 인코딩을 수행하여, 컨텍스트 정보를 획득할 수 있다. 일 예로, "look"에 대해 인코딩한 결과 컨텍스트 정보 1이 획득될 수 있고, "look" 및 "the"를 순차적으로 인코딩한 결과 컨텍스트 정보 2가 획득될 수 있다. 마찬가지로 "look" 내지 <eos>까지 순차적으로 인코딩한 결과 컨텍스트 정보 6이 획득될 수 있다.In step 120 of obtaining context information through encoding according to an embodiment, the first electronic device 1000, for the texts included in the text sequence, for each translatable unit (eg, words, idioms) Encoding may be performed and context information may be obtained. For example, when words of “look the weather is nice <eos>” are sequentially obtained as a text sequence of the first language, the first electronic device 1000 may display “look”, “the”, and “weather” Context information may be obtained by sequentially performing encoding on ", "is", "nice", and <eos>, respectively. As an example, as a result of encoding “look”, context information 1 may be obtained, and as a result of sequentially encoding “look” and “the”, context information 2 may be obtained. Similarly, as a result of sequentially encoding "look" to <eos>, context information 6 may be obtained.
다만, 일 실시 예에 의하면, 컨텍스트 정보가 획득될 때마다, 컨텍스트 정보에 대한 디코딩이 수행될 수 있으나, 디코딩 결과, 이하 단계 150에서, 제1 토큰이 검출되는 경우, 디코딩된 컨텍스트 정보와 대응되는 제1 언어의 적어도 하나의 단어는 제외된 후, 인코딩이 수행될 수 있다. 예를 들어, 컨텍스트 정보 1에 대한 디코딩 결과에서, 제1 토큰이 검출된 경우, "look" 및 "the"를 순차적으로 인코딩하는 대신, "look"을 제외한 "the"에 대해 인코딩이 수행될 수 있다. 일 실시 예에 의하면, "look"에 대응하는 디코딩 결과가 제1 토큰이 검출됨에 따라 번역 결과로서 출력되므로, 이후에는 "look"이 인코딩되지 않음이 바람직하다.However, according to an embodiment, whenever the context information is obtained, decoding of the context information may be performed. After at least one word of the first language is excluded, encoding may be performed. For example, in the decoding result for context information 1, when the first token is detected, instead of sequentially encoding "look" and "the", encoding may be performed on "the" excluding "look". have. According to an embodiment, since a decoding result corresponding to “look” is output as a translation result as the first token is detected, it is preferable that “look” is not encoded thereafter.
또한, "the"에 대응하는 컨텍스트 정보에 대해 디코딩이 수행된 결과, 이하 단계 150에서, 제1 토큰이 검출되지 않은 경우, "the"는 이후 인코딩 동작에서 제외되지 않고, "the" 및 "weather"가 순서대로 인코딩된 컨텍스트 정보에 대하여, 디코딩이 수행될 수 있다. 반면, 제1 토큰이 검출된 경우, "the"는 이후 인코딩 동작에서 제외되고, "weather"가 인코딩된 컨텍스트 정보에 대해 디코딩이 수행될 수 있다.In addition, as a result of decoding on the context information corresponding to "the", in the following step 150, when the first token is not detected, "the" is not excluded from the subsequent encoding operation, "the" and "weather" Decoding may be performed on context information encoded in the order of ". On the other hand, when the first token is detected, "the" may be excluded from the subsequent encoding operation, and decoding may be performed on context information in which "weather" is encoded.
일 실시 예에 의한 디코딩을 통한 제2 언어의 텍스트 시퀀스를 획득하는 단계(130)에서, 제1 전자 장치(1000)는 단계(120)에서 획득된 컨텍스트 정보를 디코딩함으로써, 제2 언어의 텍스트 시퀀스를 획득할 수 있다. 일 실시 예에 의하면, 컨텍스트 정보가 디코딩됨에 따라, 제2 언어의 단어들이, 순차적으로 획득될 수 있다. 일 실시 예에 의하면, 선행 단계에서 획득된 단어들의 순서에 기초하여 현재의 단어가 획득됨으로써, 상기 제2 언어의 단어들이 순서대로 획득될 수 있다.According to an embodiment, in step 130 of obtaining the text sequence of the second language through decoding, the first electronic device 1000 decodes the context information obtained in step 120, so that the text sequence of the second language can be obtained. According to an embodiment, as the context information is decoded, words of the second language may be sequentially obtained. According to an embodiment, the current word may be obtained based on the order of words obtained in the preceding step, so that the words of the second language may be sequentially obtained.
일 실시 예에 의한 제2 언어의 텍스트 시퀀스를 출력하는 단계(140)에서, 제1 전자 장치(1000)는, 컨텍스트 정보를 디코딩한 결과, 출력된 제2 언어의 단어들 중에서, 제2 토큰을 검출함에 따라, 이전에 획득된 제2 언어의 단어들을 디코딩 결과로서 출력할 수 있다.In step 140 of outputting the text sequence of the second language according to an embodiment, the first electronic device 1000 receives the second token from among the output words of the second language as a result of decoding the context information According to the detection, the previously acquired words of the second language may be output as a decoding result.
또한, 일 실시 예에 의한 제1 전자 장치(1000)는, 동시 통역 서비스를 제공하기 위해, 디코딩 결과로서 출력된 제2 언어의 텍스트 시퀀스를 제2 언어의 음성 신호로 변환하여 출력할 수 있다. 예를 들면, 제1 전자 장치(1000)는, 140 단계에서, 제2 언어의 텍스트 시퀀스가 출력될 때마다, TTS(text to speech) 기술에 따라서, 텍스트를 음성 신호로 변환하여, 출력할 수 있다. Also, in order to provide a simultaneous interpretation service, the first electronic device 1000 according to an embodiment may convert a text sequence of the second language output as a decoding result into a voice signal of the second language and output the converted text sequence. For example, in step 140 , whenever a text sequence of the second language is output, the first electronic device 1000 may convert the text into a voice signal and output it according to a text to speech (TTS) technique. have.
일 실시 예에 의한 제1 토큰 검출 여부를 판단하는 단계(150)에서 제1 전자 장치(1000)는, 단계 140에서 디코딩 결과로 출력된 제2 언어의 텍스트 시퀀스에서, 제1 토큰이 검출되었는지에 따라서, 단계 120의 인코딩을 다시 수행할 수 있다.According to an embodiment, in step 150 of determining whether the first token is detected, the first electronic device 1000 determines whether the first token is detected in the text sequence of the second language output as a result of decoding in step 140 . Accordingly, the encoding of step 120 may be performed again.
일 실시 예에 의하면, 단계 150에서, 제1 전자 장치(1000)는 제2 언어의 텍스트 시퀀스에서, 문장의 종료를 나타내는 제1 토큰이 검출된 것으로 판단한 경우, 단계 120의 인코딩을 수행함이 없이, 단계 110에서 획득된 1개 문장을 포함한, 제1 언어의 텍스트 시퀀스에 대한 번역 동작을 종료할 수 있다.According to an embodiment, when it is determined that the first token indicating the end of a sentence is detected in the text sequence of the second language in step 150 , the first electronic device 1000 does not perform encoding in step 120 , The translation operation for the text sequence of the first language including the one sentence obtained in step 110 may be terminated.
또는 일 실시 예에 의한 제2 언어의 텍스트 시퀀스에서, 제1 토큰이 검출된 것으로 판단된 경우, 단계 120에서, 새로운 문장을 포함한 제1 언어의 텍스트 시퀀스에 대한 인코딩이 수행됨에 따라서, 단계 120 내지 150의 번역 동작이 수행될 수 있다. Alternatively, when it is determined that the first token is detected in the text sequence of the second language according to an embodiment, in step 120, as encoding of the text sequence of the first language including a new sentence is performed, steps 120 to A translation operation of 150 may be performed.
일 실시 예에 따른 제2 언어의 텍스트 시퀀스가 제1 토큰을 포함하는 경우, 제2 언어의 텍스트 시퀀스가 종료된 것으로 판단될 수 있고, 제1 언어의 텍스트 시퀀스에 대한 번역이 종료될 수 있다.When the text sequence of the second language according to an embodiment includes the first token, it may be determined that the text sequence of the second language is finished, and translation of the text sequence of the first language may be ended.
또한, 일 실시 예에 의한 제1 전자 장치(1000)는, 독립적인 1개 문장을 포함하는 새로운 제1 언어의 텍스트를 수신하여, 단계 110 내지 150을 반복적으로 수행할 수 있다.Also, the first electronic device 1000 according to an embodiment may receive the text of the new first language including one independent sentence, and may repeatedly perform steps 110 to 150 .
반면, 단계 150에서, 제2 언어의 텍스트 시퀀스에서, 문장의 종료를 나타내는 제1 토큰이 검출되지 않은 것으로 판단된 경우, 제1 전자 장치(1000)는, 단계 120에서, 아직 인코딩되지 않은 제1 언어의 텍스트 시퀀스에 포함된 단어를 순차적으로 인코딩할 수 있다.On the other hand, when it is determined in step 150 that the first token indicating the end of a sentence is not detected in the text sequence of the second language, in step 120 , the first electronic device 1000 , Words included in a text sequence of a language can be encoded sequentially.
도 2는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 일 예를 나타낸 도면이다.2 is a diagram illustrating an example of translating a text sequence according to an embodiment.
도 2를 참조하면, 시간축을 기준으로 윗단의 블록들은 일 실시 예에 의한 인코더의 동작을 나타내고, 아랫단의 블록들은 일 실시 예에 의한 디코더의 동작을 나타낸다.Referring to FIG. 2 , on the time axis, upper blocks indicate an operation of an encoder according to an embodiment, and lower blocks indicate an operation of a decoder according to an embodiment.
일 실시 예에 의한 인코더 및 디코더는, 도시된 예와 같이, LSTM에 의하여, 텍스트들을 순차적으로 처리할 수 있다. 상술한 예에 한하지 않고, 인코더 및 디코더는, 다른 종류의 순환 신경망(ex. RNN)을 이용할 수도 있다.The encoder and the decoder according to an embodiment may sequentially process texts by LSTM, as shown in the illustrated example. Not limited to the above example, the encoder and the decoder may use other types of recurrent neural networks (ex. RNNs).
t1에서, 인코더(210)는, 첫번째로 입력된 제1 언어의 텍스트 그룹인, "look"을 인코딩한 결과 제1 컨텍스트 정보를 출력할 수 있다.At t1 , the encoder 210 may output first context information as a result of encoding “look”, which is a text group of the first input first language.
일 실시 예에 의한 t1 내지 t17은, 각각의 LSTM에 의하여 인코딩 또는 디코딩 동작이 수행되는 시점을 나타낸다.t1 to t17 according to an embodiment indicate a time point at which an encoding or decoding operation is performed by each LSTM.
t2 및 t3에서, 디코더(220)는, 제1 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "봐봐" 및 <sep> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t2에서, 첫번째 LSTM(221)에 <go> 및 제1 컨텍스트 정보에 기초하여, "봐봐"가 출력될 수 있다. <go>는 문장의 시작을 나타내는 토큰으로, 디코딩이 시작될 때 초기값으로 LSTM(221)에 입력될 수 있다. 또한, t3에서, 두번째 LSTM(222)에, 첫번째 LSTM(221)의 출력 값인 "봐봐"가 입력됨에 따라, <sep>가 출력될 수 있다.At t2 and t3, the decoder 220 may sequentially output "look" and <sep> tokens as a result of decoding based on the first context information. According to an embodiment, at t2 , “look” may be output to the first LSTM 221 based on <go> and the first context information. <go> is a token indicating the start of a sentence, and may be input to the LSTM 221 as an initial value when decoding is started. Also, at t3 , as the output value of the first LSTM 221 “look” is input to the second LSTM 222 , <sep> may be output.
일 실시 예에 의하면, 제2 토큰인, <sep>가 출력됨에 따라서, "봐봐"가 제1 언어의 텍스트 그룹에 대한 번역 결과로서 출력(223)될 수 있다. 일 실시 예에 의한 <sep> 토큰에 따라 출력되는 "봐봐"는 이후 인코딩되는 제1 언어의 "the weather" 및 "is nice"에 의하여, 다른 단어로 크게 변경될 확률이 낮다고 판단됨에 따라서, 번역 결과로서 먼저 출력되어, 사용자에게 제공될 수 있다.According to an embodiment, as the second token <sep> is output, "Look" may be output 223 as a translation result for the text group of the first language. According to an embodiment, "Look" output according to the <sep> token according to an embodiment is determined to be less likely to be significantly changed to another word by "the weather" and "is nice" of the first language to be encoded. As a result, it may be output first and provided to the user.
일 실시 예에 의하면, 현재 번역된 결과가 크게 변경될 확률이 낮다고 판단되는 경우, 먼저 출력되어 사용자에게 제공함으로써 사용자 편의를 도모할 수 있다. 따라서, 일 실시 예에 의한 학습 단계에서, 적절한 위치에 <sep> 토큰이 삽입되어, <eos> 토큰까지 인코딩되기 전에, 번역 결과가 먼저 출력될 수 있도록, 번역 동작을 위한 모델이 학습될 수 있다.According to an embodiment, when it is determined that the probability that the currently translated result is significantly changed is low, the result is output first and provided to the user, thereby improving user convenience. Therefore, in the learning step according to an embodiment, a model for a translation operation may be trained so that a <sep> token is inserted at an appropriate position and a translation result is output before the <eos> token is encoded. .
일 실시 예에 의하면, 제1 전자 장치(1000)에서 인식된 제1 언어의 텍스트 시퀀스가 <eos> 토큰으로 표시되는 문장 종료 위치까지 모두 인코딩되기 전에, "look"만 인코딩된 상태임에도, 디코딩 결과에서 <sep> 토큰이 검출됨에 따라, "look"과 대응되는 번역 결과가 먼저 출력될 수 있다. 따라서, 일 실시 예에 의하면, 동시 통역과 같이, 제1 언어의 텍스트들이 순차적으로 입력됨에 따라, 제1 언어의 텍스트 시퀀스가 모두 획득되기까지 상당한 시간이 소요되더라도, 제1 언어의 완전한 문장이 획득되기 전에 번역 결과가 출력될 수 있으므로, 사용자 편의가 도모될 수 있다.According to an embodiment, before the text sequence of the first language recognized by the first electronic device 1000 is all encoded up to the sentence end position indicated by the <eos> token, even though only “look” is encoded, the decoding result As the <sep> token is detected in , a translation result corresponding to “look” may be output first. Accordingly, according to an embodiment, as with simultaneous interpretation, as texts of the first language are sequentially input, even if it takes a considerable amount of time until all the text sequences of the first language are acquired, a complete sentence of the first language is obtained Since the translation result can be output before being performed, user convenience can be promoted.
t4에서, 인코더(232)는, "look" 다음으로 입력된 "the"를 인코딩한 결과, 제2' 컨텍스트 정보를 출력할 수 있다. 일 실시 예에 의한 인코더(232)는, "look"에 대응하는 제1 컨텍스트 정보에 기초하여 디코딩된 결과가, <sep>를 포함함에 따라, 번역 결과로서 출력된 경우, "look"을 제외하고 이후 수신된 "the"부터 새롭게 인코딩이 수행될 수 있다.At t4, the encoder 232 may output second' context information as a result of encoding "the" input after "look". The encoder 232 according to an embodiment, when a result decoded based on the first context information corresponding to “look” includes <sep> and is output as a translation result, except for “look” Thereafter, encoding may be newly performed from the received “the”.
t5 및 t6에서, 디코더(240)는, 제2' 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "그" 및 <continuous> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t5에서, 첫번째 LSTM(241)에 <go> 및 제2' 컨텍스트 정보에 기초하여, "그"가 획득될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(241)에 입력될 수 있다. 또한, t6에서, 두번째 LSTM(242)에, 첫번째 LSTM(241)의 출력 값이 입력됨에 따라서, <continuous>가 출력될 수 있다.At t5 and t6, the decoder 240 may sequentially output "that" and <continuous> tokens as a result of decoding based on the second' context information. According to an embodiment, at t5 , “that” may be obtained based on <go> and the second 'context information in the first LSTM 241 . <go> may be input to the LSTM 241 as an initial value when decoding is started. Also, at t6, as the output value of the first LSTM 241 is input to the second LSTM 242, <continuous> may be output.
일 실시 예에 의한 <continuous> 토큰은, 제2' 컨텍스트 정보에 기초한 디코딩 결과는, <sep> 토큰이 포함되지 않음을 나타낼 수 있다. 상술한 예에 한하지 않고, <continuous> 토큰 대신, 다양한 형태의 정보가 두번째 LSTM(242)의 디코딩 결과로서, 획득될 수 있다. 따라서, 제2' 컨텍스트 정보에 기초하여 디코딩된 결과는, <sep> 토큰이 디코딩 결과로서 획득되지 않음에 따라서, 번역 결과로도 출력되지 않을 수 있다.The <continuous> token according to an embodiment may indicate that the <sep> token is not included in the decoding result based on the second' context information. Not limited to the above example, instead of the <continuous> token, various types of information may be obtained as a result of decoding of the second LSTM 242 . Accordingly, a result decoded based on the second 'context information may not be output as a translation result as the <sep> token is not obtained as a decoding result.
일 실시 예에 의해 디코딩된 "그"는 이후 인코딩되는 제1 언어의 단어(ex. weather)에 의하여, 다른 단어로 크게 변경될 확률이 높다고 판단됨에 따라서, 번역 결과로서 먼저 출력되지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다. 예를 들면, 제2 언어의 디코딩 결과로서, "그" 다음에 <sep> 토큰이 출현하지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다.As it is determined that the decoded "he" according to an embodiment is highly likely to be changed to another word by the word of the first language (ex. weather) to be encoded thereafter, encoding and An artificial intelligence model used for decoding may be trained in advance. For example, the artificial intelligence model used for encoding and decoding may be pre-trained so that the <sep> token does not appear "after" as a result of decoding of the second language.
일 실시 예에 의한 인코더(230)는, 제2' 컨텍스트 정보에 기초하여, 디코딩된 결과에서, <sep> 토큰이 검출되지 않음에 따라서, t7에서, "the"를 인코딩한 결과에 기초하여, 두번째 LSTM(233)에서, "weather"를 인코딩할 수 있다. 일 실시 예에 의하면, "the" 다음에 "weather"가 나오는 순서에 따라, 인코딩된 제2 컨텍스트 정보가 출력될 수 있다.The encoder 230 according to an embodiment, based on the result of encoding "the" at t7, as the <sep> token is not detected in the decoded result based on the second 'context information, In the second LSTM 233, it may encode “weather”. According to an embodiment, the encoded second context information may be output according to the order in which “weather” appears after “the”.
일 실시 예에 의한 인코더(230)의 두번째 LSTM(233)에서 "weather"가 인코딩됨에 따라서, "the"와 "weather"가 순서대로 인코딩된 정보인 제2 컨텍스트 정보가 출력될 수 있다.As “weather” is encoded in the second LSTM 233 of the encoder 230 according to an embodiment, second context information that is information in which “the” and “weather” are sequentially encoded may be output.
t8, t9 및 t10에서, 디코더(250)는, 제2 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "그", "날씨가" 및 <sep> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t8에서, 첫번째 LSTM(251)에 <go> 및 제2 컨텍스트 정보에 기초하여, "그"가 출력될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(251)에 입력될 수 있다. 또한, t9에서, 두번째 LSTM(252)에, 첫번째 LSTM(251)의 출력값인, "그"가 입력됨에 따라, "날씨가"가 출력될 수 있다. 또한, t10에서, 세번째 LSTM(253)에, 두번째 LSTM(252)의 출력 값인 "날씨가"가 입력됨에 따라서, <sep> 토큰이 출력될 수 있다.At t8, t9, and t10, the decoder 250 may sequentially output "he", "weather" and <sep> tokens as a result of decoding based on the second context information. According to an embodiment, at t8 , “that” may be output to the first LSTM 251 based on <go> and the second context information. <go> may be input to the LSTM 251 as an initial value when decoding is started. Also, at t9 , as “that”, which is an output value of the first LSTM 251 , is input to the second LSTM 252 , “weather” may be output. Also, at t10 , as “weather”, which is an output value of the second LSTM 252 , is input to the third LSTM 253 , a <sep> token may be output.
일 실시 예에 의하면, 제2 토큰인, <sep>가 출력됨에 따라서, "날씨가"가 제1 언어의 텍스트 그룹에 대한 번역 결과로서 출력(254)될 수 있다. 일 실시 예에 의한 "그"는 번역 문장에서 먼저 출력된 "봐봐(223)"를 고려하여, 불필요한 단어로 판단됨에 따라서, 제거된 후, "날씨가"만 출력될 수 있다. 상술한 예에 한하지 않고, "그"도 번역 결과로서 출력될 수도 있다.According to an embodiment, as the second token <sep> is output, “weather” may be output 254 as a translation result for the text group of the first language. According to an embodiment, "he" is determined to be an unnecessary word in consideration of "look 223" that is first output in the translation sentence, and thus only "weather" may be output after it is removed. It is not limited to the above-mentioned example, and "he" may also be output as a translation result.
t11에서, 인코더(262)는, "weather" 다음으로 입력된 "is"를 인코딩한 결과, 제3' 컨텍스트 정보를 출력할 수 있다. 일 실시 예에 의한 인코더(262)는, "the weather"에 대응하는 제2 컨텍스트 정보에 기초하여 디코딩된 결과가, <sep>를 포함함에 따라, 번역 결과로서 출력된 경우, "the weather"을 제외하고 이후 수신된 "is"부터 새롭게 인코딩이 수행될 수 있다.At t11, the encoder 262 may output 3' context information as a result of encoding "is" input after "weather". The encoder 262 according to an embodiment may output "the weather" as a translation result as a result decoded based on the second context information corresponding to "the weather" includes <sep>. Except for, encoding may be newly performed from "is" received thereafter.
t12 및 t13에서, 디코더(270)는, 제3' 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "는" 및 <continuous> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t12에서, 첫번째 LSTM(271)에 <go> 및 제3' 컨텍스트 정보에 기초하여, "는"가 출력될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(271)에 입력될 수 있다. 또한, t13에서, 두번째 LSTM(272)에, 첫번째 LSTM(271)의 출력 값이 입력됨에 따라서, <continuous>가 출력될 수 있다.At t12 and t13, the decoder 270 may sequentially output "is" and <continuous> tokens as a result of decoding based on the 3' context information. According to an embodiment, at t12 , “is” may be output to the first LSTM 271 based on <go> and the third 'context information. <go> may be input to the LSTM 271 as an initial value when decoding is started. Also, at t13, as the output value of the first LSTM 271 is input to the second LSTM 272, <continuous> may be output.
일 실시 예에 의한 <continuous> 토큰은, 제3' 컨텍스트 정보에 기초한 디코딩 결과는, <sep> 토큰이 포함되지 않음을 나타낼 수 있다. 상술한 예에 한하지 않고, <continuous> 토큰 대신, 다양한 형태의 정보가 두번째 LSTM(272)의 디코딩 결과로서, 획득될 수 있다. 따라서, 제3' 컨텍스트 정보에 기초하여 디코딩된 결과는, <sep> 토큰이 디코딩 결과로서 획득되지 않음에 따라서, 번역 결과로도 출력되지 않을 수 있다.The <continuous> token according to an embodiment may indicate that the <sep> token is not included in the decoding result based on the third' context information. Not limited to the above example, instead of the <continuous> token, various types of information may be obtained as a result of decoding of the second LSTM 272 . Accordingly, a result decoded based on the 3' context information may not be output as a translation result as the <sep> token is not obtained as a decoding result.
일 실시 예에 의해 디코딩된 "는"은 이후 인코딩되는 제1 언어의 단어(ex. weather)에 의하여, 다른 단어로 크게 변경될 확률이 높다고 판단됨에 따라서, 번역 결과로서 먼저 출력되지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다. 예를 들면, 제2 언어의 디코딩 결과로서, "는" 다음에 <sep> 토큰이 출현하지 않도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 미리 학습될 수 있다.According to an embodiment, the decoded "is" is determined to be highly likely to be changed to another word by the word of the first language (ex. weather) to be encoded, so that it is not output as a translation result first, encoding and An artificial intelligence model used for decoding may be trained in advance. For example, as a result of decoding of the second language, an artificial intelligence model used for encoding and decoding may be trained in advance so that the <sep> token does not appear after "is".
일 실시 예에 의한 인코더(260)는, 제3' 컨텍스트 정보에 기초하여, 디코딩된 결과에서, <sep> 토큰이 검출되지 않음에 따라서, t14에서, "is"를 인코딩한 결과에 기초하여, 두번째 LSTM(263)에서, "nice"를 인코딩할 수 있다. The encoder 260 according to an embodiment, based on the result of encoding "is" at t14, as the <sep> token is not detected in the decoded result based on the 3' context information, In the second LSTM 263, we can encode "nice".
일 실시 예에 의한 인코더(280)의 두번째 LSTM(263)에서 "nice"가 인코딩된 결과, 제3 컨텍스트 정보가 출력될 수 있다.As a result of encoding "nice" in the second LSTM 263 of the encoder 280 according to an embodiment, third context information may be output.
일 실시 예에 의한 제3 컨텍스트 정보는, "nice"가 인코딩된 결과에 기초하여, LSTM에서 문장 종료를 나타내는 <eos> 토큰이 추가적으로 더 인코딩된 결과에 따라 획득될 수도 있다. 이에 한하지 않고, 도시된 예와 같이, <eos> 토큰이 추가적으로 더 인코딩되지 않고 출력된 제3 컨텍스트 정보에 기초하여, 디코더(280)에서 디코딩이 수행될 수 있다.The third context information according to an embodiment may be obtained according to the result of further encoding the <eos> token indicating the end of the sentence in the LSTM based on the result of encoding “nice”. However, the decoding may be performed by the decoder 280 based on the third context information output without further encoding the <eos> token as shown in the illustrated example.
t15, t16 및 t17에서, 디코더(280)는, 제3 컨텍스트 정보에 기초하여, 디코딩을 수행한 결과, "는", "좋아" 및 <eos> 토큰을 순차적으로 출력할 수 있다. 일 실시 예에 의하면, t15에서, 첫번째 LSTM(281)에 <go> 및 제3 컨텍스트 정보에 기초하여, "는"가 출력될 수 있다. <go>는 디코딩이 시작될 때 초기값으로 LSTM(281)에 입력될 수 있다. 또한, t16에서, 두번째 LSTM(282)에, 첫번째 LSTM(281)의 출력값인, "는"가 입력됨에 따라, "좋아"가 출력될 수 있다. 또한, t17에서, 세번째 LSTM(283)에, 두번째 LSTM(282)의 출력 값인 "좋아"가 입력됨에 따라서, <eos> 토큰이 출력될 수 있다.At t15, t16, and t17, the decoder 280 may sequentially output "is", "like", and <eos> tokens as a result of decoding based on the third context information. According to an embodiment, at t15 , “is” may be output to the first LSTM 281 based on <go> and the third context information. <go> may be input to the LSTM 281 as an initial value when decoding is started. Also, at t16, as “is”, which is an output value of the first LSTM 281 , is input to the second LSTM 282 , “like” may be output. Also, at t17 , as “like”, which is an output value of the second LSTM 282 , is input to the third LSTM 283 , the <eos> token may be output.
일 실시 예에 의하면, 문장의 종료를 나타내는 제1 토큰인, <eos>가 출력됨에 따라서, "좋아"가 제1 언어의 텍스트 그룹에 대한 번역 결과로서 출력(254)될 수 있다. 일 실시 예에 의한 "는"은, 먼저 출력된 "봐봐, 날씨가"(223, 254)를 고려하여, 번역 문장에서 불필요한 단어로 판단됨에 따라서, 제거된 후, "좋아"만 출력될 수 있다. 상술한 예에 한하지 않고, "는"도 번역 결과로서 출력될 수도 있다.According to an embodiment, as the first token <eos>, which is the first token indicating the end of the sentence, is output, “like” may be output 254 as a translation result for the text group of the first language. According to an embodiment, "is" is determined to be an unnecessary word in the translation sentence in consideration of the first output "Look, the weather" (223, 254), so after it is removed, only "good" may be output. . It is not limited to the above example, and "is" may also be output as a translation result.
도 3는 일 실시 예에 의한 제1 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.3 is a block diagram illustrating an internal configuration of the first electronic device 1000 according to an embodiment.
도 4는 일 실시 예에 의한 제1 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.4 is a block diagram illustrating an internal configuration of the first electronic device 1000 according to an embodiment.
도 3을 참조하면, 제1 전자 장치(1000)는, 프로세서(1300), 메모리(1700) 및 출력부(1200)을 포함할 수 있다. 그러나, 도 3에 도시된 구성 요소 모두가 제1 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 3에 도시된 구성 요소보다 많은 구성 요소에 의해 제1 전자 장치(1000)가 구현될 수도 있고, 도 3에 도시된 구성 요소보다 적은 구성 요소에 의해 제1 전자 장치(1000)가 구현될 수도 있다.Referring to FIG. 3 , the first electronic device 1000 may include a processor 1300 , a memory 1700 , and an output unit 1200 . However, not all of the components illustrated in FIG. 3 are essential components of the first electronic device 1000 . The first electronic device 1000 may be implemented by more components than those illustrated in FIG. 3 , or the first electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 3 . have.
예를 들면, 제1 전자 장치(1000)는 도 4에 도시된 바와 같이, 일 실시예에 따른 제1 전자 장치(1000)는, 프로세서(1300), 메모리(1700) 및 출력부(1200) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), 및 A/V 입력부(1600)를 더 포함할 수도 있다.For example, as illustrated in FIG. 4 , the first electronic device 1000 includes a processor 1300 , a memory 1700 , and an output unit 1200 other than the processor 1300 , the memory 1700 , and the output unit 1200 . It may further include a user input unit 1100 , a sensing unit 1400 , a communication unit 1500 , and an A/V input unit 1600 .
사용자 입력부(1100)는, 사용자가 제1 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.The user input unit 1100 means a means for a user to input data for controlling the first electronic device 1000 . For example, the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type). There may be a tension measurement method, a piezo effect method, etc.), a jog wheel, a jog switch, and the like, but is not limited thereto.
일 실시 예에 의하면, 사용자 입력부(1100)는, 제1 언어의 텍스트 시퀀스를 제2 언어로 번역하기 위한 사용자 입력을 수신할 수 있다.According to an embodiment, the user input unit 1100 may receive a user input for translating a text sequence of a first language into a second language.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.The output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210 , a sound output unit 1220 , and a vibration motor 1230 . have.
디스플레이부(1210)는 제1 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 텍스트 시퀀스가 번역된 결과를 출력할 수 있다.The display unit 1210 displays and outputs information processed by the first electronic device 1000 . According to an embodiment, the display unit 1210 may output a result of a text sequence being translated.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 제1 전자 장치(1000)의 구현 형태에 따라 제1 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다. On the other hand, when the display unit 1210 and the touch pad form a layer structure to form a touch screen, the display unit 1210 may be used as an input device in addition to an output device. The display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one. Also, depending on the implementation form of the first electronic device 1000 , the first electronic device 1000 may include two or more display units 1210 .
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 일 실시 예에 의하면, 음향 출력부(1220)는 텍스트 시퀀스가 번역된 결과를 출력할 수 있다. 예를 들면, 음향 출력부(1220)는, 음성 신호로 변환된 텍스트 시퀀스가 번역된 결과를 출력할 수 있다.The sound output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700 . According to an embodiment, the sound output unit 1220 may output a result of a text sequence being translated. For example, the sound output unit 1220 may output a translated result of a text sequence converted into a voice signal.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 진동 모터(1230)는 텍스트 시퀀스가 번역된 결과와 관련된 정보를 출력할 수 있다.The vibration motor 1230 may output a vibration signal. Also, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen. According to an embodiment, the vibration motor 1230 may output information related to a result of the text sequence being translated.
프로세서(1300)는, 통상적으로 제1 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. The processor 1300 generally controls the overall operation of the first electronic device 1000 . For example, the processor 1300 executes programs stored in the memory 1700 , and thus the user input unit 1100 , the output unit 1200 , the sensing unit 1400 , the communication unit 1500 , and the A/V input unit 1600 . ) can be controlled in general.
제1 전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 제1 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.The first electronic device 1000 may include at least one processor 1300 . For example, the first electronic device 1000 may include various types of processors such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.The processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. The command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300 . For example, the processor 1300 may be configured to execute instructions according to program codes stored in a recording device such as a memory.
일 실시 예에 의한 프로세서(1300)는 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득할 수 있다. 또한, 프로세서(1300)는 제1 컨텍스트 정보를 디코딩함으로써, 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 제2 텍스트 그룹에 제2 토큰이 포함되어 있는지 여부를 판단할 수 있다.The processor 1300 according to an embodiment encodes a first text group that does not include a first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language, so that the first The first context information corresponding to the text group may be acquired. Also, the processor 1300 obtains a second text group of a second language corresponding to the first text group by decoding the first context information, and determines whether the second token is included in the second text group. can do.
일 실시 예에 의한 프로세서(1300)는, 제2 텍스트 그룹에서 제2 토큰을 검출함에 따라, 제2 텍스트 그룹을 제1 텍스트 그룹에 대한 번역 결과로서 출력할 수 있다.The processor 1300 according to an embodiment may output the second text group as a translation result for the first text group as the second token is detected from the second text group.
일 실시 예에 의한 제2 토큰은, 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 그룹에 삽입되어 학습될 수 있다. 예를 들면, 제2 텍스트 그룹이, 이후 출현할 다른 텍스트에 의하여, 다른 텍스트로 변경될 가능성이 상대적으로 낮다고 판단됨에 따라서, 제2 토큰이 제2 텍스트 그룹의 다음 순서에 삽입될 수 있다. 일 실시 예에 의하면, 제2 토큰이 삽입된 위치에, 디코딩 결과로서, 제2 토큰이 출현할 수 있도록, 디코딩에 이용되는 인공지능 모델이 학습될 수 있다.According to an embodiment, the second token is a text of the second language according to a possibility that the second text group is changed to another text by at least one text group of the first language encoded after the first text group. It can be learned by being inserted into a group. For example, as it is determined that the possibility that the second text group will be changed to another text by another text to appear later is relatively low, the second token may be inserted in the next order of the second text group. According to an embodiment, an artificial intelligence model used for decoding may be trained so that the second token may appear as a decoding result at a position where the second token is inserted.
반면, 프로세서(1300)는, 제2 텍스트 그룹에서, 제2 토큰이 검출되지 않은 경우, 제1 언어의 텍스트 시퀀스에서, 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는 제3 텍스트 그룹을 인코딩할 수 있다. 또한, 프로세서(1300)는, 제3 텍스트 그룹이 인코딩된 결과, 제3 컨텍스트 정보를 획득하고, 제3 컨텍스트 정보를 디코딩함으로써, 제2 언어의 제4 텍스트 그룹을 획득할 수 있다. On the other hand, in the second text group, if the second token is not detected, the processor 1300 is configured to perform a third text group including the first text group and at least one text in the following order in the text sequence of the first language. can be encoded. Also, the processor 1300 may obtain the third context information as a result of encoding the third text group, and may obtain the fourth text group of the second language by decoding the third context information.
센싱부(1400)는, 제1 전자 장치(1000)의 상태 또는 제1 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다. The sensing unit 1400 may detect a state of the first electronic device 1000 or a state around the first electronic device 1000 , and transmit the sensed information to the processor 1300 .
센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. The sensing unit 1400 includes a geomagnetic sensor 1410 , an acceleration sensor 1420 , a temperature/humidity sensor 1430 , an infrared sensor 1440 , a gyroscope sensor 1450 , and a position sensor. (eg, GPS) 1460 , a barometric pressure sensor 1470 , a proximity sensor 1480 , and at least one of an illuminance sensor 1490 , but is not limited thereto.
통신부(1500)는, 제1 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다. The communication unit 1500 may include one or more components that allow the first electronic device 1000 to communicate with the server 2000 or an external device (not shown). For example, the communication unit 1500 may include a short-range communication unit 1510 , a mobile communication unit 1520 , and a broadcast receiving unit 1530 .
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. Short-range wireless communication unit 1510, Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.The mobile communication unit 1520 transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network. Here, the wireless signal may include various types of data according to transmission/reception of a voice call signal, a video call signal, or a text/multimedia message.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 제1 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.The broadcast receiver 1530 receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel. The broadcast channel may include a satellite channel and a terrestrial channel. According to an embodiment, the first electronic device 1000 may not include the broadcast receiver 1530 .
일 실시 예에 의한, 통신부(1500)는 텍스트 시퀀스를 번역하는데 필요한 데이터를 송수신할 수 있다. 예를 들면, 통신부(1500)는 번역하고자 하는 제1 언어의 텍스트 시퀀스를 외부로부터 수신할 수 있다.According to an embodiment, the communication unit 1500 may transmit/receive data required to translate a text sequence. For example, the communication unit 1500 may receive a text sequence of the first language to be translated from the outside.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. The A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610 , a microphone 1620 , and the like. The camera 1610 may obtain an image frame such as a still image or a moving image through an image sensor in a video call mode or a shooting mode. The image captured through the image sensor may be processed through the processor 1300 or a separate image processing unit (not shown).
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 일 실시 예에 의한 마이크로폰(1620)은, 제1 언어의 텍스트 시퀀스와 대응되는, 사용자의 음성 신호를 순차적으로 수신할 수 있다. 일 실시 예에 의하면, 마이크로폰(1620)에서 수신된 사용자의 음성 신호에 대하여 음성 인식이 수행됨으로써, 제1 언어의 텍스트 시퀀스가 획득될 수 있다.The microphone 1620 receives an external sound signal and processes it as electrical voice data. The microphone 1620 according to an embodiment may sequentially receive a user's voice signal corresponding to a text sequence of the first language. According to an embodiment, by performing voice recognition on the user's voice signal received by the microphone 1620, a text sequence of the first language may be obtained.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 제1 전자 장치(1000)로 입력되거나 제1 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. The memory 1700 may store a program for processing and controlling the processor 1300 , and may also store data input to or output from the first electronic device 1000 .
일 실시 예에 의한 메모리(1700)는, 텍스트 시퀀스를 번역하는데 필요한 데이터를 저장할 수 있다. 예를 들면, 메모리(1700)는 텍스트 시퀀스를 번역하기 위한 인코더 및 디코더에서 이용되는 학습 모델(ex. RNN, LSTM)을 저장할 수 있다.The memory 1700 according to an embodiment may store data required to translate a text sequence. For example, the memory 1700 may store a learning model (eg, RNN, LSTM) used in an encoder and a decoder for translating a text sequence.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. The memory 1700 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM. (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , may include at least one type of storage medium among optical disks.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다. Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, may be classified into a UI module 1710 , a touch screen module 1720 , a notification module 1730 , and the like. .
UI 모듈(1710)은, 애플리케이션 별로 제1 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.The UI module 1710 may provide a specialized UI, GUI, or the like that interworks with the first electronic device 1000 for each application. The touch screen module 1720 may detect a touch gesture on the user's touch screen and transmit information about the touch gesture to the processor 1300 . The touch screen module 1720 according to some embodiments may recognize and analyze a touch code. The touch screen module 1720 may be configured as separate hardware including a controller.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.Various sensors may be provided inside or near the touch screen to detect a touch or a proximity touch of the touch screen. A tactile sensor is an example of a sensor for detecting a touch of a touch screen. A tactile sensor refers to a sensor that senses a touch of a specific object to the extent or higher than that felt by a human. The tactile sensor may sense various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.The user's touch gesture may include a tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
알림 모듈(1730)은 제1 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.The notification module 1730 may generate a signal for notifying the occurrence of an event of the first electronic device 1000 .
도 5는 일 실시 예에 의한 텍스트 시퀀스를 번역하는 방법을 나타낸 순서도이다.5 is a flowchart illustrating a method of translating a text sequence according to an embodiment.
도 5를 참조하면, 단계 510에서, 제1 전자 장치(1000)는, 제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득할 수 있다.Referring to FIG. 5 , in operation 510 , the first electronic device 1000 performs a second message that does not include the first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language. By encoding one text group, first context information corresponding to the first text group may be obtained.
일 실시 예에 따른 제1 언어의 텍스트 시퀀스는, 제1 전자 장치(1000)에서 획득된 사용자의 음성 신호에 대해 음성 인식이 수행됨으로써, 획득될 수 있다. 일 실시 예에 의한 제1 텍스트 그룹은, 제1 언어의 텍스트 시퀀스에 포함된 텍스트들이 순차적으로 획득됨에 따라서, 완전한 문장이 아닌, 문장의 일부분을 구성하는 텍스트를 포함할 수 있다.The text sequence of the first language according to an embodiment may be acquired by performing voice recognition on the user's voice signal acquired by the first electronic device 1000 . The first text group according to an embodiment may include texts constituting a part of a sentence, not a complete sentence, as texts included in the text sequence of the first language are sequentially acquired.
일 실시 예에 의한 제1 컨텍스트 정보는, 미리 학습된 학습 모델을 이용하여 인코딩을 수행하는 인코더에 의하여 인코딩됨으로써 획득될 수 있다.The first context information according to an embodiment may be obtained by being encoded by an encoder that performs encoding using a pre-trained learning model.
단계 520에서, 제1 전자 장치(1000)는, 제1 컨텍스트 정보를 디코딩하여, 제2 언어의 제2 텍스트 그룹을 획득할 수 있다. 일 실시 예에 의한 제2 언어의 제2 텍스트 그룹은, 미리 학습된 학습 모델을 이용하여 디코딩을 수행하는 디코더에 의하여, 제1 컨텍스트 정보가 디코딩됨으로써 획득될 수 있다.In operation 520, the first electronic device 1000 may obtain a second text group of a second language by decoding the first context information. The second text group of the second language according to an embodiment may be obtained by decoding the first context information by a decoder that performs decoding using a pre-trained learning model.
단계 530에서, 제1 전자 장치(1000)는, 제2 텍스트 그룹에 제2 토큰이 포함되어 있는지 여부를 판단할 수 있다. 일 실시 예에 의한 제2 토큰은, 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 그룹에 삽입된 후, 제2 토큰이 삽입된 제2 텍스트 그룹에 기초하여, 학습이 수행될 수 있다.In operation 530, the first electronic device 1000 may determine whether the second token is included in the second text group. According to an embodiment, the second token is a text of the second language according to a possibility that the second text group is changed to another text by at least one text group of the first language encoded after the first text group. After being inserted into the group, learning may be performed based on the second text group into which the second token is inserted.
또한, 단계 540에서, 제1 전자 장치(1000)는, 제2 텍스트 그룹에서 제2 토큰을 검출한 경우, 제2 텍스트 그룹을 번역 결과로서 외부로 출력할 수 있다. 예를 들면, 제1 전자 장치(1000)는 제2 토큰이 포함된 제2 텍스트 그룹의 텍스트들을 음성 신호로 변환하여, 스피커를 통해 출력하거나, 제2 텍스트 그룹의 텍스트들을 디스플레이에 표시할 수 있다.Also, in operation 540 , when detecting the second token in the second text group, the first electronic device 1000 may output the second text group to the outside as a translation result. For example, the first electronic device 1000 may convert texts of the second text group including the second token into voice signals, output them through a speaker, or display the texts of the second text group on a display. .
반면, 제1 전자 장치(1000)는, 제2 텍스트 그룹에서, 제2 토큰이 검출되지 않은 경우, 제1 언어의 텍스트 시퀀스에서, 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는 제3 텍스트 그룹을 인코딩할 수 있다. 또한, 제1 전자 장치(1000)는, 제3 텍스트 그룹이 인코딩된 결과, 제3 컨텍스트 정보를 획득하고, 제3 컨텍스트 정보를 디코딩함으로써, 제2 언어의 제4 텍스트 그룹을 획득할 수 있다.On the other hand, when the second token is not detected in the second text group, the first electronic device 1000 , in the text sequence of the first language, includes the first text group and at least one text in the following order. 3 text groups can be encoded. Also, as a result of encoding the third text group, the first electronic device 1000 may acquire the third context information and decode the third context information, thereby acquiring the fourth text group of the second language.
도 6은 일 실시 예에 의한 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 일 예를 나타낸 블록도이다.6 is a block diagram illustrating an example of learning an artificial intelligence model for translating a text sequence according to an embodiment.
도 6을 참조하면, 제2 전자 장치(2000)는, 일 실시 예에 의한 제1 언어의 텍스트 시퀀스를 번역하여, 제2 언어의 텍스트 시퀀스를 획득하는데 이용되는 인공지능 모델을 학습할 수 있다. 일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스를 인코딩하고, 인코딩된 결과를 디코딩하는데 이용되는 인공지능 모델이 학습될 수 있다.Referring to FIG. 6 , the second electronic device 2000 may learn an artificial intelligence model used to obtain a text sequence of a second language by translating a text sequence of a first language according to an embodiment. According to an embodiment, an artificial intelligence model used to encode a text sequence of a first language and decode an encoded result may be trained.
일 실시 예에 의한 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 제2 전자 장치(2000)는, 텍스트 시퀀스를 번역하는 제1 전자 장치(1000)와 동일할 수 있으나, 이에 한하지 않고, 다른 장치일 수도 있다.The second electronic device 2000 for learning the artificial intelligence model for translating a text sequence according to an embodiment may be the same as the first electronic device 1000 for translating the text sequence, but is not limited thereto, and other It may be a device.
단계 610 및 620에서, 제2 전자 장치(2000)는, 제1 언어의 텍스트 시퀀스 및 제2 언어의 텍스트 시퀀스를 획득할 수 있다. In steps 610 and 620 , the second electronic device 2000 may obtain a text sequence of a first language and a text sequence of a second language.
일 실시 예에 의하면, 제1 언어의 텍스트 시퀀스가 번역된 결과로서, 제2 언어의 텍스트 시퀀스가 획득될 수 있도록 인공지능 모델이 학습될 수 있다. 일 실시 예에 의한 제1 언어 및 제2 언어의 텍스트 시퀀스들은, 각각 1개의 완전한 문장을 포함할 수 있다.According to an embodiment, as a result of the translation of the text sequence of the first language, the artificial intelligence model may be trained so that the text sequence of the second language may be obtained. The text sequences of the first language and the second language according to an embodiment may each include one complete sentence.
단계 630에서, 제2 전자 장치(2000)는, 제2 언어의 텍스트 시퀀스에 제2 토큰을 삽입할 수 있다. 일 실시 예에 의한 제1 전자 장치(1000)는 이후에 인코딩된 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 현재 디코딩된 결과인 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 시퀀스를 분할하고, 분할된 위치에 제2 토큰을 삽입할 수 있다. 예를 들면, 제2 토큰은, 문맥 또는 문장 형식에 따라서, 제2 언어의 텍스트 시퀀스가 분할된 위치에 삽입될 수 있다.In operation 630 , the second electronic device 2000 may insert the second token into the text sequence of the second language. The first electronic device 1000 according to an embodiment may change the second text group, which is the currently decoded result, into another text according to the possibility that the second text group is changed to another text according to at least one text group of the first language encoded thereafter. It is possible to segment the text sequence of the language, and insert the second token at the segmented position. For example, the second token may be inserted at a location where a text sequence of the second language is divided according to a context or a sentence format.
일 실시 예에 의한 제2 언어의 텍스트 시퀀스가 분할된 각각의 구간은, 상기 각 구간의 끝에서, 제2 토큰 또는 제1 토큰을 포함할 수 있다. 따라서, 디코딩된 결과로, 제1 토큰 또는 제2 토큰이 검출되는 경우, 제1 언어의 텍스트 시퀀스의 모든 구간에 대한 인코딩이 완료되기 전에, 제2 토큰이 검출된 제2 언어의 텍스트 시퀀스의 일부 구간이 출력될 수 있다. 또한, 디코딩된 결과에서, 제1 토큰이 검출되는 경우, 제2 언어의 텍스트 시퀀스의 문장이 종료된 것으로 판단됨에 따라서, 제1 토큰이 검출된 제2 언어의 텍스트 시퀀스의 구간이 출력될 수 있다.Each section in which the text sequence of the second language is divided according to an embodiment may include a second token or a first token at the end of each section. Accordingly, as a decoded result, when the first token or the second token is detected, before encoding for all sections of the text sequence of the first language is completed, a portion of the text sequence of the second language in which the second token is detected A section may be output. In addition, in the decoded result, when the first token is detected, it is determined that the sentence of the text sequence of the second language is finished, and thus a section of the text sequence of the second language in which the first token is detected may be output. .
단계 640에서, 제2 전자 장치(2000)는, 제2 언어의 텍스트 시퀀스가 분할된 각각의 구간과 대응되는, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별할 수 있다. In operation 640 , the second electronic device 2000 may identify each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided.
따라서, 단계 650에서, 제2 전자 장치(2000)는 식별된 대응 관계에 기초하여, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 인코딩된 결과를 디코딩함에 따라, 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습할 수 있다. 일 실시 예에 따라, 인코더에 의해 인코딩된 결과는, 일 실시 예에 의한 컨텍스트 정보일 수 있다.Accordingly, in operation 650 , the second electronic device 2000 encodes each section into which the text sequence of the first language is divided based on the identified correspondence relationship, and decodes the encoded result, so that the text of the second language The artificial intelligence model can be trained so that each section in which the sequence is divided can be output. According to an embodiment, the result encoded by the encoder may be context information according to an embodiment.
도 7은 일 실시 예에 의한 제2 전자 장치(2000)의 내부 구성을 설명하기 위한 블록도이다.7 is a block diagram illustrating an internal configuration of the second electronic device 2000 according to an exemplary embodiment.
도 8은 일 실시 예에 의한 제2 전자 장치(2000)의 내부 구성을 설명하기 위한 블록도이다.8 is a block diagram illustrating an internal configuration of the second electronic device 2000 according to an exemplary embodiment.
도 7을 참조하면, 제2 전자 장치(2000)는, 프로세서(2300) 및 메모리(2700)을 포함할 수 있다. 그러나, 도 7에 도시된 구성 요소 모두가 제2 전자 장치(2000)의 필수 구성 요소인 것은 아니다. 도 7에 도시된 구성 요소보다 많은 구성 요소에 의해 제2 전자 장치(2000)가 구현될 수도 있고, 도 7에 도시된 구성 요소보다 적은 구성 요소에 의해 제2 전자 장치(2000)가 구현될 수도 있다.Referring to FIG. 7 , the second electronic device 2000 may include a processor 2300 and a memory 2700 . However, not all of the components shown in FIG. 7 are essential components of the second electronic device 2000 . The second electronic device 2000 may be implemented with more components than those shown in FIG. 7 , or the second electronic device 2000 may be implemented with fewer components than those shown in FIG. 7 . have.
예를 들면, 제2 전자 장치(2000)는 도 8에 도시된 바와 같이, 일 실시예에 따른 제2 전자 장치(2000)는, 프로세서(2300) 및 메모리(2700) 이외에 사용자 입력부(2100), 센싱부(2400), A/V 입력부(2600), 통신부(2500) 및 출력부(1200)를 더 포함할 수도 있다.For example, as shown in FIG. 8 , the second electronic device 2000 includes a user input unit 2100 in addition to the processor 2300 and the memory 2700, It may further include a sensing unit 2400 , an A/V input unit 2600 , a communication unit 2500 , and an output unit 1200 .
사용자 입력부(2100)는, 사용자가 제2 전자 장치(2000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(2100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.The user input unit 2100 means a means for a user to input data for controlling the second electronic device 2000 . For example, the user input unit 2100 includes a key pad, a dome switch, and a touch pad (contact capacitive method, pressure resistance film method, infrared sensing method, surface ultrasonic conduction method, integral type). There may be a tension measurement method, a piezo effect method, etc.), a jog wheel, a jog switch, and the like, but is not limited thereto.
일 실시 예에 의하면, 사용자 입력부(2100)는, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는데 필요한 사용자 입력을 수신할 수 있다.According to an embodiment, the user input unit 2100 may receive a user input necessary for learning an artificial intelligence model for translating a text sequence.
출력부(2200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(2200)는 디스플레이부(2210), 음향 출력부(2220), 및 진동 모터(2230)를 포함할 수 있다.The output unit 2200 may output an audio signal, a video signal, or a vibration signal, and the output unit 2200 may include a display unit 2210 , a sound output unit 2220 , and a vibration motor 2230 . have.
디스플레이부(2210)는 제2 전자 장치(2000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(2210)는 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습한 결과와 관련된 정보를 출력할 수 있다.The display unit 2210 displays and outputs information processed by the second electronic device 2000 . According to an embodiment, the display unit 2210 may output information related to a result of learning an artificial intelligence model for translating a text sequence.
한편, 디스플레이부(2210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(2210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(2210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 제2 전자 장치(2000)의 구현 형태에 따라 제2 전자 장치(2000)는 디스플레이부(2210)를 2개 이상 포함할 수도 있다. Meanwhile, when the display unit 2210 and the touchpad form a layer structure to form a touch screen, the display unit 2210 may be used as an input device in addition to an output device. The display unit 2210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, a three-dimensional display ( 3D display) and electrophoretic display (electrophoretic display) may include at least one. In addition, depending on the implementation form of the second electronic device 2000 , the second electronic device 2000 may include two or more display units 2210 .
음향 출력부(2220)는 통신부(2500)로부터 수신되거나 메모리(2700)에 저장된 오디오 데이터를 출력한다. 진동 모터(2230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(2230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 일 실시 예에 의하면, 음향 출력부(2220) 및 진동 모터(2230)는 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습한 결과와 관련된 정보를 출력할 수 있다.The sound output unit 2220 outputs audio data received from the communication unit 2500 or stored in the memory 2700 . The vibration motor 2230 may output a vibration signal. Also, the vibration motor 2230 may output a vibration signal when a touch is input to the touch screen. According to an embodiment, the sound output unit 2220 and the vibration motor 2230 may output information related to a result of learning an artificial intelligence model for translating a text sequence.
프로세서(2300)는, 통상적으로 제2 전자 장치(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 메모리(2700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(2100), 출력부(2200), 센싱부(2400), 통신부(2500), A/V 입력부(2600) 등을 전반적으로 제어할 수 있다. The processor 2300 generally controls the overall operation of the second electronic device 2000 . For example, the processor 2300 executes programs stored in the memory 2700 , and thus the user input unit 2100 , the output unit 2200 , the sensing unit 2400 , the communication unit 2500 , and the A/V input unit 2600 . ) can be controlled in general.
제2 전자 장치(2000)는 적어도 하나의 프로세서(2300)를 포함할 수 있다. 예를 들면, 제2 전자 장치(2000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.The second electronic device 2000 may include at least one processor 2300 . For example, the second electronic device 2000 may include various types of processors, such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
프로세서(2300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(2700)로부터 프로세서(2300)에 제공되거나, 통신부(2500)를 통해 수신되어 프로세서(2300)로 제공될 수 있다. 예를 들면 프로세서(2300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.The processor 2300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. The command may be provided to the processor 2300 from the memory 2700 , or may be received through the communication unit 2500 and provided to the processor 2300 . For example, the processor 2300 may be configured to execute instructions according to program codes stored in a recording device such as a memory.
일 실시 예에 의한 프로세서(2300)는 텍스트 시퀀스를 번역하기 위한 인코더 및 디코더에서 이용되는 인공지능 모델을 학습할 수 있다. 일 실시 예에 의한 프로세서(2300)는, 제1 언어의 텍스트 시퀀스 및 이와 대응되는, 제2 언어의 텍스트 시퀀스에 기초하여, 제1 언어의 텍스트 시퀀스의 번역 결과로, 제2 언어의 텍스트 시퀀스가 출력될 수 있도록, 인코더 및 디코더에서 이용되는 인공지능 모델(ex. LSTM, RNN)을 학습할 수 있다.The processor 2300 according to an embodiment may learn an artificial intelligence model used in an encoder and a decoder for translating a text sequence. The processor 2300 according to an embodiment may generate a text sequence of the second language as a result of translation of the text sequence of the first language based on the text sequence of the first language and the corresponding text sequence of the second language. It is possible to learn artificial intelligence models (ex. LSTM, RNN) used in encoders and decoders so that they can be output.
일 실시 예에 의한 제1 언어 및 제2 언어의 텍스트 시퀀스들은, 각각 1개의 완전한 문장을 포함할 수 있다.The text sequences of the first language and the second language according to an embodiment may each include one complete sentence.
일 실시 예에 의한 프로세서(2300)는 제2 언어의 텍스트 시퀀스를 분할하고, 분할된 위치에 제2 토큰을 삽입할 수 있다. 일 실시 예에 의한 제2 토큰은 이후에 인코딩된 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 제2 언어의 텍스트 그룹에 삽입될 수 있는 토큰이다. 예를 들면, 문장 형식 또는 문맥에 따라서, 이후 인코딩된 결과에 따라, 현재 디코딩된 결과가 다른 텍스트로 크게 변경될 가능성이 상대적으로 낮은 것으로 보고, 제2 언어의 텍스트 시퀀스의 분할된 위치에 제2 토큰이 삽입될 수 있다.The processor 2300 according to an embodiment may divide the text sequence of the second language and insert the second token at the divided position. The second token according to an embodiment may then be inserted into the text group of the second language according to the possibility that the second text group is changed to another text by the encoded at least one text group of the first language. is a token For example, according to the sentence format or context, according to the subsequently encoded result, it is considered that the probability that the currently decoded result is significantly changed to another text is relatively low, and the second A token can be inserted.
일 실시 예에 의하면, 텍스트 시퀀스에 포함된 각각의 단어가 주어, 동사, 목적어, 보어 등의 동일한 문장 형식에 속하는 지를 판단함으로써, 문맥에 따른 텍스트 그룹이 분할될 수 있다. 또한, 서로 다른 문맥인 것으로 판단된 두 단어 사이에는, 제2 토큰이 삽입될 수 있다. According to an embodiment, by determining whether each word included in the text sequence belongs to the same sentence form such as a subject, a verb, an object, and a complement, a text group according to a context may be divided. Also, a second token may be inserted between two words determined to be in different contexts.
일 실시 예에 의한 문맥은, 상술한 문장 형식에 한하지 않고, 복수 개의 단어들을 복수 개의 그룹으로 분할하기 위한 다양한 기준에 따라 결정될 수 있다.The context according to an embodiment is not limited to the above-described sentence format, and may be determined according to various criteria for dividing a plurality of words into a plurality of groups.
일 실시 예에 의하면, 제2 언어의 텍스트 시퀀스가 "봐봐, 날씨가 좋아"인 경우, "봐봐"는, 동사에 속하고, "날씨가"는 주어에 속함에 따라, "봐봐"와 "날씨가" 사이에 앞뒤 단어의 문장 형식이 다름에 의해 텍스트 그룹이 분할됨을 나타내는, 제2 토큰이 삽입될 수 있다. 또한, "좋다"는 보어로 판단됨에 따라, "날씨가"와, "좋다" 사이에 토큰이 삽입될 수 있다. 또한, "좋다" 다음에는, 문장이 종료됨을 나타내는 제1 토큰이 추가로 삽입될 수 있다.According to an embodiment, when the text sequence of the second language is "Look, the weather is nice", "Look" belongs to a verb, and "Weather" belongs to a subject, so "Look" and "Weather" A second token, indicating that the text group is divided due to the difference in the sentence format of the preceding and following words, may be inserted between "a". In addition, as “good” is determined as a bore, a token may be inserted between “weather” and “good”. Also, after “good”, a first token indicating that the sentence is finished may be additionally inserted.
일 실시 예에 의한 프로세서(2300)는, 제2 언어의 텍스트 시퀀스가 분할된 각각의 구간과 대응되는, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별할 수 있다. 따라서, 프로세서(2300)는, 식별된 대응 관계에 기초하여, 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하는데 이용되는 인공지능 모델 및 인코딩된 결과를 디코딩함에 따라, 제2 언어의 텍스트 시퀀스가 분할된 각 구간에 대한 텍스트들을 출력하데 이용되는 인공지능 모델을 학습할 수 있다. 일 실시 예에 따라, 인코딩된 결과는, 일 실시 예에 의한 컨텍스트 정보일 수 있다.The processor 2300 according to an embodiment may identify each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided. Accordingly, the processor 2300 is configured to decode the encoded result and the artificial intelligence model used to encode each section in which the text sequence of the first language is divided, based on the identified correspondence relationship, so that the text sequence of the second language is decoded. It is possible to learn an artificial intelligence model used to output texts for each section in which is divided. According to an embodiment, the encoded result may be context information according to an embodiment.
따라서, 일 실시 예에 의하면, 도 2에 도시된, 제1 컨텍스트 정보, 제2 컨텍스트 정보 및 제3 컨텍스트 정보에 기초하여, 각각 디코딩된 결과로서, "봐봐"(223), "날씨가"(254), 및 "좋아"(284)가 출력될 수 있도록, 인코딩 및 디코딩에 이용되는 인공지능 모델이 학습될 수 있다.Accordingly, according to an embodiment, as the decoded results, respectively, based on the first context information, the second context information, and the third context information shown in FIG. 2 , “look” 223 and “weather” ( 254), and an artificial intelligence model used for encoding and decoding can be trained so that “like” 284 can be output.
센싱부(2400)는, 제2 전자 장치(2000)의 상태 또는 제2 전자 장치(2000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(2300)로 전달할 수 있다. The sensing unit 2400 may detect a state of the second electronic device 2000 or a state around the second electronic device 2000 , and transmit the sensed information to the processor 2300 .
센싱부(2400)는, 지자기 센서(Geomagnetic sensor)(2410), 가속도 센서(Acceleration sensor)(2420), 온/습도 센서(2430), 적외선 센서(2440), 자이로스코프 센서(2450), 위치 센서(예컨대, GPS)(2460), 기압 센서(2470), 근접 센서(2480), 및 RGB 센서(illuminance sensor)(2490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. The sensing unit 2400 includes a geomagnetic sensor 2410 , an acceleration sensor 2420 , a temperature/humidity sensor 2430 , an infrared sensor 2440 , a gyroscope sensor 2450 , and a position sensor. (eg, GPS) 2460 , a barometric pressure sensor 2470 , a proximity sensor 2480 , and at least one of an illuminance sensor 2490 , but is not limited thereto.
통신부(2500)는, 제2 전자 장치(2000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(2500)는, 근거리 통신부(2510), 이동 통신부(2520), 방송 수신부(2530)를 포함할 수 있다. The communication unit 2500 may include one or more components that allow the second electronic device 2000 to communicate with the server 2000 or an external device (not shown). For example, the communication unit 2500 may include a short-range communication unit 2510 , a mobile communication unit 2520 , and a broadcast receiving unit 2530 .
근거리 통신부(short-range wireless communication unit)(2510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. Short-range wireless communication unit 2510, Bluetooth communication unit, BLE (Bluetooth Low Energy) communication unit, short-range wireless communication unit (Near Field Communication unit), WLAN (Wi-Fi) communication unit, Zigbee (Zigbee) communication unit, infrared ( It may include an IrDA, infrared Data Association) communication unit, a Wi-Fi Direct (WFD) communication unit, an ultra wideband (UWB) communication unit, an Ant+ communication unit, and the like, but is not limited thereto.
이동 통신부(2520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.The mobile communication unit 2520 transmits/receives a radio signal to and from at least one of a base station, an external terminal, and a server on a mobile communication network. Here, the wireless signal may include various types of data according to transmission/reception of a voice call signal, a video call signal, or a text/multimedia message.
방송 수신부(2530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 제2 전자 장치(2000)가 방송 수신부(2530)를 포함하지 않을 수도 있다.The broadcast receiver 2530 receives a broadcast signal and/or broadcast-related information from the outside through a broadcast channel. The broadcast channel may include a satellite channel and a terrestrial channel. According to an implementation example, the second electronic device 2000 may not include the broadcast receiver 2530 .
일 실시 예에 의한, 통신부(2500)는 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는데 필요한 데이터를 송수신할 수 있다.According to an embodiment, the communication unit 2500 may transmit/receive data required for learning an artificial intelligence model for translating a text sequence.
A/V(Audio/Video) 입력부(2600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(2610)와 마이크로폰(2620) 등이 포함될 수 있다. 카메라(2610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(2300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. The A/V (Audio/Video) input unit 2600 is for inputting an audio signal or a video signal, and may include a camera 2610 , a microphone 2620 , and the like. The camera 2610 may obtain an image frame such as a still image or a moving image through an image sensor in a video call mode or a photographing mode. The image captured through the image sensor may be processed through the processor 2300 or a separate image processing unit (not shown).
마이크로폰(2620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(2620)은 통화를 수행하기 위한 사용자의 음성 신호를 수신할 수 있다. The microphone 2620 receives an external sound signal and processes it as electrical voice data. For example, the microphone 2620 may receive a user's voice signal for conducting a call.
메모리(2700)는, 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 제2 전자 장치(2000)로 입력되거나 제2 전자 장치(2000)로부터 출력되는 데이터를 저장할 수도 있다. The memory 2700 may store a program for processing and control of the processor 2300 , and may also store data input to or output from the second electronic device 2000 .
일 실시 예에 의한 메모리(2700)는 텍스트 시퀀스를 번역하기 위하여, 프로세서(2300)에 의해 학습된 인공지능 모델을 저장할 수 있다.The memory 2700 according to an embodiment may store the artificial intelligence model learned by the processor 2300 in order to translate a text sequence.
메모리(2700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. The memory 2700 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM. (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , may include at least one type of storage medium among optical disks.
메모리(2700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(2710), 터치 스크린 모듈(2720), 알림 모듈(2730) 등으로 분류될 수 있다. Programs stored in the memory 2700 may be classified into a plurality of modules according to their functions, for example, may be classified into a UI module 2710 , a touch screen module 2720 , a notification module 2730 , and the like. .
UI 모듈(2710)은, 애플리케이션 별로 제2 전자 장치(2000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(2720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(2300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(2720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(2720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.The UI module 2710 may provide a specialized UI, GUI, or the like that interworks with the second electronic device 2000 for each application. The touch screen module 2720 may detect a touch gesture on the user's touch screen and transmit information about the touch gesture to the processor 2300 . The touch screen module 2720 according to some embodiments may recognize and analyze a touch code. The touch screen module 2720 may be configured as separate hardware including a controller.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.Various sensors may be provided inside or near the touch screen to detect a touch or a proximity touch of the touch screen. A tactile sensor is an example of a sensor for detecting a touch of a touch screen. A tactile sensor refers to a sensor that senses a touch of a specific object to the extent or higher than that felt by a human. The tactile sensor may sense various information such as the roughness of the contact surface, the hardness of the contact object, and the temperature of the contact point.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.The user's touch gesture may include a tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
알림 모듈(2730)은 제2 전자 장치(2000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.The notification module 2730 may generate a signal for notifying the occurrence of an event of the second electronic device 2000 .
일 실시 예에 의하면 순차적으로 획득되는, 텍스트 시퀀스에 대한 번역 결과가 빠르게 출력될 수 있다.According to an embodiment, a translation result for a text sequence that is sequentially obtained may be quickly output.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.The device-readable storage medium may be provided in the form of a non-transitory storage medium. Here, 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as For example, the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to one embodiment, the method according to various embodiments disclosed in this document may be provided as included in a computer program product. Computer program products may be traded between sellers and buyers as commodities. The computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play Store™) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly, online between smartphones (eg: smartphones). In the case of online distribution, at least a portion of a computer program product (eg, a downloadable app) is stored at least in a machine-readable storage medium, such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Also, in this specification, “unit” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present invention is for illustration, and those of ordinary skill in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

Claims (15)

  1. 제1 전자 장치에서, 텍스트 시퀀스를 번역하는 방법에 있어서,A method for translating a text sequence in a first electronic device, the method comprising:
    제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하는 단계;First context information corresponding to the first text group by encoding a first text group that does not include a first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language obtaining a;
    상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하는 단계;obtaining a second text group of a second language corresponding to the first text group by decoding the first context information;
    상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 단계; 및detecting a second token in the second text group; and
    상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 단계를 포함하는, 방법.outputting the second text group as a translation result for the first text group as the second token is detected.
  2. 제1항에 있어서, 상기 제2 토큰은The method of claim 1, wherein the second token is
    상기 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 상기 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 상기 제2 언어의 텍스트 그룹에 삽입되어 학습된 토큰인, 방법.According to the possibility that the second text group is changed to another text by at least one text group of the first language encoded after the first text group, a token inserted into the text group of the second language and learned In, way.
  3. 제1항에 있어서, According to claim 1,
    상기 제2 텍스트 그룹에서, 상기 제2 토큰이 검출되지 않은 경우, 상기 제1 언어의 텍스트 시퀀스에서, 상기 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는, 제3 텍스트 그룹을 인코딩함으로써, 상기 제3 텍스트 그룹과 대응되는 제3 컨텍스트 정보를 획득하는 단계;In the second group of texts, if the second token is not detected, by encoding a third group of texts, including the first group of texts and at least one text in the following order, in the text sequence of the first language; , obtaining third context information corresponding to the third text group;
    상기 제3 컨텍스트 정보를 디코딩함으로써, 상기 제3 텍스트 그룹과 대응되는, 제2 언어의 제4 텍스트 그룹을 획득하는 단계; 및obtaining a fourth text group of a second language corresponding to the third text group by decoding the third context information; and
    상기 제4 텍스트 그룹에 기초하여, 상기 제1 언어의 텍스트 시퀀스를 번역하는 단계를 포함하는, 방법.translating a text sequence in the first language based on the fourth text group.
  4. 제1항에 있어서, According to claim 1,
    상기 제2 텍스트 그룹을 출력한 이후, 상기 제1 텍스트 그룹을 제외한, 상기 적어도 하나의 텍스트 그룹을 순차적으로 인코딩함으로써 상기 제1 언어의 텍스트 시퀀스를 번역하는 단계를 더 포함하는, 방법.after outputting the second text group, translating the text sequence in the first language by sequentially encoding the at least one text group excluding the first text group.
  5. 제2 전자 장치에서, 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 방법에 있어서,A method for learning an artificial intelligence model for translating a text sequence in a second electronic device, the method comprising:
    제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하는 단계;obtaining a text sequence of a first language and a text sequence of a second language corresponding to the text sequence of the first language;
    상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하는 단계;segmenting the text sequence of the second language and inserting a second token at the segmented position;
    상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하는 단계; 및identifying each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided; and
    상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 단계를 포함하는, 방법.Encoding each section in which the text sequence of the first language is divided based on the identified correspondence relationship, and decoding the encoded result so that each section in which the text sequence of the second language is divided can be output , the method comprising the step of learning the artificial intelligence model.
  6. 제5항에 있어서, 상기 제2 언어의 텍스트 시퀀스의 분할된 각 구간은,The method of claim 5, wherein each divided section of the text sequence of the second language comprises:
    상기 각 구간의 끝에서, 상기 텍스트 시퀀스가 분할됨을 나타내는 상기 제2 토큰 또는, 상기 텍스트 시퀀스가 종료됨을 나타내는 제1 토큰을 포함하는, 방법.at the end of each interval, the second token indicating that the text sequence is split, or a first token indicating that the text sequence is ending.
  7. 제5항에 있어서, 상기 학습하는 단계는The method of claim 5, wherein the learning step
    상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간이 인코딩된 결과 출력된 각각의 컨텍스트 정보가 상기 디코딩된 결과, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력되도록, 상기 인공지능 모델을 학습하는 단계를 포함하는, 방법.Learning the artificial intelligence model so that each section in which the text sequence of the first language is divided is output as a result of decoding each of the context information output as a result of encoding the text sequence of the second language A method comprising the step of
  8. 텍스트 시퀀스를 번역하는 제1 전자 장치에 있어서,A first electronic device for translating a text sequence, comprising:
    텍스트 시퀀스를 번역하는데 필요한 데이터를 저장하는 메모리;a memory for storing data necessary to translate the text sequence;
    제1 언어의 텍스트 시퀀스에 포함된 적어도 하나의 텍스트 그룹 중, 텍스트 시퀀스의 종료를 나타내는 제1 토큰을 포함하지 않는, 제1 텍스트 그룹을 인코딩함으로써, 상기 제1 텍스트 그룹과 대응되는 제1 컨텍스트 정보를 획득하고, 상기 제1 컨텍스트 정보를 디코딩함으로써, 상기 제1 텍스트 그룹과 대응되는, 제2 언어의 제2 텍스트 그룹을 획득하고, 상기 제2 텍스트 그룹에서, 제2 토큰을 검출하는 적어도 하나의 프로세서; 및First context information corresponding to the first text group by encoding a first text group that does not include a first token indicating the end of the text sequence among at least one text group included in the text sequence of the first language at least one method for obtaining a second text group of a second language corresponding to the first text group and detecting a second token in the second text group by obtaining processor; and
    상기 제2 토큰이 검출됨에 따라, 상기 제2 텍스트 그룹을 상기 제1 텍스트 그룹에 대한 번역 결과로서 출력하는 출력부를 포함하는, 제1 전자 장치.and an output unit configured to output the second text group as a translation result for the first text group when the second token is detected.
  9. 제8항에 있어서, 상기 제2 토큰은The method of claim 8, wherein the second token is
    상기 제1 텍스트 그룹 이후에 인코딩된 상기 제1 언어의 적어도 하나의 텍스트 그룹에 의하여, 상기 제2 텍스트 그룹이 다른 텍스트로 변경될 가능성에 따라서, 상기 제2 언어의 텍스트 그룹에 삽입되어 학습되는, 제1 전자 장치.by at least one text group of the first language encoded after the first text group, according to the possibility that the second text group is changed to another text, inserted into the text group of the second language and learned, A first electronic device.
  10. 제8항에 있어서, 상기 적어도 하나의 프로세서는9. The method of claim 8, wherein the at least one processor comprises:
    상기 제2 텍스트 그룹에서, 상기 제2 토큰이 검출되지 않은 경우, 상기 제1 언어의 텍스트 시퀀스에서, 상기 제1 텍스트 그룹 및 다음 순서의 적어도 하나의 텍스트를 포함하는, 제3 텍스트 그룹을 인코딩함으로써, 상기 제3 텍스트 그룹과 대응되는 제3 컨텍스트 정보를 획득하고,In the second group of texts, if the second token is not detected, by encoding a third group of texts, including the first group of texts and at least one text in the following order, in the text sequence of the first language; , obtains third context information corresponding to the third text group,
    상기 제3 컨텍스트 정보를 디코딩함으로써, 상기 제3 텍스트 그룹과 대응되는, 제2 언어의 제4 텍스트 그룹을 획득하고,by decoding the third context information, obtain a fourth text group of a second language corresponding to the third text group;
    상기 제4 텍스트 그룹에 기초하여, 상기 제1 언어의 텍스트 시퀀스를 번역하는, 제1 전자 장치.Translate the text sequence of the first language based on the fourth text group.
  11. 제8항에 있어서, 상기 적어도 하나의 프로세서는9. The method of claim 8, wherein the at least one processor comprises:
    상기 제2 텍스트 그룹을 출력한 이후, 상기 제1 텍스트 그룹을 제외한, 상기 적어도 하나의 텍스트 그룹을 순차적으로 인코딩함으로써 상기 제1 언어의 텍스트 시퀀스를 번역하는, 제1 전자 장치.After outputting the second text group, the first electronic device is configured to translate the text sequence of the first language by sequentially encoding the at least one text group except for the first text group.
  12. 텍스트 시퀀스를 번역하기 위한 인공지능 모델을 학습하는 제2 전자 장치에 있어서,In a second electronic device for learning an artificial intelligence model for translating a text sequence,
    제1 언어의 텍스트 시퀀스 및 상기 제1 언어의 텍스트 시퀀스와 대응되는 제2 언어의 텍스트 시퀀스를 획득하고, 상기 제2 언어의 텍스트 시퀀스를 분할하고, 상기 분할된 위치에 제2 토큰을 삽입하고, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간과 대응되는, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 식별하고, 상기 식별된 대응 관계에 기초하여, 상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간을 인코딩하고, 상기 인코딩된 결과를 디코딩함에 따라 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력될 수 있도록, 상기 인공지능 모델을 학습하는 적어도 하나의 프로세서; 및obtaining a text sequence of a first language and a text sequence of a second language corresponding to the text sequence of the first language, dividing the text sequence of the second language, and inserting a second token at the divided position; Identifies each section in which the text sequence of the first language is divided corresponding to each section in which the text sequence of the second language is divided, and based on the identified correspondence, the text sequence of the first language is divided at least one processor for learning the artificial intelligence model so that each section in which the text sequence of the second language is divided can be output by encoding each section and decoding the encoded result; and
    상기 학습된 인공지능 모델을 저장하는 메모리를 포함하는, 제2 전자 장치.A second electronic device comprising a memory for storing the learned artificial intelligence model.
  13. 제12항에 있어서, 상기 제2 언어의 텍스트 시퀀스의 분할된 각 구간은,The method of claim 12, wherein each divided section of the text sequence of the second language comprises:
    상기 각 구간의 끝에서, 상기 텍스트 시퀀스가 분할됨을 나타내는 상기 제2 토큰 또는, 상기 텍스트 시퀀스가 종료됨을 나타내는 제1 토큰을 포함하는, 제2 전자 장치.At the end of each section, the second electronic device comprising the second token indicating that the text sequence is split or the first token indicating that the text sequence is ended.
  14. 제12항에 있어서, 상기 적어도 하나의 프로세서는13. The method of claim 12, wherein the at least one processor comprises:
    상기 제1 언어의 텍스트 시퀀스가 분할된 각 구간이 인코딩된 결과 출력된 각각의 컨텍스트 정보가 상기 디코딩된 결과, 상기 제2 언어의 텍스트 시퀀스가 분할된 각 구간이 출력되도록, 상기 인공지능 모델을 학습하는, 제2 전자 장치.Learning the artificial intelligence model so that each section in which the text sequence of the first language is divided is output as a result of the decoding of respective context information output as a result of encoding each section in which the text sequence of the second language is divided a second electronic device.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium in which a program for implementing the method of any one of claims 1 to 7 is recorded.
PCT/KR2020/007017 2020-05-21 2020-05-29 Electronic device for translating text sequence and operation method thereof WO2021235586A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0060901 2020-05-21
KR1020200060901A KR20210144975A (en) 2020-05-21 2020-05-21 Electronic device and operating method for translating a text sequence

Publications (1)

Publication Number Publication Date
WO2021235586A1 true WO2021235586A1 (en) 2021-11-25

Family

ID=78708627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/007017 WO2021235586A1 (en) 2020-05-21 2020-05-29 Electronic device for translating text sequence and operation method thereof

Country Status (2)

Country Link
KR (1) KR20210144975A (en)
WO (1) WO2021235586A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180077691A (en) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 Apparatus and method for sentence abstraction
KR20190019748A (en) * 2017-08-18 2019-02-27 삼성전자주식회사 Method and apparatus for generating natural language
KR20190046124A (en) * 2017-10-25 2019-05-07 한국전자통신연구원 Method and apparatus for real-time automatic interpretation based on context information
US20190332677A1 (en) * 2018-04-30 2019-10-31 Samsung Electronics Co., Ltd. Multilingual translation device and method
US20200082806A1 (en) * 2018-01-11 2020-03-12 Neosapience, Inc. Multilingual text-to-speech synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180077691A (en) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 Apparatus and method for sentence abstraction
KR20190019748A (en) * 2017-08-18 2019-02-27 삼성전자주식회사 Method and apparatus for generating natural language
KR20190046124A (en) * 2017-10-25 2019-05-07 한국전자통신연구원 Method and apparatus for real-time automatic interpretation based on context information
US20200082806A1 (en) * 2018-01-11 2020-03-12 Neosapience, Inc. Multilingual text-to-speech synthesis
US20190332677A1 (en) * 2018-04-30 2019-10-31 Samsung Electronics Co., Ltd. Multilingual translation device and method

Also Published As

Publication number Publication date
KR20210144975A (en) 2021-12-01

Similar Documents

Publication Publication Date Title
WO2018124620A1 (en) Method and device for transmitting and receiving audio data
WO2018034552A1 (en) Language translation device and language translation method
WO2018110818A1 (en) Speech recognition method and apparatus
WO2020122677A1 (en) Method of performing function of electronic device and electronic device using same
WO2012169679A1 (en) Display apparatus, method for controlling display apparatus, and voice recognition system for display apparatus
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
WO2020159288A1 (en) Electronic device and control method thereof
WO2020105856A1 (en) Electronic apparatus for processing user utterance and controlling method thereof
WO2018026200A1 (en) Language translation device and language translation method
WO2018182201A1 (en) Method and device for providing response to voice input of user
WO2020040595A1 (en) Electronic device for processing user utterance, and control method therefor
EP3533052A1 (en) Speech recognition method and apparatus
WO2020045835A1 (en) Electronic device and control method thereof
WO2019112181A1 (en) Electronic device for executing application by using phoneme information included in audio data and operation method therefor
WO2020130447A1 (en) Method for providing sentences on basis of persona, and electronic device supporting same
WO2018097439A1 (en) Electronic device for performing translation by sharing context of utterance and operation method therefor
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
WO2021060728A1 (en) Electronic device for processing user utterance and method for operating same
WO2021029643A1 (en) System and method for modifying speech recognition result
WO2020060151A1 (en) System and method for providing voice assistant service
WO2022035183A1 (en) Device for recognizing user&#39;s voice input and method for operating same
WO2020101174A1 (en) Method and apparatus for generating personalized lip reading model
EP3545519A1 (en) Method and device for transmitting and receiving audio data
WO2020101389A1 (en) Electronic device for displaying voice recognition-based image
WO2021235586A1 (en) Electronic device for translating text sequence and operation method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20936407

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20936407

Country of ref document: EP

Kind code of ref document: A1