KR20210049478A - Apparatus and method for providing user customized translation - Google Patents

Apparatus and method for providing user customized translation Download PDF

Info

Publication number
KR20210049478A
KR20210049478A KR1020190133812A KR20190133812A KR20210049478A KR 20210049478 A KR20210049478 A KR 20210049478A KR 1020190133812 A KR1020190133812 A KR 1020190133812A KR 20190133812 A KR20190133812 A KR 20190133812A KR 20210049478 A KR20210049478 A KR 20210049478A
Authority
KR
South Korea
Prior art keywords
user
translation
sentence
word
domain
Prior art date
Application number
KR1020190133812A
Other languages
Korean (ko)
Inventor
최규현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190133812A priority Critical patent/KR20210049478A/en
Publication of KR20210049478A publication Critical patent/KR20210049478A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

The present invention provides a method for providing a user-customized translation. The method for providing a user-customized translation comprises: a step of receiving a sentence to be translated from a user; a step of extracting a multisense word appearing at a high frequency by the user from the inputted sentence based on log data in which the sentence inputted by the user is stored; a step of considering an association with the multisense word and one or more words adjacent to the multisense word to predict a domain in which the user mainly uses the multisense word; a step of checking whether the multisense word is translated to match the meaning used in the domain to correct an error to complete a translation sentence; and a step of storing the completed translation sentence and the inputted sentence in the log data to train a translation model.

Description

사용자 맞춤 번역 제공 장치 및 방법{APPARATUS AND METHOD FOR PROVIDING USER CUSTOMIZED TRANSLATION}Apparatus and method for providing customized translation {APPARATUS AND METHOD FOR PROVIDING USER CUSTOMIZED TRANSLATION}

본 발명은 사용자 맞춤 번역을 제공하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 사용자가 사용할수록 성능이 향상되는 사용자 맞춤 번역을 제공하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for providing a user-customized translation, and more particularly, to a method and apparatus for providing a user-customized translation in which performance is improved as a user uses it.

신경망 기계 번역(Neural Machine Translation)이란, 기계 번역 방식의 한 종류로 인공지능(Artificial Intelligence)이 데이터 학습을 통해 문장 단위로 언어를 번역하는 기술을 의미한다. 여기서, 신경망 기계 번역을 진행하는 방법은 사용자가 번역 엔진에 문장을 입력하면 맥락을 파악한 후 이를 단어, 구문, 어순 등의 정보가 담겨 있는 벡터로 전환하여 번역을 진행한다. Neural Machine Translation is a type of machine translation method, and refers to a technology in which artificial intelligence translates language in sentence units through data learning. Here, in the neural network machine translation method, when a user inputs a sentence into a translation engine, the context is identified and then converted into a vector containing information such as words, phrases, and word order, and the translation is performed.

또한, 신경망 기계 번역 주요 기술들의 연구와 발전으로 신경망 번역의 성능은 과거에 비해 많이 향상되었다. 따라서, 기존 기계 번역에 주로 사용된 통계 기반 기계 번역(Statistical Machine Translation)보다 자연스럽고 정확한 번역이 가능하다.In addition, the performance of neural network translation has improved significantly compared to the past due to the research and development of major neural network machine translation technologies. Therefore, more natural and accurate translation is possible than statistical machine translation, which is mainly used for conventional machine translation.

다만, 신경망 기계 번역의 주요 기술들이 과거에 비해 기술이 향상 되었다고 하더라도 여전히 다의어의 번역 문제는 해결하지 못하고 있다. 다의어 번역의 경우, 단어들과의 관계와 단어의 특성을 담고 있는 워드 벡터(Word Vector) 값에 의해 단어의 의미가 결정되고, 말뭉치에 등장하는 형태에 따라 워드 벡터 값이 달라지는 경향이 있으므로 특정 상황에 맞는 다의어의 의미를 결정하는 데 문제가 있다.However, even though the major technologies of neural network machine translation have improved compared to the past, the problem of multilingual translation is still not solved. In the case of multilingual translation, the meaning of the word is determined by the word vector value containing the relationship with the words and the characteristics of the word, and the word vector value tends to vary depending on the shape appearing in the corpus. There is a problem in determining the meaning of the multilingual word for.

또한, 신경망 기계 번역의 번역 성능은 말뭉치에 의해 향상 되기도 하지만 말뭉치의 수집이 어렵고, 수집한 말뭉치도 편향된 임베딩(Embedding) 정보로 인해 기존 신경망 기계 번역에 의하면 다의어를 정확하게 번역하지 못하는 문제가 있다. In addition, although the translation performance of neural network machine translation is improved by the corpus, it is difficult to collect the corpus, and the collected corpus also has a problem in that it cannot accurately translate multiwords according to the existing neural network machine translation due to biased embedding information.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 누적된 로그 데이터를 활용하여 사용자가 다의어를 주로 사용하는 도메인을 예측하는 데 있다.An object of the present invention for solving the above problems is to predict a domain in which a user mainly uses multiple words by using accumulated log data.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 특정 환경에 맞게 번역되어야 하는 다의어를 정확히 번역하는 데 있다.Another object of the present invention for solving the above-described problems is to accurately translate a multi-word to be translated in accordance with a specific environment.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 사용자가 사용할수록 누적되는 로그 데이터에 의해 더 향상된 번역 모델을 제공하는 데 있다.Another object of the present invention for solving the above problems is to provide an improved translation model based on log data that is accumulated as a user uses it.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법은, 사용자로부터 번역 대상이 되는 문장을 입력받는 단계; 상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하는 단계; 상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하는 단계; 상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하는 단계; 및 상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키는 단계를 포함할 수 있다.A method for providing customized translation for a user according to an embodiment of the present invention for achieving the above object includes the steps of: receiving a sentence to be translated from a user; Extracting polysynthetic words appearing at a high frequency by a user from the input sentences based on log data in which the sentences input by the user are stored; Predicting a domain in which the user mainly uses the multi-term in consideration of the association between the multi-term and one or more words adjacent to the multi-term; Completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting the error; And storing the completed translation sentence and the input sentence in the log data to train a translation model.

본 발명의 일 실시예에 따르면, 번역 결과를 로그 데이터에 추가로 저장하고 추가된 데이터로 번역 모델을 학습 시킴으로써 외부 데이터를 수집할 필요가 없는 장점을 가진다.According to an embodiment of the present invention, the translation result is additionally stored in log data and the translation model is trained with the added data, thereby eliminating the need to collect external data.

본 발명의 일 실시예에 따르면, 사용자의 로그 데이터를 활용하므로 사용자가 주로 사용하는 도메인에 따른 맞춤형 번역을 효율적으로 제공할 수 있는 장점을 가진다.According to an embodiment of the present invention, since log data of a user is used, it has an advantage of efficiently providing customized translation according to a domain mainly used by the user.

도 1은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 고빈도 단어 추출부의 상세 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 도메인 분석부의 상세 블록 구성도이다.
도 4는 본 발명의 일 실시예에 따른 오류 수정부의 상세 블록 구성도이다.
도 5는 본 발명의 일 실시예에 따른 모델 학습부의 상세 블록 구성도이다.
도 6은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법의 동작 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다.
1 is a block diagram of an apparatus for providing customized translation according to an embodiment of the present invention.
2 is a detailed block diagram of a high frequency word extraction unit according to an embodiment of the present invention.
3 is a detailed block diagram of a domain analysis unit according to an embodiment of the present invention.
4 is a detailed block diagram of an error correction unit according to an embodiment of the present invention.
5 is a detailed block diagram of a model learning unit according to an embodiment of the present invention.
6 is a flowchart illustrating an operation of a method for providing customized translation according to an embodiment of the present invention.
7 is a block diagram of an apparatus for providing customized translation according to another embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. In the present invention, various modifications may be made and various embodiments may be provided, and specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to a specific embodiment, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention. In describing each drawing, similar reference numerals have been used for similar elements.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. Terms such as first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, a first element may be referred to as a second element, and similarly, a second element may be referred to as a first element. The term "and/or" includes a combination of a plurality of related described items or any of a plurality of related described items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in the middle. It should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof does not preclude in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in the present application. Does not.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다. 1 is a block diagram of an apparatus for providing customized translation according to an embodiment of the present invention.

도 1을 참조하면, 사용자 맞춤 번역 제공 장치(1000)는 데이터 저장부(1100), 고빈도 단어 추출부(1200), 도메인 분석부(1300), 오류 수정부(1400) 및 모델 학습부(1500)를 포함할 수 있다.Referring to FIG. 1, a user-customized translation providing apparatus 1000 includes a data storage unit 1100, a high frequency word extraction unit 1200, a domain analysis unit 1300, an error correction unit 1400, and a model learning unit 1500. ) Can be included.

여기서, 데이터 저장부(1100)는 사용자가 번역 제공 장치를 사용할 때 입력되는 문장 및 번역 제공 장치를 사용한 후 출력되는 문장을 로그 데이터로 저장할 수 있다.Here, the data storage unit 1100 may store a sentence input when a user uses the translation providing device and a sentence output after using the translation providing device as log data.

또한, 고빈도 단어 추출부(1200)는 데이터 저장부(1100)에 저장된 로그 데이터에 기반하여 사용자에 의해 고빈도로 출현되는 다의어를 찾아내어 추출할 수 있다.In addition, the high frequency word extractor 1200 may find and extract a multiword that appears at a high frequency by a user based on log data stored in the data storage unit 1100.

또한, 도메인 분석부(1300)는 고빈도 단어 추출부(1200)에서 추출된 다의어를 분석하여 사용자가 주로 특정 다의어를 사용하는 도메인을 예측할 수 있다.In addition, the domain analysis unit 1300 may predict a domain in which a user mainly uses a specific multi-word by analyzing the polyunction extracted by the high-frequency word extracting unit 1200.

또한, 오류 수정부(1400)는 도메인 분석부(1300)에서 예측한 도메인을 바탕으로 번역 오류가 있는지 확인하고, 번역 오류가 있는 경우 번역을 수정하여 완전한 번역 문장을 생성할 수 있다.In addition, the error correction unit 1400 may check whether there is a translation error based on the domain predicted by the domain analysis unit 1300, and if there is a translation error, correct the translation to generate a complete translated sentence.

또한, 모델 학습부(1500)는 완성된 번역 문장 및 사용자로부터 입력된 문장을 로그 데이터로 데이터 저장부(1100)에 저장하고 그 데이터를 모아서 번역 모델을 학습 시킬 수 있다. In addition, the model learning unit 1500 may store the completed translation sentence and the sentence input from the user as log data in the data storage unit 1100 and collect the data to train the translation model.

따라서, 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치를 활용하면 사용자가 사용할수록 누적되는 로그 데이터를 사용하여 사용자가 자주 사용하는 상황 및 환경을 파악하여 올바른 다의어의 의미를 선택하고 번역할 수 있는 지식 증강 번역이 가능하다.Therefore, if the user-customized translation providing device according to an embodiment of the present invention is used, it is possible to select and translate the correct meaning of multiple words by grasping the situations and environments frequently used by the user using log data that is accumulated as the user uses it. Knowledge-enhanced translation is possible.

또한, 사용자 맞춤 번역 제공 장치를 활용하면 번역 모델에서 쉽게 방대한 양의 로그 데이터를 수집할 수 있고, 사용자가 주로 사용하는 단어들이 로그 데이터로써 저장될 수 있다. 따라서, 사용자 맞춤 번역 제공 장치는 로그 데이터를 사용하여 사용자가 단어를 주로 사용하는 도메인을 예측하고 다의어의 의미를 정확하게 파악하여 올바른 번역 결과를 제공할 수 있다. In addition, if a user-customized translation providing device is used, a vast amount of log data can be easily collected from a translation model, and words mainly used by the user can be stored as log data. Accordingly, the apparatus for providing customized translation for a user may predict a domain in which a user mainly uses a word by using log data and accurately grasp the meaning of a multilingual word to provide a correct translation result.

또한, 사용자 맞춤 번역 제공 장치는 다의어의 번역에 오류가 있는 경우 오류를 수정하고, 수정된 데이터를 모아 번역 모델을 재학습시킴으로써 사용자 맞춤 번역 모델을 제공할 수 있고, 특정 도메인에 특화된 모델을 생성할 필요가 없어 비용적인 면에서도 효율적이다.In addition, if there is an error in the translation of a multilingual language, the user-customized translation providing device can provide a customized translation model by correcting the error and retraining the translation model by collecting the corrected data, and can generate a model specialized for a specific domain. There is no need, so it is also cost effective.

도 2는 본 발명의 일 실시예에 따른 고빈도 단어 추출부의 상세 블록 구성도이다.2 is a detailed block diagram of a high frequency word extraction unit according to an embodiment of the present invention.

도 2를 참조하면, 고빈도 단어 추출부(1200)는 형태소 분석 모듈(1210), 불용어 제거 모듈(1220), 빈도 계산 모듈(1230) 및 단어 추출 모듈(1240)을 포함할 수 있다.Referring to FIG. 2, the high frequency word extraction unit 1200 may include a morpheme analysis module 1210, a stop word removal module 1220, a frequency calculation module 1230, and a word extraction module 1240.

고빈도 단어 추출부(1200)는 사용자가 번역 제공 장치를 주로 사용하는 환경을 예측하기 위해 사용자에 의해 고빈도로 출현되는 다의어를 추출할 수 있다. 여기서, 다의어는 데이터 저장부(1100)에서 저장한 로그 데이터를 사용하여 추출될 수 있다.The high frequency word extracting unit 1200 may extract a multiterm word that appears at a high frequency by a user in order to predict an environment in which the user mainly uses the translation providing device. Here, the polyunction may be extracted using log data stored in the data storage unit 1100.

또한, 저장된 로그 데이터의 문장들은 고빈도 단어 추출부(1200)의 형태소 분석 모듈(1210)에 의해 단어 및 형태소 단위로 분리될 수 있다. 여기서, 분리된 문장은 불용어 제거 모듈(1220)에 의해 다의어를 해석하는 데 연관이 없는 조사 또는 관사와 같은 불용어가 제거될 수 있다. 여기서, 형태서 분석 모듈(1210)에서 사용하는 형태소 분석기는 세종 태그셋을 기반으로 하는 TTA 표준 형태소 태그셋(TTAK.K0-11.0010/R1)을 기반으로 할 수 있다.Also, sentences of the stored log data may be separated into words and morpheme units by the morpheme analysis module 1210 of the high frequency word extracting unit 1200. Here, the separated sentence may be removed by the stop word removal module 1220 from a stop word such as an investigation or an article that is not related to the interpretation of a polyunism. Here, the morpheme analyzer used in the morpheme analysis module 1210 may be based on the TTA standard morpheme tag set (TTAK.K0-11.0010/R1) based on the Sejong tag set.

예를 들어, '검정색 레벨 값은 0~255까지 8비트 해상도에서 조정됩니다.'와 같은 문장은 형태소 분석 모듈(1210)에 의해 '검정/NNG 색/NNG 레벨/NNG 값/NNG 은/JX 0/SN ~/S0 255/SN 까지/JX 8/SN 비트/NNB 해상도/NNG 에서/JKB 조정/NNG 되/XFV ㅂ니다/EF ./SF'로 분리될 수 있다.For example, a sentence such as'The black level value is adjusted from 0 to 255 in 8-bit resolution' is displayed by the morpheme analysis module 1210 as'black/NNG color/NNG level/NNG value/NNG silver/JX 0. /SN ~/S0 up to 255/SN/JX 8/SN bit/NNB resolution/NNG/JKB adjustment/NNG/XFV/EF./SF' can be separated.

또한, 빈도 계산 모듈(1230)은 로그 데이터에 저장된 문장에서 단어가 얼마나 등장하는지 횟수를 계산할 수 있다. Also, the frequency calculation module 1230 may calculate the number of times a word appears in a sentence stored in log data.

또한, 단어 추출 모듈(1240)은 빈도 계산 모듈(1239)에 의해 계산된 결과에 기반하여 결과를 내림차순으로 정리하고 미리 구축한 다의어 사전과 비교함으로써 사용자에 의해 고빈도로 출현되는 다의어를 추출할 수 있다.In addition, the word extracting module 1240 can extract the polysynthetic words that appear at high frequency by the user by arranging the results in descending order based on the results calculated by the frequency calculation module 1239 and comparing them with a pre-built multi-word dictionary. have.

도 3은 본 발명의 일 실시예에 따른 도메인 분석부의 상세 블록 구성도이다.3 is a detailed block diagram of a domain analysis unit according to an embodiment of the present invention.

도 3을 참조하면, 도메인 분석부(1300)는 입력된 문장으로부터 사용자에 의해 고빈도로 추출되는 다의어 및 같은 문장에 존재하는 다의어와 인접한 단어들의 연관성에 기반하여 사용자가 주로 다의어를 사용하는 도메인을 예측할 수 있다.Referring to FIG. 3, the domain analysis unit 1300 identifies a domain in which a user mainly uses a multi-term based on the association between a multi-term extracted by a user at a high frequency from an input sentence, and a multi-word existing in the same sentence and adjacent words. It is predictable.

예를 들어, '검정색 레벨 값은 0~255까지 8비트 해상도에서 조정됩니다.'와 같은 문장에서 단어'비트'는 다의어로서, 음악 분야에서는 박자를 뜻하는 'beat'로서 사용되고, 컴퓨터 분야에서는 컴퓨터 이용 정보량의 최쇠 단위인 'bit'로서 사용되고, 식물 분야에서는 사탕무우를 의미하는 'beet'로서 사용되므로, 상기 문장에서 '비트'의 정확한 의미는 인접 단어들에 의해 파악이 가능하다. For example, in a sentence such as'The black level value is adjusted from 0 to 255 in 8-bit resolution', the word'beat' is used as a polyphonic word, in the music field it is used as'beat', which means the beat, and in the computer field, the computer Since it is used as'bit', which is the smallest unit of the amount of information used, and is used as'beet' meaning sugar beet in the plant field, the exact meaning of'bit' in the sentence can be grasped by adjacent words.

따라서, 상기 문장에서 '비트'의 정확한 의미는 같은 문장에 존재하는 '검정', '색', '레벨' 및 '해상도'와 같은 인접 단어들로부터 파악할 수 있다. 결국,'비트'는 인접 단어에 비추어 보아, 색, 컴퓨터, 모니터 등에 연관된 단어임을 추측할 수 있으므로 색, 컴퓨터, 모니터 등과 관련된 분야에서 사용되는 의미에 맞게 '비트'의 번역 단어가 선택될 수 있다.Therefore, the exact meaning of'bit' in the sentence can be grasped from adjacent words such as'black','color','level', and'resolution' existing in the same sentence. In the end, since'bit' can be inferred that it is a word related to color, computer, monitor, etc. in light of adjacent words, the translated word of'bit' can be selected according to the meaning used in fields related to color, computer, monitor, etc. .

또한, 데이터 저장부(1100)에 저장되는 로그 데이터에 누적되어 있는 단어 '비트’는'컴퓨터' 도메인에 속하는 단어임을 파악할 수 있으므로 사용자가 주로 다의어 '비트'를 사용하는 도메인이 '컴퓨터' 분야임을 예측할 수 있다.In addition, since the word'bit' accumulated in the log data stored in the data storage unit 1100 can be identified as a word belonging to the'computer' domain, the domain in which the user mainly uses the multi-term'bit' is the'computer' field. It is predictable.

도 4는 본 발명의 일 실시예에 따른 오류 수정부의 상세 블록 구성도이다.4 is a detailed block diagram of an error correction unit according to an embodiment of the present invention.

도 4를 참조하면, 오류 수정부(1400)는 도메인 분석부(1300)에서 예측한 도메인에서 다의어가 사용되는 의미에 맞게 번역되지 못한 다의어를 적절하게 번역할 수 있다. 따라서, 도메인 분석부(1300)에서 다의어가 사용자에 의해 주로 사용되는 도메인을 예측하고, 도메인 별로 학습 시킨 군집화 모델에 다의어를 입력하여 다의어의 올바른 번역 단어를 확인할 수 있다.Referring to FIG. 4, the error correction unit 1400 may appropriately translate a multi-term that has not been translated according to a meaning in which the multi-term is used in the domain predicted by the domain analysis unit 1300. Accordingly, the domain analysis unit 1300 predicts a domain in which the multi-word is mainly used by the user, and inputs the multi-word into the clustering model trained for each domain to check the correct translation word of the multi-word.

여기서, 다의어가 도메인에 맞게 번역되는지 확인하기 위해서 벡터 거리 계산 모듈(1410)에서 군집 모델에 존재하는 다의어와 번역 단어 사이의 단어 벡터(Word Vector) 값의 벡터 거리를 계산할 수 있다. Here, in order to check whether the multi-word is translated according to the domain, the vector distance calculation module 1410 may calculate a vector distance of a word vector value between the multi-word and the translated word existing in the cluster model.

또한, 벡터 거리 계산 모듈(1410)에서 계산된 다의어와 번역 단어 사이의 벡터 거리에 기반하여 다의어가 도메인에 맞게 번역되었는지 단어 확인 모듈(1420)에 의해 확인될 수 있다.In addition, it may be confirmed by the word verification module 1420 whether or not the multi-word is translated according to the domain based on the vector distance between the multi-word and the translated word calculated by the vector distance calculation module 1410.

또한, 오류 수정 모듈(1430)은 단어 확인 모듈(1420)에서 다의어가 도메인에 맞게 번역되었는지 확인하여 다의어가 도메인에 맞게 번역되지 않은 경우, 다의어가 도메인에 맞게 번역될 수 있도록 번역 단어를 수정할 수 있다.In addition, the error correction module 1430 may check whether the word verification module 1420 has translated the multi-language correctly for the domain, and if the multi-language is not translated for the domain, correct the translated word so that the multi-language can be translated to the domain. .

도 5는 본 발명의 일 실시예에 따른 모델 학습부의 상세 블록 구성도이다.5 is a detailed block diagram of a model learning unit according to an embodiment of the present invention.

도 5를 참조하면, 모델 학습부(1500)는 로그 데이터 추출 모듈(1510) 및 번역 모델 학습 모듈(1520)을 포함할 수 있다.Referring to FIG. 5, the model learning unit 1500 may include a log data extraction module 1510 and a translation model training module 1520.

여기서, 로그 데이터 추출 모듈(1510)은 데이터 저장부(1100)에 사용자로부터 입력된 문장, 번역된 문장 및 사용자 맞춤 번역 제공 장치에 의해 번역된 완전한 문장을 로그 데이터로서 저장할 수 있고, 저장된 로그 데이터를 추출하여 사용자 맞춤 번역 모델을 학습 시키도록 번역 모델 학습 모듈(1520)에게 전달할 수 있다.Here, the log data extraction module 1510 may store a sentence input from a user in the data storage unit 1100, a translated sentence, and a complete sentence translated by the user-customized translation providing device as log data, and store the stored log data. It may be extracted and transmitted to the translation model learning module 1520 to train a user-customized translation model.

또한, 번역 모델 학습 모듈(1520)은 로그 데이터 추출 모듈(1510)로부터 로그 데이터를 전달 받아 사용자 맞춤 번역 모델을 학습 시킬 수 있다.In addition, the translation model training module 1520 may receive log data from the log data extraction module 1510 and train a user-customized translation model.

도 6은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법의 동작 순서도이다.6 is a flowchart illustrating an operation of a method for providing customized translation according to an embodiment of the present invention.

도 6를 참조하면, 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법은, 사용자로부터 번역 대상이 되는 문장을 입력받는 단계(S610)를 포함할 수 있다.Referring to FIG. 6, a method of providing customized translation for a user according to an embodiment of the present invention may include receiving a sentence to be translated from a user (S610).

또한, 상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하는 단계(S620)를 포함할 수 있다.In addition, it may include a step (S620) of extracting a polyunism that appears at a high frequency by the user from the input sentence based on the log data in which the sentence input by the user is stored.

또한, 상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하는 단계(S630)를 포함할 수 있다.In addition, it may include a step (S630) of predicting a domain in which the user mainly uses the multi-term in consideration of the association between the multi-term and one or more words adjacent to the multi-term.

또한, 상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하는 단계(S640)를 포함할 수 있다.In addition, it may include a step (S640) of completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting the error.

또한, 상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키는 단계(S650)를 포함할 수 있다.In addition, it may include a step (S650) of learning a translation model by storing the completed translation sentence and the input sentence in the log data.

도 7은 본 발명의 다른 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다.7 is a block diagram of an apparatus for providing customized translation according to another embodiment of the present invention.

본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치(1000)는 프로세서(1010) 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리(1020) 및 네트워크와 연결되어 통신을 수행하는 송수신 장치(1030)를 포함할 수 있다. The apparatus 1000 for providing customized translation according to an embodiment of the present invention is connected to a processor 1010 and a memory 1020 for storing at least one instruction executed through the processor and a result of execution of the instruction, and communicates with a network. It may include a transmitting and receiving device 1030 to perform.

사용자 맞춤 번역 제공 장치(1000)는 또한, 입력 인터페이스 장치(1040), 출력 인터페이스 장치(1050), 저장 장치(1060) 등을 더 포함할 수 있다. 사용자 맞춤 번역 제공 장치(1000)에 포함된 각각의 구성 요소들은 버스(Bus)(1070)에 의해 연결되어 서로 통신을 수행할 수 있다. The apparatus 1000 for providing customized translations may further include an input interface device 1040, an output interface device 1050, and a storage device 1060. Each of the constituent elements included in the apparatus 1000 for providing customized translations may be connected by a bus 1070 to communicate with each other.

프로세서(1010)는 메모리(1020) 및 저장 장치(1060) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(1010)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(1020) 및 저장 장치(1060) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(1020)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.The processor 1010 may execute a program command stored in at least one of the memory 1020 and the storage device 1060. The processor 1010 may mean a central processing unit (CPU), a graphics processing unit (GPU), or a dedicated processor in which methods according to an embodiment of the present invention are performed. Each of the memory 1020 and the storage device 1060 may be configured with at least one of a volatile storage medium and a nonvolatile storage medium. For example, the memory 1020 may be composed of at least one of read only memory (ROM) and random access memory (RAM).

저장 장치(1060)는 또한, 사용자로부터 입력된 문장, 입력된 문장의 번역 문장 및 사용자 맞춤 번역 제공 장치에 의해 사용자로부 입력된 문장이 완전하게 번역된 문장을 저장할 수 있고, 저장 장치에 저장된 문장들로부터 학습된 번역 모델의 데이터를 저장할 수 있다.The storage device 1060 may also store a sentence input from a user, a translated sentence of the input sentence, and a sentence in which the sentence input from the user by the user-customized translation providing device is completely translated, and the sentence stored in the storage device It is possible to store the data of the translation model learned from them.

여기서, 적어도 하나의 명령은, 사용자로부터 번역 대상이 되는 문장을 입력받도록 하는 명령; 상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하도록 하는 명령; 상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하도록 하는 명령; 상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하도록 하는 명령; 및 상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키도록 하는 명령을 포함할 수 있다.Here, the at least one command may include: a command to receive a sentence to be translated from a user; A command for extracting a polymorphism that appears at a high frequency by a user from the input sentence based on log data in which the sentence input by the user is stored; An instruction for causing the user to predict a domain in which the polyunism is mainly used in consideration of the association between the multi-term and one or more adjacent words; A command for completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting an error; And a command for learning a translation model by storing the completed translation sentence and the input sentence in the log data.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다. The operation of the method according to the embodiment of the present invention can be implemented as a computer-readable program or code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices that store data that can be read by a computer system. In addition, a computer-readable recording medium may be distributed over a network-connected computer system to store and execute a computer-readable program or code in a distributed manner.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.Further, the computer-readable recording medium may include a hardware device specially configured to store and execute program commands, such as ROM, RAM, and flash memory. The program instructions may include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다. While some aspects of the invention have been described in the context of an apparatus, it may also represent a description according to a corresponding method, where a block or apparatus corresponds to a method step or characteristic of a method step. Similarly, aspects described in the context of a method can also be represented by a corresponding block or item or a feature of a corresponding device. Some or all of the method steps may be performed by (or using) a hardware device such as, for example, a microprocessor, a programmable computer or electronic circuit. In some embodiments, one or more of the most important method steps may be performed by such an apparatus.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.In embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In embodiments, the field programmable gate array may work with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by some hardware device.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art will be able to variously modify and change the present invention within the scope not departing from the spirit and scope of the present invention described in the following claims. You will understand that you can.

Claims (1)

사용자로부터 번역 대상이 되는 문장을 입력받는 단계;
상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하는 단계;
상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하는 단계;
상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하는 단계; 및
상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키는 단계를 포함하는, 사용자 맞춤 번역 제공 방법.
Receiving a sentence to be translated from a user;
Extracting polysynthetic words appearing at a high frequency by the user from the input sentences based on log data in which the sentences input by the user are stored;
Predicting a domain in which the user mainly uses the multi-term in consideration of the association between the multi-term and one or more words adjacent to the multi-term;
Completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting the error; And
And learning a translation model by storing the completed translation sentence and the input sentence in the log data.
KR1020190133812A 2019-10-25 2019-10-25 Apparatus and method for providing user customized translation KR20210049478A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190133812A KR20210049478A (en) 2019-10-25 2019-10-25 Apparatus and method for providing user customized translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190133812A KR20210049478A (en) 2019-10-25 2019-10-25 Apparatus and method for providing user customized translation

Publications (1)

Publication Number Publication Date
KR20210049478A true KR20210049478A (en) 2021-05-06

Family

ID=75915845

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190133812A KR20210049478A (en) 2019-10-25 2019-10-25 Apparatus and method for providing user customized translation

Country Status (1)

Country Link
KR (1) KR20210049478A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723116A (en) * 2021-08-25 2021-11-30 科大讯飞股份有限公司 Text translation method and related device, electronic equipment and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723116A (en) * 2021-08-25 2021-11-30 科大讯飞股份有限公司 Text translation method and related device, electronic equipment and storage medium
CN113723116B (en) * 2021-08-25 2024-02-13 中国科学技术大学 Text translation method and related device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
US10417350B1 (en) Artificial intelligence system for automated adaptation of text-based classification models for multiple languages
US11194799B2 (en) Systems and methods for translating natural language sentences into database queries
CN108363790B (en) Method, device, equipment and storage medium for evaluating comments
KR20200031154A (en) In-depth context-based grammatical error correction using artificial neural networks
KR20190125863A (en) Multilingual translation device and multilingual translation method
JP5544602B2 (en) Word semantic relationship extraction apparatus and word semantic relationship extraction method
JP2015094848A (en) Information processor, information processing method and program
CN111611810A (en) Polyphone pronunciation disambiguation device and method
CN109359290B (en) Knowledge point determining method of test question text, electronic equipment and storage medium
CN111599340A (en) Polyphone pronunciation prediction method and device and computer readable storage medium
JP5809381B1 (en) Natural language processing system, natural language processing method, and natural language processing program
CN112464676A (en) Machine translation result scoring method and device
CN111680494A (en) Similar text generation method and device
CN111291565A (en) Method and device for named entity recognition
CN116661855A (en) Code annotation generation method and device
KR20210049478A (en) Apparatus and method for providing user customized translation
JP6495124B2 (en) Term semantic code determination device, term semantic code determination model learning device, method, and program
CN116663536A (en) Matching method and device for clinical diagnosis standard words
US20200380207A1 (en) Morpheme analysis learning device, morpheme analysis device, method, and program
Verwimp et al. TF-LM: tensorflow-based language modeling toolkit
WO2022180989A1 (en) Model generation device and model generation method
KR20210051252A (en) Apparatus and method for providing translation for a word with multiple meanings
CN113673247A (en) Entity identification method, device, medium and electronic equipment based on deep learning
RU2595489C2 (en) Allocation of time expressions for texts in natural language
CN109657247B (en) Method and device for realizing self-defined grammar of machine learning