KR20210049478A - Apparatus and method for providing user customized translation - Google Patents
Apparatus and method for providing user customized translation Download PDFInfo
- Publication number
- KR20210049478A KR20210049478A KR1020190133812A KR20190133812A KR20210049478A KR 20210049478 A KR20210049478 A KR 20210049478A KR 1020190133812 A KR1020190133812 A KR 1020190133812A KR 20190133812 A KR20190133812 A KR 20190133812A KR 20210049478 A KR20210049478 A KR 20210049478A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- translation
- sentence
- word
- domain
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 사용자 맞춤 번역을 제공하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 사용자가 사용할수록 성능이 향상되는 사용자 맞춤 번역을 제공하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for providing a user-customized translation, and more particularly, to a method and apparatus for providing a user-customized translation in which performance is improved as a user uses it.
신경망 기계 번역(Neural Machine Translation)이란, 기계 번역 방식의 한 종류로 인공지능(Artificial Intelligence)이 데이터 학습을 통해 문장 단위로 언어를 번역하는 기술을 의미한다. 여기서, 신경망 기계 번역을 진행하는 방법은 사용자가 번역 엔진에 문장을 입력하면 맥락을 파악한 후 이를 단어, 구문, 어순 등의 정보가 담겨 있는 벡터로 전환하여 번역을 진행한다. Neural Machine Translation is a type of machine translation method, and refers to a technology in which artificial intelligence translates language in sentence units through data learning. Here, in the neural network machine translation method, when a user inputs a sentence into a translation engine, the context is identified and then converted into a vector containing information such as words, phrases, and word order, and the translation is performed.
또한, 신경망 기계 번역 주요 기술들의 연구와 발전으로 신경망 번역의 성능은 과거에 비해 많이 향상되었다. 따라서, 기존 기계 번역에 주로 사용된 통계 기반 기계 번역(Statistical Machine Translation)보다 자연스럽고 정확한 번역이 가능하다.In addition, the performance of neural network translation has improved significantly compared to the past due to the research and development of major neural network machine translation technologies. Therefore, more natural and accurate translation is possible than statistical machine translation, which is mainly used for conventional machine translation.
다만, 신경망 기계 번역의 주요 기술들이 과거에 비해 기술이 향상 되었다고 하더라도 여전히 다의어의 번역 문제는 해결하지 못하고 있다. 다의어 번역의 경우, 단어들과의 관계와 단어의 특성을 담고 있는 워드 벡터(Word Vector) 값에 의해 단어의 의미가 결정되고, 말뭉치에 등장하는 형태에 따라 워드 벡터 값이 달라지는 경향이 있으므로 특정 상황에 맞는 다의어의 의미를 결정하는 데 문제가 있다.However, even though the major technologies of neural network machine translation have improved compared to the past, the problem of multilingual translation is still not solved. In the case of multilingual translation, the meaning of the word is determined by the word vector value containing the relationship with the words and the characteristics of the word, and the word vector value tends to vary depending on the shape appearing in the corpus. There is a problem in determining the meaning of the multilingual word for.
또한, 신경망 기계 번역의 번역 성능은 말뭉치에 의해 향상 되기도 하지만 말뭉치의 수집이 어렵고, 수집한 말뭉치도 편향된 임베딩(Embedding) 정보로 인해 기존 신경망 기계 번역에 의하면 다의어를 정확하게 번역하지 못하는 문제가 있다. In addition, although the translation performance of neural network machine translation is improved by the corpus, it is difficult to collect the corpus, and the collected corpus also has a problem in that it cannot accurately translate multiwords according to the existing neural network machine translation due to biased embedding information.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 누적된 로그 데이터를 활용하여 사용자가 다의어를 주로 사용하는 도메인을 예측하는 데 있다.An object of the present invention for solving the above problems is to predict a domain in which a user mainly uses multiple words by using accumulated log data.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 특정 환경에 맞게 번역되어야 하는 다의어를 정확히 번역하는 데 있다.Another object of the present invention for solving the above-described problems is to accurately translate a multi-word to be translated in accordance with a specific environment.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 사용자가 사용할수록 누적되는 로그 데이터에 의해 더 향상된 번역 모델을 제공하는 데 있다.Another object of the present invention for solving the above problems is to provide an improved translation model based on log data that is accumulated as a user uses it.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법은, 사용자로부터 번역 대상이 되는 문장을 입력받는 단계; 상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하는 단계; 상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하는 단계; 상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하는 단계; 및 상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키는 단계를 포함할 수 있다.A method for providing customized translation for a user according to an embodiment of the present invention for achieving the above object includes the steps of: receiving a sentence to be translated from a user; Extracting polysynthetic words appearing at a high frequency by a user from the input sentences based on log data in which the sentences input by the user are stored; Predicting a domain in which the user mainly uses the multi-term in consideration of the association between the multi-term and one or more words adjacent to the multi-term; Completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting the error; And storing the completed translation sentence and the input sentence in the log data to train a translation model.
본 발명의 일 실시예에 따르면, 번역 결과를 로그 데이터에 추가로 저장하고 추가된 데이터로 번역 모델을 학습 시킴으로써 외부 데이터를 수집할 필요가 없는 장점을 가진다.According to an embodiment of the present invention, the translation result is additionally stored in log data and the translation model is trained with the added data, thereby eliminating the need to collect external data.
본 발명의 일 실시예에 따르면, 사용자의 로그 데이터를 활용하므로 사용자가 주로 사용하는 도메인에 따른 맞춤형 번역을 효율적으로 제공할 수 있는 장점을 가진다.According to an embodiment of the present invention, since log data of a user is used, it has an advantage of efficiently providing customized translation according to a domain mainly used by the user.
도 1은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 고빈도 단어 추출부의 상세 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 도메인 분석부의 상세 블록 구성도이다.
도 4는 본 발명의 일 실시예에 따른 오류 수정부의 상세 블록 구성도이다.
도 5는 본 발명의 일 실시예에 따른 모델 학습부의 상세 블록 구성도이다.
도 6은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법의 동작 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다.1 is a block diagram of an apparatus for providing customized translation according to an embodiment of the present invention.
2 is a detailed block diagram of a high frequency word extraction unit according to an embodiment of the present invention.
3 is a detailed block diagram of a domain analysis unit according to an embodiment of the present invention.
4 is a detailed block diagram of an error correction unit according to an embodiment of the present invention.
5 is a detailed block diagram of a model learning unit according to an embodiment of the present invention.
6 is a flowchart illustrating an operation of a method for providing customized translation according to an embodiment of the present invention.
7 is a block diagram of an apparatus for providing customized translation according to another embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. In the present invention, various modifications may be made and various embodiments may be provided, and specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to a specific embodiment, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention. In describing each drawing, similar reference numerals have been used for similar elements.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. Terms such as first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, a first element may be referred to as a second element, and similarly, a second element may be referred to as a first element. The term "and/or" includes a combination of a plurality of related described items or any of a plurality of related described items.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in the middle. It should be. On the other hand, when a component is referred to as being "directly connected" or "directly connected" to another component, it should be understood that there is no other component in the middle.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, terms such as "comprise" or "have" are intended to designate the presence of features, numbers, steps, actions, components, parts, or combinations thereof described in the specification, but one or more other features. It is to be understood that the presence or addition of elements or numbers, steps, actions, components, parts, or combinations thereof does not preclude in advance.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms as defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related technology, and should not be interpreted as an ideal or excessively formal meaning unless explicitly defined in the present application. Does not.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다. 1 is a block diagram of an apparatus for providing customized translation according to an embodiment of the present invention.
도 1을 참조하면, 사용자 맞춤 번역 제공 장치(1000)는 데이터 저장부(1100), 고빈도 단어 추출부(1200), 도메인 분석부(1300), 오류 수정부(1400) 및 모델 학습부(1500)를 포함할 수 있다.Referring to FIG. 1, a user-customized
여기서, 데이터 저장부(1100)는 사용자가 번역 제공 장치를 사용할 때 입력되는 문장 및 번역 제공 장치를 사용한 후 출력되는 문장을 로그 데이터로 저장할 수 있다.Here, the
또한, 고빈도 단어 추출부(1200)는 데이터 저장부(1100)에 저장된 로그 데이터에 기반하여 사용자에 의해 고빈도로 출현되는 다의어를 찾아내어 추출할 수 있다.In addition, the high
또한, 도메인 분석부(1300)는 고빈도 단어 추출부(1200)에서 추출된 다의어를 분석하여 사용자가 주로 특정 다의어를 사용하는 도메인을 예측할 수 있다.In addition, the
또한, 오류 수정부(1400)는 도메인 분석부(1300)에서 예측한 도메인을 바탕으로 번역 오류가 있는지 확인하고, 번역 오류가 있는 경우 번역을 수정하여 완전한 번역 문장을 생성할 수 있다.In addition, the
또한, 모델 학습부(1500)는 완성된 번역 문장 및 사용자로부터 입력된 문장을 로그 데이터로 데이터 저장부(1100)에 저장하고 그 데이터를 모아서 번역 모델을 학습 시킬 수 있다. In addition, the
따라서, 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치를 활용하면 사용자가 사용할수록 누적되는 로그 데이터를 사용하여 사용자가 자주 사용하는 상황 및 환경을 파악하여 올바른 다의어의 의미를 선택하고 번역할 수 있는 지식 증강 번역이 가능하다.Therefore, if the user-customized translation providing device according to an embodiment of the present invention is used, it is possible to select and translate the correct meaning of multiple words by grasping the situations and environments frequently used by the user using log data that is accumulated as the user uses it. Knowledge-enhanced translation is possible.
또한, 사용자 맞춤 번역 제공 장치를 활용하면 번역 모델에서 쉽게 방대한 양의 로그 데이터를 수집할 수 있고, 사용자가 주로 사용하는 단어들이 로그 데이터로써 저장될 수 있다. 따라서, 사용자 맞춤 번역 제공 장치는 로그 데이터를 사용하여 사용자가 단어를 주로 사용하는 도메인을 예측하고 다의어의 의미를 정확하게 파악하여 올바른 번역 결과를 제공할 수 있다. In addition, if a user-customized translation providing device is used, a vast amount of log data can be easily collected from a translation model, and words mainly used by the user can be stored as log data. Accordingly, the apparatus for providing customized translation for a user may predict a domain in which a user mainly uses a word by using log data and accurately grasp the meaning of a multilingual word to provide a correct translation result.
또한, 사용자 맞춤 번역 제공 장치는 다의어의 번역에 오류가 있는 경우 오류를 수정하고, 수정된 데이터를 모아 번역 모델을 재학습시킴으로써 사용자 맞춤 번역 모델을 제공할 수 있고, 특정 도메인에 특화된 모델을 생성할 필요가 없어 비용적인 면에서도 효율적이다.In addition, if there is an error in the translation of a multilingual language, the user-customized translation providing device can provide a customized translation model by correcting the error and retraining the translation model by collecting the corrected data, and can generate a model specialized for a specific domain. There is no need, so it is also cost effective.
도 2는 본 발명의 일 실시예에 따른 고빈도 단어 추출부의 상세 블록 구성도이다.2 is a detailed block diagram of a high frequency word extraction unit according to an embodiment of the present invention.
도 2를 참조하면, 고빈도 단어 추출부(1200)는 형태소 분석 모듈(1210), 불용어 제거 모듈(1220), 빈도 계산 모듈(1230) 및 단어 추출 모듈(1240)을 포함할 수 있다.Referring to FIG. 2, the high frequency
고빈도 단어 추출부(1200)는 사용자가 번역 제공 장치를 주로 사용하는 환경을 예측하기 위해 사용자에 의해 고빈도로 출현되는 다의어를 추출할 수 있다. 여기서, 다의어는 데이터 저장부(1100)에서 저장한 로그 데이터를 사용하여 추출될 수 있다.The high frequency
또한, 저장된 로그 데이터의 문장들은 고빈도 단어 추출부(1200)의 형태소 분석 모듈(1210)에 의해 단어 및 형태소 단위로 분리될 수 있다. 여기서, 분리된 문장은 불용어 제거 모듈(1220)에 의해 다의어를 해석하는 데 연관이 없는 조사 또는 관사와 같은 불용어가 제거될 수 있다. 여기서, 형태서 분석 모듈(1210)에서 사용하는 형태소 분석기는 세종 태그셋을 기반으로 하는 TTA 표준 형태소 태그셋(TTAK.K0-11.0010/R1)을 기반으로 할 수 있다.Also, sentences of the stored log data may be separated into words and morpheme units by the
예를 들어, '검정색 레벨 값은 0~255까지 8비트 해상도에서 조정됩니다.'와 같은 문장은 형태소 분석 모듈(1210)에 의해 '검정/NNG 색/NNG 레벨/NNG 값/NNG 은/JX 0/SN ~/S0 255/SN 까지/JX 8/SN 비트/NNB 해상도/NNG 에서/JKB 조정/NNG 되/XFV ㅂ니다/EF ./SF'로 분리될 수 있다.For example, a sentence such as'The black level value is adjusted from 0 to 255 in 8-bit resolution' is displayed by the
또한, 빈도 계산 모듈(1230)은 로그 데이터에 저장된 문장에서 단어가 얼마나 등장하는지 횟수를 계산할 수 있다. Also, the
또한, 단어 추출 모듈(1240)은 빈도 계산 모듈(1239)에 의해 계산된 결과에 기반하여 결과를 내림차순으로 정리하고 미리 구축한 다의어 사전과 비교함으로써 사용자에 의해 고빈도로 출현되는 다의어를 추출할 수 있다.In addition, the
도 3은 본 발명의 일 실시예에 따른 도메인 분석부의 상세 블록 구성도이다.3 is a detailed block diagram of a domain analysis unit according to an embodiment of the present invention.
도 3을 참조하면, 도메인 분석부(1300)는 입력된 문장으로부터 사용자에 의해 고빈도로 추출되는 다의어 및 같은 문장에 존재하는 다의어와 인접한 단어들의 연관성에 기반하여 사용자가 주로 다의어를 사용하는 도메인을 예측할 수 있다.Referring to FIG. 3, the
예를 들어, '검정색 레벨 값은 0~255까지 8비트 해상도에서 조정됩니다.'와 같은 문장에서 단어'비트'는 다의어로서, 음악 분야에서는 박자를 뜻하는 'beat'로서 사용되고, 컴퓨터 분야에서는 컴퓨터 이용 정보량의 최쇠 단위인 'bit'로서 사용되고, 식물 분야에서는 사탕무우를 의미하는 'beet'로서 사용되므로, 상기 문장에서 '비트'의 정확한 의미는 인접 단어들에 의해 파악이 가능하다. For example, in a sentence such as'The black level value is adjusted from 0 to 255 in 8-bit resolution', the word'beat' is used as a polyphonic word, in the music field it is used as'beat', which means the beat, and in the computer field, the computer Since it is used as'bit', which is the smallest unit of the amount of information used, and is used as'beet' meaning sugar beet in the plant field, the exact meaning of'bit' in the sentence can be grasped by adjacent words.
따라서, 상기 문장에서 '비트'의 정확한 의미는 같은 문장에 존재하는 '검정', '색', '레벨' 및 '해상도'와 같은 인접 단어들로부터 파악할 수 있다. 결국,'비트'는 인접 단어에 비추어 보아, 색, 컴퓨터, 모니터 등에 연관된 단어임을 추측할 수 있으므로 색, 컴퓨터, 모니터 등과 관련된 분야에서 사용되는 의미에 맞게 '비트'의 번역 단어가 선택될 수 있다.Therefore, the exact meaning of'bit' in the sentence can be grasped from adjacent words such as'black','color','level', and'resolution' existing in the same sentence. In the end, since'bit' can be inferred that it is a word related to color, computer, monitor, etc. in light of adjacent words, the translated word of'bit' can be selected according to the meaning used in fields related to color, computer, monitor, etc. .
또한, 데이터 저장부(1100)에 저장되는 로그 데이터에 누적되어 있는 단어 '비트’는'컴퓨터' 도메인에 속하는 단어임을 파악할 수 있으므로 사용자가 주로 다의어 '비트'를 사용하는 도메인이 '컴퓨터' 분야임을 예측할 수 있다.In addition, since the word'bit' accumulated in the log data stored in the
도 4는 본 발명의 일 실시예에 따른 오류 수정부의 상세 블록 구성도이다.4 is a detailed block diagram of an error correction unit according to an embodiment of the present invention.
도 4를 참조하면, 오류 수정부(1400)는 도메인 분석부(1300)에서 예측한 도메인에서 다의어가 사용되는 의미에 맞게 번역되지 못한 다의어를 적절하게 번역할 수 있다. 따라서, 도메인 분석부(1300)에서 다의어가 사용자에 의해 주로 사용되는 도메인을 예측하고, 도메인 별로 학습 시킨 군집화 모델에 다의어를 입력하여 다의어의 올바른 번역 단어를 확인할 수 있다.Referring to FIG. 4, the
여기서, 다의어가 도메인에 맞게 번역되는지 확인하기 위해서 벡터 거리 계산 모듈(1410)에서 군집 모델에 존재하는 다의어와 번역 단어 사이의 단어 벡터(Word Vector) 값의 벡터 거리를 계산할 수 있다. Here, in order to check whether the multi-word is translated according to the domain, the vector
또한, 벡터 거리 계산 모듈(1410)에서 계산된 다의어와 번역 단어 사이의 벡터 거리에 기반하여 다의어가 도메인에 맞게 번역되었는지 단어 확인 모듈(1420)에 의해 확인될 수 있다.In addition, it may be confirmed by the
또한, 오류 수정 모듈(1430)은 단어 확인 모듈(1420)에서 다의어가 도메인에 맞게 번역되었는지 확인하여 다의어가 도메인에 맞게 번역되지 않은 경우, 다의어가 도메인에 맞게 번역될 수 있도록 번역 단어를 수정할 수 있다.In addition, the
도 5는 본 발명의 일 실시예에 따른 모델 학습부의 상세 블록 구성도이다.5 is a detailed block diagram of a model learning unit according to an embodiment of the present invention.
도 5를 참조하면, 모델 학습부(1500)는 로그 데이터 추출 모듈(1510) 및 번역 모델 학습 모듈(1520)을 포함할 수 있다.Referring to FIG. 5, the
여기서, 로그 데이터 추출 모듈(1510)은 데이터 저장부(1100)에 사용자로부터 입력된 문장, 번역된 문장 및 사용자 맞춤 번역 제공 장치에 의해 번역된 완전한 문장을 로그 데이터로서 저장할 수 있고, 저장된 로그 데이터를 추출하여 사용자 맞춤 번역 모델을 학습 시키도록 번역 모델 학습 모듈(1520)에게 전달할 수 있다.Here, the log
또한, 번역 모델 학습 모듈(1520)은 로그 데이터 추출 모듈(1510)로부터 로그 데이터를 전달 받아 사용자 맞춤 번역 모델을 학습 시킬 수 있다.In addition, the translation
도 6은 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법의 동작 순서도이다.6 is a flowchart illustrating an operation of a method for providing customized translation according to an embodiment of the present invention.
도 6를 참조하면, 본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 방법은, 사용자로부터 번역 대상이 되는 문장을 입력받는 단계(S610)를 포함할 수 있다.Referring to FIG. 6, a method of providing customized translation for a user according to an embodiment of the present invention may include receiving a sentence to be translated from a user (S610).
또한, 상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하는 단계(S620)를 포함할 수 있다.In addition, it may include a step (S620) of extracting a polyunism that appears at a high frequency by the user from the input sentence based on the log data in which the sentence input by the user is stored.
또한, 상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하는 단계(S630)를 포함할 수 있다.In addition, it may include a step (S630) of predicting a domain in which the user mainly uses the multi-term in consideration of the association between the multi-term and one or more words adjacent to the multi-term.
또한, 상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하는 단계(S640)를 포함할 수 있다.In addition, it may include a step (S640) of completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting the error.
또한, 상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키는 단계(S650)를 포함할 수 있다.In addition, it may include a step (S650) of learning a translation model by storing the completed translation sentence and the input sentence in the log data.
도 7은 본 발명의 다른 실시예에 따른 사용자 맞춤 번역 제공 장치의 블록 구성도이다.7 is a block diagram of an apparatus for providing customized translation according to another embodiment of the present invention.
본 발명의 일 실시예에 따른 사용자 맞춤 번역 제공 장치(1000)는 프로세서(1010) 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리(1020) 및 네트워크와 연결되어 통신을 수행하는 송수신 장치(1030)를 포함할 수 있다. The
사용자 맞춤 번역 제공 장치(1000)는 또한, 입력 인터페이스 장치(1040), 출력 인터페이스 장치(1050), 저장 장치(1060) 등을 더 포함할 수 있다. 사용자 맞춤 번역 제공 장치(1000)에 포함된 각각의 구성 요소들은 버스(Bus)(1070)에 의해 연결되어 서로 통신을 수행할 수 있다. The
프로세서(1010)는 메모리(1020) 및 저장 장치(1060) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(1010)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(1020) 및 저장 장치(1060) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(1020)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.The
저장 장치(1060)는 또한, 사용자로부터 입력된 문장, 입력된 문장의 번역 문장 및 사용자 맞춤 번역 제공 장치에 의해 사용자로부 입력된 문장이 완전하게 번역된 문장을 저장할 수 있고, 저장 장치에 저장된 문장들로부터 학습된 번역 모델의 데이터를 저장할 수 있다.The
여기서, 적어도 하나의 명령은, 사용자로부터 번역 대상이 되는 문장을 입력받도록 하는 명령; 상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하도록 하는 명령; 상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하도록 하는 명령; 상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하도록 하는 명령; 및 상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키도록 하는 명령을 포함할 수 있다.Here, the at least one command may include: a command to receive a sentence to be translated from a user; A command for extracting a polymorphism that appears at a high frequency by a user from the input sentence based on log data in which the sentence input by the user is stored; An instruction for causing the user to predict a domain in which the polyunism is mainly used in consideration of the association between the multi-term and one or more adjacent words; A command for completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting an error; And a command for learning a translation model by storing the completed translation sentence and the input sentence in the log data.
본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다. The operation of the method according to the embodiment of the present invention can be implemented as a computer-readable program or code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices that store data that can be read by a computer system. In addition, a computer-readable recording medium may be distributed over a network-connected computer system to store and execute a computer-readable program or code in a distributed manner.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.Further, the computer-readable recording medium may include a hardware device specially configured to store and execute program commands, such as ROM, RAM, and flash memory. The program instructions may include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다. While some aspects of the invention have been described in the context of an apparatus, it may also represent a description according to a corresponding method, where a block or apparatus corresponds to a method step or characteristic of a method step. Similarly, aspects described in the context of a method can also be represented by a corresponding block or item or a feature of a corresponding device. Some or all of the method steps may be performed by (or using) a hardware device such as, for example, a microprocessor, a programmable computer or electronic circuit. In some embodiments, one or more of the most important method steps may be performed by such an apparatus.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.In embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In embodiments, the field programmable gate array may work with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by some hardware device.
이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art will be able to variously modify and change the present invention within the scope not departing from the spirit and scope of the present invention described in the following claims. You will understand that you can.
Claims (1)
상기 사용자가 입력한 문장이 저장된 로그 데이터에 기반하여 상기 입력된 문장으로부터 사용자에 의해 고빈도로 출현되는 다의어를 추출하는 단계;
상기 다의어 및 상기 다의어와 인접한 하나 이상의 단어와의 연관성을 고려하여 상기 사용자가 상기 다의어를 주로 사용하는 도메인을 예측하는 단계;
상기 다의어가 상기 도메인에서 사용되는 의미에 맞게 번역되었는지 확인하여 오류를 수정함으로써 번역 문장을 완성하는 단계; 및
상기 완성된 번역 문장 및 상기 입력된 문장을 상기 로그 데이터에 저장하여 번역 모델을 학습시키는 단계를 포함하는, 사용자 맞춤 번역 제공 방법.Receiving a sentence to be translated from a user;
Extracting polysynthetic words appearing at a high frequency by the user from the input sentences based on log data in which the sentences input by the user are stored;
Predicting a domain in which the user mainly uses the multi-term in consideration of the association between the multi-term and one or more words adjacent to the multi-term;
Completing a translated sentence by checking whether the multi-word is translated according to the meaning used in the domain and correcting the error; And
And learning a translation model by storing the completed translation sentence and the input sentence in the log data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190133812A KR20210049478A (en) | 2019-10-25 | 2019-10-25 | Apparatus and method for providing user customized translation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190133812A KR20210049478A (en) | 2019-10-25 | 2019-10-25 | Apparatus and method for providing user customized translation |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210049478A true KR20210049478A (en) | 2021-05-06 |
Family
ID=75915845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190133812A KR20210049478A (en) | 2019-10-25 | 2019-10-25 | Apparatus and method for providing user customized translation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210049478A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723116A (en) * | 2021-08-25 | 2021-11-30 | 科大讯飞股份有限公司 | Text translation method and related device, electronic equipment and storage medium |
-
2019
- 2019-10-25 KR KR1020190133812A patent/KR20210049478A/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723116A (en) * | 2021-08-25 | 2021-11-30 | 科大讯飞股份有限公司 | Text translation method and related device, electronic equipment and storage medium |
CN113723116B (en) * | 2021-08-25 | 2024-02-13 | 中国科学技术大学 | Text translation method and related device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417350B1 (en) | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages | |
US11194799B2 (en) | Systems and methods for translating natural language sentences into database queries | |
CN108363790B (en) | Method, device, equipment and storage medium for evaluating comments | |
KR20200031154A (en) | In-depth context-based grammatical error correction using artificial neural networks | |
KR20190125863A (en) | Multilingual translation device and multilingual translation method | |
JP5544602B2 (en) | Word semantic relationship extraction apparatus and word semantic relationship extraction method | |
JP2015094848A (en) | Information processor, information processing method and program | |
CN111611810A (en) | Polyphone pronunciation disambiguation device and method | |
CN109359290B (en) | Knowledge point determining method of test question text, electronic equipment and storage medium | |
CN111599340A (en) | Polyphone pronunciation prediction method and device and computer readable storage medium | |
JP5809381B1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
CN112464676A (en) | Machine translation result scoring method and device | |
CN111680494A (en) | Similar text generation method and device | |
CN111291565A (en) | Method and device for named entity recognition | |
CN116661855A (en) | Code annotation generation method and device | |
KR20210049478A (en) | Apparatus and method for providing user customized translation | |
JP6495124B2 (en) | Term semantic code determination device, term semantic code determination model learning device, method, and program | |
CN116663536A (en) | Matching method and device for clinical diagnosis standard words | |
US20200380207A1 (en) | Morpheme analysis learning device, morpheme analysis device, method, and program | |
Verwimp et al. | TF-LM: tensorflow-based language modeling toolkit | |
WO2022180989A1 (en) | Model generation device and model generation method | |
KR20210051252A (en) | Apparatus and method for providing translation for a word with multiple meanings | |
CN113673247A (en) | Entity identification method, device, medium and electronic equipment based on deep learning | |
RU2595489C2 (en) | Allocation of time expressions for texts in natural language | |
CN109657247B (en) | Method and device for realizing self-defined grammar of machine learning |