KR20150085982A - Method and apparatus for translation - Google Patents

Method and apparatus for translation Download PDF

Info

Publication number
KR20150085982A
KR20150085982A KR1020140006030A KR20140006030A KR20150085982A KR 20150085982 A KR20150085982 A KR 20150085982A KR 1020140006030 A KR1020140006030 A KR 1020140006030A KR 20140006030 A KR20140006030 A KR 20140006030A KR 20150085982 A KR20150085982 A KR 20150085982A
Authority
KR
South Korea
Prior art keywords
language
vocabulary
corpus
target language
unit
Prior art date
Application number
KR1020140006030A
Other languages
Korean (ko)
Inventor
서영애
김영길
김운
권오욱
노윤형
나승훈
신종훈
박은진
이기영
최승권
황금하
정상근
김창현
김강일
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140006030A priority Critical patent/KR20150085982A/en
Publication of KR20150085982A publication Critical patent/KR20150085982A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

According to an embodiment of the present invention, a translation device includes: a translated word extracting device which extracts a translated word based on the bilingual corpus of a native language and a target language, the monolingual corpus of the native language, the monolingual corpus of the target language; a morphological analysis unit which analyzes the morpheme of the input text; a syntax analysis unit analyzing the syntax of the morpheme; and a translated word conversion unit which converts the input text to translated text based on the morpheme and syntax. The translated word conversion unit converts the input text to the translated text based on the translated word extracting device.

Description

번역 장치 및 방법{METHOD AND APPARATUS FOR TRANSLATION}[0001] METHOD AND APPARATUS FOR TRANSLATION [0002]

본 발명은 번역 장치 및 방법에 관한 것이다. 보다 상세하게는 양국어 또는 단일어 코퍼스를 이용하는 번역 장치 및 방법에 관한 것이다.The present invention relates to a translation apparatus and method. And more particularly, to a translation apparatus and method using bilingual or monolingual corpus.

컴퓨터의 발명과 그 발전의 역사만큼이나 기계를 통해 언어의 장벽을 해소하고자 하는 오랜 노력이 있었고, 현재도 자동 번역 기술은 꾸준히 발전되고 있다. 인터넷의 활성화와 더욱 가속화되는 세계화는 폭발적인 다국어 콘텐츠를 생산해 내고 있으며, 자동 번역에 대한 수요는 사람에 의한 수동 번역의 생산성을 뛰어 넘고 있다. 자동 번역 기술은 인터넷 콘텐츠 번역, 고급 문서번역 등 다양한 부문에서 중요한 요소 기술로 인식되고 있다. There has been a long effort to solve the language barriers through the machine as much as the invention of the computer and its development, and the automatic translation technology is still developing steadily. The activation of the Internet and the accelerating globalization are producing explosive multilingual content, and the demand for automatic translation exceeds the productivity of manual translation by people. Automatic translation technology is recognized as an important element technology in various fields such as Internet content translation and advanced document translation.

자동 번역은 하나의 언어로 기술된 문장을 다른 언어의 문장으로 자동으로 번역하기 위한 제반의 기술로, 일반적으로 전체 번역 과정이 사람의 관여 없이 진행 가능한 기계 번역 기술을 의미한다.Automatic translation is a general technique for automatically translating sentences written in one language into sentences of other languages. In general, the whole translation process means a machine translation technique that can be carried out without human involvement.

기계 번역 기술의 유형에는 직접 방식, 변환 방식, 중간 언어 방식, 통계 기반 방식 등이 있다. 이 중 변환 방식 기계 번역(transfer-based machine translation)은 규칙 기반 기계 번역(rule based machine translation)으로도 불리운다. 변환 방식 기계 번역기술은 번역 대상 원문에 대해 형태소 분석, 품사 태깅과 함께 구문 분석을 수행하고, 분석된 원문의 구문 구조를 변환 규칙(transfer rules)에 기반해 목적 언어의 구문 구조로 변환한 후에 목적 언어로 구성된 문장을 생성하는 방식으로 자동 번역을 수행한다. Types of machine translation techniques include direct method, conversion method, intermediate language method, and statistics-based method. Among them, transfer-based machine translation is also called rule based machine translation. Transformation method The machine translation technology performs syntactic analysis with the morphological analysis, partly tagging, and the syntactic structure of the analyzed original text into the syntactic structure of the target language based on the transfer rules And performs automatic translation in such a manner that a sentence composed of languages is generated.

종래의 변환 방식에 기반한 자동 번역기술은 원시언어의 분석 후, 목적 언어의 생성을 수행하는 형태로 이루어진다. 이때 양국어 코퍼스를 이용하여, 원시언어를 목적언어로 변환하는데, 양국어 코퍼스가 적은 경우, 번역의 정확도가 떨어진다는 문제가 있었다.The automatic translation technology based on the conventional conversion method is configured to perform generation of the target language after analyzing the source language. At this time, the bilingual corpus is used to convert the source language into the target language. In the case where the bilingual corpus is small, there is a problem that the accuracy of the translation is poor.

특히 원시언어가 중의적 의미(사과를 예를 들면, apple 또는 apology로 해석될 수 있음)를 갖고 있는 경우 번역의 정확도가 떨어진다는 문제가 있었다.Especially, when the primitive language has the meaning of ambiguity (apology can be interpreted as apple or apology, for example), there is a problem that the accuracy of translation is poor.

선행문헌1: 한국 공개특허: 제10-2006-0056655호(발명의 명칭: 메신저 연동 외국어 전환 서비스 시스템 및 그 서비스 방법)Prior Art Document 1: Korean Patent Laid-Open No. 10-2006-0056655 (titled invention: a system for converting a foreign language into a foreign language and a service method thereof)

본 발명이 해결하고자 하는 과제는 번역의 정확성이 높은 번역 장치 및 방법을 제공하는 것이다.A problem to be solved by the present invention is to provide a translation apparatus and method with high accuracy of translation.

본 발명의 실시예에 따른 번역 장치는 원시언어 및 목적언어에 대한 양국어 코퍼스, 상기 원시언어에 대한 단일어 코퍼스 및 상기 목적언어에 대한 단일어 코퍼스에 기초하여 대역어를 추출하는 대역어 추출기; 입력문의 형태소를 분석하는 형태소 분석부; 상기 형태소의 구문을 분석하는 구문 분석부; 및 상기 형태소와 상기 구문에 기초하여 입력문을 대역문으로 변환시키는 대역문 변환부를 포함하고, 상기 대역문 변환부는 상기 대역어 추출기에 기초하여 입력문을 대역문으로 변환시킨다.A translation apparatus according to an embodiment of the present invention includes: a bilingual word extractor for extracting a bilingual corpus for a source language and a target language, a monolingual corpus for the source language, and a monolingual corpus for the target language; A morpheme analysis unit for analyzing the morpheme of the input inquiry; A syntax analyzer for analyzing a syntax of the morpheme; And a band sentence conversion unit for converting the input sentence into a band sentence based on the morpheme and the phrase, and the band sentence conversion unit converts the input sentence into a band sentence based on the word extractor.

본 발명의 실시예에 따르면, 양국어 또는 단일어 코퍼스를 이용하여 정확성이 높은 번역 장치 및 방법을 제공한다.According to the embodiment of the present invention, a bilingual or monolingual corpus is used to provide a highly accurate translation apparatus and method.

도 1은 본 발명의 실시예에 따른 번역 장치의 블럭도이다.
도 2는 본 발명의 실시예에 따른 대역어 추출기의 블럭도 이다.
도 3은 본 발명의 실시예에 따른 번역 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 대역어 추출방법의 흐름도이다.
1 is a block diagram of a translation apparatus according to an embodiment of the present invention.
2 is a block diagram of a speech word extractor according to an embodiment of the present invention.
3 is a flowchart of a translation method according to an embodiment of the present invention.
4 is a flowchart of a method of extracting a keyword according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification and claims, when a section is referred to as "including " an element, it is understood that it does not exclude other elements, but may include other elements, unless specifically stated otherwise.

또한 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Also, throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . When an element is referred to as "comprising ", it means that it can include other elements, not excluding other elements unless specifically stated otherwise.

이제 본 발명의 실시 예에 따른 번역 장치 및 방법에 대하여 도면을 참고로 하여 상세하게 설명한다. Now, a translation apparatus and method according to an embodiment of the present invention will be described in detail with reference to the drawings.

먼저, 도 1 본 발명의 한 실시예에 따른 번역 장치에 대하여 상세하게 설명한다.First, a translation apparatus according to an embodiment of the present invention will be described in detail.

도 1은 본 발명의 실시예에 따른 번역 장치의 블럭도이다.1 is a block diagram of a translation apparatus according to an embodiment of the present invention.

본 발명의 실시예에 따른 번역 장치(100)는 형태소 분석부(200), 구문 분석부(300), 대역문 변환부(400), 대역어 추출기(500) 및 형태소 생성부(600)을 포함한다. 그러나 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 번역 장치(100)가 구현될 수도 있다.The translation apparatus 100 according to the embodiment of the present invention includes a morpheme analysis unit 200, a syntax analysis unit 300, a band sentence conversion unit 400, a codeword extraction unit 500, and a morpheme generation unit 600 . However, the components shown in FIG. 1 are not essential, and a translation device 100 having more or fewer components may be implemented.

형태소 분석부(200)는 입력문의 형태소를 분석한다.The morpheme analysis unit 200 analyzes the morpheme of the input query.

구문 분석부(300)는 형태소 분석부(200)가 분석한 각 형태소의 구문을 분석한다. The syntax analysis unit 300 analyzes the syntax of each morpheme analyzed by the morpheme analysis unit 200.

대역문 변환부(400)는 분석된 형태소와 구문에 기초하여, 입력문을 대역문으로 변환한다. 대역문 변환부(400)는 대역문 변환에 있어서, 대역어 추출기(500)를 이용할 수도 있다. The band-to-speech conversion unit 400 converts the input sentence into a band sentence based on the analyzed morpheme and syntax. The band-word conversion unit 400 may use the word-word extractor 500 in the band-word conversion.

대역어 추출기(500)는 입력문의 특정 어휘를 대역어로 변환하여 추출한다. 대역문 변환부(400)는 추출된 대역어를 대역문으로 조합할 수도 있다.The band word extractor 500 converts a specific vocabulary of an input query into a word word and extracts it. The band-word conversion unit 400 may combine the extracted speech words into band words.

형태소 생성부(600)는 대역문에 기초한 형태소를 생성한다.The morpheme generator 600 generates a morpheme based on the band sentence.

다음은 도 2를 참조하여 대역어 추출기(500)에 대하여 상세하게 설명하겠다.The following is a detailed description of the word extractor 500 with reference to FIG.

도 2는 본 발명의 실시예에 따른 대역어 추출기의 블럭도이다.2 is a block diagram of a speech word extractor according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 실시예에 따른 대역어 추출기(500)는 저장부(510), 양국어 병렬 코퍼스 정렬부(520), 원시언어 유효 문맥 어휘 추출부(530), 원시언어 유효 문맥 어휘 확장부(540). 원시언어 대역어 선택부(545), 목적언어 유효 문맥 어휘 추출부(550), 목적언어 유효 문맥 어휘 확장부(560), 목적언어 대역어 선택부(570) 및 취합부(580)를 포함한다. 그러나 도 2에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 대역어 추출기(500)가 구현될 수도 있다.2, the codeword extractor 500 according to the embodiment of the present invention includes a storage unit 510, a bilingual parallel corpus arranging unit 520, a primitive language effective context vocabulary extraction unit 530, Vocabulary expansion unit 540. A target language effective context vocabulary extraction unit 550, a target language effective context vocabulary expansion unit 560, a target language verbal selection unit 570, and a combiner unit 580. However, the components shown in FIG. 2 are not essential, and a broadband extractor 500 having more or fewer components may be implemented.

저장부(510)는 원시언어 및 목적언어에 대한 양국어 코퍼스, 원시언어 및 목적언어 중 어느 하나의 코퍼스인 단일어 코퍼스 정보가 저장될 수 있다. 또한 본 발명의 실시예에 따른 저장부(510)에는 원시언어에 대응하는 대역어가 저장될 수도 있다. 원시언어에 대응하는 대역어는 원시언어의 번역시 번역되는 목적언어일 수도 있다. The storage unit 510 may store single-language corpus information, which is a corpus of a bilingual corpus, a source language, and a target language for a source language and a target language. Also, the storage unit 510 according to the embodiment of the present invention may store a word corresponding to the source language. The codeword corresponding to the source language may be the target language to be translated when translating the source language.

양국어 병렬 코퍼스 정렬부(520)는 양국어 코퍼스를 정렬한다.The bilingual parallel corpus aligning unit 520 aligns bilingual corpus.

원시언어 유효 문맥 어휘 추출부(530)는 양국어 코퍼스에서 원시언어의 유효 문맥 어휘를 추출한다.The source language valid context vocabulary extraction unit 530 extracts the effective context vocabularies of the source language from the bilingual corpus.

원시언어 유효 문맥 어휘 확장부(540)는 추출된 원시언어의 유효 문맥 어휘로부터 원시언어에 대한 단일어 코퍼스에 기초하여 유효 문맥 어휘를 확장한다. The source language valid context vocabulary expansion unit 540 expands the valid context vocabulary based on the monolingual corpus for the source language from the extracted source language valid context vocabulary.

원시언어 대역어 선택부(545)는 확장된 원시언어의 유효 문맥 어휘에 기초하여 원시언어에 대응하는 대역어를 선택한다. The source language-language selection unit 545 selects a word corresponding to the source language based on the effective-context vocabulary of the extended source language.

목적언어 유효 문맥 어휘 추출부(550)는 양국어 코퍼스에서 목적언어의 유효 문맥 어휘를 추출한다.The target language valid context vocabulary extraction unit 550 extracts the effective context vocabulary of the target language from the bilingual corpus.

목적언어 유효 문맥 어휘 확장부(560)는 추출된 목적언어의 유효 문맥 어휘로부터 목적언어에 대한 단일어 코퍼스에 기초하여 유효 문맥 어휘를 확장한다. The target language valid context vocabulary expansion unit 560 expands the valid context vocabulary based on the monolingual corpus for the target language from the extracted effective language vocabulary of the target language.

목적언어 유효 문맥 어휘 확장부(560)는 목적언어 코퍼스를 이용하여 정보를 확장한다. 양국어 코퍼스는 구축이 어렵고 양이 적은데 비해, 단일어 코퍼스(원시언어 코퍼스 및 목적언어 코퍼스)는 양이 많고, 구축도 용이하기 때문이다. The target language valid context vocabulary expansion unit 560 expands the information using the target language corpus. The bilingual corpus is difficult to construct and the amount is small, whereas the monolingual corpus (source language corpus and target language corpus) is large and easy to construct.

목적언어 대역어 선택부(570)는 각 확장된 목적언어의 유효 문맥 어휘에 기초하여 목적언어에 대응하는 대역어를 선택한다.The target language-language selecting unit 570 selects a keyword corresponding to the target language based on the effective context vocabulary of each extended target language.

취합부(580)는 원시언어 대역어 선택부(545) 및 목적언어 대역어 선태부(570)가 선택한 각각의 대역어를 취합하여 대역어를 확정한다.The collecting unit 580 collects each of the reserved words selected by the source language language word selecting unit 545 and the target language language word selecting unit 570 to determine a word word.

다음은 도 3 내지 도 4를 참조하여 본 발명의 실시예에 따른 번역 방법에 대하여 설명하겠다.Next, a translation method according to an embodiment of the present invention will be described with reference to FIG. 3 to FIG.

도 3은 본 발명의 실시예에 따른 번역 방법의 흐름도이다.3 is a flowchart of a translation method according to an embodiment of the present invention.

형태소 분석부(200)는 입력문의 형태소를 분석한다(S101).The morpheme analysis unit 200 analyzes the morpheme of the input query (S101).

구문 분석부(300)는 형태소 분석부(200)가 분석한 각 형태소의 구문을 분석한다(S103). The syntax analysis unit 300 analyzes the syntax of each morpheme analyzed by the morpheme analysis unit 200 (S103).

대역문 변환부(400)는 분석된 형태소와 구문에 기초하여, 입력문을 대역문으로 변환시킨다(S105). 대역문 변환부(400)는 대역문 변환에 있어서, 대역어 추출기(500)를 이용할 수도 있다. 본 발명의 실시예에 따른 대역문 변환부(400)는 대역어 추출기(500)에서 추출된 대역어를 취합하여 입력문을 대역문으로 변환시킨다.Based on the analyzed morpheme and the sentence, the band-word conversion unit 400 converts the input sentence into a band-type sentence (S105). The band-word conversion unit 400 may use the word-word extractor 500 in the band-word conversion. The band-word conversion unit 400 according to the embodiment of the present invention collects the words extracted from the word-word extractor 500 and converts the input words into band-words.

다음은 도 4를 참조하여 본 발명의 실시예에 따른 대역어 추출방법에 대하여 설명하겠다.Next, a method of extracting a keyword according to an embodiment of the present invention will be described with reference to FIG.

도 4는 본 발명의 실시예에 따른 대역어 추출방법의 흐름도이다.4 is a flowchart of a method of extracting a keyword according to an embodiment of the present invention.

양국어 병렬 코퍼스 정렬부(520)는 양국어 코퍼스를 정렬한다(S201). 사과에예를 대한 들면, The bilingual parallel corpus aligning unit 520 aligns the bilingual corpus (S201). For an example on apples,

사과와 배는 맛있다. / The apple and the pear are delicious.Apples and pears are delicious. / The apple and the pear are delicious.

사과는 빨간 사과와 초록색 사과가 있다. / There are red and green apples.An apple has a red apple and a green apple. / There are red and green apples.

사과 한 개의 가격은 1000원이다. / One apple costs 1000 won.The price of one apple is 1,000 won. / One apple costs 1000 won.

등을 들 수 있다. And the like.

이하에서는 위에서 나열한 양국어 병렬 코퍼스를 예를 들어 설명하겠다. 또한 이하에서는 원시언어를 한국어, 목적언어를 영어로 하여 설명하나 본 발명은 이에 한정되는 것은 아니다. 따라서 얼마든지 다른 언어를 원시언어 또는 목적언어로 하여도 본 발명의 적용이 가능하다. Hereinafter, bilingual parallel corpuses listed above will be described as an example. In the following, the source language is described as Korean and the target language is described as English, but the present invention is not limited thereto. Therefore, the present invention can be applied to any other language as a native language or a target language.

원시언어 유효 문맥 어휘 추출부(530) 및 목적언어 유효 문맥 어휘 추출부(550)는 각각의 유효 문맥 어휘를 추출한다(S203). 본 발명의 실시예에 따르면, 원시언어 유효 문맥 어휘 추출부(530)는 양국어 코퍼스에서 원시언어의 유효 문맥 어휘를 추출한다. 본 명세서에서는 이때의 유효 문맥 어휘를 제1 원시언어의 유효 문맥 어휘라고 하고 설명하겠다.The source language valid context vocabulary extraction unit 530 and the target language valid context vocabulary extraction unit 550 extract respective effective context vocabularies (S203). According to the embodiment of the present invention, the primitive language effective context vocabulary extraction unit 530 extracts the effective context vocabularies of the primitive language from the bilingual corpus. In this specification, the effective context vocabulary is referred to as the effective context vocabulary of the first primitive language.

본 발명의 실시예에 따른 원시언어의 유효 문맥 어휘란 원시언어의 특정 어휘와 함께 쓰여, 원시언어의 특정어휘의 의미를 확정짓게 하는 어휘를 말할 수 있다. 즉 원시언어의 유효 문맥 어휘에 기초하여 원시언어의 특정 어휘가 목적언어의 특정 어휘로 번역되게 한다. The effective context vocabulary of a primitive language according to an embodiment of the present invention can be used with a specific vocabulary of a primitive language to describe a vocabulary that defines the meaning of a specific vocabulary of a primitive language. That is, a specific vocabulary of the primitive language is translated into a specific vocabulary of the target language based on the effective context vocabulary of the primitive language.

위에 제시된 양국어 코퍼스 중 한국어 코퍼스에서 사과를 특정 어휘로 하여 설명하면, 사과 주변의 "배, 맛있다. 빨갛다, 초록색, 한 개, 가격 및 1000원" 등이 원시언어 유효 문맥 어휘가 될 수 있다. 즉 사과는 원시언어 유효 문맥 어휘와 함께 쓰일 때 과일의 한 종류로 해석될 수 있다. 원시언어 유효 문맥 어휘 추출시, 원시언어 유효 문맥 어휘 추출부(530)는 원시언어 유효 문맥 어휘에 대응되는 목적언어 어휘를 함께 추출할 수 있다. 이는 원시언어와 목적언어 어휘에 존재할 수 있는 단어 중의성 문제를 대역어 태그를 추가함으로써 해소하기 위함이다.When describing an apple as a specific vocabulary in the Korean corpus of the bilingual corpus presented above, the source language effective vocabulary can be "Pear, Delicious, Red, Green, One, Price and 1000 won" around the apple. That is, an apple can be interpreted as a kind of fruit when used with a primitive language effective context vocabulary. When extracting a source language valid context vocabulary, the source language valid context vocabulary extraction unit 530 may extract a target language vocabulary corresponding to a source language effective context vocabulary. This is to solve the problem of sex in the words which can exist in the source language and the target language vocabulary by adding the band word tag.

목적언어 유효 문맥 어휘 추출부(550)는 양국어 코퍼스에서 목적언어의 유효 문맥 어휘를 추출한다.The target language valid context vocabulary extraction unit 550 extracts the effective context vocabulary of the target language from the bilingual corpus.

본 발명의 실시예에 따른 목적언어의 유효 문맥 어휘란 목적언어의 특정 어휘와 함께 쓰여, 목적언어의 특정어휘의 의미를 확정짓게 하는 어휘를 말할 수 있다. 즉 목적언어의 유효 문맥 어휘에 기초하여 목적언어의 특정 어휘가 원시언어의 특정어휘로 번역되게 한다. The effective context vocabulary of the target language according to the embodiment of the present invention can be written together with a specific vocabulary of the target language to describe a vocabulary that defines the meaning of the specific vocabulary of the target language. That is, a specific vocabulary of the target language is translated into a specific vocabulary of the source language based on the effective context vocabulary of the target language.

위에 제시된 양국어 코퍼스 중 영어 코퍼스에서 apple를 특정 어휘로 하여 설명하면, apple 주변의 "Pear, delicious, red, green, one, cost 및 1000won" 등이 목적언어 유효 문맥 어휘가 될 수 있다. 즉 apple은 목적언어 유효 문맥 어휘와 함께 쓰일 때 과일의 한 종류로 해석될 수 있다. 본 명세서에서는 이때의 유효 문맥 어휘를 제1 목적언어의 유효 문맥 어휘라고 하고 설명하겠다. In the corpus of the bilinguals presented above, if apple is described as a specific vocabulary in the English corpus, "Pear, delicious, red, green, one, cost and 1000won" around apple can be the target language effective context vocabulary. That is, apple can be interpreted as a kind of fruit when used with a target language valid context vocabulary. In this specification, the effective context vocabulary is referred to as the effective context vocabulary of the first target language.

목적언어 유효 문맥 어휘 추출시, 목적언어 유효 문맥 어휘 추출부(550)는 원시언어 유효 문맥 어휘에 대응되는 목적언어 어휘를 함께 추출할 수 있다. 이는 원시언어와 목적언어 어휘에 존재할 수 있는 단어 중의성 문제를 대역어 태그를 추가함으로써 해소하기 위함이다. When extracting the target language valid context vocabulary, the target language valid context vocabulary extraction unit 550 may extract the target language vocabulary corresponding to the source language valid context vocabulary. This is to solve the problem of sex in the words which can exist in the source language and the target language vocabulary by adding the band word tag.

사과에 기초하여 추출된 원시언어 유효 문맥 어휘 및 목적언어 유효 문맥 어휘는 아래와 같을 수 있다.The primitive language valid context vocabulary and the target language effective context vocabulary extracted based on the applet may be as follows.

Pear(배), delicious(맛있다). red(빨갛다), green(초록색), one(한 개). cost(가격), 1000 won(1000원) : Apple(사과) <-> 사과(apple) : 배(Pear), 맛있다(delicious). 빨갛다(red), 초록색(green), 한 개(one). 가격(cost), 1000원(1000 won)Pear, delicious. red (red), green (green), one (one). Apple: Apple: Pear, delicious. It 's a delicious apple. It' s delicious. Red, green, and one. Price, 1000 won

원시언어 유효 문맥 어휘 확장부(540) 및 목적언어 유효 문맥 어휘 확장부(560)는 각각의 단일어 코퍼스에 기초하여 유효 문맥 어휘를 확장한다(S205).The source language valid context vocabulary expansion unit 540 and the target language valid context vocabulary expansion unit 560 extend the valid context vocabulary based on the respective monolingual corpus (S205).

이하에서는 사과의 유효 문맥 어휘로 추출된 "배(Pear)"를 예를 들어 설명하겠다. 그러나 본 발명은 이에 한정되지 않는다. In the following, we will give an example of "Pear" extracted from the effective context vocabulary of the apple. However, the present invention is not limited thereto.

원시언어 유효 문맥 어휘 확장부(540)는 배에 대한 원시언어의 유효 문맥 어휘를 양국어 코퍼스로부터 추출한다. 배에 대한 양국어 코퍼스를 예를 들면,The primitive language effective context vocabulary expansion unit 540 extracts the effective context vocabulary of the primitive language from the bilingual corpus. For example, in bilingual corpus for a ship,

이 배는 아직 익지 않았다. / This pear doesn't ripe yet.This ship is not yet ripe. / This pear does not ripe yet.

나는 배보다 감을 좋아한다. / I prefer the pear to the persimmonI like feeling more than boats. / I prefer the pear to the persimmon

로들 수 있다. 그러나 이것은 배에 대한 양국어 코퍼스의 일 예일뿐이고, 본 발명은 이에 한정되지 않는다. . However, this is merely an example of bilingual corpus for ship, and the present invention is not limited thereto.

배에 대한 양국어 코퍼스에서 추출된 원시언어 유효 문맥 어휘는 "감, 좋아하다 및 익다" 일 수 있다. 본 명세서에서는 이때의 유효 문맥 어휘를 제2 원시언어의 유효 문맥 어휘라고 하고 설명하겠다. 본 발명의 실시예에 따르면 제2 원시언어의 유효 문맥 어휘는 제1 원시언어 유효 문맥 어휘에 기초하여 양국어 코퍼스에서 추출된 유효 문맥 어휘일 수 있다. 추출된 제1 원시언어 유효 문맥 어휘는 제2 원시 언어 유효 문맥 어휘보다 높은 가충치 정보를 가질 수도 있다. 이후 본 발명의 실시예에 따르면 원시언어 유효 문맥 어휘 확장부(540)는 추출된 제2 원시언어의 유효 문맥 어휘로부터 단일어 코퍼스에 기초하여 유효 문맥 어휘를 확장한다.  The primitive language valid context vocabulary extracted from bilingual corpus for the ship can be "sense, likes, and ripe". In this specification, the effective context vocabulary is referred to as the effective context vocabulary of the second primitive language. According to an embodiment of the present invention, the effective context vocabulary of the second source language may be a valid context vocabulary extracted from the bilingual corpora based on the first source language effective context vocabulary. The extracted first primitive language valid context vocabulary may have higher cryptographic information than the second primitive language valid context vocabulary. According to an embodiment of the present invention, the primitive language effective context vocabulary expansion unit 540 expands the valid context vocabulary based on the monoclase corpus from the extracted effective context vocabulary of the second primitive language.

배에 대한 단일어 코퍼스는 다음과 같다.The monolingual corpus for the ship is as follows.

사공이 많으면 배가 산으로 간다.If there are many squatters, the boat goes to the mountain.

이번 여름 여행에서는 배를 타고 여행을 가고 싶다.I want to take a boat trip on this summer trip.

배는 내가 가장 좋아하는 과일이다.The boat is my favorite fruit.

사과와 배는 한국의 가을을 대표하는 과일이다.Apples and pears are fruits representing Korea's autumn.

잘 익은 배는 매우 달다.The ripe pear is very sweet.

원시언어 유효 문맥 어휘 확장부(540)는 특정 언어(본 명세서에서는 "배"를 예를 들어 설명함.) "배"에 대한 문장들을 모아 어휘의 그룹핑을 수행한다. 이 때 유효 문맥 어휘 확장부(540)는 어휘가 가진 세부 의미별로 그룹핑을 실시한다. 본 발명의 실시예에 따른 그룹핑은 주변 어휘의 발생 빈도 정보 등을 이용하거나, co-occurrence graph를 구축하는 등의 방법을 이용할 수도 있다. The source language effective context vocabulary expansion unit 540 groups sentences for a certain language (in this specification, "ship" is described as an example) "ship" and performs grouping of vocabularies. At this time, the effective context vocabulary expansion unit 540 performs grouping according to the detailed meaning of the vocabulary. The grouping according to the embodiment of the present invention may use the occurrence frequency information of surrounding vocabularies, or construct a co-occurrence graph.

"배"에 대한 그룹핑의 예는 다음과 같다.An example of grouping for "ship" is:

그룹 1: 사공, 가다, 타다, 여름, 여행Group 1: Manhattan, go, ride, summer, travel

그룹 2: 과일, 좋아하다, 사과, 한국, 가을, 대표하다, 익다, 달다Group 2: fruit, like, apple, korea, autumn, represent, ripe, sweet

이후 원시언어 유효 문맥 어휘 확장부(540)는 각 그룹의 어휘들과 제1 원시언어 유효 문맥 어휘와 유사도를 비교한다. 본 발명의 실싱예에 따른 유사도 비교는 단어 의미코드 등을 이용할 수도 있다.Thereafter, the primitive language valid context vocabulary expansion unit 540 compares the similarities of the vocabularies of the respective groups with the first primitive language valid context vocabulary. The similarity comparison according to the present invention may use a word meaning code or the like.

이후 원시언어 유효 문맥 어휘 확장부(540)는 제1 원시언어 유효 문맥 어휘 및 제2 원시언어 유효 문맥 어휘와 각 그룹의 유사도를 비교한다. Then, the primitive language valid context vocabulary expansion unit 540 compares the similarities of the first primitive language valid context vocabulary and the second primitive language valid context vocabulary with each other.

그룹 1에 포함된 어휘보다, 그룹 2에 포함된 어휘가 제1 원시언어 유효 문맥 어휘 및 제2 원시언어 유효 문맥 어휘에 포함된 어휘와 더 많이 일치하는 것을 알 수 있다. 본 명세서에서는 이때 그룹 2에 포함된 어휘를 제3 원시언어 유효 문맥 어휘라고 하겠다. 이때 원시언어 유효 문맥 어휘 확장부(540)는 제3 원시언어 유효 문맥 어휘를 추출한다.It can be seen that the vocabulary contained in group 2 more matches the vocabulary contained in the first native language effective context vocabulary and the second native language effective context vocabulary than the vocabulary contained in group 1. In this specification, the vocabulary contained in Group 2 will be referred to as a third source language effective context vocabulary. At this time, the primitive language effective context vocabulary expansion unit 540 extracts the third primitive language effective context vocabulary.

목적언어 유효 문맥 어휘 확장부(560)는 추출된 목적언어의 유효 문맥 어휘로부터 목적언어에 대한 단일어 코퍼스에 기초하여 유효 문맥 어휘를 확장한다.The target language valid context vocabulary expansion unit 560 expands the valid context vocabulary based on the monolingual corpus for the target language from the extracted effective language vocabulary of the target language.

목적언어 유효 문맥 어휘 확장부(560)는 원시언어 유효 문맥 어휘 확장부(540)와 동일한 방식으로 제2 목적언어 유효 문맥 어휘 및 제3 목적언어 유효 문맥 어휘를 추출한다.The target language valid context vocabulary expansion unit 560 extracts the second target language valid context vocabulary and the third target language valid context vocabulary in the same manner as the source language effective context vocabulary expansion unit 540.

제1,2 및 3 원시 유효 문맥 어휘 및 제1,2 및 3 목적언어 유효 문맥 어휘는 다음과 같이 나타낼 수 있다.The first, second, and third primitive effective context vocabularies and the first, second, and third object language valid context vocabularies may be represented as follows.

Pear(배), delicious(맛있다). red(빨갛다), green(초록색), one(한 개). cost(가격), 1000 won(1000원), persimmon(감), prefer(좋아하다), ripe(익다) : Apple(사과) <-> 사과(apple) : 배(Pear), 맛있다(delicious). 빨갛다(red), 초록색(green), 한 개(one). 가격(cost), 1000원(1000 won), 감(persimmon), 좋아하다(prefer), 익다(ripe), 과일, 좋아하다, 한국, 가을, 대표하다, 익다, 달다.Pear, delicious. red (red), green (green), one (one). I'm sorry, but I'm afraid that I will not be able to pay for the price. I will pay $ 1,000 for the price. Red, green, and one. The cost, 1000 won, persimmon, preference, ripe, fruit, like, Korea, autumn, represent, ripe, sweet.

위에서 설명한 과정을 통해 각 언어의 유효 문맥 어휘는 제1, 2 및 3 원시 유효 문맥 어휘 및 제1, 2 및 3 목적언어 유효 문맥 어휘로 확장된다.Through the process described above, the effective context vocabularies of each language are extended to the first, second and third primitive context vocabulary and the first, second and third objective vocabulary effective context vocabularies.

본 발명의 실시예에 따르면, 제1, 2 및 3 원시 유효 문맥 어휘는 원시언어 문맥 정보이고, 제1, 2 및 3 목적언어 유효 문맥 어휘는 목적언어 문맥 정보일 수 있다.According to an embodiment of the present invention, the first, second and third primitive context vocabularies are primitive language context information, and the first, second and third object language valid context vocabularies may be object language context information.

원시언어 대역어 선택부(545) 및 목적언어 대역어 선택부(570)은 각 언어별 확장된 유효 문맥 어휘에 기초하여 각 언어별 대역어를 선택한다(S207).The source language-language selection unit 545 and the target-language-language selection unit 570 select a language-specific language word based on the extended effective context vocabulary for each language (S 207).

본 발명의 실시예에 따르면 원시언어 대역어 선택부(545)는 확장된 원시언어의 유효 문맥 어휘에 기초하여 원시언어에 대응하는 대역어를 선택한다. According to the embodiment of the present invention, the source language-language selection unit 545 selects a word corresponding to the source language based on the effective context vocabulary of the extended source language.

원시언어 대역어 선택부(545)는 대역어를 선택함에 있어서, 대역어 선택을 하고자하는 어휘에 대한, 원시언어 문맥 정보 중 가장 높은 유사도를 갖는 어휘를 찾아 제1 대역어 선택을 한다. 이때 선택된 원시언어 대역어 선택부(545)는 제1 대역어와 함께 확률 정보를 저장한다. 본 발명의 실시예에 따르면, 제1 대역어 및 확률 정보는 저장부(510)에 저장될 수도 있다. The source language band word selection unit 545 selects a first language word by searching for a vocabulary having the highest degree of similarity among the source language context information for a vocabulary to which a word is to be selected. At this time, the selected original language language word selection unit 545 stores the probability information together with the first language word. According to an embodiment of the present invention, the first bandwidth word and the probability information may be stored in the storage unit 510.

목적언어 대역어 선택부(570)는 각 확장된 목적언어의 유효 문맥 어휘에 기초하여 목적언어에 대응하는 대역어를 선택한다.The target language-language selecting unit 570 selects a keyword corresponding to the target language based on the effective context vocabulary of each extended target language.

목적언어 대역어 선택부(570)는 대역어를 선택함에 있어서, 대역어 선택을 하고자하는 어휘에 대한, 목적언어 문맥 정보 중 가장 높은 유사도를 갖는 어휘를 찾아 제2 대역어 선택을 한다. 이때 선택된 목적언어 대역어 선택부(570)는 제2 대역어와 함께 확률 정보를 저장한다. 본 발명의 실시예에 따르면, 제1 대역어 및 확률 정보는 저장부(510)에 저장될 수도 있다.The target language-language selection unit 570 selects a second language word by searching for a vocabulary having the highest degree of similarity among the target language context information for the vocabulary to be selected in the word-of-speech selection. At this time, the selected target language-language selector 570 stores the probability information together with the second word-of-speech. According to an embodiment of the present invention, the first bandwidth word and the probability information may be stored in the storage unit 510.

취합부(580)는 제1 대역어 및 제2 대역어에 취합하여 대역어를 확정한다. 본 발명의 실시예에 따른 취합기준은 미리 정해질 수 있다. The collecting unit 580 collects the first and second codewords and determines the codeword. The collection criteria according to the embodiment of the present invention can be predetermined.

다시 도 3을 참조하여 본 발명의 실시예에 따른 번역 방법을 설명한다.3, the translation method according to the embodiment of the present invention will be described.

형태소 생성부(600)는 대역문에 기초한 형태소를 생성한다(S107).The morpheme generator 600 generates a morpheme based on the band sentence (S107).

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, Of the right.

100: 번역 장치 200: 형태소 분석부
300: 구문 분석부 400: 대역문 변환부
500: 대역어 추출기 510: 저장부
520: 양국어 병렬 코퍼스 정렬부 530: 원시언어 유효 문맥 어휘 추출부
540: 원시언어 유효 문맥 어휘 확장부 545: 원시언어 대역어 선택부
550: 목적언어 유효 문맥 어휘 추출부 550: 목적언어 유효 문맥 어휘 확장부
570: 목적언어 대역어 선택부 580: 취합부
600: 형태소 생성부
100: translation apparatus 200: morphological analysis unit
300: Syntax analysis unit 400:
500: word extractor 510: storage unit
520: bilingual parallel corpus aligning unit 530: primitive language valid context lexical extracting unit
540: source language valid context vocabulary expansion unit 545:
550: target language effective context vocabulary extraction unit 550: target language effective context vocabulary expansion unit
570: target language-language selector 580:
600: morpheme generator

Claims (1)

원시언어 및 목적언어에 대한 양국어 코퍼스, 상기 원시언어에 대한 단일어 코퍼스 및 상기 목적언어에 대한 단일어 코퍼스에 기초하여 대역어를 추출하는 대역어 추출기;
입력문의 형태소를 분석하는 형태소 분석부;
상기 형태소의 구문을 분석하는 구문 분석부; 및
상기 형태소와 상기 구문에 기초하여 입력문을 대역문으로 변환시키는 대역문 변환부를 포함하고,
상기 대역문 변환부는 상기 대역어 추출기에 기초하여 입력문을 대역문으로 변환시키는
번역 장치.
A bilingual corpus for a source language and a target language, a monolingual corpus for the source language and a monolingual corpus for the target language;
A morpheme analysis unit for analyzing the morpheme of the input inquiry;
A syntax analyzer for analyzing a syntax of the morpheme; And
And a band sentence conversion unit for converting the input sentence into a band sentence based on the morpheme and the phrase,
The band sentence conversion unit converts the input sentence into a band sentence based on the word extractor
Translation device.
KR1020140006030A 2014-01-17 2014-01-17 Method and apparatus for translation KR20150085982A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140006030A KR20150085982A (en) 2014-01-17 2014-01-17 Method and apparatus for translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140006030A KR20150085982A (en) 2014-01-17 2014-01-17 Method and apparatus for translation

Publications (1)

Publication Number Publication Date
KR20150085982A true KR20150085982A (en) 2015-07-27

Family

ID=53874935

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140006030A KR20150085982A (en) 2014-01-17 2014-01-17 Method and apparatus for translation

Country Status (1)

Country Link
KR (1) KR20150085982A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017175900A1 (en) * 2016-04-05 2017-10-12 (주)신명시스템즈 Korean alphabet-based chinese language input device and method using roman phonetic transcription as medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017175900A1 (en) * 2016-04-05 2017-10-12 (주)신명시스템즈 Korean alphabet-based chinese language input device and method using roman phonetic transcription as medium

Similar Documents

Publication Publication Date Title
US10198437B2 (en) Machine translation device and machine translation method in which a syntax conversion model and a word translation model are combined
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
KR20120018687A (en) Apparatus and method for decoding using joint tokenization and translation
CN101763344A (en) Method for training translation model based on phrase, mechanical translation method and device thereof
CN101770458A (en) Mechanical translation method based on example phrases
KR20160133349A (en) Method for generating a phase table and method for machine translation using the phase table
Lehal A word segmentation system for handling space omission problem in urdu script
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
Tennage et al. Neural machine translation for sinhala and tamil languages
KR101616031B1 (en) Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus
Singh et al. Punjabi dialects conversion system for Malwai and Doabi dialects
Chanda et al. Columbia-Jadavpur submission for emnlp 2016 code-switching workshop shared task: System description
JP2018072979A (en) Parallel translation sentence extraction device, parallel translation sentence extraction method and program
KR20150085982A (en) Method and apparatus for translation
KR101735314B1 (en) Apparatus and method for Hybride Translation
KR20140079545A (en) Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme
Kahla et al. Fine-tuning and multilingual pre-training for abstractive summarization task for the Arabic language
Ariaratnam et al. A shallow parser for Tamil
Kharate et al. Survey of Machine Translation for Indian Languages to English and Its Approaches
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Krishnan et al. Employing Wikipedia as a resource for named entity recognition in morphologically complex under-resourced languages
Carissa et al. A Study on Teen Slang Translation of Asian Languages
KR20170108621A (en) Statistical and learning translation apparatus using monolingual corpus
Pawar et al. Evaluating Cross Lingual Transfer for Morphological Analysis: a Case Study of Indian Languages
Ji et al. Phonetic name matching for cross-lingual spoken sentence retrieval

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination