KR20060064443A - Apparatus for automatic translation through 2-step syntactic analysis and method thereof - Google Patents

Apparatus for automatic translation through 2-step syntactic analysis and method thereof Download PDF

Info

Publication number
KR20060064443A
KR20060064443A KR1020050015006A KR20050015006A KR20060064443A KR 20060064443 A KR20060064443 A KR 20060064443A KR 1020050015006 A KR1020050015006 A KR 1020050015006A KR 20050015006 A KR20050015006 A KR 20050015006A KR 20060064443 A KR20060064443 A KR 20060064443A
Authority
KR
South Korea
Prior art keywords
sentence
parsing
input
phrase
syntax
Prior art date
Application number
KR1020050015006A
Other languages
Korean (ko)
Other versions
KR100617318B1 (en
Inventor
노윤형
최승권
이기영
류철
권오욱
박상규
김영길
김창현
홍문표
서영애
양성일
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060064443A publication Critical patent/KR20060064443A/en
Application granted granted Critical
Publication of KR100617318B1 publication Critical patent/KR100617318B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 의한 2단계 구문분석을 통한 자동 번역 장치 및 그 방법은 입력문에 대해 형태소를 분석하는 형태소 분석부; 상기 각 형태소에 대해 품사 후보를 결정하는 태깅부; 태깅된 상기 입력문에 대하여 동사구를 중심으로 구문분석을 수행한 후 상기 입력문 전체문장에 대한 구문분석을 수행하는 구문분석부; 및 상기 구문분석 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 변환생성부;를 포함하는 것을 특징으로 하며, 구문분석 모호성중에서 태깅 모호성 및 명사구 청킹 모호성과 병렬 및 부착 모호성을 분리하여, 1단계에서 태깅 모호성 및 명사구 청킹 모호성을 해결하고, 2단계 병렬 및 부착 모호성을 해결함으로써 성능의 큰 저하 없이 분석 효율성을 올릴 수 있다.Automatic translation apparatus and method through two-step syntax analysis according to the present invention includes a morpheme analysis unit for analyzing the morphemes for the input sentence; A tagging unit for determining a part-of-speech candidate for each of the morphemes; A syntax analysis unit for parsing the tagged input sentence based on a verb phrase and then parsing the entire sentence of the input sentence; And a conversion generator for generating a translation of the input statement based on the syntax tree generated as a result of the parsing. The tagging ambiguity and the noun phrase chunking ambiguity and the parallel and attachment ambiguity are separated from the parsing ambiguity. In the first step, the tagging ambiguity and noun phrase chunking ambiguity are resolved, and the two-step parallel and attachment ambiguity are resolved to increase the analysis efficiency without significant performance degradation.

자동번역, 구문분석, 문장분할, 기본 명사구, 동사구 분석Automatic translation, syntax analysis, sentence division, basic noun phrases, verb phrase analysis

Description

2단계 구문분석을 통한 자동 번역 장치 및 방법{Apparatus for automatic translation through 2-step syntactic analysis and method thereof}Apparatus for automatic translation through 2-step syntactic analysis and method

도 1은 본 발명에 의한 2단계 구문분석을 통한 자동 번역 장치의 구성을 보여주는 블럭도이다.1 is a block diagram showing the configuration of an automatic translation apparatus through two-step syntax analysis according to the present invention.

도 2는 도 1의 구문 분석부의 상세 기능 블럭도이다.FIG. 2 is a detailed functional block diagram of the parser of FIG. 1.

도 3은 본 발명에 의한 2단계 구문분석을 통한 자동 번역 방법의 과정을 보여주는 흐름도이다.3 is a flowchart illustrating a process of an automatic translation method through two-step syntax analysis according to the present invention.

도 4는 도 3의 구문 분석단계를 보다 상세하게 보여주는 흐름도이다.4 is a flowchart illustrating the syntax analysis step of FIG. 3 in more detail.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

110: 형태소 분석부 120: 태깅부110: morphological analysis unit 120: tagging unit

130: 구문분석부 140: 변환생성부130: parser 140: transform generator

본 발명은 자동 번역 장치 및 방법과 그 기록매체에 관한 것이며, 보다 자세하게는 입력 원문에 대해 동사구 분석 단계 및 전체 문장 분석 단계의 2단계로 이루어지는 구문 분석을 통하여 최종 번역문을 생성하기 위한 자동 번역 장치 및 그 방법 그리고 그 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to an automatic translation apparatus and method, and a recording medium thereof, and more particularly, to an automatic translation apparatus for generating a final translation through syntax analysis consisting of two steps of a verb phrase analysis step and an entire sentence analysis step on an input original text, and A method and a computer readable recording medium having recorded thereon a program for realizing the method.

종래의 규칙 기반 자동 번역 방법에서는, 구문 분석이 가지는 모호성 및 대역 구문의 무제한 생성에 의해 속도 및 번역 성능이 저하되는 문제가 있었다. 모호 성 문제는 특히 문장이 길어짐에 따라 폭발적으로 커지는데, 이를 해결하기 위한 방법으로 구문 분석을 하기 전에 문장을 분할하여 더 작은 단위로 나누어 처리하는 문장분할 방법이 있다.In the conventional rule-based automatic translation method, there is a problem in that the speed and translation performance are deteriorated due to the ambiguity of the syntax analysis and the unlimited generation of band phrases. The ambiguity problem grows explosively, especially as the sentence gets longer, and there is a sentence segmentation method in which the sentence is divided into smaller units and processed before parsing.

하지만 문장분할은 구조분석 이전에 제한된 정보를 가지고 이루어지기 때문에 넓은 범위의 문맥을 봐야하는 경우에 대해 잘못된 결과를 낼수 있는 가능성이 높고 성능의 한계가 있다. 그리고 만일 문장분할에서 실패하는 경우 전체 구문분석이 실패하게 되고, 전체 번역이 실패하게 되어 큰 부작용을 낳게 되는 문제점들이 있다.However, since sentence splitting is performed with limited information before structural analysis, there is a high possibility of incorrect results and limitations in performance when a wide range of contexts are required. And if there is a failure in the sentence splitting, there is a problem that the entire parsing fails, the whole translation fails, causing a great side effect.

본 발명이 이루고자 하는 기술적 과제는 상기의 문제점들을 해결하기 위하여 안출된 것으로서, 구문분석 과정을 동사구 분석 단계와 전체 문장 분석 단계로 분리하여 문장분할에 의한 부작용을 최소화하고, 또한 병렬 및 수식구 부착에 의한 모호성을 감소시켜 분석 효율성을 올림으로써 높은 분석 정확성과 효율성을 갖는 자동 번역 장치 및 방법과 그 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.The technical problem to be achieved by the present invention was devised to solve the above problems, by separating the syntax analysis process into a verb phrase analysis step and the whole sentence analysis step to minimize side effects due to sentence division, and also in parallel and modifier attachment The present invention provides an automatic translation apparatus and method having high analysis accuracy and efficiency by reducing ambiguity and a computer-readable recording medium recording a program for realizing the method.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 2단계 구문분석을 통한 자동 번역 장치는 입력문에 대해 형태소를 분석하는 형태소 분석부; 상기 각 형태소에 대해 품사 후보를 결정하는 태깅부; 태깅된 상기 입력문에 대하여 동사구를 중심으로 구문분석을 수행한 후 상기 입력문 전체문장에 대한 구문분석을 수행하는 구문분석부; 및 상기 구문분석 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 변환생성부;를 포함하는 것을 특징으로 한다.In order to achieve the above technical problem, an automatic translation apparatus through two-step syntactic analysis according to the present invention includes a morpheme analysis unit for analyzing a morpheme for an input sentence; A tagging unit for determining a part-of-speech candidate for each of the morphemes; A syntax analysis unit for parsing the tagged input sentence based on a verb phrase and then parsing the entire sentence of the input sentence; And a transformation generator for generating a translation of the input sentence based on the syntax tree generated as a result of the parsing.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 2단계 구문분석을 통한 자동 번역 방법은 입력문에 대해 형태소를 분석한 후 형태소별 품사 후보를 결정하는 단계; 태깅된 입력문의 문장분할을 수행한 후 분할문에 대해 동사구를 중심으로 구문분석을 수행하여 부분 트리 리스트를 생성하는 단계; 상기 부분 트리 리스트에서 품사 리스트 및 기본 명사구를 인식한 후 전체문장에 대한 구문분석을 수행하는 단계; 및 상기 전체문장에 대한 구문 분석 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 단계;를 포함하는 것을 특징으로 한다.In order to achieve the above technical problem, an automatic translation method using two-step syntax analysis according to the present invention comprises: determining a part-of-speech candidate after analyzing a morpheme for an input sentence; Generating a partial tree list by parsing the tagged input statement and parsing the split phrase around the verb phrase; Recognizing a part-of-speech list and a basic noun phrase in the partial tree list and parsing the entire sentence; And generating a translation sentence of the input sentence based on a syntax tree generated as a result of parsing the entire sentence.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 2단계 구문분석을 통한 자동 번역 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체는 입력문에 대해 형태소를 분석한 후 형태소별 품사 후보를 결정하는 단계; 태깅된 입력문의 문장분할을 수행한 후 분할문에 대해 동사구를 중심으로 구문분석을 수행하여 부분 트리 리스트를 생성하는 단계; 상기 부분 트리 리스트에서 품사 리스트 및 기본 명사구를 인식한 후 전체문장에 대한 구문분석을 수행하는 단계; 및 상기 전체문장에 대한 구문 분석 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 단계;를 포함하는 것을 특징으로 한다.In order to achieve the above technical problem, a computer-readable recording medium that records a program capable of executing an automatic translation method through two-step syntax analysis according to the present invention on a computer may be analyzed by morphemes for input sentences. Determining a candidate; Generating a partial tree list by parsing the tagged input statement and parsing the split phrase around the verb phrase; Recognizing a part-of-speech list and a basic noun phrase in the partial tree list and parsing the entire sentence; And generating a translation sentence of the input sentence based on a syntax tree generated as a result of parsing the entire sentence.

이하, 첨부한 도면을 참조하면서 본 발명에 따른 바람직한 일 실시예를 상세히 설명하기로 한다. 설명의 편의를 위하여 장치 및 방법을 동시에 서술하도록 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. For convenience of description, the apparatus and method will be described simultaneously.

도 1은 본 발명에 의한 2단계 구문분석을 통한 자동 번역 장치의 구성을 보여주는 블럭도이고, 도 2는 도 1의 구문 분석부(130)의 상세 기능 블럭도이다. 그리고 도 3은 본 발명에 의한 2단계 구문분석을 통한 자동 번역 방법의 과정을 보여주는 흐름도이고, 4는 도 3의 구문 분석단계를 보다 상세하게 보여주는 흐름도이다.1 is a block diagram showing a configuration of an automatic translation apparatus through two-step syntax analysis according to the present invention, and FIG. 2 is a detailed functional block diagram of the syntax analysis unit 130 of FIG. 3 is a flowchart illustrating a process of an automatic translation method through two-step syntax analysis according to the present invention, and 4 is a flowchart illustrating the syntax analysis step of FIG. 3 in more detail.

도 1과 도 3을 참조하면서, 본 발명에 의한 2단계 구문분석을 통한 자동번역 장치의 전체적인 흐름을 살펴보면, 형태소분석부(110)는 입력문장에 대해 형태소 분석을 수행하고, 태깅부(120)는 각 형태소에 대하여 품사 후보를 결정하는 태깅을 수행한다(S310단계). 구문분석부(130)는 태깅된 입력 문장에 대하여 동사구를 중심으로 하여 구문분석을 수행한 후 입력문장 전체에 대하여 구문분석을 수행한다(S320 내지 S350단계). 좀 더 상술하면 태깅 결과로 들어온 입력 문장에 대하여 문장 분할을 수행한다(S320단계). 그리고, 각 분할문에 대해서 동사구 중심의 구문 분석을 수행하고 그 결과로 나오는 최적의 구문트리에서 기본명사구(Base NP)를 인식한다(S340단계). 여기서 기본명사구라 함은 자신의 하위에 명사구나 동사구를 포함하지 않는 명사구를 의미한다. 기본명사구가 인식되면, 2차적으로 인식된 결과에 대해 전체문장 구문분석을 수행한다(S350단계). 변환생성부(140)는 구문분석부(130)의 최종 작업 결과 생성되는 구문 트리를 기초로 하여 입력문의 번역문을 생성하여 최종적으로 번역문을 출력하게 된다(S360단계).Referring to Figure 1 and 3, looking at the overall flow of the automatic translation device through a two-step syntax analysis according to the present invention, the morpheme analysis unit 110 performs a morphological analysis on the input sentence, tagging unit 120 In step S310, tagging determines a part-of-speech candidate for each morpheme. The parser 130 analyzes the tagged input sentence based on the verb phrase and then parses the entire input sentence (steps S320 to S350). In more detail, sentence segmentation is performed on the input sentence resulting from the tagging result (step S320). Then, verb phrase-centered syntax analysis is performed on each split statement, and the base noun phrase (Base NP) is recognized in the optimal syntax tree (S340). Here, a basic noun phrase means a noun phrase that does not include a noun or a verb phrase below it. If the basic noun phrase is recognized, a full sentence parsing is performed on the second recognized result (step S350). The conversion generation unit 140 generates a translation sentence of the input sentence based on the syntax tree generated as a result of the final operation of the parser 130 and finally outputs the translation sentence (S360).

도 2와 도4를 참조하면서 2단계 구문분석과정에 대해 좀 더 상세히 살펴보도록 한다. 먼저 문장분할부(210)에서는 태깅된 문장을 입력받아 문장분할점을 생성 한다(S410단계). 그러면 1차구문분석부(220)는 문장분할점을 경계로 구문분석을 수행하는데 각 형태소에 대해 최적 N(N은 자연수)품사 후보를 입력으로 받는다. 즉 태깅 모호성을 가지고 구문분석을 수행하여, 구문분석 결과를 반영하여 품사 태그를 결정함으로써 태깅 성능을 올리도록 한다. 이때 구문분석을 수행하는 과정에서 병렬 및 수식구에 대해 가장 가까운 부착가능한 노드에 부착되도록 제약을 가한다. 이는 병렬 및 수식구 부착이 품사 및 기본 명사구 청킹에는 거의 영향을 미치지 않기 때문에 구문분석에서 많은 모호성의 요인이 되는 병렬 및 부착 모호성을 제거함으로써 분석 효율성을 올리기 위함이다. 이러한 동사구 구문 분석은 주로 올바른 동사구 단위 구문 분석을 수행하는데 목표가 있다. 따라서 문장 분할이 이루어지더라도 하나의 동사구에 대한 분석에 필요한 정보는 전체문장에 비해 국소적이기 때문에 비교적 정확한 분석을 수행할수 있다(이상 S420단계).2 and 4, the two-step syntax analysis process will be described in more detail. First, the sentence dividing unit 210 receives the tagged sentence and generates a sentence dividing point (S410). Then, the primary sentence analysis unit 220 performs syntax analysis based on the sentence splitting point, and receives an optimal N (N is a natural number) part-of-speech candidate for each morpheme. That is, parsing is performed with tagging ambiguity, and the tagging performance is increased by determining the part-of-speech tag by reflecting the result of parsing. In the process of parsing, constraints are attached to the closest attachable nodes for parallel and modifiers. This is to increase the analysis efficiency by removing parallel and attachment ambiguity, which causes many ambiguities in syntax analysis, because parallel and modifier attachments have little effect on parts of speech and basic noun phrase chunking. This verb phrase parsing is mainly aimed at performing correct verb phrase parsing. Therefore, even if sentence division is made, the information necessary for the analysis of one verb phrase is localized compared to the entire sentence, so that a relatively accurate analysis can be performed (step S420).

기본명사구 인식부(230)는 위와 같이 동사구 단위 구문분석을 수행한 결과로서 나타나는 기본명사구를 출력하며, 문장분할부(210)에서 입력문에 대한 문장 분할이 이루어진 상태에서 구문분석이 이루어졌기 때문에 구문분석 결과는 전체 문장에 대한 구문트리가 아닌 부분트리 리스트의 형태로 나타나며 비터비(viterbi) 알고리즘을 통해 최적의 부분 분석트리 리스트가 결정된다(S340단계).The basic noun phrase recognition unit 230 outputs a basic noun phrase that appears as a result of performing the verb phrase unit parsing as described above, and the sentence division unit 210 parses the sentence in the state where the sentence is split. The analysis result is shown in the form of a partial tree list rather than a syntax tree for the entire sentence, and an optimal partial analysis tree list is determined through a Viterbi algorithm (step S340).

최적의 부분트리 리스트가 생성되면, 2차구문분석부(240)는 품사 리스트 및 기본 명사구를 인식하여, 다시 전체 문장 분석을 수행한다. 이때는 문장분할점, 병렬 및 수식구 부착 제약을 제거하고 전체 문장에 대한 구문분석을 수행한다. 이때는 품사 태그가 하나로 결정되고, 기본 명사구 청킹이 이루어진 상태이기 때문에 입력 챠트의 개수가 축소되고, 모호성이 줄어서 전체문장에 대한 구문분석이 가능해진다. 또한 문장 분할 오류가 있었다 하더라도 문장 분할 오류가 동사구 내부를 분할하여 동사구 분석 오류를 야기하지 않는 이상은 오류에 영향을 미치지 않는다(이상 S440단계).When the optimal partial tree list is generated, the secondary syntax analysis unit 240 recognizes the parts of speech list and the basic noun phrase, and performs the entire sentence analysis again. In this case, the sentence splitting point, parallelism, and constraints are removed, and the entire sentence is parsed. In this case, since the part-of-speech tag is determined as one and the basic noun phrase chunking is performed, the number of input charts is reduced and the ambiguity is reduced, thereby enabling parsing of the entire sentence. In addition, even if there is a sentence segmentation error, the sentence segmentation error does not affect the error unless the segmentation error divides the inside of the verb phrase and causes the verb phrase analysis error (step S440).

이제 아래와 같은 예문을 본 발명에 의한 2단계 구문 분석 방식을 적용하여 분석하는 실제 예를 제시한다.Now, a practical example of analyzing the following example by applying a two-step syntax analysis method according to the present invention is presented.

1. 입력문: Former Gov. Stratton commuted her term to 75 years, making her eligible for parole, as one of his last acts in office.1. Input Statement: Former Gov. Stratton commuted her term to 75 years, making her eligible for parole, as one of his last acts in office.

2. 태깅 결과: 위에서 N=2라고 하면2. Tagging Result: If N = 2 above

Former/JJ/NNP Gov./NN Stratton/NNP commuted/VBN/VBD her/DT/PRP term/NN/VBP to/TO 75/CD years/NNS/NN, making/VBG/JJ her/DT/PRP eligible/JJ/NN for/IN parole/NN/JJ, as/IN one/PRP/CD of/IN his/DT/PRP last/JJ/VB acts/NNS/VBZ in/IN office/NN/NNP.Former / JJ / NNP Gov./NN Stratton / NNP commuted / VBN / VBD her / DT / PRP term / NN / VBP to / TO 75 / CD years / NNS / NN, making / VBG / JJ her / DT / PRP eligible / JJ / NN for / IN parole / NN / JJ, as / IN one / PRP / CD of / IN his / DT / PRP last / JJ / VB acts / NNS / VBZ in / IN office / NN / NNP.

3. 문장 분할 결과: <Former/JJ/NNP Gov./NN Stratton/NNP commuted/VBN/VBD her/DT/PRP term/NN/VBP to/TO 75/CD years/NNS/NN>, <making/VBG/JJ her/DT/PRP eligible/JJ/NN for/IN parole/NN/JJ, as/IN one/PRP/CD of/IN his/DT/PRP last/JJ/VB acts/NNS/VBZ in/IN office/NN/NNP>3. Segmentation Result: <Former / JJ / NNP Gov./NN Stratton / NNP commuted / VBN / VBD her / DT / PRP term / NN / VBP to / TO 75 / CD years / NNS / NN>, <making / VBG / JJ her / DT / PRP eligible / JJ / NN for / IN parole / NN / JJ, as / IN one / PRP / CD of / IN his / DT / PRP last / JJ / VB acts / NNS / VBZ in / IN office / NN / NNP>

4. 1차 구문 분석 수행: 4. Perform primary parsing:

(S (NP Former/JJ Gov./NN Stratton/NNP) (S (NP Former / JJ Gov./NN Stratton / NNP)

(VP commuted/VBD (VP commuted / VBD

(NP her/DT term/NN) (NP her / DT term / NN)

(PP to/TO (NP 75/CD years/NNS))))(PP to / TO (NP 75 / CD years / NNS))))

,,

(VP making/VBG (VP making / VBG

(NP her/PRP) (NP her / PRP)

(ADJP eligible/JJ) (ADJP eligible / JJ)

(PP for/IN parole/NN))(PP for / IN parole / NN))

, ,

(PP as/IN (PP as / IN

(NP (NP one/PRP) (NP (NP one / PRP)

(PP of/IN (PP of / IN

(NP (NP his/DT last/JJ acts/NNS) (NP (NP his / DT last / JJ acts / NNS)

(PP in/IN (NP office/NN))))))(PP in / IN (NP office / NN))))))

5. 품사 및 기본명사구 인식5. Recognize parts of speech and basic noun phrases

(NP Former Gov Stratton) commuted/VBD (NP her term) to/TO (NP 75 years) , making/VBG (NP her) eligible/JJ for/IN (NP parole/NN) , as/IN (NP one) of/IN (NP his last acts) in/IN (NP office)(NP Former Gov Stratton) commuted / VBD (NP her term) to / TO (NP 75 years), making / VBG (NP her) eligible / JJ for / IN (NP parole / NN), as / IN (NP one) of / IN (NP his last acts) in / IN (NP office)

위에서 보면, 2차 구문분석의 입력은 품사 모호성이 제거되고 전체 문장 길이가 줄어든 상태이다.As seen from above, the input of secondary parsing is a state of speech ambiguity removed and the overall sentence length reduced.

6. 전체 문장 구문분석6. Parse whole sentence

(S (NP Former Gov Stratton) (S (NP Former Gov Stratton)

(VP commuted (VP commuted

(NP her term) (NP her term)

(PP to (NP 75 years))(PP to (NP 75 years))

(PRN , (PRN,

(VP making (VP making

(NP her) (NP her)

(ADJP eligible)(ADJP eligible)

(PP for (PP for

(NP parole)))(NP parole)))

,),)

(PP as (PP as

(NP (NP one) (NP (NP one)

(PP of (PP of

(NP his last acts) (NP his last acts)

(PP in (PP in

(NP office)))))))(NP office)))))))

원래의 문장 분할 결과는 (Former Gov. Stratton commuted her term to 75 years), (making her eligible for parole, as one of his last acts in office)와 같이 as 전치사구가 making에 부착하도록 오류가 있었지만, 전체 문장 구문분석 과 정에서 삽입구를 인식하여 올바른 구문분석 결과를 내도록 하고 있다. 위 분석결과는 목적언어로의 변환 및 생성을 통해 최종 번역문이 생성된다.The original sentence division resulted in an error that the prepositional phrase attached to making, such as (Former Gov. Stratton commuted her term to 75 years), (making her eligible for parole, as one of his last acts in office) In the parsing process, the insertion phrase is recognized to produce the correct parsing result. The result of the analysis is the final translation through the conversion and generation of the target language.

본 발명에 의한 2단계 구문분석을 통한 자동 번역 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The automatic translation method through two-step parsing according to the present invention can also be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, which are also implemented in the form of a carrier wave (for example, transmission over the Internet). It also includes. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

이상에서 설명한 것은 본 발명에 의한 2단계 구문분석을 통한 자동 번역 방법 및 그 장치를 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.What has been described above is only one embodiment for implementing the automatic translation method and apparatus through two-step syntax analysis according to the present invention, the present invention is not limited to the above-described embodiment, the scope of the claims Without departing from the gist of the present invention claimed in the present invention, anyone of ordinary skill in the art will have the technical spirit of the present invention to the extent that various modifications can be made.

상술한 바와 같이 본 발명에 의한 2단계 구문 분석을 통한 자동 번역 장치 및 그 방법에 의하면, 구문분석 모호성중에서 태깅 모호성 및 명사구 청킹 모호성 과 병렬 및 부착 모호성을 분리하여, 1단계에서 태깅 모호성 및 명사구 청킹 모호성을 해결하고, 2단계 병렬 및 부착 모호성을 해결함으로써 성능의 큰 저하 없이 분석 효율성을 올리는 효과가 있다. 이것은 실제로 병렬 및 부착 모호성이 품사 태그 및 기본 명사구를 결정하는데는 거의 영향을 미치지 않기 때문에 이를 독립적으로 수행함으로써 가능하게 된다. According to the automatic translation apparatus and method through two-step syntax analysis according to the present invention as described above, tagging ambiguity and noun phrase chunking ambiguity and parallel and attachment ambiguity among syntax parsing ambiguities are separated and tagging ambiguity and noun phrase chunking in one step. By solving ambiguities and solving two-level parallelism and attachment ambiguities, there is an effect of increasing the analysis efficiency without significant performance degradation. This is made possible by doing this independently because parallel and attachment ambiguities have little effect on determining parts of speech tags and basic noun phrases.

Claims (9)

입력문에 대해 형태소를 분석하는 형태소 분석부;A morpheme analysis unit for analyzing a morpheme with respect to an input sentence; 상기 각 형태소에 대해 품사 후보를 결정하는 태깅부;A tagging unit for determining a part-of-speech candidate for each of the morphemes; 태깅된 상기 입력문에 대하여 동사구를 중심으로 구문분석을 수행한 후 상기 입력문 전체문장에 대한 구문분석을 수행하는 구문분석부; 및A syntax analysis unit for parsing the tagged input sentence based on a verb phrase and then parsing the entire sentence of the input sentence; And 상기 구문분석 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 변환생성부;를 포함하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 장치.And a translation generator for generating a translation of the input sentence based on the phrase tree generated as a result of the parsing. 2. 제1항에 있어서, 상기 구문분석부는The method of claim 1, wherein the parser is 상기 태깅된 입력문에 대해 문장분할을 수행하는 문장분할부;A sentence division unit that performs sentence division on the tagged input statement; 분할된 각 분할문에 대해 동사구 중심의 구문 분석을 수행하고 최적 부분 트리 리스트를 선택하는 1차 구문분석부;A primary parsing unit which performs verb phrase-centered parsing on each partitioned statement and selects an optimal partial tree list; 상기 1차 구문분석부의 구문 분석 결과에서 기본 명사구를 인식하는 기본 명 사구 인식부;A basic noun phrase recognition unit recognizing a basic noun phrase in a syntax analysis result of the primary parser; 상기 최적 부분 트리 리스트의 품사 태그 및 상기 인식된 기본 명사구를 기초로 전체 구문분석을 수행하는 2차 구문분석부; 및A second parsing unit configured to perform full parsing based on the part-of-speech tag of the optimal partial tree list and the recognized basic noun phrase; And 구문 트리에 따라 변환을 수행한 후 최종 번역문을 생성하는 변환생성부;를 포함하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 장치.And a translation generator for generating a final translation after performing the conversion according to the phrase tree. 제2항에 있어서, 상기 1차 구문분석부는The method of claim 2, wherein the primary parser is 최적 N(N은 자연수)품사 후보의 태깅 모호성을 가지고, 병렬 및 수식구 부착을 제한하여 상기 분할문의 구문을 분석한 후 최적 부분트리 리스트를 선택하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 장치.Automatic translation through two-step parsing, characterized by having the tagging ambiguity of the best N (N is a natural number) candidate, analyzing the syntax of the partitioning statement by limiting parallel and modifier attachment, and selecting the optimal subtree list Device. 제2항에 있어서, 상기 2차 구문분석부는The method of claim 2, wherein the secondary parser is 상기 최적 부분트리 리스트의 품사 태그 및 기본 명사구 인식된 결과를 입력으로 병렬 및 부착 제약을 제거하고 전체 문장을 구문분석하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 장치.Automatic translation device through two-step parsing, characterized in that to remove the parallel and attachment constraints and parse the entire sentence by inputting the parts of speech tag and the basic noun phrase of the optimal partial tree list. (a) 입력문에 대해 형태소를 분석한 후 형태소별 품사 후보를 결정하는 단계;(a) analyzing the morphemes for the input sentence and determining candidates for parts of speech according to the morphemes; (b) 태깅된 입력문의 문장분할을 수행한 후 분할문에 대해 동사구를 중심으로 구문분석을 수행하여 부분 트리 리스트를 생성하는 단계;(b) generating a partial tree list by performing sentence division of the tagged input statement and parsing the fragment statement around the verb phrase; (c) 상기 부분 트리 리스트에서 품사 리스트 및 기본 명사구를 인식한 후 전체문장에 대한 구문분석을 수행하는 단계; 및(c) recognizing a part-of-speech list and a basic noun phrase in the partial tree list and parsing the entire sentence; And (d) 상기 (c)단계의 수행 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 단계;를 포함하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 방법.and (d) generating a translation of the input sentence based on the syntax tree generated as a result of the step (c). 2. 제5항에 있어서, 상기 (b)단계는The method of claim 5, wherein step (b) (b1) 상기 입력문에 대하여 문장분할점을 생성하는 단계;(b1) generating a sentence splitting point for the input sentence; (b2) 상기 형태소별로 최적 N품사 후보를 입력으로 수신하고 상기 문할점을 경계로 구문분석을 수행하는 단계; 및(b2) receiving an optimal N part-of-speech candidate for each morpheme as an input and performing syntax analysis on the boundary of the sentence content; And (b3) 상기 (b2)단계의 구문분석 결과를 기초로 최적의 부분 트리 리스트를 생성하는 단계;를 포함하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 방법.(b3) generating an optimal partial tree list based on the parsing result of step (b2). 2. 제6항에 있어서, 상기 (b3)단계는The method of claim 6, wherein step (b3) (b31) 최적 N(N은 자연수)품사 후보의 태깅 모호성을 가지고, 병렬 및 수식구 부착을 제한하여 상기 분할문의 구문을 분석한 후 최적 부분트리 리스트를 선택하는 단계;를 포함하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 방법.(b31) having a tagging ambiguity of the best N (N is a natural number) part-of-speech candidate, analyzing the syntax of the partitioning statement by limiting parallel and modifier attachment, and selecting an optimal subtree list; Automatic translation through two-step parsing. 제5항에 있어서, 상기 (c)단계는 The method of claim 5, wherein step (c) 문장분할점, 병렬 및 수식구 부착 제약을 제거하고 전체문장에 대한 구문분석을 수행하는 단계;를 포함하는 것을 특징으로 하는 2단계 구문분석을 통한 자동 번역 방법.Removing the sentence splitting points, parallelism, and constraints, and performing syntax parsing on the entire sentence. 2. (a) 입력문에 대해 형태소를 분석한 후 형태소별 품사 후보를 결정하는 단계; (a) analyzing the morphemes for the input sentence and determining candidates for parts of speech according to the morphemes; (b) 태깅된 입력문의 문장분할을 수행한 후 분할문에 대해 동사구를 중심으로 구문분석을 수행하여 부분 트리 리스트를 생성하는 단계;(b) generating a partial tree list by performing sentence division of the tagged input statement and parsing the fragment statement around the verb phrase; (c) 상기 부분 트리 리스트에서 품사 리스트 및 기본 명사구를 인식한 후 전체문장에 대한 구문분석을 수행하는 단계; 및(c) recognizing a part-of-speech list and a basic noun phrase in the partial tree list and parsing the entire sentence; And (d) 상기 (c)단계의 수행 결과 생성되는 구문 트리를 기초로 하여 상기 입력문의 번역문을 생성하는 단계;를 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.and (d) generating a translation of the input sentence based on the syntax tree generated as a result of the step (c).
KR1020050015006A 2004-12-08 2005-02-23 Apparatus for automatic translation through 2-step syntactic analysis and method thereof KR100617318B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20040102960 2004-12-08
KR1020040102960 2004-12-08

Publications (2)

Publication Number Publication Date
KR20060064443A true KR20060064443A (en) 2006-06-13
KR100617318B1 KR100617318B1 (en) 2006-08-30

Family

ID=37160002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050015006A KR100617318B1 (en) 2004-12-08 2005-02-23 Apparatus for automatic translation through 2-step syntactic analysis and method thereof

Country Status (1)

Country Link
KR (1) KR100617318B1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792204B1 (en) * 2005-12-05 2008-01-08 한국전자통신연구원 Apparatus for automatic translation customized for restrictive domain documents, and method thereof
KR100836159B1 (en) * 2006-10-13 2008-06-09 에스케이 텔레콤주식회사 System and method for semi-automatic translating service
WO2010050675A2 (en) * 2008-10-29 2010-05-06 한국과학기술원 Method for automatically extracting relation triplets through a dependency grammar parse tree
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
KR101023210B1 (en) * 2008-12-16 2011-03-18 한국전자통신연구원 Syntactic analysis method and its apparatus
WO2014069779A1 (en) * 2012-10-31 2014-05-08 에스케이플래닛 주식회사 Syntax preprocessing-based syntax analysis apparatus, and method for same

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792204B1 (en) * 2005-12-05 2008-01-08 한국전자통신연구원 Apparatus for automatic translation customized for restrictive domain documents, and method thereof
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
KR100836159B1 (en) * 2006-10-13 2008-06-09 에스케이 텔레콤주식회사 System and method for semi-automatic translating service
WO2010050675A2 (en) * 2008-10-29 2010-05-06 한국과학기술원 Method for automatically extracting relation triplets through a dependency grammar parse tree
WO2010050675A3 (en) * 2008-10-29 2010-06-24 한국과학기술원 Method for automatically extracting relation triplets through a dependency grammar parse tree
KR101012504B1 (en) * 2008-10-29 2011-02-08 한국과학기술원 Method of extracting Triplets by searching dependency grammar setence tree
KR101023210B1 (en) * 2008-12-16 2011-03-18 한국전자통신연구원 Syntactic analysis method and its apparatus
WO2014069779A1 (en) * 2012-10-31 2014-05-08 에스케이플래닛 주식회사 Syntax preprocessing-based syntax analysis apparatus, and method for same
KR20140056753A (en) * 2012-10-31 2014-05-12 에스케이플래닛 주식회사 Apparatus and method for syntactic parsing based on syntactic preprocessing
US9620112B2 (en) 2012-10-31 2017-04-11 Sk Planet Co., Ltd. Syntax parsing apparatus based on syntax preprocessing and method thereof
US9971757B2 (en) 2012-10-31 2018-05-15 Sk Planet Co., Ltd. Syntax parsing apparatus based on syntax preprocessing and method thereof

Also Published As

Publication number Publication date
KR100617318B1 (en) 2006-08-30

Similar Documents

Publication Publication Date Title
KR100912502B1 (en) Machine translation method for PDF file
US6862566B2 (en) Method and apparatus for converting an expression using key words
Can et al. Lattice indexing for spoken term detection
KR101762866B1 (en) Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method
Rashwan et al. A stochastic Arabic diacritizer based on a hybrid of factorized and unfactorized textual features
JP3971373B2 (en) Hybrid automatic translation system that mixes rule-based method and translation pattern method
KR102013230B1 (en) Apparatus and method for syntactic parsing based on syntactic preprocessing
KR101259558B1 (en) apparatus and method for detecting sentence boundaries
JP2004038976A (en) Example-based machine translation system
KR100617318B1 (en) Apparatus for automatic translation through 2-step syntactic analysis and method thereof
Wu et al. Efficient disfluency detection with transition-based parsing
JP2006338261A (en) Translation device, translation method and translation program
Sang Transforming a Chunker to a Parser
KR101757222B1 (en) Paraphrase sentence generation method for a korean language sentence
WO2009113289A1 (en) New case generation device, new case generation method, and new case generation program
JP4476609B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
KR100420474B1 (en) Apparatus and method of long sentence translation using partial sentence frame
KR101092355B1 (en) A method for restoring named entity
Germann Making semantic interpretation parser-independent
JP2632806B2 (en) Language analyzer
JP2006127405A (en) Method for carrying out alignment of bilingual parallel text and executable program in computer
KR19990015131A (en) How to translate idioms in the English-Korean automatic translation system
Adams Dependency parsing and dialogue systems: an investigation of dependency parsing for commercial application
JP4039205B2 (en) Natural language processing system, natural language processing method, and computer program

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee