KR101740331B1

KR101740331B1 - 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법

Info

Publication number: KR101740331B1
Application number: KR1020110135901A
Authority: KR
Inventors: 노윤형; 최승권; 이기영; 권오욱; 김영길
Original assignee: 한국전자통신연구원
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2017-05-30
Also published as: KR20130068608A

Abstract

본 발명은 규칙기반 자동번역에서 패턴 추가 없이 삽입구를 포함하는 문장을 처리하고, 기존 패턴의 적용범위를 높일 수 있는 삽입구 처리 장치 및 그 방법에 관한 것이다. 규칙기반 자동번역에서 입력문이 포함하는 삽입구를 처리하는 장치는 기구축 된 번역 패턴에서 추가 가능 위치에 선택적 부사구를 추가하여 선택적 부사구 확장을 수행하는 패턴 확장부, 선택적 부사구 확장이 수행된 패턴에 대해 파싱중에 활성챠트 추가 작업을 수행하여 선택적 부사구 노드를 처리하는 선택적 부사구 처리부 및 선택적 부사구 노드를 처리한 결과를 토대로 챠트 파싱을 수행하여 삽입구를 처리하는 파싱부를 포함한다.

Description

규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법{Apparatus and method for processing parenthetical expression in rule-based machine translation}

본 발명은 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법에 관한 것이다. 보다 상세하게는 규칙기반 자동번역에서 패턴 추가 없이 삽입구를 포함하는 문장을 처리할 수 있도록 하여, 기존 패턴의 적용범위를 높일 수 있는 삽입구 처리 장치 및 그 방법에 관한 것이다.

종래의 규칙기반 자동번역 장치는 규칙 적용의 모호성 문제, 낮은 번역의 품질 문제 등으로 번역의 한계를 가지고 있다.

특히, 규칙기반 자동번역 장치는 대화체 문장을 번역하는데 있어서, 주로 어휘를 포함하는 패턴을 이용하여 분석하지 않고, 일반 구문 규칙으로 분석할 경우 매끄러운 번역이 어렵다. 이러한 문제점을 해결하기 위하여, 어휘를 포함하는 대량의 번역 패턴을 구축하여, 구축한 대량의 번역 패턴을 이용하여 번역하는 패턴 기반 번역 방식이 제시되었다.

하지만, 패턴 기반 번역 방식은 문장 내 부사구, 호격, 전치사구 등의 삽입구가 존재하는 경우, 패턴의 적용률을 현저히 떨어뜨리는 문제가 있다.

이러한 삽입구는 문장 내 여러 위치에 포함될 수 있다. 그러므로, 삽입구는 패턴 기반의 번역 방식에서 패턴 매칭 실패를 일으키고, 패턴의 적용범위를 감소시켜 번역 성능의 저하를 가져올 수다.

이와 같은 문제점을 해결하기 위해서는 패턴에 삽입구를 포함하는 경우에 대한 패턴을 추가할 필요성이 있으나, 모든 경우에 대해 삽입구를 포함하는 패턴을 생성하면 조합에 따라 그 수가 폭발적으로 증가하게 되고, 관리 및 처리가 힘들다.

다른 접근 방법으로, 입력문에서 삽입구에 해당하는 부사구 등을 제거하고, 패턴 매칭을 하여, 차후에 다시 부사구 등을 복원하는 방법이 있다. 그러나, 이 경우에도 어느 정도의 구문까지를 삽입구로 간주하고 제거해야 하는지가 문제가 된다. 또한, 구축된 패턴이 부사를 포함할 수 있으므로, 패턴의 기술력이나 적용률을 감소시킬 수 있어서 일괄적으로 부사나 삽입구를 제거할 수 없는 문제점이 있다.

본 발명의 목적은, 규칙기반 자동번역에서 패턴 추가 없이 삽입구를 포함하는 문장을 처리하고, 기존 패턴의 적용범위를 높일 수 있는 삽입구 처리 장치 및 그 방법을 제공하는 것이다.

상기 과제를 해결하기 위한 본 발명의 실시예에 따른, 규칙기반 자동번역에서 입력문이 포함하는 삽입구를 처리하는 장치는

기구축 된 번역 패턴에서 추가 가능 위치에 선택적 부사구를 추가하여 새로운 패턴을 생성하는 패턴 확장부; 상기 선택적 부사구 확장이 이루어진 패턴에 대해 선택적 부사구 노드를 처리하기 위해 파싱중에 활성 챠트를 추가하는 선택적 부사구 처리부; 및 상기 선택적 부사구 노드를 처리한 결과를 토대로 챠트 파싱을 수행하는 파싱부를 포함한다.

본 발명의 실시예에 따르면, 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법은 규칙기반 자동번역에서 패턴 추가 없이 삽입구를 포함하는 문장을 처리하고, 기존 패턴의 적용범위를 높임으로써, 자동번역의 성능 향상을 가져올 수 있다.

도 1은 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구 처리 장치를 개략적으로 나타내는 구성도이다.
도 2는 본 발명의 실시예에 따른 패턴 확장부에서의 처리 과정을 나타내는 흐름도이다.
도 3은 본 발명의 실시예에 따른 선택적 부사구 처리부에서의 처리 과정을 나타내는 흐름도이다.
도 4는 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구를 처리하는 방법을 나타내는 흐름도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하에서는, 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법에 대하여 첨부한 도면을 참고로 하여 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구 처리 장치를 개략적으로 나타내는 구성도이다.

도 1을 참고하면, 규칙기반 자동번역에서 삽입구 처리 장치는 태깅부(100), 사전 저장부(150), 패턴 확장부(200), 파싱부(300), 변환부(400) 및 생성부(500)를 포함한다. 여기서, 파싱부(300)는 선택적 부사구 처리부(350)를 포함한다.

본 발명의 실시예에 따른, 규칙기반 자동번역에서 삽입구 처리 장치는 태깅부(100), 사전 저장부(150), 패턴 확장부(200), 파싱부(300), 변환부(400) 및 생성부(500)를 모두 포함하는 것으로 도시하고 있으나, 이에 한정되지 않는다.

예를 들어, 삽입구 처리 장치는 패턴 확장부(200), 선택적 부사구 처리부(350) 및 파싱부(300) 만을 포함한다. 이때, 자동번역 장치(도시하지 않음)는 이러한 삽입구 처리 장치를 포함함으로써, 자동번역을 수행할 수 있다.

태깅부(100)는 입력문에 대하여 형태소 분석하고, 분석한 형태소 각각에 태깅을 수행한다. 여기서, 형태소는 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소 단위를 말한다.

구체적으로, 태깅부(100)는 입력문에 대하여 사전 저장부(150)가 포함하는 사전 정보를 토대로 형태소를 분석한다. 다음, 태깅부(100)는 분석한 형태소 각각에 형태소의 의미에 해당하는 태그를 적용한다.

패턴 확장부(200)는 규칙/패턴 저장부(250) 내 위치하는 규칙/패턴 정보를 토대로 번역 패턴에 대해 가능한 모든 위치에 선택적 부사구를 추가한다. 여기서, 선택적 부사구는 입력문에 부사구나 있으면 부사구로 인식되고, 없으면 그냥 다음 노드로 스킵(skip)하는 부사구이다.

다음, 패턴 확장부(200)에서 선택적 부사구(ADVP*)를 추가하는 예를 나타낸다. 이때, "VP"는 동사구를 의미한다.

{would! like to VP} -> {VP} => {would! ADVP* like ADVP* to VP}

이와 같이, 패턴 확장부(200)에서 선택적 부사구를 사용하는 것은 선택적 부사구를 사용하지 않고 모든 삽입 부사구를 처리하기 위해서 아래와 같이, 4개의 패턴이 필요하기 때문이다.

{would! like to VP }

{would! ADVP like to VP}

{would! like ADVP to VP}

{would! ADVP like ADVP to VP}

패턴의 길이가 늘어남에 따라 부사구의 삽입 가능한 위치의 수도 증가하게 되고, 생성해야 할 패턴의 수는 폭발적으로 증가하게 된다.

일반적으로, 번역을 위한 패턴은 원문 분석을 위한 분석패턴과 변환을 위한 변환패턴으로 이루어진다.

예를 들어, "{would! like to VP} -> {VP}; {would! like to VP} -> {VP:[고] 싶!}"에서, ";" 앞부분은 원문 분석을 위한 분석패턴에 해당하고, 그 이후 부분이 변환을 위한 변환패턴에 해당한다.

따라서, 패턴 확장부(200)에서 선택적 부사구를 추가하는 경우에는 분석패턴뿐만 아니라, 변환패턴도 함께 확장을 해야한다.

파싱부(300)가 포함하는 선택적 부사구 처리부(350)는 선택적 부사구 확장이 된 패턴에 대하여 활성 챠트를 추가하는 작업을 수행함으로써, 선택적 부사구 노드를 처리할 수 있다.

파싱부(300)는 선택적 부사구 노드의 처리 작업과, 규칙 및 패턴을 이용하여 챠트 파싱을 수행한다. 여기서, 규칙은 일반적인 구문 노드에 해당한다. 패턴은 "in case of" 또는 "take NP into account"와 같은 어휘를 포함하는 숙어적 표현에 해당한다.

구체적으로, 선택적 부사구 처리부(350)는 현재 인식 중인 활성(active) 챠트에서 다음으로 인식해야할 노드가 선택적 부사구인 경우, 선택적 부사구 노드를 스킵한 새로운 활성 챠트를 생성하여 활성 챠트풀에 추가한다.

따라서, 입력문의 다음 인식 단어에 부사구가 존재하는 경우에는 원래의 패턴에 의해 인식이 이루어지고, 부사구가 존재하지 않는 경우에 새로 추가된 챠트에 의해 패턴 인식이 계속 진행되는 것이다.

예를 들어, "I'd also like to discuss…"와 같은 입력문이 "would! ADVP* like ADVP* to VP"와 같은 패턴에 매칭되는 과정을 설명한다.

(1) 챠트 1; would . AVDP* like AVDP* to VP -> VP

챠트 1을 참고하면, "."은 파싱부(300)에서 차트 파싱을 수행하는 과정에서 "would"까지 매칭이 이루어 지고, 그 이후의 패턴에 대해 매칭을 시도하는 상태임을 의미한다.

챠트 1에서 다음과 같은, 챠트 2를 동시에 생성한다.

(2) 챠트 2; would AVDP* . like AVDP* to VP -> VP

다음, 입력문에서 "also"라는 부사구가 존재하므로, 챠트 1이 챠트 3과 같이 진행한다.

(3) 챠트 3: would (AVDP* also) . like AVDP* to VP -> VP

챠트 3 이후에는 챠트 4 내지 챠트 6과 같이 단어들이 차례로 매칭된다.

(4) 챠트 4: would (AVDP* also) like . AVDP* to VP -> VP

챠트 4에서 다시 선택적 부사구를 만났으므로, 이를 스킵한 새로운 챠트(챠트 5)를 생성한다.

(5) 챠트 5: would (AVDP* also) like AVDP* . to VP -> VP

다시 입력문에서 "to"를 만나므로, 챠트 5에서 매칭이 진행되고, 차트 6을 생성한다.

(6) 챠트 6: would (AVDP* also) like AVDP* to . VP -> VP

다음, 변환부(400)는 입력문에 대한 챠트 파싱이 수행되면, 챠트 파싱을 수행한 결과에 해당하는 변환패턴을 이용하여 입력문을 변환한다.

생성부(500)는 입력문을 변환한 결과를 토대로 번역 결과문을 생성하여 사용자에게 제공한다.

다음, 패턴 확장부(200)에서의 처리 과정을 도 2를 참조하여 상세하게 설명한다.

도 2는 본 발명의 실시예에 따른 패턴 확장부에서의 처리 과정을 나타내는 흐름도이다.

도 2를 참고하면, 패턴 확장부(200)는 번역 패턴에서 선택적 부사구가 삽입될 수 있는 추가 위치를 결정한다(S210). 이때, 패턴 확장부(200)에서 결정하는 추가 위치는 주로 품사에 의하여 결정된다. 예를 들어, 패턴 확장부(200)는 번역 패턴에서 예를 들어, "조동사와 동사"사이, "동사와 전치사"사이 등을 선택적 부사구가 삽입 될 수 있는 추가 위치로 결정한다. 예를 들어, 번역 패턴에서 "관사와 형용사" 사이는 추가 위치에서 제외된다.

패턴 확장부(200)는 결정한 추가 위치를 토대로 분석 패턴에 선택적 부사구 노드(ADVP*)를 추가하는 선택적 부사구 확장을 수행한다(S220).

다음, 패턴 확장부(200)는 분석패턴에 추가된 선택적 부사구에 대한 생성을 위하여 변환패턴에 노드를 추가하는 변환패턴에서의 선택적 부사구 확장을 수행한다(S230). 이때, 패턴 확장부(200)는 기본적으로 선택적 부사구를 패턴의 맨 앞에 생성되도록 한다.

S210 단계부터 S230 단계와 같이, 패턴 확장부(200)에서 패턴을 확장하는 과정 및 결과를 아래와 같다.

{would! like to VP} -> {VP}; {would! like to VP} -> {VP:[고] 싶! }

=> {would! ADVP* like ADVP* to VP} -> {VP}; {would! ADVP1 like ADVP2 to VP} -> {ADVP1 ADVP2 VP:[고] 싶!}

변환패턴에서는 ADVP1, ADVP2와 같은 인덱스를 사용하여 2개의 노드를 구분한다.

다음, 선택적 부사구 처리부(350)에서의 처리 과정을 도 3을 참조하여 상세하게 설명한다.

도 3은 본 발명의 실시예에 따른 패턴 선택적 부사구 처리부에서의 처리 과정을 나타내는 흐름도이다.

도 3을 참고하면, 선택적 부사구 처리부(350)는 현재 인식중인 활성 챠트에서 다음으로 인식해야 할 노드가 선택적 부사구인지를 판단한다(S310).

선택적 부사구 처리부(350)는 다음 노드가 선택적 부사구인 경우, 선택적 부사구를 스킵한 새로운 활성 챠트를 생성한다(S320). 다음, 선택적 부사구 처리부(350)는 생성한 새로운 활성 챠트를 활성 챠트풀에 추가한다(S330).

그러면, 입력문의 다음 인식 단어에 부사구가 존재하는 경우에는 원래의 패턴에 의해 인식이 이루어진다. 만일, 입력문의 다음 인식 단어에 부사구가 존재하지 않는 경우에는 새로 추가된 활성 챠트에 의해 패턴 인식이 계속 진행된다.

다음, 규칙기반 자동번역에서 삽입구를 처리하는 방법을 도 4를 참조하여 상세하게 설명한다.

도 4는 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구를 처리하는 방법을 나타내는 흐름도이다.

도 4를 참고하면, 규칙기반 자동번역에서 삽입구 처리 장치를 포함하는 자동번역 장치는 입력문에 대하여 형태소 분석하고, 분석한 형태소 각각에 태깅을 수행한다(S410). 여기서, 형태소는 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소 단위를 말한다.

삽입구 처리 장치를 포함하는 자동번역 장치는 기구축된 번역 패턴에 대해 가능한 모든 위치에 선택적 부사구를 추가한다(S420). 여기서, 선택적 부사구는 입력문에 부사구가 있으면 부사구로 인식되고, 없으면 그냥 다음 노드로 스킵(skip)하는 부사구이다.

구체적으로, 삽입구 처리 장치를 포함하는 자동번역 장치는 선택적 부사구를 추가하는 경우, 분석패턴뿐만 아니라 변환패턴도 함께 확장해야 한다.

삽입구 처리 장치를 포함하는 자동번역 장치는 선택적 부사구 확장이 된 패턴에 대하여 챠트를 추가하는 챠트 추가 작업을 수행한다(S430).

삽입구 처리 장치를 포함하는 자동번역 장치는 선택적 부사구 노드의 처리 작업과, 규칙 및 패턴을 이용하여 챠트 파싱을 수행한다(S440). S440 단계에서, 규칙은 일반적인 구문 노드에 해당한다. 패턴은 "in case of" 또는 "take NP into account"와 같은 어휘를 포함하는 숙어적 표현에 해당한다.

삽입구 처리 장치를 포함하는 자동번역 장치는 입력문에 대한 챠트 파싱이 수행되면, 챠트 파싱을 수행한 결과에 해당하는 변환패턴을 이용하여 입력문을 변환한다(S450).

삽입구 처리 장치는 입력문을 변환한 결과를 토대로 번역 결과문을 생성하여 사용자에게 제공한다(S460).

이하, 상기에서 설명한 규칙기반 자동번역에서 삽입구를 처리하는 방법을 통해 입력문을 자동 번역하는 전체 과정을 아래와 같은 입력문 1 및 입력문 2를 통해 설명한다.

먼저, 입력문 1은 다음과 같다.

입력문 1: I'd also like to discuss the Canadian traders.

번역패턴: { would! like to VP } -> {VP }; { would! like to VP } -> { VP:[고] 싶! }

=> 나는 캐나다 거래자에 대해 또한 논의하기를 좋아했을 것이다.

이와 같이, 종래의 번역 방법은 "also" 때문에 패턴 매칭에 실패했다.

다음, 본 발명의 실시예에 따른 삽입구 처리 방법을 입력문 1에 적용하여 간략하게 설명한다.

① 패턴에서 부사 삽입 가능한 위치에 ADVP* 삽입.

{would! like to VP } -> {VP}; {would! like to VP} -> {VP:[고] 싶!}

=> {would! ADVP* like ADVP* to VP} -> {VP}; {would! ADVP1 like ADVP2 to VP} -> {ADVP1 ADVP2 VP: [고] 싶!}

② "also"가 ADVP*에 매칭되어 패턴이 적용

I (VP would (ADVP* also) like ADVP* to (VP discuss the Canadian traders))

③ 변환 및 생성 수행

I (VP would (ADVP1 also) like ADVP2 to (VP discuss the Canadian traders))

-> 변환패턴 적용: "ADVP1 ADVP2 VP: [고] 싶!"

번역 결과문: 나는 캐나다 거래자에 대해 또한 논의하고 싶습니다.

입력문 2는 다음과 같다.

입력문2: We agreed in principle to a broker client transaction.

{agree!:[epos == [vb]] to NP} -> {VP}; {agree! to NP:[sem==[인간]] } -> {NP:[에게] 동의하!};{agree! to NP} -> {NP:[에] 동의하!}

=> 우리는 브로커 클라이언트 거래에 원칙적으로 일치했습니다.

이와 같이, 종래의 번역 방법은 "in principle" 때문에 패턴 매칭에 실패했다.

다음, 본 발명의 실시예에 따른 삽입구 처리 방법을 입력문 2에 적용하여 간략하게 설명한다.

① 패턴에서 부사 삽입 가능한 위치에 ADVP* 삽입.

{agree!:[epos == [vb]] to NP } -> {VP }; { agree! to NP:[sem==[인간]] } -> { NP:[에게] 동의하! };{ agree! to NP } -> { NP:[에] 동의하! }

=> {agree!:[epos == [vb]] ADVP* to NP} -> {VP }; {agree! ADVP1 to NP:[sem==[인간]] } -> { NP:[에게] ADVP1 동의하!};{agree! ADVP1 to NP} -> { NP:[에] ADVP1 동의하!}

② "in principle"이 ADVP로 추가

We agreed (ADVP in principle) to a broker client transaction.

③ "in principle"이 ADVP*에 매칭되어 패턴이 적용

We (VP agreed (ADVP* in principle) to (VP a broker client transaction)).

④ 변환 및 생성 수행

변환패턴 적용: {agree! ADVP1 to NP} -> {NP:[에] ADVP1 동의하!}

번역 결과문: 우리는 브로커 클라이언트 거래에 원칙적으로 동의했습니다.

이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하에서는, 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법에 대하여 첨부한 도면을 참고로 하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구 처리 장치를 개략적으로 나타내는 구성도이다.
도 1을 참고하면, 규칙기반 자동번역에서 삽입구 처리 장치는 태깅부(100), 사전 저장부(150), 패턴 확장부(200), 파싱부(300), 변환부(400) 및 생성부(500)를 포함한다. 여기서, 파싱부(300)는 선택적 부사구 처리부(350)를 포함한다.
본 발명의 실시예에 따른, 규칙기반 자동번역에서 삽입구 처리 장치는 태깅부(100), 사전 저장부(150), 패턴 확장부(200), 파싱부(300), 변환부(400) 및 생성부(500)를 모두 포함하는 것으로 도시하고 있으나, 이에 한정되지 않는다.
예를 들어, 삽입구 처리 장치는 패턴 확장부(200), 선택적 부사구 처리부(350) 및 파싱부(300) 만을 포함한다. 이때, 자동번역 장치(도시하지 않음)는 이러한 삽입구 처리 장치를 포함함으로써, 자동번역을 수행할 수 있다.
태깅부(100)는 입력문에 대하여 형태소 분석하고, 분석한 형태소 각각에 태깅을 수행한다. 여기서, 형태소는 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소 단위를 말한다.
구체적으로, 태깅부(100)는 입력문에 대하여 사전 저장부(150)가 포함하는 사전 정보를 토대로 형태소를 분석한다. 다음, 태깅부(100)는 분석한 형태소 각각에 형태소의 의미에 해당하는 태그를 적용한다.
패턴 확장부(200)는 규칙/패턴 저장부(250) 내 위치하는 규칙/패턴 정보를 토대로 번역 패턴에 대해 가능한 모든 위치에 선택적 부사구를 추가한다. 여기서, 선택적 부사구는 입력문에 부사구나 있으면 부사구로 인식되고, 없으면 그냥 다음 노드로 스킵(skip)하는 부사구이다.
다음, 패턴 확장부(200)에서 선택적 부사구(ADVP*)를 추가하는 예를 나타낸다. 이때, "VP"는 동사구를 의미한다.
{would! like to VP} -> {VP} => {would! ADVP* like ADVP* to VP}
이와 같이, 패턴 확장부(200)에서 선택적 부사구를 사용하는 것은 선택적 부사구를 사용하지 않고 모든 삽입 부사구를 처리하기 위해서 아래와 같이, 4개의 패턴이 필요하기 때문이다.
{would! like to VP }
{would! ADVP like to VP}
{would! like ADVP to VP}
{would! ADVP like ADVP to VP}
패턴의 길이가 늘어남에 따라 부사구의 삽입 가능한 위치의 수도 증가하게 되고, 생성해야 할 패턴의 수는 폭발적으로 증가하게 된다.
일반적으로, 번역을 위한 패턴은 원문 분석을 위한 분석패턴과 변환을 위한 변환패턴으로 이루어진다.
예를 들어, "{would! like to VP} -> {VP}; {would! like to VP} -> {VP:[고] 싶!}"에서, ";" 앞부분은 원문 분석을 위한 분석패턴에 해당하고, 그 이후 부분이 변환을 위한 변환패턴에 해당한다.
따라서, 패턴 확장부(200)에서 선택적 부사구를 추가하는 경우에는 분석패턴뿐만 아니라, 변환패턴도 함께 확장을 해야한다.
파싱부(300)가 포함하는 선택적 부사구 처리부(350)는 선택적 부사구 확장이 된 패턴에 대하여 활성 챠트를 추가하는 작업을 수행함으로써, 선택적 부사구 노드를 처리할 수 있다.
파싱부(300)는 선택적 부사구 노드의 처리 작업과, 규칙 및 패턴을 이용하여 챠트 파싱을 수행한다. 여기서, 규칙은 일반적인 구문 노드에 해당한다. 패턴은 "in case of" 또는 "take NP into account"와 같은 어휘를 포함하는 숙어적 표현에 해당한다.
구체적으로, 선택적 부사구 처리부(350)는 현재 인식 중인 활성(active) 챠트에서 다음으로 인식해야할 노드가 선택적 부사구인 경우, 선택적 부사구 노드를 스킵한 새로운 활성 챠트를 생성하여 활성 챠트풀에 추가한다.
따라서, 입력문의 다음 인식 단어에 부사구가 존재하는 경우에는 원래의 패턴에 의해 인식이 이루어지고, 부사구가 존재하지 않는 경우에 새로 추가된 챠트에 의해 패턴 인식이 계속 진행되는 것이다.
예를 들어, "I'd also like to discuss…"와 같은 입력문이 "would! ADVP* like ADVP* to VP"와 같은 패턴에 매칭되는 과정을 설명한다.
(1) 챠트 1; would . AVDP* like AVDP* to VP -> VP
챠트 1을 참고하면, "."은 파싱부(300)에서 차트 파싱을 수행하는 과정에서 "would"까지 매칭이 이루어 지고, 그 이후의 패턴에 대해 매칭을 시도하는 상태임을 의미한다.
챠트 1에서 다음과 같은, 챠트 2를 동시에 생성한다.
(2) 챠트 2; would AVDP* . like AVDP* to VP -> VP
다음, 입력문에서 "also"라는 부사구가 존재하므로, 챠트 1이 챠트 3과 같이 진행한다.
(3) 챠트 3: would (AVDP* also) . like AVDP* to VP -> VP
챠트 3 이후에는 챠트 4 내지 챠트 6과 같이 단어들이 차례로 매칭된다.
(4) 챠트 4: would (AVDP* also) like . AVDP* to VP -> VP
챠트 4에서 다시 선택적 부사구를 만났으므로, 이를 스킵한 새로운 챠트(챠트 5)를 생성한다.
(5) 챠트 5: would (AVDP* also) like AVDP* . to VP -> VP
다시 입력문에서 "to"를 만나므로, 챠트 5에서 매칭이 진행되고, 차트 6을 생성한다.
(6) 챠트 6: would (AVDP* also) like AVDP* to . VP -> VP
다음, 변환부(400)는 입력문에 대한 챠트 파싱이 수행되면, 챠트 파싱을 수행한 결과에 해당하는 변환패턴을 이용하여 입력문을 변환한다.
생성부(500)는 입력문을 변환한 결과를 토대로 번역 결과문을 생성하여 사용자에게 제공한다.
다음, 패턴 확장부(200)에서의 처리 과정을 도 2를 참조하여 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 패턴 확장부에서의 처리 과정을 나타내는 흐름도이다.
도 2를 참고하면, 패턴 확장부(200)는 번역 패턴에서 선택적 부사구가 삽입될 수 있는 추가 위치를 결정한다(S210). 이때, 패턴 확장부(200)에서 결정하는 추가 위치는 주로 품사에 의하여 결정된다. 예를 들어, 패턴 확장부(200)는 번역 패턴에서 예를 들어, "조동사와 동사"사이, "동사와 전치사"사이 등을 선택적 부사구가 삽입 될 수 있는 추가 위치로 결정한다. 예를 들어, 번역 패턴에서 "관사와 형용사" 사이는 추가 위치에서 제외된다.
패턴 확장부(200)는 결정한 추가 위치를 토대로 분석 패턴에 선택적 부사구 노드(ADVP*)를 추가하는 선택적 부사구 확장을 수행한다(S220).
다음, 패턴 확장부(200)는 분석패턴에 추가된 선택적 부사구에 대한 생성을 위하여 변환패턴에 노드를 추가하는 변환패턴에서의 선택적 부사구 확장을 수행한다(S230). 이때, 패턴 확장부(200)는 기본적으로 선택적 부사구를 패턴의 맨 앞에 생성되도록 한다.
S210 단계부터 S230 단계와 같이, 패턴 확장부(200)에서 패턴을 확장하는 과정 및 결과를 아래와 같다.
{would! like to VP} -> {VP}; {would! like to VP} -> {VP:[고] 싶! }
=> {would! ADVP* like ADVP* to VP} -> {VP}; {would! ADVP1 like ADVP2 to VP} -> {ADVP1 ADVP2 VP:[고] 싶!}
변환패턴에서는 ADVP1, ADVP2와 같은 인덱스를 사용하여 2개의 노드를 구분한다.
다음, 선택적 부사구 처리부(350)에서의 처리 과정을 도 3을 참조하여 상세하게 설명한다.
도 3은 본 발명의 실시예에 따른 패턴 선택적 부사구 처리부에서의 처리 과정을 나타내는 흐름도이다.
도 3을 참고하면, 선택적 부사구 처리부(350)는 현재 인식중인 활성 챠트에서 다음으로 인식해야 할 노드가 선택적 부사구인지를 판단한다(S310).
선택적 부사구 처리부(350)는 다음 노드가 선택적 부사구인 경우, 선택적 부사구를 스킵한 새로운 활성 챠트를 생성한다(S320). 다음, 선택적 부사구 처리부(350)는 생성한 새로운 활성 챠트를 활성 챠트풀에 추가한다(S330).
그러면, 입력문의 다음 인식 단어에 부사구가 존재하는 경우에는 원래의 패턴에 의해 인식이 이루어진다. 만일, 입력문의 다음 인식 단어에 부사구가 존재하지 않는 경우에는 새로 추가된 활성 챠트에 의해 패턴 인식이 계속 진행된다.
다음, 규칙기반 자동번역에서 삽입구를 처리하는 방법을 도 4를 참조하여 상세하게 설명한다.
도 4는 본 발명의 실시예에 따른 규칙기반 자동번역에서 삽입구를 처리하는 방법을 나타내는 흐름도이다.
도 4를 참고하면, 규칙기반 자동번역에서 삽입구 처리 장치를 포함하는 자동번역 장치는 입력문에 대하여 형태소 분석하고, 분석한 형태소 각각에 태깅을 수행한다(S410). 여기서, 형태소는 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소 단위를 말한다.
삽입구 처리 장치를 포함하는 자동번역 장치는 기구축된 번역 패턴에 대해 가능한 모든 위치에 선택적 부사구를 추가한다(S420). 여기서, 선택적 부사구는 입력문에 부사구가 있으면 부사구로 인식되고, 없으면 그냥 다음 노드로 스킵(skip)하는 부사구이다.
구체적으로, 삽입구 처리 장치를 포함하는 자동번역 장치는 선택적 부사구를 추가하는 경우, 분석패턴뿐만 아니라 변환패턴도 함께 확장해야 한다.
예를 들어, "{would! like to VP} -> {VP}; {would! like to VP} -> {VP:[고] 싶!}"에서, ";" 앞부분은 원문 분석을 위한 분석패턴에 해당하고, 그 이후 부분이 변환을 위한 변환패턴에 해당한다.
삽입구 처리 장치를 포함하는 자동번역 장치는 선택적 부사구 확장이 된 패턴에 대하여 챠트를 추가하는 챠트 추가 작업을 수행한다(S430).
삽입구 처리 장치를 포함하는 자동번역 장치는 선택적 부사구 노드의 처리 작업과, 규칙 및 패턴을 이용하여 챠트 파싱을 수행한다(S440). S440 단계에서, 규칙은 일반적인 구문 노드에 해당한다. 패턴은 "in case of" 또는 "take NP into account"와 같은 어휘를 포함하는 숙어적 표현에 해당한다.
삽입구 처리 장치를 포함하는 자동번역 장치는 입력문에 대한 챠트 파싱이 수행되면, 챠트 파싱을 수행한 결과에 해당하는 변환패턴을 이용하여 입력문을 변환한다(S450).
삽입구 처리 장치는 입력문을 변환한 결과를 토대로 번역 결과문을 생성하여 사용자에게 제공한다(S460).
이하, 상기에서 설명한 규칙기반 자동번역에서 삽입구를 처리하는 방법을 통해 입력문을 자동 번역하는 전체 과정을 아래와 같은 입력문 1 및 입력문 2를 통해 설명한다.
먼저, 입력문 1은 다음과 같다.
입력문 1: I'd also like to discuss the Canadian traders.
번역패턴: { would! like to VP } -> {VP }; { would! like to VP } -> { VP:[고] 싶! }
=> 나는 캐나다 거래자에 대해 또한 논의하기를 좋아했을 것이다.
이와 같이, 종래의 번역 방법은 "also" 때문에 패턴 매칭에 실패했다.
다음, 본 발명의 실시예에 따른 삽입구 처리 방법을 입력문 1에 적용하여 간략하게 설명한다.
① 패턴에서 부사 삽입 가능한 위치에 ADVP* 삽입.
{would! like to VP } -> {VP}; {would! like to VP} -> {VP:[고] 싶!}
=> {would! ADVP* like ADVP* to VP} -> {VP}; {would! ADVP1 like ADVP2 to VP} -> {ADVP1 ADVP2 VP: [고] 싶!}
② "also"가 ADVP*에 매칭되어 패턴이 적용
I (VP would (ADVP* also) like ADVP* to (VP discuss the Canadian traders))
③ 변환 및 생성 수행
I (VP would (ADVP1 also) like ADVP2 to (VP discuss the Canadian traders))
-> 변환패턴 적용: "ADVP1 ADVP2 VP: [고] 싶!"
번역 결과문: 나는 캐나다 거래자에 대해 또한 논의하고 싶습니다.
입력문 2는 다음과 같다.
입력문2: We agreed in principle to a broker client transaction.
{agree!:[epos == [vb]] to NP} -> {VP}; {agree! to NP:[sem==[인간]] } -> {NP:[에게] 동의하!};{agree! to NP} -> {NP:[에] 동의하!}
=> 우리는 브로커 클라이언트 거래에 원칙적으로 일치했습니다.
이와 같이, 종래의 번역 방법은 "in principle" 때문에 패턴 매칭에 실패했다.
다음, 본 발명의 실시예에 따른 삽입구 처리 방법을 입력문 2에 적용하여 간략하게 설명한다.
① 패턴에서 부사 삽입 가능한 위치에 ADVP* 삽입.
{agree!:[epos == [vb]] to NP } -> {VP }; { agree! to NP:[sem==[인간]] } -> { NP:[에게] 동의하! };{ agree! to NP } -> { NP:[에] 동의하! }
=> {agree!:[epos == [vb]] ADVP* to NP} -> {VP }; {agree! ADVP1 to NP:[sem==[인간]] } -> { NP:[에게] ADVP1 동의하!};{agree! ADVP1 to NP} -> { NP:[에] ADVP1 동의하!}
② "in principle"이 ADVP로 추가
We agreed (ADVP in principle) to a broker client transaction.
③ "in principle"이 ADVP*에 매칭되어 패턴이 적용
We (VP agreed (ADVP* in principle) to (VP a broker client transaction)).
④ 변환 및 생성 수행
변환패턴 적용: {agree! ADVP1 to NP} -> {NP:[에] ADVP1 동의하!}
번역 결과문: 우리는 브로커 클라이언트 거래에 원칙적으로 동의했습니다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

규칙기반 자동번역에서 입력문이 포함하는 삽입구를 처리하는 장치에 있어서,
입력문에 대하여 형태소를 분석하고, 분석한 상기 형태소 각각에 태깅을 수행하는 태깅부;
상기 입력문에 대응하는 번역 패턴에서 추가 가능 위치에 선택적 부사구를 추가하고, 원문을 분석하기 위한 분석패턴 및 변환을 위한 변환패턴에 상응하는 선택적 부사구 확장을 수행하는 추가패턴 확장부;
상기 선택적 부사구 확장이 수행된 패턴에 대해 챠트 추가 작업을 수행하여 선택적 부사구 노드를 처리하는 선택적 부사구 처리부;
상기 선택적 부사구 노드를 처리한 결과를 토대로 챠트 파싱을 수행하는 파싱부;
상기 입력문에 대한 챠트 파싱의 수행 결과에 상응하는 변환패턴을 이용하여 상기 입력문을 변환하는 변환부; 및
상기 입력문의 변환 결과를 이용하여 번역 결과문을 생성하고, 생성된 상기 번역 결과문을 출력하는 생성부
를 포함하는 규칙기반 자동번역에서 삽입구 처리 장치.
삭제
제1항에 있어서,
상기 추가패턴 확장부는,
상기 번역 패턴에서 선택적 부사구가 삽입될 수 있는 추가 위치를 결정하고, 상기 추가 위치를 기반으로 상기 분석패턴에 선택적 부사구를 추가하며, 상기 추가된 선택적 부사구를 생성하기 위하여 상기 변환패턴에서의 선택적 부사구 확장을 수행하는 규칙기반 자동번역에서 삽입구 처리 장치.
제1항에 있어서,
상기 선택적 부사구 처리부는,
다음 노드가 상기 선택적 부사구인 경우, 상기 선택적 부사구를 스킵한 새로운 능동 챠트를 생성하고, 생성된 상기 새로운 능동 챠트를 기 저장된 챠트 목록에 추가하는 규칙기반 자동번역에서 삽입구 처리 장치.
제1항에 있어서,
사전 정보를 저장하는 사전 저장부를 더 포함하며,
상기 태깅부는,
상기 사전 저장부에 저장된 상기 사전 정보를 이용하여 상기 형태소를 분석하고, 분석된 상기 형태소 각각에 상기 형태소의 의미에 상응하는 태그를 적용하는 규칙기반 자동번역에서 삽입구 처리 장치.
제1항에 있어서,
상기 선택적 부사구는,
상기 입력문에 부사구가 있으면 부사구로 인식되고, 상기 입력문에 부사구가 없으면 상기 부사구로 인식되지 않고, 다음 노드가 처리되도록 하는 것을 특징으로 하는 규칙기반 자동번역에서 삽입구 처리 장치.
자동번역에서 삽입구 처리 장치에 의한 삽입구 처리 방법에 있어서,
입력문에 대하여 형태소를 분석하고, 분석한 상기 형태소 각각에 태깅을 수행하는 단계;
상기 입력문에 대응하는 번역 패턴에서 추가 가능 위치에 선택적 부사구를 추가하고, 원문을 분석하기 위한 분석패턴 및 변환을 위한 변환패턴에 상응하는 선택적 부사구 확장을 수행하는 단계;
상기 선택적 부사구 확장이 수행된 패턴에 대해 챠트 추가 작업을 수행하여 선택적 부사구 노드를 처리하는 단계;
상기 선택적 부사구 노드를 처리한 결과를 토대로 챠트 파싱을 수행하여 상기 삽입구를 처리하는 단계;
상기 입력문에 대한 챠트 파싱의 수행 결과에 상응하는 변환패턴을 이용하여 상기 입력문을 변환하는 단계; 및
상기 입력문의 변환 결과를 이용하여 번역 결과문을 생성하고, 생성된 상기 번역 결과문을 출력하는 단계
를 포함하는 규칙기반 자동번역에서 삽입구 처리 방법.
삭제
제7항에 있어서,
상기 선택적 부사구 확장을 수행하는 단계는,
상기 번역 패턴에서 선택적 부사구가 삽입될 수 있는 추가 위치를 결정하는 단계;
상기 추가 위치를 기반으로 상기 분석패턴에 선택적 부사구를 추가하는 단계; 및
상기 추가된 선택적 부사구를 생성하기 위하여 상기 변환패턴에서의 선택적 부사구 확장을 수행하는 단계
를 포함하는 규칙기반 자동번역에서 삽입구 처리 방법.
제7항에 있어서,
상기 선택적 부사구 노드를 처리하는 단계는,
다음 노드가 상기 선택적 부사구인 경우, 상기 선택적 부사구를 스킵한 새로운 능동 챠트를 생성하는 단계; 및
생성된 상기 새로운 능동 챠트를 기 저장된 챠트 목록에 추가하는 단계
를 포함하는 규칙기반 자동번역에서 삽입구 처리 방법.